El test A/B es el método más democrático para tomar decisiones de producto. No requiere un investigador senior, no es caro y habla el idioma que le gusta al negocio: números. También es uno de los métodos más fáciles de equivocar: la mayoría de los tests A/B que se hacen en las empresas están contaminados por errores estadísticos o por un mal planteamiento, y producen decisiones que nunca deberían haberse tomado.
Este artículo te acompaña a través del test A/B bien hecho en 2026: cómo formular una hipótesis que valga la pena testear, cómo estimar el tamaño de la muestra, qué herramientas usar hoy (distintas de las de hace cinco años) y cómo reconocer resultados que parecen ganadores pero no lo son.
Qué aprenderás leyendo:
- Qué es realmente un test A/B y cuándo tiene sentido hacerlo
- Cómo se formulan hipótesis testeables y métricas primarias
- Las herramientas de test A/B más usadas en 2026
- Cómo evitar los 5 errores estadísticos más comunes
- Ejemplos reales de tests que cambiaron productos famosos
Qué es un test A/B y qué no es
Un test A/B (o split test) compara dos versiones de un elemento — una página, un botón, un copy, un flujo — mostrándolas aleatoriamente a dos grupos de usuarios similares y midiendo cuál genera mejores resultados en una métrica definida antes del test.
El corazón metodológico es la aleatorización: si divides a los usuarios de forma verdaderamente aleatoria, las diferencias observadas entre A y B pueden atribuirse con alta probabilidad a la diferencia de diseño, no a otras variables. Es un experimento controlado aplicado a la práctica de producto.
Qué no es un test A/B:
- No es "probar algo durante dos semanas y ver si va mejor que el mes pasado". Eso es una comparación pre/post, con mil variables incontroladas.
- No es "mostrar la variante nueva a 100 personas y preguntar cuál prefieren". Eso es un test de preferencia, no un test A/B de comportamiento.
- No es "lanzar la nueva funcionalidad y mirar las métricas". Eso es un rollout, no un experimento.
El test A/B mide el comportamiento real, no las opiniones. Esa es su fortaleza.
Cuándo tiene sentido hacer un test A/B
Tres condiciones que tienen que cumplirse a la vez para que merezca la pena.
1. Tienes volumen suficiente. Un test A/B necesita miles de conversiones para detectar diferencias pequeñas (5-10%). Si tu sitio tiene 200 visitas al día y 5 conversiones, tendrías que esperar meses por un solo test. Por debajo de cierto umbral, los tests cualitativos (tests de usabilidad con 5 personas) producen más insight con menos riesgo.
2. El efecto esperado es relevante. Probar si "cambiar el color del botón de azul a verde" aumenta la conversión un 0,3% es técnicamente posible pero casi nunca es rentable. Concéntrate en cambios que puedan producir efectos del 10-30% o más sobre la métrica objetivo.
3. Tienes una métrica primaria clara. "Queremos mejorar la experiencia" no es una métrica. "Aumentar la tasa de checkout completado desde el carrito" sí lo es. Una métrica por test, punto.
Si falta una sola de las tres condiciones, el test A/B es probablemente la herramienta equivocada. Mejor un test de usabilidad, una entrevista o un lanzamiento progresivo sin pretensiones estadísticas.
Cómo diseñar un test A/B serio
Fase 1: formular la hipótesis
Una hipótesis fuerte siempre tiene esta estructura:
Si cambio [elemento] por [variante], entonces [métrica] cambiará en [dirección y magnitud esperadas] porque [razonamiento basado en datos o research].
Ejemplo malo: "Probemos un botón rojo a ver si funciona mejor."
Ejemplo bueno: "Si muevo el botón 'Completar pedido' por encima del pliegue en móvil, la tasa de finalización del checkout aumentará al menos un 15%, porque las grabaciones de sesión muestran que el 40% de los usuarios móviles nunca llega a scrollear hasta el botón actual."
La buena hipótesis tiene razonamiento, magnitud esperada y fuente de la intuición. Sin esas tres cosas estás testeando a ciegas.
Fase 2: dimensionar la muestra
La pregunta clave: ¿cuántas conversiones necesito para detectar un efecto del X% con una confianza estadística del 95%?
La fórmula es compleja, pero las calculadoras gratuitas la resuelven en 10 segundos:
- Calculadora de Evan Miller — la referencia clásica
- Calculadora VWO — versión más amigable
Ejemplo concreto: si tu tasa de conversión actual es del 5% y quieres detectar una mejora absoluta del 1% (es decir, llevarla al 6%), necesitas aproximadamente 6.300 visitas por variante con una confianza del 95% y una potencia estadística del 80%.
El mensaje importante: dimensiona antes, no después. Los tests "parados en cuanto parece que alguien va ganando" son una de las principales fuentes de falsos positivos.
Fase 3: configurar el test en la herramienta
Elige una herramienta (ver sección más abajo) y define:
- URL objetivo (o flujo en caso de test mobile/app)
- Variante A (control, el diseño actual)
- Variante B (tu hipótesis)
- Métrica primaria (y solo una primaria)
- Métricas secundarias (2-3 como máximo, para control)
- Porcentaje de tráfico dirigido al test (normalmente 50/50)
- Duración mínima del test (basada en la muestra necesaria)
Fase 4: dejar correr el test sin tocarlo
La regla de oro: no mires los resultados antes del final previsto. Cada vez que espías y tomas una decisión sobre datos parciales introduces sesgo de interrupción que invalida el test.
Duración mínima recomendada: al menos 2 semanas completas, aunque los números lleguen antes. Esto cubre los ciclos semanales (usuarios de fin de semana vs. usuarios entre semana) que en casi todos los productos muestran comportamientos distintos.
Fase 5: analizar y decidir
Al final del test, lee los resultados:
- ¿La diferencia es estadísticamente significativa? (p-value < 0,05 es el umbral clásico)
- ¿La diferencia es relevante en la práctica? Un test puede ser estadísticamente significativo pero con un efecto demasiado pequeño para justificar el rollout.
- ¿Las métricas secundarias confirman la historia? Si la tasa de clic sube pero el bounce rate sube más, algo está mal en el planteamiento.
Decisión: implementas la variante ganadora, o paras todo si no hay un ganador claro.
Las herramientas de test A/B en 2026
El panorama ha cambiado mucho en los últimos años. Google Optimize (gratuito) fue descontinuado en 2023, y eso ha empujado al mercado hacia soluciones de pago más especializadas.
Enterprise y scale-ups
- Optimizely — el más completo para empresas con volúmenes altos. Web, mobile, feature flags, full-stack testing. Precio enterprise. Usado por scale-ups como Glovo y Cabify.
- VWO — alternativa más accesible a Optimizely, con una suite completa que incluye grabación de sesiones y heatmaps. Precios a partir de unos cientos de dólares al mes, muy popular entre e-commerce en México y Colombia.
- AB Tasty — plataforma europea con buen cumplimiento del RGPD y de la LOPDGDD española, muy usada por retailers en España.
Feature flags y testing server-side
- LaunchDarkly — el estándar para feature flagging, con capacidades de test A/B server-side integradas. Pensado para equipos de producto tech, adoptado por NuBank y Rappi.
- Statsig — alternativa más reciente, muy usada por startups tech como Kavak y Bnext, con un tier gratuito generoso.
- GrowthBook — open source, self-hostable, ideal para quien quiere control total sobre los datos, requisito habitual bajo la AEPD y la LFPDPPP mexicana.
Pequeñas empresas y prototipos
- Convert.com — gama media, fácil de usar, buena opción para e-commerce, popular en tiendas Shopify de España y LATAM.
- Microsoft Clarity — gratuito. No es propiamente una herramienta de test A/B, pero ofrece grabación de sesiones y heatmaps para alimentar las hipótesis.
UX research focalizado
- Maze — tests de usabilidad no moderados que pueden funcionar como tests de preferencia; no sustituye a un A/B comportamental puro.
Para profundizar en las herramientas de research no moderada lee la guía de herramientas de unmoderated testing.
Los errores estadísticos más comunes
Cinco trampas que invalidan una cantidad enorme de tests en las empresas:
1. Peeking (espiar los resultados)
Mirar los resultados cada día y parar el test "en cuanto parece que B ha ganado" es una de las maneras más rápidas de convencerte de que una variante peor es mejor. Cada interrupción anticipada infla la tasa de falsos positivos.
Solución: fija la duración antes del test y no mires resultados parciales. Si tienes que mirar, usa herramientas con corrección secuencial (tests bayesianos, análisis secuencial por grupos).
2. Probar cambios demasiado pequeños
Probar si "el botón debe ser #3A7CF5 o #3B7EF6" es una pérdida de tiempo: las diferencias cromáticas muy pequeñas no producen efectos detectables con los volúmenes habituales. Prueba hipótesis grandes, no detalles.
3. Varios tests en la misma página a la vez
Si testeas A/B en el botón y a la vez A/B en el titular, las variantes se entrelazan y ya no puedes atribuir efectos. Un test a la vez por área de producto — o tests multivariantes (MVT) estructurados, si tienes el know-how para diseñarlos.
4. Ignorar las métricas de guardrail
Un test que aumenta el click-through puede bajar la calidad de los leads. Un test que aumenta los registros puede aumentar el churn. Define siempre métricas de contrapeso y monitorízalas.
5. No considerar el efecto novedad
Cuando muestras una variante nueva, muchos usuarios la clican simplemente porque es diferente. Este efecto novedad se desvanece en 1-2 semanas. Si tu test dura menos, atribuirás al diseño lo que solo es curiosidad momentánea.
Ejemplos reales de tests A/B que cambiaron productos
Obama 2008: el test que cambió las donaciones políticas
La campaña presidencial de Obama en 2008 ejecutó uno de los tests A/B más célebres de la historia del digital. La página de suscripción a la newsletter (y donaciones) tenía 6 variantes: diferentes imágenes (foto vs vídeo de Obama) y diferentes textos en el botón CTA ("Sign Up", "Learn More", "Join Us Now", "Sign Up Now").
La combinación ganadora (foto familiar + botón "Learn More") produjo una mejora del 40% en las tasas de suscripción. Multiplicado por el tráfico total de la campaña, generó aproximadamente 288 millones de dólares de donaciones adicionales frente al baseline, según el análisis post-campaña de Dan Siroker, entonces Director of Analytics de la campaña y más tarde fundador de Optimizely.
Airbnb: el matching que destraba la reserva
Airbnb tiene una cultura de tests A/B extrema: cada cambio significativo en el producto pasa por un test. Uno de los más conocidos tuvo que ver con el renderizado de los resultados de búsqueda: mostrar precios totales (con fees) en lugar de precios por noche redujo la tasa de abandono del carrito pero también redujo los clics en los primeros resultados. El trade-off se aceptó porque la métrica primaria (reservas completadas) mejoró.
Booking.com: mil experimentos en paralelo
Booking.com, en su pico de crecimiento, ejecutaba literalmente miles de experimentos en paralelo — un nivel de sofisticación posible solo con tráfico enorme e infraestructura dedicada. La lección compartida públicamente en su blog de ingeniería: "la mayoría de tus tests ganadores estarán en el orden del 1-2% de mejora, no del 20%. Desconfía de los resultados demasiado buenos para ser verdad."
Empresas como Mercado Libre, Wallapop y Factorial aplican hoy el mismo principio en sus equipos de experimentación.
Preguntas frecuentes
¿Cuánto dura un test A/B típico?
Depende del volumen. Para un sitio con volúmenes medios (10.000 visitas al día) un test típico dura 2-4 semanas. Para volúmenes bajos puede alargarse a 6-8 semanas. Para volúmenes muy altos (Booking, Amazon) un test puede concluir en 2-3 días.
¿Puedo hacer tests A/B con Google Analytics?
Google Analytics 4 no es una herramienta de test A/B: mide el comportamiento de los usuarios pero no aleatoriza el tráfico entre variantes. Necesitas una herramienta dedicada (Optimizely, VWO, Statsig, etc.) que después puede enviar los datos de los experimentos a GA4 para análisis integrados.
¿Test A/B y test de usabilidad son alternativos?
No, son complementarios. El test de usabilidad (5 personas, moderado) descubre por qué un diseño no funciona. El test A/B (miles de usuarios, comportamental) mide cuánto funciona una solución. Los mejores equipos de producto en empresas como Glovo y Mercado Libre usan ambos en secuencia: tests de usabilidad para generar hipótesis, tests A/B para validarlas a escala.
¿Hace falta un estadístico para hacer tests A/B?
Para tests simples no: las herramientas modernas gestionan la matemática. Para tests complejos (MVT, segmentaciones, cross-device) la consultoría de un estadístico o un data scientist marca una diferencia enorme — tanto en la interpretación de los resultados como en evitar errores.
¿Qué diferencia hay entre test A/B y test multivariante (MVT)?
Un test A/B compara dos variantes de un único elemento. Un MVT compara muchas combinaciones de varios elementos a la vez (ej. 3 titulares × 3 imágenes × 2 botones = 18 variantes). Los MVT requieren volúmenes mucho más altos — de media 5-10 veces más tráfico que un test A/B simple.
¿Puedo hacer tests A/B con volúmenes pequeños sin estadística formal?
Sí, pero tienes que ser honesto sobre la naturaleza del resultado. Un "mini test A/B" con unos cientos de usuarios puede dar indicaciones cualitativas — "quizás B funciona mejor" — pero no pruebas estadísticas. Es más parecido a un test de preferencia extendido. Lee la guía al test de preferencia para el método cualitativo equivalente.
Próximos pasos
El test A/B es una herramienta poderosa pero que hay que usar en el momento correcto del ciclo de producto. Tres consejos prácticos:
- No empieces por aquí: antes de los tests cuantitativos, haz tests de usabilidad cualitativos para entender los problemas reales
- Lee la guía completa sobre user research para enmarcar el test A/B en el panorama de los métodos disponibles
- Estudia la ley de Hick y los otros principios cognitivos para formular hipótesis más fuertes sobre el comportamiento de los usuarios
En el Curso de User Research de CorsoUX, el test A/B es uno de los métodos que enseñamos junto a entrevistas, tests de usabilidad moderados y no moderados, con ejercicios prácticos sobre productos reales supervisados por mentores que hacen research cada día en empresas de España y LATAM.



