
En casi cualquier análisis estadístico —ya sea en medicina, psicología, economía o ciencia de datos— hay un valor que aparece como juez supremo: el famoso p < 0.05.
Si el valor p es menor que 0.05, decimos que el resultado es ”estadísticamente significativo”. Pero… ¿por qué ese número y no otro como 0.01 o 0.10? ¿Tiene algún fundamento teórico o fue elegido al azar?
La historia es más curiosa (y más humana) de lo que parece.
Un poco de historia: Ronald Fisher y el 0.05
El origen del umbral de 0.05 se remonta a los años 1920, gracias al estadístico británico Ronald A. Fisher, considerado uno de los padres de la estadística moderna.
En su libro “Statistical Methods for Research Workers” (1925), Fisher propuso que un valor p menor a 0.05 podría considerarse evidencia razonable contra la hipótesis nula. No fue una imposición rígida, sino más bien una sugerencia pragmática: un punto de referencia cómodo para decidir cuándo un resultado merecía atención.
¿Y por qué 0.05? No hay una razón matemática sagrada detrás del número. Fisher lo eligió por conveniencia: era un compromiso entre ser demasiado estricto (como p < 0.01) y demasiado permisivo (como p < 0.10). Además, permitía detectar efectos reales sin exigir cantidades enormes de datos, algo muy importante en una época donde no existan las computadoras.
Sin embargo, lo que comenzó como una guía flexible se transformó con el tiempo en una regla rígida. A lo largo de las décadas, p < 0.05 se convirtió en el estándar informal para juzgar la validez de resultados científicos. En muchos campos, obtener un valor p por debajo de 0.05 se volvió prácticamente obligatorio para publicar un estudio.
¿Qué significa realmente p < 0.05?
El valor p (o valor de probabilidad) representa la probabilidad de obtener un resultado igual o más extremo que el observado, bajo la suposición de que la hipótesis nula es cierta.
Así que cuando decimos que p < 0.05, estamos aceptando una probabilidad del 5 % de cometer un error tipo I: es decir, rechazar una hipótesis verdadera por puro azar. Es como decir: “Estoy dispuesto a correr un pequeño riesgo —del 5 %— de equivocarme si eso me permite detectar un efecto real”.
Pero esto también significa que 1 de cada 20 resultados “significativos” podría ser simplemente ruido estadístico. Y cuando se hacen miles de pruebas —como en genética, estudios clínicos o pruebas de hipótesis múltiples— ese pequeño margen se acumula rápidamente.
Una reflexión final: ¿debemos seguir usando p < 0.05?
Aunque el p-valor sigue siendo una herramienta útil, muchos expertos en estadística y ciencia han cuestionado la obsesión con el 0.05. Algunos proponen ajustar el umbral según el contexto, otros sugieren emplear directamente los tamaños del efecto y los intervalos de confianza, y hay quien pide dejar de usar el p-valor como único criterio de decisión.
Después de todo, la significación estadística no implica relevancia práctica, y un resultado “no significativo” no siempre significa que no haya un efecto. Como tantas cosas en ciencia, la interpretación exige juicio, contexto y pensamiento crítico.
En resumen: p < 0.05 cambió la forma en que hacemos ciencia, pero entender sus límites es tan importante como saber calcularlo.
Nota: La imagen de este artículo fue generada utilizando un modelo de inteligencia artificial.
Deja una respuesta