Curiosidad: La Paradoja de Simpson, o por qué no siempre debes fiarte de los promedios

En ciencia de datos y estadística, los promedios y porcentajes son herramientas fundamentales para resumir información… pero a veces pueden jugarte una mala pasada. La Paradoja de Simpson es uno de esos casos fascinantes donde los datos nos muestran una verdad a medias, o incluso directamente equivocada, dependiendo de cómo los agrupamos.

Se trata de un fenómeno en el que una tendencia que aparece claramente en varios grupos separados desaparece o se invierte cuando los datos se combinan. ¿Cómo es posible? La respuesta está en las variables ocultas y en la forma en que agregamos los datos.

Un ejemplo clásico (y real): tratamientos médicos

Supón que estás analizando la eficacia de dos tratamientos para una enfermedad, A y B, diferenciando por sexo. Los datos muestran lo siguiente:

En hombres:
- Tratamiento A: 90% de éxito
- Tratamiento B: 85% de éxito
En mujeres:
- Tratamiento A: 75% de éxito
- Tratamiento B: 70% de éxito

Hasta aquí, A gana claramente en ambos grupos. Pero al combinar los datos sin distinción de sexo, aparece un giro inesperado en los resultados del estudio:

En total:
- Tratamiento A: 78% de éxito
- Tratamiento B: 80% de éxito

¡Ahora B parece mejor!

Esto ocurre, por ejemplo, si A se aplicó principalmente en casos graves (más comunes en mujeres, donde tuvo menor éxito relativo), y B se usó más en casos leves. Así, el promedio global está sesgado por la distribución desigual de los grupos.

¿Por qué sucede esto?

La clave de la Paradoja de Simpson está en una variable oculta o de agrupamiento —como el sexo, la gravedad del caso, la edad, etc.— que influye fuertemente en los resultados. Si ignoramos esta variable y simplemente combinamos los datos, estamos mezclando peras con manzanas, lo que lleva a conclusiones engañosas.

La paradoja nos obliga a considerar algo fundamental en análisis de datos:

La forma en que agrupamos y desglosamos los datos afecta directamente a las conclusiones que podemos sacar.

¿Qué implicaciones tiene?

La Paradoja de Simpson es más que una curiosidad estadística. Puede tener consecuencias reales y graves en múltiples áreas:

Medicina: Decidir qué tratamiento usar según análisis incorrectos.
Educación: Evaluar la eficacia de programas sin tener en cuenta factores socioeconómicos.
Justicia: Interpretar estadísticas de arrestos sin considerar distribución demográfica.
Negocios: Sacar conclusiones erróneas de métricas de rendimiento sin segmentar por cliente o canal.

Incluso ha jugado un papel en debates históricos: uno de los ejemplos más citados es el caso de admisión a la Universidad de California, Berkeley, en los años 70, donde los datos agregados sugerían discriminación contra mujeres, pero los análisis por departamentos revelaban lo contrario (¡otra vez la paradoja en acción!).

¿Cómo evitar caer en la trampa?

Para evitar caer en la trampa de la Paradoja de Simpson es importante seguir los siguientes pasos al realizar cualquier análisis de datos:

Segmenta siempre que puedas: Analiza subgrupos relevantes antes de sacar conclusiones globales.
Busca variables de confusión: ¿Hay algo que pueda estar afectando los resultados además de lo que estás midiendo?
Visualiza los datos: Un buen gráfico puede mostrarte relaciones que los promedios ocultan.
Hazte la pregunta incómoda: ¿Y si el patrón desaparece al desagregar?
Consulta con cuidado: Nunca confíes ciegamente en un solo resumen estadístico.

Conclusión

La Paradoja de Simpson es un recordatorio de que los datos no solo deben ser recopilados y analizados, sino también interpretados con contexto. Lo que parece una tendencia sólida puede volverse completamente falsa al mirar más de cerca.

En el mundo de la ciencia de datos, donde las decisiones pueden tener grandes repercusiones, reconocer estas paradojas no es solo interesante: es fundamental para no tomar decisiones equivocadas con datos que “parecen” correctos.

Nota: La imagen de este artículo fue generada utilizando un modelo de inteligencia artificial.

Curiosidad: La Paradoja de Simpson, o por qué no siempre debes fiarte de los promedios

Un ejemplo clásico (y real): tratamientos médicos

¿Por qué sucede esto?

¿Qué implicaciones tiene?

¿Cómo evitar caer en la trampa?

Conclusión

Analytics Lane

Secciones

Sobre de Analytics Lane

Un ejemplo clásico (y real): tratamientos médicos

¿Por qué sucede esto?

¿Qué implicaciones tiene?

¿Cómo evitar caer en la trampa?

Conclusión

Publicaciones relacionadas

Interacciones con los lectores

Deja una respuesta Cancelar la respuesta

Footer

Analytics Lane

Secciones

Sobre de Analytics Lane