Ciencia de datos

¿Media, mediana o moda en variables ordinales? Guía práctica para el análisis de datos

Cuando comenzamos un análisis de datos, uno de los primeros pasos suele ser resumir las variables mediante medidas de tendencia central: la media, la mediana y la moda. Estas estadísticas nos ayudan a identificar el valor “típico” o más representativo de un conjunto de datos. Sin embargo, no todas las variables son iguales, y la elección de la medida más adecuada depende de la naturaleza de cada una. En particular, las variables ordinales representan un desafío especial por su combinación única de orden y limitaciones cuantitativas.

En esta entrada abordaremos una pregunta fundamental sobre los análisis que se pueden o deben realizar sobre este tipo de variables:

¿Tiene sentido calcular la media de una variable ordinal? ¿O es más adecuado usar la mediana o la moda?

Para lo que explicaremos qué representa cada medida en el contexto de las variables ordinales, cuándo es justificable utilizar una u otra y te mostraremos ejemplos prácticos que puedes aplicar fácilmente en tus análisis. Al finalizar, contarás con una base sólida para decidir cómo tratar las variables ordinales en tus encuestas, estudios o informes.

¿Qué son las variables ordinales?

Las variables ordinales son un tipo de variable categórica cuyas categorías poseen un orden lógico o jerárquico, pero sin una escala numérica que permita medir con precisión la distancia entre ellas. Esto las diferencia claramente de los otros dos tipos de variables:

  • Nominales: no tienen un orden definido (por ejemplo, género, color).
  • Cuantitativas: tienen orden y permiten medir intervalos (por ejemplo, edad, ingresos).

A continuación, se muestran algunos ejemplos comunes de variables ordinales:

VariableCategorías (ordenadas)
Nivel educativoPrimaria < Secundaria < Universidad < Posgrado
SatisfacciónMuy insatisfecho < Insatisfecho < Neutral < Satisfecho < Muy satisfecho
Frecuencia de usoNunca < A veces < Frecuentemente < Siempre
CalificaciónMuy malo < Malo < Regular < Bueno < Excelente

Aunque estas categorías a menudo se codifican con números (por ejemplo, del 1 al 5), estos números solo representan el orden, no una magnitud real. Es decir, un “4” no es necesariamente el doble de un “2”, ni la diferencia entre “3” y “4” implica lo mismo que entre “4” y “5”.

¿Por qué es tan importante la falta de intervalos constantes en las variables ordinales?

La ausencia de intervalos constantes entre categorías implica que operaciones como sumar o promediar —fundamentales para calcular la media— pueden carecer de sentido teórico en este tipo de variables. Por eso, es crucial evaluar cuidadosamente qué medida de tendencia central utilizar cuando trabajamos con variables ordinales.

La media: ¿es válida para variables ordinales?

Probablemente la medida más conocida en estadística, pero… ¿tiene sentido usarla en variables ordinales?

¿Qué implica calcular la media?

La media aritmética se obtiene sumando todos los valores y dividiendo entre el número total de observaciones. Este cálculo asume que los valores representan cantidades reales con intervalos constantes, una suposición que no se cumple necesariamente en las variables ordinales.

Ejemplo práctico

Supongamos una encuesta de satisfacción con una escala de 1 a 5:

  • 1 = Muy insatisfecho
  • 2 = Insatisfecho
  • 3 = Neutral
  • 4 = Satisfecho
  • 5 = Muy satisfecho

Con los siguientes datos: [3, 4, 4, 5, 2, 3, 4, 4, 5, 3]

La media sería: \frac{3 + 4 + 4 + 5 + 2 + 3 + 4 + 4 + 5 + 3}{10} = 3,7

Aquí surge el problema: 3,7 no es una categoría real. ¿Qué significa estar “en un punto intermedio” entre Neutral (3) y Satisfecho (4)? La interpretación es ambigua porque estamos asumiendo que las diferencias entre niveles son constantes, algo que no siempre se puede justificar.

¿Cuándo puede usarse la media?

Aunque teóricamente discutible, en la práctica la media puede ser útil en ciertos contextos, como:

  • Cuando la escala tiene cinco o más niveles, lo que la hace comportarse aproximadamente como una variable continua.
  • Si las categorías parecen equitativamente espaciadas, como en algunas escalas Likert bien diseñadas.
  • Para comparar grupos, aun si no podemos interpretar el valor absoluto con precisión.

Por ejemplo:

  • Jóvenes: media = 4,2
  • Adultos: media = 3,5

Esto sugiere mayor satisfacción entre los jóvenes. Aunque no podamos afirmar cuánto más satisfechos están, sí nos da una idea clara de la tendencia general. Lo mismo ocurre al comparar productos o servicios: si un artículo tiene una media de 4,6 y otro de 3,8, podemos inferir que el primero genera más satisfacción, aunque no podamos cuantificar esa diferencia con precisión.

Riesgos al usar la media en variables ordinales

Aplicar la media a variables ordinales conlleva ciertos riesgos que conviene tener en cuenta al interpretar los resultados:

  • Falsa precisión: Un valor como 3,7 parece exacto, pero no corresponde a una categoría definida.
  • Distorsión: En distribuciones sesgadas o polarizadas (por ejemplo, muchas valoraciones de 1 y 5), la media puede ocultar patrones importantes.
  • Mala toma de decisiones: Basarse exclusivamente en la media puede llevar a conclusiones equivocadas, sobre todo si no se acompaña de otras estadísticas.

Recomendación

Si decides usar la media, hazlo con cautela y ten en cuenta los siguientes puntos:

  • Asegúrate de que la escala tenga suficientes niveles.
  • Acompaña la media con otras medidas (como la mediana o la distribución de frecuencias).
  • Sé consciente de que no estás midiendo cantidades reales, sino promedios de códigos simbólicos.

En resumen, la media puede ofrecer información útil, pero su validez depende del contexto y de cómo se interprete.

La mediana: la opción más robusta

En comparación con la media, la mediana es una alternativa más robusta, especialmente útil cuando hay valores extremos o distribuciones asimétricas. Pero, ¿tiene sentido usarla en variables ordinales? La respuesta es , y con buena razón.

¿Qué es la mediana?

La mediana es el valor central de un conjunto de datos ordenados: divide la distribución en dos mitades, dejando el 50 % de los valores por debajo y el 50 % por encima.

A diferencia de la media, no necesita asumir que los intervalos entre categorías son iguales, solo requiere que las observaciones están ordenadas. Esto la convierte en una medida ideal para variables ordinales.

Ejemplo práctico

Si volvemos sobre el ejemplo de datos del ejemplo usado en la media se tiene los datos originales: [3, 4, 4, 5, 2, 3, 4, 4, 5, 3]

Para obtener la mediana es necesario ordenarlos: [2, 3, 3, 3, 4, 4, 4, 4, 5, 5]

En este caso, como el número de electos es par, la mediana se calcula tomando el promedio del 5º y 6º valor: \text{Mediana} = \frac{4 + 4}{2} = 4
$$

Resultado: 4Satisfecho

En el caso de que las opciones fueran impares, el resultado sería simplemente el valor en el medio de los ordenados.

Ventajas claras frente a la media

A diferencia de la media (que daba 3,7), la mediana ofrece las siguientes ventajas a la hora de interpretar el resultado:

  • Es una categoría real (salvo empate que sería el punto intermedio de dos categorías).
  • No asume intervalos iguales.
  • Es robusta frente a valores extremos o asimetrías.
  • Refleja el punto central real de la distribución.
  • Siempre está en la escala original, facilitando así su interpretación.

Estas características hacen que la mediana sea más fiel al tipo de datos ordinales.

¿Y si hay empates?

Es común que en escalas ordinales haya muchas respuestas repetidas, especialmente en encuestas con opciones como “Neutral” o “Satisfecho”.

En estos casos, la mediana sigue siendo válida y útil. Sin embargo, puede resultar informativo complementar con la moda, especialmente si se quiere entender cuál fue la respuesta más frecuente.

La moda: simple y directa

Posiblemente el estadístico más sencillo de entender. Pero, ¿es una buena opción para variables ordinales?

¿Qué es la moda?

La moda es simplemente la categoría que más se repite. No necesita orden ni intervalos: solo cuenta ocurrencias.

Ejemplo práctico

Volviendo sobre el ejemplo visto en las secciones anteriores, los datos que se tienen son: [3, 4, 4, 5, 2, 3, 4, 4, 5, 3]

De los que se pueden obtener las frecuencias de cada uno:

  • 2: 1
  • 3: 3
  • 4: 4
  • 5: 2

Moda: 4Satisfecho

Ventajas

Las principales ventajas de la moda son:

  • Fácil de calcular e interpretar
  • Siempre corresponde a una categoría real (aquí si hay empate tendremos una distribución multimodal)
  • Útil para detectar respuestas mayoritarias o consensos

Limitaciones

A pesar de sus ventajas, la moda no está exenta de problemas:

  • Puede haber múltiples modas (bimodal, multimodal)
  • No considera el orden entre categorías

Comparación: ¿cuál elegir?

En la siguiente tabla se muestra una comparación entre los diferentes estadísticos en función de las características del conjunto de datos que se está estudiando:

CaracterísticaMediaMedianaModa
Requiere intervalos iguales✅ Sí❌ No❌ No
Necesita orden✅ Sí✅ Sí❌ No
Valor real en la escala❌ No✅ Sí✅ Sí
Robusta ante extremos❌ No✅ Sí✅ Sí
Recomendado para ordinales⚠️ Con reservas✅ Sí✅ Como complemento

Guía práctica

En resumen, usa cada estadístico en función de lo que quieras analizar en tus datos:

  • Mediana: Tu medida principal para representar el centro.
  • Moda: Complemento útil para ver cuál fue la opción más popular.
  • ⚠️ Media: Solo si tienes una buena justificación (poco habitual).

Conclusiones

Las variables ordinales tienen orden, pero no distancias iguales entre categorías. Esto limita el uso de algunas medidas estadísticas.

  • La mediana es la opción más robusta y representativa.
  • La moda aporta una perspectiva clara y fácil de entender.
  • La media puede ser engañosa y se debe usar con mucha precaución.

Recomendación final: usa la mediana como medida principal, acompáñala con la moda para enriquecer el análisis y evita depender exclusivamente de la media.

Nota: La imagen de este artículo fue generada utilizando un modelo de inteligencia artificial.

¿Te ha parecido de utilidad el contenido?

Daniel Rodríguez

Share
Published by
Daniel Rodríguez

Recent Posts

Data Lake y Data Warehouse: diferencias, usos y cómo se complementan en la era del dato

En la era del dato, las organizaciones se enfrentan al reto de gestionar volúmenes masivos…

5 días ago

Documentar tu API de Express con TypeScript usando OpenAPI (Swagger)

En la serie Creación de una API REST con Express y TypeScript construimos una API…

1 semana ago

Curiosidad: El sesgo de supervivencia, o por qué prestar atención sólo a los que “llegaron” puede engañarte

Durante la Segunda Guerra Mundial, la Fuerza Aérea de Estados Unidos quería reforzar sus aviones…

2 semanas ago

Cómo abrir una ventana de Chrome con tamaño y posición específicos desde la línea de comandos en Windows

En muchas situaciones —ya sea para grabar un tutorial, tomar capturas de pantalla profesionales, probar…

2 semanas ago

La Paradoja del Cumpleaños, o por qué no es tan raro compartir fecha de nacimiento

Imagínate en una sala con un grupo de personas, por ejemplo, en una oficina, un…

3 semanas ago

Programador de tareas de Windows: Guía definitiva para automatizar tu trabajo (BAT, PowerShell y Python)

En el trabajo diario con ordenadores, es común encontrarse con tareas repetitivas: realizar copias de…

3 semanas ago

This website uses cookies.