Python

Visualización de valores faltantes con Missingno

Uno de los problemas más habituales en los conjuntos de datos es la existencia de valores nulos o faltantes (missing values). La existencia de estos valores suele ser una señal de una mala calidad de datos, lo que afecta a la calidad de los posibles modelos que se pueden construir a partir de ellos, por lo que es necesario conocer el volumen del problema lo antes posible. Para gestionar el problema o, en caso de que sea necesario, utilizar algunos de los métodos de imputación de valores faltantes. En Python, Pandas proporciona algunas funciones básicas para analizar el problema. La biblioteca de Missingno va un paso más allá al ofrecer herramientas para la visualización de valores faltantes. Permitiendo con unas simples gráficas identificar dónde se ubican los valores faltantes en cada característica y ver la correlación que existe entre ellos.

Instalación y datos de ejemplo

Como es habitual en Python para instalar Missingno la opción más sencilla es recurrir al comando pip y escribir el siguiente comando en la terminal

pip install missingno

Para evaluar el funcionamiento de Missingno se puede trabajar con el conjunto de datos planets de Seaborn. El cual contiene el método de descubrimiento, el número, el periodo orbital, la masa, la distancia y el año de descubrimiento de 1035 exoplanetas. Como se muestra a continuación en este conjunto de datos existen múltiples valores faltantes debido a que no se conoce el periodo orbital, la masa o la distancia de muchos planetas.

import pandas as pd
from seaborn import load_dataset

planets = load_dataset("planets")

planets.isna().sum()
method              0
number              0
orbital_period     43
mass              522
distance          227
year                0
dtype: int64

Visualización de valores faltantes

La función matrix de Missingno permite ver de una forma visual dónde se encuentran los valores nulos en un conjunto de datos. Función a la que únicamente se le debe pasar el conjunto de datos.

import missingno as msno

msno.matrix(planets)
Visualización de valores faltantes en el conjunto de datos planets

En la gráfica se puede ver cinco columnas, cada una de las cuales se corresponde con una característica. En cada una de las columnas las líneas blancas indican la posición de los valores faltantes Observándose que los valores faltantes son un problema habitual para la masa.

Además de esto, el gráfico situado a la derecha indica la completitud de los datos, indicando las filas con mayor y menor número de valores faltantes.

Evaluar la correlación entre valores faltantes

En la gráfica anterior se puede ver que cuando no existen valores para la distancia es habitual que tampoco exista para la masa. Algo que sucede con algunos métodos de descubrimiento. Por eso suele ser interesante comprobar si existe correlación entre los valores faltantes. Para esto se puede usar la función heatmap() que solamente requiere el conjunto de datos como parámetro.

msno.heatmap(planets)
Visualización la correlación existente entre los valores faltantes de diferentes características

En esta gráfica se puede ver fácilmente el nivel de correlación entre los valores nulos de las diferentes características. Tal como indica la barra de la derecha, el nivel de correlación positiva entre dos valores se indica mediante la intensidad de azul. Siendo especialmente alta entre la masa y la distancia.

Visualización de la cantidad de valores válidos

Finalmente, Missingno también cuenta con una gráfica para visualizar la cantidad de valores nulos que existe en cada una de las características. Esto es, ver su nivel de completitud. Para lo que se debe usar la función bar().

msno.bar(planets)
Visualización de la cantidad de valores no nulos para cada una de las diferentes características

En este caso las barras muestran el número de valores que no faltan y su valor se indica al principio.

Conclusiones

En esta ocasión se ha visto una librera para la visualización de valores faltantes en Python. Gracias a las tres gráficas de esta es relativamente fácil ver cuando existe un problema de valores faltantes en el conjunto de datos sobre el que se está trabajando en cada momento.

¿Te ha parecido de utilidad el contenido?

Daniel Rodríguez

Share
Published by
Daniel Rodríguez

Recent Posts

Data Lake y Data Warehouse: diferencias, usos y cómo se complementan en la era del dato

En la era del dato, las organizaciones se enfrentan al reto de gestionar volúmenes masivos…

2 días ago

Documentar tu API de Express con TypeScript usando OpenAPI (Swagger)

En la serie Creación de una API REST con Express y TypeScript construimos una API…

4 días ago

Curiosidad: El sesgo de supervivencia, o por qué prestar atención sólo a los que “llegaron” puede engañarte

Durante la Segunda Guerra Mundial, la Fuerza Aérea de Estados Unidos quería reforzar sus aviones…

1 semana ago

Cómo abrir una ventana de Chrome con tamaño y posición específicos desde la línea de comandos en Windows

En muchas situaciones —ya sea para grabar un tutorial, tomar capturas de pantalla profesionales, probar…

2 semanas ago

La Paradoja del Cumpleaños, o por qué no es tan raro compartir fecha de nacimiento

Imagínate en una sala con un grupo de personas, por ejemplo, en una oficina, un…

2 semanas ago

Programador de tareas de Windows: Guía definitiva para automatizar tu trabajo (BAT, PowerShell y Python)

En el trabajo diario con ordenadores, es común encontrarse con tareas repetitivas: realizar copias de…

3 semanas ago

This website uses cookies.