Python

Trabajar con datos faltantes con Seaborn

Los datos faltantes son un desafío a la hora de realizar casi cualquier análisis de datos. Si no se tiene en cuenta la falta de valores en algunos registros pueden aparecer sesgos en los resultados y una reducción de la precisión de los estadísticos. Lo que dificulta la interpretación de los resultados. Por eso es importante identificar la presencia de estos registros en los conjuntos de datos antes de realizar cualquier análisis. Veamos cómo se puede identificar la presencia de datos faltantes con Seaborn

Conjunto de datos de ejemplo

Entre los conjuntos de datos de ejemplo que se incluyen en Seaborn uno de los que presenta más datos faltantes es Titanic. El conjunto de datos se puede importar directamente mediante la función load_dataset() de Seaborn, lo que se muestra en el siguiente ejemplo.

import seaborn as sns
import matplotlib.pyplot as plt

# Cargar el conjunto de datos
titanic = sns.load_dataset("titanic")

# Mostrar las primeras filas del conjunto de datos
print(titanic.head(6))

   survived  pclass     sex   age  sibsp  parch     fare embarked  class  \
0         0       3    male  22.0      1      0   7.2500        S  Third   
1         1       1  female  38.0      1      0  71.2833        C  First   
2         1       3  female  26.0      0      0   7.9250        S  Third   
3         1       1  female  35.0      1      0  53.1000        S  First   
4         0       3    male  35.0      0      0   8.0500        S  Third   
5         0       3    male   NaN      0      0   8.4583        Q  Third   

     who  adult_male deck  embark_town alive  alone  
0    man        True  NaN  Southampton    no  False  
1  woman       False    C    Cherbourg   yes  False  
2  woman       False  NaN  Southampton   yes   True  
3  woman       False    C  Southampton   yes  False  
4    man        True  NaN  Southampton    no   True  
5    man        True  NaN   Queenstown    no   True

En esta muestra de datos se pude ver como existe un valor nulo en la columna age, pero esto es algo que se debe analizar en más detalle para conocer si existe un problema con esta variable.

Identificar datos faltantes con Seaborn

Una vez importado cualquier conjunto de datos es necesario analizar la presencia de datos faltantes. Saber si existen y en qué variables y registros se encuentran. Seaborn ofrece una forma sencilla de visualizar los valores faltantes mediante la creación de mapas de calor, lo que se hace con la función heatmap(). Para el conjunto de datos Titanic se puede crear la gráfica con el siguiente código.

# Crear un mapa de calor de los valores faltantes
sns.heatmap(titanic.isnull(), cbar=False)

# Mostrar el mapa de calor
plt.show()

Mapa de calor que muestra la presencia de datos faltantes con Seaborn

En este ejemplo se ha representado mediante la función de mapa de calor (heatmap()) los valores que son nulos, obtenidos mediante el método isnull(). Cuando existe un valor faltante este se dibuja en blanco, mientras que en caso contrario el color de la gracia es negro. Por lo tanto, se puede ver que las variables con mayor presencia de valores nulos son age y deck.

Esta es una gráfica como la que se puede crear con la biblioteca Missingno. Aunque Seaborn, a pesar de tener menos opciones, es una biblioteca que suele estar instalada en las instalaciones de Python que se usan para análisis de datos.

Eliminar datos faltantes

Ahora que se conoce la presencia de datos faltantes en el conjunto de datos se pueden eliminar las filas o columnas que los contienen. Algo que en Pandas se puede hacer con el método dropna(). En el siguiente ejemplo se indica que se eliminan los registros que contienen datos faltantes en la columna age y se vuelve a crear el mapa de calor.

# Eliminar filas con datos faltantes en la columna age
data_cleaned = titanic.dropna(subset=['age'])

# Mostrar las primeras filas del conjunto de datos limpio
print(data_cleaned.head(6))

# Crear un mapa de calor de los valores faltantes
sns.heatmap(data_cleaned.isnull(), cbar=False)

# Mostrar el mapa de calor
plt.show()

   survived  pclass     sex   age  sibsp  parch     fare embarked  class  \
0         0       3    male  22.0      1      0   7.2500        S  Third   
1         1       1  female  38.0      1      0  71.2833        C  First   
2         1       3  female  26.0      0      0   7.9250        S  Third   
3         1       1  female  35.0      1      0  53.1000        S  First   
4         0       3    male  35.0      0      0   8.0500        S  Third   
6         0       1    male  54.0      0      0  51.8625        S  First   

     who  adult_male deck  embark_town alive  alone  
0    man        True  NaN  Southampton    no  False  
1  woman       False    C    Cherbourg   yes  False  
2  woman       False  NaN  Southampton   yes   True  
3  woman       False    C  Southampton   yes  False  
4    man        True  NaN  Southampton    no   True  
6    man        True    E  Southampton    no   True

Mapa de calor que muestra cómo se han eliminados los datos faltantes en la coluna age

Como se puede ver en los datos y la gráfica ya no existen valores nulos en la columna age. Nótese que en este caso el número de registros es menor, ya que los registros con datos faltantes se han eliminado, por lo que los resultados con este conjunto de datos modificado también pueden estar afectados por el sesgo que introduce la presencia de datos faltantes.

Imputar datos faltantes

Otra opción es reemplazar los valores faltantes con valores imputados. Al igual que en el caso anterior esto es algo que se puede hacer fácilmente con los métodos de Pandas, por ejemplo, se puede crear una nueva columna con la edad en la que a los valores faltantes se les impute la media.

# Imputar los valores faltantes en una columna específica con la media
titanic['age_imputed'] = titanic['age'].fillna(titanic['age'].mean())

# Mostrar las primeras filas del conjunto de datos con los valores imputados
print(titanic.head(6))

# Crear un mapa de calor de los valores faltantes
sns.heatmap(titanic.isnull(), cbar=False)

# Mostrar el mapa de calor
plt.show()

   survived  pclass     sex   age  sibsp  parch     fare embarked  class  \
0         0       3    male  22.0      1      0   7.2500        S  Third   
1         1       1  female  38.0      1      0  71.2833        C  First   
2         1       3  female  26.0      0      0   7.9250        S  Third   
3         1       1  female  35.0      1      0  53.1000        S  First   
4         0       3    male  35.0      0      0   8.0500        S  Third   
5         0       3    male   NaN      0      0   8.4583        Q  Third   

     who  adult_male deck  embark_town alive  alone  age_imputed  
0    man        True  NaN  Southampton    no  False    22.000000  
1  woman       False    C    Cherbourg   yes  False    38.000000  
2  woman       False  NaN  Southampton   yes   True    26.000000  
3  woman       False    C  Southampton   yes  False    35.000000  
4    man        True  NaN  Southampton    no   True    35.000000  
5    man        True  NaN   Queenstown    no   True    29.699118

Mapa de calor que muestra donde se pude comprar la columna age con la columna age_imputed en la que se ha imputado la media a valores nulos.

En este caso también se puede ver que en la columna age_imputed tampoco hay datos faltantes, pero sin la necesidad de eliminar registros.

Conclusiones

Analizar la presencia de datos faltantes con Seaborn es algo que se puede hacer de forma sencilla gracias a los mapas de calor. Una tarea que es clave antes de realizar cualquier análisis de datos. Aunque Seaborn no cuenta con funciones para tratar estos datos, tampoco es su finalidad, los datos faltantes se puede tratar fácilmente mediante los métodos de Pandas.

Daniel Rodríguez

Next Cómo crear gráficos múltiples en Seaborn »

Previous « Creación de gráficos de residuos en Seaborn para análisis de regresión

Published by

Daniel Rodríguez

Tags: Seaborn

3 años ago

Cómo comparar datos con barras en Matplotlib: agrupadas, apiladas y porcentuales
Tienes los datos de ventas de tres productos en dos años distintos y quieres saber…
Subplots en Matplotlib: cómo organizar múltiples gráficos en una sola figura
Llevas un rato analizando datos y tienes cuatro gráficos abiertos en ventanas separadas: ventas, usuarios,…
Cómo comparar tendencias con gráficos de líneas en Matplotlib: guía práctica paso a paso
Tienes los datos de tráfico web de los últimos cinco meses desglosados por canal: orgánico,…

Cómo Comparar Dos Hipotecas con Todos los Gastos Incluidos

Comparar dos hipotecas parece sencillo: la que tenga el TIN más bajo es la mejor…

4 días ago

Ciencia de datos

Segmentación RFM: cómo clasificar tu cartera de clientes antes de calcular el CLV

En un artículo anterior vimos la fórmula clásica del CLV junto a sus limitaciones. Una…

6 días ago

Opinión

Los récords con asterisco, o la épica del titular sin contexto – El bestiario de los indicadores económicos absurdos (parte 8 y final)

Y llegamos al final de una serie que había programado para ser de tres entradas.…

2 semanas ago

Ciencia de datos

PSI: Cómo Saber Cuándo tu Modelo de Credit Scoring se ha Degradado

Un modelo de credit scoring no es un artefacto estático. Se construye en un momento…

2 semanas ago

Opinión

Los indicadores que se autocumplen, o cuando medir es modificar – El bestiario de los indicadores económicos absurdos (parte 7)

En las seis entregas anteriores hemos paseado por casi todos los géneros del disparate económico:…

3 semanas ago

Ciencia de datos

Customer Lifetime Value: la fórmula clásica que todo analista debería dominar

El Customer Lifetime Value (CLV) es, probablemente, la métrica más importante que puede calcular una…