Python

Trabajar con datos faltantes con Seaborn

Los datos faltantes son un desafío a la hora de realizar casi cualquier análisis de datos. Si no se tiene en cuenta la falta de valores en algunos registros pueden aparecer sesgos en los resultados y una reducción de la precisión de los estadísticos. Lo que dificulta la interpretación de los resultados. Por eso es importante identificar la presencia de estos registros en los conjuntos de datos antes de realizar cualquier análisis. Veamos cómo se puede identificar la presencia de datos faltantes con Seaborn

Conjunto de datos de ejemplo

Entre los conjuntos de datos de ejemplo que se incluyen en Seaborn uno de los que presenta más datos faltantes es Titanic. El conjunto de datos se puede importar directamente mediante la función load_dataset() de Seaborn, lo que se muestra en el siguiente ejemplo.

import seaborn as sns
import matplotlib.pyplot as plt

# Cargar el conjunto de datos
titanic = sns.load_dataset("titanic")

# Mostrar las primeras filas del conjunto de datos
print(titanic.head(6))
   survived  pclass     sex   age  sibsp  parch     fare embarked  class  \
0         0       3    male  22.0      1      0   7.2500        S  Third   
1         1       1  female  38.0      1      0  71.2833        C  First   
2         1       3  female  26.0      0      0   7.9250        S  Third   
3         1       1  female  35.0      1      0  53.1000        S  First   
4         0       3    male  35.0      0      0   8.0500        S  Third   
5         0       3    male   NaN      0      0   8.4583        Q  Third   

     who  adult_male deck  embark_town alive  alone  
0    man        True  NaN  Southampton    no  False  
1  woman       False    C    Cherbourg   yes  False  
2  woman       False  NaN  Southampton   yes   True  
3  woman       False    C  Southampton   yes  False  
4    man        True  NaN  Southampton    no   True  
5    man        True  NaN   Queenstown    no   True 

En esta muestra de datos se pude ver como existe un valor nulo en la columna age, pero esto es algo que se debe analizar en más detalle para conocer si existe un problema con esta variable.

Identificar datos faltantes con Seaborn

Una vez importado cualquier conjunto de datos es necesario analizar la presencia de datos faltantes. Saber si existen y en qué variables y registros se encuentran. Seaborn ofrece una forma sencilla de visualizar los valores faltantes mediante la creación de mapas de calor, lo que se hace con la función heatmap(). Para el conjunto de datos Titanic se puede crear la gráfica con el siguiente código.

# Crear un mapa de calor de los valores faltantes
sns.heatmap(titanic.isnull(), cbar=False)

# Mostrar el mapa de calor
plt.show()
Mapa de calor que muestra la presencia de datos faltantes con Seaborn

En este ejemplo se ha representado mediante la función de mapa de calor (heatmap()) los valores que son nulos, obtenidos mediante el método isnull(). Cuando existe un valor faltante este se dibuja en blanco, mientras que en caso contrario el color de la gracia es negro. Por lo tanto, se puede ver que las variables con mayor presencia de valores nulos son age y deck.

Esta es una gráfica como la que se puede crear con la biblioteca Missingno. Aunque Seaborn, a pesar de tener menos opciones, es una biblioteca que suele estar instalada en las instalaciones de Python que se usan para análisis de datos.

Eliminar datos faltantes

Ahora que se conoce la presencia de datos faltantes en el conjunto de datos se pueden eliminar las filas o columnas que los contienen. Algo que en Pandas se puede hacer con el método dropna(). En el siguiente ejemplo se indica que se eliminan los registros que contienen datos faltantes en la columna age y se vuelve a crear el mapa de calor.

# Eliminar filas con datos faltantes en la columna age
data_cleaned = titanic.dropna(subset=['age'])

# Mostrar las primeras filas del conjunto de datos limpio
print(data_cleaned.head(6))

# Crear un mapa de calor de los valores faltantes
sns.heatmap(data_cleaned.isnull(), cbar=False)

# Mostrar el mapa de calor
plt.show()
   survived  pclass     sex   age  sibsp  parch     fare embarked  class  \
0         0       3    male  22.0      1      0   7.2500        S  Third   
1         1       1  female  38.0      1      0  71.2833        C  First   
2         1       3  female  26.0      0      0   7.9250        S  Third   
3         1       1  female  35.0      1      0  53.1000        S  First   
4         0       3    male  35.0      0      0   8.0500        S  Third   
6         0       1    male  54.0      0      0  51.8625        S  First   

     who  adult_male deck  embark_town alive  alone  
0    man        True  NaN  Southampton    no  False  
1  woman       False    C    Cherbourg   yes  False  
2  woman       False  NaN  Southampton   yes   True  
3  woman       False    C  Southampton   yes  False  
4    man        True  NaN  Southampton    no   True  
6    man        True    E  Southampton    no   True  
Mapa de calor que muestra cómo se han eliminados los datos faltantes en la coluna age

Como se puede ver en los datos y la gráfica ya no existen valores nulos en la columna age. Nótese que en este caso el número de registros es menor, ya que los registros con datos faltantes se han eliminado, por lo que los resultados con este conjunto de datos modificado también pueden estar afectados por el sesgo que introduce la presencia de datos faltantes.

Imputar datos faltantes

Otra opción es reemplazar los valores faltantes con valores imputados. Al igual que en el caso anterior esto es algo que se puede hacer fácilmente con los métodos de Pandas, por ejemplo, se puede crear una nueva columna con la edad en la que a los valores faltantes se les impute la media.

# Imputar los valores faltantes en una columna específica con la media
titanic['age_imputed'] = titanic['age'].fillna(titanic['age'].mean())

# Mostrar las primeras filas del conjunto de datos con los valores imputados
print(titanic.head(6))

# Crear un mapa de calor de los valores faltantes
sns.heatmap(titanic.isnull(), cbar=False)

# Mostrar el mapa de calor
plt.show()
   survived  pclass     sex   age  sibsp  parch     fare embarked  class  \
0         0       3    male  22.0      1      0   7.2500        S  Third   
1         1       1  female  38.0      1      0  71.2833        C  First   
2         1       3  female  26.0      0      0   7.9250        S  Third   
3         1       1  female  35.0      1      0  53.1000        S  First   
4         0       3    male  35.0      0      0   8.0500        S  Third   
5         0       3    male   NaN      0      0   8.4583        Q  Third   

     who  adult_male deck  embark_town alive  alone  age_imputed  
0    man        True  NaN  Southampton    no  False    22.000000  
1  woman       False    C    Cherbourg   yes  False    38.000000  
2  woman       False  NaN  Southampton   yes   True    26.000000  
3  woman       False    C  Southampton   yes  False    35.000000  
4    man        True  NaN  Southampton    no   True    35.000000  
5    man        True  NaN   Queenstown    no   True    29.699118  
Mapa de calor que muestra donde se pude comprar la columna age con la columna age_imputed en la que se ha imputado la media a valores nulos.

En este caso también se puede ver que en la columna age_imputed tampoco hay datos faltantes, pero sin la necesidad de eliminar registros.

Conclusiones

Analizar la presencia de datos faltantes con Seaborn es algo que se puede hacer de forma sencilla gracias a los mapas de calor. Una tarea que es clave antes de realizar cualquier análisis de datos. Aunque Seaborn no cuenta con funciones para tratar estos datos, tampoco es su finalidad, los datos faltantes se puede tratar fácilmente mediante los métodos de Pandas.

¿Te ha parecido de utilidad el contenido?

Daniel Rodríguez

Share
Published by
Daniel Rodríguez
Tags: Seaborn

Recent Posts

Augurios deportivos y portadas malditas, o cuando The Economist predice mejor al revés – El bestiario de los indicadores económicos absurdos (parte 3)

Cerramos la serie internacional con la categoría más estrambótica de todas: indicadores que predicen el…

21 horas ago

El Binning en Credit Scoring: El Arte de Discretizar Variables

Si el WOE y el IV son la base matemática del credit scoring, el binning…

3 días ago

Analytics Lane lanza la versión 1.2 del laboratorio con nuevas herramientas de ajuste de curvas y cálculo matricial

Seguimos iterando sobre el laboratorio de Analytics Lane y lanzamos la versión 1.2, disponible en:https://www.analyticslane.com/lab/es…

7 días ago

Cómo comparar tendencias con gráficos de líneas en Matplotlib: guía práctica paso a paso

Tienes los datos de tráfico web de los últimos cinco meses desglosados por canal: orgánico,…

1 semana ago

This website uses cookies.