Los datos faltantes son un desafío a la hora de realizar casi cualquier análisis de datos. Si no se tiene en cuenta la falta de valores en algunos registros pueden aparecer sesgos en los resultados y una reducción de la precisión de los estadísticos. Lo que dificulta la interpretación de los resultados. Por eso es importante identificar la presencia de estos registros en los conjuntos de datos antes de realizar cualquier análisis. Veamos cómo se puede identificar la presencia de datos faltantes con Seaborn
Conjunto de datos de ejemplo
Entre los conjuntos de datos de ejemplo que se incluyen en Seaborn uno de los que presenta más datos faltantes es Titanic. El conjunto de datos se puede importar directamente mediante la función load_dataset()
de Seaborn, lo que se muestra en el siguiente ejemplo.
import seaborn as sns import matplotlib.pyplot as plt # Cargar el conjunto de datos titanic = sns.load_dataset("titanic") # Mostrar las primeras filas del conjunto de datos print(titanic.head(6))
survived pclass sex age sibsp parch fare embarked class \ 0 0 3 male 22.0 1 0 7.2500 S Third 1 1 1 female 38.0 1 0 71.2833 C First 2 1 3 female 26.0 0 0 7.9250 S Third 3 1 1 female 35.0 1 0 53.1000 S First 4 0 3 male 35.0 0 0 8.0500 S Third 5 0 3 male NaN 0 0 8.4583 Q Third who adult_male deck embark_town alive alone 0 man True NaN Southampton no False 1 woman False C Cherbourg yes False 2 woman False NaN Southampton yes True 3 woman False C Southampton yes False 4 man True NaN Southampton no True 5 man True NaN Queenstown no True
En esta muestra de datos se pude ver como existe un valor nulo en la columna age
, pero esto es algo que se debe analizar en más detalle para conocer si existe un problema con esta variable.
Identificar datos faltantes con Seaborn
Una vez importado cualquier conjunto de datos es necesario analizar la presencia de datos faltantes. Saber si existen y en qué variables y registros se encuentran. Seaborn ofrece una forma sencilla de visualizar los valores faltantes mediante la creación de mapas de calor, lo que se hace con la función heatmap()
. Para el conjunto de datos Titanic se puede crear la gráfica con el siguiente código.
# Crear un mapa de calor de los valores faltantes sns.heatmap(titanic.isnull(), cbar=False) # Mostrar el mapa de calor plt.show()
En este ejemplo se ha representado mediante la función de mapa de calor (heatmap()
) los valores que son nulos, obtenidos mediante el método isnull()
. Cuando existe un valor faltante este se dibuja en blanco, mientras que en caso contrario el color de la gracia es negro. Por lo tanto, se puede ver que las variables con mayor presencia de valores nulos son age
y deck
.
Esta es una gráfica como la que se puede crear con la biblioteca Missingno. Aunque Seaborn, a pesar de tener menos opciones, es una biblioteca que suele estar instalada en las instalaciones de Python que se usan para análisis de datos.
Eliminar datos faltantes
Ahora que se conoce la presencia de datos faltantes en el conjunto de datos se pueden eliminar las filas o columnas que los contienen. Algo que en Pandas se puede hacer con el método dropna()
. En el siguiente ejemplo se indica que se eliminan los registros que contienen datos faltantes en la columna age
y se vuelve a crear el mapa de calor.
# Eliminar filas con datos faltantes en la columna age data_cleaned = titanic.dropna(subset=['age']) # Mostrar las primeras filas del conjunto de datos limpio print(data_cleaned.head(6)) # Crear un mapa de calor de los valores faltantes sns.heatmap(data_cleaned.isnull(), cbar=False) # Mostrar el mapa de calor plt.show()
survived pclass sex age sibsp parch fare embarked class \ 0 0 3 male 22.0 1 0 7.2500 S Third 1 1 1 female 38.0 1 0 71.2833 C First 2 1 3 female 26.0 0 0 7.9250 S Third 3 1 1 female 35.0 1 0 53.1000 S First 4 0 3 male 35.0 0 0 8.0500 S Third 6 0 1 male 54.0 0 0 51.8625 S First who adult_male deck embark_town alive alone 0 man True NaN Southampton no False 1 woman False C Cherbourg yes False 2 woman False NaN Southampton yes True 3 woman False C Southampton yes False 4 man True NaN Southampton no True 6 man True E Southampton no True
Como se puede ver en los datos y la gráfica ya no existen valores nulos en la columna age
. Nótese que en este caso el número de registros es menor, ya que los registros con datos faltantes se han eliminado, por lo que los resultados con este conjunto de datos modificado también pueden estar afectados por el sesgo que introduce la presencia de datos faltantes.
Imputar datos faltantes
Otra opción es reemplazar los valores faltantes con valores imputados. Al igual que en el caso anterior esto es algo que se puede hacer fácilmente con los métodos de Pandas, por ejemplo, se puede crear una nueva columna con la edad en la que a los valores faltantes se les impute la media.
# Imputar los valores faltantes en una columna específica con la media titanic['age_imputed'] = titanic['age'].fillna(titanic['age'].mean()) # Mostrar las primeras filas del conjunto de datos con los valores imputados print(titanic.head(6)) # Crear un mapa de calor de los valores faltantes sns.heatmap(titanic.isnull(), cbar=False) # Mostrar el mapa de calor plt.show()
survived pclass sex age sibsp parch fare embarked class \ 0 0 3 male 22.0 1 0 7.2500 S Third 1 1 1 female 38.0 1 0 71.2833 C First 2 1 3 female 26.0 0 0 7.9250 S Third 3 1 1 female 35.0 1 0 53.1000 S First 4 0 3 male 35.0 0 0 8.0500 S Third 5 0 3 male NaN 0 0 8.4583 Q Third who adult_male deck embark_town alive alone age_imputed 0 man True NaN Southampton no False 22.000000 1 woman False C Cherbourg yes False 38.000000 2 woman False NaN Southampton yes True 26.000000 3 woman False C Southampton yes False 35.000000 4 man True NaN Southampton no True 35.000000 5 man True NaN Queenstown no True 29.699118
En este caso también se puede ver que en la columna age_imputed
tampoco hay datos faltantes, pero sin la necesidad de eliminar registros.
Conclusiones
Analizar la presencia de datos faltantes con Seaborn es algo que se puede hacer de forma sencilla gracias a los mapas de calor. Una tarea que es clave antes de realizar cualquier análisis de datos. Aunque Seaborn no cuenta con funciones para tratar estos datos, tampoco es su finalidad, los datos faltantes se puede tratar fácilmente mediante los métodos de Pandas.
Deja una respuesta