• Saltar al contenido principal
  • Skip to secondary menu
  • Saltar a la barra lateral principal
  • Saltar al pie de página
  • Inicio
  • Secciones
    • Ciencia de datos
    • Criptografía
    • Herramientas
    • Machine Learning
    • Noticias
    • Opinión
    • Productividad
    • Programación
      • JavaScript
      • Julia
      • Matlab
      • Python
      • R
  • Programación
    • JavaScript
    • Julia
    • Matlab
    • Python
    • R
  • Noticias
  • Boletín
  • Contacto
  • Tienda
    • Libros
    • Equipamiento de oficina
    • Equipamiento en movilidad
    • Tiendas afiliadas
      • AliExpress
      • Amazon
      • Banggood
      • GeekBuying
      • Lenovo

Analytics Lane

Ciencia e ingeniería de datos aplicada

  • Ciencia de datos
  • Machine Learning
  • Python
  • Pandas
  • NumPy
  • Matlab
  • Julia
  • JavaScript
  • Excel

Trabajar con datos faltantes con Seaborn

agosto 29, 2023 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 6 minutos

Los datos faltantes son un desafío a la hora de realizar casi cualquier análisis de datos. Si no se tiene en cuenta la falta de valores en algunos registros pueden aparecer sesgos en los resultados y una reducción de la precisión de los estadísticos. Lo que dificulta la interpretación de los resultados. Por eso es importante identificar la presencia de estos registros en los conjuntos de datos antes de realizar cualquier análisis. Veamos cómo se puede identificar la presencia de datos faltantes con Seaborn

Conjunto de datos de ejemplo

Entre los conjuntos de datos de ejemplo que se incluyen en Seaborn uno de los que presenta más datos faltantes es Titanic. El conjunto de datos se puede importar directamente mediante la función load_dataset() de Seaborn, lo que se muestra en el siguiente ejemplo.

import seaborn as sns
import matplotlib.pyplot as plt

# Cargar el conjunto de datos
titanic = sns.load_dataset("titanic")

# Mostrar las primeras filas del conjunto de datos
print(titanic.head(6))
   survived  pclass     sex   age  sibsp  parch     fare embarked  class  \
0         0       3    male  22.0      1      0   7.2500        S  Third   
1         1       1  female  38.0      1      0  71.2833        C  First   
2         1       3  female  26.0      0      0   7.9250        S  Third   
3         1       1  female  35.0      1      0  53.1000        S  First   
4         0       3    male  35.0      0      0   8.0500        S  Third   
5         0       3    male   NaN      0      0   8.4583        Q  Third   

     who  adult_male deck  embark_town alive  alone  
0    man        True  NaN  Southampton    no  False  
1  woman       False    C    Cherbourg   yes  False  
2  woman       False  NaN  Southampton   yes   True  
3  woman       False    C  Southampton   yes  False  
4    man        True  NaN  Southampton    no   True  
5    man        True  NaN   Queenstown    no   True 

En esta muestra de datos se pude ver como existe un valor nulo en la columna age, pero esto es algo que se debe analizar en más detalle para conocer si existe un problema con esta variable.

Identificar datos faltantes con Seaborn

Una vez importado cualquier conjunto de datos es necesario analizar la presencia de datos faltantes. Saber si existen y en qué variables y registros se encuentran. Seaborn ofrece una forma sencilla de visualizar los valores faltantes mediante la creación de mapas de calor, lo que se hace con la función heatmap(). Para el conjunto de datos Titanic se puede crear la gráfica con el siguiente código.

# Crear un mapa de calor de los valores faltantes
sns.heatmap(titanic.isnull(), cbar=False)

# Mostrar el mapa de calor
plt.show()
Mapa de calor que muestra la presencia de datos faltantes con Seaborn
Mapa de calor que muestra la presencia de datos faltantes con Seaborn

En este ejemplo se ha representado mediante la función de mapa de calor (heatmap()) los valores que son nulos, obtenidos mediante el método isnull(). Cuando existe un valor faltante este se dibuja en blanco, mientras que en caso contrario el color de la gracia es negro. Por lo tanto, se puede ver que las variables con mayor presencia de valores nulos son age y deck.

Publicidad


Esta es una gráfica como la que se puede crear con la biblioteca Missingno. Aunque Seaborn, a pesar de tener menos opciones, es una biblioteca que suele estar instalada en las instalaciones de Python que se usan para análisis de datos.

Eliminar datos faltantes

Ahora que se conoce la presencia de datos faltantes en el conjunto de datos se pueden eliminar las filas o columnas que los contienen. Algo que en Pandas se puede hacer con el método dropna(). En el siguiente ejemplo se indica que se eliminan los registros que contienen datos faltantes en la columna age y se vuelve a crear el mapa de calor.

# Eliminar filas con datos faltantes en la columna age
data_cleaned = titanic.dropna(subset=['age'])

# Mostrar las primeras filas del conjunto de datos limpio
print(data_cleaned.head(6))

# Crear un mapa de calor de los valores faltantes
sns.heatmap(data_cleaned.isnull(), cbar=False)

# Mostrar el mapa de calor
plt.show()
   survived  pclass     sex   age  sibsp  parch     fare embarked  class  \
0         0       3    male  22.0      1      0   7.2500        S  Third   
1         1       1  female  38.0      1      0  71.2833        C  First   
2         1       3  female  26.0      0      0   7.9250        S  Third   
3         1       1  female  35.0      1      0  53.1000        S  First   
4         0       3    male  35.0      0      0   8.0500        S  Third   
6         0       1    male  54.0      0      0  51.8625        S  First   

     who  adult_male deck  embark_town alive  alone  
0    man        True  NaN  Southampton    no  False  
1  woman       False    C    Cherbourg   yes  False  
2  woman       False  NaN  Southampton   yes   True  
3  woman       False    C  Southampton   yes  False  
4    man        True  NaN  Southampton    no   True  
6    man        True    E  Southampton    no   True  
Mapa de calor que muestra cómo se han eliminados los datos faltantes en la coluna age
Mapa de calor que muestra cómo se han eliminados los datos faltantes en la coluna age

Como se puede ver en los datos y la gráfica ya no existen valores nulos en la columna age. Nótese que en este caso el número de registros es menor, ya que los registros con datos faltantes se han eliminado, por lo que los resultados con este conjunto de datos modificado también pueden estar afectados por el sesgo que introduce la presencia de datos faltantes.

Imputar datos faltantes

Otra opción es reemplazar los valores faltantes con valores imputados. Al igual que en el caso anterior esto es algo que se puede hacer fácilmente con los métodos de Pandas, por ejemplo, se puede crear una nueva columna con la edad en la que a los valores faltantes se les impute la media.

# Imputar los valores faltantes en una columna específica con la media
titanic['age_imputed'] = titanic['age'].fillna(titanic['age'].mean())

# Mostrar las primeras filas del conjunto de datos con los valores imputados
print(titanic.head(6))

# Crear un mapa de calor de los valores faltantes
sns.heatmap(titanic.isnull(), cbar=False)

# Mostrar el mapa de calor
plt.show()
   survived  pclass     sex   age  sibsp  parch     fare embarked  class  \
0         0       3    male  22.0      1      0   7.2500        S  Third   
1         1       1  female  38.0      1      0  71.2833        C  First   
2         1       3  female  26.0      0      0   7.9250        S  Third   
3         1       1  female  35.0      1      0  53.1000        S  First   
4         0       3    male  35.0      0      0   8.0500        S  Third   
5         0       3    male   NaN      0      0   8.4583        Q  Third   

     who  adult_male deck  embark_town alive  alone  age_imputed  
0    man        True  NaN  Southampton    no  False    22.000000  
1  woman       False    C    Cherbourg   yes  False    38.000000  
2  woman       False  NaN  Southampton   yes   True    26.000000  
3  woman       False    C  Southampton   yes  False    35.000000  
4    man        True  NaN  Southampton    no   True    35.000000  
5    man        True  NaN   Queenstown    no   True    29.699118  
Mapa de calor que muestra donde se pude comprar la columna age con la columna age_imputed en la que se ha imputado la media a valores nulos.
Mapa de calor que muestra donde se pude comprar la columna age con la columna age_imputed en la que se ha imputado la media a valores nulos.

En este caso también se puede ver que en la columna age_imputed tampoco hay datos faltantes, pero sin la necesidad de eliminar registros.

Publicidad


Conclusiones

Analizar la presencia de datos faltantes con Seaborn es algo que se puede hacer de forma sencilla gracias a los mapas de calor. Una tarea que es clave antes de realizar cualquier análisis de datos. Aunque Seaborn no cuenta con funciones para tratar estos datos, tampoco es su finalidad, los datos faltantes se puede tratar fácilmente mediante los métodos de Pandas.

¿Te ha parecido de utilidad el contenido?

¡Puntúalo entre una y cinco estrellas!

Puntuación promedio 0 / 5. Votos emitidos: 0

Ya que has encontrado útil este contenido...

¡Síguenos en redes sociales!

¡Siento que este contenido no te haya sido útil!

¡Déjame mejorar este contenido!

Dime, ¿cómo puedo mejorar este contenido?

Publicaciones relacionadas

  • Diagramas de dispersión y gráficos de regresión con Seaborn: Visualización de relaciones entre variables numéricas
    Diagramas de dispersión y gráficos de regresión con Seaborn:…
  • Trabajando con datos multidimensionales en Seaborn: gráficos de pares y los gráficos de factores
    Trabajando con datos multidimensionales en Seaborn: gráficos…
  • Puntos
    GridSearchCV
  • pandas
    Eliminar las filas con valores nulos en Pandas
  • Introducción a Seaborn: Una visión general de la biblioteca
    Introducción a Seaborn: Una visión general de la biblioteca
  • Personalización de gráficos en Seaborn: Cambiar colores, estilos y etiquetas
    Personalización de gráficos en Seaborn: Cambiar colores,…

Publicado en: Python Etiquetado como: Seaborn

Interacciones con los lectores

Deja una respuesta Cancelar la respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

I accept the Terms and Conditions and the Privacy Policy

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Publicidad




Barra lateral principal

Suscríbete a nuestro boletín

Suscríbete al boletín semanal para estar al día de todas las publicaciones.

Política de Privacidad

Analytics Lane en redes sociales

  • Amazon
  • Facebook
  • GitHub
  • Instagram
  • Pinterest
  • RSS
  • Twitter
  • Tumblr
  • YouTube

Publicidad

Entradas recientes

El método de Hare-Niemeyer y su implementación en Python

septiembre 29, 2023 Por Daniel Rodríguez

Redimensionar una partición de disco LVM con espacio no asignado en Linux

septiembre 27, 2023 Por Daniel Rodríguez

¿Cómo saber la versión de Pandas o cualquier otra librería en Python?

septiembre 25, 2023 Por Daniel Rodríguez

Publicidad

Es tendencia

  • Unir y combinar dataframes con pandas en Python publicado el septiembre 10, 2018 | en Python
  • Duplicado Eliminar registros duplicados en pandas publicado el junio 20, 2018 | en Python
  • Enviar mensajes de WhatsApp con Python publicado el marzo 7, 2022 | en Python
  • Ecuaciones multilínea en Markdown publicado el septiembre 14, 2022 | en Herramientas
  • ¿Cómo eliminar columnas y filas en un dataframe pandas? publicado el marzo 25, 2019 | en Python

Publicidad

Lo mejor valorado

4.9 (22)

Seleccionar filas y columnas en Pandas con iloc y loc

4.7 (12)

Operaciones de filtrado de DataFrame con Pandas en base a los valores de las columnas

4.6 (15)

Archivos JSON con Python: lectura y escritura

4.5 (10)

Diferencias entre var y let en JavaScript

4.3 (12)

Ordenación de diccionarios en Python mediante clave o valor

Publicidad

Comentarios recientes

  • Daniel Rodríguez en ¿Cómo eliminar columnas y filas en un dataframe pandas?
  • Miguel en ¿Cómo eliminar columnas y filas en un dataframe pandas?
  • alberto en Resolver problema de credenciales en Bitbucket
  • Pablo en Aplicar el método D’Hondt en Excel
  • Agapito en Creación de un EXE desde un archivo Python en Windows

Publicidad

Footer

Analytics Lane

  • Acerca de Analytics Lane
  • Boletín de noticias
  • Contacto
  • Libros
  • Lo más popular
  • Noticias
  • Tienda
  • Tiendas afiliadas

Secciones

  • Ciencia de datos
  • Criptografía
  • Herramientas
  • Machine Learning
  • Opinión
  • Productividad
  • Programación
  • Reseñas

Sobre de Analytics Lane

En Analytics Lane tratamos de explicar los principales conceptos de la ciencia e ingeniería de datos con un enfoque práctico. Los principales temas tratados son ciencia de datos, ingeniería de datos, inteligencia artificial, machine learning, deep learning y criptografía. Además, también se habla de los principales lenguajes de programación y herramientas utilizadas por los científicos e ingenieros de datos.

Copyright © 2018-2023 Analytics Lane ·Términos y condiciones ·Política de Cookies ·Política de Privacidad ·Herramientas de privacidad ·Contacto