• Saltar al contenido principal
  • Skip to secondary menu
  • Saltar a la barra lateral principal
  • Saltar al pie de página
  • Inicio
  • Secciones
    • Ciencia de datos
    • Criptografía
    • Herramientas
    • Machine Learning
    • Noticias
    • Opinión
    • Productividad
    • Programación
      • JavaScript
      • Julia
      • Matlab
      • Python
      • R
  • Programación
    • JavaScript
    • Julia
    • Matlab
    • Python
    • R
  • Noticias
  • Boletín
  • Contacto
  • Tienda
    • Libros
    • Equipamiento de oficina
    • Equipamiento en movilidad
    • Tiendas afiliadas
      • AliExpress
      • Amazon
      • Banggood
      • GeekBuying
      • Lenovo

Analytics Lane

Ciencia e ingeniería de datos aplicada

  • Ciencia de datos
  • Machine Learning
  • Python
  • Pandas
  • NumPy
  • Matlab
  • Julia
  • Excel
  • IA Generativa

Trabajar con datos faltantes con Seaborn

agosto 29, 2023 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 6 minutos

Los datos faltantes son un desafío a la hora de realizar casi cualquier análisis de datos. Si no se tiene en cuenta la falta de valores en algunos registros pueden aparecer sesgos en los resultados y una reducción de la precisión de los estadísticos. Lo que dificulta la interpretación de los resultados. Por eso es importante identificar la presencia de estos registros en los conjuntos de datos antes de realizar cualquier análisis. Veamos cómo se puede identificar la presencia de datos faltantes con Seaborn

Conjunto de datos de ejemplo

Entre los conjuntos de datos de ejemplo que se incluyen en Seaborn uno de los que presenta más datos faltantes es Titanic. El conjunto de datos se puede importar directamente mediante la función load_dataset() de Seaborn, lo que se muestra en el siguiente ejemplo.

import seaborn as sns
import matplotlib.pyplot as plt

# Cargar el conjunto de datos
titanic = sns.load_dataset("titanic")

# Mostrar las primeras filas del conjunto de datos
print(titanic.head(6))
   survived  pclass     sex   age  sibsp  parch     fare embarked  class  \
0         0       3    male  22.0      1      0   7.2500        S  Third   
1         1       1  female  38.0      1      0  71.2833        C  First   
2         1       3  female  26.0      0      0   7.9250        S  Third   
3         1       1  female  35.0      1      0  53.1000        S  First   
4         0       3    male  35.0      0      0   8.0500        S  Third   
5         0       3    male   NaN      0      0   8.4583        Q  Third   

     who  adult_male deck  embark_town alive  alone  
0    man        True  NaN  Southampton    no  False  
1  woman       False    C    Cherbourg   yes  False  
2  woman       False  NaN  Southampton   yes   True  
3  woman       False    C  Southampton   yes  False  
4    man        True  NaN  Southampton    no   True  
5    man        True  NaN   Queenstown    no   True 

En esta muestra de datos se pude ver como existe un valor nulo en la columna age, pero esto es algo que se debe analizar en más detalle para conocer si existe un problema con esta variable.

Tutorial de Mypy para Principiantes
En Analytics Lane
Tutorial de Mypy para Principiantes

Publicidad


Identificar datos faltantes con Seaborn

Una vez importado cualquier conjunto de datos es necesario analizar la presencia de datos faltantes. Saber si existen y en qué variables y registros se encuentran. Seaborn ofrece una forma sencilla de visualizar los valores faltantes mediante la creación de mapas de calor, lo que se hace con la función heatmap(). Para el conjunto de datos Titanic se puede crear la gráfica con el siguiente código.

# Crear un mapa de calor de los valores faltantes
sns.heatmap(titanic.isnull(), cbar=False)

# Mostrar el mapa de calor
plt.show()
Mapa de calor que muestra la presencia de datos faltantes con Seaborn
Mapa de calor que muestra la presencia de datos faltantes con Seaborn

En este ejemplo se ha representado mediante la función de mapa de calor (heatmap()) los valores que son nulos, obtenidos mediante el método isnull(). Cuando existe un valor faltante este se dibuja en blanco, mientras que en caso contrario el color de la gracia es negro. Por lo tanto, se puede ver que las variables con mayor presencia de valores nulos son age y deck.

Esta es una gráfica como la que se puede crear con la biblioteca Missingno. Aunque Seaborn, a pesar de tener menos opciones, es una biblioteca que suele estar instalada en las instalaciones de Python que se usan para análisis de datos.

Eliminar datos faltantes

Ahora que se conoce la presencia de datos faltantes en el conjunto de datos se pueden eliminar las filas o columnas que los contienen. Algo que en Pandas se puede hacer con el método dropna(). En el siguiente ejemplo se indica que se eliminan los registros que contienen datos faltantes en la columna age y se vuelve a crear el mapa de calor.

# Eliminar filas con datos faltantes en la columna age
data_cleaned = titanic.dropna(subset=['age'])

# Mostrar las primeras filas del conjunto de datos limpio
print(data_cleaned.head(6))

# Crear un mapa de calor de los valores faltantes
sns.heatmap(data_cleaned.isnull(), cbar=False)

# Mostrar el mapa de calor
plt.show()
   survived  pclass     sex   age  sibsp  parch     fare embarked  class  \
0         0       3    male  22.0      1      0   7.2500        S  Third   
1         1       1  female  38.0      1      0  71.2833        C  First   
2         1       3  female  26.0      0      0   7.9250        S  Third   
3         1       1  female  35.0      1      0  53.1000        S  First   
4         0       3    male  35.0      0      0   8.0500        S  Third   
6         0       1    male  54.0      0      0  51.8625        S  First   

     who  adult_male deck  embark_town alive  alone  
0    man        True  NaN  Southampton    no  False  
1  woman       False    C    Cherbourg   yes  False  
2  woman       False  NaN  Southampton   yes   True  
3  woman       False    C  Southampton   yes  False  
4    man        True  NaN  Southampton    no   True  
6    man        True    E  Southampton    no   True  
Mapa de calor que muestra cómo se han eliminados los datos faltantes en la coluna age
Mapa de calor que muestra cómo se han eliminados los datos faltantes en la coluna age

Como se puede ver en los datos y la gráfica ya no existen valores nulos en la columna age. Nótese que en este caso el número de registros es menor, ya que los registros con datos faltantes se han eliminado, por lo que los resultados con este conjunto de datos modificado también pueden estar afectados por el sesgo que introduce la presencia de datos faltantes.

Publicidad


Imputar datos faltantes

Otra opción es reemplazar los valores faltantes con valores imputados. Al igual que en el caso anterior esto es algo que se puede hacer fácilmente con los métodos de Pandas, por ejemplo, se puede crear una nueva columna con la edad en la que a los valores faltantes se les impute la media.

# Imputar los valores faltantes en una columna específica con la media
titanic['age_imputed'] = titanic['age'].fillna(titanic['age'].mean())

# Mostrar las primeras filas del conjunto de datos con los valores imputados
print(titanic.head(6))

# Crear un mapa de calor de los valores faltantes
sns.heatmap(titanic.isnull(), cbar=False)

# Mostrar el mapa de calor
plt.show()
   survived  pclass     sex   age  sibsp  parch     fare embarked  class  \
0         0       3    male  22.0      1      0   7.2500        S  Third   
1         1       1  female  38.0      1      0  71.2833        C  First   
2         1       3  female  26.0      0      0   7.9250        S  Third   
3         1       1  female  35.0      1      0  53.1000        S  First   
4         0       3    male  35.0      0      0   8.0500        S  Third   
5         0       3    male   NaN      0      0   8.4583        Q  Third   

     who  adult_male deck  embark_town alive  alone  age_imputed  
0    man        True  NaN  Southampton    no  False    22.000000  
1  woman       False    C    Cherbourg   yes  False    38.000000  
2  woman       False  NaN  Southampton   yes   True    26.000000  
3  woman       False    C  Southampton   yes  False    35.000000  
4    man        True  NaN  Southampton    no   True    35.000000  
5    man        True  NaN   Queenstown    no   True    29.699118  
Mapa de calor que muestra donde se pude comprar la columna age con la columna age_imputed en la que se ha imputado la media a valores nulos.
Mapa de calor que muestra donde se pude comprar la columna age con la columna age_imputed en la que se ha imputado la media a valores nulos.

En este caso también se puede ver que en la columna age_imputed tampoco hay datos faltantes, pero sin la necesidad de eliminar registros.

Conclusiones

Analizar la presencia de datos faltantes con Seaborn es algo que se puede hacer de forma sencilla gracias a los mapas de calor. Una tarea que es clave antes de realizar cualquier análisis de datos. Aunque Seaborn no cuenta con funciones para tratar estos datos, tampoco es su finalidad, los datos faltantes se puede tratar fácilmente mediante los métodos de Pandas.

¿Te ha parecido de utilidad el contenido?

¡Puntúalo entre una y cinco estrellas!

Puntuación promedio 0 / 5. Votos emitidos: 0

Ya que has encontrado útil este contenido...

¡Síguenos en redes sociales!

¡Siento que este contenido no te haya sido útil!

¡Déjame mejorar este contenido!

Dime, ¿cómo puedo mejorar este contenido?

Publicidad


Publicaciones relacionadas

  • Tutorial de Mypy para Principiantes
  • Semana sin nuevas publicaciones
  • Combinar gráficos con FacetGrid: Cómo analizar tendencias complejas en múltiples paneles con Seaborn
  • Introducción a igraph en R (Parte 6): Centralidad de Katz en grafos
  • Cómo modificar los mensajes de commit en Git
  • Optimización de memoria en Pandas: Usar tipos de datos personalizados para manejar grandes conjuntos de datos
  • Introducción a igraph en R (Parte 7): Centralidad de Bonacich
  • ¡Analytics Lane cumple siete años!
  • Sincronizar múltiples ejes con twinx(): Comparación de datos con diferentes escalas en un solo gráfico con Matplotlib

Publicado en: Python Etiquetado como: Seaborn

Interacciones con los lectores

Deja una respuesta Cancelar la respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

I accept the Terms and Conditions and the Privacy Policy

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Barra lateral principal

Suscríbete a nuestro boletín

Suscríbete al boletín semanal para estar al día de todas las publicaciones.

Política de Privacidad

Analytics Lane en redes sociales

  • Amazon
  • Bluesky
  • Facebook
  • GitHub
  • Instagram
  • Mastodon
  • Pinterest
  • RSS
  • Telegram
  • Tumblr
  • Twitter
  • YouTube

Publicidad

Entradas recientes

Variables globales en Python: Problemas y cómo evitarlos

mayo 12, 2025 Por Daniel Rodríguez

Los valores numéricos en los ordenadores: Entendiendo enteros, flotantes y más

mayo 9, 2025 Por Daniel Rodríguez

Introducción a igraph en R (Parte 8): PageRank

mayo 7, 2025 Por Daniel Rodríguez

Publicidad

Es tendencia

  • Ventana principal de NSSM Cómo configurar un servicio en Windows publicado el mayo 11, 2022 | en Herramientas
  • Método del codo (Elbow method) para seleccionar el número óptimo de clústeres en K-means publicado el junio 9, 2023 | en Ciencia de datos
  • Gráficos de barras en Matplotlib publicado el julio 5, 2022 | en Python
  • Operaciones de filtrado de DataFrame con Pandas en base a los valores de las columnas publicado el mayo 10, 2019 | en Python
  • Método de Brent e implementación en Python publicado el abril 28, 2023 | en Ciencia de datos

Publicidad

Lo mejor valorado

4.9 (24)

Seleccionar filas y columnas en Pandas con iloc y loc

4.6 (16)

Archivos JSON con Python: lectura y escritura

4.4 (14)

Ordenación de diccionarios en Python mediante clave o valor

4.7 (13)

Operaciones de filtrado de DataFrame con Pandas en base a los valores de las columnas

4.5 (10)

Diferencias entre var y let en JavaScript

Publicidad

Comentarios recientes

  • Daniel Rodríguez en Tutorial de Mypy para Principiantes
  • Javier en Tutorial de Mypy para Principiantes
  • javier en Problemas con listas mutables en Python: Cómo evitar efectos inesperados
  • soldado en Numpy básico: encontrar la posición de un elemento en un Array de Numpy
  • plataformas AéReas en Numpy básico: encontrar la posición de un elemento en un Array de Numpy

Publicidad


Footer

Analytics Lane

  • Acerca de Analytics Lane
  • Boletín de noticias
  • Contacto
  • Libros
  • Lo más popular
  • Noticias
  • Tienda
  • Tiendas afiliadas

Secciones

  • Ciencia de datos
  • Criptografía
  • Herramientas
  • Machine Learning
  • Opinión
  • Productividad
  • Programación
  • Reseñas

Sobre de Analytics Lane

En Analytics Lane tratamos de explicar los principales conceptos de la ciencia e ingeniería de datos con un enfoque práctico. Los principales temas tratados son ciencia de datos, ingeniería de datos, inteligencia artificial, machine learning, deep learning y criptografía. Además, también se habla de los principales lenguajes de programación y herramientas utilizadas por los científicos e ingenieros de datos.

Copyright © 2018-2025 Analytics Lane ·Términos y condiciones ·Política de Cookies ·Política de Privacidad ·Herramientas de privacidad ·Contacto