• Saltar al contenido principal
  • Skip to secondary menu
  • Saltar a la barra lateral principal
  • Saltar al pie de página
  • Inicio
  • Secciones
    • Ciencia de datos
    • Criptografía
    • Herramientas
    • Machine Learning
    • Noticias
    • Opinión
    • Productividad
    • Programación
      • JavaScript
      • Julia
      • Matlab
      • Python
      • R
  • Programación
    • JavaScript
    • Julia
    • Matlab
    • Python
    • R
  • Noticias
  • Boletín
  • Contacto
  • Tienda
    • Libros
    • Equipamiento de oficina
    • Equipamiento en movilidad
    • Tiendas afiliadas
      • AliExpress
      • Amazon
      • Banggood
      • GeekBuying
      • Lenovo

Analytics Lane

Ciencia e ingeniería de datos aplicada

  • Ciencia de datos
  • Machine Learning
  • Python
  • Pandas
  • NumPy
  • Matlab
  • Julia
  • JavaScript
  • Excel

Creación de gráficos de residuos en Seaborn para análisis de regresión

agosto 24, 2023 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 5 minutos

El análisis de los residuos es una parte clave para evaluar la calidad del ajuste en los modelos de regresión. Permitiendo verificar si se cumplen las condiciones subyacentes de estos modelos. Seaborn, una de las principales bibliotecas para la visualización de datos en Python, cuenta con funciones para facilitar la creación de gráficos de residuos de una forma rápida y fácil. En esta entrada, se analizará la importancia de los residuos y se verá cómo se pueden crear gráficos de residuos en Seaborn.

Importancia de los residuos en un modelo de regresión

En un modelo de regresión, los residuos son la diferencia entre los valores observados para la variable objetivo y las predicciones del modelo. Esto es, el error cometido al realizar una predicción. Los residuos son la parte no explicada por el modelo de la variable objetivo. Proporcionando una valiosa información sobre la calidad del ajuste del modelo a los datos.

Idealmente, los residuos de un modelo de regresión deben seguir ciertas características:

  • Media cero: tener una media cercana a cero. Esto indica que el modelo no está sesgado en promedio y que no hay errores sistemáticos.
  • Homocedasticidad: mostrar una varianza constante en todos los niveles de las variables predictoras. En otras palabras, la dispersión de los residuos no debe depender de los valores predichos.
  • Independencia: ser independientes entre sí. Esto implica que los errores en una observación no deben estar correlacionados con los errores en otras observaciones.
  • Distribución normal: seguir una distribución normal. Esto significa que la mayoría de los residuos deben estar cerca de cero y que los valores extremos deben ser raros.

Realizar un análisis de residuos de los modelos de regresión es clave para poder evaluar la calidad de los ajustes. Para ello, una de las herramientas más utilizadas son los gráficos de residuos.

Importación de datos para la regresión

Antes de crear los gráficos de residuos en Seaborn es necesario importar un conjunto de datos de ejemplo y crear un modelo de regresión. Para facilitar el seguimiento se va a usar tips, un conjunto de datos que se incluye dentro de los ejemplos de la biblioteca Seaborn, en el que se muestran las propinas recibidas en un restaurante junto a las características de la mesa. Para importar el conjunto de datos en un DataFrame se puede usar la función load_dataset(). Una vez importados estos, se puede crear una gráfica con un modelo de regresión mediante la función regplot() de Seaborn.

Publicidad


import seaborn as sns
import matplotlib.pyplot as plt

# Cargar datos de ejemplo
tips = sns.load_dataset("tips")

# Crear el gráfico de regresión
sns.regplot(x="total_bill", y="tip", data=tips)

# Mostrar el gráfico
plt.show()
Gráfico de regresión para el conjunto de datos tips creado con Seaborn
Gráfico de regresión para el conjunto de datos tips creado con Seaborn

En este ejemplo se puede ver un modelo en el que se puede predecir la propina recibida en función de la factura total. Como es de esperar, se puede ver una relación entre ambas variables, aunque el modelo no es perfecto.

Gráficos de residuos en Seaborn

La función para la creación de gráficos de residuos en Seaborn es residplot(). Esta función crea por defecto un diagrama de dispersión en el que se representan los valores usados para el ajuste del modelo en el eje x y los residuos en el eje y. Lo que se conoce como gráfico de residuos frente a valores ajustados. Este gráfico, para el modelo de regresión anterior del conjunto de datos tips se puede obtener tal como se muestra a continuación.

# Crear un gráfico de residuos vs. valores ajustados
sns.residplot(x="total_bill", y="tip", data=tips)

# Mostrar el gráfico
plt.show()
Gráfico de residuos en Seaborn para el conjunto de datos tips
Gráfico de residuos en Seaborn para el conjunto de datos tips

En este ejemplo, solamente ha sido necesario indicar las variables usadas para la construcción del modelo y el conjunto de datos.

Cambiar el orden de la regresión

En las funciones de Seaborn para trabajar con regresiones lineales se puede incitar el orden del modelo mediante el parámetro order. Así se puede crear de una forma fácil una regresión polinómica. En el siguiente ejemplo, se muestra cómo se puede crear la gráfica de una regresión polinómica de grado 3 para el conjunto de datos tips y la gráfica de residuos.

# Crear el gráfico de regresión de grado 3
sns.regplot(x="total_bill", y="tip", data=tips, order=3)

# Mostrar el gráfico
plt.show()

# Crear un gráfico de residuos de grado 3
sns.residplot(x="total_bill", y="tip", data=tips, order=3)

# Mostrar el gráfico
plt.show()
Regresión polinómica de grado 3 para el conjunto de datos tips
Regresión polinómica de grado 3 para el conjunto de datos tips
Gráfico de residuos para una regresión polinómica de grado 3 para el conjunto de datos tips
Gráfico de residuos para una regresión polinómica de grado 3 para el conjunto de datos tips

Línea de suavizado local

Para facilitar la comprensión de la relación que existe entre la variable y el residuo se puede dibujar una línea de suavizado local (lowess). Una línea que facilita comprender la relación entre la variable y el residuo. Para crear esta línea solamente se tiene que asignar al parámetro lowess el valor verdadero. Lo que se muestra en el siguiente ejemplo.

Publicidad


# Crear un gráfico de residuos con línea de suavizado local 
sns.residplot(x="total_bill", y="tip", data=tips, lowess=True)

# Mostrar el gráfico
plt.show()
Gráfico de residuos con línea de suavizado local
Gráfico de residuos con línea de suavizado local

En este caso se puede ver que el residuo es negativo para valores de la factura por debajo de aproximadamente 18, esto es, el modelo predice valores de propina inferiores a los recibidos. Aproximadamente, entre 18 y 25 el modelo predice valores de propina más altos de los reales, esto es, el residuo es positivo. Para volver a cambiar a medida que aumenta la factura.

Conclusiones

La creación de gráficos de residuos es una parte esencial del análisis de regresión para evaluar la calidad del ajuste del modelo y verificar las suposiciones subyacentes. Siendo la función residplot() de Seaborn una de las formas más sencillas de crear estas.

¿Te ha parecido de utilidad el contenido?

¡Puntúalo entre una y cinco estrellas!

Puntuación promedio 0 / 5. Votos emitidos: 0

Ya que has encontrado útil este contenido...

¡Síguenos en redes sociales!

¡Siento que este contenido no te haya sido útil!

¡Déjame mejorar este contenido!

Dime, ¿cómo puedo mejorar este contenido?

Publicaciones relacionadas

  • Gráficos de correlación en Seaborn: Mapas de calor y gráficos de pares
    Gráficos de correlación en Seaborn: Mapas de calor y…
  • Selección condicional con Pandas
    Selección condicional con Pandas
  • Visualización de matrices en Seaborn: Mapas de calor y dendrogramas
    Visualización de matrices en Seaborn: Mapas de calor y…
  • Gráfico de Hexbin para el conjunto de 3000 datos
    Gráficos de Hexbin: alternativa a los gráficos de dispersión…
  • Visualización de distribuciones de datos con Seaborn: Histogramas, gráficos de densidad y boxplots
    Visualización de distribuciones de datos con Seaborn:…
  • Puntos
    GridSearchCV

Publicado en: Python Etiquetado como: Seaborn

Interacciones con los lectores

Deja una respuesta Cancelar la respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

I accept the Terms and Conditions and the Privacy Policy

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Publicidad




Barra lateral principal

Suscríbete a nuestro boletín

Suscríbete al boletín semanal para estar al día de todas las publicaciones.

Política de Privacidad

Analytics Lane en redes sociales

  • Amazon
  • Facebook
  • GitHub
  • Instagram
  • Pinterest
  • RSS
  • Twitter
  • Tumblr
  • YouTube

Publicidad

Entradas recientes

El método de Hare-Niemeyer y su implementación en Python

septiembre 29, 2023 Por Daniel Rodríguez

Redimensionar una partición de disco LVM con espacio no asignado en Linux

septiembre 27, 2023 Por Daniel Rodríguez

¿Cómo saber la versión de Pandas o cualquier otra librería en Python?

septiembre 25, 2023 Por Daniel Rodríguez

Publicidad

Es tendencia

  • ¿Cómo eliminar columnas y filas en un dataframe pandas? publicado el marzo 25, 2019 | en Python
  • Operaciones de filtrado de DataFrame con Pandas en base a los valores de las columnas publicado el mayo 10, 2019 | en Python
  • Sistema de ecuaciones Sistemas de ecuaciones lineales con numpy publicado el octubre 29, 2018 | en Python
  • Seleccionar filas y columnas en Pandas con iloc y loc publicado el junio 21, 2019 | en Python
  • pandas Pandas: Cómo crear un DataFrame vacío y agregar datos publicado el noviembre 16, 2020 | en Python

Publicidad

Lo mejor valorado

4.9 (22)

Seleccionar filas y columnas en Pandas con iloc y loc

4.7 (12)

Operaciones de filtrado de DataFrame con Pandas en base a los valores de las columnas

4.6 (15)

Archivos JSON con Python: lectura y escritura

4.5 (10)

Diferencias entre var y let en JavaScript

4.3 (12)

Ordenación de diccionarios en Python mediante clave o valor

Publicidad

Comentarios recientes

  • Daniel Rodríguez en ¿Cómo eliminar columnas y filas en un dataframe pandas?
  • Miguel en ¿Cómo eliminar columnas y filas en un dataframe pandas?
  • alberto en Resolver problema de credenciales en Bitbucket
  • Pablo en Aplicar el método D’Hondt en Excel
  • Agapito en Creación de un EXE desde un archivo Python en Windows

Publicidad

Footer

Analytics Lane

  • Acerca de Analytics Lane
  • Boletín de noticias
  • Contacto
  • Libros
  • Lo más popular
  • Noticias
  • Tienda
  • Tiendas afiliadas

Secciones

  • Ciencia de datos
  • Criptografía
  • Herramientas
  • Machine Learning
  • Opinión
  • Productividad
  • Programación
  • Reseñas

Sobre de Analytics Lane

En Analytics Lane tratamos de explicar los principales conceptos de la ciencia e ingeniería de datos con un enfoque práctico. Los principales temas tratados son ciencia de datos, ingeniería de datos, inteligencia artificial, machine learning, deep learning y criptografía. Además, también se habla de los principales lenguajes de programación y herramientas utilizadas por los científicos e ingenieros de datos.

Copyright © 2018-2023 Analytics Lane ·Términos y condiciones ·Política de Cookies ·Política de Privacidad ·Herramientas de privacidad ·Contacto