El análisis de los residuos es una parte clave para evaluar la calidad del ajuste en los modelos de regresión. Permitiendo verificar si se cumplen las condiciones subyacentes de estos modelos. Seaborn, una de las principales bibliotecas para la visualización de datos en Python, cuenta con funciones para facilitar la creación de gráficos de residuos de una forma rápida y fácil. En esta entrada, se analizará la importancia de los residuos y se verá cómo se pueden crear gráficos de residuos en Seaborn.
Importancia de los residuos en un modelo de regresión
En un modelo de regresión, los residuos son la diferencia entre los valores observados para la variable objetivo y las predicciones del modelo. Esto es, el error cometido al realizar una predicción. Los residuos son la parte no explicada por el modelo de la variable objetivo. Proporcionando una valiosa información sobre la calidad del ajuste del modelo a los datos.
Idealmente, los residuos de un modelo de regresión deben seguir ciertas características:
- Media cero: tener una media cercana a cero. Esto indica que el modelo no está sesgado en promedio y que no hay errores sistemáticos.
- Homocedasticidad: mostrar una varianza constante en todos los niveles de las variables predictoras. En otras palabras, la dispersión de los residuos no debe depender de los valores predichos.
- Independencia: ser independientes entre sí. Esto implica que los errores en una observación no deben estar correlacionados con los errores en otras observaciones.
- Distribución normal: seguir una distribución normal. Esto significa que la mayoría de los residuos deben estar cerca de cero y que los valores extremos deben ser raros.
Realizar un análisis de residuos de los modelos de regresión es clave para poder evaluar la calidad de los ajustes. Para ello, una de las herramientas más utilizadas son los gráficos de residuos.
Importación de datos para la regresión
Antes de crear los gráficos de residuos en Seaborn es necesario importar un conjunto de datos de ejemplo y crear un modelo de regresión. Para facilitar el seguimiento se va a usar tips, un conjunto de datos que se incluye dentro de los ejemplos de la biblioteca Seaborn, en el que se muestran las propinas recibidas en un restaurante junto a las características de la mesa. Para importar el conjunto de datos en un DataFrame se puede usar la función load_dataset()
. Una vez importados estos, se puede crear una gráfica con un modelo de regresión mediante la función regplot()
de Seaborn.
import seaborn as sns import matplotlib.pyplot as plt # Cargar datos de ejemplo tips = sns.load_dataset("tips") # Crear el gráfico de regresión sns.regplot(x="total_bill", y="tip", data=tips) # Mostrar el gráfico plt.show()
En este ejemplo se puede ver un modelo en el que se puede predecir la propina recibida en función de la factura total. Como es de esperar, se puede ver una relación entre ambas variables, aunque el modelo no es perfecto.
Gráficos de residuos en Seaborn
La función para la creación de gráficos de residuos en Seaborn es residplot()
. Esta función crea por defecto un diagrama de dispersión en el que se representan los valores usados para el ajuste del modelo en el eje x y los residuos en el eje y. Lo que se conoce como gráfico de residuos frente a valores ajustados. Este gráfico, para el modelo de regresión anterior del conjunto de datos tips se puede obtener tal como se muestra a continuación.
# Crear un gráfico de residuos vs. valores ajustados sns.residplot(x="total_bill", y="tip", data=tips) # Mostrar el gráfico plt.show()
En este ejemplo, solamente ha sido necesario indicar las variables usadas para la construcción del modelo y el conjunto de datos.
Cambiar el orden de la regresión
En las funciones de Seaborn para trabajar con regresiones lineales se puede incitar el orden del modelo mediante el parámetro order
. Así se puede crear de una forma fácil una regresión polinómica. En el siguiente ejemplo, se muestra cómo se puede crear la gráfica de una regresión polinómica de grado 3 para el conjunto de datos tips y la gráfica de residuos.
# Crear el gráfico de regresión de grado 3 sns.regplot(x="total_bill", y="tip", data=tips, order=3) # Mostrar el gráfico plt.show() # Crear un gráfico de residuos de grado 3 sns.residplot(x="total_bill", y="tip", data=tips, order=3) # Mostrar el gráfico plt.show()
Línea de suavizado local
Para facilitar la comprensión de la relación que existe entre la variable y el residuo se puede dibujar una línea de suavizado local (lowess). Una línea que facilita comprender la relación entre la variable y el residuo. Para crear esta línea solamente se tiene que asignar al parámetro lowess
el valor verdadero. Lo que se muestra en el siguiente ejemplo.
# Crear un gráfico de residuos con línea de suavizado local sns.residplot(x="total_bill", y="tip", data=tips, lowess=True) # Mostrar el gráfico plt.show()
En este caso se puede ver que el residuo es negativo para valores de la factura por debajo de aproximadamente 18, esto es, el modelo predice valores de propina inferiores a los recibidos. Aproximadamente, entre 18 y 25 el modelo predice valores de propina más altos de los reales, esto es, el residuo es positivo. Para volver a cambiar a medida que aumenta la factura.
Conclusiones
La creación de gráficos de residuos es una parte esencial del análisis de regresión para evaluar la calidad del ajuste del modelo y verificar las suposiciones subyacentes. Siendo la función residplot()
de Seaborn una de las formas más sencillas de crear estas.
Deja una respuesta