Una de las mejores opciones para poder visualizar la forma de la distribución de un conjunto de datos son los gráficos de densidad (KDE, Kernel Density Estimation). Especialmente cuando se desconoce la distribución subyacente. Si, además, para un conjunto de datos, se desea analizar cómo evoluciona la distribución a lo largo de una dimensión categórica, como puede ser el tiempo o una subcategoría, se puede recurrir a los gráficos de densidad con colinas (ridge plots). Básicamente una figura en la que se muestran varios KDE. En esta entrada se explicará cómo se puede crear los gráficos Ridge Plots en Python con Seaborn, debido a que no existe una función que implemente estos gráficos es necesario realizar varios pasos para obtener el resultado deseado.
Creación de un conjunto de
Antes de poder crear la gráfica es necesario disponer de un conjunto de datos. Para lo que se puede usar un código como el siguiente.
import pandas as pd import numpy as np # Fijar la semilla np.random.seed(42) # Generar datos aleatorios para cinco años years = range(2000, 2005) year_data = [] count_data = [] for year in years: counts = np.random.randint(200, 3001, size=100) year_data.extend([year] * 100) count_data.extend(counts) # Crear DataFrame df = pd.DataFrame({'year': year_data, 'counts': count_data})
En este código se crea un conjunto de datos aleatorios con cien registros para cada uno de los años de una serie. Cada observación representa un valor observado en el año. Así se puede usar este conjunto de datos para crear un Ridge Plot y ver cómo evoluciona la distribución de este valor con el tiempo.
Configuración inicial de los Ridge Plots en Python
Para la creación de un Ridge Plot es necesario recurrir a FacetGrid
de Seaborn. Una clase que crea una cuadrícula de subgráficos organizados por una variable categórica, en este caso será la variable year
. Lo que se puede hacer con el siguiente código.
import seaborn as sns import matplotlib.pyplot as plt # Configuración de estilo de Seaborn sns.set_theme(style="white", rc={"axes.facecolor": (0, 0, 0, 0)}) # Definir una paleta de colores palette = sns.color_palette("husl", len(years)) # Inicialización del gráfico FacetGrid con paleta de colores g = sns.FacetGrid(df, row="year", hue="year", aspect=7, height=.9, palette=palette)
En este ejemplo se han cargado las librerías Seaborn y Matplotlib, configurado el estilo que se va a usar en la gráfica, definir una paleta de colores e inicializar el gráfico con FacetGrid
. Para eso se ha indicado la variable categórica que se va a usar mediante el parámetro row
, la variable que usa para colorear mediante hue
, la proporción entre el ancho y el alto de cada subgráfico, en este con 7 se indica que las gráficas serán 7 veces más anchas que altas, a través de aspect
, la altura en pulgadas de la gráfica con height
y la paleta seleccionada a con palette
.
Dibujar los gráficos de densidad
Una vez creada la cuadrícula, se pueden dibujar los gráficos de densidad sobre esta. Para lo que se usa la función kdeplot()
de Seaborn.
# Dibujar las densidades g.map(sns.kdeplot, "counts", bw_adjust=.5, clip_on=False, fill=True, alpha=1, linewidth=1.5) g.map(sns.kdeplot, "counts", clip_on=False, color="w", lw=2, bw_adjust=.5)
Nótese que en este caso se ha usado la función de orden superior map()
que existe en Seaborn para iterar sobre el conjunto de datos. Función que ejecuta el método kdeplot()
sobre cada uno de los subconjuntos de datos.
Adicionalmente se agrega una línea de referencia horizontal en cada subgráfico para ayudar a visualizar la línea base y poder comparar las densidades para cada uno de los años.
# Línea de referencia horizontal g.refline(y=0, linewidth=2, linestyle="-", color=None, clip_on=False)
Para etiquetar cada una de las gráficas se creará una función personalizada que se ejecutará sobre cada uno de los gráficos mediante el uso de la función map()
.
# Función para etiquetar los subgráficos def label(x, color, label): ax = plt.gca() ax.text(0, .2, label, fontweight="bold", color=color, ha="left", va="center", transform=ax.transAxes) g.map(label, "counts")
Antes de continuar se puede configurar el espacio que se desea dejar entre cada una de los subgráficos, lo que se consigue cambiando el valor del parámetro hspace
.
# Ajustar espaciado entre subgráficos g.figure.subplots_adjust(hspace=-.25)
Finalmente, para mejorar la apariencia de la figura resultante, se borran los títulos de los ejes que no son necesarios para el Ridge Plot. La función despine()
elimina las espinas de los subgráficos. Las espinas son las líneas que delimitan los ejes del gráfico, como la línea superior, lo que permite tener una gráfica más limpia. Como último paso del proceso se genera la figura.
# Quitar detalles de ejes que no se superponen bien g.set_titles("") g.set(yticks=[], ylabel="") g.despine(bottom=True, left=True) plt.show()
Código completo para la creación de Ridge Plots en Python
A continuación, se muestra el código completo y la figura que se obtiene como resultado.
import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt # Fijar la semilla np.random.seed(42) # Generar datos aleatorios para cinco años years = range(2000, 2005) year_data = [] count_data = [] for year in years: counts = np.random.randint(200, 3001, size=100) year_data.extend([year] * 100) count_data.extend(counts) # Crear DataFrame df = pd.DataFrame({'year': year_data, 'counts': count_data}) # Configuración de estilo de Seaborn sns.set_theme(style="white", rc={"axes.facecolor": (0, 0, 0, 0)}) # Definir una paleta de colores palette = sns.color_palette("husl", len(years)) # Inicialización del gráfico FacetGrid con paleta de colores g = sns.FacetGrid(df, row="year", hue="year", aspect=7, height=.9, palette=palette) # Dibujar las densidades g.map(sns.kdeplot, "counts", bw_adjust=.5, clip_on=False, fill=True, alpha=1, linewidth=1.5) g.map(sns.kdeplot, "counts", clip_on=False, color="w", lw=2, bw_adjust=.5) # Línea de referencia horizontal g.refline(y=0, linewidth=2, linestyle="-", color=None, clip_on=False) # Función para etiquetar los subgráficos def label(x, color, label): ax = plt.gca() ax.text(0, .2, label, fontweight="bold", color=color, ha="left", va="center", transform=ax.transAxes) g.map(label, "counts") # Ajustar espaciado entre subgráficos g.figure.subplots_adjust(hspace=-.25) # Quitar detalles de ejes que no se superponen bien g.set_titles("") g.set(yticks=[], ylabel="") g.despine(bottom=True, left=True) plt.show()
Conclusiones
En esta entrada, se ha visto cómo se pueden crear Ridge Plots en Python utilizando las funciones de Seaborn. Una vez generado el conjunto de datos, se han visto y explicado cada uno de los pasos necesarios.
Deja una respuesta