Python

Creación de Ridge Plots en Python con Seaborn: Guía completa paso a paso

Una de las mejores opciones para poder visualizar la forma de la distribución de un conjunto de datos son los gráficos de densidad (KDE, Kernel Density Estimation). Especialmente cuando se desconoce la distribución subyacente. Si, además, para un conjunto de datos, se desea analizar cómo evoluciona la distribución a lo largo de una dimensión categórica, como puede ser el tiempo o una subcategoría, se puede recurrir a los gráficos de densidad con colinas (ridge plots). Básicamente una figura en la que se muestran varios KDE. En esta entrada se explicará cómo se puede crear los gráficos Ridge Plots en Python con Seaborn, debido a que no existe una función que implemente estos gráficos es necesario realizar varios pasos para obtener el resultado deseado.

Creación de un conjunto de

Antes de poder crear la gráfica es necesario disponer de un conjunto de datos. Para lo que se puede usar un código como el siguiente.

import pandas as pd
import numpy as np

# Fijar la semilla
np.random.seed(42)

# Generar datos aleatorios para cinco años
years = range(2000, 2005)  
year_data = []
count_data = []

for year in years:
    counts = np.random.randint(200, 3001, size=100)
    year_data.extend([year] * 100)
    count_data.extend(counts)

# Crear DataFrame
df = pd.DataFrame({'year': year_data, 'counts': count_data})

En este código se crea un conjunto de datos aleatorios con cien registros para cada uno de los años de una serie. Cada observación representa un valor observado en el año. Así se puede usar este conjunto de datos para crear un Ridge Plot y ver cómo evoluciona la distribución de este valor con el tiempo.

Configuración inicial de los Ridge Plots en Python

Para la creación de un Ridge Plot es necesario recurrir a FacetGrid de Seaborn. Una clase que crea una cuadrícula de subgráficos organizados por una variable categórica, en este caso será la variable year. Lo que se puede hacer con el siguiente código.

import seaborn as sns
import matplotlib.pyplot as plt

# Configuración de estilo de Seaborn
sns.set_theme(style="white", rc={"axes.facecolor": (0, 0, 0, 0)})

# Definir una paleta de colores
palette = sns.color_palette("husl", len(years))

# Inicialización del gráfico FacetGrid con paleta de colores
g = sns.FacetGrid(df, row="year", hue="year", aspect=7, height=.9, palette=palette)

En este ejemplo se han cargado las librerías Seaborn y Matplotlib, configurado el estilo que se va a usar en la gráfica, definir una paleta de colores e inicializar el gráfico con FacetGrid. Para eso se ha indicado la variable categórica que se va a usar mediante el parámetro row, la variable que usa para colorear mediante hue, la proporción entre el ancho y el alto de cada subgráfico, en este con 7 se indica que las gráficas serán 7 veces más anchas que altas, a través de aspect, la altura en pulgadas de la gráfica con height y la paleta seleccionada a con palette.

Dibujar los gráficos de densidad

Una vez creada la cuadrícula, se pueden dibujar los gráficos de densidad sobre esta. Para lo que se usa la función kdeplot() de Seaborn.

# Dibujar las densidades
g.map(sns.kdeplot, "counts",
      bw_adjust=.5, clip_on=False,
      fill=True, alpha=1, linewidth=1.5)
g.map(sns.kdeplot, "counts", clip_on=False, color="w", lw=2, bw_adjust=.5)

Nótese que en este caso se ha usado la función de orden superior map() que existe en Seaborn para iterar sobre el conjunto de datos. Función que ejecuta el método kdeplot() sobre cada uno de los subconjuntos de datos.

Adicionalmente se agrega una línea de referencia horizontal en cada subgráfico para ayudar a visualizar la línea base y poder comparar las densidades para cada uno de los años.

# Línea de referencia horizontal
g.refline(y=0, linewidth=2, linestyle="-", color=None, clip_on=False)

Para etiquetar cada una de las gráficas se creará una función personalizada que se ejecutará sobre cada uno de los gráficos mediante el uso de la función map().

# Función para etiquetar los subgráficos
def label(x, color, label):
    ax = plt.gca()
    ax.text(0, .2, label, fontweight="bold", color=color,
            ha="left", va="center", transform=ax.transAxes)

g.map(label, "counts")

Antes de continuar se puede configurar el espacio que se desea dejar entre cada una de los subgráficos, lo que se consigue cambiando el valor del parámetro hspace.

# Ajustar espaciado entre subgráficos
g.figure.subplots_adjust(hspace=-.25)

Finalmente, para mejorar la apariencia de la figura resultante, se borran los títulos de los ejes que no son necesarios para el Ridge Plot. La función despine() elimina las espinas de los subgráficos. Las espinas son las líneas que delimitan los ejes del gráfico, como la línea superior, lo que permite tener una gráfica más limpia. Como último paso del proceso se genera la figura.

# Quitar detalles de ejes que no se superponen bien
g.set_titles("")
g.set(yticks=[], ylabel="")
g.despine(bottom=True, left=True)

plt.show()

Código completo para la creación de Ridge Plots en Python

A continuación, se muestra el código completo y la figura que se obtiene como resultado.

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# Fijar la semilla
np.random.seed(42)

# Generar datos aleatorios para cinco años
years = range(2000, 2005)  
year_data = []
count_data = []

for year in years:
    counts = np.random.randint(200, 3001, size=100)
    year_data.extend([year] * 100)
    count_data.extend(counts)

# Crear DataFrame
df = pd.DataFrame({'year': year_data, 'counts': count_data})

# Configuración de estilo de Seaborn
sns.set_theme(style="white", rc={"axes.facecolor": (0, 0, 0, 0)})

# Definir una paleta de colores
palette = sns.color_palette("husl", len(years))

# Inicialización del gráfico FacetGrid con paleta de colores
g = sns.FacetGrid(df, row="year", hue="year", aspect=7, height=.9, palette=palette)

# Dibujar las densidades
g.map(sns.kdeplot, "counts",
      bw_adjust=.5, clip_on=False,
      fill=True, alpha=1, linewidth=1.5)
g.map(sns.kdeplot, "counts", clip_on=False, color="w", lw=2, bw_adjust=.5)

# Línea de referencia horizontal
g.refline(y=0, linewidth=2, linestyle="-", color=None, clip_on=False)

# Función para etiquetar los subgráficos
def label(x, color, label):
    ax = plt.gca()
    ax.text(0, .2, label, fontweight="bold", color=color,
            ha="left", va="center", transform=ax.transAxes)

g.map(label, "counts")

# Ajustar espaciado entre subgráficos
g.figure.subplots_adjust(hspace=-.25)

# Quitar detalles de ejes que no se superponen bien
g.set_titles("")
g.set(yticks=[], ylabel="")
g.despine(bottom=True, left=True)

plt.show()
Ridge Plot resultante del código propuesto en la entrada

Conclusiones

En esta entrada, se ha visto cómo se pueden crear Ridge Plots en Python utilizando las funciones de Seaborn. Una vez generado el conjunto de datos, se han visto y explicado cada uno de los pasos necesarios.

¿Te ha parecido de utilidad el contenido?

Daniel Rodríguez

Share
Published by
Daniel Rodríguez

Recent Posts

Data Lake y Data Warehouse: diferencias, usos y cómo se complementan en la era del dato

En la era del dato, las organizaciones se enfrentan al reto de gestionar volúmenes masivos…

3 días ago

Documentar tu API de Express con TypeScript usando OpenAPI (Swagger)

En la serie Creación de una API REST con Express y TypeScript construimos una API…

5 días ago

Curiosidad: El sesgo de supervivencia, o por qué prestar atención sólo a los que “llegaron” puede engañarte

Durante la Segunda Guerra Mundial, la Fuerza Aérea de Estados Unidos quería reforzar sus aviones…

1 semana ago

Cómo abrir una ventana de Chrome con tamaño y posición específicos desde la línea de comandos en Windows

En muchas situaciones —ya sea para grabar un tutorial, tomar capturas de pantalla profesionales, probar…

2 semanas ago

La Paradoja del Cumpleaños, o por qué no es tan raro compartir fecha de nacimiento

Imagínate en una sala con un grupo de personas, por ejemplo, en una oficina, un…

2 semanas ago

Programador de tareas de Windows: Guía definitiva para automatizar tu trabajo (BAT, PowerShell y Python)

En el trabajo diario con ordenadores, es común encontrarse con tareas repetitivas: realizar copias de…

3 semanas ago

This website uses cookies.