Python

Combinar diagramas de caja e histogramas en Python con Seaborn

Los diagramas de caja (“boxplot”) o diagramas de bigote son una excelente herramienta para representar características de un conjunto de datos como la dispersión y la simetría. Otro gráfico que también nos permite observar estas características en los conjuntos de datos son los histogramas. Por lo que, en ciertas ocasiones, puede ser una buena idea combinar ambos en un único gráfico para ofrecer una mejor representación de los datos. Vamos a ver como se puede hacer esto, combinar en una única gráfica diagramas de caja e histogramas en Python, con Seaborn.

Diagramas de caja e histogramas en una gráfica

Para crear una gráfica en la que exista un diagrama de cajas y un histograma se puede utilizar el siguiente código.

import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

x = np.random.normal(loc=0.0, scale=3.0, size=1000)

f, ax = plt.subplots(2,
                     sharex=True,
                     gridspec_kw={"height_ratios": (.20, .80)})

sns.boxplot(x, ax=ax[0])
sns.distplot(x, ax=ax[1])
ax[1].axvline(np.mean(x), color='red')

Con el que se obtendrá una figura como la siguiente.

En esta figura se puede ver en la parte superior un diagrama de cajas y en la parte inferior un histograma con la función de densidad. Compartiendo ambos el mismo eje x. Además, también se puede ver una línea roja en el histograma que indica la posición de la media del conjunto de datos.

Los pasos que se han dado para crear la gráfica han sido los siguientes.

Conjunto de datos aleatorios

En primer lugar, después de las correspondientes importaciones, se han creado un conjunto de datos aleatorios usando la función random.normal() de NumPy. Esta función ha creado simplemente 1000 registros a partir de una distribución normal con media cero y dispersión igual a 3.

Creación de las sub gráficas

Posteriormente se ha empleado la función subplots de Matplotlib para crear una gráfica con dos ejes. Indicándose mediante la propiedad sharex que ambas compartan el mismo eje de coordenadas para x.

Además, también se ha utilizado la propiedad gridspec_kw para indicar el porcentaje de altura que le corresponde a cada eje. Lo que se ha hecho es crear un diccionario con la propiedad height_ratios. Indicando que el primer eje, el que se usará para el diagrama de caja, usar el 20% de la altura y el segundo, el que se usará para representar el histograma el resto.

Esta función devuelve dos valores: la figura y los ejes. Solo que en este caso hay que tener en cuenta que los ejes son una vector con dos registros, ya que este es el número de ejes que tiene la nueva figura

Creación los diagramas de caja e histogramas

Las dos gráficas se han creado con las funciones correspondientes de Seaborn. La función boxplot para el diagrama de cajas y distplot para el histograma. Indicando en ambos casos el eje en el que se desea situar la figura.

Creación de la línea vertical

Finalmente, se usa la propiedad axvline del eje para crear una línea vertical. A la que solamente se le debe indicar la posición. Aunque también se ha indicado el color para diferenciarlo del histograma.

Conclusiones

En esta entrada hemos visto un pequeño truco para poder crear una única figura con diagramas de caja e histogramas en Python. Un truco que también se podría usar para combinar otros tipos de gráficos modificando los parámetros utilizados en este caso.

¿Te ha parecido de utilidad el contenido?

Daniel Rodríguez

Share
Published by
Daniel Rodríguez
Tags: Seaborn

Recent Posts

Analytics Lane lanza la versión 1.3 del laboratorio con nuevas herramientas de evaluación de modelos y utilidades prácticas

Seguimos ampliando el laboratorio de Analytics Lane con el lanzamiento de la versión 1.3, disponible…

17 horas ago

Augurios deportivos y portadas malditas, o cuando The Economist predice mejor al revés – El bestiario de los indicadores económicos absurdos (parte 3)

Cerramos la serie internacional con la categoría más estrambótica de todas: indicadores que predicen el…

2 días ago

El Binning en Credit Scoring: El Arte de Discretizar Variables

Si el WOE y el IV son la base matemática del credit scoring, el binning…

4 días ago

Analytics Lane lanza la versión 1.2 del laboratorio con nuevas herramientas de ajuste de curvas y cálculo matricial

Seguimos iterando sobre el laboratorio de Analytics Lane y lanzamos la versión 1.2, disponible en:https://www.analyticslane.com/lab/es…

1 semana ago

Cómo comparar tendencias con gráficos de líneas en Matplotlib: guía práctica paso a paso

Tienes los datos de tráfico web de los últimos cinco meses desglosados por canal: orgánico,…

2 semanas ago

This website uses cookies.