Gráficos de densidad: alternativa a los gráficos de dispersión en Python

Gráfico de densidad con relleno y escala de colores para el conjunto de 500 datos

En una publicación anterior se vieron algunos de los problemas que muestran los gráficos de dispersión cuando se cuentan con grandes conjuntos de datos, proponiendo en aquella ocasión el uso de los gráficos de Hexbin como alternativa. Otros gráficos que se pueden emplear en estas situaciones son los gráficos de densidad. Unos gráficos en los que se dibujan los contornos en los que la densidad es igual, los cuales se pueden ilustrar con una escala de colores, mostrando de esta forma las áreas donde la densidad de datos es similar.

Gráficos de densidad en Python con Seaborn

Para crear un gráfico de densidad en Python se puede usar la librería Seaborn, en la cual se puede encontrar la función kdeplot(). Antes de crear uno de estos gráficos se puede recordar el problema que presentan los gráficos de dispersión cuando el conjunto de datos es demasiado grande. Para lo que se puede usar el código similar al hablar de los gráficos de Hexbin.

import numpy as np
import matplotlib.pyplot as plt

# Generar datos aleatorios
np.random.seed(1)
x = np.dot(np.random.random(size = (2, 2)), np.random.normal(size = (2, 500))).T

# Crear el gráfico de dispersión
plt.scatter(x[:, 0], x[:, 1])

# Mostrar el gráfico
plt.show()

Gráfico de dispersión para un conjunto de 500 datos

En este ejemplo primero se ha generado un conjunto de datos aleatorios con 500 registros y creado una gráfica de dispersión con ellos. Tal como se puede apreciar en la gráfica, en las zonas donde la densidad de datos es alta los puntos se superponen, lo que puede dar lugar a confusión. Una alternativa en este caso es crear un gráfico de densidad tal como se muestra a continuación.

import seaborn as sns

# Crear gráfico de densidad
sns.kdeplot(x=x[:, 0], y=x[:, 1])

Gráfico de densidad con el conjunto de 500 datos de la figura anterior

Un código en el que solamente se ha importado Seaborn y llamado a la función kdeplot() con los datos para los ejes. La gráfica resultante muestra una serie de líneas que representan zonas de igual densidad. Pudiendo apreciar más claramente cómo se reparte esta.

Relleno de las zonas de densidad con una escala de colores

La función kdeplot() de Seaborn cuenta con la propiedad fill que se puede utilizar para indicar si se desea que las zonas se rellene con una escala de colores. Por defecto, como se ha visto en la sección anterior, no se rellena las zonas. Para conseguir que estas se rellenen solamente se debe asignar el valor True a la propiedad.

# Crear gráfico de densidad com relleno
sns.kdeplot(x=x[:, 0], y=x[:, 1], fill=True, cbar=True)

Gráfico de densidad con relleno y escala de colores para el conjunto de 500 datos

Cuando se usa una escala de colores para rellenar las zonas de igual densidad puede ser interesante cambiar el valor de la propiedad cbar para indicar que se muestre la escala de colores. Lo que puede ser de gran ayuda para interpretar mejor los datos. Esto es lo que se muestra en el siguiente código.

Como resultado se obtiene una gráfica en la que se puede ver claramente que en la zona central la densidad de puntos está en torno a 1.2 y cuáles son los valores en cada una de las zonas.

Ventajas de los gráficos de densidad

Los gráficos de densidad cuentan con algunas ventajas respeto a los gráficos de hexbin y dispersión para algunos conjuntos de datos tales como:

Mejor visualización de la distribución: los gráficos de densidad permiten visualizar la distribución de una variable unidimensional de manera más clara que los gráficos de hexbin y dispersión. Mientras que los gráficos de hexbin y dispersión pueden ser útiles para identificar patrones en datos bidimensionales, el gráfico de densidad permite visualizar la distribución de una variable en su totalidad.
Ofrece más información a la hora de comparar distribuciones: El gráfico de densidad también es útil para comparar la distribución de dos o más variables. Mientras que los gráficos de hexbin y dispersión se centran en la relación entre dos variables, el gráfico de densidad permite comparar la distribución de varias variables en un solo figura.
Menor probabilidad de sobreexplotación: en los conjuntos de datos con una alta densidad de puntos las gráficas de dispersión pueden sufrir de sobreexplotación, lo que se traduce una mayor dificultad a la hora de interpretar los patrones. Por otro lado, los gráficos de densidad pueden mostrar de manera clara conjunto de datos grandes o con alta densidad de puntos.

Conclusiones

Los gráficos de densidad son una herramienta para la visualización de datos que puede ser de gran ayuda cuando los gráficos de dispersión no son suficientemente precisos. Ofreciendo una mejor interpretación de la distribución de los valores en un plano.

Daniel Rodríguez

Next Mochi Diffusion: Stable Diffusion con Core ML »

Previous « El método de Muller e implementación en Python

Published by

Daniel Rodríguez

Tags: MatplotlibSeaborn

3 años ago

Cómo comparar datos con barras en Matplotlib: agrupadas, apiladas y porcentuales
Tienes los datos de ventas de tres productos en dos años distintos y quieres saber…
Subplots en Matplotlib: cómo organizar múltiples gráficos en una sola figura
Llevas un rato analizando datos y tienes cuatro gráficos abiertos en ventanas separadas: ventas, usuarios,…
Cómo comparar tendencias con gráficos de líneas en Matplotlib: guía práctica paso a paso
Tienes los datos de tráfico web de los últimos cinco meses desglosados por canal: orgánico,…

Analytics Lane lanza la versión 1.4 del laboratorio con nuevas herramientas de conversión y modelos avanzados de CLV

Seguimos ampliando el laboratorio de Analytics Lane con el lanzamiento de la versión 1.4, que…

4 días ago

Opinión

La liga internacional, o cuando Harvard y Johns Hopkins suman peras con manzanas – El bestiario de los indicadores económicos absurdos (parte 6)

Hemos llegado a la sexta entrega de la serie. Si las cuatro primeras fueron las…

5 días ago

Noticias

Lanzamos el video de ScoreFlow: crea scorecards de crédito de forma ágil y sin IT

En Analytics Lane seguimos apostando por desarrollar herramientas que simplifiquen el trabajo de analistas y…

6 días ago

Ciencia de datos

Data Leakage en Credit Scoring: El Error que Invalida tu Modelo

Imagina que construyes un scorecard con un Gini de 0,85. Un resultado extraordinario, muy por…

7 días ago

Opinión

Las fórmulas con DNI, o cómo dividir cualquier cosa entre cualquier otra cosa puede acabar publicado en un titular serio – El bestiario de los indicadores económicos absurdos (parte 5)

En las cuatro entregas anteriores recorrimos los disparates más folclóricos del género: faldas que predicen…

2 semanas ago

Noticias

Analytics Lane lanza ScoreFlow, un SaaS para construir y desplegar scorecards de crédito

En Analytics Lane seguimos evolucionando nuestras herramientas y damos un paso más con el lanzamiento…