Seaborn es una biblioteca de visualización de datos para Python basada en Matplotlib. La principal característica de Seaborn es una interfaz de alto nivel con la que es fácil crear gráficos elegantes de una forma sencilla. Siendo una excelente opción para analizar datos en Python. En esta entrada, una introducción a Seaborn, comienza una serie de publicaciones sobre Seaborn en la que se analizarán las principales características de esta popular herramienta.
Visión general de Seaborn
Posiblemente la principal característica que se puede destacar de Seaborn es su capacidad para generar gráficos estéticamente agradables usando pocas líneas de código. Ofreciendo una amplia gama de estilos predeterminados. Simplificando el proceso de creación de las visualizaciones de datos, así como su personalización. Además, Seaborn también proporciona una interfaz intuitiva para la visualización de relaciones entre variables. Algo que veremos de una forma clara en esta introducción a Seaborn.
Instalación de Seaborn
La popularidad de Seaborn hace que esta biblioteca se encuentre instalada por defecto en la Anaconda, por lo aquellos que usan esta distribución no es necesario instalar nada. En caso de no usar Anaconda, Seaborn se puede instalar utilizando `pip, el administrador de paquetes de Python. Simplemente ejecutando el siguiente comando en tu terminal:
import seaborn as sns
Introducción a Seaborn con “tips”
En esta entrada, para ilustrar las capacidades de Seaborn se utilizará el conjunto de datos “tips” que se encuentra en la biblioteca. Este conjunto de datos contiene información de las propinas recibidas en un restaurante en diferentes días. Incluyendo información como el total de la factura, el sexo del comensal, el día de la semana y si el cliente era fumador o no. Para cargar el conjunto de datos solamente hay que importar Seaborn, lo que habitualmente se hace con el alias sns
, y llamar a la función load_dataset()
con el nombre del conjunto de datos. Obteniendo como resultado un objeto DataFrame de Pandas como se muestra en el siguiente código.
import seaborn as sns # Cargar el conjunto de datos "tips" tips_data = sns.load_dataset("tips") # Imprimir los primeros registros del conjunto de datos print(tips_data.head())
total_bill tip sex smoker day time size 0 16.99 1.01 Female No Sun Dinner 2 1 10.34 1.66 Male No Sun Dinner 3 2 21.01 3.50 Male No Sun Dinner 3 3 23.68 3.31 Male No Sun Dinner 2 4 24.59 3.61 Female No Sun Dinner 4
Crear un gráfico de dispersión con Seaborn
Una vez importado el conjunto de datos se pueden crear diferentes gráficas con este. Por ejemplo, se puede crear un gráfico de dispersión para visualizar la relación entre el total de la factura y la propina, para lo que se puede usar la función scatterplot()
.
import matplotlib.pyplot as plt # Crear un gráfico de dispersión de total_bill vs. tip sns.scatterplot(x="total_bill", y="tip", data=tips_data) # Mostrar el gráfico plt.show()
El uso de la función no puede ser más sencilla, solamente necesita tres parámetros: la columna con los datos del eje x, la columna con los datos del eje y, y el DataFrame con los datos. Lo que muestra la simplicidad de la interfaz de esta biblioteca.
Agregar etiquetas en los ejes y títulos
Seaborn permite personalizar las visualizaciones de datos incluyendo etiquetas en los ejes y títulos. La forma más sencilla para conseguir esto es guardar el resultado de la función con la que se ha creado la gráfica en una variable y llamar a los métodos de configuración como set_title()
para indicar el título, set_xlabel()
para indicar la etiqueta para eje y set_xlabel()
para la del eje y. Esto es lo que se muestra en el siguiente ejemplo.
# Crear un gráfico de dispersión con colores según el sexo ax = sns.scatterplot(x="total_bill", y="tip", data=tips_data) ax.set_title('Propina frente a cuenta') ax.set_xlabel('Total de la cuenta') ax.set_ylabel('Propina') # Mostrar el gráfico plt.show()
Analizar los datos en base a sexo de los comensales
Si se desea separar los datos en base a una característica del conjunto de datos no es necesario realizar la tarea de forma manual ya que Seaborn lo puede hacer por nosotros. Solamente se tiene que indicar la característica en la función a mediante la propiedad hue
. Por ejemplo, para ver el gráfico de dispersión de las propinas en función del sexo de los comensales se puede hacer tal como se muestra en el siguiente ejemplo. En donde únicamente se ha agregado la propiedad hue
con el valor "sex"
.
# Crear un gráfico de dispersión con colores según el sexo ax = sns.scatterplot(x="total_bill", y="tip", hue="sex", data=tips_data) ax.set_title('Propina frente a cuenta') ax.set_xlabel('Total de la cuenta') ax.set_ylabel('Propina') # Mostrar el gráfico plt.show()
Obteniendo de una forma sencilla la gráfica de dispersión de la propina con diferentes colores en función del sexo de los comensales.
Creación de un gráfico de barras con Seaborn
Si se desea otro tipo de gráfico solamente se tiene que usar la función adecuada de Seaborn. Por ejemplo, para crear un gráfico de barras se puede usar la función barplot()
a la que se le deben pasar los mismos parámetros que en gráfico de dispersión.
# Crear un gráfico de barras ax = sns.barplot(x='day', y='total_bill', data=tips_data) ax.set_title('Total de la cuenta por día') ax.set_xlabel('Día de la semana') ax.set_ylabel('Total de la cuenta') # Mostrar el gráfico plt.show()
En este ejemplo se muestra el total de la cuenta frente al día de la semana, incluyendo una gráfica de error. Por defecto barplot()
calcula la media de los valores, lo que se puede comprobar obteniendo la media con groupby()
.
tips_data.groupby('day')['total_bill'].mean()
day Thur 17.682742 Fri 17.151579 Sat 20.441379 Sun 21.410000
Si se desea evitar la barra de error se puede asignar el valor None
a la propiedad errorbar
. Lo que produce una gráfica más sencilla.
# Crear un gráfico de barras ax = sns.barplot(x='day', y='total_bill', data=tips_data, errorbar=None) ax.set_title('Total de la cuenta por día') ax.set_xlabel('Día de la semana') ax.set_ylabel('Total de la cuenta') # Mostrar el gráfico plt.show()
Por otro lado, si en lugar de la media se desea obtener otro valor, como puede ser la suma de las facturas, se puede indicar mediante la propiedad estimator
. En el caso de la suma se debe usar sum
.
# Crear un gráfico de barras ax = sns.barplot(x='day', y='total_bill', data=tips_data, estimator=sum, errorbar=None) ax.set_title('Total de la cuenta por día') ax.set_xlabel('Día de la semana') ax.set_ylabel('Total de la cuenta') # Mostrar el gráfico plt.show()
Conclusiones
Seaborn es una biblioteca con la que se pueden crear gráficos elegantes de una manera sencilla. Lo que puede simplificar los flujos de trabajo. En esta introducción a Seaborn se han repasado las principales características de biblioteca, las cuales se ampliarán en las siguiente entradas de la serie.
Deja una respuesta