Python

Tres métodos de Pandas que posiblemente no conocías

Pandas es una de librería de Python que más usamos en el día a día, siendo una herramienta clave en la mayoría de los proyectos de aprendizaje automático y ciencia de datos. Aún así, con un uso tan intensivo, no solemos conocer todas los métodos y funciones que esta librería nos ofrece. Hoy vamos a repasar tres métodos de Pandas poco conocidos que son muy interesantes: value_counts, mask y nlargest.

En esta entrada vamos a utilizar un conjunto de datos de pruebas que vamos a crear con el siguiente comando.

import pandas as pd
import numpy as np

np.random.seed(0)
df = pd.DataFrame(np.random.randint(0, 4, size=(6, 4)), columns=list('ABCD'))
df
   A  B  C  D
0  0  3  1  0
1  3  3  3  3
2  1  3  1  2
3  0  3  2  0
4  0  0  2  1
5  2  3  3  2

value_counts

El método value_counts de Pandas permite obtener de una forma rápida los valores únicos y con la frecuencia de estos en una serie. Una operación que puede ser de interés en diferentes situaciones. Así para la serie A del DataFrame de ejemplo se puede obtener los elementos simplemente con

df['A'].value_counts()
0    3
3    1
2    1
1    1

Con lo que se puede observar que el elemento más repetido es 0 con tres ocurrencias. Lo mejor de este método es que se puede aplicar a todo el DataFrame mediante `apply(). Obteniendo de este modo un nuevo DataFrame en el que los índices son los valores y en cada fila se obtiene el número de ocurrencias. Si en una serie no existe un valor, se obtendrá un NaN. Lo que se puede ver en el siguiente ejemplo.

df.apply(pd.value_counts)
   A    B    C  D
0  3  1.0  NaN  2
1  1  NaN  2.0  1
2  1  NaN  2.0  2
3  1  5.0  2.0  1

mask

El método mask es interesante porque permite remplazar los valores por otros en un DataFrame en base a una condición. Así es un método que tiene dos entradas, una condición y un valor. Por ejemplo, se pueden multiplicar por 10 todos los valores pares.

df.mask(df % 2 == 0, 10 * df)
    A  B   C   D
0   0  3   1   0
1   3  3   3   3
2   1  3   1  20
3   0  3  20   0
4   0  0  20   1
5  20  3   3  20

Esto es algo que nos facilita enormemente el procesado de datos para filtrar valores anómalos.

nlargest

Finalmente, el método nlargest nos permite obtener los n valores más grandes en cada una de las series de un DataFrame. Así para obtener los dos registros más grandes en cada serie del conjunto de datos de ejemplo se puede escribir.

df.nlargest(2, 'D')
   A  B  C  D
1  3  3  3  3
2  1  3  1  2

Afortunadamente, si lo que necesitamos son los valores más pequeños existe el método nsmallest que funciona de forma análoga.

Conclusiones

En la entrada de hoy hemos visto tres métodos de Pandas poco conocidas que son muy interesantes: value_counts, mask y nlargest. Posiblemente no sean métodos que usaremos todos los días, pero es interesante conocer todas las posibilidades que ofrece esta fantástica herramienta.

Imagen de Susanne Stöckli en Pixabay

¿Te ha parecido de utilidad el contenido?

Daniel Rodríguez

Share
Published by
Daniel Rodríguez
Tags: Pandas

Recent Posts

Curiosidad: La Paradoja de Simpson, o por qué no siempre debes fiarte de los promedios

En ciencia de datos y estadística, los promedios y porcentajes son herramientas fundamentales para resumir…

19 horas ago

Copias de seguridad automáticas en SQL Server con rotación de archivos

Las bases de datos son el corazón de casi cualquier sistema de información moderno. Ya…

3 días ago

Curiosidad: La Ley de Twyman y la trampa de los datos “interesantes”

En ciencia de datos, pocas cosas llaman más la atención de los científicos de datos…

1 semana ago

Cómo calcular el tamaño de la muestra para encuestas

Calcular adecuadamente el tamaño de la muestra es una parte esencial en el diseño de…

1 semana ago

Curiosidad: El origen del análisis exploratorio de datos y el papel de John Tukey

Hoy en día, cuando pensamos en ciencia de datos, lo primero que nos viene a…

2 semanas ago

Cómo extender el tamaño de un disco en Rocky Linux 9 usando growpart y LVM

Ampliar el espacio de almacenamiento en un sistema Linux es una tarea habitual y crítica…

2 semanas ago

This website uses cookies.