Python

Tres métodos de Pandas que posiblemente no conocías

Pandas es una de librería de Python que más usamos en el día a día, siendo una herramienta clave en la mayoría de los proyectos de aprendizaje automático y ciencia de datos. Aún así, con un uso tan intensivo, no solemos conocer todas los métodos y funciones que esta librería nos ofrece. Hoy vamos a repasar tres métodos de Pandas poco conocidos que son muy interesantes: value_counts, mask y nlargest.

En esta entrada vamos a utilizar un conjunto de datos de pruebas que vamos a crear con el siguiente comando.

import pandas as pd
import numpy as np

np.random.seed(0)
df = pd.DataFrame(np.random.randint(0, 4, size=(6, 4)), columns=list('ABCD'))
df
   A  B  C  D
0  0  3  1  0
1  3  3  3  3
2  1  3  1  2
3  0  3  2  0
4  0  0  2  1
5  2  3  3  2

value_counts

El método value_counts de Pandas permite obtener de una forma rápida los valores únicos y con la frecuencia de estos en una serie. Una operación que puede ser de interés en diferentes situaciones. Así para la serie A del DataFrame de ejemplo se puede obtener los elementos simplemente con

df['A'].value_counts()
0    3
3    1
2    1
1    1

Con lo que se puede observar que el elemento más repetido es 0 con tres ocurrencias. Lo mejor de este método es que se puede aplicar a todo el DataFrame mediante `apply(). Obteniendo de este modo un nuevo DataFrame en el que los índices son los valores y en cada fila se obtiene el número de ocurrencias. Si en una serie no existe un valor, se obtendrá un NaN. Lo que se puede ver en el siguiente ejemplo.

df.apply(pd.value_counts)
   A    B    C  D
0  3  1.0  NaN  2
1  1  NaN  2.0  1
2  1  NaN  2.0  2
3  1  5.0  2.0  1

mask

El método mask es interesante porque permite remplazar los valores por otros en un DataFrame en base a una condición. Así es un método que tiene dos entradas, una condición y un valor. Por ejemplo, se pueden multiplicar por 10 todos los valores pares.

df.mask(df % 2 == 0, 10 * df)
    A  B   C   D
0   0  3   1   0
1   3  3   3   3
2   1  3   1  20
3   0  3  20   0
4   0  0  20   1
5  20  3   3  20

Esto es algo que nos facilita enormemente el procesado de datos para filtrar valores anómalos.

nlargest

Finalmente, el método nlargest nos permite obtener los n valores más grandes en cada una de las series de un DataFrame. Así para obtener los dos registros más grandes en cada serie del conjunto de datos de ejemplo se puede escribir.

df.nlargest(2, 'D')
   A  B  C  D
1  3  3  3  3
2  1  3  1  2

Afortunadamente, si lo que necesitamos son los valores más pequeños existe el método nsmallest que funciona de forma análoga.

Conclusiones

En la entrada de hoy hemos visto tres métodos de Pandas poco conocidas que son muy interesantes: value_counts, mask y nlargest. Posiblemente no sean métodos que usaremos todos los días, pero es interesante conocer todas las posibilidades que ofrece esta fantástica herramienta.

Imagen de Susanne Stöckli en Pixabay

¿Te ha parecido de utilidad el contenido?

Daniel Rodríguez

Share
Published by
Daniel Rodríguez
Tags: Pandas

Recent Posts

De la Regresión Logística al Scorecard: La Transformación Matemática

En un entrada previa explicamos qué son el WOE y el IV y por qué…

1 día ago

Analytics Lane lanza la versión 1.1 del laboratorio con nuevas suites de CLV y Scoring

Seguimos evolucionando el laboratorio de Analytics Lane y hoy lanzamos la versión 1.1, disponible en:…

2 días ago

Interés compuesto: la fuerza que multiplica tu dinero (y los errores que la anulan)

“El interés compuesto es la octava maravilla del mundo. El que lo entiende lo gana…

6 días ago

Cómo comparar datos con barras en Matplotlib: agrupadas, apiladas y porcentuales

Tienes los datos de ventas de tres productos en dos años distintos y quieres saber…

1 semana ago

Costes hundidos en ciencia de datos: cuándo mantener un modelo y cuándo migrar

Imagina la situación. Tu equipo lleva tres años con un modelo en producción. No es…

2 semanas ago

WOE e IV: La Base Matemática del Credit Scoring

Cuando un banco evalúa una solicitud de crédito necesita responder a una pregunta aparentemente simple:…

2 semanas ago

This website uses cookies.