Pandas es una de librería de Python que más usamos en el día a día, siendo una herramienta clave en la mayoría de los proyectos de aprendizaje automático y ciencia de datos. Aún así, con un uso tan intensivo, no solemos conocer todas los métodos y funciones que esta librería nos ofrece. Hoy vamos a repasar tres métodos de Pandas poco conocidos que son muy interesantes: value_counts, mask y nlargest.
En esta entrada vamos a utilizar un conjunto de datos de pruebas que vamos a crear con el siguiente comando.
import pandas as pd
import numpy as np
np.random.seed(0)
df = pd.DataFrame(np.random.randint(0, 4, size=(6, 4)), columns=list('ABCD'))
df A B C D 0 0 3 1 0 1 3 3 3 3 2 1 3 1 2 3 0 3 2 0 4 0 0 2 1 5 2 3 3 2
El método value_counts de Pandas permite obtener de una forma rápida los valores únicos y con la frecuencia de estos en una serie. Una operación que puede ser de interés en diferentes situaciones. Así para la serie A del DataFrame de ejemplo se puede obtener los elementos simplemente con
df['A'].value_counts()
0 3 3 1 2 1 1 1
Con lo que se puede observar que el elemento más repetido es 0 con tres ocurrencias. Lo mejor de este método es que se puede aplicar a todo el DataFrame mediante `apply(). Obteniendo de este modo un nuevo DataFrame en el que los índices son los valores y en cada fila se obtiene el número de ocurrencias. Si en una serie no existe un valor, se obtendrá un NaN. Lo que se puede ver en el siguiente ejemplo.
df.apply(pd.value_counts)
A B C D 0 3 1.0 NaN 2 1 1 NaN 2.0 1 2 1 NaN 2.0 2 3 1 5.0 2.0 1
El método mask es interesante porque permite remplazar los valores por otros en un DataFrame en base a una condición. Así es un método que tiene dos entradas, una condición y un valor. Por ejemplo, se pueden multiplicar por 10 todos los valores pares.
df.mask(df % 2 == 0, 10 * df)
A B C D 0 0 3 1 0 1 3 3 3 3 2 1 3 1 20 3 0 3 20 0 4 0 0 20 1 5 20 3 3 20
Esto es algo que nos facilita enormemente el procesado de datos para filtrar valores anómalos.
Finalmente, el método nlargest nos permite obtener los n valores más grandes en cada una de las series de un DataFrame. Así para obtener los dos registros más grandes en cada serie del conjunto de datos de ejemplo se puede escribir.
df.nlargest(2, 'D')
A B C D 1 3 3 3 3 2 1 3 1 2
Afortunadamente, si lo que necesitamos son los valores más pequeños existe el método nsmallest que funciona de forma análoga.
En la entrada de hoy hemos visto tres métodos de Pandas poco conocidas que son muy interesantes: value_counts, mask y nlargest. Posiblemente no sean métodos que usaremos todos los días, pero es interesante conocer todas las posibilidades que ofrece esta fantástica herramienta.
Imagen de Susanne Stöckli en Pixabay
En un entrada previa explicamos qué son el WOE y el IV y por qué…
Seguimos evolucionando el laboratorio de Analytics Lane y hoy lanzamos la versión 1.1, disponible en:…
“El interés compuesto es la octava maravilla del mundo. El que lo entiende lo gana…
Tienes los datos de ventas de tres productos en dos años distintos y quieres saber…
Imagina la situación. Tu equipo lleva tres años con un modelo en producción. No es…
Cuando un banco evalúa una solicitud de crédito necesita responder a una pregunta aparentemente simple:…
This website uses cookies.