Python

Tres métodos de Pandas que posiblemente no conocías

Pandas es una de librería de Python que más usamos en el día a día, siendo una herramienta clave en la mayoría de los proyectos de aprendizaje automático y ciencia de datos. Aún así, con un uso tan intensivo, no solemos conocer todas los métodos y funciones que esta librería nos ofrece. Hoy vamos a repasar tres métodos de Pandas poco conocidos que son muy interesantes: value_counts, mask y nlargest.

En esta entrada vamos a utilizar un conjunto de datos de pruebas que vamos a crear con el siguiente comando.

import pandas as pd
import numpy as np

np.random.seed(0)
df = pd.DataFrame(np.random.randint(0, 4, size=(6, 4)), columns=list('ABCD'))
df

   A  B  C  D
0  0  3  1  0
1  3  3  3  3
2  1  3  1  2
3  0  3  2  0
4  0  0  2  1
5  2  3  3  2

value_counts

El método value_counts de Pandas permite obtener de una forma rápida los valores únicos y con la frecuencia de estos en una serie. Una operación que puede ser de interés en diferentes situaciones. Así para la serie A del DataFrame de ejemplo se puede obtener los elementos simplemente con

df['A'].value_counts()

Con lo que se puede observar que el elemento más repetido es 0 con tres ocurrencias. Lo mejor de este método es que se puede aplicar a todo el DataFrame mediante `apply(). Obteniendo de este modo un nuevo DataFrame en el que los índices son los valores y en cada fila se obtiene el número de ocurrencias. Si en una serie no existe un valor, se obtendrá un NaN. Lo que se puede ver en el siguiente ejemplo.

df.apply(pd.value_counts)

   A    B    C  D
0  3  1.0  NaN  2
1  1  NaN  2.0  1
2  1  NaN  2.0  2
3  1  5.0  2.0  1

mask

El método mask es interesante porque permite remplazar los valores por otros en un DataFrame en base a una condición. Así es un método que tiene dos entradas, una condición y un valor. Por ejemplo, se pueden multiplicar por 10 todos los valores pares.

df.mask(df % 2 == 0, 10 * df)

    A  B   C   D
0   0  3   1   0
1   3  3   3   3
2   1  3   1  20
3   0  3  20   0
4   0  0  20   1
5  20  3   3  20

Esto es algo que nos facilita enormemente el procesado de datos para filtrar valores anómalos.

nlargest

Finalmente, el método nlargest nos permite obtener los n valores más grandes en cada una de las series de un DataFrame. Así para obtener los dos registros más grandes en cada serie del conjunto de datos de ejemplo se puede escribir.

df.nlargest(2, 'D')

   A  B  C  D
1  3  3  3  3
2  1  3  1  2

Afortunadamente, si lo que necesitamos son los valores más pequeños existe el método nsmallest que funciona de forma análoga.

Conclusiones

En la entrada de hoy hemos visto tres métodos de Pandas poco conocidas que son muy interesantes: value_counts, mask y nlargest. Posiblemente no sean métodos que usaremos todos los días, pero es interesante conocer todas las posibilidades que ofrece esta fantástica herramienta.

Imagen de Susanne Stöckli en Pixabay

Daniel Rodríguez

Next Elementos aleatorios con y sin repetición en Python »

Previous « Tablas dinámicas en Matlab

Published by

Daniel Rodríguez

Tags: Pandas

6 años ago

Cómo comparar datos con barras en Matplotlib: agrupadas, apiladas y porcentuales
Tienes los datos de ventas de tres productos en dos años distintos y quieres saber…
Subplots en Matplotlib: cómo organizar múltiples gráficos en una sola figura
Llevas un rato analizando datos y tienes cuatro gráficos abiertos en ventanas separadas: ventas, usuarios,…
Cómo comparar tendencias con gráficos de líneas en Matplotlib: guía práctica paso a paso
Tienes los datos de tráfico web de los últimos cinco meses desglosados por canal: orgánico,…

Las fórmulas con DNI, o cómo dividir cualquier cosa entre cualquier otra cosa puede acabar publicado en un titular serio – El bestiario de los indicadores económicos absurdos (parte 5)

En las cuatro entregas anteriores recorrimos los disparates más folclóricos del género: faldas que predicen…

4 días ago

Noticias

Analytics Lane lanza ScoreFlow, un SaaS para construir y desplegar scorecards de crédito

En Analytics Lane seguimos evolucionando nuestras herramientas y damos un paso más con el lanzamiento…

5 días ago

Ciencia de datos

DBSCAN y la selección de ε: teoría, intuición y aplicación práctica

Cuando hablamos de clustering, lo primero que viene a la mente suele ser k-means. Pero…

6 días ago

Opinión

El bestiario de los indicadores económicos absurdos: El zoo patrio

Cualquier país desarrollado tiene sus propios indicadores folclóricos. España, por motivos que tienen mucho que…

2 semanas ago

Sin categoría

Por qué el banco te ofrece un 3% TAE y no es lo que parece

Entras a la web de tu banco. En la página principal, un banner llamativo: “Depósito…

2 semanas ago

Noticias

Analytics Lane lanza la versión 1.3 del laboratorio con nuevas herramientas de evaluación de modelos y utilidades prácticas

Seguimos ampliando el laboratorio de Analytics Lane con el lanzamiento de la versión 1.3, disponible…

2 semanas ago

This website uses cookies.

Tres métodos de Pandas que posiblemente no conocías

value_counts

mask

nlargest

Conclusiones

Publicaciones relacionadas

Related Post

Recent Posts

Las fórmulas con DNI, o cómo dividir cualquier cosa entre cualquier otra cosa puede acabar publicado en un titular serio – El bestiario de los indicadores económicos absurdos (parte 5)

Analytics Lane lanza ScoreFlow, un SaaS para construir y desplegar scorecards de crédito

DBSCAN y la selección de ε: teoría, intuición y aplicación práctica

El bestiario de los indicadores económicos absurdos: El zoo patrio

Por qué el banco te ofrece un 3% TAE y no es lo que parece

Analytics Lane lanza la versión 1.3 del laboratorio con nuevas herramientas de evaluación de modelos y utilidades prácticas