Python

Pandas: Encontrar la posición y valores de máximos y mínimos en un DataFrame

Los objetos DataFrame de Pandas disponen de los métodos max() e idxmax() con los que es posible obtener respectivamente el máximo de los valores y la posición de estos. Algo que se puede hacer tanto por filas como por columnas. De forma análoga a estos, también existen los métodos min() e idxmin() con los que es posible los valores mínimos y su posición. En esta entrada vamos a ver cómo usar estos métodos para obtener la posición y valores de máximos y mínimos en un DataFrame.

Creación de un conjunto de datos

Antes de continuar con los métodos para identificar los máximos, mínimos y su posición es necesario crear un conjunto de datos de prueba. Para ello se puede recurrir al método randint(), después de fijar la semilla de cara a poder reproducir los resultados, para crear una matriz y luego convertirla en un DataFrame. Algo que se puede conseguir con un código como el siguiente:

import numpy as np
import pandas as pd

np.random.seed(0)
df = pd.DataFrame(np.random.randint(0, 100,
                                    size=(4, 5)),
                  columns=list('ABCDE'))

 df.loc[1, 'A'] = np.NaN
 df.loc[2, 'C'] = np.NaN

Nótese que en el objeto se han introducido dos valores NaN, esto es para ver cómo se puede con este tipo de valores. El código anterior generar como resultado el siguiente DataFrame

       A   B     C   D   E
 0  44.0  47  64.0  67  67
 1   NaN  83  21.0  36  87
 2  70.0  88   NaN  12  58
 3  65.0  39  87.0  46  88

Uso básico del método max()

Al utilizar el método max() sobre el objeto DataFrame que se ha creado anteriormente se obtienen como resultado los valores máximo por columna, ignorando los NaN.

df.max()
A 70.0
B 88.0
C 87.0
D 67.0
E 88.0

Esto es así porque el método se aplica por defecto a las columnas. En el caso de necesitar obtener los máximos por fila solamente hay que indicar el eje sobre el que se desea obtener los valores máximos. Esto es, pasando como el parámetro axis igual a 1.

df.max(axis=1)
0 67.0
1 87.0
2 88.0
3 88.0

Nótese que en este caso los índices son los de las filas, no los de las colman como en el caso anterior. Finalmente, si lo que se desea en obtener el máximo total solamente se tienen que usar dos veces el método max()

df.max().max()
88.0

Tener en cuenta los valores nulos

Por defecto el método max() no tiene en cuenta los valores nulos, esto es porque el valor de la propiedad skipna es por defecto None. En el caso de que queramos tener en cuenta los valores NaN, es decir, buscar los valores máximos solamente en las filas o columnas que tengan todos sus elementos distingos de NaN, solamente hay que poner este valor a verdadero. Lo que se muestra en el siguiente ejemplo.

df.max(axis=1, skipna=False)
0 67.0
1 NaN
2 NaN
3 88.0

Obteniendo como resultado un objeto en el que el segundo y tercer valor son NaN. Lo que se produce porque la presencia de por lo menos un valor NaN en la fila hace que el resultado sea necesariamente este.

Obtener la posición de los valores máximos

En algunos casos no es necesario obtener el valor máximo, sino que la posición en la que este se encuentra. Para lo que se dispone del método idxmax(). Un método que tiene las mismas propiedades vistas para max(). Así, para obtener los índices en los que se encuentra el máximo de cada columna solamente se tienen que escribir

df.idxmax()
A 2
B 2
C 3
D 0
E 3

Mientras que en el caso de buscar los índices en las filas se tiene que asignar la propiedad axis a 1.

df.idxmax(axis=1)
0 D
1 E
2 B
3 E

En donde se puede ver que devuelve el nombre de la columna en la que se encuentra el máximo. Al igual que en el caso de max() el método idxmax() ignora los valores NaN y de forma análoga también se puede indicar que los tenga en cuenta. Lo que procura como resultado que solamente se obtendría la posición del máximo cuando toda la fila o columna tenga valores no nulos, obteniendo como resultado NaN en el resto de los casos. A modo de ejemplo se puede ver el resultado cuando se asigna esta propiedad

df.idxmax(axis=1, skipna=False)
0 D
1 NaN
2 NaN
3 E

Posición y valores mínimos en un DataFrame

Cuando se necesita localizar los mínimos de un DataFrame se puede recurrir a los métodos min() e idxmin() los cuales funcionan exactamente igual y tiene las mismas propiedades que max() e idxmax() respectivamente.

Conclusiones

En esta entrada hemos visto cómo localizar la posición y valores de máximos y mínimos en un DataFrame. Tarea que se puede realizar fácilmente gracias a la existencia de los métodos min(), max(), idxmin() e idxmax() de los objetos DataFrame.

¿Te ha parecido de utilidad el contenido?

Daniel Rodríguez

Share
Published by
Daniel Rodríguez
Tags: Pandas

Recent Posts

Data Lake y Data Warehouse: diferencias, usos y cómo se complementan en la era del dato

En la era del dato, las organizaciones se enfrentan al reto de gestionar volúmenes masivos…

3 días ago

Documentar tu API de Express con TypeScript usando OpenAPI (Swagger)

En la serie Creación de una API REST con Express y TypeScript construimos una API…

5 días ago

Curiosidad: El sesgo de supervivencia, o por qué prestar atención sólo a los que “llegaron” puede engañarte

Durante la Segunda Guerra Mundial, la Fuerza Aérea de Estados Unidos quería reforzar sus aviones…

1 semana ago

Cómo abrir una ventana de Chrome con tamaño y posición específicos desde la línea de comandos en Windows

En muchas situaciones —ya sea para grabar un tutorial, tomar capturas de pantalla profesionales, probar…

2 semanas ago

La Paradoja del Cumpleaños, o por qué no es tan raro compartir fecha de nacimiento

Imagínate en una sala con un grupo de personas, por ejemplo, en una oficina, un…

2 semanas ago

Programador de tareas de Windows: Guía definitiva para automatizar tu trabajo (BAT, PowerShell y Python)

En el trabajo diario con ordenadores, es común encontrarse con tareas repetitivas: realizar copias de…

3 semanas ago

This website uses cookies.