En Pandas existen dos opciones para seleccionar los elementos de un DataFrame: at
y loc
. Aparentemente las dos alternativas hacen lo mismo, pero no es así. Existe una sutil diferencia entre at
y loc
en Pandas que se debe tener en cuenta a la hora de elegir una u otra opción.
La diferencia entre at
y loc
en Pandas
La sutil diferencia que existe entre los dos métodos es la siguiente:
at
: solamente puede seleccionar un único elemento del conjunto de datos, esto es, solamente se pueden indicar una fila y columna.loc
: permite seleccionar un subconjunto del conjunto de datos con varias filas y columnas.
El uso de at
El método at
solamente puede seleccionar un único elemento del conjunto de datos, indicando para ello entre corchetes la fila y columna a seleccionar. Esta selección se puede usar tanto para seleccionar el valor como para modificar el contenido de este.
Por ejemplo, en el siguiente conjunto de datos que representa la clasificación de una serie de equipos se puede ver cómo seleccionar un elemento en particular con at
import pandas as pd df = pd.DataFrame({'equipo': ['EquipoA', 'EquipoB', 'EquipoC', 'EquipoD', 'EquipoE', 'EquipoF', 'EquipoG', 'EquipoH'], 'puntos': [24, 18, 20, 15, 14, 11, 22, 30], 'goles_anotados': [10, 15, 12, 8, 14, 10, 18, 25], 'goles_encajados': [8, 12, 10, 15, 18, 16, 14, 12]}) print(df.loc[1, 'puntos'])
18
Lo que también se puede emplear para modificar el contenido de la tabla, simplemente asignando un valor a la selección.
# Actulizar el contenido de la celda df.loc[1, 'puntos'] = 21
equipo puntos goles_anotados goles_encajados 0 EquipoA 24 10 8 1 EquipoB 21 15 12 2 EquipoC 20 12 10 3 EquipoD 15 8 15 4 EquipoE 14 14 18 5 EquipoF 11 10 16 6 EquipoG 22 18 14 7 EquipoH 30 25 12
Pero no es posible seleccionar más de un elemento, ni un rango de filas ni columnas. Si se intenta seleccionar un rango el intérprete de Python devolverá un error.
El uso de loc
en Pandas
A diferencia de at
, el método loc
permite acceder y modificar un grupo de celdas del conjunto de datos a la vez. Permitiendo trabajar sobre el subconjunto a la vez. Por ejemplo, con el siguiente código se puede acceder a los puntos y goles de los tres primeros registros del conjunto de datos.
# Selección de los puntos y goles anotados de los tres primeros df.loc[:3, ['puntos', 'goles_anotados']]
puntos goles_anotados 0 24 10 1 21 15 2 20 12 3 15 8
Aunque también se puede seleccionar solamente uno como en el caso anterior
df.at[1, 'puntos']
21
Conclusiones
En esta entrada se puede ver que la principal diferencia entre at
y loc
, y el motivo por el que existen ambas, es:
at
se utiliza específicamente para acceder o modificar un solo valor, y es más eficiente en este caso ya que está optimizado para la obtención de un solo dato.loc
es más versátil, ya que puede seleccionar tanto filas como columnas, y también puede realizar selecciones condicionales.
Por lo que se puede concluir que, mientras loc
es más la opción más versátil, at
es la más eficiente. Por lo que si solamente se necesita acceder a un valor del conjunto de datos la opción a usar debería ser at
. Mientras que loc
(o su versión que usa índices iloc
) sería la opción para usar en el resto de las situaciones.
Imagen de Brigitte Werner en Pixabay
Deja una respuesta