Un problema habitual en los conjuntos de datos es la existencia de registros duplicados. La duplicidad puede ser del registro completo o solamente de unos elementos. Por ejemplo, se ha registrado dos veces la misma operación con diferente identificador. Saber cómo eliminar estos registros duplicados es imprescindible para evitar posibles errores en los análisis posteriores. En esta se explicarán los métodos disponibles en los dataframes para la eliminación de registros duplicados en pandas.
Para poder eliminar datos duplicados de un dataframe en primer lugar se ha de crear un conjunto de datos con este problema. Esto es lo que se crea con las siguientes líneas de código
import pandas as pd
data = {'id': [1, 2, 3, 4, 5, 6, 7, 7],
'first_name': ['Sigrid', 'Kennedy', 'Theodoric', 'Sigrid', 'Kennedy', 'Beatrix', 'Olimpia', 'Olimpia'],
'last_name': ['Mannock', 'Donnell', 'Rivers', 'Mannock', 'Donnell', 'Parlett', 'Guenther', 'Guenther'],
'age': [27, 31, 36, 27, 53, 48, 36, 36],
'amount': [7.17, 1.90, 1.11, 7.17, 1.41, 6.69, 4.62, 4.62]}
df = pd.DataFrame(data, columns = ['id', 'first_name', 'last_name', 'age', 'amount'])
df id first_name last_name age amount 0 1 Sigrid Mannock 27 7.17 1 2 Kennedy Donnell 31 1.90 2 3 Theodoric Rivers 36 1.11 3 4 Sigrid Mannock 27 7.17 4 5 Kennedy Donnell 53 1.41 5 6 Beatrix Parlett 48 6.69 6 7 Olimpia Guenther 36 4.62 7 7 Olimpia Guenther 36 4.62
En le conjunto de datos lo primero que se puede apreciar es que los dos últimos registros son idénticos. El método duplicated() del dataframe muestra esto de forma clara:
df.duplicated()
0 False 1 False 2 False 3 False 4 False 5 False 6 False 7 True
Ahora simplemente utilizando el método drop_duplicates() se puede eliminar estos registros:
df = df.drop_duplicates() df
id first_name last_name age amount 0 1 Sigrid Mannock 27 7.17 1 2 Kennedy Donnell 31 1.90 2 3 Theodoric Rivers 36 1.11 3 4 Sigrid Mannock 27 7.17 4 5 Kennedy Donnell 53 1.41 5 6 Beatrix Parlett 48 6.69 6 7 Olimpia Guenther 36 4.62
Obteniéndose un nuevo dataframe sin duplicados.
df.duplicated()
0 False 1 False 2 False 3 False 4 False 5 False 6 False
Los duplicados pueden ser también parciales. Un ejemplo típico es un mismo registro que se ha guardado con dos identificadores diferentes. En el conjunto de datos de ejemplo esta situación se puede ver en los registros 1 y 4. Para comprobar esto se le puede indicar al método duplicated() que solamente unas columnas.
df.duplicated(df.columns[~df.columns.isin(['id'])])
0 False 1 False 2 False 3 True 4 False 5 False 6 False
Análogamente al paso anterior se puede eliminar este tipos de registros utilizando el método drop_duplicates() con las columnas. En esta ocasión una propiedad interesante de este método es keep mediante la cual se puede indicas si se conserva la primera o ultima ocurrencia. Por defecto conserva la primera, peros se puede indicar que sea la úiltima:
df = df.drop_duplicates(df.columns[~df.columns.isin(['id'])],
keep='first')
df id first_name last_name age amount 0 1 Sigrid Mannock 27 7.17 1 2 Kennedy Donnell 31 1.90 2 3 Theodoric Rivers 36 1.11 4 5 Kennedy Donnell 53 1.41 5 6 Beatrix Parlett 48 6.69 6 7 Olimpia Guenther 36 4.62
Otra situación puede ser que un mismo cliente aparezca dos veces en la tabla y solamente se desee un registro por cliente. Esto se puede solucionar filtrando los registros solamente por el nombre y apellido. En esta situación se puede asumir que se desea únicamente el último registro por ser el más actualizado.
df.drop_duplicates(['first_name', 'last_name'], keep='last')
id first_name last_name age amount 0 1 Sigrid Mannock 27 7.17 2 3 Theodoric Rivers 36 1.11 4 5 Kennedy Donnell 53 1.41 5 6 Beatrix Parlett 48 6.69 6 7 Olimpia Guenther 36 4.62
En esta entrada se ha visto cómo utilizar los métodos duplicated() y drop_duplicates() para eliminar los registros duplicados en pandas. Estas operaciones básicas son clave para garantizar la calidad de los conjuntos de datos y los análisis que se realizan con los mismos.
Imágenes: Pixabay (ulleo)
“El interés compuesto es la octava maravilla del mundo. El que lo entiende lo gana…
Tienes los datos de ventas de tres productos en dos años distintos y quieres saber…
Imagina la situación. Tu equipo lleva tres años con un modelo en producción. No es…
Cuando un banco evalúa una solicitud de crédito necesita responder a una pregunta aparentemente simple:…
En el octavo aniversario de Analytics Lane seguimos ampliando nuestro laboratorio de aplicaciones interactivas y,…
Hoy, 2 de mayo de 2026, Analytics Lane cumple exactamente ocho años. Todo empezó con…
This website uses cookies.