Eliminar registros duplicados en pandas

Un problema habitual en los conjuntos de datos es la existencia de registros duplicados. La duplicidad puede ser del registro completo o solamente de unos elementos. Por ejemplo, se ha registrado dos veces la misma operación con diferente identificador. Saber cómo eliminar estos registros duplicados es imprescindible para evitar posibles errores en los análisis posteriores. En esta se explicarán los métodos disponibles en los dataframes para la eliminación de registros duplicados en pandas.

Creación de un dataframe de ejemplo

Para poder eliminar datos duplicados de un dataframe en primer lugar se ha de crear un conjunto de datos con este problema. Esto es lo que se crea con las siguientes líneas de código

import pandas as pd

data = {'id': [1, 2, 3, 4, 5, 6, 7, 7],
        'first_name': ['Sigrid', 'Kennedy', 'Theodoric', 'Sigrid', 'Kennedy', 'Beatrix', 'Olimpia', 'Olimpia'],
        'last_name': ['Mannock', 'Donnell', 'Rivers', 'Mannock', 'Donnell', 'Parlett', 'Guenther', 'Guenther'],
        'age': [27, 31, 36, 27, 53, 48, 36, 36],
        'amount': [7.17, 1.90, 1.11, 7.17, 1.41, 6.69, 4.62, 4.62]}

df = pd.DataFrame(data, columns = ['id', 'first_name', 'last_name', 'age', 'amount'])
df

	id	first_name	last_name	age	amount
0	1	Sigrid		Mannock		27	7.17
1	2	Kennedy		Donnell		31	1.90
2	3	Theodoric	Rivers		36	1.11
3	4	Sigrid		Mannock		27	7.17
4	5	Kennedy		Donnell		53	1.41
5	6	Beatrix		Parlett		48	6.69
6	7	Olimpia		Guenther	36	4.62
7	7	Olimpia		Guenther	36	4.62

Eliminación de los registros duplicados en pandas

En le conjunto de datos lo primero que se puede apreciar es que los dos últimos registros son idénticos. El método duplicated() del dataframe muestra esto de forma clara:

df.duplicated()

0    False
1    False
2    False
3    False
4    False
5    False
6    False
7     True

Ahora simplemente utilizando el método drop_duplicates() se puede eliminar estos registros:

df = df.drop_duplicates()
df

	id	first_name	last_name	age	amount
0	1	Sigrid		Mannock		27	7.17
1	2	Kennedy		Donnell		31	1.90
2	3	Theodoric	Rivers		36	1.11
3	4	Sigrid		Mannock		27	7.17
4	5	Kennedy		Donnell		53	1.41
5	6	Beatrix		Parlett		48	6.69
6	7	Olimpia		Guenther	36	4.62

Obteniéndose un nuevo dataframe sin duplicados.

df.duplicated()

0    False
1    False
2    False
3    False
4    False
5    False
6    False

Eliminación de los registros duplicados parciales en pandas

Los duplicados pueden ser también parciales. Un ejemplo típico es un mismo registro que se ha guardado con dos identificadores diferentes. En el conjunto de datos de ejemplo esta situación se puede ver en los registros 1 y 4. Para comprobar esto se le puede indicar al método duplicated() que solamente unas columnas.

df.duplicated(df.columns[~df.columns.isin(['id'])])

0    False
1    False
2    False
3     True
4    False
5    False
6    False

Análogamente al paso anterior se puede eliminar este tipos de registros utilizando el método drop_duplicates() con las columnas. En esta ocasión una propiedad interesante de este método es keep mediante la cual se puede indicas si se conserva la primera o ultima ocurrencia. Por defecto conserva la primera, peros se puede indicar que sea la úiltima:

df = df.drop_duplicates(df.columns[~df.columns.isin(['id'])],
                        keep='first')
df

	id	first_name	last_name	age	amount
0	1	Sigrid		Mannock		27	7.17
1	2	Kennedy		Donnell		31	1.90
2	3	Theodoric	Rivers		36	1.11
4	5	Kennedy		Donnell		53	1.41
5	6	Beatrix		Parlett		48	6.69
6	7	Olimpia		Guenther	36	4.62

Reducción de las ocurrencias

Otra situación puede ser que un mismo cliente aparezca dos veces en la tabla y solamente se desee un registro por cliente. Esto se puede solucionar filtrando los registros solamente por el nombre y apellido. En esta situación se puede asumir que se desea únicamente el último registro por ser el más actualizado.

df.drop_duplicates(['first_name', 'last_name'], keep='last')

	id	first_name	last_name	age	amount
0	1	Sigrid		Mannock		27	7.17
2	3	Theodoric	Rivers		36	1.11
4	5	Kennedy		Donnell		53	1.41
5	6	Beatrix		Parlett		48	6.69
6	7	Olimpia		Guenther	36	4.62

Conclusiones

En esta entrada se ha visto cómo utilizar los métodos duplicated() y drop_duplicates() para eliminar los registros duplicados en pandas. Estas operaciones básicas son clave para garantizar la calidad de los conjuntos de datos y los análisis que se realizan con los mismos.

Imágenes: Pixabay (ulleo)

Comentarios

Brian dice
enero 4, 2019 a las 9:36 pm
Me ayudó mucho, muchas gracias.
Responder
José Neto dice
febrero 7, 2020 a las 7:42 pm
31/5000
Me ayudaste mucho. Gracias.
Responder
Gerald Pachari dice
julio 20, 2022 a las 11:14 pm
Excelente, todo fue de mucha ayuda, gracias
Responder
benjamin munoz dice
diciembre 9, 2022 a las 12:00 am
y si por ejemplo en mi dataframe hay varios nombres duplicados pero con diferente sueldo (nombre y sueldo son columnas distintas) y quiero dejar solo los que tengan mayor sueldo, como lo haria?
Responder
- Daniel Rodríguez dice
  diciembre 10, 2022 a las 1:05 pm
  El método drop_duplicates() solamente permite seleccionar la primera o última ocurrencia. Para el caso propuesto se pueden ordenar los registros en modo ascendente por sueldo y seleccionar el último.
  Responder

Eliminar registros duplicados en pandas

Creación de un dataframe de ejemplo

Eliminación de los registros duplicados en pandas

Eliminación de los registros duplicados parciales en pandas

Reducción de las ocurrencias

Conclusiones

Analytics Lane

Secciones

Sobre de Analytics Lane

Creación de un dataframe de ejemplo

Eliminación de los registros duplicados en pandas

Eliminación de los registros duplicados parciales en pandas

Reducción de las ocurrencias

Conclusiones

Publicaciones relacionadas

Interacciones con los lectores

Comentarios

Deja una respuesta Cancelar la respuesta

Footer

Analytics Lane

Secciones

Sobre de Analytics Lane