Herramientas

Identificar y eliminar duplicados en Excel


Una situación habitual a la hora de trabajar con conjuntos de datos es la existencia de registros duplicados en los mismos. Siendo esto un problema para muchos análisis. Si no se identifica correctamente los valores duplicados los resultados que se obtengan pueden no ser válidos. Una de las herramientas más utilizadas para realizar análisis básicos es Excel. Por lo que saber cómo identificar y eliminar duplicados en Excel puede ser de utilidad.

Identificación valores duplicados

A modo de ejemplo se va a utilizar un archivo con 20 clientes generados aleatoriamente. Cada registro cuenta con un identificador único, nombre, apellido, correo electrónico, género y dirección IP. El contenido del archivo utilizado se puede ver en la siguiente captura de pantalla.

Fichero de ejemplo con los datos de los clientes

Una forma de identificar los registros duplicados es mediante la utilización de formatos condicionales. En primer lugar, es necesario seleccionar los registros e ir a menu Inicio > Formato Condicional > Reglas para resaltar las celdas > Valores duplicados.

Selección del formato para resaltar valores duplicados

Al seleccionar el menú aparecerá un asistente en el que se pueden seleccionar las siguientes opciones.

Opciones del formato para valores duplicados

Obteniendo como resultado que las celdas con valores duplicados se marcaran de un color diferente.

Resultado de aplicar el formato de valores duplicados en excel

Identificación de registros duplicados

En Excel se puede ver que se resaltan con un color diferente las celdas con valores duplicados. Aunque esta duplicidad de valores tenga sentido para los datos, como puede ser el género. Si se desea identificar los registros se puede concatenar las diferentes celdas de una fila y aplicar sobre esta celda el formato condicional. Por ejemplo, concatenando todas las columnas menos el identificador en la columna H mediante la fórmula

=CONCATENAR(B2;C2;D2;E2;F2)

Aplicando el formato condicional sobre esta columna se puede obtener una visión más clara de los registros duplicados. En el ejemplo son los registros con 5, 9, 14 y 20.

Resaltado por registro

Eliminación de los registros duplicados en Excel

Finalmente, los registros que se han identificado como duplicados se pueden eliminar. No es necesario hacerlo a mano ya que Excel dispone de una herramienta para ello. En primer lugar, situarse en sobre los datos y seleccionar el menú Datos > Quitar Duplicados. Apareciendo una ventana en la que se puede seleccionar las columnas a utilizar para identificar un duplicado.

Asistente para seleccionar columnas para identificar duplicados

En el ejemplo es necesario seleccionar todas las columnas menos la A, en la que se encuentra el identificador. Al pulsar sobre aplicar se eliminan los dos registros duplicados.

Archivo con los registros duplicados eliminados

Conclusiones

Hoy se ha visto cómo identificar y eliminar duplicados en Excel. Un problema que suele ser bastante habitual. Al saber como hacer esta tarea en Excel es posible realizar análisis básicos sin la necesidad de utilizar otros entornos como Python.

Imágenes: Pixabay (Engin Akyurt)

¿Te ha parecido de utilidad el contenido?

Daniel Rodríguez

Share
Published by
Daniel Rodríguez
Tags: Excel

Recent Posts

De la Regresión Logística al Scorecard: La Transformación Matemática

En un entrada previa explicamos qué son el WOE y el IV y por qué…

22 horas ago

Analytics Lane lanza la versión 1.1 del laboratorio con nuevas suites de CLV y Scoring

Seguimos evolucionando el laboratorio de Analytics Lane y hoy lanzamos la versión 1.1, disponible en:…

2 días ago

Interés compuesto: la fuerza que multiplica tu dinero (y los errores que la anulan)

“El interés compuesto es la octava maravilla del mundo. El que lo entiende lo gana…

6 días ago

Cómo comparar datos con barras en Matplotlib: agrupadas, apiladas y porcentuales

Tienes los datos de ventas de tres productos en dos años distintos y quieres saber…

1 semana ago

Costes hundidos en ciencia de datos: cuándo mantener un modelo y cuándo migrar

Imagina la situación. Tu equipo lleva tres años con un modelo en producción. No es…

2 semanas ago

WOE e IV: La Base Matemática del Credit Scoring

Cuando un banco evalúa una solicitud de crédito necesita responder a una pregunta aparentemente simple:…

2 semanas ago

This website uses cookies.