Identificar y eliminar duplicados en Excel


Una situación habitual a la hora de trabajar con conjuntos de datos es la existencia de registros duplicados en los mismos. Siendo esto un problema para muchos análisis. Si no se identifica correctamente los valores duplicados los resultados que se obtengan pueden no ser válidos. Una de las herramientas más utilizadas para realizar análisis básicos es Excel. Por lo que saber cómo identificar y eliminar duplicados en Excel puede ser de utilidad.

Identificación valores duplicados

A modo de ejemplo se va a utilizar un archivo con 20 clientes generados aleatoriamente. Cada registro cuenta con un identificador único, nombre, apellido, correo electrónico, género y dirección IP. El contenido del archivo utilizado se puede ver en la siguiente captura de pantalla.

Fichero de ejemplo con los datos de los clientes
Fichero de ejemplo con los datos de los clientes

Una forma de identificar los registros duplicados es mediante la utilización de formatos condicionales. En primer lugar, es necesario seleccionar los registros e ir a menu Inicio > Formato Condicional > Reglas para resaltar las celdas > Valores duplicados.

Selección del formato para resaltar valores duplicados
Selección del formato para resaltar valores duplicados

Al seleccionar el menú aparecerá un asistente en el que se pueden seleccionar las siguientes opciones.

Opciones del formato para valores duplicados
Opciones del formato para valores duplicados

Obteniendo como resultado que las celdas con valores duplicados se marcaran de un color diferente.

Resultado de aplicar el formato de valores duplicados en excel
Resultado de aplicar el formato de valores duplicados en excel

Identificación de registros duplicados

En Excel se puede ver que se resaltan con un color diferente las celdas con valores duplicados. Aunque esta duplicidad de valores tenga sentido para los datos, como puede ser el género. Si se desea identificar los registros se puede concatenar las diferentes celdas de una fila y aplicar sobre esta celda el formato condicional. Por ejemplo, concatenando todas las columnas menos el identificador en la columna H mediante la fórmula

=CONCATENAR(B2;C2;D2;E2;F2)

Aplicando el formato condicional sobre esta columna se puede obtener una visión más clara de los registros duplicados. En el ejemplo son los registros con 5, 9, 14 y 20.

Resaltado por registro
Resaltado por registro

Eliminación de los registros duplicados en Excel

Finalmente, los registros que se han identificado como duplicados se pueden eliminar. No es necesario hacerlo a mano ya que Excel dispone de una herramienta para ello. En primer lugar, situarse en sobre los datos y seleccionar el menú Datos > Quitar Duplicados. Apareciendo una ventana en la que se puede seleccionar las columnas a utilizar para identificar un duplicado.

Asistente para seleccionar columnas para identificar duplicados
Asistente para seleccionar columnas para identificar duplicados

En el ejemplo es necesario seleccionar todas las columnas menos la A, en la que se encuentra el identificador. Al pulsar sobre aplicar se eliminan los dos registros duplicados.

Archivo con los registros duplicados eliminados
Archivo con los registros duplicados eliminados

Conclusiones

Hoy se ha visto cómo identificar y eliminar duplicados en Excel. Un problema que suele ser bastante habitual. Al saber como hacer esta tarea en Excel es posible realizar análisis básicos sin la necesidad de utilizar otros entornos como Python.

Imágenes: Pixabay (Engin Akyurt)

Sin votos
Por favor espera...

Contenido relacionado

Etiquetas:

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *