Una situación habitual a la hora de trabajar con conjuntos de datos es la existencia de registros duplicados en los mismos. Siendo esto un problema para muchos análisis. Si no se identifica correctamente los valores duplicados los resultados que se obtengan pueden no ser válidos. Una de las herramientas más utilizadas para realizar análisis básicos es Excel. Por lo que saber cómo identificar y eliminar duplicados en Excel puede ser de utilidad.
Identificación valores duplicados
A modo de ejemplo se va a utilizar un archivo con 20 clientes generados aleatoriamente. Cada registro cuenta con un identificador único, nombre, apellido, correo electrónico, género y dirección IP. El contenido del archivo utilizado se puede ver en la siguiente captura de pantalla.
Una forma de identificar los registros duplicados es mediante la utilización de formatos condicionales. En primer lugar, es necesario seleccionar los registros e ir a menu Inicio > Formato Condicional > Reglas para resaltar las celdas > Valores duplicados.
Al seleccionar el menú aparecerá un asistente en el que se pueden seleccionar las siguientes opciones.
Obteniendo como resultado que las celdas con valores duplicados se marcaran de un color diferente.
Identificación de registros duplicados
En Excel se puede ver que se resaltan con un color diferente las celdas con valores duplicados. Aunque esta duplicidad de valores tenga sentido para los datos, como puede ser el género. Si se desea identificar los registros se puede concatenar las diferentes celdas de una fila y aplicar sobre esta celda el formato condicional. Por ejemplo, concatenando todas las columnas menos el identificador en la columna H mediante la fórmula
=CONCATENAR(B2;C2;D2;E2;F2)
Aplicando el formato condicional sobre esta columna se puede obtener una visión más clara de los registros duplicados. En el ejemplo son los registros con 5, 9, 14 y 20.
Eliminación de los registros duplicados en Excel
Finalmente, los registros que se han identificado como duplicados se pueden eliminar. No es necesario hacerlo a mano ya que Excel dispone de una herramienta para ello. En primer lugar, situarse en sobre los datos y seleccionar el menú Datos > Quitar Duplicados. Apareciendo una ventana en la que se puede seleccionar las columnas a utilizar para identificar un duplicado.
En el ejemplo es necesario seleccionar todas las columnas menos la A, en la que se encuentra el identificador. Al pulsar sobre aplicar se eliminan los dos registros duplicados.
Conclusiones
Hoy se ha visto cómo identificar y eliminar duplicados en Excel. Un problema que suele ser bastante habitual. Al saber como hacer esta tarea en Excel es posible realizar análisis básicos sin la necesidad de utilizar otros entornos como Python.
Imágenes: Pixabay (Engin Akyurt)
Deja una respuesta