Buscar y eliminar datos duplicados en Excel

Los duplicados en las listas de direcciones que se usan en las campañas de marketing aumentan notablemente los gastos de la campaña y hacen disminuir su éxito. Y en el fondo no resulta nada difícil encontrar los duplicados en las listas de direcciones y borrarlos.

Matching Results Example es

Para saber como surgen los duplicados y que aspecto pueden tener, podrá consultar el artículo 'Direcciones duplicadas'. Como podrá leer en este artículo, no tiene mucho sentido usar herramientas sencillas para eliminar duplicados ni mucho menos hacerlo manualmente. Porque únicamente programas eficientes como por ejemplo DedupeWizard dan buenos resultados. Y con DedupeWizard resulta muy fácil encontrar las entradas repetidas en las listas de direcciones y borrarlas.

Para ello proceda de la siguiente manera:

  1. Si previamente no lo ha hecho, descargue DedupeWizard gratuitamente desde aquí. Instale el programa y solicite una activación de prueba. Ahora podrá trabajar con el programa durante una semana sin restricciones.
  2. La función necesitada es 'Deduplicación en un fichero'.

    Deduplicación en una tabla

  3. Después de haber activado esta función, debemos primero seleccionar el criterio para la comparación. La búsqueda de duplicados se puede efectuar usando la dirección postal, el número de teléfono o la dirección de e-mail. Seleccionamos la dirección postal.

    Criterio para la búsqueda

  4. Después de hacer clic en el botón 'siguiente' abrimos el fichero Excel que deseamos procesar.

    Seleccione el archivo

    Si no deseamos usar la primera hoja sino otra diferente del correspondiente fichero Excel, ésta la podremos seleccionar más adelante en el diálogo donde se efectúa la asignación de campos.
  5. Después de abrir el fichero Excel, el programa nos lleva automáticamente al siguiente paso, es decir, la asignación de campos. Debemos indicar al programa en que columna de la tabla podrá encontrar que tipo de información, por ejemplo, en que columna se encuentra la calle o el nombre de la ciudad. Para ello, siempre debemos seleccionar de las listas con los nombres de las columnas de la tabla el campo de datos que se ajusta mejor a la denominación que se muestra en el lado izquierdo.

    Asignación de campos

    El programa efectúa automáticamente una preasignación de esta asignación de campos mediante los nombres de columnas. Como querremos buscar duplicados usando la dirección postal, debemos indicar para todos los elementos de la dirección postal todas aquellas columnas de la tabla a procesar donde esté guardada esta información. Podemos comprobar el resultado de la asignación de campos con ayuda de 'controlar la asignación de campos', que se encuentra en la parte derecha de la pantalla.
  6. Mediante el botón 'siguiente' accedemos al diálogo donde se configura la propia función. Aquí debemos ante todo indicar el valor umbral de la máxima desviación admisible entre dos direcciones.

    Factor de coincidencia

    Además podremos excluir determinados elementos de la dirección postal del proceso de comparación. Obviamente debemos indicar en la asignación de campos previamente realizada una columna de la tabla a procesar para cada elemento de la dirección postal que deseamos incluir en la comparación.
  7. Haciendo clic en el botón 'siguiente', iniciamos la búsqueda de duplicados. Después de muy poco tiempo se muestra un resumen de los resultados.

    Resultado de deduplicación

    Si el programa encontró duplicados en la tabla a procesar, entonces un clic en el botón 'OK' nos lleva a retoques manuales. Por lo demás, deberíamos seleccionar un valor umbral del grado de concordancia más bajo y reiniciar la comparación.
  8. En los 'retoques manuales' el resultado de la comparación se muestra en forma de tabla. Los registros que deberían ser borrados vienen marcados con una cruz roja, ésta se puede, cuando sea necesario, borrar o mover a otro registro del grupo de duplicados.

    Deletion flag es

  9. Haciendo otra vez clic en 'siguiente' accedemos al diálogo con las funciones que nos permiten procesar el resultado. Por ejemplo, podríamos borrar directamente del fichero original aquellos registros que se hayan marcado para ser borrados. Para ello solamente necesitamos hacer clic en el botón 'borrar en el fichero original'.

    Borrar en el fichero original

La búsqueda de duplicados dentro de una tabla se puede realizar también con DataQualityTools. Estos ofrecen muchas más opciones que DedupeWizard, no solamente por lo que se refiere a la búsqueda de duplicados.

Nota: También existe un video tutorial para DedupeWizard que nos introduce en el manejo del programa mediante una muestra de comparación de duplicados dentro de una tabla.

Para saber como se buscan con ayuda de DedupeWizard duplicados entre dos tablas, podrá consultar el artículo 'Buscar datos duplicados entre dos tablas en Excel'.