Buscar datos duplicados entre dos tablas en Excel

Las listas negras son una parte esencial del marketing. Cuidarlas no resulta nada difícil. Y con ayuda de DedupeWizard, las listas negras también se podrán procesar sin problemas.

Matching Results Example es

Las listas negras suelen ser un buen recurso para cumplir con el deseo de determinados destinatarios de no recibir publicidad y en esto incluso ahorraremos dinero. Además, con las listas negras propias también podremos excluir nuestros competidores, nuestros empleados o, en el caso de captación de nuevos clientes nuestros clientes propios, como destinatario de determinadas campañas de marketing.

Para poder procesar las listas negras se requiere un programa capaz de efectuar una búsqueda de duplicados tolerante a errores entre dos tablas, como por ejemplo los DedupeWizard. Mediante la búsqueda de duplicados entre dos tablas podremos además sincronizar listas de direcciones, por ejemplo para evitar que se vuelva a enviar publicidad a las direcciones que ya hayamos incluido en una campaña de marketing anterior o para transferir mediante el resultado de comparación informaciones como por ejemplo el número de teléfono o el número de cliente de una lista de direcciones a otra. Las opciones de aplicación de la búsqueda de duplicados entre dos tablas son diversas. Y con DedupeWizard, la búsqueda de duplicados entre dos tablas se hace en un momento.

Para ello proceda de la siguiente manera:

  1. Si previamente no lo ha hecho, descargue DedupeWizard gratuitamente desde aquí. Instale el programa y solicite una activación de prueba. Ahora podrá trabajar con el programa durante una semana sin restricciones.
  2. La función necesitada es 'Deduplicación entre dos ficheros'.

    Deduplicación entre dos ficheros

  3. Después de haber activado esta función, debemos primero seleccionar el criterio para la comparación. La búsqueda de duplicados se puede efectuar usando la dirección postal, el número de teléfono o la dirección de e-mail. Seleccionamos la dirección postal.

    Criterio para la búsqueda

  4. Después de hacer clic en el botón 'siguiente' abrimos los dos archivos de Excel que deseamos procesar.

    Seleccione el archivo

    Si no deseamos usar la primera hoja sino otra diferente del correspondiente fichero Excel, ésta la podremos seleccionar más adelante en el diálogo donde se efectúa la asignación de campos.
  5. Después de abrir los dos ficheros Excel, el programa nos lleva automáticamente al siguiente paso, es decir, la asignación de campos. Debemos indicar al programa en que columna de la tabla podrá encontrar que tipo de información, por ejemplo, en que columna se encuentra la calle o el nombre de la ciudad. Para ello, siempre debemos seleccionar de las listas con los nombres de las columnas de la tabla el campo de datos que se ajusta mejor a la denominación que se muestra en el lado izquierdo.

    Asignación de campos

    El programa efectúa automáticamente una preasignación de esta asignación de campos mediante los nombres de columnas. Como querremos buscar duplicados usando la dirección postal, debemos indicar para todos los elementos de la dirección postal todas aquellas columnas de la tabla a procesar donde esté guardada esta información. Podemos comprobar el resultado de la asignación de campos con ayuda de 'controlar la asignación de campos', que se encuentra en la parte derecha de la pantalla.
  6. Para poder indicar la asignación de campos della segunda tabla, haga clic en el botón 'siguiente'. Con esto accedemos a un diálogo que tiene la misma apariencia que el diálogo anterior y que se acciona de la misma manera. Indique aquí la tabla con la lista negra y ejecute la asignación de campos de forma totalmente análoga a la primera tabla.
  7. Mediante el botón 'siguiente' accedemos al diálogo donde se configura la propia función. Aquí debemos ante todo indicar el valor umbral de la máxima desviación admisible entre dos direcciones.

    Factor de coincidencia

    Además podremos excluir determinados elementos de la dirección postal del proceso de comparación. Obviamente debemos indicar en la asignación de campos previamente realizada una columna de la tabla a procesar para cada elemento de la dirección postal que deseamos incluir en la comparación. Nota: Las dos tablas entre las cuales querremos hacer la búsqueda de duplicados pueden tener estructura totalmente distinta. Por ejemplo, puede que en una tabla el número de la calle esté puesto en la misma columna que la calle y en la otra tabla esta información esté puesta en dos columnas separadas. Aquí lo único importante es que con la asignación de campos para estas dos tablas indiquemos las tres columnas.
  8. Haciendo clic en el botón 'siguiente', iniciamos la búsqueda de duplicados. Después de muy poco tiempo se muestra un resumen de los resultados.

    Resultado de deduplicación

    Si el programa encontró duplicados en la tabla a procesar, entonces un clic en el botón 'OK' nos lleva a retoques manuales. Por lo demás, deberíamos seleccionar un valor umbral del grado de concordancia más bajo y reiniciar la comparación.
  9. En los 'retoques manuales' el resultado de la comparación se muestra en forma de tabla. Los registros que deberían ser borrados vienen marcados con una cruz roja, ésta se puede, cuando sea necesario, borrar o mover a otro registro del grupo de duplicados.

    Deletion flag es

  10. Haciendo otra vez clic en 'siguiente' accedemos al diálogo con las funciones que nos permiten procesar el resultado. Por ejemplo, podríamos borrar directamente del fichero original aquellos registros que se hayan marcado para ser borrados. Para ello solamente necesitamos hacer clic en el botón 'borrar en el fichero original'.

    Borrar en el fichero original

También podríamos ejecutar la búsqueda de duplicados entre dos tablas con DataQualityTools. Estos ofrecen muchas más opciones que DedupeWizard, no solamente por lo que se refiere a la búsqueda de duplicados.

Nota: También existe un video tutorial para DedupeWizard que nos introduce en el manejo del programa mediante una muestra de comparación de duplicados dentro de una tabla.

Para saber como se usa DedupeWizard para la búsqueda de duplicados en una lista de direcciones, podrá consultar el artículo 'Buscar y eliminar datos duplicados en Excel'.