Buscar datos duplicados entre dos tablas en Access

Las listas negras son una parte esencial del marketing. Cuidarlas no resulta nada difícil. Y con ayuda de DataQualityTools, las listas negras también se podrán procesar sin problemas.

Las listas negras suelen ser un buen recurso para cumplir con el deseo de determinados destinatarios de no recibir publicidad y en esto incluso ahorraremos dinero. Además, con las listas negras propias también podremos excluir nuestros competidores, nuestros empleados o, en el caso de captación de nuevos clientes nuestros clientes propios, como destinatario de determinadas campañas de marketing.

Para poder procesar las listas negras se requiere un programa capaz de efectuar una búsqueda de duplicados tolerante a errores entre dos tablas, como por ejemplo los DataQualityTools. Mediante la búsqueda de duplicados entre dos tablas podremos además sincronizar listas de direcciones, por ejemplo para evitar que se vuelva a enviar publicidad a las direcciones que ya hayamos incluido en una campaña de marketing anterior o para transferir mediante el resultado de comparación informaciones como por ejemplo el número de teléfono o el número de cliente de una lista de direcciones a otra. Las opciones de aplicación de la búsqueda de duplicados entre dos tablas son diversas. Y con DataQualityTools, la búsqueda de duplicados entre dos tablas se hace en un momento.

Para ello proceda de la siguiente manera:

  1. Si previamente no lo ha hecho, descargue DataQualityTools gratuitamente desde aquí. Instale el programa y solicite una activación de prueba. Ahora podrá trabajar con el programa durante una semana sin restricciones.
  2. La función que necesitamos se encuentra en el menú dentro del bloque 'Comparación entre dos tablas'. Aquí seleccionamos 'Deduplicación universal'.

    Deduplicación universal'

  3. Después de haber activado esta función, aparecerá en pantalla la administración de projecto. Aquí debe crear un proyecto nuevo con cualquier nombre y a continuación haga clic en el botón 'siguiente'.
  4. En el siguiente paso abrimos con ayuda del botón 'abrir fichero' el fichero Access con los datos a procesar.

    Origen de datos Access

    A continuación debemos introducir el nombre del servidor de base de datos. Después de hacer clic en el botón 'conectar con el servidor' debemos introducir los datos de acceso. La selección de la base de datos deseada y de la tabla de ahí resultante resulta finalmente de los correspondientes listados de selección.
  5. A continuación, debe indicar al programa qué columnas de la tabla desea comparar:

    Definición de la deduplicación

    En este ejemplo hay que comparar la columna Street, entre otras. Contiene el nombre de la calle, por lo que se seleccionó 'Street' de la lista de selección para el contenido del campo. Y se ha elegido un 50 % como umbral para el grado de concordancia. Así, el nombre de la calle tiene que ser al menos un 50 % idéntico, de modo que el registro de datos se encuentre en el resultado.

    Si es necesario, también se pueden combinar columnas individuales para formar un grupo:

    Definición de la deduplicación

    De esta manera el contenido de las columnas se resume en el grupo antes de la comparación y, por lo tanto, se comparan entre sí. En este ejemplo, el contenido de los campos de datos 'Street' y 'HouseNo' de la tabla 1 se compara con el contenido del campo de datos 'Street'de la tabla 2.
  6. Haciendo clic en el botón 'siguiente', iniciamos la búsqueda de duplicados. Después de muy poco tiempo se muestra un resumen de los resultados. 

    Resultado de deduplicación

    Si el programa ha encontrado duplicados entre las tablas a procesar, entonces, haciendo clic en el botón 'OK' accedemos al diálogo con las funciones que nos permiten procesar el resultado. Por lo demás, deberíamos seleccionar un valor umbral del grado de concordancia más bajo y reiniciar la comparación.
  7. En el diálogo con las funciones que nos permiten procesar el resultado se encuentra arriba del todo un botón con la inscripción 'retoques manuales'. Aquí el resultado de la comparación se expone en forma de tabla. Y aquí los registros que deben ser borrados estarán marcados con una cruz roja, ésta se podrá eliminar cuando sea necesario.

    Resultado de deduplicación

  8. Finalmente debemos procesar el resultado. Por ejemplo, podríamos borrar directamente del fichero original aquellos registros que se hayan marcado para ser borrados. Para ello, seleccionamos la función adecuada haciendo clic en 'Funciones de borrar':

    Funciones de borrar

    Y luego haga clic en 'Borrar en el fichero original':

    Borrar en el fichero original

También podríamos ejecutar la búsqueda de duplicados entre dos tablas con DedupeWizard. Este únicamente puede procesar ficheros Excel e incluye solo las funciones más básicas de DataQualityTools.

Nota: También existe un video tutorial para DataQualityTools que nos introduce en el manejo del programa mediante una muestra de comparación de duplicados dentro de una tabla.

Para saber como se usa DataQualityTools para la búsqueda de duplicados en una lista de direcciones, podrá consultar el artículo 'Buscar y eliminar datos duplicados en Access'.