Buscar y eliminar datos duplicados en Access

Los duplicados en las listas de direcciones que se usan en las campañas de marketing aumentan notablemente los gastos de la campaña y hacen disminuir su éxito. Y en el fondo no resulta nada difícil encontrar los duplicados en las listas de direcciones y borrarlos.

Para saber como surgen los duplicados y que aspecto pueden tener, podrá consultar el artículo 'Direcciones duplicadas'. Como podrá leer en este artículo, no tiene mucho sentido usar herramientas sencillas para eliminar duplicados ni mucho menos hacerlo manualmente. Porque únicamente programas eficientes como por ejemplo DataQualityTools dan buenos resultados. Y con DataQualityTools resulta muy fácil encontrar las entradas repetidas en las listas de direcciones y borrarlas.

Para ello proceda de la siguiente manera:

  1. Si previamente no lo ha hecho, descargue DataQualityTools gratuitamente desde aquí. Instale el programa y solicite una activación de prueba. Ahora podrá trabajar con el programa durante una semana sin restricciones.
  2. La función que necesitamos se encuentra en el menú dentro del bloque 'Deduplicación detro de una tabla'. Aquí seleccionamos 'Comparación usando la dirección de correo'.
  3. Después de haber activado esta función, aparecerá en pantalla la administración de projecto. Aquí debe crear un proyecto nuevo con cualquier nombre y a continuación haga clic en el botón 'siguiente'.
  4. En el siguiente paso abrimos con ayuda del botón 'abrir fichero' el fichero Access con los datos a procesar. En cambio, con los servidores de base de datos (MS SQL Server, MySQL, Oracle, IBM DB2 o PostgreSQL), en primer lugar debemos seleccionar el servidor de base de datos correspondiente del listado de selección 'formato / acceso a'. A continuación debemos introducir el nombre del servidor de base de datos. Después de hacer clic en el botón 'conectar con el servidor' debemos introducir los datos de acceso. La selección de la base de datos deseada y de la tabla de ahí resultante resulta finalmente de los correspondientes listados de selección.
  5. A continuación debemos indicar al programa que información encontrará en que columna de la tabla, por ejemplo, en que columna se encuentra la calle o el nombre de la ciudad. Para ello, siempre debemos seleccionar de las listas con los nombres de las columnas de la tabla el campo de datos que se ajusta mejor a la denominación que se muestra en el lado izquierdo. El programa efectúa automáticamente una preasignación de esta asignación de campos mediante los nombres de columnas. Como querremos buscar duplicados usando la dirección postal, debemos indicar para todos los elementos de la dirección postal todas aquellas columnas de la tabla a procesar donde esté guardada esta información. Podemos comprobar el resultado de la asignación de campos con ayuda de 'controlar la asignación de campos', que se encuentra en la parte derecha de la pantalla.
  6. Mediante el botón 'siguiente' accedemos al diálogo donde se configura la propia función. Aquí debemos ante todo indicar el valor umbral de la máxima desviación admisible entre dos direcciones. Además podremos excluir determinados elementos de la dirección postal del proceso de comparación. Obviamente debemos indicar en la asignación de campos previamente realizada una columna de la tabla a procesar para cada elemento de la dirección postal que deseamos incluir en la comparación.
  7. Haciendo clic en el botón 'siguiente', iniciamos la búsqueda de duplicados. Después de muy poco tiempo se muestra un resumen de los resultados. Si el programa encontró duplicados en la tabla a procesar, entonces, haciendo clic en el botón 'OK' accedemos al diálogo con las funciones que nos permiten procesar el resultado. Por lo demás, deberíamos seleccionar un valor umbral del grado de concordancia más bajo y reiniciar la comparación.
  8. En el diálogo con las funciones que nos permiten procesar el resultado se encuentra arriba del todo un botón con la inscripción 'retoques manuales'. Aquí el resultado de la comparación se expone en forma de tabla. Y aquí los registros que deben ser borrados estarán marcados con una cruz roja, ésta se podrá eliminar cuando sea necesario.
  9. Finalmente debemos procesar el resultado. Por ejemplo, podríamos borrar directamente del fichero original aquellos registros que se hayan marcado para ser borrados. Para ello solamente necesitamos hacer clic en el botón 'borrar en el fichero original'.

La búsqueda de duplicados dentro de una tabla se puede realizar también con DeduplicationWizard. Este únicamente puede procesar ficheros Excel e incluye solo las funciones más básicas de DataQualityTools.

Nota: También existe un video tutorial para DataQualityTools que nos introduce en el manejo del programa mediante una muestra de comparación de duplicados dentro de una tabla.

Para saber como se buscan con ayuda de DataQualityTools duplicados entre dos tablas, podrá consultar el artículo 'Buscar datos duplicados entre dos tablas en Access'. Y finalmente, en el artículo 'Búsqueda de duplicados temporizada con BatchDeduplicator' podrá consultar como automatizar la búsqueda de duplicados.