Búsqueda de duplicados temporizada con BatchDeduplicator

En las campañas de marketing, en la mayoría de las veces basta efectuar una limpieza de duplicados una vez se haya terminado de compilar la lista de direcciones para la campaña. De vez en cuando esta limpieza se debería realizar a intervalos regulares. Con BatchDeduplicator, esto resulta ser ningún problema.

Para ello proceda de la siguiente manera:

  1. Si previamente no lo ha hecho, descargue BatchDeduplicator gratuitamente desde aquí. Instale el programa y solicite una activación de prueba. Ahora podrá trabajar con el programa durante una semana sin restricciones.
  2. En primer lugar debemos crear un nuevo proyecto y poner todos los datos necesarios para la limpieza de duplicados. Para ello activamos la administración de proyectos.
  3. Después de hacer clic en el botón 'crear proyecto nuevo' se muestra un diálogo donde debemos indicar un nombre para el proyecto nuevo. Hacemos clic en el botón 'siguiente' y seleccionamos el tipo de proyecto. Tenemos la opción entre 'comparación dentro de una tabla', 'comparación entre dos tablas', 'comparación múltiple' y 'lista de direcciones erróneas'. En este lugar, seleccionamos 'comparación dentro de una tabla'. Después de hacer clic en el botón 'siguiente' debemos seleccionar de las funciones para la comparación el criterio que deseamos aplicar para la búsqueda de duplicados, por ejemplo la dirección postal o el número de teléfono. Aquí seleccionamos la dirección postal como criterio para la comparación. Haciendo clic por última vez en el botón 'siguiente' y a continuación en el botón 'finalizar', el programa inicia automáticamente 'editar proyecto'.
  4. Aquí abrimos con ayuda del botón 'abrir fichero' el fichero con los datos a procesar. En cambio, con los servidores de base de datos (MS SQL Server, MySQL, Oracle, IBM DB2 o PostgreSQL), en primer lugar debemos seleccionar el servidor de base de datos correspondiente del listado de selección 'formato / acceso a'. A continuación debemos introducir el nombre del servidor de base de datos. Después de hacer clic en el botón 'conectar con el servidor' debemos introducir los datos de acceso. La selección de la base de datos deseada y de la tabla de ahí resultante resulta finalmente de los correspondientes listados de selección.
  5. A continuación debemos indicar al programa que información encontrará en que columna de la tabla, por ejemplo, en que columna se encuentra la calle o el nombre de la ciudad. Para ello, siempre debemos seleccionar de las listas con los nombres de las columnas de la tabla el campo de datos que se ajusta mejor a la denominación que se muestra en el lado izquierdo. El programa efectúa automáticamente una preasignación de esta asignación de campos mediante los nombres de columnas. Como querremos buscar duplicados usando la dirección postal, debemos indicar para todos los elementos de la dirección postal todas aquellas columnas de la tabla a procesar donde esté guardada esta información. Podemos comprobar el resultado de la asignación de campos con ayuda de 'controlar la asignación de campos', que se encuentra en la parte derecha de la pantalla.
  6. Mediante el botón 'siguiente' accedemos al diálogo donde se configura la propia función. Aquí debemos ante todo indicar el valor umbral de la máxima desviación admisible entre dos direcciones. Además podremos excluir determinados elementos de la dirección postal del proceso de comparación. Obviamente debemos indicar en la asignación de campos previamente realizada una columna de la tabla a procesar para cada elemento de la dirección postal que deseamos incluir en la comparación.
  7. Por último, debemos indicar al programa como debería procesar el resultado de la comparación, si por ejemplo debe borrar los registros reconocidos como duplicados directamente desde el fichero original o únicamente marcarlos. Haciendo clic en el botón 'siguiente' accedemos al resumen de todas las funciones disponibles para el procesamiento. Aquí seleccionamos 'protocolo de datos borrados estándar' y el 'fichero de resultados'. Debemos indicar un nombre para ambos ficheros. El fichero de resultados contendrá después los datos anteriormente limpiados.
  8. Bien, con todo esto ahora debería haber un visto verde delante de nuestro proyecto en el resumen de los proyectos disponibles. El proyecto está completo y puede ser ejecutado. Podemos iniciar el proyecto con ayuda del botón 'procesar el proyecto'. Así se ejecutará inmediatamente.

    En nuestro caso no querremos ejecutar el proyecto inmediatamente sino automáticamente cada lunes a las 20:00 horas. Para poder configurar el proyecto, hacemos clic en el botón 'cerrar' con el fin de cerrar la administración de proyectos, a continuación seleccionamos la función 'planificar tareas'. En la fila que contiene nuestro proyecto, hacemos clic en el botón que actualmente pone 'no ejecutar'. A continuación se abre un diálogo y seleccionamos 'ejecutar semanalmente' y después 'a ejecutar cada lunes a las 20:00'. Antes de cerrar la función 'planificar tareas' el programa eventualmente nos pregunta si al iniciar el sistema operativo también deseamos iniciar BatchDeduplicator, ya que únicamente así podremos iniciar y ejecutar automáticamente los proyectos planeados.

    Si BatchDeduplicator ejecuta automáticamente los proyectos, entonces se crea un protocolo de ejecución, en éste se ve claramente todo lo que se ha hecho con el proyecto y en que momento se ha hecho. Esto incluye un protocolo de datos borrados y un backup, éste se crea automáticamente cuando se hayan borrado o modificado registros. El protocolo de ejecución se activa mediante el botón correspondiente en la ventana principal.

    Finalmente, BatchDeduplicator ofrece la opción de avisar al usuario por e-mail cuando un proyecto se haya ejecutado automáticamente. Esta función se puede configurar mediante el botón correspondiente en la ventana principal.

Para saber como se utiliza DeduplicationWizard en la búsqueda de duplicados dentro de una lista de direcciones, podrá consultar el artículo 'Buscar y eliminar datos duplicados en Excel'. Y para saber como se buscan con ayuda de DataQualityTools duplicados entre dos tablas, podrá consultar el artículo 'Buscar datos duplicados entre dos tablas en Access'.