Sin embargo, lamentablemente, las direcciones son datos que normalmente no son tan fáciles de asignar a otro registro. Por lo general, no existe un criterio claro para ello. Las direcciones no solo se componen de diferentes elementos, sino que a menudo también se han registrado de forma diferente. Los errores ortográficos son solo uno de los problemas. A esto se suman palabras intercambiadas, abreviaturas, omisiones y adiciones y, en casos extremos, incluso sinónimos como apodos. Sin embargo, para poder realizar un enriquecimiento de direcciones, se necesita una relación lo más clara posible entre las dos bases de datos que se van a utilizar para ello. Esto limita en gran medida la selección de herramientas adecuadas para este fin.
Por último, existe el problema de que los datos que se van a utilizar para enriquecer las direcciones pueden estar en diferentes formatos. La fuente de datos de destino para el enriquecimiento podría ser, por ejemplo, una lista de direcciones almacenada en un archivo Excel. Y la fuente de datos podría ser un archivo de texto. O bien se trata de datos de una base de datos gestionada por un servidor de bases de datos como MySQL o SQL Server. Por supuesto, antes del enriquecimiento propiamente dicho, se podría garantizar en un primer paso que ambos conjuntos de datos estén en el mismo formato, exportándolos y/o convirtiéndolos adecuadamente. Sin embargo, es mucho más sencillo prescindir de ello y poder procesar los datos directamente en el formato en el que se encuentran.
DataQualityTools, entre otras herramientas, domina todo esto y mucho más. Para enriquecer los datos de direcciones, proceda de la siguiente manera:
- Si previamente no lo ha hecho, descargue DataQualityTools gratuitamente desde aquí. Instale el programa y solicite una activación de prueba. Ahora podrá trabajar con el programa durante una semana sin restricciones.
- La función que necesitamos para enriquecer la lista de direcciones se encuentra en el menú, en el bloque "Comparación entre dos tablas". Seleccionamos allí la función "Comparación mediante la dirección postal" para el enriquecimiento de direcciones:

- Después de haber activado esta función, aparecerá en pantalla la administración de projecto. Aquí debe crear un proyecto nuevo con cualquier nombre y a continuación haga clic en el botón 'siguiente'.
- En el siguiente paso, abrimos primero el archivo con la lista de direcciones que se va a procesar mediante el botón "Abrir archivo":

Aquí se pueden utilizar archivos Excel, Access, dBase, CSV y de texto.
En el caso de los servidores de bases de datos (MS SQL Server, MySQL, MariaDB, Oracle, Azure SQL o PostgreSQL), primero hay que seleccionar el servidor de bases de datos correspondiente en la lista de selección de "Formato/Acceso a". A continuación, hay que introducir el nombre del servidor de bases de datos. Después de hacer clic en el botón "Conectar con el servidor", introduzca los datos de acceso. Por último, seleccione la base de datos deseada y la tabla correspondiente en las listas de selección correspondientes. - A continuación, hay que indicar al programa en qué columna de la tabla se encuentra cada información, por ejemplo, en qué columna aparece la calle o el nombre de la localidad. Para ello, hay que seleccionar en las listas de selección con los nombres de las columnas de la tabla el campo de datos que mejor se ajuste a la denominación que aparece a la izquierda:

El programa realiza automáticamente una asignación previa de estos campos basándose en los nombres de las columnas. Dado que queremos buscar duplicados a partir de la dirección postal, también debemos indicar para todos los componentes de la dirección postal las columnas de la tabla que se va a procesar en las que se almacena esta información. El resultado de la asignación de campos se puede comprobar con la ayuda de la "Comprobación de la asignación de campos", que se encuentra en la mitad derecha de la pantalla. - Para poder especificar la segunda tabla, haga clic en el botón "Continuar". El cuadro de diálogo al que accedemos tiene el mismo aspecto que el anterior y se utiliza de la misma manera. Especifique aquí la segunda tabla y realice la asignación de campos de forma análoga a la primera tabla.
- Con el botón "Continuar" accedemos al cuadro de diálogo en el que se configura la función propiamente dicha. Aquí hay que indicar, ante todo, el valor umbral para la desviación máxima permitida entre dos direcciones.

Además, se pueden excluir del cotejo determinados componentes de la dirección postal. Para ello, es necesario indicar una columna de las dos tablas en la asignación de campos realizada en los dos pasos anteriores para cada componente de la dirección postal que se va a comparar.
Nota: Las dos tablas entre las que se va a realizar la búsqueda de duplicados pueden tener estructuras muy diferentes. Por ejemplo, en una tabla, el número de la casa podría estar en la misma columna que la calle, mientras que en la otra tabla esta información podría estar en dos columnas separadas. Lo importante es que en la asignación de campos para estas dos tablas se especifiquen las tres columnas. - La tabla que hemos especificado primero en el programa suele ser aquella en la que se buscan las direcciones de la segunda tabla.

Por defecto, en este caso, al enriquecer los datos, estos se transfieren de esta tabla a la segunda tabla. Sin embargo, esto se puede cambiar. Por un lado, en este punto del programa se puede cambiar la dirección en la que se debe realizar la comparación. Si se cambia la dirección, ya no se buscarán los registros de la segunda tabla en la primera, sino los registros de la primera tabla en la segunda. Además, más adelante, al configurar el enriquecimiento de direcciones, también se puede especificar desde qué tabla se deben transferir los datos a la otra tabla. - Al hacer clic en el botón "Continuar" se inicia la búsqueda de duplicados. No tardará mucho en aparecer un resumen del resultado.

Si el programa ha encontrado duplicados entre las tablas que se van a procesar, al hacer clic en el botón "Aceptar" se abrirá el cuadro de diálogo con las funciones con las que se puede seguir procesando el resultado. De lo contrario, se debe seleccionar un valor umbral más bajo para el grado de coincidencia y volver a iniciar la comparación. - En el cuadro de diálogo con las funciones con las que se puede seguir procesando el resultado, hay un botón en la parte superior con la etiqueta "Postprocesamiento manual". Aquí se muestra el resultado de la comparación en forma de tabla. Los registros que se deben eliminar están marcados con una cruz roja, que se puede eliminar si es necesario.

- Por último, el resultado debe procesarse aún más. Como ya se ha mencionado anteriormente, queremos enriquecer los datos de las direcciones, es decir, transferir cierta información de una base de datos a otra basándonos en el resultado de la comparación. Para ello, seleccionamos la función correspondiente haciendo clic primero en "Funciones de enriquecimiento":

Y luego en "Enriquecer en la tabla de origen":
- La tabla en la que se escriben los datos (= tabla de destino) es, en nuestro caso, la tabla "sample1.xls":

Los datos del registro sin marca de eliminación se transfieren al registro con marca de eliminación (véase la tabla con el resultado descrito en el punto 10):
Para enriquecer las direcciones, ahora solo tenemos que indicar al programa qué información debe escribir y dónde. Para ello, añadimos uno o varios pares de columnas:
Por ejemplo, la información de la columna "Tel" de la tabla de origen podría escribirse en el campo de datos "Result_A" de la tabla de destino y la información de la columna "Email" en el campo de datos "Result_B".
En ambos casos, el contenido del campo de datos de destino debe sobrescribirse, si es necesario, con la información de la tabla de origen (= "Acción"):
- Opcionalmente, en los registros enriquecidos con información adicional se puede almacenar un dato que indique la procedencia de dichos datos. Este dato es necesario para poder cumplir plenamente con el derecho de acceso a la información en el caso de los datos personales y, de este modo, cumplir con los requisitos de diversas leyes de protección de datos, como el RGPD (Reglamento General de Protección de Datos).

De este modo, ya se dispone de toda la información necesaria para el enriquecimiento de direcciones. Al hacer clic en el botón "Procesar datos", se inicia el proceso.
Nota: También existe un video tutorial para DataQualityTools que nos introduce en el manejo del programa mediante una muestra de comparación de duplicados dentro de una tabla.

