7 días de prueba gratuita. ¡Descárguelo ahora!

( Fecha de lanzamiento:16.2.2024 )

Deduplicación universal

Con estas funciones podrá determinar libremente las columnas a utilizar para la deduplicación y los criterios a aplicar. Podrá determinar para cada columna si debe incluirse en la comparación o no.
Si se va a comparar un campo de datos, se debe proporcionar la siguiente información:

  • Contenido del campo: Tipo de contenido del campo de datos. La elección realizada aquí debe describir el contenido del campo de datos de la forma más precisa posible, de modo que el programa pueda tratar los datos de forma adecuada durante la comparación. En el caso de un campo de datos que contenga un código postal, también se debe seleccionar «código postal» como el contenido del campo.
  • Grado de concordancia: Valor umbral para el factor de concordancia en porcentaje, que debe alcanzarse como mínimo para el par de columnas o grupo en cuestión.
    Si varios campos de datos contienen el mismo contenido de campo, se pueden agrupar. Esto combina su contenido para la comparación o compara cada campo de datos en un grupo individualmente con cada campo de datos en el otro grupo.

Opcionalmente, se puede definir un valor umbral separado para el grado de concordancia calculado para el registro completo.

Además, las siguientes opciones se pueden usar si es necesario:

  • Múltiples definiciones para la deduplicación: Esto permite definir varios criterios de comparación diferentes, que luego se procesan uno después del otro. Estos podrían ser, por ejemplo, el número de teléfono, la dirección de correo electrónico y la dirección postal, similar a la deduplicación All-in-One.
  • Ponderación: Al reducir el peso de los campos de datos menos importantes, se puede lograr que tengan poco efecto sobre el factor de concordancia calculado para todo el conjunto de datos.
  • Omitir registro si el campo de datos está vacío: Esto permite excluir registros incompletos de la comparación.
  • Condición que puede no aplicarse: En este caso, el valor de umbral para el factor de concordancia no debe excederse, sino que debe ser inferior para dar lugar a un resultado positivo. Así, por ejemplo, se pueden determinar registros en los que, aunque el primer nombre coincida, no así el tratamiento personal. O se podría asegurar que cuando se comparan dos tablas, dos registros no se comparen si su identificador es idéntico.

Como los criterios para la comparación se pueden componer libremente, las aplicaciones más diversas son posibles: la deduplicación se podrá hacer usando la fecha de nacimiento, los datos bancarios o el número de la tarjeta de crédito. Incluso se podrán deduplicar tablas que contengan otros datos que no sean direcciones, tales como la denominación del artículo, el título del libro o una observación.

 

Deduplicación universal