Direcciones duplicadas

Las listas de direcciones usadas en las campañas de marketing se compilan a menudo de fuentes diversas. Y aunque todas las direcciones procedan de una misma fuente, podemos estar seguros que algunas direcciones estén duplicados o triplicados.

Los duplicados en listas de direcciones pueden deberse a diferentes motivos:

  • Al compilar direcciones procedentes de diferentes fuentes, inevitablemente se originan duplicados, las listas de direcciones a compilar raramente serán libres de coincidencias.
  • Diferentes empleados tienen diferentes conceptos acerca de como acopiar una dirección de la mejor manera, si por ejemplo el término 'calle' se debe escribir por entero o abreviado. Incluso tratándose de un solo empleado, las direcciones acopiadas pueden tener diferente aspecto. Por ejemplo, las direcciones acopiadas con prisas solamente contendrán los datos más elementales.
  • Si el programa utilizado para acopiar las direcciones no es lo suficientemente flexible, las direcciones serán acopiadas por duplicado por el mero hecho de no existir en el programa la opción de consignar más de una persona de contacto a una dirección.
  • Si el programa utilizado para acopiar las direcciones no está diseñado para evitar duplicados durante el proceso de entrada o si la función incluida en el programa no es lo suficientemente eficiente, entonces el empleado que está acopiando la nueva dirección ni se da cuenta que la dirección ya existe en la lista de direcciones.

Las entradas duplicadas en las listas de direcciones son prácticamente inevitables. Por ello es tan importante revisar de vez en cuando las listas de direcciones en cuanto a direcciones duplicadas. Muchas de las soluciones ofrecidas para este problema o que estén instaladas en los programas de administración de direcciones resuelven este problema solo parcialmente. Dos direcciones de por sí idénticas pueden tener aspecto completamente diferente:

  • Puede ser que en una dirección el nombre de pila esté delante del apellido y en la otra dirección esté detrás del apellido.
  • Puede ser que el nombre de pila y también otros elementos de la dirección estén abreviados.
  • Sobre todo en los nombres de empresa suele ocurrir que no se hayan acopiado algunas partes del nombre comercial, por ejemplo si solo se introduce 'BMW' en vez de 'BMW Group'.
  • Puede ser que falten algunas letras, que algunas letras se hayan cambiado por la letra adyacente o se hayan acopiado de manera errónea, por ejemplo si se introduce una 'i' en lugar de una 'j'.
  • Puede ser que varíe el empleo de mayúsculas y minúsculas. Por ejemplo, en el caso de las direcciones acopiadas en formularios web, con frecuencia se prescinde de introducir letras mayúsculas, así que éstas contienen solamente letras minúsculas.

El nombre 'Albert Einstein', por ejemplo, se podría acopiar de la siguiente manera:

  • (100%) Einstein Albert
  • (95%) A. Einstein
  • (98%) Albert Einssein
  • (87%) Abert Meinstein

El software diseñado específicamente para tratar este problema resuelve este mismo al calcular un valor porcentual para el grado de concordancia entre dos palabras. En el ejemplo arriba mostrado, entre paréntesis se indican los valores porcentuales calculados por DataQualityTools. Generalmente, en estos programas el usuario podrá determinar mediante el valor umbral las desviaciones admisibles entre dos direcciones reconocidas como duplicadas. Cuanto más bajo esté el valor umbral, entonces cuanto más grandes pueden ser las desviaciones entre dos direcciones, tanto mayor estará la probabilidad que el programa devuelva los aciertos que en el fondo no son duplicados. En el caso ideal, el usuario podrá repasar el resultado de la búsqueda de direcciones duplicadas y eliminar manualmente alguno que otro acierto antes de borrar las direcciones reconocidas como duplicadas de la lista de direcciones.

Dos programas apropiados son DataQualityTools y DedupeWizard: