¿Preguntas? (E-mail)
DataQualityApps DataQualityApps
  • Productos
    • DataQualityTools 10
    • DedupeWizard 10
    • BatchDeduplicator 10
  • Descarga
  • Know-how
  • Vídeo
  • Comprar ahora
  • Pie de imprenta
    • Pie de imprenta
    • Privacidad
  • Know-how
  • ¿Preguntas, problemas?

 

DataQualityTools

DataQualityTools 10:

Nuestro paquete integral para la deduplicación y para mejorar la calidad de los datos.

Más información ...

 

 DedupeWizard

DedupeWizard 10:

Nuestro producto básico para buscar direcciones duplicadas en Excel.

Más información ...

Limitar el número de contactos de una dirección de empresa

Supongamos que se dispone de una tabla con direcciones de empresas y los contactos correspondientes, y que se desea utilizarla con fines de marketing. Si no se quiere contactar con más de un número máximo determinado de contactos por empresa, surge la pregunta de cómo se pueden eliminar de la tabla los contactos sobrantes.

Para ello, se podría utilizar, por ejemplo, la función correspondiente de DataQualityTools. Dado que esta función no distingue entre contactos duplicados y contactos sobrantes, se debería realizar previamente una limpieza de duplicados, en la que se eliminen de la tabla todos los contactos que aparezcan dos o más veces. Para ello, se puede utilizar, entre otras, la función «Comparación por dirección postal» de DataQualityTools. A continuación, se pueden eliminar de la tabla los contactos sobrantes.

Para ello proceda de la siguiente manera:

  1. Si previamente no lo ha hecho, descargue DataQualityTools gratuitamente desde aquí. Instale el programa y solicite una activación de prueba. Ahora podrá trabajar con el programa durante una semana sin restricciones.
  2. La función que necesitamos se encuentra en el menú dentro del bloque 'Deduplicación detro de una tabla'. Aquí seleccionamos 'Limitar el número de contactos por dirección'.

    Limitar el número de contactos por dirección

  3. Después de haber activado esta función, aparecerá en pantalla la administración de projecto. Aquí debe crear un proyecto nuevo con cualquier nombre y a continuación haga clic en el botón 'siguiente'.
  4. En el siguiente paso abrimos con ayuda del botón 'Abrir fichero' el fichero Excel con los datos a procesar.

    Origen de datos Access

    La selección de la tabla de ahí resultante resulta finalmente de los correspondientes listados de selección.
  5. A continuación debemos indicar al programa que información encontrará en que columna de la tabla, por ejemplo, en que columna se encuentra la calle o el nombre de la ciudad. Para ello, siempre debemos seleccionar de las listas con los nombres de las columnas de la tabla el campo de datos que se ajusta mejor a la denominación que se muestra en el lado izquierdo.

    Asignación de campos

    El programa efectúa automáticamente una preasignación de esta asignación de campos mediante los nombres de columnas. Como querremos buscar duplicados usando la dirección postal, debemos indicar para todos los elementos de la dirección postal todas aquellas columnas de la tabla a procesar donde esté guardada esta información. Podemos comprobar el resultado de la asignación de campos con ayuda de 'controlar la asignación de campos', que se encuentra en la parte derecha de la pantalla.
  6. Mediante el botón 'siguiente' accedemos al diálogo donde se configura la propia función. En primer lugar, hay que indicar aquí el valor umbral de la máxima desviación admisible entre dos direcciones.

    Factor de coincidencia

    Y, por supuesto, el número máximo de contactos por dirección que se deben conservar:

    Número máximo de contactos

    Con ayuda de la regla de eliminación, se puede establecer, si es necesario, el orden de los registros dentro de un grupo del resultado. De esta manera, se puede controlar cuáles de los registros se eliminan dentro de un grupo, por ejemplo, los registros más antiguos primero.
  7. Haciendo clic en el botón 'siguiente', iniciamos la función. Después de muy poco tiempo se muestra un resumen de los resultados.

    Resultado de deduplicación

    Si el programa encontró duplicados en la tabla a procesar, entonces, haciendo clic en el botón 'OK' accedemos al diálogo con las funciones que nos permiten procesar el resultado. Por lo demás, deberíamos seleccionar un valor umbral del grado de concordancia más bajo y reiniciar la comparación.
  8. En el diálogo con las funciones que nos permiten procesar el resultado se encuentra arriba del todo un botón con la inscripción 'retoques manuales'. Aquí el resultado de la comparación se expone en forma de tabla. Y aquí los registros que deben ser borrados estarán marcados con una cruz roja, ésta se podrá eliminar cuando sea necesario.

    Resultado de deduplicación

  9. Finalmente debemos procesar el resultado. Por ejemplo, podríamos borrar directamente del fichero Excel aquellos registros que se hayan marcado para ser borrados.  Para ello, seleccionamos la función adecuada haciendo clic en 'Funciones de borrar':

    Funciones de borrar

    Y luego haga clic en 'Borrar en el fichero original':

    Borrar en el fichero original

La búsqueda de duplicados dentro de una tabla se puede realizar también con DedupeWizard. Este únicamente puede procesar ficheros Excel e incluye solo las funciones más básicas de DataQualityTools.

Nota: También existe un video tutorial para DataQualityTools que nos introduce en el manejo del programa mediante una muestra de comparación de duplicados dentro de una tabla.

Para saber como se buscan con ayuda de DataQualityTools duplicados entre dos tablas, podrá consultar el artículo 'Buscar datos duplicados entre dos tablas en Access'.

Artículo anterior: Iniciar una limpieza de datos mediante una aplicación de Windows (.net + C#) Anterior Artículo siguiente: Listas Robinson Siguiente

Copyright © by Thomas Hainke Dipl. Inform. Univ.