[SOLVED] Cómo hacer coincidir datos incompletos utilizando la coincidencia de datos difusos
Cuando se trabaja con conjuntos de datos del mundo real, la información incompleta es más común de lo que se piensa. Algunos registros pueden contener un nombre y un número de teléfono, otros un nombre y un correo electrónico, y unos pocos pueden tener sólo un nombre y una dirección. ¿Coincidir estos registros manualmente? Casi imposible. Pero con la herramienta adecuada -y la estrategia adecuada- resulta sorprendentemente fácil.
El problema de los datos incompletos
En un mundo ideal, todos los registros del conjunto de datos estarían completos, limpios y perfectamente estructurados. Por desgracia, la realidad es desordenada. Especialmente en las exportaciones de CRM, las listas de clientes potenciales o los sistemas heredados, es raro encontrar registros completamente rellenados. Esto hace que la correspondencia flexible de datos difusos sea una necesidad, no un lujo.
Supongamos que tiene un contacto en tres filas diferentes:
Un registro tiene un nombre y un número de teléfono.
Otro tiene el mismo nombre y correo electrónico.
Un tercero tiene el mismo nombre y una dirección.
Por separado, ninguno de estos registros ofrece una imagen completa. Pero juntos, representan a una persona o empresa real. Entonces, ¿cómo reunirlos?
Utilizaremos los siguientes registros como ejemplo para este artículo. Tenga en cuenta que a cada uno de ellos le falta un dato importante necesario para el cotejo.
La solución: Multi-Definition Fuzzy Matching en MDP
En Match Data Pro, hemos desarrollado un motor de comparación que resuelve exactamente este problema.comparación difusa en línea con lógica multicapa. En lugar de basarnos en una única regla, utilizamos múltiples definiciones (sentencias OR) y múltiples criterios dentro de cada definición (sentencias AND). Esto le proporciona una flexibilidad inigualable.
Funciona así:
La definición 1 podría decir Emparejar registros si Nombre y Número de teléfono coinciden difusamente.
La definición 2 podría decir: Emparejar registros si Nombre y Correo electrónico coinciden difusamente.
La definición 3 podría ser: Emparejar registros si Nombre y Dirección coinciden por encima de un determinado umbral.
Siempre que una definición completa se evalúe como verdadera, se produce una coincidencia. Esta lógica garantiza la captura de esos valiosos vínculos entre registros que parecen desconectados a primera vista.
Por qué funciona mejor que el emparejamiento tradicional
Las herramientas de concordancia tradicionales tienen problemas con los campos que faltan. Si un correo electrónico está en blanco o falta un número de teléfono, la coincidencia se descarta. Es una oportunidad perdida.
En cambio, la concordancia difusa de nombres de MDP no se rinde tan fácilmente. Aunque un campo esté vacío, la herramienta examina los criterios restantes. Si un nombre se aproxima lo suficiente y otro campo admite la coincidencia, sigue adelante.
Este enfoque no sólo es más preciso, sino que también se ajusta a las mejores prácticas de limpieza de datos. mejores prácticas de limpieza de datos y la creación de perfiles de datos para detectar problemas de calidad. Se obtiene una mejor calidad de los datos sin sacrificar la precisión.
Último paso: Agrupar para mayor claridad
Una vez identificadas las coincidencias entre las definiciones, MDP realiza un proceso de agrupación inteligente. Esto combina todos los registros vinculados -incluso si coinciden a través de diferentes definiciones- en grupos unificados.
Así es como un nombre repartido en tres registros (con información parcial en cada uno de ellos) se convierte en un grupo de registros sólido y enriquecido. A continuación, puede revisarlos, fusionarlos o exportarlos en función de sus necesidades.
Tenga en cuenta las siguientes observaciones sobre los resultados de la herramienta MDP Fuzzy Matching:
- Puede ver que los 3 registros tienen el mismo ID de grupo (1). Así es como se vinculan las coincidencias.
- Puede ver las puntuaciones de los criterios para la Definición de Nombre + Teléfono.
- Puede ver las puntuaciones de los criterios para la Definición de Nombre + Correo electrónico
- Puede ver las puntuaciones de los criterios para la Definición de Nombre + Dirección
Ejemplo real de la herramienta (con capturas de pantalla)
Como puede ver en los párrafos anteriores, somos capaces de agrupar con éxito los registros similares mediante la correspondencia de datos difusos, aunque falte alguna información importante. Esto demuestra la potencia y flexibilidad de la herramienta.
Por qué es importante
Una mejor correspondencia significa mejores decisiones. Tanto si está depurando una lista de correo, fusionando registros de clientes o creando un nuevo CRM a partir de varias fuentes, es esencial realizar una correspondencia difusa que tenga en cuenta los datos incompletos.
Match Data Pro facilita la aplicación de estas concordancia de datos difusos en línea, rápidas y escalables.
Haga clic aquí para empezar ahora.