El emparejamiento difuso/probabilístico de datos y la resolución de entidades son procesos fundamentales en la gestión y el análisis de datos. Implican la identificación y vinculación de registros que hacen referencia a la misma entidad, pero que pueden presentar variaciones debido a errores, abreviaturas o inconsistencias. Esta guía completa profundiza en los diversos aspectos del emparejamiento difuso y la resolución de entidades, incluyendo diferentes dominios de datos, casos de uso empresarial, algoritmos y la importancia de las soluciones sin código.
¹La empresa promedio utiliza más de 400 conjuntos de datos únicos diariamente.
¹Se espera que para 2025, las cargas de trabajo centradas en datos crezcan más de 2,65 veces en comparación con 2018.
En el mundo empresarial, siempre extraemos y utilizamos datos de múltiples sistemas. Esto también implica que a menudo tenemos que unificar datos que no coinciden, y que muchas veces añadimos información relacional a nuestros sistemas empresariales sin percatarnos de las relaciones. Puede tratarse de diferentes personas en el mismo hogar o en la misma empresa, de la misma persona o empresa con diferentes datos, o quizás de información sobre productos o direcciones.
Si la información fuera exactamente la misma, sus sistemas empresariales probablemente la identificarían y actualizarían el registro original o crearían una clave de indexación relacional. La nueva información se vincularía con la existente.
Pero como la información no es exactamente la misma, a menudo se la trata como información nueva, lo que significa cosas diferentes según el contexto, pero esencialmente significa que tiene información fragmentada, "desigual" y/o "duplicada".
Para un usuario final de cualquier sistema, esto puede significar múltiples búsquedas en uno o incluso en varios sistemas, tratando de encontrar la información correcta y tratando de ver el panorama completo.
Este podría ser un cliente.
Este podría ser un empleado.
O podría ser su director ejecutivo.
Podría ser un médico, un paciente, un paramédico o un agente de la ley que responde a una llamada.
Esta es una de las razones más comunes por las que hablamos de la calidad de los datos. Es una de las razones más comunes por las que no podemos comparar fácilmente la información de un sistema con otro, y también es una de las razones más comunes por las que reemplazamos los sistemas empresariales.
Más importante aún, esta es también una de las razones más comunes por las que los costos operativos seguirán aumentando para las empresas que son menos "alfabetizadas en datos", por las que los clientes se van, por las que los empleados se agotan y por las que las iniciativas estratégicas no logran generar los beneficios comerciales previstos.
Hay millones de maneras diferentes de lograrlo, y no podemos esperar la perfección, pero podemos hacerlo mucho mejor que antes, simplemente comprendiendo los problemas y siendo más proactivos. Match Data Pro es una solución de comparación de datos difusos/probabilísticos de primera clase, diseñada para simplificar este trabajo.
Tabla de contenido
-
- Diferentes dominios de datos
-
- Diferentes casos de uso empresarial
-
- Diferentes algoritmos de coincidencia difusa
-
- Ejemplos de casos de negocio para soluciones de coincidencias difusas sin código
-
- Eficiencia de coincidencia de datos difusos/probabilísticos
-
- Proveedores de coincidencias difusas y resolución de entidades
1. Diferentes dominios de datos
Datos de la empresa (prospectos, clientes, proveedores)
Desafíos: Las empresas pueden tener variaciones en sus nombres, como abreviaturas, errores ortográficos o nombres legales diferentes. Esto puede generar datos fragmentados y dificultar un análisis preciso.
Solución: Los algoritmos de coincidencia difusa pueden identificar y vincular estas variaciones a una única entidad, lo que permite una visión unificada de los datos de la empresa.
Datos de contacto (datos de contacto de consumidores y B2B)
Desafíos: La información de contacto, como nombres, números de teléfono y direcciones de correo electrónico, a menudo presenta variaciones debido a errores tipográficos, formatos diferentes o alias.
Solución: La comparación de datos difusos/probabilísticos ayuda a identificar contactos duplicados, fusionarlos y mantener una base de datos de contactos limpia y precisa.
Datos de dirección
Desafíos: Las direcciones pueden tener variaciones en términos de abreviaturas, errores ortográficos o formatos diferentes, lo que genera problemas de entrega e inconsistencias en los datos.
Solución: La coincidencia difusa es crucial para la validación de direcciones, la estandarización y la eliminación de duplicaciones para garantizar una geolocalización y una coincidencia de direcciones precisas.
Datos del producto
Desafíos: Los nombres y las descripciones de los productos pueden variar debido a abreviaturas, errores ortográficos o sinónimos, lo que dificulta la categorización y el análisis de los productos.
Solución: Los algoritmos de coincidencia difusa ayudan en la correspondencia, categorización y estandarización de productos, lo que permite una gestión y un análisis de inventario eficientes.
Datos de las piezas
Desafíos: Las piezas y los componentes pueden tener variaciones en nombres o códigos en diferentes conjuntos de datos, lo que genera discrepancias de inventario y desafíos de adquisición.
Solución: La coincidencia difusa es esencial para la gestión del inventario, la identificación de piezas y la trazabilidad, garantizando un seguimiento preciso y consistente de las piezas.
Datos de materiales
Desafíos: Los materiales y las materias primas pueden tener variaciones en nombres o códigos, lo que complica los procesos de adquisición y la trazabilidad del material.
Solución: La comparación de datos difusos/probabilísticos ayuda en la estandarización, categorización y optimización de adquisiciones de materiales al vincular registros relacionados y eliminar duplicados.
Datos de activos
Desafíos: Los activos como equipos o maquinarias pueden tener variaciones en nombres o identificadores, lo que dificulta el seguimiento de activos y la gestión del mantenimiento.
Solución: Los algoritmos de coincidencia difusa ayudan en la identificación de activos, el seguimiento y la programación del mantenimiento vinculando registros relacionados y garantizando la coherencia de los datos.
2. Diferentes casos de uso empresarial
Calidad de los datos
Objetivo: Mejorar la calidad de los datos identificando y corrigiendo errores, inconsistencias y duplicados.
Beneficios: Mayor precisión de los datos, mejor toma de decisiones y mayor eficiencia operativa.
Datos duplicados
Objetivo: Identificar y eliminar registros duplicados para mantener una base de datos limpia y precisa.
Beneficios: costos de almacenamiento reducidos, integridad de datos mejorada y experiencia de usuario mejorada.
Integración de datos
Objetivo: Integrar datos de diferentes fuentes haciendo coincidir y vincular registros relacionados.
Beneficios: Integración de datos perfecta, vista de datos unificada y capacidades mejoradas de análisis de datos.
Silos de datos
Objetivo: Romper los silos de datos mediante la integración de conjuntos de datos dispares mediante coincidencia difusa.
Beneficios: Eliminación de silos de datos, mejor accesibilidad a los datos y mayor colaboración entre departamentos.
Implementación de nuevos sistemas empresariales
Objetivo: migrar datos a nuevos sistemas comerciales garantizando la consistencia y precisión de los datos y, a menudo, implementando datos "discordantes" de múltiples sistemas.
Beneficios: Migración fluida del sistema, reducción de errores en la migración de datos y minimización de las interrupciones comerciales.
Análisis de datos
Objetivo: Mejorar el análisis de datos vinculando registros relacionados y proporcionando una visión más completa de los datos.
Beneficios: Mejor conocimiento de los datos, mejor identificación de tendencias y capacidades mejoradas de análisis predictivo.
Gestión de datos maestros
Objetivo: Gestionar datos maestros manteniendo una única versión de la verdad en toda la organización.
Beneficios: Gobernanza de datos unificada, calidad de datos mejorada y procesos de negocios optimizados.
Gestión de listas
Objetivo: Gestionar listas de marketing o de clientes identificando y fusionando entradas duplicadas.
Beneficios: Campañas de marketing dirigidas, mejor segmentación de clientes y mayor participación del cliente.
Vista de 360 grados del cliente
Objetivo: Crear una vista unificada de los clientes vinculando registros relacionados de diferentes fuentes de datos.
Beneficios: Mayor comprensión del cliente, estrategias de marketing personalizadas y mayor satisfacción del cliente.
Vista 360 del proveedor
Objetivo: Crear una vista integral de los proveedores mediante la vinculación y consolidación de registros de proveedores.
Beneficios: Mejora de la gestión de proveedores, optimización de los procesos de adquisición y reducción de los riesgos en la cadena de suministro.
Vista 360 del producto
Objetivo: Crear una vista completa de los productos vinculando registros relacionados y categorizando los productos con precisión.
Beneficios: Gestión eficiente del inventario, marketing dirigido y mejor gestión del ciclo de vida del producto.
3. Diferentes algoritmos de coincidencia difusa
Soundex
Caso de uso: Coincidencia fonética
Ventajas: Bueno para nombres que suenan similares
Contras: Más lento y limitado en el manejo de errores tipográficos.
Más adecuado para: nombres de empresas, nombres de contacto
Distancia de Levenshtein
Caso de uso: similitud de cadenas
Ventajas: Flexible y puede manejar errores tipográficos.
Desventajas: Computacionalmente costoso para grandes conjuntos de datos
Más adecuado para: campos de texto, nombres de productos
Jaro-Winkler
Caso de uso: Similitud de cadenas con peso para prefijos comunes
Ventajas: Eficaz para cadenas cortas y nombres similares.
Contras: Menos efectivo para cuerdas más largas.
Más adecuado para: nombres de contacto, direcciones
Metáfono
Caso de uso: Coincidencia fonética
Ventajas: Maneja variaciones en la ortografía y la pronunciación.
Contras: Limitado al idioma inglés.
Más adecuado para: nombres de contactos, nombres de productos
similitud de n-gramas
Caso de uso: coincidencia de subcadenas
Ventajas: Eficaz para identificar subcadenas similares
Contras: Sensibilidad a la longitud y al orden de las subcadenas.
Más adecuado para: campos de texto, descripciones
TF-FDI
Caso de uso: Coincidencia de texto según la frecuencia de términos
Ventajas: Eficaz para datos de texto y similitud de documentos.
Contras: Complejo de implementar y computacionalmente intensivo.
Más adecuado para: campos de texto, documentos
4. Ejemplos de casos de negocio para soluciones de coincidencia difusa sin código
Aumento de las cargas de trabajo de datos
Desafío: con el aumento del volumen de datos, la comparación manual de datos se vuelve poco práctica y la mayoría de las personas de negocios dependen de terceros para preparar y procesar los datos.
Solución: Las soluciones de coincidencia difusa sin código simplifican el proceso y mejoran la eficiencia, lo que permite a las organizaciones manejar cargas de trabajo de datos más grandes sin comprometer la precisión.
Desafíos de codificación
Desafío: Codificar algoritmos de coincidencia difusa desde cero o usar bibliotecas puede requerir mucho tiempo, ser mucho menos flexible y propenso a errores. Además, codificar una solución para cada caso de uso no es rentable.
Solución: Las soluciones sin código ofrecen una interfaz intuitiva para una implementación sencilla, lo que reduce la necesidad de conocimientos de programación y acelera el proceso de implementación. Estas soluciones se pueden implementar de forma rápida y sencilla, y ofrecen un nivel de configurabilidad mucho mayor, lo cual es importante para la discrepancia de datos.
Desafíos de la comparación de datos
Desafío: La mayoría de los datos no coinciden perfectamente debido a variaciones y errores.
Solución: Las soluciones de coincidencias difusas sin código ofrecen flexibilidad y configurabilidad para gestionar estas variaciones sin necesidad de codificación, lo que garantiza una coincidencia de datos difusa/probabilística precisa y fiable en diferentes dominios. Esto reduce el tiempo de obtención de valor, aumenta el número de coincidencias correctas y disminuye el número de coincidencias incorrectas (falsos positivos).
Facilidad de uso
Desafío: Las personas de negocios a menudo necesitan trabajar con datos sin conocimientos técnicos y, a menudo, necesitan trabajar con datos de forma independiente (sin recurrir a TI o ingenieros de datos).
Solución: Las soluciones de coincidencia difusa sin código están diseñadas para ser simples e intuitivas, lo que permite a los usuarios comerciales administrar los datos de manera efectiva sin requerir habilidades técnicas especializadas.
Valor operativo y analítico
Beneficios: Las soluciones de coincidencia difusa sin código no solo mejoran la calidad de los datos, sino que también brindan información valiosa para fines operativos y analíticos.
5. Eficiencia de coincidencia de datos difusos/probabilísticos
Como explica en su blog en Liliendahl sobre calidad de datos, Henrik Liliendahl explica que existen cinco enfoques típicos para la comparación de datos:
1. Determinista simple : eficiencia del 20% al 50%
2. Sinónimos / estandarización – eficiencia 30%-60%
3. Algoritmos : eficiencia del 40% al 70%
4. Combinado tradicional : eficiencia 50%-80%
5. IA habilitada : eficiencia del 10 % al 90 %
La mayoría de los sistemas empresariales, como CRM, ERP y otros, solo utilizan una correspondencia determinista simple, por lo que se omiten los datos relacionales. Las soluciones diseñadas específicamente utilizan uno o una combinación de todos estos enfoques, desde el determinista hasta el basado en IA. Match Data Pro utiliza todos estos enfoques en una interfaz de usuario fácil de usar y configurable.
6. Proveedores de coincidencias difusas y resolución de entidades
La elección del proveedor adecuado para soluciones de coincidencia difusa y resolución de entidades depende de la experiencia técnica y los requisitos específicos de su organización. A continuación, se presentan dos categorías de proveedores: software diseñado para TI o ingenieros y software sin código diseñado para profesionales. Cada proveedor incluye información sobre precios, las habilidades técnicas necesarias y los requisitos específicos.
Software creado para TI o ingenieros
1. Sensación
-
- Descripción: Senzing ofrece inteligencia artificial en tiempo real de primer nivel para la resolución de entidades, empaquetada como una herramienta para desarrolladores, que proporciona resolución de entidades avanzada y herramientas de coincidencia difusa para desarrolladores.
-
- Rango de precios: $$$ (varía de medio a alto)
-
- Habilidades técnicas necesarias: avanzadas
-
- Nota: Senzing ofrece soluciones sofisticadas diseñadas para organizaciones con experiencia técnica avanzada en gestión de datos e IA.
-
- Suscripciones SaaS/mensuales disponibles: desconocidas
2. Talend
-
- Descripción: Talend ofrece soluciones de integración e integridad de datos con sólidas capacidades de coincidencia difusa.
-
- Rango de precios: $$$ (Alto)
-
- Habilidades técnicas necesarias: avanzadas
-
- Nota: Talend ofrece soluciones integrales adecuadas para organizaciones con experiencia técnica avanzada en integración y gestión de datos.
-
- Suscripciones SaaS/mensuales disponibles: desconocidas
3. Informática
-
- Descripción: Informatica ofrece soluciones integrales de gestión de datos, incluidas capacidades avanzadas de coincidencia difusa y resolución de entidades.
-
- Rango de precios: $$$ (Alto)
-
- Habilidades técnicas necesarias: avanzadas
-
- Nota: Informatica ofrece soluciones de nivel empresarial ideales para grandes organizaciones con requisitos complejos de gestión de datos.
-
- Suscripciones SaaS/mensuales disponibles: desconocidas
4. IBM
-
- Descripción: IBM ofrece una gama de soluciones de gestión y análisis de datos, incluidos potentes algoritmos de coincidencia difusa.
-
- Rango de precios: $$$ (Alto)
-
- Habilidades técnicas necesarias: avanzadas
-
- Nota: Las soluciones de IBM están diseñadas para implementaciones a gran escala y requieren experiencia técnica avanzada para su implementación y gestión.
-
- Suscripciones SaaS/mensuales disponibles: desconocidas
5. SAS
-
- Descripción: SAS ofrece soluciones avanzadas de análisis y gestión de datos, incluidas herramientas de resolución de entidades y coincidencia difusa de última generación.
-
- Rango de precios: $$$ (Alto)
-
- Habilidades técnicas necesarias: avanzadas
-
- Nota: SAS ofrece soluciones de análisis integrales con funciones sofisticadas, adecuadas para organizaciones con capacidades técnicas avanzadas.
-
- Suscripciones SaaS/mensuales disponibles: desconocidas
6. Ataccama
-
- Descripción: Ataccama ofrece soluciones de gestión de datos maestros y calidad de datos impulsadas por IA, incluidos sofisticados algoritmos de coincidencia difusa.
-
- Rango de precios: $$$ (Alto)
-
- Habilidades técnicas necesarias: avanzadas
-
- Nota: Las soluciones de Ataccama aprovechan las tecnologías de IA y requieren habilidades técnicas avanzadas para su implementación y personalización.
-
- Suscripciones SaaS/mensuales disponibles: desconocidas
7. Calidad de datos de Experian
-
- Descripción: Experian Data Quality ofrece soluciones integrales de gestión de la calidad de datos, incluidas sólidas herramientas de coincidencia difusa.
-
- Rango de precios: $$ (Moderado)
-
- Habilidades técnicas necesarias: Intermedio a avanzado
-
- Nota: Experian Data Quality ofrece soluciones sólidas adecuadas para organizaciones con distintos niveles de experiencia técnica.
-
- Suscripciones SaaS/mensuales disponibles: desconocidas
8. Sistemas innovadores
-
- Descripción: Innovative Systems ofrece soluciones de gestión de datos empresariales, incluidas potentes capacidades de coincidencia difusa y resolución de entidades.
-
- Rango de precios: $$$ (Alto)
-
- Habilidades técnicas necesarias: avanzadas
-
- Nota: Innovative Systems ofrece soluciones integrales con funciones avanzadas, ideales para grandes organizaciones con requisitos técnicos avanzados.
-
- Suscripciones SaaS/mensuales disponibles: desconocidas
Software sin código para empresarios
1. Match Data Pro
-
- Descripción: Match Data Pro ofrece herramientas de coincidencia difusa de primera clase, fáciles de usar y altamente configurables, diseñadas para usuarios empresariales sin necesidad de conocimientos de programación. También hemos integrado el motor de resolución de entidades Senzing para simplificar aún más esta tarea.
-
- Rango de precios: $ (varía de menor a mayor)
-
- Habilidades técnicas necesarias: Principiante
-
- Nota: Match Data Pro ofrece soluciones fáciles de usar adecuadas para pequeñas empresas y organizaciones con experiencia técnica limitada.
-
- Suscripciones SaaS/mensuales disponibles: Sí
-
- Multilingüe: Sí
-
- Multiusuario: Sí
-
- Requisitos del sistema operativo: en contenedores
-
- Creado para la nube privada: Sí
-
- Basado en navegador: Sí
2. Winpure
-
- Descripción: Winpure ofrece un software de limpieza de datos y coincidencia difusa fácil de usar diseñado para usuarios comerciales.
-
- Rango de precios: $ (Varía de bajo a alto)
-
- Habilidades técnicas necesarias: Principiante
-
- Nota: Winpure ofrece soluciones sencillas con funciones intuitivas, lo que las hace accesibles para organizaciones con experiencia técnica limitada.
-
- Suscripciones SaaS/mensuales disponibles: desconocidas
-
- Multilingüe: Sí
-
- Multiusuario: Usuario único/desconocido
-
- Requisitos del sistema operativo: Windows/desconocido
-
- Creado para la nube privada: desconocido
-
- Basado en navegador: Windows/desconocido
3. Escalera de datos
-
- Descripción: Data Ladder ofrece soluciones de coincidencia y calidad de datos, incluidas herramientas intuitivas de coincidencia difusa.
-
- Rango de precios: $$ (varía de moderado a alto)
-
- Habilidades técnicas necesarias: principiante a intermedio
-
- Nota: Data Ladder ofrece soluciones fáciles de usar con funciones intuitivas, adecuadas para organizaciones con experiencia técnica limitada.
-
- Suscripciones SaaS/mensuales disponibles: No
-
- Multilingüe: Sí
-
- Multiusuario: No
-
- Requisitos del sistema operativo: Windows/Linux
-
- Creado para la nube privada: No
-
- Basado en navegador: No
4. Melissa
-
- Descripción: Melissa ofrece soluciones globales de verificación de direcciones y calidad de datos, incluidos algoritmos avanzados de coincidencia difusa.
-
- Rango de precios: $$ (varía de moderado a alto)
-
- Habilidades técnicas necesarias: principiante a intermedio
-
- Nota: Melissa ofrece soluciones sencillas con funciones avanzadas, adecuadas para organizaciones que buscan un equilibrio entre funcionalidad y facilidad de uso.
-
- Suscripciones SaaS/mensuales disponibles: Sí
-
- Multilingüe: Sí
-
- Multiusuario: Sí
-
- Requisitos del sistema operativo: desconocidos
-
- Creado para la nube privada: desconocido
-
- Basado en navegador: Sí
5. Alteryx
-
- Descripción: Alteryx proporciona una plataforma para la combinación, el análisis y la visualización de datos, incluidas herramientas de coincidencia difusa fáciles de usar.
-
- Rango de precios: $$$ (varía de bajo a alto)
-
- Habilidades técnicas necesarias: principiante a intermedio
-
- Nota: Alteryx ofrece una plataforma integral con funciones intuitivas, adecuada para organizaciones con distintos niveles de habilidades técnicas.
-
- Suscripciones SaaS/mensuales disponibles: desconocidas
-
- Multilingüe: Sí
-
- Multiusuario: Sí
-
- Requisitos del sistema operativo: desconocidos
-
- Creado para la nube privada: desconocido
-
- Basado en navegador: desconocido
Conclusión
Al seleccionar un proveedor de soluciones de coincidencia de datos difusos/probabilísticos y resolución de entidades, es fundamental considerar factores como el precio, las habilidades técnicas necesarias y los requisitos específicos. Tanto si es un profesional de TI que busca soluciones avanzadas como si es un empresario que busca herramientas fáciles de usar, existe un proveedor que puede satisfacer sus necesidades y ayudarle a lograr una coincidencia de datos y una resolución de entidades precisas y eficientes.
Palabras clave relacionadas
Coincidencia de datos difusa/probabilística, coincidencia de registros, coincidencia de datos, resolución de entidades, vinculación de registros, purga de fusión, coincidencia de texto, coincidencia probabilística, coincidencia de nombres, coincidencia de proveedores, coincidencia de pacientes, domiciliación, coincidencia de direcciones, coincidencia de productos, deduplicación
Descargue la Guía completa sobre coincidencia de datos difusos/probabilísticos y resolución de entidades aquí: HAGA CLIC AQUÍ