Documentos de Académico
Documentos de Profesional
Documentos de Cultura
net/publication/313820227
CITATIONS READS
0 2,652
1 author:
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
Simulation models for Small and medium-sized manufacturing enterprises View project
Telemetry and automatic signal processing architectures for E-Health View project
All content following this page was uploaded by Héctor Fabio Cadavid on 17 February 2017.
redundantes debido a la falta de estructura de la mayor parte B. Enfoque de la detección y corrección automática de
de la información. En [11], se exponen otras problemáticas datos
generadas por información de baja calidad, como las causadas
a los procesos de negocio soportados por información, donde Viendo a las ciencias de la computación aplicada a la
el CRM1, usando información igualmente defectuosa, crea detección y corrección automática de datos como el enfoque
problemas nefastos para la imagen de la organización, como el más razonable a la problemática de la calidad de los datos, los
envío de correspondencia duplicada o a domicilios incorrectos. esfuerzos en torno a la solución de dicha problemática se
enfocan en dos áreas principales: el proceso automatizado, y
Fuera del contexto de procesos de negocio, la baja calidad en los problemas computacionales que hacen parte de las etapas
los datos tiene un impacto negativo en áreas como la de dicho proceso.
bioinformática, donde costosos procesos de análisis de
información alimentados con fuentes enormes de datos, 1) Problemas computacionales
pueden arrojar resultados erróneos o con pérdida importante
de información sólo por el hecho de que algunos de éstos datos En la figura 1 se presenta la visión global de las problemáticas,
sean ‘ruido’ sobre los demás (tal como se describe en [35], a nivel computacional, que buscan resolver las estrategias de
[18]). Por la complejidad, la heterogeneidad, y el factor de datacleansing. Las dos categorías principales presentadas en
error humano de los mecanismos de captura de datos de un esta figura, correspondientes a los problemas propios de las
sistema, se ha mostrado estadísticamente [23] que cualquier fuentes de datos simples y las fuentes de datos integradas, son
base de datos con una dimensión promedio, sin importar los revisadas en [30]. En la categoría de fuente de datos simple, se
procesos de calidad que implemente, siempre contará con al tiene el problema del no cumplimento de una estructura por
menos un 5% de errores. parte de los datos, los errores de trascripción -que tienen como
efecto la creación de duplicados-, y errores semánticos o de
Las problemáticas mencionadas anteriormente por lo general consistencia. El mayor problema computacional en este caso
se dan en ambientes donde los volúmenes de datos son es el de tener que identificar errores -y eventualmente
enormes, y por esto no es viable pensar en un mecanismo de identificar los valores correctos- de datos sin estructura y sin
detección y corrección manual en un lapso de tiempo un dominio de tamaño razonable, tal como el caso de los
razonable. De aquí el por qué que las estrategias de detección nombres propios [25] y las direcciones [4].
y corrección automática de errores tomen un papel importante
como aplicación de las ciencias de la computación a un En la segunda categoría, de datos integrados (datos
problema de alto impacto en las organizaciones. consolidados de fuentes heterogéneas), uno de los mayores
retos computacionales es el dilema de la identidad de los
objetos [13], donde durante o después del proceso de
integración, dada la carencia de identificadores únicos
compartidos, se debe determinar si dos registros de dos fuentes
de datos corresponden al mismo, para generar uno solo
consolidado. Este problema de los datos no estructurados -
también conocido como el problema de emparejamiento de
objetos [27]-, además del costo computacional inherente al
cálculo de proximidad de valores de un dominio, está también
penalizado por la complejidad temporal de los procesos que
intentan automatizar su solución, cuando se trabajando con
fuentes de datos enormes, tal como se describe en [15] y [34].
Como se menciona el [15], el costo de aceptar equivalencias
equivocadamente entre objetos puede ser más riesgoso que
conservar su duplicidad, de aquí que las aproximaciones que
se den a la solución de esta problemática, deben ofrecer un
balance que maximice las equivalencias identificadas, pero
que también minimice la posibilidad de falsos positivos.
enfoque se calculan probabilidades con un conjunto de tuplas • Identificación de registros duplicados: las premisas
de registros previamente marcadas (como coincidentes y no son operaciones de proximidad entre campos.. En el
coincidentes), donde se penalizan aquellos atributos más caso de Intelliclean, propuesto por Lee y otros ([19],
influyentes en la indentidad de dicho registro (un número de [20]), se plantea un proceso completo de detección y
teléfono se penaliza menos que los nombres). corrección de datos asistido por un sistema experto,
donde las reglas no se limitan a ser relaciones entre
Con las probabilidades calculadas, un sistema podría – dado los atributos de los registros, sino que representan
un umbral de decisión- identificar automáticamente probables operaciones sobre los mismos. Por ejemplo, el
registros duplicados. Dado que este modelo se basa en la sistema permite definir en forma de reglas qué
evaluación de probabilidades de emparejamiento campo a registro se deja como correcto y cual se descarta en el
campo entre dos registros de forma independiente, puede caso de identificar un par de duplicados.
considerarse equivalente al cálculo Bayesiano de
probablidades naive. Shahri [12] propone un modelo similar a intelliclean, un
proceso completo asistido por un sistema experto pero
Andritsos y otros [1] más recientemente proponen una dedicado exclusivamente a la detección de duplicados, a partir
aplicación alternativa de la teoría de probabilidades al de reglas de inferencia, un proceso previo de clustering por
problema del datacleansing. Esta propuesta se enfoca en el similaridad entre registros, y lo más importante, un motor de
contexto de un proceso de integración de fuentes de datos inferencia basado en lógica difusa, de tal manera que no se
donde la unificación de duplicados es inviable (por riesgosa, y manejan valores de verdad absolutos, sino grados relativos de
por no tener conocimiento suficiente para determinar certeza.
realmente cual registro eliminar), y se basa en la idea de
enriquecer –automáticamente- los resultados de las consultas
E. Detección soportada por modelos de aprendizaje
sobre fuentes de datos consolidadas con información
supervisado y no supervisado
probabilística para cada registro resultante, el cual indica qué
tan probable es que corresponda a la base de datos ‘limpia’.
Las primeras aproximaciones a problemas como la
identificación de registros duplicados o la detección de errores
en datos estructurados se apoyaban sobre la base de un
D. Detección soportada por sistemas basados en conocimiento preciso de reglas del dominio, o en métricas de
conocimiento distancias genéricas para datos de cualquier dominio. Una
propuesta más reciente es el uso de clasificadores que no
En dominios de información donde se cuente con expertos que requieren de un conocimiento previo del dominio, sino que son
puedan definir formalmente reglas sobre la validez de los capaces de extraer las reglas del mismo, es decir, que son
datos y las relaciones entre sus atributos, una aproximación a capaces de aprender el cómo hacer las clasificaciones. Existen
un sistema que detecte y corrija automáticamente errores está dos modelos de clasificadores basados en aprendizaje de
en los sistemas basados en conocimiento. Los sistemas máquina: los supervisados y los no supervisados. Dentro de la
basados en conocimiento, o sistemas expertos, son sistemas categoría de aprendizaje supervisado, que es aquel que
alimentados con reglas de inferencia (dadas por los expertos), requiere de un conjunto de entrenamiento bien diseñado para
las cuales, permiten llegar a una conclusión dada cierta ajustar sus parámetros antes hacer predicciones o
evidencia, o en sentido contrario, llegar a una serie de causales clasificaciones se tiene el trabajo de Elfeky [6], propone su uso
dada una conclusión. En el contexto de un sistema para la en un modelo de inducción de identificación de registros
detección y corrección automática de datos las reglas de duplicados, donde la información de entrenamiento de dicho
inferencia pueden usarse con diferentes enfoques para clasificador son tuplas, compuestas por un vector de elementos
diferentes problemáticas relacionadas con el datacleansing: a comparar y un estado de similitud o matching entre éstos, de
tal forma que el clasificador aprenderá la función de similitud
• Detección de errores dentro del dominio de los datos: a partir de los datos de entrenamiento. Elmagarmid y otros [7]
las premisas de las reglas son los valores de cada uno revisan una estrategia de aplicación del aprendizaje
de los atributos de los datos, y la conclusión final será supervisado, en particular los árboles de decisión para
si el registro o el campo es válido o no. Este es el identificar ambigüedades, entrenando varios clasificadores con
caso del trabajo propuesto por Bruni y Sassano [3], un conjunto de parámetros ligeramente diferentes entre sí.
donde adicionalmente se propone la utilización de las
mismas reglas de inferencia como mecanismo de Otra aplicación de las técnicas de aprendizaje supervisado se
corrección automática, a través de la búsqueda de ha dado en la detección de inconsistencias de datos no
nuevos valores para los atributos de los registros de estructurados y difíciles de validar por el gran número de
tal forma que satisfagan las reglas fallidas en el variantes resultantes del uso de abreviaciones, notaciones y
proceso de detección de errores (imputación de orden alterno de sus elementos, como lo son los nombres
valores). propios y las direcciones. En este sentido la técnica de los
modelos ocultos de Markov permite, tras un previo
6
entrenamiento, categorizar los componentes de un dato no serie de propuestas basadas en una de sus estrategias más
estructurado. Cristen y otros [4] y de forma similar Churches y representativas: el clusteringg. Elfeky [6] propone lo que
otros [5], exponen el uso de los HMM4 como una estrategia de denomina un modelo de clustering para el emparejamiento de
unificación de formato de datos no estructurados, para realizar registros, donde dada una función generadora de vectores de
tareas de detección de identidad de registros (eliminación de comparación (una función que genera todas las comparaciones
duplicados o unificación de registros de bases de datos entre todas las tuplas de registros), se hace un agrupamiento de
integradas). La estrategia propuesta inicia con la los vectores de comparación en tres clusters, los cuales, dadas
estandarización de valores con tablas de referencia para las características de los vectores de comparación,
conversión de datos a su forma canónica (unificar corresponderán a las categorías de ‘emparejados’, ‘no
abreviaciones, sinónimos, etc.), y con la imputación de datos emparejados’, y probablemente emparejados.
cuando éstos sean inconsistentes o incompletos.
Posteriormente, la cadena a evaluar es convertida en tokens, Mazeika y otros [25] proponen una estrategia de detección y
para ser categorizados de acuerdo con el contexto (por corrección automática de errores en nombres, basado en los
ejemplo si se trabaja con direcciones, las categorías podrían conceptos de clustering y distancia entre cadenas (Q-gramas).
ser calle, carrera, conjunto, barrio, etc). Luego, a través del Sobre la base de que los nombres con errores tendrán una
HMM entrenado, se busca la secuencia de categorías más distancia corta hacia su valor correcto, los algoritmos
probable para la secuencia de características (tokens) dadas planteados se basan en la idea de definir espacios de cluster no
(por ejemplo, para ‘Perez, Gonzales, Andres’, una probable intersecantes entre sí, donde el centro y los límites de los
secuencia de categorías identificada podría ser [APELLIDO1], mismos se ajustan a medida que se evalúan las entradas de
[APELLIDO2], [NOMBRE1]). Finalmente, con la relación nombres, de tal manera que al final éstos tengan como
categoría-token obtenida con este proceso, se puede unificar la centroide la cadena probabilísticamente correcta, y dentro del
estructura de los elementos de todos los datos, para así sus límites las variaciones correspondientes a variaciones
simplificar el proceso de determinación de la identidad de los comunes debidas a errores de transcripción. Con este modelo,
registros mencionado anteriormente (para el ejemplo anterior, es posible identificar nombres probablemente incorrectos,
se podría decidir que todos los nombres tengan como viendo su posición dentro del cluster al que clasifique, y
estructura [NOMBRE1], [NOMBRE2], [APELLIDO1], sugerir el valor que pueda ser el correcto, como el centro del
[APELLIDO2]). dicho cluster, correspondiente a la variante más común dentro
de dicho cluster.
Para la aplicación de técnicas de aprendizaje supervisado,
Guyon y otros [10] hacen una propuesta para el problema de la
F. Detección soportada por reglas de asociación
selección de los datos de entrenamiento dentro del conjunto de
datos disponibles, teniendo en cuenta el riesgo de entrenar a un
clasificador con datos que tan solo represente ruido – Una técnica de gran valor para la minería de datos es el de la
clasificaciones incorrectas-. Proponen dos estrategias: en línea identificación de reglas de asociación entre los datos. Esta
y por lotes (batch), ambas con la participación de un ‘experto’ técnica permite a los analistas determinar relaciones entre
humano y usando el concepto de ‘nivel de sorpresa’, determinadas variables de los datos que no son obvias, y que
correspondiente al grado de disimilaridad de un dato respecto permiten implementar o replantear, entre otras, estrategias de
a la mayoría de los demás. mercadeo. Marcus y otros [24] proponen el uso de las reglas
de asociación como solución a la problemática de la detección
Para el proceso en línea, un operador revisa secuencialmente y corrección automática de datos en dominios donde no se
muestras de la base de datos, e indica qué datos son simple cuente con conocimiento a priori de reglas de los datos. Este
ruido, y cuales pueden considerarse correctos. Estos últimos trabajo presenta un algoritmo de identificación de reglas de
van siendo usados para entrenar al clasificador, mientras que asociación (restringido sólo a tuplas de variables), y una
los incorrectos son descartados. La otra alternativa, más estrategia de de la aplicación de éstas para la identificación de
aplicable a la realidad es procesar en batch. En esta estrategia posibles errores.
todos los datos, incluyendo el 'ruido' son incorporados al
clasificador para entrenarlo. Se ordenan los datos por su nivel Liu [21], propone una técnica general para la identificación de
de sorpresa (el cual es obtenido con el mismo clasificador), reglas ordinales de asociación entre valores numéricos,
para que nuevamente, un operador descarte los que definidas como funciones matemáticas, que a diferencia de
correspondan, hasta que los datos restantes tengan a lo sumo trabajos anteriores contempla relaciones de más de dos
cierto nivel de sorpresa. Finalmente, con los datos no variables. Adicionalmente, propone los algoritmos que
descartados, se hace el entrenamiento definitivo del permiten identificar potenciales errores en los registros dadas
clasificador. las reglas de asociación identificadas en la mayoría de éstos
registros.
Dentro de la categoría de aprendizaje no supervisado, que se
caracteriza por no requerir datos de entrenamiento, existe una
4
Hidden Markov Models
7
aparición de nuevos errores por la manipulación de corrección automatizados, interactivos, seguros y reutilizables
las fuentes de datos involucradas, muchas veces es son un tema de investigación importante, dada su influencia
necesario repetir el proceso periódicamente. Es sobre la viabilidad de la aplicación de las técnicas y sobre la
necesario contar con alguna estrategia para la vulnerabilidad del elemento más preciado por muchas
limpieza incremental de datos, que no requiera organizaciones: la información.
incurrir en el costo de repetir todo el proceso, sino
sólo los datos nuevos o los alterados después de su REFERENCIAS
limpieza.
[1] Andritsos, P.; Fuxman, A. & Miller, R. J. (2006), 'Clean Answers
• Tal como se expone en [11], en la práctica muchas over Dirty Databases: A Probabilistic Approach.', icde 0, 30.
organizaciones cuentan con una diversidad de [2] Benedikt, M.; Bohannon, P. & Bruns, G. (2006),Data Cleaning for
Decision Support., in 'Proceedings CleanDB 2006: Seoul, Korea'.
fuentes de datos no unificadas, debido a la utilización [3] Bruni, R. & Sassano, A. (2001),Errors Detection and Correction in
simultánea de diferentes sistemas de información. En Large Scale Data Collecting, in F. Hoffmann; D. J. Hand; N.
estos casos, donde la unificación de fuentes de datos Adams; D. Fisher & G. Guimaraes, ed.,'Advances in Intelligent
previa a la detección de errores no es factible, se Data Analysis, 4th International Conference, IDA 2001, Cascais,
Portugal, September 13--15, 2001, Proceedings', Springer Verlag, ,
necesitan mecanismos para replicar correctamente las pp. 84--94.
correcciones en todas las fuentes tiene datos de la [4] Christen, P.; Churches, T. & Zhu, J. (2002), 'Probabilistic Name
organización, y así mantener la consistencia en este and Address Cleaning and Standardisation', Proceedings of the
modelo de datos redundante. Australasian Data Mining Workshop, Canberra, Dec. 2002. 12.
[5] Churches, T.; Christen, P.; Lim, K. & Zhu, J. (2002), 'Preparation of
name and address data for record linkage using hidden Markov
• En ciertos sistemas de información, en especial los models', BMC Medical Informatics and Decision Making 2(1), 9.
de alta concurrencia y alta transaccionalidad, la [6] Elfeky, V. E. A. (2002), 'TAILOR: a record linkage toolbox', Data
información es registrada y actualizada con una Engineering, 2002. Proceedings. 18th International Conference
on, Vol., Iss., 2002, 17-28.
frecuencia muy alta. Un proceso de corrección
[7] Elmagarmid, P. V. V. (2007), 'Duplicate Record Detection: A
automática de errores en este tipo de ambientes Survey', Knowledge and Data Engineering, IEEE Transactions on,
presentan una serie de riesgos, bien sea haciendo Vol.19, Iss.1, Jan. 2007, 1-16.
correcciones aisladas sobre una copia de los datos, o [8] Galhardas, H.; Florescu, D.; Shasha, D.; Simon, E. & Saita, C.
haciendo correcciones sobre los datos en producción. (2001),Declarative Data Cleaning: Language, Model, and
Algorithms, in 'VLDB '01: Proceedings of the 27th International
En el primer caso, se tiene el problema de aplicar Conference on Very Large Data Bases', Morgan Kaufmann
consistentemente las correcciones hechas a la copia Publishers Inc., San Francisco, CA, USA, pp. 371--380.
de los datos sobre los datos en producción, teniendo [9] Gu, L.; Baxter, R.; Vickers, D. & Rainsford, C. (2003 ),'Record
en cuenta todos los cambios que pudieron haber linkage: Current practice and future directions.', CSIRO - 03/83
(03/83), Technical report, CSIRO, the Commonwealth Scientific
sufrido los datos reales en el transcurso de dicha and Industrial Research Organisation, Australia.
corrección. En el segundo caso, se tiene el problema [10] Guyon, I.; Matic, N. & Vapnik, V. (1996), Discovering Informative
de crear inconsistencias con las correcciones, por Patterns and Data Cleaning.
ejemplo, al corregir un dato que está en mitad de una [11] H. Müller, J. F. (2003), 'Problems, Methods and Challenges in
Comprehensive Data Cleansing', Technical Report HUB-IB-164
transacción. Para ambos casos se tiene el problema Humboldt-Universität zu Berlin, Institut für Informatik, 2003..
de poder definir, dentro de este ambiente altamente [12] Hamid Haidarian Shahri, A. B. (2002), 'A Flexible Fuzzy Expert
dinámico, un proceso convergente hacia un número System for Fuzzy Duplicate Elimination in Data Cleaning', Lecture
máximo de errores. Notes in Computer Science, Vol. 3180, 161-170.
[13] Helena Galhardas, D. S. E. S. (2000), 'Declaratively Cleaning your
Data with AJAX', BDA 2000.
[14] Helena Galhardas, D. S. E. S. & Saita, C. (2001),'Declarative Data
VI. CONCLUSIONES Cleaning: Model, Language and Algorithms. -INRIA Technical
Report RR-4149', INRIA Technical Report RR-4149, 2001 ,
De la revisión del estado del arte hecha en este artículo se Technical report, l'Institut National de Recherche en Informatique
puede concluir que a diferencia de otro tipo de problemáticas et en Automatique.
abordadas desde la computación, la de la detección y [15] Hernandez, M. A. & Stolfo, S. J. (1995),The Merge/Purge Problem
for Large Databases, in 'SIGMOD Conference', pp. 127-138.
corrección automática de errores en datos aún no cuenta con
[16] Hsiung, P. (2005),Alias Detection in Link Data Sets, in 'Proceedings
una estrategia de solución general de-facto disponible para las of the International Conference on Intelligence Analysis'.
organizaciones. Además, debido la complejidad y al gran [17] Koudas, N.; Marathe, A. & Srivastava, D. (2004),Flexible string
número de factores incidentes en este tipo de procesos, muchas matching against large databases in practice, in 'Proceedings of
de estas organizaciones optan por desarrollar sus propias VLDB (12), 2004'.
[18] Kubica, J. & Moore, A. (2003), 'Probabilistic Noise Identification
soluciones a la medida. and Data Cleaning', The Third IEEE International Conference on
Data Mining, 131--138.
Las estrategias emergentes para el datacleansing van de la [19] Lee, M. L.; Ling, T. W. & Low, W. L. (2000),IntelliClean: a
mano de los avances en la investigación de áreas como la knowledge-based intelligent data cleaner, in 'KDD '00: Proceedings
of the sixth ACM SIGKDD international conference on Knowledge
estadística, el aprendizaje de máquina, sistemas expertos, y en discovery and data mining', ACM Press, New York, NY, USA, pp.
este sentido, hay mucho trabajo por desarrollar. De igual 290--294.
manera, elementos como los procesos de detección y [20] Lee, W. (2005), 'Improving data quality: eliminating dupes & I-D-
10