Está en la página 1de 11

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/313820227

Estrategias para la detección y corrección automática de errores en fuentes de


datos

Technical Report · January 2007


DOI: 10.13140/RG.2.2.21896.62723

CITATIONS READS

0 2,652

1 author:

Héctor Fabio Cadavid


University of Groningen
33 PUBLICATIONS   112 CITATIONS   

SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Simulation models for Small and medium-sized manufacturing enterprises View project

Telemetry and automatic signal processing architectures for E-Health View project

All content following this page was uploaded by Héctor Fabio Cadavid on 17 February 2017.

The user has requested enhancement of the downloaded file.


1

Estrategias para la detección y corrección


automática de errores en fuentes de datos
Héctor Fabio Cadavid Rengifo.
hfcadavidr@unal.edu.co

proponen nuevos enfoques como el aprendizaje maquinal, y


Resumen— Las técnicas de detección y corrección automática nuevas áreas de aplicación como la biología.
de errores en los datos, más conocidas como técnicas de
datacleansing son un tema de estudio importante hoy más que Inicialmente se expondrá una clasificación de las
nunca, por el valor que está tomando la información para las
organizaciones. Este artículo revisa las problemáticas de calidad
problemáticas motivantes para el nacimiento de esta serie de
en los datos, las técnicas desarrolladas hasta ahora para detección estrategias, que como se verá implica un alto costo para las
y corrección de errores, ejemplos de aplicación en problemas organizaciones en términos económicos y administrativos.
concretos y problemas abiertos para la investigación.
En las secciones III y IV se presentará el compendio de las
Palabras clave — Data cleansing, data scrubbing, merge/purge, áreas de trabajo en las que se han desarrollado las principales
data cleaning, data quality.
propuestas de estrategia para datacleansing, basada en los
trabajos más representativos publicados hasta el momento.
CONTENIDO
I. INTRODUCCIÓN...........................................................1
II. Problemática..............................................................1 La sección V presentará aplicaciones en problemas reales de
A. Problema de la calidad de los datos...........................1 algunas de las técnicas de datacleansing revisadas, y propone
B. Enfoque de la detección y corrección automática de una clasificación general dichas aplicaciones en sectores
datos 2 donde la existencia de errores en los datos representa altos
1) Problemas computacionales..................................2 costos y riesgos operacionales.
2) Problema del proceso ...........................................3
III. Principales áreas de trabajo actual.............................3 La sección VI finalmente presenta un compendio de algunas
A. Modelos declarativos de limpieza de datos ...............4 de los problemas abiertos en el tema de limpieza y corrección
B. Emparejamiento de objetos .......................................4 automática de datos, basado en lo expuesto en las diferentes
C. Detección probabilística de errores ...........................4 publicaciones, y en lo que el autor considera no se ha
D. Detección soportada por sistemas basados en contemplado en éstas.
conocimiento........................................................................5
E. Detección soportada por modelos de aprendizaje
supervisado y no supervisado ..............................................5 II. PROBLEMÁTICA
F. Detección soportada por reglas de asociación...........6
G. Comparación .............................................................7
IV. Aplicaciones ..............................................................7 A. Problema de la calidad de los datos
V. Perspectivas de desarrollo del area............................8
A. Problemas por resolver..............................................8 En la actualidad la información, además de tener un gran valor
VI. Conclusiones .............................................................9 para los procesos, la historia y la trayectoria de una
Referencias ..............................................................................9 organización, es un elemento cada vez más influyente en las
decisiones y en los riesgos asumidos por ésta, de aquí que el
problema de la calidad de los datos tiene un impacto sobre las
I. INTRODUCCIÓN organizaciones significativamente alto. Tal como se

E STE documento busca dar una visión integradora y


extendida del estado del arte de las técnicas de detección y
corrección automática de datos, conocidas más comúnmente
ejemplifica en [2], ciertas organizaciones como las
gubernamentales necesitan invertir y arriesgar enormes sumas
de dinero sólo sobre la base de los indicadores dados por las
como técnicas de ‘data cleansing’, a partir de trabajos previos herramientas de minería de datos, las cuales son alimentadas
de revisión de estado del arte, trabajos más recientes que por información que muchas veces no tiene un control de
calidad adecuado en la captura, es consolidada a través de
procesos de unificación deficientes, o tiene elementos
2

redundantes debido a la falta de estructura de la mayor parte B. Enfoque de la detección y corrección automática de
de la información. En [11], se exponen otras problemáticas datos
generadas por información de baja calidad, como las causadas
a los procesos de negocio soportados por información, donde Viendo a las ciencias de la computación aplicada a la
el CRM1, usando información igualmente defectuosa, crea detección y corrección automática de datos como el enfoque
problemas nefastos para la imagen de la organización, como el más razonable a la problemática de la calidad de los datos, los
envío de correspondencia duplicada o a domicilios incorrectos. esfuerzos en torno a la solución de dicha problemática se
enfocan en dos áreas principales: el proceso automatizado, y
Fuera del contexto de procesos de negocio, la baja calidad en los problemas computacionales que hacen parte de las etapas
los datos tiene un impacto negativo en áreas como la de dicho proceso.
bioinformática, donde costosos procesos de análisis de
información alimentados con fuentes enormes de datos, 1) Problemas computacionales
pueden arrojar resultados erróneos o con pérdida importante
de información sólo por el hecho de que algunos de éstos datos En la figura 1 se presenta la visión global de las problemáticas,
sean ‘ruido’ sobre los demás (tal como se describe en [35], a nivel computacional, que buscan resolver las estrategias de
[18]). Por la complejidad, la heterogeneidad, y el factor de datacleansing. Las dos categorías principales presentadas en
error humano de los mecanismos de captura de datos de un esta figura, correspondientes a los problemas propios de las
sistema, se ha mostrado estadísticamente [23] que cualquier fuentes de datos simples y las fuentes de datos integradas, son
base de datos con una dimensión promedio, sin importar los revisadas en [30]. En la categoría de fuente de datos simple, se
procesos de calidad que implemente, siempre contará con al tiene el problema del no cumplimento de una estructura por
menos un 5% de errores. parte de los datos, los errores de trascripción -que tienen como
efecto la creación de duplicados-, y errores semánticos o de
Las problemáticas mencionadas anteriormente por lo general consistencia. El mayor problema computacional en este caso
se dan en ambientes donde los volúmenes de datos son es el de tener que identificar errores -y eventualmente
enormes, y por esto no es viable pensar en un mecanismo de identificar los valores correctos- de datos sin estructura y sin
detección y corrección manual en un lapso de tiempo un dominio de tamaño razonable, tal como el caso de los
razonable. De aquí el por qué que las estrategias de detección nombres propios [25] y las direcciones [4].
y corrección automática de errores tomen un papel importante
como aplicación de las ciencias de la computación a un En la segunda categoría, de datos integrados (datos
problema de alto impacto en las organizaciones. consolidados de fuentes heterogéneas), uno de los mayores
retos computacionales es el dilema de la identidad de los
objetos [13], donde durante o después del proceso de
integración, dada la carencia de identificadores únicos
compartidos, se debe determinar si dos registros de dos fuentes
de datos corresponden al mismo, para generar uno solo
consolidado. Este problema de los datos no estructurados -
también conocido como el problema de emparejamiento de
objetos [27]-, además del costo computacional inherente al
cálculo de proximidad de valores de un dominio, está también
penalizado por la complejidad temporal de los procesos que
intentan automatizar su solución, cuando se trabajando con
fuentes de datos enormes, tal como se describe en [15] y [34].
Como se menciona el [15], el costo de aceptar equivalencias
equivocadamente entre objetos puede ser más riesgoso que
conservar su duplicidad, de aquí que las aproximaciones que
se den a la solución de esta problemática, deben ofrecer un
balance que maximice las equivalencias identificadas, pero
que también minimice la posibilidad de falsos positivos.

Para las dos categorías mencionadas aplica un problema


Figura 1. Mapa conceptual de las problemas complejo, el de encontrar un balance entre la precisión y
computacionales relacionados con ‘datacleansing’ calidad de las detecciones y correcciones de errores, y la
complejidad computacional de realizar éstos en fuentes de
datos de alto volumen –que son precisamente a los que aplican
las soluciones de detección y corrección automática de datos-,
ya que la complejidad, y por ende el tiempo, son requisitos
fundamentales para la creación de soluciones de
1
implementación factible en ambientes de producción reales.
Customer-relationship management
3

dependencias con los motores de bases de datos


Otro problema que requiere estrategias computacionales para utilizados.
la automatización de su solución, es el análisis y
transformación de datos en dominios donde no se tiene • Probabilidad: definición de modelos estadísticos que
conocimiento preciso de cuando realmente un dato es correcto permitan la clasificación de información dadas las
o no, y éste debe inferirse a partir de una muestra de los datos funciones de distribución inferidas de los datos
reales. Es decir, se necesita identificar patrones recurrentes en textuales o numéricos disponibles en la fuente de
los conjuntos de datos, para con éstos detectar posibles datos.
anomalías en los casos minoritarios que no los tengan.
• Sistemas basados en conocimiento: definición e
De esta última problemática y en general de todas aquellas implementación de conchas de conocimiento y
basadas en conocimiento descubierto o dado por expertos se motores de inferencia que soporten reglas para
abre un nuevo problema: cómo representar conocimiento determinar el grado de proximidad entre registros a
relacionado con las reglas que debe cumplir un conjunto de partir de sus atributos (para encadenar registros,
datos. identificar errores o duplicados), o para modelar las
relaciones entre los atributos de un mismo registro,
2) Problema del proceso con el fin de identificar inconsistencias y poder
calcular los valores probablemente correctos de los
Aún suponiendo la existencia de un conjunto de algoritmos y campos inconsistentes (imputación de valores).
estrategias ideales, que pudieran resolver los problemas de la
identidad de objetos, y permitieran identificar los valores • Aprendizaje maquinal: identificar aplicaciones de las
correctos de datos con imperfecciones, éstos requieren de un técnicas de aprendizaje supervisado y no supervisado
esquema de encadenamiento en un proceso de para la detección de errores en datos sin estructura
transformaciones formalmente definido (operaciones ETL2), estándar e identificación aproximada de duplicados.
para poder ejecutarlos como un proceso secuencial por lotes.
En la práctica, la complejidad de una secuencia de • Algoritmia: desarrollar algoritmos de cálculo de
transformaciones de un proceso de detección y corrección métricas de proximidad entre objetos (en especial
automática de datos es tan alta, que finalmente para cada cadenas).
problema se termina desarrollando una solución a la medida,
tal como se concluye en [22]. Estos son finalmente desarrollos A partir de la revisión de los trabajos realizados en las áreas
a muy bajo nivel, específicos para la plataforma física que previamente mencionadas, es posible presentar una visión
soporta los datos, y por lo tanto, basados en un proceso integrada, de cual es el aporte de los resultados de dichos
modelable sólo por los expertos en la tecnología mas no por trabajos en el contexto de la problemática de la detección y
los expertos en los datos y en el dominio de los mismos. Es corrección automática de datos.
vital para procesos adecuados de corrección automática de
datos contar con herramientas que permitan modelar dicho
proceso a un alto nivel (nivel de proceso transparente a sus
detalles técnicos), hacerle seguimiento a sus resultados
intermedios, y hacerle ajustes cuando haga falta, como se
propone en [8].

III. PRINCIPALES ÁREAS DE TRABAJO ACTUAL

Dados los enfoques de los trabajos desarrollados como


propuestas al problema de la detección y corrección
automática de datos, se pueden identificar las siguientes áreas
de trabajo, junto con sus objetivos primarios:

• Ingeniería de software: desarrollo de marcos de


trabajo extensibles, basados en lenguajes formales
para la especificación y puesta en producción de
procesos de transformación de información, sin

Figura 2. Clasificación de los trabajos propuestos, y su


2 relación con los tipos de problemas que resuelven.
Extraction-Transformation-Loading
4

(concepto de ventana corrediza de tamaño w), que determinan


si del subconjunto de tamaño w, hay equivalencias. En la
Como se puede ver en la figura 2, los seis enfoques principales variante de esta propuesta, basada en el concepto de
identificados para los trabajos relacionados con datacleansing clustering, los registros y sus llaves no son ordenados, sino son
(conceptos en rojo) están especializados en diferentes agrupados en N grupos o clusters, de acuerdo con la
problemas, pero con una visión de proceso, varios de éstos proximidad entre éstos, para finalmente aplicar las reglas
podrían estar relacionados para dar una solución integral. lógicas cluster por cluster. Monge [26] posteriormente
propone un par de mejoras para las estrategias basadas en
Éstos enfoques son descritos a continuación: proximidad:

• Calcular y tener en cuenta la transitividad de las


A. Modelos declarativos de limpieza de datos
equivalencias. Al identificar que A es duplicado de B,
y B es duplicado de C, al requerirse la operación de
Existe una diversidad de trabajos en el área de la limpieza identificar si A y C son duplicados ésta se da como
automática de datos que buscan proveer un modelo único de positiva por transitividad. De esta manera se puede
especificación de procesos de detección y transformación de reducir el número cómputos de proximidad.
errores -independiente de la arquitectura de base de datos que • Utilizar estrategias de compresión para el manejo de
se maneje-, para acabar con la necesidad de desarrollar nuevos registros con textos grandes. Al generar esbozos
proyectos (metodologías, software, procesos) para cada nuevo (sketchs) representativos de las cadenas, como
requerimiento de mejoramiento de calidad de datos, de tal secuencias únicas de caracteres contínuos.
forma que baste con modelar un proceso de alto nivel para
tener una solución de datacleansing lista para ejecutarse. En la Mucho más recientemente, Elmagarmid [7] y Navarro [29]
actualidad no hay soluciones de-facto para el requerimiento de presentan una revisión de métricas de identificación de
abstraer los procesos de transformación para corrección de proximidad para cadenas, vista esta como la más importante de
datos a un alto nivel, pero existe una serie de trabajos que en la las operaciones en las tareas de identificación de duplicados y
presente década han sido la base para todas las propuestas en la detección de equivalencias en integración de datos.
posteriores relacionadas. AJAX tal como Galhardas describe Dentro de éstas se encuentran:
en [13] y [14], es una de las primeras herramientas propuestas
para modelar las transformaciones asociadas a un proceso de • Distancia de edición: esta métrica genera un
datacleansing como un flujo de trabajo3 (workflow), es decir, indicador de proximidad entre dos cadenas
como una serie de tareas de transformación secuenciales, en correspondiente al número de mínimo de operaciones
esta caso, definidas a través de un lenguaje extensible basado de inserción, eliminación y reemplazo requeridas para
en SQL. En [11] y [12] se da una visión más general de lo que convertir una de las cadenas en la otra.
debe ser un flujo de trabajo para un proceso de limpieza de
• Distancia Smith-Waterman: esta métrica derivada de
datos –independiente de la tecnología-, donde se inicia con
la distancia de edición da un tratamiento especial a
una auditoria de datos, la especificación y ejecución del
los errores del inicio y del final de la cadena,
workflow, y el postproceso, donde se identifican elementos a
dándoles una penalización menor, dado que una
mejorar tras cada iteración de ejecución del workflow.
diferencia común entre dos cadenas son sus prefijos y
sufijos.
• Distancia JARO: esta métrica se calcula como el
B. Emparejamiento de objetos número de transposiciones requeridas para que solo
los caracteres comunes de las dos cadenas a comparar
En 1995, Hernández y Stolfo [15] hacen una de las primeras sean iguales.
revisiones formales de la problemática de la identidad de los • Q-gramas: esta métrica se basa en el número de
objetos (en ese momento se le dio el nombre de ‘problemática subcadenas de tamaño q que tienen en común dos
de mezcla/depuración’ –merge/purge-), y de la misma manera cadenas.
presentan las primeras estrategias para implementar
mecanismos de detección de duplicados, basadas en C. Detección probabilística de errores
proximidad de registros. La primera, llamada ‘vecinos más
cercanos ordenados’, genera una serie de llaves para cada
Elmagarmid [7] hace una revisión de los primeros trabajos
registro en función de sus datos y los ordena usando como
relacionados con las aproximaciones estadísticas a la detección
criterio dicha llave, luego, aplica reglas lógicas
de duplicados y el emparejamiento de registros, los cuales
secuencialmente a un subconjunto de w registros contiguos
datan de los años cincuenta y sesenta. Los métodos propuestos
3 se basan en la idea de usar las propiedades estadísticas de las
El Flujo de trabajo es el estudio de los aspectos operacionales de una
actividad de trabajo: cómo se estructuran las tareas, cómo se realizan, cuál es variables comunes (para el caso de emparejamiento de
su orden correlativo, cómo se sincronizan, cómo fluye la información que registros) de un par de registros para calcular la probabilidad
soporta las tareas y cómo se le hace seguimiento al cumplimiento de las tareas de que éstos hagan referencia a la misma entidad. Con este
(Wikipedia: The Free Encyclopedia. 28 Jul. 2007).
5

enfoque se calculan probabilidades con un conjunto de tuplas • Identificación de registros duplicados: las premisas
de registros previamente marcadas (como coincidentes y no son operaciones de proximidad entre campos.. En el
coincidentes), donde se penalizan aquellos atributos más caso de Intelliclean, propuesto por Lee y otros ([19],
influyentes en la indentidad de dicho registro (un número de [20]), se plantea un proceso completo de detección y
teléfono se penaliza menos que los nombres). corrección de datos asistido por un sistema experto,
donde las reglas no se limitan a ser relaciones entre
Con las probabilidades calculadas, un sistema podría – dado los atributos de los registros, sino que representan
un umbral de decisión- identificar automáticamente probables operaciones sobre los mismos. Por ejemplo, el
registros duplicados. Dado que este modelo se basa en la sistema permite definir en forma de reglas qué
evaluación de probabilidades de emparejamiento campo a registro se deja como correcto y cual se descarta en el
campo entre dos registros de forma independiente, puede caso de identificar un par de duplicados.
considerarse equivalente al cálculo Bayesiano de
probablidades naive. Shahri [12] propone un modelo similar a intelliclean, un
proceso completo asistido por un sistema experto pero
Andritsos y otros [1] más recientemente proponen una dedicado exclusivamente a la detección de duplicados, a partir
aplicación alternativa de la teoría de probabilidades al de reglas de inferencia, un proceso previo de clustering por
problema del datacleansing. Esta propuesta se enfoca en el similaridad entre registros, y lo más importante, un motor de
contexto de un proceso de integración de fuentes de datos inferencia basado en lógica difusa, de tal manera que no se
donde la unificación de duplicados es inviable (por riesgosa, y manejan valores de verdad absolutos, sino grados relativos de
por no tener conocimiento suficiente para determinar certeza.
realmente cual registro eliminar), y se basa en la idea de
enriquecer –automáticamente- los resultados de las consultas
E. Detección soportada por modelos de aprendizaje
sobre fuentes de datos consolidadas con información
supervisado y no supervisado
probabilística para cada registro resultante, el cual indica qué
tan probable es que corresponda a la base de datos ‘limpia’.
Las primeras aproximaciones a problemas como la
identificación de registros duplicados o la detección de errores
en datos estructurados se apoyaban sobre la base de un
D. Detección soportada por sistemas basados en conocimiento preciso de reglas del dominio, o en métricas de
conocimiento distancias genéricas para datos de cualquier dominio. Una
propuesta más reciente es el uso de clasificadores que no
En dominios de información donde se cuente con expertos que requieren de un conocimiento previo del dominio, sino que son
puedan definir formalmente reglas sobre la validez de los capaces de extraer las reglas del mismo, es decir, que son
datos y las relaciones entre sus atributos, una aproximación a capaces de aprender el cómo hacer las clasificaciones. Existen
un sistema que detecte y corrija automáticamente errores está dos modelos de clasificadores basados en aprendizaje de
en los sistemas basados en conocimiento. Los sistemas máquina: los supervisados y los no supervisados. Dentro de la
basados en conocimiento, o sistemas expertos, son sistemas categoría de aprendizaje supervisado, que es aquel que
alimentados con reglas de inferencia (dadas por los expertos), requiere de un conjunto de entrenamiento bien diseñado para
las cuales, permiten llegar a una conclusión dada cierta ajustar sus parámetros antes hacer predicciones o
evidencia, o en sentido contrario, llegar a una serie de causales clasificaciones se tiene el trabajo de Elfeky [6], propone su uso
dada una conclusión. En el contexto de un sistema para la en un modelo de inducción de identificación de registros
detección y corrección automática de datos las reglas de duplicados, donde la información de entrenamiento de dicho
inferencia pueden usarse con diferentes enfoques para clasificador son tuplas, compuestas por un vector de elementos
diferentes problemáticas relacionadas con el datacleansing: a comparar y un estado de similitud o matching entre éstos, de
tal forma que el clasificador aprenderá la función de similitud
• Detección de errores dentro del dominio de los datos: a partir de los datos de entrenamiento. Elmagarmid y otros [7]
las premisas de las reglas son los valores de cada uno revisan una estrategia de aplicación del aprendizaje
de los atributos de los datos, y la conclusión final será supervisado, en particular los árboles de decisión para
si el registro o el campo es válido o no. Este es el identificar ambigüedades, entrenando varios clasificadores con
caso del trabajo propuesto por Bruni y Sassano [3], un conjunto de parámetros ligeramente diferentes entre sí.
donde adicionalmente se propone la utilización de las
mismas reglas de inferencia como mecanismo de Otra aplicación de las técnicas de aprendizaje supervisado se
corrección automática, a través de la búsqueda de ha dado en la detección de inconsistencias de datos no
nuevos valores para los atributos de los registros de estructurados y difíciles de validar por el gran número de
tal forma que satisfagan las reglas fallidas en el variantes resultantes del uso de abreviaciones, notaciones y
proceso de detección de errores (imputación de orden alterno de sus elementos, como lo son los nombres
valores). propios y las direcciones. En este sentido la técnica de los
modelos ocultos de Markov permite, tras un previo
6

entrenamiento, categorizar los componentes de un dato no serie de propuestas basadas en una de sus estrategias más
estructurado. Cristen y otros [4] y de forma similar Churches y representativas: el clusteringg. Elfeky [6] propone lo que
otros [5], exponen el uso de los HMM4 como una estrategia de denomina un modelo de clustering para el emparejamiento de
unificación de formato de datos no estructurados, para realizar registros, donde dada una función generadora de vectores de
tareas de detección de identidad de registros (eliminación de comparación (una función que genera todas las comparaciones
duplicados o unificación de registros de bases de datos entre todas las tuplas de registros), se hace un agrupamiento de
integradas). La estrategia propuesta inicia con la los vectores de comparación en tres clusters, los cuales, dadas
estandarización de valores con tablas de referencia para las características de los vectores de comparación,
conversión de datos a su forma canónica (unificar corresponderán a las categorías de ‘emparejados’, ‘no
abreviaciones, sinónimos, etc.), y con la imputación de datos emparejados’, y probablemente emparejados.
cuando éstos sean inconsistentes o incompletos.
Posteriormente, la cadena a evaluar es convertida en tokens, Mazeika y otros [25] proponen una estrategia de detección y
para ser categorizados de acuerdo con el contexto (por corrección automática de errores en nombres, basado en los
ejemplo si se trabaja con direcciones, las categorías podrían conceptos de clustering y distancia entre cadenas (Q-gramas).
ser calle, carrera, conjunto, barrio, etc). Luego, a través del Sobre la base de que los nombres con errores tendrán una
HMM entrenado, se busca la secuencia de categorías más distancia corta hacia su valor correcto, los algoritmos
probable para la secuencia de características (tokens) dadas planteados se basan en la idea de definir espacios de cluster no
(por ejemplo, para ‘Perez, Gonzales, Andres’, una probable intersecantes entre sí, donde el centro y los límites de los
secuencia de categorías identificada podría ser [APELLIDO1], mismos se ajustan a medida que se evalúan las entradas de
[APELLIDO2], [NOMBRE1]). Finalmente, con la relación nombres, de tal manera que al final éstos tengan como
categoría-token obtenida con este proceso, se puede unificar la centroide la cadena probabilísticamente correcta, y dentro del
estructura de los elementos de todos los datos, para así sus límites las variaciones correspondientes a variaciones
simplificar el proceso de determinación de la identidad de los comunes debidas a errores de transcripción. Con este modelo,
registros mencionado anteriormente (para el ejemplo anterior, es posible identificar nombres probablemente incorrectos,
se podría decidir que todos los nombres tengan como viendo su posición dentro del cluster al que clasifique, y
estructura [NOMBRE1], [NOMBRE2], [APELLIDO1], sugerir el valor que pueda ser el correcto, como el centro del
[APELLIDO2]). dicho cluster, correspondiente a la variante más común dentro
de dicho cluster.
Para la aplicación de técnicas de aprendizaje supervisado,
Guyon y otros [10] hacen una propuesta para el problema de la
F. Detección soportada por reglas de asociación
selección de los datos de entrenamiento dentro del conjunto de
datos disponibles, teniendo en cuenta el riesgo de entrenar a un
clasificador con datos que tan solo represente ruido – Una técnica de gran valor para la minería de datos es el de la
clasificaciones incorrectas-. Proponen dos estrategias: en línea identificación de reglas de asociación entre los datos. Esta
y por lotes (batch), ambas con la participación de un ‘experto’ técnica permite a los analistas determinar relaciones entre
humano y usando el concepto de ‘nivel de sorpresa’, determinadas variables de los datos que no son obvias, y que
correspondiente al grado de disimilaridad de un dato respecto permiten implementar o replantear, entre otras, estrategias de
a la mayoría de los demás. mercadeo. Marcus y otros [24] proponen el uso de las reglas
de asociación como solución a la problemática de la detección
Para el proceso en línea, un operador revisa secuencialmente y corrección automática de datos en dominios donde no se
muestras de la base de datos, e indica qué datos son simple cuente con conocimiento a priori de reglas de los datos. Este
ruido, y cuales pueden considerarse correctos. Estos últimos trabajo presenta un algoritmo de identificación de reglas de
van siendo usados para entrenar al clasificador, mientras que asociación (restringido sólo a tuplas de variables), y una
los incorrectos son descartados. La otra alternativa, más estrategia de de la aplicación de éstas para la identificación de
aplicable a la realidad es procesar en batch. En esta estrategia posibles errores.
todos los datos, incluyendo el 'ruido' son incorporados al
clasificador para entrenarlo. Se ordenan los datos por su nivel Liu [21], propone una técnica general para la identificación de
de sorpresa (el cual es obtenido con el mismo clasificador), reglas ordinales de asociación entre valores numéricos,
para que nuevamente, un operador descarte los que definidas como funciones matemáticas, que a diferencia de
correspondan, hasta que los datos restantes tengan a lo sumo trabajos anteriores contempla relaciones de más de dos
cierto nivel de sorpresa. Finalmente, con los datos no variables. Adicionalmente, propone los algoritmos que
descartados, se hace el entrenamiento definitivo del permiten identificar potenciales errores en los registros dadas
clasificador. las reglas de asociación identificadas en la mayoría de éstos
registros.
Dentro de la categoría de aprendizaje no supervisado, que se
caracteriza por no requerir datos de entrenamiento, existe una

4
Hidden Markov Models
7

G. Comparación principales áreas de aplicación de éstas en ambientes de


producción –también reales-. Las más representativas son:
La siguiente tabla consolida los objetivos de cada uno de los
tipos de trabajo presentados anteriormente, junto con sus - Modelos estadísticos: el análisis de los resultados de
principales restricciones o dificultades, que más adelante procesos estadísticos a gran escala, como los censos
podrían verse reflejados en nuevos problemas de poblacionales, pueden verse afectados por las
investigación. pequeñas muestras de los datos con errores inherentes
al proceso (trascripción, veracidad de la fuente, etc).
Tipo de trabajo Principales Principales Dado que los resultados de estos análisis son vitales
objetivos restricciones para la toma de decisiones de gran impacto, y que los
Procesos Procesos de limpieza Complejidad del altos costos del proceso hacen prohibitivo el pensar
declarativos de formales, interactivos y proceso y de su en repetir parte de éste, la limpieza y corrección
limpieza reutilizables abstracción. automática de datos se vuelve la única alternativa
Emparejamiento de Identificar registros que Fuentes heterogéneas, para hacer ajustes sobre la información recolectada,
registros representen una misma información
entidad. Detectar incompleta o con de tal manera que los análisis sobre ésta se aproximen
duplicados y unificar variaciones en uno de más a los resultados que se obtendrían sobre datos
fuentes de datos. los elementos. perfectos. Por ejemplo, Bruni y Sasano [3] presentan
Detección de errores Generar modelos de Requieren datos de un modelo de detección de errores de lógicos e
con aprendizaje predicción de datos entrenamiento e
supervisado estructurados, para información de
imputación automática de valores en los cuestionarios
identificar dominio que puede ser de un censo realizado por el Instituto Estadístico
inconsistencias y unificar de gran volumen (de Nacional Italiano (Istat), donde la aplicación de
formatos para como tiempos de acceso reglas simples como la correlación entre la edad y el
antesala a tareas como la costosos).
detección de duplicados.
estado marital permitieron la detección de
Detección de errores Generar modelos de Su incorporación en un inconsistencias en un número importante de dichos
con aprendizaje no agrupación de registros proceso automatizado cuestionarios.
supervisado para identificar puede ser costosa, pues
variaciones poco se requiere recorrer y
- Modelos biológicos: tal como lo expone Müller ([28],
comunes que evaluar todos los datos
probablemente para generar el modelo. [36]), en campos como la investigación farmacéutica,
correspondan a errores, o el análisis de secuencias genéticas como las de ADN,
identificar duplicados. ARN y proteínas es una actividad costosa y riesgosa
Detección de errores Representar Depende de la para la clasificación estructural y funcional éstas,
soportada con conocimiento de un capacidad de los
sistemas basados en dominio (dado por expertos de identificar cuando se trabaja con datos erróneos (además de
conocimiento expertos) para identificar y expresar otros factores como un conocimiento completo de
inconsistencias entre los adecuadamente reglas dichas secuencias). Dado que el volumen de datos
datos –dadas las de inferencia del manejados en este tipo de investigación normalmente
relaciones entre éstos-, y dominio de los datos.
predecir datos correctos
es muy grande, el método de verificación manual no
(imputación de valores). es factible, de aquí que las técnicas típicamente
Detección de errores Identificar Requiere un proceso utilizadas para la detección de problemas en
soportada por reglas automáticamente costoso para identificar información como nombres y direcciones, buscan ser
de asociación. relaciones entre las las reglas, sobretodo si
extrapoladas a la investigación en biología. Como
variables de una fuente se quieren contemplar
de datos, para identificar varias combinaciones ejemplo, Müller en [36] y en otra serie de trabajos,
probables errores y de variables. No propone una serie de estrategias para la evaluación de
sugerir valores correctos. funcionaría la validez de las anotaciones hechas a cadenas
adecuadamente si no
genéticas y la corrección (reevaluación) automática
se cuenta con un
conjunto de datos de éstas.
suficientemente grande
y representativo. - Sistemas CRM (administración de relaciones con
Figura 3. Revisión de los objetivos y principales clientes): las empresas que manejan grandes números
retos/dificultades de cada una de las áreas de trabajo de clientes conocen el valor de mantener un buen
presentadas. nivel de calidad en la información relacionada con
éstos, ya que de esto depende tener éxito en procesos
como análisis de mercado, inteligencia de negocios, y
IV. APLICACIONES evitar pérdidas de cartera y de buena imagen por
errores en información de contacto. Koudas y otros
En las experiencias documentadas de la aplicación de las [17], como miembros de los laboratorios de
diferentes técnicas relacionadas con la detección y limpieza investigación de AT&T dan un ejemplo de trabajo de
automática de datos con datos reales, se pueden identificar las investigación en técnicas de detección automática de
errores motivada por problemas reales con el manejo
8

de información de clientes (errores en el ingreso de • Las estrategias de limpieza de datos encontradas en


los datos, inexistencia de convenciones estándar, la literatura se enfocan exclusivamente a los modelos
etc.). relacionales. Dado que la web puede ya verse como
una base de datos semiestructurada, y que el XML es
- Sistemas de información organizacionales: en una alternativa cada vez más usada para la
organizaciones donde los procesos relacionados con transmisión de datos estructurados y al la persistencia
el manejo de personal se delega a sistemas de de objetos complejos, es necesario definir
información, sobretodo cuando el tamaño de éste es estrategias, o adaptar las existentes para manejar
considerable, los costos derivados de los errores en procesos de corrección en fuentes de datos diferentes
los datos pueden ser altos en términos a los relacionales.
administrativos, dado que de esta información
dependen operaciones como pagos de nómina, • Para datos con errores identificados pero imposibles
identificación de candidatos a promoción (cambio de de corregir en el momento, la solución de
jerarquía), generación de informes de contratación eliminación no es buena por la pérdida de
legales, entre otros. Un ejemplo de esta aplicación es información –parcialmente correcta- que esto
la problemática abordada por Marcus y Maletic [22] - implica. Se requieren mecanismos que permitan
la base de datos de personal de la armada omitir datos erróneos de registros en procesos y
norteamericana-, donde se registra información como cálculos y a la vez conservar los campos correctos en
fecha de enlistamiento y de ascensos como caso de dichos procesos.
estudio de su técnica de detección de errores basada
en reglas ordinales de asociación entre variables de • Dentro del estado del arte se pueden observar
los registros. De la misma manera, Lee y Liang [19] diversidad de estrategias para la identificación de
presentan como casos de estudio reales bases de datos errores, bien sea a partir de reglas lógicas definidas
empresariales y bases de datos hospitalarias para su por expertos, o por reglas de asociación inferidas por
propuesta de un método de detección de errores procesos. Sin embargo, cuando se trabaja con fuentes
soportada por sistemas basados en conocimiento. de datos heterogéneas, para revisar la coincidencia
de registros muchas veces las comparaciones es
necesario hacerlas no simplemente entre registros de
tablas, sino, como se presenta en [17] entre
V. PERSPECTIVAS DE DESARROLLO DEL AREA resultados de consultas que cruzan varias de éstas
(joins). Por ejemplo, si la fuente de datos A tiene
información de personas que incluye dirección y
A. Problemas por resolver teléfono, y la fuente de datos B tiene información
básica y relación con tablas de teléfonos y de
• Dado que la problemática de limpieza de datos se direcciones, para hacer un proceso de identificación
presenta en cualquier infraestructura de persistencia, de coincidencias de identidad basada en atributos, la
con el fin de contribuir a la creación de herramientas comparación se debe hacer entre los registros de A y
que puedan cada vez más apropiarse de los procesos los resultados de la consulta del cruce de la tabla de
de detección y corrección sin la necesidad de nuevos datos básicos de B y sus tablas de direcciones y
desarrollos para cada caso, es fundamental la teléfonos. Este problema implica dificultades en la
definición de un lenguaje de transformaciones de alto especificación del proceso de datacleansing y más en
nivel, independiente del motor de base de datos o del la corrección automática de errores (por la dificultad
paradigma de persistencia, que permita modelar de identificar los registros relacionados con los
procesos de limpieza y reutilizarlos en contextos resultados de una consulta).
similares. Una de las aproximaciones más relevantes
en este sentido es el trabajo propuesto por Gallardas • Las estrategias para detección automática de errores
[13], AJAX5. Esta propuesta a pesar de contar con basadas en la manipulación de cadenas y la detección
varios años sin reportes de avance y sin una de proximidad entre éstas presentan un grado
trascendencia clara, es un punto de referencia importante de error en dicha medida cuando se
importante para este problema abierto, teniendo en trabaje en dominios donde existen entidades
cuenta sus características pendientes por definir, completamente diferentes, cuyos nombres se
como el del manejo de operadores basados en diferencian, por ejemplo, sólo por pequeños sufijos y
estadística y en aprendizaje de máquina. prefijos. Es importante a los procesos de detección
de errores incorporar el manejo eficiente de
antónimos, tal como se presenta en [17].

• Los procesos de datacleansing son por lo general


5
No confundir el modelo de actualización de contenidos asincrónica costosos en tiempo, y dado que éstos no previenen la
basado en JavaScript.
9

aparición de nuevos errores por la manipulación de corrección automatizados, interactivos, seguros y reutilizables
las fuentes de datos involucradas, muchas veces es son un tema de investigación importante, dada su influencia
necesario repetir el proceso periódicamente. Es sobre la viabilidad de la aplicación de las técnicas y sobre la
necesario contar con alguna estrategia para la vulnerabilidad del elemento más preciado por muchas
limpieza incremental de datos, que no requiera organizaciones: la información.
incurrir en el costo de repetir todo el proceso, sino
sólo los datos nuevos o los alterados después de su REFERENCIAS
limpieza.
[1] Andritsos, P.; Fuxman, A. & Miller, R. J. (2006), 'Clean Answers
• Tal como se expone en [11], en la práctica muchas over Dirty Databases: A Probabilistic Approach.', icde 0, 30.
organizaciones cuentan con una diversidad de [2] Benedikt, M.; Bohannon, P. & Bruns, G. (2006),Data Cleaning for
Decision Support., in 'Proceedings CleanDB 2006: Seoul, Korea'.
fuentes de datos no unificadas, debido a la utilización [3] Bruni, R. & Sassano, A. (2001),Errors Detection and Correction in
simultánea de diferentes sistemas de información. En Large Scale Data Collecting, in F. Hoffmann; D. J. Hand; N.
estos casos, donde la unificación de fuentes de datos Adams; D. Fisher & G. Guimaraes, ed.,'Advances in Intelligent
previa a la detección de errores no es factible, se Data Analysis, 4th International Conference, IDA 2001, Cascais,
Portugal, September 13--15, 2001, Proceedings', Springer Verlag, ,
necesitan mecanismos para replicar correctamente las pp. 84--94.
correcciones en todas las fuentes tiene datos de la [4] Christen, P.; Churches, T. & Zhu, J. (2002), 'Probabilistic Name
organización, y así mantener la consistencia en este and Address Cleaning and Standardisation', Proceedings of the
modelo de datos redundante. Australasian Data Mining Workshop, Canberra, Dec. 2002. 12.
[5] Churches, T.; Christen, P.; Lim, K. & Zhu, J. (2002), 'Preparation of
name and address data for record linkage using hidden Markov
• En ciertos sistemas de información, en especial los models', BMC Medical Informatics and Decision Making 2(1), 9.
de alta concurrencia y alta transaccionalidad, la [6] Elfeky, V. E. A. (2002), 'TAILOR: a record linkage toolbox', Data
información es registrada y actualizada con una Engineering, 2002. Proceedings. 18th International Conference
on, Vol., Iss., 2002, 17-28.
frecuencia muy alta. Un proceso de corrección
[7] Elmagarmid, P. V. V. (2007), 'Duplicate Record Detection: A
automática de errores en este tipo de ambientes Survey', Knowledge and Data Engineering, IEEE Transactions on,
presentan una serie de riesgos, bien sea haciendo Vol.19, Iss.1, Jan. 2007, 1-16.
correcciones aisladas sobre una copia de los datos, o [8] Galhardas, H.; Florescu, D.; Shasha, D.; Simon, E. & Saita, C.
haciendo correcciones sobre los datos en producción. (2001),Declarative Data Cleaning: Language, Model, and
Algorithms, in 'VLDB '01: Proceedings of the 27th International
En el primer caso, se tiene el problema de aplicar Conference on Very Large Data Bases', Morgan Kaufmann
consistentemente las correcciones hechas a la copia Publishers Inc., San Francisco, CA, USA, pp. 371--380.
de los datos sobre los datos en producción, teniendo [9] Gu, L.; Baxter, R.; Vickers, D. & Rainsford, C. (2003 ),'Record
en cuenta todos los cambios que pudieron haber linkage: Current practice and future directions.', CSIRO - 03/83
(03/83), Technical report, CSIRO, the Commonwealth Scientific
sufrido los datos reales en el transcurso de dicha and Industrial Research Organisation, Australia.
corrección. En el segundo caso, se tiene el problema [10] Guyon, I.; Matic, N. & Vapnik, V. (1996), Discovering Informative
de crear inconsistencias con las correcciones, por Patterns and Data Cleaning.
ejemplo, al corregir un dato que está en mitad de una [11] H. Müller, J. F. (2003), 'Problems, Methods and Challenges in
Comprehensive Data Cleansing', Technical Report HUB-IB-164
transacción. Para ambos casos se tiene el problema Humboldt-Universität zu Berlin, Institut für Informatik, 2003..
de poder definir, dentro de este ambiente altamente [12] Hamid Haidarian Shahri, A. B. (2002), 'A Flexible Fuzzy Expert
dinámico, un proceso convergente hacia un número System for Fuzzy Duplicate Elimination in Data Cleaning', Lecture
máximo de errores. Notes in Computer Science, Vol. 3180, 161-170.
[13] Helena Galhardas, D. S. E. S. (2000), 'Declaratively Cleaning your
Data with AJAX', BDA 2000.
[14] Helena Galhardas, D. S. E. S. & Saita, C. (2001),'Declarative Data
VI. CONCLUSIONES Cleaning: Model, Language and Algorithms. -INRIA Technical
Report RR-4149', INRIA Technical Report RR-4149, 2001 ,
De la revisión del estado del arte hecha en este artículo se Technical report, l'Institut National de Recherche en Informatique
puede concluir que a diferencia de otro tipo de problemáticas et en Automatique.
abordadas desde la computación, la de la detección y [15] Hernandez, M. A. & Stolfo, S. J. (1995),The Merge/Purge Problem
for Large Databases, in 'SIGMOD Conference', pp. 127-138.
corrección automática de errores en datos aún no cuenta con
[16] Hsiung, P. (2005),Alias Detection in Link Data Sets, in 'Proceedings
una estrategia de solución general de-facto disponible para las of the International Conference on Intelligence Analysis'.
organizaciones. Además, debido la complejidad y al gran [17] Koudas, N.; Marathe, A. & Srivastava, D. (2004),Flexible string
número de factores incidentes en este tipo de procesos, muchas matching against large databases in practice, in 'Proceedings of
de estas organizaciones optan por desarrollar sus propias VLDB (12), 2004'.
[18] Kubica, J. & Moore, A. (2003), 'Probabilistic Noise Identification
soluciones a la medida. and Data Cleaning', The Third IEEE International Conference on
Data Mining, 131--138.
Las estrategias emergentes para el datacleansing van de la [19] Lee, M. L.; Ling, T. W. & Low, W. L. (2000),IntelliClean: a
mano de los avances en la investigación de áreas como la knowledge-based intelligent data cleaner, in 'KDD '00: Proceedings
of the sixth ACM SIGKDD international conference on Knowledge
estadística, el aprendizaje de máquina, sistemas expertos, y en discovery and data mining', ACM Press, New York, NY, USA, pp.
este sentido, hay mucho trabajo por desarrollar. De igual 290--294.
manera, elementos como los procesos de detección y [20] Lee, W. (2005), 'Improving data quality: eliminating dupes & I-D-
10

ing those spurious links', Potentials, IEEEPublication Date: April-


May 2005, 35 - 38.
[21] Liu, Y. L. D. (2005), 'Mining attributes' sequential patterns for error
identification in data set', Machine Learning and Cybernetics,
2005. Proceedings of 2005 International Conference on, 1931 -
1936 Vol. 3.
[22] Maletic, J. I. & Marcus, A. (2000),Data cleansing: Beyond integrity
analysis, in 'Proceedings of the Conference on Information Quality',
pp. 200--209.
[23] Maletic, J. I. & Marcus, A. (1999),'Progress Report on Automated
Data Cleansing - Technical Report CS-99-02', The University of
Memphis- Technical Report CS-99-02 , Technical report, The
Department of Mathematical Sciences Division of Computer
ScienceThe University of Memphis.
[24] Marcus, A.; Maletic, J. I. & Lin, K. (2001),Ordinal Association
Rules for Error Identification in Data Sets, in 'CIKM '01:
Proceedings of the tenth international conference on Information
and knowledge management', pp. 589-591.
[25] Mazeika, A. & Bцhlen, M. H. (2006), 'Cleansing Databases of
Misspelled Proper Nouns.', CleanDB Workshop, 64-70.
[26] Monge, A. E. (2000),'An Adaptive and Efficient Algorithm for
Detecting Approximately Duplicate Database Records - Technical
Report 90840-8302', California State Univ.-Technical Report
90840-8302 , Technical report, California State Univ., Long
Beach, CECS Department.
[27] Monge, A. E. & Elkan, C. (1996),The Field Matching Problem:
Algorithms and Applications, in 'Knowledge Discovery and Data
Mining', pp. 267-270.
[28] Müller, H. (2003),Semantic Data Cleansing in Genome Databases,
in 'Proc. of the VLDB 2003 PhD Workshop, Berlin, Germany'.
[29] Navarro, G. (2001), 'A guided tour to approximate string matching',
ACM Comput. Surv. 33(1), 31--88.
[30] Rahm, H. (2000), 'Data Cleaning: Problems and Current
Approaches', IEEE Bulletin of the Technical Committee on Data
Engineering, Vol 23 No. 4, December 2000.
[31] Raman, V. & Hellerstein, J. M. (2001), 'Potter's Wheel: An
Interactive Data Cleaning System', Proc. VLDB 2001, Rome, Italy..
[32] Teng, C. (2004), 'Polishing Blemishes: Issues in Data Correction.',
IEEE Intelligent Systems 19(2), 34-39.
[33] Vassiliadis, P.; Vagena, Z.; Skiadopoulos, S. & Karayannidis, N.
(2000), 'ARKTOS: A Tool For Data Cleaning and Transformation
in Data Warehouse Environments.', IEEE Data Eng. Bull. 23(4),
42-47.
[34] Winkler, W. (2001),Quality of Very Large Databases, in 'Quality in
Official Statistics 2001, CD-ROM'.
[35] Xiong, H.; Pandey, G.; Steinbach, M. & Kumar, V. (2006),
'Enhancing Data Analysis with Noise Removal', IEEE
Transactions on Knowledge and Data Engineering, 304-319.
[36] Müller, H. (2003),Semantic Data Cleansing in Genome Databases,
in 'Proc. of the VLDB 2003 PhD Workshop, Berlin, Germany'.

View publication stats

También podría gustarte