Está en la página 1de 17

Calidad de Datos

Daniel E. Busso, Matias Torcivia, Valeria Ortiz Quiroz


Maestra en Ingenieria de Sistemas de Informacin, Universidad Tecnolgica Nacional Facultad Regional Crdoba, Maestro Marcelo Lpez s/n esq. Cruz Roja Argentina (5000), Crdoba, Argentina {debusso, mtorcivia}@gmail.com, valeoq@yahoo.com.ar

Resumen. Lograr una calidad de datos eficaz es fundamental, cuando se trata de construir y sostener un negocio de xito, ya que los datos son la clave para numerosas decisiones de las compaas. Para que las decisiones sean objetivas no basta que se tomen basadas en los datos, sino que adems, estos deben tener la calidad adecuada, lo que significa que sean adecuados al uso que se les pretende dar. Una pobre calidad de datos redunda en una ineficiente administracin de los recursos humanos, financieros y materiales de una compaa, va en contra de la creacin de valor y de la eficiencia operacional, incrementa los costos, e impacta en los niveles de servicio. El presente trabajo presenta una definicin sobre qu se entiende por calidad de datos, su carcter multidimensional, el nuevo estndar ISO/IEC 25012 para luego presentar las problemticas ms comunes en las organizaciones sobre la no calidad de datos y justificar el uso de marcos formales de medicin y evaluacin de la misma. A continuacin, presentamos las tcnicas de Data Profiling y Data Cleaning y algunas herramientas automatizadas open source. Finalmente brindamos las conclusiones del presente trabajo. Palabras Clave: Calidad, Medicin, Mtrica, Evaluacin, C-INCAMI framework, Mtodo, SIQinU.

1 Introduccin
La calidad de los datos y el error en los datos a menudo son ignorados en las organizaciones y en el desarrollo, uso y mantenimiento de sus sistemas de informacin. Con demasiada frecuencia los datos se utilizan sin sentido crtico, sin consideracin de los errores que contienen, y esto puede conducir a resultados errneos, informacin engaosa y decisiones desacertadas que redundan en prdida de calidad de productos y/o servicios, aumento en los costos e insatisfaccin tanto en las organizaciones como en los clientes. Los datos son de alta calidad si son aptos para su uso en operaciones, la toma de decisiones y la planificacin [1]. Un primer paso para lograr esto es reconocer cules son los errores que llevan a la no calidad de datos y sus consecuencias asociadas. Si se toma conciencia de los mismos, se podr implementar una gestin de calidad de datos adecuada. Para conocer cmo est posicionada mi organizacin en este aspecto ser necesario implementar alguna estrategia de evaluacin de calidad de datos, solo as con un diagnstico claro se podrn tomar acciones necesarias para alcanzar la calidad deseada. El resto de este trabajo se organiza de la siguiente manera. La seccin 2 presenta algunas de las definiciones aceptadas universalmente sobre qu se entiende por calidad de datos, haciendo hincapi en las dimensiones de la calidad de datos presentadas en la ISO/IEC 25012 [2]. En la seccin 3 se presentan las problemticas ms comunes en las organizaciones que degradan la calidad de los datos. En la seccin 4 se esbozan las estrategias de gestin de la calidad de datos haciendo incapie en SIQinU [3] como gua, para la gerencia de sistemas, para evaluar y mejorar la calidad de datos. En la seccin 5 describimos Data Profiling y Data Cleaning las tcnicas de evaluacin y correccin de los datos respectivamente. Por ltimo, las conclusiones de este trabajo.

2 Calidad de datos (Data Quality DQ)


A continuacin presentamos definiciones de calidad y el nuevo estndar ISO/IEC 25012.

2.1 Calidad de datos. Conceptos fundamentales. Existen una gran cantidad de definiciones en lo que respecta al trmino de Calidad de Datos, a continuacin se detallan algunas de ellas: 1. 2. 3. Calidad de datos se refiere al grado de excelencia mostrada por los datos en relacin a la representacin de la situacin real [4]. El estado de integridad, validez, consistencia, puntualidad y exactitud que hace los datos apropiados para un uso especfico[4] La totalidad de rasgos y caractersticas de los datos que lleva en su capacidad para satisfacer un propsito determinado, la suma de los grados de excelencia para los factores relacionados con los datos.[4] Los procesos y las tecnologas para asegurar la conformidad de los valores de los datos a los requerimientos del negocio y los criterios de aceptacin[4]

4.

La definicin ms aceptada para el trmino Calidad de Datos es adecuacin al uso (fitness for use) [5], esto significa que el usuario percibe la calidad de un conjunto de datos usados para una determinada tarea realizada en un contexto especifico, segn un conjunto de criterios o dimensiones de calidad de datos, determinando de esta manera si dichos datos pueden ser utilizados para ese propsito. Esta definicin tiene dos implicaciones importantes: percepcin multidimensional de la calidad y dependencia del contexto. En la concepcin de calidad se encuentra incluida no solo la percepcin de cero defectos para los datos, sino que adems que los usuarios encuentren un valor aadido a la hora de trabajar con ellos.

2.2 Dimensiones de Calidad de Datos segn el estndar ISO/IEC 25012 Respecto del carcter multidimensional de la calidad, existen diversas estrategias para abordar el estudio de la Calidad de Datos para un contexto especfico, una de ellas consta en dividirla en sub-calidades, conocidas como dimensiones de calidad de datos. Muchos autores han propuesto sus propios modelos de calidad para sus propios problemas, si bien, no existe un modelo universal de calidad de datos, el propuesto por el estndar ISO/IEC 25012 [2] complementario del ISO 25010 supone una buena aproximacin para que los usuarios pueda aplicarlos en sus propias organizaciones. La tabla 1 muestra cmo el estndar categoriza las dimensiones de calidad de datos en 15 caractersticas o dimensiones consideradas desde dos puntos de vista.

Inherente al dato: la calidad de datos inherente se refiere al grado en el cual las caractersticas de calidad del dato tienen el potencial intrnseco para satisfacer las necesidades implicadas cuando el dato es usado bajo condiciones especficas. Dependiente del sistema: se refiere al grado en el cual la calidad del dato es enriquecida y preservada dentro de un sistema de cmputo cuando el dato es usado bajo condiciones especficas.

Tabla 1. Dimensiones de Calidad de Datos segn el estndar ISO/IEC 25012 DESCRIPCIN INHERENTES AL DATO Exactitud El grado en el cual el dato tiene atributos que correctamente representan el valor correcto del atributo intencionado de un concepto o evento en un contexto especfico de empleo. Completitud El grado al cual el dato del sujeto asociado con una entidad tiene valores para todos los atributos esperados e instancias de entidad relacionadas en un contexto especfico de uso. Consistencia El grado en el cual el dato tiene los atributos que son libres de contradiccin y son coherentes con otros datos en un contexto especfico de uso. Credibilidad El grado en el cual el dato tiene atributos que son considerados como verdaderos y crebles por usuarios en un contexto especfico de uso. Actualidad El grado en el cual el dato tiene los atributos que son del perodo correcto en un contexto especfico de uso. INHERENTES AL DATO Y DEPENDIENTES DEL SISTEMA Accesibilidad El grado en el cual se puede accesar al dato en un contexto especfico de uso, en particular por la gente que necesita el soporte de tecnologa o una configuracin especial debido a alguna inhabilidad (incapacidad). Conformidad El grado en el cual el dato tiene atributos que se adhieren a normas, convenciones o regulaciones vigentes y reglas similares relacionadas con la calidad de datos en un contexto especfico de uso. Confidencialidad El grado en el cual el dato tiene los atributos que aseguran que ste es slo accesible e interpretable por usuarios autorizados en un contexto especfico de uso. Eficiencia El grado en el cual el dato tiene los atributos que pueden ser procesados y proporciona los niveles esperados de funcionamiento (desempeo) usando las cantidades y los tipos de DIMENSIN

Precisin Trazabilidad

Entendibilidad o Comprensibilidad

Disponibilidad

Portabilidad

Recuperabilidad

recursos apropiados en un contexto especfico de uso. El grado en el cual el dato tiene atributos que son exactos o que proporcionan la discriminacin en un contexto especfico de uso. El grado en el cual el dato tiene atributos que proporcionan un rastro de auditora de acceso a los datos y de cualquier cambio hecho a los datos en un contexto especfico de uso. El grado en el cual el dato tiene atributos que le permiten ser ledo e interpretado por usuarios, y es expresado en lenguajes apropiados, smbolos y unidades en un contexto especfico de uso. DEPENDIENTES DEL SISTEMA El grado en el cual el dato tiene atributos que le permiten ser recuperados por usuarios autorizados y/o aplicaciones en un contexto especfico de uso. El grado en el cual el dato tiene los atributos que le permiten ser instalado, substituido o movido de un sistema a otro conservando la calidad existente en un contexto especfico de uso. El grado en el cual el dato tiene atributos que le permiten mantener y conservar un nivel especificado de operaciones y calidad, an en caso de falla, en un contexto especfico de uso.

3 Principales problemticas de la no calidad de datos


Hoy en da los datos son uno de los principales activos de las organizaciones, sin embargo su administracin no se lleva a cabo con el mismo rigor que con otros activos. An no hay una gran conciencia en las gerencias sobre la importancia del tema y su impacto real en las organizaciones. Mantener calidad en los datos requiere de planeacin, esfuerzo y costo [6]. El ciclo de vida de los datos es mucho mayor que el del software y durante el mismo estn sometidos a procesos de actualizacin y modificacin. Estos procesos son propensos de introducir error en los datos. Ya sea por fallas humanas o tecnolgicas, es necesario depurar estos errores reduciendo los efectos negativos que pudieran producir en los clientes y en las operaciones. En los sistemas transaccionales, un valor errado tiene muy poco, o no tiene, impacto. Pero esos valores errados se propagan a los sistemas de soporte de decisiones y su efecto es mucho mayor. El efecto acumulativo de muchos valores errados en el mismo atributo puede causar resultados indeseados.

3.1 Principales procesos que afectan la calidad de datos. El problema de calidad de datos es universal y resulta de la naturaleza cambiante de los procesos de informacin. Por lo general la baja calidad obedece a errores en la ejecucin de los procesos asociados con el manejo de informacin en la organizacin. La figura 1 muestra un esquema de los procesos en que existe riesgo de daar la calidad de las bases de datos. De todos los procesos mostrados los que ms afectan los datos a saber son los nuevos usos o nuevas aplicaciones, la replicacin (o duplicacin) y la integracin de datos. Los procesos internos son los procesos que forman parte del sistema transaccional, automatizados o ejecutados manualmente con alguna frecuencia. Normalmente son procesos verificados y validados pero que no estn exentos de poder agregar un defecto a los datos.

Fig. 1. Procesos que afectan la calidad de datos. Los procesos externos a tener en cuenta son la migracin de datos, consolidacin de sistemas, entrada manual de datos, alimentacin por lotes e interfaces en tiempo real. Migraciones. Cuando se realiza una migracin de los datos de un sistema, legado o antiguo, a un nuevo sistema, el proceso requiere establecer la correspondencia entre la estructura original y la nueva estructura. En teora, el problema es trivial pero en la prctica presenta muchas dificultades debido a metadata incompleta, condiciones especficas incorporadas en el cdigo del programa (hardcodeado), valores faltantes o nulos, las reglas de negocios del sistema nuevo seguramente son diferentes a las del sistema antiguo y con frecuencia hay duplicacin de datos. Consolidaciones. Las consolidaciones son parecidas a las migraciones, pero de mucha mayor complejidad. Usualmente los datos de la fuente se trasladan a una base de datos que ya contiene informacin, lo cual genera toda clase de conflictos de datos (duplicados, series de tiempo, etc.). Cuando ocurren, son una de las principales causas de problemas de calidad de datos. Entrada manual. Una cantidad significativa de los datos de una organizacin entra a la Base de datos en forma manual, por formularios o interfaces. Algunas de las principales causas de error son la captura errada del valor, formularios e interfaces Web con fallas en el diseo que inducen a registrar errores, valores faltantes, valores por defecto (default) y falta de instrucciones adecuadas (metadata). Cargas por lotes. Los procesos batch se utilizan regularmente para intercambiar (o cargar) datos entre sistemas. Mucha informacin entra a las bases de datos de la organizacin de esta manera. Estos procesos generan la mayor cantidad de problemas de calidad de datos debido a que sufren frecuentes cambios estructurales,

actualizaciones y mejoras, usualmente no se someten a pruebas regresivas (regression testing) y aseguramiento de calidad (QA) porque no hay tiempo suficiente y por la dificultad de hacerlo. Los procesos batch propagan los errores por mltiples bases de datos (ms o menos como un virus). Interfaces en tiempo real. En la actualidad los sistemas intercambian muchos datos con interfaces en tiempo real. Esto permite tener la informacin sincronizada y es de alto valor para la organizacin pero no da tiempo para verificar que los datos sean correctos. En tiempo real, la transaccin (o el dato) se acepta o se rechaza. Adems, no es fcil determinar si el dato recibido es correcto porque usualmente se intercambian bloques pequeos de datos, fuera de contexto y sin suficiente informacin para detectar errores. El potencial para generar errores es mayor que en los procesos batch. Un ejemplo es la gestin de stock en tiempo real entre empresas y proveedores que utilizan webservices. Algunos de los procesos que colaboran en la degradacin o deterioro natural de los datos con el tiempo son los nuevos usos, replicacin, la integracin y la prdida de saber (know how). Nuevos Usos. La calidad de los datos hace referencia no slo a los datos en s, sino tambin al uso de los mismos. Nuevos o diferentes usos de los datos degradarn seguramente la calidad de la base de datos, pudiendo producirse que los datos se acomoden a un diseo inadecuado, la metadata no refleje la realidad del contenido de la base de datos y ocurran acoplamientos y replicacin de datos. Salvo que se trate de una base de datos muy sencilla, es sumamente difcil anticipar los usos futuros de los datos al construir una base de datos. Los sistemas de informacin de una organizacin evolucionan y cambian continuamente. Estos cambios provienen de las necesidades del negocio en cuanto al uso de la informacin. Replicacin o duplicacin. Para satisfacer las nuevas necesidades de uso de datos, es comn en las organizaciones la tendencia a replicar los datos. La replicacin es un conjunto de tecnologas destinadas a la copia y distribucin de datos desde una base de datos a otra, para luego sincronizar ambas bases de datos y mantener su coherencia. La replicacin permite distribuir datos entre diferentes ubicaciones y entre usuarios remotos o mviles mediante redes locales y de rea extensa, conexiones inalmbricas e Internet. Los datos replicados son comnmente fuente de error. Integracin. Es comn que las empresas necesiten utilizar distintas aplicaciones informticas para poder apoyar todos sus procesos de negocios. Por ejemplo se necesita que la aplicacin financiera disponga de informacin de compras o logstica, o que la aplicacin comercial pueda ver cuando se emite una factura desde el ERP, etc. Estas aplicaciones necesitan compartir datos, es entonces cuando se desarrollan procesos de intercambio de datos entre ellas, lo que se conoce como interfaces de integracin o procesos de ETL.

Prdida de saber (expertise, knowhow). Muchos detalles importantes sobre el significado de los datos, particularmente en aplicaciones legadas, no estn documentados y slo los conocen una pocas personas. (fallas en la metadata). Ausencia temporal o permanente de los expertos en los datos conduce al uso inapropiado y afecta la calidad de los datos. Las causas de problemas de calidad de datos son muy variadas y continuas. Las de mayor impacto son las consolidaciones y migraciones, pero las entradas manuales, las interfaces y la prdida de saber actan continuamente.

3.2 Las 10 causas ms frecuentes de la no calidad de datos La empresa Sigma, dedicada a la gestin de calidad de datos en las organizaciones, realizo un estudio sistemtico entre sus principales clientes sobre el origen y causas de la prdida de calidad de datos obteniendo como resultado el indicado en la figura 2 [8]. Los resultados obtenidos de este estudio corroboran lo descripto en la seccin anterior, clasificando los principales procesos que afectan la calidad de datos. Se demostr que la primera causa de problemas crticos proviene de procesos externos tales como interfaces en tiempo real y no, como se supona, por errores en las entradas manuales internas. La suma de todas las causas es el 42 % de registros con al menos un error critico, significa que una empresa con 100000 clientes, 42000 registros tienen al menos un error de datos. De todas formas, sin tener en cuenta las dos principales causas, la sumatoria del resto da un total del 22 % lo que significa que 22000 registros tendr error debido a actualizaciones en bases de datos, carga inicial de datos, integracin de sistemas, cambios de domicilio, cargas batch, fallecimientos, cambios de cdigo postal y perdidas accidentales. Esta identificacin y evaluacin de los factores que degradan la calidad de datos nos orienta como elaborar el plan estratgico de calidad. Este relevamiento sirve para hacer tomar consciencia en la alta direccin y lograr apoyo en la gestin.

Fig. 2. Principales causas de prdida de la calidad de los datos.

4 Algunas estrategias de medicin y evaluacin de datos.


En ltimos aos, hemos sido testigos de una gran cantidad de literatura sobre calidad de procesos y calidad de producto. La ISO/IEC ha trabajado en un nuevo proyecto llamado SQuaRE (Software product Quality Requirements and Evaluation) que propone armonizar e intepretar muchos estndares ISO relacionados a calidad de modelos, procesos de medicin y evaluacin (M&E), etc. Aunque la norma ISO 25000 cuenta con directrices para el uso de la nueva serie de estndares, los documentos cuyo objetivo es especificar los procesos de medicin y evaluacin no se emitieron todava. Hasta el momento, no hemos observado un nico estndar ISO que especifica de manera integral el proceso de M&E y el enfoque como un todo. [3] Sabemos que la calidad del producto est fuertemente determinada por la calidad del proceso usado para desarrollarlo y mantenerlo y si pensamos en los datos como producto o resultado de procesos en las organizaciones, es digno de mencin CMMI (Capability Maturity Model Integration) [7] que es un estndar de facto para incrementar progresivamente la calidad de los procesos en las organizaciones. Si bien CMMI, define las practicas genricas y especificas para los procesos de M&E no queda claro el cmo (algo que deja librado a cada organizacin), adems de carecer de una slida base conceptual de sus trminos. [3] La estrategia SIQinU (Strategy for understanding and Improving Quality in Use)[3] , es una estrategia genrica de usos mltiples previamente desarrollada para la medicin, evaluacin y mejoramiento de la Calidad en Uso QinU pero que puede adaptarse a la calidad de datos en uso DQinU. Aqu lo importante es remarcar que las organizaciones deben aplicar una estrategia deliverada para los procesos M&E, que no solo es aplicar unas cuantas herramientas sueltas, sin conexin con los planes de negocio de la empresa. Por lo tanto, la calidad de datos debe formar parte de la estrategia general de calidad de las organizaciones. SIQinU es una estrategia integrada de M&E que sigue un enfoque orientado a las metas y sensible al contexto en la definicin de proyectos. Permite la definicin de proyectos de M&E que incluye descripciones del contexto bien especificadas, proporcionando adems robustas interpretaciones de evaluacin entre los resultados de diferentes proyectos dentro de una organizacin. [3] SIQinU se basa en tres pilares: un marco conceptual (con base ontolgica), un proceso de medicin y evaluacin, y los mtodos y herramientas. El marco conceptual es una abstraccin, un modelo de clases que permite ser instanciado por cada organizacin en funcin de los objetivos particulares del negocio, contexto, requerimientos no funcionales y estndar ISO elegido. El proceso identifica claramente las actividades necesarias a llevar a cabo para lograr implementar la estrategia de medicin. Finalmente las herramientas y tcnicas aplicadas para obtener las mtricas (directas e indirectas) e indicadores.. En el siguiente apartado explicamos las tcnicas para evaluar y corregir los datos.

Tcnicas de evaluacin y correccin de datos.

Por tcnicas de evaluacin, nos referimos al anlisis y verificacin de los datos, necesarias para generar las mtricas previamente diseadas en el marco conceptual. En la seccin 5.1 explicamos las tcnicas de evaluacin, profundizando en el Data Profiling. Sabemos que todo proceso de M&E tiene como finalidad disear e implementar las mediciones y evaluaciones. La evaluacin ser indicativa de la necesidad de tomar acciones correctivas para llevar nuestra organizacin hacia la calidad de datos deseada. Para tomar acciones correctivas aplicamos tcnicas de correccin de datos y en la seccin 5.2 nos referimos a la tcnica de correccin Data Cleaning.

5.1 Tcnicas de evaluacin de datos. Verificacin manual. Consiste en revisar manualmente, en la fuente original de la informacin, verificando todos y cada uno de los valores. Es la nica manera de determinar qu valores son correctos y cuales incorrectos. Slo la verificacin manual puede, en teora, localizar la totalidad de los errores. Tiene como desventajas que el proceso manual es susceptible de error, no garantiza la deteccin total y es muy lerdo y costoso. Para la mayora de los casos no es prctico y no es posible aplicarlo. Una alternativa es hacer verificacin selectiva para mejorar la confiabilidad de la calidad de los datos. Tcnicas analticas. Utilizan software y la habilidad del analista de calidad de datos para detectar los datos inexactos. Las tcnicas analticas se pueden aplicar peridicamente a bases de datos en produccin. Las tcnicas analticas no pueden determinar si un valor es correcto al menos que puedan consultar una fuente alternativa para confirmar el valor. Las tcnicas analticas, bien aplicadas, identifican suficientes errores para dar una idea clara del estado de calidad de los datos. No pueden detectar todas las inexactitudes en los datos de una base de datos. Sin embargo, un programa continuo de mejoramiento de la calidad de los datos logra resultados satisfactorios. En el prximo tem explicamos una tcnica de evaluacin analtica llamada Data Profiling (Perfilado de datos). Data Profiling. Es un proceso para examinar y evaluar los datos que existen en las fuentes de origen de una organizacin (bases de datos transaccionales o de operacin) y recopilar estadsticas e informacin sobre los mismos [9]. El propsito de dichas estadsticas es: La tcnica se utiliza para deducir informacin sobre los propios datos. Determinar qu datos pueden ser usados para otros propsitos. Conseguir mtricas de calidad de datos que incluyen si los datos cumplen los estndares de la organizacin. Reduce el riesgo de integrar informacin a nuevas aplicaciones dado que conocemos su estado.

En el contexto de aseguramiento de calidad de datos QA, es el proceso utilizado para detectar errores o inexactitudes en una base de datos. Permite hacer un seguimiento de la calidad de datos. Capacidad de entender problemas derivados de los datos en proyectos que hagan uso intensivo de los mismos.

Fig. 3. El Proceso Data Profiling. Como vemos en la figura 3, las entradas al proceso de data profiling son los datos (exactos o inexactos) procedentes de base de datos transaccionales y la informacin de metadata por ejemplo un diccionario de datos. Los mtodos aplicados para analizar los datos son: Descubrimiento: con software, se revelan las caractersticas de los datos a partir de los mismos. Es anlogo a hacer data mining para reconstruir la metadata. Pruebas asertivas: se formulan condiciones verdaderas (reglas) sobre los datos y se prueban con el software. Permite determinar donde difieren los datos de la metadata y corregirla El proceso reconstruye la metadata a partir del contenido real de la base de datos y genera un reporte de estado de la calidad de los datos sobre lo cual se formulan recomendaciones. No corrige datos, slo diagnostica e identifica anomalas documentadas en el repositorio de metadata. Como recomendacin, podemos agregar, que se debe aplicar Data Profiling en todos los proyectos de diagnstico, evaluacin o mejoramiento de calidad de datos. En todos los proyectos de TI que trasladan datos a otras estructuras, migran o consolidan datos. Las bases de datos importantes de la organizacin se deben perfilar peridicamente.

5.2 Tcnica de correccin de datos Data Cleaning. Es un proceso cuyo principal objetivo es detectar y remover errores e inconsistencias en los datos, para proveer una mejor calidad de los mismos. Por ejemplo, permite detectar entradas duplicadas, incompletas y establecer reglas para corregirlas. El objetivo no es borrar informacin per se (por borrar) sino mejorar la calidad de los datos construyendo un proceso de mejora continua [10]. El proceso de data cleaning cuenta con las siguientes fases: Anlisis de datos Definicin del workflow de transformaciones y reglas de mapeos Verificacin Transformacin Reemplazo los datos sucios en las fuentes originales Anlisis de datos. Detectar que tipo de errores e inconsistencias se quieren remover. El procedimiento consiste en realizar inspecciones manuales, tomar muestras de los datos utilizando programas de anlisis para generar metadata sobre las propiedades de los mismos y detectar problemas de calidad. Se puede aplicar dos tcnicas, el data Profiling, explicada en la seccin anterior, est enfocada al anlisis de los atributos individuales de una instancia y el Data Mining que consiste en descubrir patrones de datos especficos en grandes volmenes de informacin, ayuda a completar valores faltantes, corregir valores ilegales e identificar registros duplicados. Definicin del workflow de transformaciones y reglas de mapeos. Posibilita la generacin automtica de cdigo de transformacin. El procedimiento consiste en especificar en un lenguaje de consultas declarativo y mediante funciones de mapeo, la transformacin de datos relacionada con el esquema y los procesos de limpieza de datos. Verificacin. Tiene por misin chequear la eficacia del workflow de transformacin. Las definiciones de transformacin deben ser testeadas y evaluadas. El procedimiento consiste en tomar una muestra o una copia de los datos de origen, para mejorar las definiciones si fuera necesario. Los pasos de anlisis, diseo y verificacin se implementan de forma iterativa. Transformacin. Consiste en la ejecucin de los pasos de transformacin, ya sea corriendo el workflow de ETL, para cargar y refrescar un datawarehouse o ejecutando consultas sobre las mltiples fuentes. Reemplazo los datos sucios en las fuentes originales. Luego de remover los errores en una de las fuentes de datos, los datos limpios debern reemplazar los datos sucios en las fuentes originales. Esto es para darle a los sistemas legados los datos limpios y para evitar re-trabajo en futuras extracciones.

6 Herramientas disponibles Open Source


Existen en el mercado varias herramientas del tipo open source que brindan soporte para la gestin de calidad de datos. Las herramientas que a continuacin se mencionan son las recomendadas en la bibliografa y en Internet: Power MatchMaker. Herramienta desarrollada en Java y multiplataforma Windows, Linux, Mac OS. Permite aplicar tcnicas de data cleaning. Entre sus funcionalidades incluye detectar y validar direcciones, identificar y borrar duplicados y cruzar referencias [11]. Talend Open Profiler. Herramienta que permite aplicar tcnicas de Data Profiling. Desarrollada en Java pero a travs del IDE Eclipse. Se complementa con la solucin de integracin de datos Talend Open Studio, con la que pueden desarrollarse pasos para mejorar la calidad de datos. Incluye por defecto herramientas para determinar la calidad de nuestros datos mediante indicadores y proporcionar grficos recopilando la informacin obtenida [12]. Data Cleaner. Herramienta orientada a preparar los datos para cualquier proyecto en el que se deban aplicar tcnicas de calidad de datos. Se halla en la versin 1.4 y es tambin multiplataforma dado que est desarrollada en Java [13]. Incluye mltiples funcionalidades tales como: Profiler para determinar la calidad de los datos, Validator, para validar datos contra reglas que deben verificarse bajos la poltica de calidad establecida, Comparator, para comparar la informacin de diferentes fuentes de origen, Monitor, para establecer un seguimiento de la calidad de los datos, Dictionary: permite crear un repositorio de datos maestros y correctos contra los que validar nuestros datos.

7 Conclusiones
La eficiencia de la toma de decisiones depende de la calidad de datos, de tal manera que pequeas mejoras en la exactitud de los datos puede conducir a mejoras sustanciales en la informacin para toma de decisiones. Esto representa beneficios importantes para la organizacin. La exactitud de los datos es la ms visible e importante dimensin de calidad de datos. No se puede lograr calidad de datos total, pero s se puede mejorar la calidad al punto que la informacin sea adecuada para la toma de decisiones. Sera recomendable que las organizaciones implementen una estrategia de calidad de datos que resulte de gua para la gerencia de sistemas. Nosotros aconsejamos SIQinU como la ms completa e integral, sobre todo en establecer un modelo conceptual de mtricas adaptable al negocio de la organizacin y la especificacin de un proceso de implementacin. Estimamos conveniente acompaar la estrategia con el uso de herramientas de anlisis y depuracin que ejecuten Data Profiling y Data Cleaning. Tambin la herramienta genera estadstica que nos permite derivar mtricas que nutren el almacn de medidas. De esta forma, podremos llevar la historia y evolucin de la calidad de datos en la organizacin y saber si est mejorando. Utilizando adecuadamente, ambas tcnicas, puede reducir los ciclos de implementacin de proyectos crticos en varios meses y mejorar el conocimiento de los usuarios (o clientes) respecto a los datos. Las tcnicas de Data Profiling y data Cleaning, si se ejecutan correctamente, son tcnicas efectivas que contribuyen significativamente a mejorar la calidad de los datos de la organizacin.

8 Referencias
[1] Jurn, Joseph M. (1964), Managerial breakthrough, New York: McGraw-Hill. [2] http://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumber=3 5736 ltimo acceso 22/10/2011 23:00 [3] Becker P., Lew P., Olsina L. (2011) Strategy to improve quality for software applications: a process view. [4] http://iaidq.org/main/glossary.shtml ltimo acceso 22/10/2011 23:00 [5] Guerra-Garca C., Caballero I., Garca-Rodrguez de Guzmn I., Mario Piattini (2009) Modelado de Requisitos de Calidad de Datos en el Proceso de Desarrollo de Portales Web Actas de los Talleres de las Jornadas de Ing. del Software y BBDD, Vol. 3, No. 2, 2009 (p. 124 y p.125). [6] Scalone F. (2006) Tesis Estudio Comparativo de los Modelos y Estndares de Calidad de Software (p. 35 p.39). [7] CMMI Product Team. 2010. CMMI for Development Version 1.3 (CMMI-DEV, V.1.3) CMU/SEI-2010-TR-033, SEI Carnegie-Mellon University (Available on-line). [8] http://www.sigma-data.com/noticias/4-noticias/17-el-coste-de-la-no-calidad-dedatos ltimo acceso 22/10/2011 23:00 [9] http://informationmanagement.wordpress.com/category/data-profiling/ ltimo acceso 22/10/2011 21:00 [10] Valverde C. (2011) Data Cleaning Problems and Current Approaches [11] http://www.sqlpower.ca/page/dqguru (ltimo acceso 27/10/2011 18:00) [12] http://www.talend.com/products-data-quality/talend-open-profiler.php acceso 27/10/2011 18:00) [13] http://datacleaner.eobjects.org/ (ltimo acceso 27/10/2011 18:00) (ltimo

También podría gustarte