Gestión de Calidad

Gestión de Calidad de Datos
Calidad de Datos e Información - 2017 1
Gestión de la calidad en SI
Data Profiling
Estimación Medición y Evaluación Limpieza
de Calidad de calidad
Modelo de Calidad
Re-estructuración
Análisis de del sistema
procesos de
negocio
involucrados
Análisis de causas
de mala calidad
Monitoreo de la
calidad
Gestión de Calidad de Datos - 2017 2

Modelo de Calidad
• Para poder tratar la calidad de un SI es necesario definir un
modelo de calidad adecuado a las necesidades y
prioridades de los consumidores de los datos en ese SI
• Se debe determinar y especificar

– Dimensiones y factores a medir
– Métricas y datos o grupos de datos donde éstas se aplican
– Base de Metadatos de calidad donde se registrarán los resultados
de la medición
• Para determinar las dimensiones y factores de calidad, y

los datos a medir, existen distintos métodos de trabajo
Modelo de Calidad
• Métodos
– Relevamiento requerimientos de usuarios
• 2 opciones:
– A partir de los datos prioritarios defino dimensiones-factores-métricas.
– Primero defino dimensiones-factores, luego selecciono datos, luego
defino métricas.
– A partir de perfil de los datos (Data Profiling)

• Sin intervención de usuarios finales.
• El perfil de los datos me da las nociones de por dónde están las fallas
de calidad. A partir de eso defino las dimensiones-factores-métricas.
– Método Goal-Question-Metric

Data Profiling
• Primera aproximación al conocimiento sobre los datos del
SI que queremos evaluar
– Su estructura (si los metadatos son consistentes con los datos)
– Sus relaciones
– Su volumen
– Sus problemas y frecuencia de los mismos
– Patrones que se cumplen
• Algunas técnicas, como
– Estadísticas básicas
– Análisis de metadatos
– Análisis de patrones
– Detección automática de foreign keys
• Es el primer paso para un proceso de calidad de datos
Data Profiling
• Análisis de atributos solapados de diferentes relaciones
– Redundancias, claves foráneas
• Valores faltantes o erróneos
– Cardinalidad actual vs. cardinalidad esperada (cant. clientes)
– Frecuencia de valores nulos, maximo/minimo, etc.
• Duplicados
– Número de tuplas vs. cardinalidad del dominio del atributo
• Claves difusas y dependencias funcionales difusas
– Restricciones de integridad que no están explícitamente definidas
pero que son satisfechas en la mayoría de los casos (un atributo
que es clave, dependencias funcionales)

Data Profiling
• “Profiling” con SQL
SELECT MIN(A), MAX(A), COUNT(DISTINCT A)
FROM DataTable;
SELECT City, COUNT(*) AS Cnt

FROM Customer
GROUP BY City ORDER BY Cnt;
SELECT COUNT(distinct C1.City)

FROM Customer C1, Customer C2
WHERE C1.City = C2.City AND
C1.Country <> C2.Country;
Data Profiling
Estudiantes (ci-est, nombre, email, telefono, direccion, fnac)

Creo que el email no se repite casi nunca.
select count(distinct E1.email)

from Estudiantes E1
where E1.email in
(select E2.email
from Estudiante E2
group by E2.email
having count(*) > 1)
Data Profiling
Actividades (ci-est, tipo-act, fecha, carrera, asignatura, instituto)
asignatura, carrera instituto ?
select distinct A1.asignatura, A1.carrera

from Actividades A1, Actividades A2
where A1.asignatura = A2.asignatura and
A1.carrera = A2.carrera and
A1.instituto <> A2.instituto
Algunas herramientas…
Empresa Productos
Ataccama DQ Analyzer, Data Quality Center, DQ Issue Tracker, DQ Dashboard

Datactics Data Quality Platform, Data Quality Manager, Master Record Manager
DataMentors DataFuse, ValiData, NetEffect
HIquality Suite, HIquality Name Worldwide, HIquality Identify, HIquality Data Improver,
Human Inference DataCleaner
IBM InfoSphere Information Analyzer, InfoSphere QualityStage, InfoSphere Discovery
Informatica Data Explorer, Data Quality, Identity Resolution, AddressDoctor
Information
Builders/iWay iWay Data Quality Center
Innovative Systems i/Lytics Data Quality, i/Lytics Data Profiling, i/Lytics ProfilerPlus, FinScan
Oracle Oracle Enterprise Dat Quality, Oracle Enterprise Data Quality for Product Data
Pitney Bowes Software Spectrum Technology Platform
RedPoint (DataLever) RedPoint Data Management
SAP Data Quality Management, Information Steward, Data Services
SAS/DataFlux Data Management Platform
Talend Talend Open Studio for Data Quality, Talend Enterprise Data Quality
Trillium Software Trillium Software System, TS Discovery, TS Insight, Trillium Software On-Demand
Data Quality (DQ) Explorer, DQ Batch Suite, DQ Real-Time Suite, DQ Real-Time Services,
Uniserv DQ Monitor
Melissa Data Contact Zone
Datiris Datiris Profiler
CloverETL Address Doctor
Microsoft Data Quality Services
Análisis top-down de la calidad
• Cada organización debe determinar los factores a medir y
desarrollar métricas y métodos apropiados.
– Pero las empresas no se plantean directamente las métricas
• Ejemplo: Quiero medir el porcentaje de direcciones de clientes que no
figuran en la guía de calles
• En la práctica la calidad se estudia de forma top-down

– Se empieza por identificar los problemas de calidad y luego se
determinan las métricas apropiadas para cuantificarlos
• Ejemplo: Quiero reducir la cantidad de cartas que no llegan a mis
clientes
Necesitaría saber cuántos rechazos se deben a errores sintácticos en
los nombres de las calles
Voy a medir el porcentaje de direcciones de clientes que no figuran en
la guía de calles
Goal-question-metric (GQM)
• GQM es un paradigma de diseño de sistemas de información [Basili94].
• GQM propone tres niveles de abstracción:

– Nivel conceptual: GOALS
• Se definen objetivos de calidad de alto nivel que apuntan a resolver problemas de calidad
de la organización.
• Ej. Reducir la cantidad de cartas que no llegan a mis clientes
– Nivel operacional: QUESTIONS
• Cada objetivo se descompone en un conjunto de preguntas que caracterizan la manera de
alcanzar los objetivos.
• La idea es descomponer sucesivamente los objetivos hasta llegar a preguntas simples, cada
una asociada directamente a un factor de calidad.
• Ej. ¿Cuántos rechazos se deben a errores sintácticos en los nombres de las calles?
– Nivel cuantitativo: METRICS
• Se define un conjunto de métricas para cada pregunta, para responderla de una forma
cuantitativa.
• E.g. Porcentaje de direcciones de clientes que no figuran en la guía de calles

Ejemplos de goals y questions
• Goal 1:
– Mejorar la calidad de datos de localización
de los estudiantes (teléfono, dirección, etc.)
Questions Factores de calidad
1 ¿Las direcciones de los estudiantes son las correctas? Correctitud semántica
2 ¿Sus direcciones están bien escritas? Correctitud sintáctica
3 ¿Sus teléfonos son números válidos? Correctitud sintáctica
4 ¿Tenemos direcciones precisas? Precisión
5 ¿Sus direcciones están al día? Actualidad
6 ¿Tenemos las direcciones de todos los estudiantes? Cobertura
…
Ejemplo de aplicación de GQM

• Dominio biológico (Proyecto InCo – Instituto
Pasteur http://www.fing.edu.uy/inco/grupos/sibio/gwas/ )
Goal: Select studies with high accuracy in phenotype data
GOAL Purpose: Select a study
Quality Dimension: Accuracy
Measurable Object: phenotype variables metadata
Stakeholder: meta-analyst
Question - How standardized the possible variable values are?
Metrics - Boolean: true if the variable type is enumerated, false if it is free text.
- Percentage of possible values of the variable that are mapped to SnomedCT

Especificación de Modelo de Calidad
Dato N – Sexo
Ubicación en la BD:
Tablas:
-Certificados
-Personas
Atributo:
-Certificados.persona->Personas.sexo
Evaluación de Calidad:
Dimensión Factor Métrica Procedimiento de Agregación

Medición
Exactitud Correctitud Formato Sexo: Si el valor es igual a ‘F’ Porcentaje de
Sintáctica Verifica que el valor sea ‘F’ o ‘M’ o ‘M’, devolver 1, si no, valores en 1 en
Tipo del resultado: (0, 1) devolver 0. toda la columna.
Granularidad: celda
Completitud Densidad Nulos Sexo: Comparar con NULL o Porcentaje de

Verifica si la celda tiene valor con ‘ ‘ valores en 1 en
nulo. toda la columna.
Tipo del resultado: (0, 1)
Granularidad: celda
Data Profiling
Modelo de Calidad
Re-estructuración
procesos de
negocio
involucrados
Análisis de causas
de mala calidad
Monitoreo de la
calidad

Medición de calidad de datos
• Para qué medimos?
– Para poder brindar al usuario información acerca de la
calidad de los datos que se le entregan
– Para poder mejorar la calidad de los datos
– Para poder analizar el costo de mejorar la calidad
• Medición
– Comparación cuantitativa entre una observación y un
valor de referencia

• La forma en que se mide la calidad de los datos es
muy variable, dependiendo de:
– La dimensión/factor de calidad
– La métrica elegida
– Sobre qué se va a ejecutar la medición
• Sobre una base de datos o repositorio de algún tipo
• Sobre datos que son parte de una “information chain”, o sea, del
proceso de obtención del “information product”
– Momento de la medición con respecto al uso de los
datos
• Off-line
• On-line

• Para realizar una medición, debe estar previamente
definido:
– Dimensión / Factor de calidad
• Ej. : Consistencia / Integridad de dominio
– Objetos sobre los que se mide y granularidad
• Ej.: atributo: sueldo, granularidad: tupla
– Métrica
• Ej.: 1 si (10000 < sueldo < 40000), 0 en caso contrario
– Procedimiento de medición
• Muestreo?
• Implementación y ejecución de la medición
– Agregaciones para cambiar de granularidad
• Ej.: para granularidad de tabla se promedian medidas de tuplas
– Modelo de datos para los valores de calidad obtenidos: Metadatos
de Calidad
Modelos de datos de Calidad

• Utilizamos modelos de datos para representar datos
• Queremos además poder representar sus dimensiones de

calidad y sus medidas de calidad. A esto le llamamos
METADATOS DE CALIDAD.
– Se proponen extensiones a los modelos tradicionales para bd, para

representar y manejar aspectos relacionados con las dimensiones
de calidad.
– Se enriquecen los modelos convencionales con elementos para

representar y analizar la calidad de los datos.

Modelos de datos de Calidad
• Modelos de datos
– Modelado conceptual
• Extensión del MER
– Modelado lógico
• Extensiones del Modelo Relacional
• Extensión del modelo XML
Extensión del MER

• Una posible solución
Desventajas?
♦ Otra solución
– Agregamos 2 nuevas entidades:
Data quality dimension
Representa cada dimension y todos sus posibles valores
Data quality measure
Representa las mediciones
Extensión del MER
Qué cosas falta representar?

Qué construcciones habría que agregarle?
Extensiones del Modelo Relacional
• Basado en atributos

Extensiones del Modelo Relacional
• Polygen
– Modelo para manipulación de datos orientado a datos provenientes
de múltiples fuentes
– Representación explícita del origen de los datos y también de las
fuentes intermedias (data lineage)
– Un valor de un atributo en este modelo es una terna:
• Un dato (dominio simple de MR)
• Un conjunto de bds origen
• Un conjunto de bds intermedias
– Se usan annotations para los metadatos en cada atributo
– Definen un álgebra que permite la propagación de las annotations
– Primera aproximación a data provenance
Extensión de XML
• Data and Data Quality (D2Q)
– Para ser usado en el contexto de sistemas de información

cooperativos
– Las organizaciones intercambian datos y es fundamental saber la
calidad de estos datos
– El modelo es semi-estructurado permitiendo a cada organización
exportar la calidad de sus datos con flexibilidad
– El modelo se traduce fácilmente a XML
– Para consultar este XML se propone una extensión al XQuery, con
un conjunto de funciones llamadas quality selectors.

D2Q - Ejemplo
Ejercicio – Metadatos Calidad

• Base de Datos
– Clientes (ci, nom, dir, tel, fnac, sexo, categoria)
– Productos (cod, pres, desc, prov, cant-stock)
– Ventas (ci, cod, pres, fecha, cantidad, importe, sucursal)
• Parte del Modelo de Calidad de Datos:
Dimensión Factor Métrica Gral Métrica Inst. sobre
Exactitud Exactitud Sintáctica M1: VerifFormato Clientes.ci

gran: celda Clientes.sexo
tipo-res: {0,1} Productos.prov
Ventas.importe
Precision M2: CantDecim Productos.cant-stock
gran: columna Ventas.importe
tipo-res: {0,1}
Completitud Cobertura M3: CoberturaRef Clientes
gran: tabla
tipo-res: [0,1]
28
Evaluación de Calidad
• Requerimientos de calidad de datos
– Umbrales establecidos por el usuario para cada
dimensión/factor/métrica de calidad
– 2 formas posibles de trabajar

• Embeberlos en las métricas
– 2 opciones
» Requerimientos fijos para todos los usuarios por igual
» “Parametrizar” las métricas
• Comparar resultados de las mediciones con
requerimientos de usuarios
Reqs. en las métricas

• Fijos
– Ej.: Métrica de exactitud sintáctica – 0 o 1 según
distancia a valor válido con respecto a un
umbral fijo.
• Métricas “parametrizadas”
– Concepto de Contexto de usuario
• Perfil, tarea, preferencias, requerimientos de calidad
– Las métricas son dependientes del contexto
– Ej anterior: el umbral dependerá del usuario o
del tipo de usuario
Comparar resultados con reqs.
Base de
Datos
Metadatos Satisface?
Calidad
Data Profiling
Modelo de Calidad
Re-estructuración
procesos de
negocio
involucrados
Análisis de causas
de mala calidad
Monitoreo de la
calidad

Limpieza de datos
• Identificar y eliminar inconsistencias, discrepancias
y errores en datos, para mejorar la calidad
• “data cleaning”, “data cleansing”, “data scrubbing“
• En Data Warehousing
– Como parte del proceso ETL (extracción,
transformación y carga)
– Hasta un 80% del costo en proyectos de DW
• En sistemas de integración de datos
– “on the fly” para datos integrados virtualmente
– A veces requiere materialización
Evitar datos sucios en Manejadores de BD
SE EVITA A TRAVES DE…
Tipos de datos incorrectos Def de tipos de datos y restricciones

de dominio
Valores erróneos Restricciones tipo “Check”
Valores faltantes “Not null”
Referencias inválidas “Foreign Key”
Duplicados “Unique”, “Primary Key”
Inconsistencias Manejo de transacciones
Datos desactualizados Replicación, Vistas Materializadas

Por qué hay datos sucios?
• Fuentes que no son Sistemas de Bases de Datos
• Datos que provienen de fuentes externas
• Falta de metadatos, de restricciones de

integridad…
• Errores de digitación
• Problemas que se generan cuando hay múltiples

fuentes y heterogeneidades
Tareas de Limpieza de Datos
Naumann, Sattler. 2006

Normalización / estandarización
• En gral. corresponde a la etapa de pre-procesamiento para
luego poder comparar valores y corregir errores.
• Conversión de tipo de datos. Ej.: varchar int

• Normalizar: llevar a un formato común
– date: 03/01/05 01-MAR-2005
– moneda: $ €
– Mayúsculas / minúsculas
– tokenizing:
• “Martínez, Cristina” “Martínez”, “Cristina”
• direcciones: facilita comparaciones
• Discretizar valores numéricos
• Transformaciones específicas del dominio
Localización de errores y corrección

• Si existe una medición de calidad hecha previamente a la
limpieza, localización consistirá en recorrer e interpretar los
metadatos de calidad
• Si no existe lo anterior, los métodos dependen de la

dimensión de calidad
• Veremos
– Localizar y corregir inconsistencias
– Localizar y corregir datos incompletos
– Localizar “outliers”
Localizar y corregir inconsistencias
• Data editing
– Cuando no estamos con una bd relacional. Se detectan

inconsistencias mediante la formulación de reglas (edits) que deben
ser respetadas por los datos (viene del área estadística).
– Los edits denotan condiciones de error.
– Los edits deben ser consistentes y no redundantes.
– Ejemplo de edits inconsistentes:
• Salary = FALSE
• Has a desk = FALSE
• (Salary = TRUE) AND (Has a desk = TRUE)
– Ejemplo de edits redundantes:
• Role = professor ∧ AnnualIncome < 100000
• AnnualIncome < 100000
Localizar y corregir inconsistencias

• Con el conjunto de edits válidos se procede a la
localización de errores.
• Para corregir los errores

– Adquisición de nuevos datos
• Refrescar los datos, mejorando la calidad
• Muy costoso
– Corregir utilizando los edits. Edit-imputation problem.
• Modelo propuesto, con los siguientes objetivos
– Los datos deben satisfacer todos los edits, cambiando la menor
cantidad de campos posible.
– Cuando es necesario “imputation”, mantener la distribución de la
frecuencia de los valores en cada campo.
Edit-imputation
• Ejemplo
– (Edad, EstadoCivil, TipodeTrabajo)
– <68, casado, jubilado> <6, casado, jubilado>
error
– Existe edit: Edad < 15 ∧ EstadoCivil = casado
– Podemos corregir poniendo 15 en vez de 6, respetando el mínimo
cambio (1er. objetivo), pero si lo hacemos muchas veces vamos a
variar la frecuencia relativa.
• Pueden haber edits implícitos

– Se derivan lógicamente de los explícitos
– Es útil considerarlos en la etapa de corrección.
Localizar y corregir datos incompletos

• Localización
– Análisis básico
• Cantidad de valores nulos, promedios, etc.
• Comparar con valores esperados
• Analizar información:
– No hay información de ventas durante 3/1 .. 3/4 ?
– No hay productos con precio > 20 ?
– Datos truncados y censurados
• Ventas de menos de $100 no se guardan en la base
• Ventas de más de $100000 se guardan como $100000
– Detección
• Siempre se necesita conocimiento del dominio
Localizar y corregir datos incompletos
• Corrección
– Estimar valores que faltan (imputation) sin cambiar

características del conjunto de datos (media, varianza,
etc.)
– Explotar dependencias funcionales

• Ej.: nro_dormitorios ingreso
– Aplicar técnicas de estadística

• Regresión lineal
Descubrimiento de outliers
• Un outlier es un valor que es inusualmente mayor o menor
que otros valores en un conjunto de datos.
– Ej.: 2, 5, 6, 3, 8, 76, 4, 3, 7
• Causas posibles
– No se ingresó correctamente a la base de datos
– Viene de una “población” diferente (considerando otros valores)
– Es correcto, pero representa un evento extraño
2 fases:
– Descubrir los outliers
– Decidir si son datos extraños o datos erróneos
• Potter’s wheel
– Estandarización, profiling, limpieza para SID (sistemas de integración de
datos)
• Telcordia’s tool
– Estandarización, limpieza para SID
– Dominio: direcciones, impuestos
• Ajax
– Normalización, limpieza para SID
– Dominio: referencias bibliográficas
• Arktos
– Estandarización, localización de errores, limpieza para SID
– Dominio: ETL, aplicaciones de salud
• Choice Maker
– limpieza para SID
– Dominio: nombres, direcciones, negocios, datos médicos, datos financieros
• Intelliclean
– Normalización, limpieza para SID
Referencias en el texto del curso (8.2)
Empresa Productos
Ataccama DQ Analyzer, Data Quality Center, DQ Issue Tracker, DQ Dashboard

Datactics Data Quality Platform, Data Quality Manager, Master Record Manager
DataMentors DataFuse, ValiData, NetEffect
HIquality Suite, HIquality Name Worldwide, HIquality Identify, HIquality Data Improver,
Human Inference DataCleaner
IBM InfoSphere Information Analyzer, InfoSphere QualityStage, InfoSphere Discovery
Informatica Data Explorer, Data Quality, Identity Resolution, AddressDoctor
Information
Builders/iWay iWay Data Quality Center
Innovative Systems i/Lytics Data Quality, i/Lytics Data Profiling, i/Lytics ProfilerPlus, FinScan
Oracle Oracle Enterprise Dat Quality, Oracle Enterprise Data Quality for Product Data
Pitney Bowes Software Spectrum Technology Platform
RedPoint (DataLever) RedPoint Data Management
SAP Data Quality Management, Information Steward, Data Services
SAS/DataFlux Data Management Platform
Talend Talend Open Studio for Data Quality, Talend Enterprise Data Quality
Trillium Software Trillium Software System, TS Discovery, TS Insight, Trillium Software On-Demand
Data Quality (DQ) Explorer, DQ Batch Suite, DQ Real-Time Suite, DQ Real-Time Services,
Uniserv DQ Monitor
Melissa Data Contact Zone
Datiris Datiris Profiler
CloverETL Address Doctor
Microsoft Data Quality Services
Prevención de errores
• Localización (o detección) y corrección de errores no
previenen errores futuros.
– Ej.: Suponer que un proceso crea o reemplaza 1000 registros
nuevos o existentes cada día, cada registro tiene 20 campos y la
tasa de errores del proceso es 2%. 400 nuevos errores se producen
por día. A fin de año se habrán producido 140000 errores.
Enorme tarea de limpieza.
• Se busca
– identificar causas (root-causes) de los errores
– eliminar esas causas
– asegurar que se mantendrá esa ganancia
Prevención a trav. de manejo de procesos
• Manejo de procesos para la creación de

información
– Especialmente efectivo para datos que son creados y

actualizados con una alta frecuencia.
– Se necesita un gerente de proceso que vea la cadena

del proceso en forma horizontal. Este podría incluír
controles para asegurar que no suceda el problema.
– Principales técnicas: edits y data tracking

Edits para prevención
• Los edits pueden ser utilizados para
– Corrección (en general son usados solo para esto)
– Mejora de procesos
– Diseño de procesos menos propensos a errores
• Mejora de procesos
– Aplicando edits dentro del proceso o de la cadena de procesos, se
pueden detectar ciertos tipos de errores antes de que sean
commiteados en la base.
• Se corrigen los errores antes de que produzcan problemas
– Log de “failed edits”
• Para determinar patrones de errores y eliminar las causas.
Prevención a trav. de diseño de procesos
• Incluir edits en los nuevos procesos y manejadores de bd.

– Bajo costo de implementación
– Desventaja: La gente suele encontrar la forma de “saltearlos”
• Diseñar la medición necesaria para controlar y mejorar el
proceso dentro del propio proceso.
• Minimizar actividades donde la gente suele cometer
errores, automatizándolas lo más posible
– Ej.: Transcripciones, ingreso de datos, cambios de formatos, etc.
– Ej.: Uso de lectores de código de barras
– Simplificar procesos también evita errores
• Asignación apropiada de responsabilidad del manejo de los
datos
Qué datos mejorar
• Crear una lista ordenada por prioridad de datos a
mejorar
– Consideraciones posibles
• Dar más importancia a la estrategia de negocio de la empresa
– Ej.: empresa que está apuntando al marketing directo, debería
priorizar datos de clientes.
– Ej.: empresa que está enfocada a mejorar eficiencia de
operaciones, debería priorizar datos logísticos
• Asociación con problemas del negocio ya conocidos
– Ej.: reuniones perdidas con clientes: direcciones incorrectas, etc.
• Tasas de errores reales vs. requerimientos de nivel de calidad
• Económicas
– Hay errores que tienen consecuencias más costosas que otros.
Resumiendo…
• Para mejorar la calidad se debería aplicar
– Prevención a través de manejo de procesos para datos

con alta frecuencia de creación y actualización.
– Localización y corrección de errores para datos con baja

frecuencia de creación y actualización.
– Cualquier diseño de proceso o reingeniería debería

luchar para que el nuevo proceso sea lo más libre de
errores posible.
Bibliografía
• Data and Information Quality. Carlo Batini, Monica Scannapieco. Springer. ISBN:
978-3-319-24104-3. 2016.
• Data Quality for the Information Age. Thomas C. Redman. 1996 Artech House Inc.,
ISBN 0-89006-883-6
• Information Quality: Fundamentals, Techniques and Use. Felix Naumann, Kai-Uwe

Sattler. EDBT Tutorial, Munich, 2006.
• Data Quality. The Accuracy Dimension. Jack E. Olson. Morgan Kaufmann

Publishers, Elsevier. 2003. ISBN-10 1-55860-891-5
• Data Warehouse Institute Survey on Data Quality. W. Eckerson. Proceedings of the

Seventh International Conference on Information Quality (ICIQ-02).
• The TIQM® Quality System for Total Information Quality Management: Business
Excellence through Information Excellence. Larry English. MIT Information Quality
Industry Symposium, 2009.
• Y. W. Lee, D. M. Strong, B. K. Kahn, and R. Y. Wang, “AIMQ: a methodology for

information quality assessment,” Information & management, vol. 40, no. 2, pp.
133–146, 2002.
Bibliografía
• S. E. Madnick, R. Y. Wang, Y. W. Lee, and H. Zhu, “Overview and Framework for
Data and Information Quality Research,” J. Data and Information Quality, vol. 1, no.
1, pp. 2:1–2:22, Jun. 2009.
• D. M. Strong, Y. W. Lee, and R. Y. Wang, “Data quality in context,” Commun. ACM,

vol. 40, no. 5, pp. 103–110, May 1997.
• R. Y. Wang and D. M. Strong, “Beyond accuracy: What data quality means to data
consumers,” Journal of management information systems, pp. 5–33, 1996.
• M. Scannapieco and T. Catarci, “Data quality under a computer science

perspective,” Archivi & Computer, vol. 2, pp. 1–15, 2002.
• B. Otto, K. M. Huner, and H. Osterle, “Identification of Business Oriented Data

Quality Metrics,” presented at the ICIQ, 2009, pp. 122–134.
• Y. Lee, S. Madnick, R. Wang, F. Wang, H. Zhang. A Cubic Framework for the Chief
Data Officer: Succeeding in a World of Big Data. MIS Quarterly Executive, 2014.

Gestión de Calidad

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Gestión de Calidad

Cargado por

Copyright:

Formatos disponibles

Gestión de Calidad de Datos

Calidad de Datos e Información - 2017 1

Gestión de Calidad de Datos - 2017 2

• Se debe determinar y especificar

• Para determinar las dimensiones y factores de calidad, y

Gestión de Calidad de Datos - 2017 3

– A partir de perfil de los datos (Data Profiling)

Gestión de Calidad de Datos - 2017 4

Gestión de Calidad de Datos - 2017 6

SELECT City, COUNT(*) AS Cnt

SELECT COUNT(distinct C1.City)

Estudiantes (ci-est, nombre, email, telefono, direccion, fnac)

select count(distinct E1.email)

select distinct A1.asignatura, A1.carrera

Gestión de Calidad de Datos - 2017 9

Ataccama DQ Analyzer, Data Quality Center, DQ Issue Tracker, DQ Dashboard

• En la práctica la calidad se estudia de forma top-down

Gestión de Calidad de Datos - 2017 11

• GQM propone tres niveles de abstracción:

Gestión de Calidad de Datos - 2017 12

Gestión de Calidad de Datos - 2017 13

Ejemplo de aplicación de GQM

- Percentage of possible values of the variable that are mapped to SnomedCT

Dimensión Factor Métrica Procedimiento de Agregación

Completitud Densidad Nulos Sexo: Comparar con NULL o Porcentaje de

Gestión de Calidad de Datos - 2017 16

Gestión de Calidad de Datos - 2017 17

Medición de calidad de datos

Gestión de Calidad de Datos - 2017 18

Gestión de Calidad de Datos - 2017 19

Modelos de datos de Calidad

• Queremos además poder representar sus dimensiones de

– Se proponen extensiones a los modelos tradicionales para bd, para

– Se enriquecen los modelos convencionales con elementos para

Gestión de Calidad de Datos - 2017 20

Gestión de Calidad de Datos - 2017 21

Extensión del MER

Qué cosas falta representar?

Extensiones del Modelo Relacional

Gestión de Calidad de Datos - 2017 24

Gestión de Calidad de Datos - 2017 25

– Para ser usado en el contexto de sistemas de información

Gestión de Calidad de Datos - 2017 26

Gestión de Calidad de Datos - 2017 27

Ejercicio – Metadatos Calidad

Exactitud Exactitud Sintáctica M1: VerifFormato Clientes.ci

– 2 formas posibles de trabajar

Gestión de Calidad de Datos - 2017 29

Reqs. en las métricas

Gestión de Calidad de Datos - 2017 31

Gestión de Calidad de Datos - 2017 32

Evitar datos sucios en Manejadores de BD

SE EVITA A TRAVES DE…

Tipos de datos incorrectos Def de tipos de datos y restricciones

Valores faltantes “Not null”

Referencias inválidas “Foreign Key”

Duplicados “Unique”, “Primary Key”

Inconsistencias Manejo de transacciones

Datos desactualizados Replicación, Vistas Materializadas

• Datos que provienen de fuentes externas

• Falta de metadatos, de restricciones de

• Problemas que se generan cuando hay múltiples

Tareas de Limpieza de Datos