Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Gestión de la calidad en SI
Data Profiling
Estimación Medición y Evaluación Limpieza
de Calidad de calidad
Modelo de Calidad
Re-estructuración
Análisis de del sistema
procesos de
negocio
involucrados
Análisis de causas
de mala calidad
Monitoreo de la
calidad
Modelo de Calidad
• Métodos
– Relevamiento requerimientos de usuarios
• 2 opciones:
– A partir de los datos prioritarios defino dimensiones-factores-métricas.
– Primero defino dimensiones-factores, luego selecciono datos, luego
defino métricas.
– Método Goal-Question-Metric
Data Profiling
• Análisis de atributos solapados de diferentes relaciones
– Redundancias, claves foráneas
• Valores faltantes o erróneos
– Cardinalidad actual vs. cardinalidad esperada (cant. clientes)
– Frecuencia de valores nulos, maximo/minimo, etc.
• Duplicados
– Número de tuplas vs. cardinalidad del dominio del atributo
• Claves difusas y dependencias funcionales difusas
– Restricciones de integridad que no están explícitamente definidas
pero que son satisfechas en la mayoría de los casos (un atributo
que es clave, dependencias funcionales)
Data Profiling
• “Profiling” con SQL
Algunas herramientas…
Empresa Productos
Goal-question-metric (GQM)
• GQM es un paradigma de diseño de sistemas de información [Basili94].
Metrics - Boolean: true if the variable type is enumerated, false if it is free text.
Ubicación en la BD:
Tablas:
-Certificados
-Personas
Atributo:
-Certificados.persona->Personas.sexo
Evaluación de Calidad:
Gestión de la calidad en SI
Data Profiling
Estimación Medición y Evaluación Limpieza
de Calidad de calidad
Modelo de Calidad
Re-estructuración
Análisis de del sistema
procesos de
negocio
involucrados
Análisis de causas
de mala calidad
Monitoreo de la
calidad
• Medición
– Comparación cuantitativa entre una observación y un
valor de referencia
– Modelado lógico
• Extensiones del Modelo Relacional
• Extensión del modelo XML
Desventajas?
♦ Otra solución
– Agregamos 2 nuevas entidades:
Data quality dimension
Representa cada dimension y todos sus posibles valores
Data quality measure
Representa las mediciones
Extensión del MER
• Basado en atributos
Extensión de XML
• Data and Data Quality (D2Q)
28
Evaluación de Calidad
• Requerimientos de calidad de datos
– Umbrales establecidos por el usuario para cada
dimensión/factor/métrica de calidad
Base de
Datos
Metadatos Satisface?
Calidad
Gestión de la calidad en SI
Data Profiling
Estimación Medición y Evaluación Limpieza
de Calidad de calidad
Modelo de Calidad
Re-estructuración
Análisis de del sistema
procesos de
negocio
involucrados
Análisis de causas
de mala calidad
Monitoreo de la
calidad
• Errores de digitación
• Veremos
– Localizar y corregir inconsistencias
– Localizar y corregir datos incompletos
– Localizar “outliers”
Localizar y corregir inconsistencias
• Data editing
Descubrimiento de outliers
• Un outlier es un valor que es inusualmente mayor o menor
que otros valores en un conjunto de datos.
– Ej.: 2, 5, 6, 3, 8, 76, 4, 3, 7
• Causas posibles
– No se ingresó correctamente a la base de datos
– Viene de una “población” diferente (considerando otros valores)
– Es correcto, pero representa un evento extraño
2 fases:
– Descubrir los outliers
– Decidir si son datos extraños o datos erróneos
Algunas herramientas…
• Potter’s wheel
– Estandarización, profiling, limpieza para SID (sistemas de integración de
datos)
• Telcordia’s tool
– Estandarización, limpieza para SID
– Dominio: direcciones, impuestos
• Ajax
– Normalización, limpieza para SID
– Dominio: referencias bibliográficas
• Arktos
– Estandarización, localización de errores, limpieza para SID
– Dominio: ETL, aplicaciones de salud
• Choice Maker
– limpieza para SID
– Dominio: nombres, direcciones, negocios, datos médicos, datos financieros
• Intelliclean
– Normalización, limpieza para SID
Referencias en el texto del curso (8.2)
Algunas herramientas…
Empresa Productos
• Se busca
– identificar causas (root-causes) de los errores
– eliminar esas causas
– asegurar que se mantendrá esa ganancia
• Mejora de procesos
– Aplicando edits dentro del proceso o de la cadena de procesos, se
pueden detectar ciertos tipos de errores antes de que sean
commiteados en la base.
• Se corrigen los errores antes de que produzcan problemas
– Log de “failed edits”
• Para determinar patrones de errores y eliminar las causas.
Resumiendo…
• Para mejorar la calidad se debería aplicar
• Data Quality for the Information Age. Thomas C. Redman. 1996 Artech House Inc.,
ISBN 0-89006-883-6
• The TIQM® Quality System for Total Information Quality Management: Business
Excellence through Information Excellence. Larry English. MIT Information Quality
Industry Symposium, 2009.
Bibliografía
• S. E. Madnick, R. Y. Wang, Y. W. Lee, and H. Zhu, “Overview and Framework for
Data and Information Quality Research,” J. Data and Information Quality, vol. 1, no.
1, pp. 2:1–2:22, Jun. 2009.
• R. Y. Wang and D. M. Strong, “Beyond accuracy: What data quality means to data
consumers,” Journal of management information systems, pp. 5–33, 1996.
• Y. Lee, S. Madnick, R. Wang, F. Wang, H. Zhang. A Cubic Framework for the Chief
Data Officer: Succeeding in a World of Big Data. MIS Quarterly Executive, 2014.