Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Agenda
• Qué es el Gobierno de Datos
• Disciplinas que integra
• Metadata, MDM, regulaciones legales y su impacto en el Gobierno de Datos
• Una definición de calidad de datos
• Métricas y procesos de calidad de datos
• El Data Quality Mart
BREAK
Niveles de madurez en el
Gobierno de los Datos
Census
Ciencia y Gobierno de Datos
CICLO DE INTEGRACION
PROCESOS VIDA DEL Y MDM
DATO
CALIDAD SOPORTE
METADATA ORGANIZACION
DE DATOS LEGAL
Census
Ciencia y Gobierno de Datos
Metadata
• Metadata es la información que describe o provee contexto a los
datos sobre su contenido, significado, procesos de negocio en los
que intervienen , servicios, reglas de negocio y políticas que
soportan los sistemas de información de la compañía.
• Existen 3 tipos de Metadata:
– Técnica : nombre de la fuente de datos, nombre de las tablas,
columnas, tipo de dato, etc
– Negocio : contexto que contiene al dato, glosario de nombres,
definiciones, responsables, referencias de origenes del dato, etc
– Operativa : información sobre el uso del dato, fecha y proceso
de actualización, cantidad de accesos, última fecha de acceso,
etc.
Census
Ciencia y Gobierno de Datos
Master Data
• Master Data refiere a las copias sincronizadas de las
entidades utilizadas en aplicaciones transaccionales
o analíticas de la organización sujetas a las políticas
de gobierno. Tradicionalmente incluye a las
principales entidades (data sets) como clientes,
productos, empleados, proveedores, etc pero puede
extenderse a otras entidades críticas que no están en
esta enumeración.
Census
Ciencia y Gobierno de Datos
Master Data
Census
Ciencia y Gobierno de Datos
Una definición
• Los datos tienen CALIDAD cuando satisfacen los
REQUERIMIENTOS de los CONSUMIDORES DE DATOS
(DATA CONSUMERS)
• Existe un problema de calidad de datos cuando se
identifica cualquier dificultad que invalida el uso del dato
por parte del consumidor
• Un programa de aseguramiento de la calidad es una
combinación EXPLICITA de procesos, metodologías y
actividades que existen con el propósito de sostener altos
niveles de calidad en los datos
Census
Ciencia y Gobierno de Datos
Métricas
• Para poder mejorar la calidad de los datos es necesario
medirla
• Las dimensiones de la calidad de los datos se utilizan para
definir, medir y gestionar esta calidad
• No existe un standard de la industria que defina
unívocamente estas dimensiones
• Cada usuario utiliza las dimensiones que más aplican a su
contexto de negocio.
Métricas usuales
Los contenidos almacenados
cumplen los criterios de dominios Son los datos consistentes en todos los
definidos? sistemas y sub sistemas?
Validez
Una medida de la concordancia del contenido
del dato con la realidad (lo cual requiere una
fuente de referencia externa accesible para su
verificación)
Census
Ciencia y Gobierno de Datos
Cobertura
Medida de la cantidad de datos disponibles
comparada con el total del universo o
población
Census
Ciencia y Gobierno de Datos
Degradadación / Obsolescencia
Validez
Disponibilidad
Consistencia
Integridad
Exactitud
Completitud
Dificultad de mediciòn
y mejora
Census
Ciencia y Gobierno de Datos
Data Profiling
Data Profiling es el proceso de EXAMINAR los
datos disponibles en una fuente de datos
existentes y recolectar ESTADISTICAS e
INFORMACIÓN sobre estos datos.
Se puede realizar con software específico o
con sentencias SQL.
El resultado de la tarea permite calcular las
métricas de calidad que aplican en cada
conjunto de datos
Census
Ciencia y Gobierno de Datos Data Profiling
Column profiling: analiza Permite : Descubrir
las columnas para todos problemas de contenido
los registros. Determina: Validar si los datos
Valores, frecuencias, tipo conforman las
de datos, rangos, mínimos expectativas
y máximos, patrones, Comparar el status actual
reglas de unicidad con el deseado
Data Profiling
Table profiling Permite : Descubrir datos
Externo:Compara los duplicados, sinónimos y
datos ENTRE tablas para valores que corrompen la
descubrir duplicaciones y integridad de los datos
redundancia Construye una estructura
Compara datos en 3era NF eliminando
provenientes de redundancias. Este
diferentes fuentes modelo luego puede
Verifica la consistencia de utilizarse como base para
las claves secundarias otros almacenamientos
Census
Ciencia y Gobierno de Datos
Definición de métricas de DQ
Recolectar input:
1. Incidentes de calidad de Medidas
datos candidatas:
Data profiling para
2. Inconsistencias de
identificar los
sistemas de BI
problemas comunes k1 k2 k3 k4 k5
3. Requerimientos
especiales de proyectos k6 ….
4. KPIs de negocio
1 2 3
Enterprise
DW
Fixes
Errores
Errores
DQmart
Informes Proyecciones
Data
Steward 29
Census
Ciencia y Gobierno de Datos
• Integridad • Relevancia
• Completitud • Utilidad
• Validez • Credibilidad
• Precisión • Claridad
• Obsolescencia •…….
• Disponibilidad
•……..
Mejorar Descubrir
La clave del éxito:
• Gobierno de datos.
• Uso eficiente de la tecnología y los RRHH.
• Capacitación y transformación cultural.
Census
Ciencia y Gobierno de Datos
Cadena de valor
Census
Ciencia y Gobierno de Datos
La Identidad Digital
La identidad digital es una colección de datos que representan los atributos, las
preferencias y los rasgos de los sujetos que interactúan en el mundo digital.
Predictiva Monetizado
Descriptiva
Sensible
Gobierno de Datos
Productos analizados
Census
Ciencia y Gobierno de Datos
Nuevos roles
• Data Governance Officer (DGO) : Es el
responsable de la gestión del programa de
Gobierno de Datos
• Data Protection Officer (DPO) : Es el responsable
del cumplimiento de las regulaciones sobre el
uso de los datos y de la aplicación efectiva de las
políticas de seguridad
• Data Stewards : Son los responsables de manejar
el contenido de los datos.
Census
Ciencia y Gobierno de Datos
40
Census
Ciencia y Gobierno de Datos
¿Cómo empezar?
Plan de
Diagnóstico proyecto Start Up On going PIR
3 semanas Start Up 6 meses 6 meses
1 semana
Census
Ciencia y Gobierno de Datos
Proyecto Start Up
• Es un proyecto cuyo sponsor principal debe ser la alta
dirección de la compañía.
Bibliografía
• Ladley John, Data Governance.How to Design, Deploy, and
Sustain an Effective Data Governance Program, Elsevier, USA,
2012
• IBM Information Governance Solutions. Ibm.com/redbooks
• Sebastian-Coleman, Laura, Measuring Data Quality for
Ongoing Improvement, Elsevier, USA, 2013
• The 12 Dimensions of Data Quality. Danette McGilvray,
Granite Falls Consulting, Inc.