Documentos de Académico
Documentos de Profesional
Documentos de Cultura
14
Modalidad de Educación Semipresencial
Calidad de los
UNIVERSIDAD PERUANA LOS ANDES
modelos de
datos
Facultad de Ingeniería
Tiempo
Historia de la Calidad de Datos
› Desde que existen los datos informatizados, siempre ha existido la
preocupación de que sean correctos. Inicialmente la Calidad de Datos
se realizaba con edición manual o con programas desarrollados con
lenguajes no adaptados para ese uso, o incluso la edición manual de
los datos.
› A principios de los 80 se desarrollaron los primeros sistemas de
Calidad de Datos, por parte del gobierno de Estados Unidos, para
regular los cambios de domicilio, fallecimientos, bodas, divorcios, etc
en un sistema denominado NCOA (National Change of Address
Registry)
› La primera vez que se implemento un sistema especializado en la
calidad de datos en España fue para corregir y/o informar el código
postal, en la dirección de los clientes, de las principales entidades
financieras del país. Este fue desarrollado a principios de los 90,
basado en un sistema semiautomático, y apoyado por un
departamento de codificación manual, en el que se utilizaban multitud
de listados en papel. La técnica utilizada era muy primitiva (fuerza
bruta), y no implementaba las metodologías, que actualmente poseen
los sistemas modernos de calidad de datos.
¿Qué es la calidad de datos?
La Calidad de Datos no sólo se refiere a la
ausencia de defectos:
› Los datos deben proporcionar una visión única
› Debe estar correctamente relacionada e
interrelacionada con todas las fuentes
› Los datos deben ser consistentes, completos y
adecuados para su función
› Debemos asegurarnos de cumplir normativas y leyes
Impactos de Negocio
•Riesgo en el cumplimiento normativas •Riesgo competitivo
•Sistema de gestión del riesgo •Detección del fraude
•Sistema de integración del riesgo •Riesgos legales (LOPD)
•Riesgo en la inversión •Otros riesgos
•Detección y corrección
Riesgo
Mayor
•Prevención
•Cobro ineficiente •Reingeniería de procesos
•Mala relación con el cliente •Penalizaciones
•Pérdida de oportunidades Incremento •Sobrepagos
Pérdida ingresos
de Costes
•Aumento de costes •Recursos incrementados
Baja confianza
•Retrasos
•Cargas de trabajo
•Tiempos de proceso
› Costes de Gestión
– Discrepancias entre aplicaciones puede requerir trabajos de reconciliación de
registros
› Incumplimiento de normativas
– Regulaciones
– Leyes: La calidad de datos es uno de los pilares fundamentales para el
Reflejo de la mala calidad de los
datos en el BI
DWH-BI
“Through 2007, more than 50 percent of data warehouse
projects will have limited acceptance, or will be outright
failures, as a result of a lack of attention to data quality
issues” Gartner
La toma de decisiones basada en datos incorrectos puede
generar decisiones incorrectas.
Concepto: Calidad de la Información
Beneficios de la Calidad de Datos:
› Mejora de la toma de decisiones
› Aumento de la confianza de los usuarios
Soluciones de Calidad de
Datos - Arquitectura
Cuadros de Mando
Calidad de Datos
Cliente
Aplicaciones
Servidor
Runtime
Runtime Bases de Datos
Repositorio
Realtime /
SOA
Soluciones
integración
Diccionarios
La (r)evolución, Calidad de Datos
e Integración
Auditoría, control y creación de informes
Garantizar la coherencia de los datos, realizar análisis de impacto y supervisar
constantemente la calidad de la información
Desarrollo y gestión
Desarrollar y colaborar con un repositorio común y metadatos compartidos
Calidad de Datos, ¿Donde actúa? ETQL
…
Almacena- Inteligencia
Reporting Front End Y
Visión única
Calidad Aplicación Reporting del cliente
o producto …
Servidor DQ Aplicación X
miento
BBDD
Data Data Mart
Warehouse
• Conciliación fuentes
de datos
Datos no Sistemas
CRM Finanzas
estructurados Etc …
externos
Requerimientos de Calidad de
Datos
Localizar relaciones
Limpieza, Perfilado, medición y
entre registros, como Calidad de Datos para
estandarización, cuantificación del
desduplicación, cualquier área
identificación de datos impacto de la calidad
relación de dos o más incluyendo finanzas,
personales, como de datos, además de
tablas, detección de control de gestión y
nombres, direcciones y su seguimiento y
unidades familiares o producción
teléfonos monitorización
corporativas, …
Auditar para
3
conocer
6 Data Experts /
Owners definen implementar las
iniciativas de reglas
corrección 2
4 Informes
Definir reglas de
1 negocio para:
5 Data Experts /
Owners • Conformidad
validan • Consistencia
informes • Normalización
• Desduplicación
Procesos de Calidad de Datos
Matching Perfilado de
Datos
Datos
Mejora de datos
Limpieza de Datos
Perfilado de datos
› El perfilado de datos permite
localizar, medir, monitorizar y
reportar problemas de calidad de Matching Perfilado de
datos
Datos
– Perfilado de estructura
– Perfilado de contenido
Perfilado de Estructura
› El perfilado de estructura consiste en el
análisis de los datos sin tener en cuenta su
significado
› El análisis se realiza de forma semi-automática
y masiva
› Tipos de análisis del Perfilado de Estructura:
– Perfilado de Columnas
– Perfilado de Dependencias
– Perfilado de Redundancias
Perfilado de Contenido
› El perfilado de contenido analiza con profundidad el
dato y su significado
› Requiere una configuración para cada campo a
analizar
› Se combina con el uso de diccionarios,
componentes específicos de tratamiento de datos,
separadores, etc
Etapas del Perfilado de Datos
Acceder Descubrir Limpiar Integrar Entregar
Nivel
Actividad
Perfilado P. Estructura P. Contenido P.P.Estructura
Estructura
Tipo de
Actividad Descubrimiento Análisis de Contenido Análisis de estructura Monitorización
lugar correspondiente
Datos
– Estandarizar formatos
– Corregir errores en los datos Dato s
Limpieza de Datos
Determinación y separación de
Datos (parsing)
La determinación y separación de datos consiste en la
descomposición de los distintos elementos que
componen los datos
Por ejemplo, el nombre siguiente:
Título: Ingeniero
Matching Perfilado de
Datos
Nombre: José
1º Apellido: Rodríguez Dato s
Limpieza de Datos
Estandarización
La estandarización es la adecuación de un dato a
un formato esperado.
Por ejemplo, el NIF siguiente:
5428846
Matching Perfilado de
Datos
Mejora de datos
Limpieza de Datos
Corrección
La corrección consiste en el reemplazo de un
elemento erróneo por uno correcto
Por ejemplo, la dirección siguiente:
Calle Tumaco 14, 28010 Madrid
Matching Perfilado de
Datos
Mejora de datos
Limpieza de Datos
Enriquecimiento
El enriquecimiento consiste en la adición de datos
que no existían
Por ejemplo, el nombre siguiente:
Jose María Gomez Hurtado
Matching Perfilado de
Datos
Mejora de datos
Limpieza de Datos
Matching
› El matching de datos se utiliza para:
– Detección de duplicados
– Relación entre dos fuentes de datos
que no tienen campos de unión
entre sí Matching Perfilado de
corporativas (Householding)
› Se pueden aplicar múltiples criterios
para las relaciones, que
Dato s
✓ {} ✓ ✓ ✓
EVA SANT LLUIS 9 933116311
SI coincide(Razón) y coindice(calle) y
coincide(teléfono) y noesdistinto(CIF)
✓
entonces: Match positivo
Matching Probabilístico
Razón Social CIF CCC Dirección Teléfono Población
LABORATORIOS EVA 08070271716 SAN LUIS 90 3116311 Barcelona
ESPAÑOLA SL
SI media
ponderada>90%
92% entonces match
positivo
✓
Consolidación
– Mejor Registro
Métodos de consolidación
Registro
Superviviente
7 8
Mejor Registro
Un proceso iterativo …
Matching Perfilado de
Datos
Datos
Mejora de datos
Limpieza de Datos
Aplicaciones del DQ en las compañías
Las principales tipologías de proyecto de DQ son:
› Calidad de Datos asociada a un proyecto de integración
– DWH-BI
– CRM
– Data Mining
– Migración
– Consolidación
– Sincronización
› Entorno Financiero
› Entornos de Marketing
› Sistemas de Información Geográfica
› Gestión de Datos Maestros
› Calidad de Datos Preventiva
Requerimientos por tipo proyecto
Data Governance
Marketing (mailshots)
EDQM
Resumen
En resumen:
Tecnología
Metodología
Apoyo
Apoyo
¿Cual es la mejor forma de lograr el apoyo para un
proyecto de Calidad de Datos?