Documentos de Académico
Documentos de Profesional
Documentos de Cultura
2-Dimensiones de Calidad PDF
2-Dimensiones de Calidad PDF
Tema 2:
Algunas dimensiones
Relaciones
Dimensiones de Calidad
Multi-dimensionalidad de la calidad
Concepto de dimensin de calidad
Jerarqua de conceptos de calidad: factores, mtricas y mtodos de
medicin
Multi-dimensionalidad
Adriana Marotta
Algunas dimensiones
Relaciones
Multi-dimensionalidad de la calidad
La calidad se caracteriza va mltiples dimensiones o
atributos que ayudan a calificar los datos.
Dimensin de calidad:
Una dimensin captura una faceta (a alto nivel) de la calidad.
Ejemplos:
Frescura: los datos son recientes/actualizados.
Exactitud: los datos son exactos/correctos.
Completitud: disponemos de todos los datos.
Adriana Marotta
Multi-dimensionalidad
Algunas dimensiones
Relaciones
Multi-dimensionalidad de la calidad
Factor de calidad:
Un factor representa un aspecto particular de una dimensin de
calidad.
Ejemplo: Varios aspectos de la dimensin Exactitud son:
Correctitud semntica: si los datos representan entidades/estados del
mundo real.
Correctitud sintctica: si los datos no tienen errores sintcticos.
Precisin: si los datos tienen el suficiente nivel de detalle.
Multi-dimensionalidad
Adriana Marotta
Algunas dimensiones
Relaciones
Objectivity
Credibility
Credibility, Confidence
Reputation
Reputation
Access
Security
Security, Privileges
Pertinence
Added value
Freshness
Completeness
Data quantity
Interpretation
Comprehension
Concise repr.
Consistent repr.
Adriana Marotta
Multi-dimensionalidad
Algunas dimensiones
Relaciones
Algunas propuestas
ISO/IEC 25012
Presenta las dimensiones de calidad de datos para los Sistemas de
Informacin
Inherentes
Inherentes y
Dependientes
Dependientes
Complecin
Consistencia
Credibilidad
Actualidad
Conformidad
Confidencialidad
Eficiencia
Precisin
Trazabilidad
Entendibilidad
Disponibilidad
Portabilidad
Recuperabilidad
Multi-dimensionalidad
Adriana Marotta
Algunas dimensiones
Relaciones
Algunas propuestas
Categora
Dimensiones
Intrinsic
Accessibility
Contextual
Representational
Adriana Marotta
Multi-dimensionalidad
Algunas dimensiones
Relaciones
Medicin de la calidad
Mtrica de calidad:
Una mtrica es un instrumento que define la forma de medir un factor de
calidad.
Se debe definir:
La semntica (cmo se mide).
Ej. cantidad de valores nulos, cantidad de tuplas, tiempo transcurrido
desde la ltima actualizacin
Las unidades de medicin.
Ej. tiempo de respuesta en ms, volumen en GB, cantidad de
transacciones/seg.
La granularidad de la medida.
Ej. cantidad de errores en toda la tabla o en un atributo.
Granularidades tpicas: celda, tupla, atributo, vista (conj. de celdas), tabla,
grupo de tablas, fuente
Multi-dimensionalidad
Adriana Marotta
Algunas dimensiones
Relaciones
Medicin de la calidad
Mtodo de medicin:
Un mtodo es un proceso que implementa una mtrica.
Es el encargado de tomar una serie de medidas (correspondientes
a una mtrica) para una BD concreta.
La implementacin del mtodo es dependiente de la aplicacin en
concreto y de la estructura de la BD
Ejemplo: para medir el tiempo transcurrido desde la ltima
actualizacin, se puede:
Usar timestamps de la BD
Acceder a los logs de actualizacin
Comparar versiones de la BD
Adriana Marotta
Multi-dimensionalidad
Algunas dimensiones
Relaciones
Dimensin:
Exactitud: Concierne la correctitud y la precisin con que los datos del
mundo real son representados en un sistema de informacin
Factor:
Correctitud sintctica: Indica qu tan libre de errores sintcticos estn los
datos
Mtricas:
Corr. Sint. Booleana: Un booleano que indica si un dato es
sintcticamente correcto o no. (Ej. un telfono es correcto o no)
Desviacin de corr. sint.: La distancia a un dato considerado como
sintcticamente vlido (Ej. Montevido, Mtdo)
Mtodos:
CheckRule: Chequea si un dato satisface una regla de formato.
CheckDictionary: Chequea si un dato se encuentra en un diccionario.
ComputeDistance: Calcula la distancia entre un dato y el valor ms
cercano en un diccionario.
Multi-dimensionalidad
Adriana Marotta
Algunas dimensiones
Relaciones
Adriana Marotta
QUALITY
ABSTRACTIONS
Dimension
1
1..*
Factor
1
1..*
Metric
1
1..*
Method
10
Multi-dimensionalidad
Algunas dimensiones
Relaciones
Multi-dimensionalidad
11
Adriana Marotta
Algunas dimensiones
Relaciones
Adriana Marotta
12
Multi-dimensionalidad
Algunas dimensiones
Relaciones
Exactitud (accuracy)
Multi-dimensionalidad
13
Adriana Marotta
Algunas dimensiones
Relaciones
Adriana Marotta
14
Multi-dimensionalidad
Algunas dimensiones
Relaciones
Multi-dimensionalidad
15
Adriana Marotta
Algunas dimensiones
Relaciones
Adriana Marotta
16
name
address
telephone
interview
test
21
Mara Roca
Carrasco
6001104
low
1.0
22
Juan Prez
Coloniaa 1280/403
9023365
medium
.5
43
Emilio Gutirrez
Irigoita 3843
3364244
high
.8
56
Gabriel Garca
Propios 2145/101
low
.5
57
Laura Torres
099628734
medium
.7
58
Ral Gonzlez
4112533
medium
.9
101
Carlos Schnider
Copacabana 1210
094432528
high
.9701
102
Miriam Revoir
9001029
medium
.7945
103
A. Benedetti
Charra 1284/1
7091232 (ta)
low
.9146
104
Luis Lpez
Sixtina s/n
high
.822
Errores semnticos
Calidad de Datos, curso 2013
Multi-dimensionalidad
Errores sintcticos
Faltas de precisin
17
Adriana Marotta
Algunas dimensiones
Relaciones
Grados:
Miden el grado de confianza en la exactitud del dato.
En gral. se asignan valores entre 0 y 1.
Pueden provenir de procesos automticos de medicin o
reconocimiento.
Ej.
son reconocidos como C con exactitudes
.
0.80, 1.00 y 0.65 respectivamente.
Adriana Marotta
18
Multi-dimensionalidad
Algunas dimensiones
Relaciones
Promedios:
AccuracyAvg(S) = (
i a i) / n
Promedios ponderados:
Accuracyweight(S) = i wi ai, 0 wi 1
Multi-dimensionalidad
19
Adriana Marotta
Algunas dimensiones
Relaciones
Adriana Marotta
20
10
Multi-dimensionalidad
Algunas dimensiones
Relaciones
Multi-dimensionalidad
Comparacin con la
realidad o referencial
Asignada
por un agente
o por un experto
21
Adriana Marotta
Algunas dimensiones
Relaciones
Adriana Marotta
22
11
Multi-dimensionalidad
Algunas dimensiones
Relaciones
Mtricas de exactitud
Para el factor Correctitud sintctica
(resumen):
Booleano de correctitud sintctica: Si un
dato es sintcticamente correcto o no.
Desviacin de correctitud sintctica :
Distancia a los datos correctos ms
parecidos.
Se usan reglas
de formato
o diccionarios
23
Adriana Marotta
Referenciales:
vs.
Diccionarios:
Usados para verificar la
correctitud sintctica.
Contienen una lista de valores
vlidos para un dominio.
El chequeo consiste en
verificar que un dato
pertenezca al diccionario.
Adriana Marotta
24
12
Multi-dimensionalidad
Algunas dimensiones
Relaciones
Mtricas de exactitud
Para el factor Precisin:
Jerarqua de precisiones
de valores del dominio
Multi-dimensionalidad
Varios valores
para un mismo
estado/entidad
Esquema
de datos
Descomposicin
de texto libre
25
Adriana Marotta
Algunas dimensiones
Relaciones
Importancia de la exactitud
Adriana Marotta
26
13
Multi-dimensionalidad
Algunas dimensiones
Relaciones
Exactitud: Resumen
Dimensin
Accuracy
Factores
Semantic
correctness
Syntactic
correctness
Precision
Mtricas
Sem. corr.
boolean
Sem. corr.
deviation
Synt. corr.
boolean
Synt. corr.
deviation
Sem. corr.
degree
Multi-dimensionalidad
Scale
Granularity
Standard
error
27
Adriana Marotta
Algunas dimensiones
Relaciones
Adriana Marotta
28
14
Multi-dimensionalidad
Algunas dimensiones
Relaciones
Completitud (completeness)
Intuitivamente, la completitud indica si el SI contiene
toda la informacin de inters:
Multi-dimensionalidad
29
Adriana Marotta
Algunas dimensiones
Relaciones
Cobertura (coverage):
Cuntas entidades de la realidad contiene mi SI?
Mundo cerrado (close world): Una tabla contiene todos los estados de la
realidad que ella describe.
Mundo abierto (open world): Una tabla puede contener slo una parte de los
estados de la realidad que ella describe.
Adriana Marotta
30
15
Multi-dimensionalidad
Algunas dimensiones
Relaciones
Factores de completitud
Densidad (density):
Cunta info tengo sobre las entidades de mi SI?
Interesa medir cunta info tengo y cunta me falta sobre las
entidades del SI.
Varias interpretaciones de la falta de valores (nulos):
Existen pero no los conozco (ej. No conozco el telfono de Raquel).
Porque no existe (ej. Raquel no tiene telfono).
No se si existe (ej. No se si Raquel tiene telfono).
Multi-dimensionalidad
31
Adriana Marotta
Algunas dimensiones
Relaciones
Adriana Marotta
32
16
Multi-dimensionalidad
Algunas dimensiones
Relaciones
Multi-dimensionalidad
33
Adriana Marotta
Algunas dimensiones
Relaciones
Mtricas de completitud
Para el factor Cobertura:
Ratio de cobertura: Porcentaje de
datos contenidos en el SI.
Estimacin del
Referencial
o su tamao
Ponderaciones
Variantes:
Ponderando segn la importancia
de los atributos.
Ponderando grupos de atributos.
Ej. Si no tengo la direccin pero
tengo el telfono no es tan grave.
Adriana Marotta
34
17
Multi-dimensionalidad
Algunas dimensiones
Relaciones
Importancia de la completitud
Tiene gran impacto en sistemas que recuperan
informacin de fuentes externas (ej. Internet).
Necesito saber si acced a todas las fuentes posibles.
Ej: todas las compaas areas que vuelen a Paris
Interfaz de acceso
35
Adriana Marotta
Multi-dimensionalidad
Algunas dimensiones
Relaciones
Completitud: Resumen
Dimensin
Completeness
Factor
Density
Coverage
Density
ratio
Coverage
ratio
Mtrica
Adriana Marotta
36
18
Multi-dimensionalidad
Algunas dimensiones
Relaciones
Frescura (freshness)
Intuitivamente, la frescura indica qu tan viejos son los
datos:
Estos datos son lo suficientemente frescos para nuestras
necesidades?
Estos datos son todava vigentes o estn obsoletos?
Tenemos los datos ms recientes?
Actualizamos ltimamente los datos?
Multi-dimensionalidad
37
Adriana Marotta
Algunas dimensiones
Relaciones
Ejemplos:
Datos de clientes (direcciones, telfonos,)
Saldos bancarios (casa central, sucursales, estados de cuentas, )
Interesa medir el desfasaje entre los datos del SI y los datos reales
o de una fuente de datos
actualizacin
Realidad (o BD fuente)
Calidad de Datos, curso 2013
Adriana Marotta
SI
38
19
Multi-dimensionalidad
Algunas dimensiones
Relaciones
Factores de frescura
Oportunidad (timeliness):
Qu tan vigentes/oportunos son los datos de mi SI?
Cun actuales son los datos para la tarea en mano.
Los datos de un SI pueden ser actuales pero intiles por no llegar a
tiempo para un uso especfico.
Ejemplos:
Cartelera de cursos universitarios que se publica luego de comenzados
los cursos.
Stock que se actualiza luego que se sacaron las rdenes de compra en
base a cantidades en stock.
Multi-dimensionalidad
39
Adriana Marotta
Algunas dimensiones
Relaciones
Factores de frescura
Volatilidad (volatility):
Qu tan inestables son los datos de mi SI?
Caracteriza la frecuencia con que los datos cambian en el tiempo.
Es una caracterstica inherente a la naturaleza del dato.
Ejemplos:
Fecha de nacimiento debera tener volatilidad 0.
Cantidad en stock seguramente tendr alta volatilidad, es vlido por
intervalos de tiempo muy cortos.
Adriana Marotta
40
20
Multi-dimensionalidad
Algunas dimensiones
Relaciones
Mtricas de frescura
Momento de tarea
involucrada
Multi-dimensionalidad
41
Adriana Marotta
Algunas dimensiones
Relaciones
Importancia de la frescura
Tiene gran impacto en algunos tipos de sistemas:
Adriana Marotta
Interfaz de acceso
42
21
Multi-dimensionalidad
Algunas dimensiones
Relaciones
Frescura: Resumen
Dimensin
Freshness
Factor
Currency
Timeliness
Volatility
Mtrica
Currency1
Currency2
Multi-dimensionalidad
Freshness
boolean
Timeliness
Volatility
43
Adriana Marotta
Algunas dimensiones
Relaciones
Adriana Marotta
44
22
Multi-dimensionalidad
Algunas dimensiones
Relaciones
Consistencia (consistency)
Intuitivamente, la consistencia captura la satisfaccin
de reglas semnticas definidas sobre los datos:
Los datos satisfacen las reglas de dominio?
Las dependencias funcionales y referenciales se satisfacen?
Hay contradicciones entre los datos?
Multi-dimensionalidad
45
Adriana Marotta
Algunas dimensiones
Relaciones
Integridad de dominio
Satisfaccin de reglas sobre el contenido de un atributo.
Ej. edad entre 0 y 120 aos.
Integridad intra-relacin
Satisfaccin de reglas entre atributos de una misma tabla.
Reglas ms tpicas:
Dependencias de clave y de unicidad
Dependencias funcionales
Dependencias de valores. Ej. Edad = Year (now() FechaNacimiento)
Expresiones condicionales (edits). Ej. EstadoCivil = casado
Edad 14
Integridad inter-relacin
Satisfaccin de reglas entre atributos de varias tablas.
Reglas ms tpicas:
Dependencias de inclusin (clave fornea, integridad referencial)
En todos los casos interesa medir qu tan bien se satisfacen las reglas
de integridad
Adriana Marotta
46
23
Multi-dimensionalidad
Algunas dimensiones
Relaciones
Importancia de la consistencia
La consistencia de los datos es un tema bastante
resuelto en BD relacionales.
Se definen en los esquemas (ej. clave primaria) y las controla el
SGBD.
Multi-dimensionalidad
47
Adriana Marotta
Algunas dimensiones
Relaciones
Mtricas de consistencia
Booleano de Consistencia
Si el dato satisface o no las reglas (de dominio, intra-relacin o
inter-relacin, segn el factor).
La granularidad podra ser celda o conjunto de celdas.
Agregacin:
Ratio de integridad: Porcentaje de datos que satisfacen las
reglas (de dominio, intra-relacin o inter-relacin, segn el
factor).
Como puede haber varias reglas para una misma relacin (o
grupo de relaciones), en general se construye una suma
ponderada de los resultados de medir dichas reglas.
Adriana Marotta
48
24
Multi-dimensionalidad
Algunas dimensiones
Relaciones
Consistencia: Resumen
Dimensin
Consistency
Factor
Domain
integrity
Relation
integrity
Referential
integrity
Dom. int.
rule
Rel. int.
rule
Ref. int.
rule
Mtrica
Multi-dimensionalidad
49
Adriana Marotta
Algunas dimensiones
Relaciones
Adriana Marotta
50
25
Multi-dimensionalidad
Algunas dimensiones
Relaciones
Unicidad (uniqueness)
Multi-dimensionalidad
51
Adriana Marotta
Algunas dimensiones
Relaciones
No-duplicacin (duplication-free):
Hay duplicacin si la misma entidad aparece repetida en forma exacta.
Los valores de la clave y los atributos coinciden (o son nulos en algunas tuplas).
Ej. <1.234.567-8, A. Sosa, 25 aos, casado>,
. <1.234.567-8, A. Sosa, NULL, NULL>
No-contradiccin (contradiction-free):
Hay contradiccin si la misma entidad aparece repetida con
contradicciones.
Los valores de la clave pueden coincidir o no.
Hay diferencias en valores de algunos atributos (no nulos)
Ej. <1.234.567-8, A. Sosa, 25 aos, casado>,
. <1.234.567-6, Andrs Sosa, 24 aos, NULL>
Adriana Marotta
52
26
Multi-dimensionalidad
Algunas dimensiones
Relaciones
Mtricas de unicidad
Booleano de Unicidad
Si el dato est duplicado o no, para factor No-duplicacin
Si el dato tiene contradiccin o no, para factor No-contradiccin
La granularidad podra ser celda o conjunto de celdas.
Tcnicas de deteccin
de duplicados
Agregaciones
Para el factor No-duplicacin:
Multi-dimensionalidad
53
Adriana Marotta
Algunas dimensiones
Relaciones
Importancia de la unicidad
Efecto multiplicatorio en sistemas que recolectan
datos:
Sistemas de data warehousing
Hubs de servicios y mediadores
Sistema P2P
Interfaz de acceso
Adriana Marotta
54
27
Multi-dimensionalidad
Algunas dimensiones
Relaciones
Unicidad: Resumen
Dimensin
Uniqueness
Factor
Duplicatefree
Contradictionfree
Mtrica
Duplicate-free
boolean
Multi-dimensionalidad
Contradiction-free
boolean
55
Adriana Marotta
Algunas dimensiones
Relaciones
Adriana Marotta
56
28
Multi-dimensionalidad
Algunas dimensiones
Relaciones
Intuitivo
Clasifican las dimensiones en 3 categoras:
Conceptual schema, data value, data format
Multi-dimensionalidad
57
Adriana Marotta
Algunas dimensiones
Relaciones
Enfoque emprico
Adriana Marotta
58
29
Multi-dimensionalidad
Algunas dimensiones
Relaciones
Enfoque intuitivo
Multi-dimensionalidad
59
Adriana Marotta
Algunas dimensiones
Relaciones
Adriana Marotta
60
30
Multi-dimensionalidad
Algunas dimensiones
Relaciones
Multi-dimensionalidad
61
Adriana Marotta
Algunas dimensiones
Relaciones
Adriana Marotta
62
31
Multi-dimensionalidad
Algunas dimensiones
Relaciones
Multi-dimensionalidad
63
Adriana Marotta
Algunas dimensiones
Relaciones
Adriana Marotta
64
32
Multi-dimensionalidad
Algunas dimensiones
Relaciones
Multi-dimensionalidad
65
Adriana Marotta
Algunas dimensiones
Relaciones
Aplicaciones administrativas
Es ms importante la exactitud, completitud y consistencia de los
datos, que el tiempo de respuesta .
Tambin son mas importantes que la actualidad de los datos, si se
considera que son datos que no cambian con una gran frecuencia.
Adriana Marotta
66
33
Bibliografa
Data Quality for the Information Age. Redman. 1996 Artech House Inc., ISBN 089006-883-6
Beyond accuracy: What data quality means to data consumers. Wang, Strong.
Journal on Management of Information Systems, Vol. 12 (4):5-34, 1996.
Adriana Marotta
67
34