Está en la página 1de 34

Multi-dimensionalidad

Tema 2:

Algunas dimensiones

Relaciones

Dimensiones de Calidad

Multi-dimensionalidad de la calidad
Concepto de dimensin de calidad
Jerarqua de conceptos de calidad: factores, mtricas y mtodos de
medicin

Estudio de algunas dimensiones


Exactitud, completitud, frescura, consistencia
Otras dimensiones

Relaciones entre dimensiones

Calidad de Datos, curso 2013

Multi-dimensionalidad

Adriana Marotta

Algunas dimensiones

Relaciones

Multi-dimensionalidad de la calidad
La calidad se caracteriza va mltiples dimensiones o
atributos que ayudan a calificar los datos.
Dimensin de calidad:
Una dimensin captura una faceta (a alto nivel) de la calidad.
Ejemplos:
Frescura: los datos son recientes/actualizados.
Exactitud: los datos son exactos/correctos.
Completitud: disponemos de todos los datos.

Calidad de Datos, curso 2013

Adriana Marotta

Multi-dimensionalidad

Algunas dimensiones

Relaciones

Multi-dimensionalidad de la calidad
Factor de calidad:
Un factor representa un aspecto particular de una dimensin de
calidad.
Ejemplo: Varios aspectos de la dimensin Exactitud son:
Correctitud semntica: si los datos representan entidades/estados del
mundo real.
Correctitud sintctica: si los datos no tienen errores sintcticos.
Precisin: si los datos tienen el suficiente nivel de detalle.

Un factor puede ser ms adecuado que otro para algn tipo de


problema o aplicacin.

Una dimensin puede verse como un agrupamiento de


factores de calidad que tienen el mismo propsito.
Calidad de Datos, curso 2013

Multi-dimensionalidad

Adriana Marotta

Algunas dimensiones

Relaciones

Multitud de factores de calidad


Accuracy

Correction, Precision, Syntax, Level of detail, Error free.

Objectivity

Objectivity, Non ambiguity, Factuality, Impartiality

Credibility

Credibility, Confidence

Reputation

Reputation

Access

System availability, Source availability, Ease of use, Localization

Security

Security, Privileges

Pertinence

Pertinence, Relevance, Utility

Added value

Importance, Added value, Contents

Freshness

Currency, Age, Volatility, Timeliness, Obsolescence

Completeness

Density, Coverage, Suffisance

Data quantity

Volume, Data quantity

Interpretation

Interpretation, Modifiability, Traceability, Appearance, Presentation

Comprehension

Comprehension, Readability, Clearness, Signification, Comparability

Concise repr.

Minimality, Uniqueness, Concise representation

Consistent repr.

Consistency, Format, Syntax, Alias, Semantics, Control of versions

Calidad de Datos, curso 2013

Adriana Marotta

Multi-dimensionalidad

Algunas dimensiones

Relaciones

Algunas propuestas

ISO/IEC 25012
Presenta las dimensiones de calidad de datos para los Sistemas de
Informacin

Inherentes

Inherentes y
Dependientes

Dependientes

Complecin
Consistencia
Credibilidad
Actualidad

Conformidad
Confidencialidad
Eficiencia
Precisin
Trazabilidad
Entendibilidad

Disponibilidad
Portabilidad
Recuperabilidad

Calidad de Datos, curso 2013

Multi-dimensionalidad

Adriana Marotta

Algunas dimensiones

Relaciones

Algunas propuestas

D. M. Strong, Y. W. Lee, and R. Y. Wang, Data quality in context,


Commun. ACM, vol. 40, no. 5, pp. 103110, May 1997.

Categora

Dimensiones

Intrinsic

Accuracy, Objectivity, Believability, Reputation

Accessibility

Accessibility, Access security

Contextual

Relevancy, Value-Added, Timeliness,


Completeness, Amount of data

Representational

Interpretability, Ease of understanding,


Concise representation, Consistent
representation

Calidad de Datos, curso 2013

Adriana Marotta

Multi-dimensionalidad

Algunas dimensiones

Relaciones

Medicin de la calidad

Mtrica de calidad:
Una mtrica es un instrumento que define la forma de medir un factor de
calidad.
Se debe definir:
La semntica (cmo se mide).
Ej. cantidad de valores nulos, cantidad de tuplas, tiempo transcurrido
desde la ltima actualizacin
Las unidades de medicin.
Ej. tiempo de respuesta en ms, volumen en GB, cantidad de
transacciones/seg.
La granularidad de la medida.
Ej. cantidad de errores en toda la tabla o en un atributo.
Granularidades tpicas: celda, tupla, atributo, vista (conj. de celdas), tabla,
grupo de tablas, fuente

Un mismo factor de calidad puede medirse con diferentes


mtricas.

Calidad de Datos, curso 2013

Multi-dimensionalidad

Adriana Marotta

Algunas dimensiones

Relaciones

Medicin de la calidad
Mtodo de medicin:
Un mtodo es un proceso que implementa una mtrica.
Es el encargado de tomar una serie de medidas (correspondientes
a una mtrica) para una BD concreta.
La implementacin del mtodo es dependiente de la aplicacin en
concreto y de la estructura de la BD
Ejemplo: para medir el tiempo transcurrido desde la ltima
actualizacin, se puede:
Usar timestamps de la BD
Acceder a los logs de actualizacin
Comparar versiones de la BD

Una misma mtrica puede ser medida por diferentes


mtodos.
Calidad de Datos, curso 2013

Adriana Marotta

Multi-dimensionalidad

Algunas dimensiones

Relaciones

Ejemplo de conceptos de calidad

Dimensin:
Exactitud: Concierne la correctitud y la precisin con que los datos del
mundo real son representados en un sistema de informacin

Factor:
Correctitud sintctica: Indica qu tan libre de errores sintcticos estn los
datos

Mtricas:
Corr. Sint. Booleana: Un booleano que indica si un dato es
sintcticamente correcto o no. (Ej. un telfono es correcto o no)
Desviacin de corr. sint.: La distancia a un dato considerado como
sintcticamente vlido (Ej. Montevido, Mtdo)

Mtodos:
CheckRule: Chequea si un dato satisface una regla de formato.
CheckDictionary: Chequea si un dato se encuentra en un diccionario.
ComputeDistance: Calcula la distancia entre un dato y el valor ms
cercano en un diccionario.

Calidad de Datos, curso 2013

Multi-dimensionalidad

Adriana Marotta

Algunas dimensiones

Relaciones

Jerarqua de conceptos de calidad


En resumen:
Las dimensiones representan las facetas de
la calidad a alto nivel.
Cada dimensin puede refinarse en un
conjunto de factores que representan
aspectos particulares.
Cada factor puede medirse con varias
mtricas.
Cada mtrica puede implementarse con
varios mtodos de medicin.

Calidad de Datos, curso 2013

Adriana Marotta

QUALITY
ABSTRACTIONS
Dimension
1
1..*
Factor
1
1..*
Metric
1
1..*
Method

10

Multi-dimensionalidad

Algunas dimensiones

Relaciones

Estudio de algunas dimensiones


Exactitud
Completitud
Frescura
Consistencia
Unicidad

Calidad de Datos, curso 2013

Multi-dimensionalidad

11

Adriana Marotta

Algunas dimensiones

Relaciones

Estudio de algunas dimensiones


Exactitud
Completitud
Frescura
Consistencia
Unicidad

Calidad de Datos, curso 2013

Adriana Marotta

12

Multi-dimensionalidad

Algunas dimensiones

Relaciones

Exactitud (accuracy)

Intuitivamente, la exactitud indica que tan precisos, vlidos y


libres de errores estn los datos:

Estos datos son lo suficientemente precisos para nuestras necesidades?


El nivel de detalle de los datos es adecuado?
Estos datos se corresponden con el mundo real?
Estos datos tienen errores? Y en tal caso, los errores son tolerables?
El formato de presentacin de los datos es correcto? Es estndar?

La exactitud se relaciona con la correctitud y la precisin con la


que estn representados los datos en un SI
Abarca aspectos de correctitud que son intrnsecos de los datos y
aspectos de representacin (formato, precisin, etc.).

Calidad de Datos, curso 2013

Multi-dimensionalidad

13

Adriana Marotta

Algunas dimensiones

Relaciones

Factores de exactitud (aspectos)


Correctitud semntica (semantic correctness):
Los datos de mi SI se corresponden con la realidad?
Interesa medir qu tan bien se representan los estados del mundo
real en el SI.
Varios problemas de correctitud semntica:
Datos que no corresponden a ningn estado del mundo real
(mismembers).
Datos que corresponden a un estado equivocado del mundo real.
Datos con errores en algunos atributos.

Ejemplo: Datos de un estudiante pueden referenciar


a una persona inexistente,
a una persona equivocada, o
a la persona correcta pero con algunos errores (ej. direccin)
Calidad de Datos, curso 2013

Adriana Marotta

14

Multi-dimensionalidad

Algunas dimensiones

Relaciones

Factores de exactitud (aspectos)


Correctitud sintctica (syntactic correctness):
Los datos de mi SI tienen errores sintcticos o de formato?
Valores mal escritos son difciles de interpretar por un proceso

Interesa medir si los valores del SI corresponden a valores vlidos del


dominio (no importa si son los valores reales)
Varios problemas de correctitud sintctica:
Errores de valores: Valores fuera de rango, errores ortogrficos y de tipo.
Apellido: Marnez en lugar de Martnez
Edad: 338 aos
Errores de estandarizacin: Valores que no tienen el formato esperado.
Sexo: 0 y 1 en lugar de F y M.
Precios: en moneda extranjera en lugar de pesos
Pesos: en gramos en lugar de kilos
Valores embebidos: Valores que corresponden a mltiples atributos
Direccin: embebe calle nmero apto CP ciudad.

Calidad de Datos, curso 2013

Multi-dimensionalidad

15

Adriana Marotta

Algunas dimensiones

Relaciones

Factores de exactitud (aspectos)


Precisin (precision):
Los datos de mi SI brindan el suficiente detalle?
Interesa medir qu tan detallados son los datos del SI.
Ejemplos:
Salario: $10.000 vs. $10.014 vs. $10.013,88
Fecha: 1977 vs. julio de 1977 vs. 14/7/1977 vs. 14/7/1977
10:55:32.4
Color: Rojo vs. 204R-51G-0B
Cabello: Castao vs. Castao claro cobrizo n 5
Direccin: J.Herrera y Reissig 565, 11300, Montevideo vs.
Montevideo

Calidad de Datos, curso 2013

Adriana Marotta

16

Comparacin de factores de exactitud


stid

name

address

telephone

interview

test

21

Mara Roca

Carrasco

6001104

low

1.0

22

Juan Prez

Coloniaa 1280/403

9023365

medium

.5

43

Emilio Gutirrez

Irigoita 3843

3364244

high

.8

56

Gabriel Garca

Propios 2145/101

low

.5

57

Laura Torres

Maldonado & Yaro

099628734

medium

.7

58

Ral Gonzlez

Rbla Rca Chile 1280/1102

4112533

medium

.9

101

Carlos Schnider

Copacabana 1210

094432528

high

.9701

102

Miriam Revoir

9001029

medium

.7945

103

A. Benedetti

Charra 1284/1

7091232 (ta)

low

.9146

104

Luis Lpez

Sixtina s/n

high

.822

Errores semnticos
Calidad de Datos, curso 2013

Multi-dimensionalidad

Errores sintcticos

Faltas de precisin
17

Adriana Marotta

Algunas dimensiones

Relaciones

Mtricas de exactitud - Tipos


Tres familias de mtricas:
Booleanos:
Indican si un dato es correcto o no. Valores {0, 1}
Ej. un telfono es vlido o no; no hay matices.

Funciones de comparacin de valores:


Miden la cercana entre un valor v del SI y un valor v correcto.
Se pueden normalizar, ej. distancia (18153, 18532) / 18532
Ej.: edit distance

Grados:
Miden el grado de confianza en la exactitud del dato.
En gral. se asignan valores entre 0 y 1.
Pueden provenir de procesos automticos de medicin o
reconocimiento.
Ej.
son reconocidos como C con exactitudes
.
0.80, 1.00 y 0.65 respectivamente.

Calidad de Datos, curso 2013

Adriana Marotta

18

Multi-dimensionalidad

Algunas dimensiones

Relaciones

Mtricas de exactitud - Agregaciones


Para medir la exactitud de conjuntos de datos (ej.
tablas), en funcin de la exactitud de c/dato se usan:
Ratios:
AccuracyRatio(S) = |{ai / ai = 1}| / n
para booleanos
AccuracyRatio(S) = |{ai / ai }| / n, 0 1
para distancias y grados

Promedios:
AccuracyAvg(S) = (
i a i) / n

Promedios con sensibilidades:


AccuracySens(S) = (
i a i ) / n

Promedios ponderados:
Accuracyweight(S) = i wi ai, 0 wi 1

Calidad de Datos, curso 2013

Multi-dimensionalidad

19

Adriana Marotta

Algunas dimensiones

Relaciones

Mtricas y mediciones de exactitud

La correctitud semntica involucra una comparacin del SI con el


mundo real. Suele ser muy costoso.
Ejemplos:
Contratar personal que llame por telfono a todos los clientes y verifique datos.
Enviar cartas/emails con promociones que incentiven a los clientes a enviar sus
datos.
Crear leyes/procedimientos que obliguen a las empresas a declararse
Crear procedimientos que obliguen a los estudiantes a registrarse a un curso
dejando info de contacto.

Alternativa: comparar contra un referencial considerado como


vlido u otra BD
Ejemplos:
Verificar RUCs de empresas contra listado de la DGI
Verificar telfonos de los clientes contra una gua telfonica
Verificar datos de empleados contra la BD contable de la empresa

Calidad de Datos, curso 2013

Adriana Marotta

20

10

Multi-dimensionalidad

Algunas dimensiones

Relaciones

Mtricas y mediciones de exactitud


Para el factor Correctitud semntica
(resumen):
Booleano de correctitud semntica: Si un
dato es correcto o no.
Desviacin de correctitud semntica:
Distancia a los datos correctos.
Grado de correctitud semntica: Impresin
de la correctitud semntica de los datos.

Calidad de Datos, curso 2013

Multi-dimensionalidad

Comparacin con la
realidad o referencial

Asignada
por un agente
o por un experto

21

Adriana Marotta

Algunas dimensiones

Relaciones

Mtricas y medicin de exactitud


La Correctitud sintctica implica verificar si un dato
est bien escrito.
Varias formas de verificar:
Por extensin: Comparar con un diccionario que representa el
dominio.
Ej: los nombres de las calles deben estar en la gua de calles.
Algunos dominios son difciles de representar, ej. apellidos vlidos

Por comprensin: Chequear si satisfacen reglas de sintaxis.


Ejemplos de reglas:
Los telfonos internos tienen 4 dgitos.
Las CI deben de verificar el dgito de control.
El sexo se almacena como F o M.
Las direcciones tienen la forma calle nmero apto CP ciudad.
Las reglas aseguran que los datos se almacenan en un mismo formato
y son compatibles con datos anteriores.
Calidad de Datos, curso 2013

Adriana Marotta

22

11

Multi-dimensionalidad

Algunas dimensiones

Relaciones

Mtricas de exactitud
Para el factor Correctitud sintctica
(resumen):
Booleano de correctitud sintctica: Si un
dato es sintcticamente correcto o no.
Desviacin de correctitud sintctica :
Distancia a los datos correctos ms
parecidos.

Calidad de Datos, curso 2013

Se usan reglas
de formato
o diccionarios

23

Adriana Marotta

Mtricas y medicin de exactitud

Referenciales:

vs.

Usados para verificar la


correctitud semntica.
Contienen un conjunto de
parejas <clave, valor>

Diccionarios:
Usados para verificar la
correctitud sintctica.
Contienen una lista de valores
vlidos para un dominio.

Clave representa un elemento


u estado del mundo real
Valor representa un atributo de
dicho elemento
Ej. <CI, nombre>

Ej. Nombres de calles

El chequeo consiste en
verificar que un dato
pertenezca al diccionario.

Dos tipos de chequeos:


Verificar que la clave
pertenezca al referencial (se
detectan mismembers).
Verificar que la clave est
asociada al valor correcto.

Calidad de Datos, curso 2013

Adriana Marotta

24

12

Multi-dimensionalidad

Algunas dimensiones

Relaciones

Mtricas de exactitud
Para el factor Precisin:

Precisin del agente


o instrumento de
medicin

Escala: Escala de la medicin


Ej. 87 1 cm
1/87
Ej. Rojo vs. 204R-51G-0B
Ej. Interior vs. Colonia

Jerarqua de precisiones
de valores del dominio

Error estndard: Desviacin estndar de


un conjunto de mediciones.
Ej. medidas de trfico tomadas por varios
sensores

Granularidad: Cantidad y cobertura de los


atributos que representan un concepto.
Ej. calle, nmero de puerta, ciudad, cdigo
postal y pas para representar una direccin.

Calidad de Datos, curso 2013

Multi-dimensionalidad

Varios valores
para un mismo
estado/entidad

Esquema
de datos
Descomposicin
de texto libre

25

Adriana Marotta

Algunas dimensiones

Relaciones

Importancia de la exactitud

Tiene gran impacto en algunos dominios de aplicacin, ej. CRM:


Info de contacto (dir, tel, email) para enviar promociones.
Info de segmentacin de mercado (prof, ingresos, preferencias) para
destinar campaas y propaganda.

Grandes problemas de exactitud


Grandes organizaciones reportan problemas en ms de un 30% de sus
datos.

Son muy costosos directa (gastos de envo) e indirectamente


(perdida de oportunidades):
Experiencia realizada en HP Europa, las oportunidades de venta perdidas
en una promocin (por no poder contactar los clientes) correspondieron a
un 25% de las ventas realizadas en esa promocin.

Inversiones importantes para corregir problemas de exactitud:


Promociones y concursos para incentivar el envo de datos de los clientes.
Es rentable contratar personal (o empresas especializadas) para detectar y
corregir manualmente los errores.

Calidad de Datos, curso 2013

Adriana Marotta

26

13

Multi-dimensionalidad

Algunas dimensiones

Relaciones

Exactitud: Resumen
Dimensin
Accuracy

Factores
Semantic
correctness

Syntactic
correctness

Precision

Mtricas
Sem. corr.
boolean

Sem. corr.
deviation

Synt. corr.
boolean

Synt. corr.
deviation

Sem. corr.
degree

Calidad de Datos, curso 2013

Multi-dimensionalidad

Scale

Granularity
Standard
error

27

Adriana Marotta

Algunas dimensiones

Relaciones

Estudio de algunas dimensiones


Exactitud
Completitud
Frescura
Consistencia
Unicidad

Calidad de Datos, curso 2013

Adriana Marotta

28

14

Multi-dimensionalidad

Algunas dimensiones

Relaciones

Completitud (completeness)
Intuitivamente, la completitud indica si el SI contiene
toda la informacin de inters:

El SI representa todos los objetos de nuestra realidad?


Qu porcin de la realidad est representada en el SI?
Tenemos todos los datos que describen a nuestros objetos?
Tenemos muchos valores nulos?

La completitud recubre aspectos extensionales e


intensionales del SI:
Extensional: La cantidad de entidades/estados de la realidad
representados en el SI
Intensional: La cantidad de datos sobre cada entidad/estado del SI

Calidad de Datos, curso 2013

Multi-dimensionalidad

29

Adriana Marotta

Algunas dimensiones

Relaciones

Factores de completitud (aspectos)

Cobertura (coverage):
Cuntas entidades de la realidad contiene mi SI?
Mundo cerrado (close world): Una tabla contiene todos los estados de la
realidad que ella describe.
Mundo abierto (open world): Una tabla puede contener slo una parte de los
estados de la realidad que ella describe.

Interesa medir la porcin de los datos de la realidad contenidos en el SI.


Ejemplos:
De los clientes potenciales, cuntos conozco?
Qu porcentaje de las empresas estn registradas en la DGI?

Calidad de Datos, curso 2013

Adriana Marotta

30

15

Multi-dimensionalidad

Algunas dimensiones

Relaciones

Factores de completitud
Densidad (density):
Cunta info tengo sobre las entidades de mi SI?
Interesa medir cunta info tengo y cunta me falta sobre las
entidades del SI.
Varias interpretaciones de la falta de valores (nulos):
Existen pero no los conozco (ej. No conozco el telfono de Raquel).
Porque no existe (ej. Raquel no tiene telfono).
No se si existe (ej. No se si Raquel tiene telfono).

Calidad de Datos, curso 2013

Multi-dimensionalidad

31

Adriana Marotta

Algunas dimensiones

Relaciones

Mtricas y medicin de completitud


Al igual que la correctitud semntica, la cobertura
involucra una comparacin del SI con el mundo real.
Se necesitara un referencial. Pero rara vez es posible obtenerlo.
Ejemplos:
Identificar todos los clientes potenciales.
Conocer todas las personas que estn trabajando (legales o ilegales).
Tener la lista de todos los habitantes de una ciudad.

Alternativa: estimar el tamao que tendra un tal


referencial.
Ejemplos:
Clientes potenciales: encuestas de sondeo.
Trabajadores: sondeos y estimaciones.
Habitantes: datos del ltimo censo.
Calidad de Datos, curso 2013

Adriana Marotta

32

16

Multi-dimensionalidad

Algunas dimensiones

Relaciones

Mtricas y medicin de completitud


Estimacin del referencial: considerar que la realidad
es la unin de los SI conocidos
Ejemplos:
Todos los vuelos a Paris son los propuestos por las agencias de viajes
de Montevideo.

Calidad de Datos, curso 2013

Multi-dimensionalidad

33

Adriana Marotta

Algunas dimensiones

Relaciones

Mtricas de completitud
Para el factor Cobertura:
Ratio de cobertura: Porcentaje de
datos contenidos en el SI.

Estimacin del
Referencial
o su tamao

Para el factor Densidad:


Ratio de densidad: Porcentaje de
valores no nulos.

Ponderaciones

Variantes:
Ponderando segn la importancia
de los atributos.
Ponderando grupos de atributos.
Ej. Si no tengo la direccin pero
tengo el telfono no es tan grave.

Calidad de Datos, curso 2013

Adriana Marotta

34

17

Multi-dimensionalidad

Algunas dimensiones

Relaciones

Importancia de la completitud
Tiene gran impacto en sistemas que recuperan
informacin de fuentes externas (ej. Internet).
Necesito saber si acced a todas las fuentes posibles.
Ej: todas las compaas areas que vuelen a Paris

Necesito saber si esas fuentes me brindan toda la info relevante.


Ej. todos los vuelos de Air France.

Los atributos brindados por cada fuente varan.

Ejemplos de aplicaciones crticas:


CRM (clientes potenciales, preferencias)
Comercio electrnico (proveedores, ofertas)
Aplicaciones cientficas y bio-mdicas
(experimentos, resultados, publicaciones)
Gobierno electrnico (empresas, propiedades)
Calidad de Datos, curso 2013

Interfaz de acceso

35

Adriana Marotta

Multi-dimensionalidad

Algunas dimensiones

Relaciones

Completitud: Resumen
Dimensin
Completeness

Factor
Density

Coverage

Density
ratio

Coverage
ratio

Mtrica

Calidad de Datos, curso 2013

Adriana Marotta

36

18

Multi-dimensionalidad

Algunas dimensiones

Relaciones

Frescura (freshness)
Intuitivamente, la frescura indica qu tan viejos son los
datos:
Estos datos son lo suficientemente frescos para nuestras
necesidades?
Estos datos son todava vigentes o estn obsoletos?
Tenemos los datos ms recientes?
Actualizamos ltimamente los datos?

La frescura embebe la perspectiva temporal de los


datos:
Cundo se crearon/modificaron estos datos?
Cundo se actualizaron estos datos?
Cundo se corroboraron estos datos?

Calidad de Datos, curso 2013

Multi-dimensionalidad

37

Adriana Marotta

Algunas dimensiones

Relaciones

Factores de frescura (aspectos)


Actualidad (currency):
Qu tan vigentes son los datos de mi SI?
Un SI es una vista de entidades/estados de la realidad (o de BD
fuentes o externas) en un momento dado.
Cuando la realidad cambia, el SI puede quedar desactualizado.

Ejemplos:
Datos de clientes (direcciones, telfonos,)
Saldos bancarios (casa central, sucursales, estados de cuentas, )

Interesa medir el desfasaje entre los datos del SI y los datos reales
o de una fuente de datos

actualizacin
Realidad (o BD fuente)
Calidad de Datos, curso 2013

Adriana Marotta

SI
38

19

Multi-dimensionalidad

Algunas dimensiones

Relaciones

Factores de frescura
Oportunidad (timeliness):
Qu tan vigentes/oportunos son los datos de mi SI?
Cun actuales son los datos para la tarea en mano.
Los datos de un SI pueden ser actuales pero intiles por no llegar a
tiempo para un uso especfico.

Ejemplos:
Cartelera de cursos universitarios que se publica luego de comenzados
los cursos.
Stock que se actualiza luego que se sacaron las rdenes de compra en
base a cantidades en stock.

Interesa medir la oportunidad de los datos del SI, teniendo en


cuenta la actualidad y chequeando si el dato estuvo a tiempo.

Calidad de Datos, curso 2013

Multi-dimensionalidad

39

Adriana Marotta

Algunas dimensiones

Relaciones

Factores de frescura
Volatilidad (volatility):
Qu tan inestables son los datos de mi SI?
Caracteriza la frecuencia con que los datos cambian en el tiempo.
Es una caracterstica inherente a la naturaleza del dato.

Ejemplos:
Fecha de nacimiento debera tener volatilidad 0.
Cantidad en stock seguramente tendr alta volatilidad, es vlido por
intervalos de tiempo muy cortos.

Interesa medir el intervalo de tiempo durante el cual los datos se


mantienen vlidos.

Calidad de Datos, curso 2013

Adriana Marotta

40

20

Multi-dimensionalidad

Algunas dimensiones

Relaciones

Mtricas de frescura

Para el factor Actualidad:


Cundo ocurrieron
Actualidad1: Diferencia de tiempo entre el
los cambios?
momento de la consulta y la primera modificacin
no repercutida en el SI.
Actualidad2: Relacin entre: Diferencia de tiempo
Logs de
entre el momento de la consulta y la ltima
los cambios
actualizacin y Frecuencia de cambio en la realidad
(u origen).
Booleano de frescura: El dato est actualizado o Comparacin con
no.
el estado actual

Para el factor Oportunidad:


Oportunidad: Si es actual y lleg a tiempo para la
tarea.

Momento de tarea
involucrada

Para el factor Volatilidad:


Volatilidad: Frecuencia de cambios.

Calidad de Datos, curso 2013

Multi-dimensionalidad

41

Adriana Marotta

Algunas dimensiones

Relaciones

Importancia de la frescura
Tiene gran impacto en algunos tipos de sistemas:

Sistemas de caching y portales web


Sistemas de data warehousing
Sistemas de replicacin
Sistemas Mediadores
Sistemas P2P

Calidad de Datos, curso 2013

Adriana Marotta

Interfaz de acceso

42

21

Multi-dimensionalidad

Algunas dimensiones

Relaciones

Frescura: Resumen
Dimensin
Freshness

Factor
Currency

Timeliness

Volatility

Mtrica
Currency1

Currency2

Calidad de Datos, curso 2013

Multi-dimensionalidad

Freshness
boolean

Timeliness

Volatility

43

Adriana Marotta

Algunas dimensiones

Relaciones

Estudio de algunas dimensiones


Exactitud
Completitud
Frescura
Consistencia
Unicidad

Calidad de Datos, curso 2013

Adriana Marotta

44

22

Multi-dimensionalidad

Algunas dimensiones

Relaciones

Consistencia (consistency)
Intuitivamente, la consistencia captura la satisfaccin
de reglas semnticas definidas sobre los datos:
Los datos satisfacen las reglas de dominio?
Las dependencias funcionales y referenciales se satisfacen?
Hay contradicciones entre los datos?

Pueden ser reglas de integridad para una BD o reglas


de los usuarios
Reglas de integridad: son propiedades que deben satisfacer todas
las instancias de una BD.
Reglas de usuarios: no implementadas en la BD pero necesarias
para una aplicacin.

Calidad de Datos, curso 2013

Multi-dimensionalidad

45

Adriana Marotta

Algunas dimensiones

Relaciones

Factores de consistencia (aspectos)

Integridad de dominio
Satisfaccin de reglas sobre el contenido de un atributo.
Ej. edad entre 0 y 120 aos.

Integridad intra-relacin
Satisfaccin de reglas entre atributos de una misma tabla.
Reglas ms tpicas:
Dependencias de clave y de unicidad
Dependencias funcionales
Dependencias de valores. Ej. Edad = Year (now() FechaNacimiento)
Expresiones condicionales (edits). Ej. EstadoCivil = casado
Edad 14

Integridad inter-relacin
Satisfaccin de reglas entre atributos de varias tablas.
Reglas ms tpicas:
Dependencias de inclusin (clave fornea, integridad referencial)

En todos los casos interesa medir qu tan bien se satisfacen las reglas
de integridad

Calidad de Datos, curso 2013

Adriana Marotta

46

23

Multi-dimensionalidad

Algunas dimensiones

Relaciones

Importancia de la consistencia
La consistencia de los datos es un tema bastante
resuelto en BD relacionales.
Se definen en los esquemas (ej. clave primaria) y las controla el
SGBD.

Nuevos problemas surgen de la incorporacin de


datos externos o con otros formatos (ej. xml)
Reglas simples como de dominio o de unicidad de la clave pueden
no ser controladas por nadie.
Se necesita medir esas violaciones para diagnosticar la
consistencia de la BD.

Los problemas de consistencia son en general un


indicio sobre otros tipos de errores:
Ej.: Datos desactualizados o incorrectitud semntica
Calidad de Datos, curso 2013

Multi-dimensionalidad

47

Adriana Marotta

Algunas dimensiones

Relaciones

Mtricas de consistencia
Booleano de Consistencia
Si el dato satisface o no las reglas (de dominio, intra-relacin o
inter-relacin, segn el factor).
La granularidad podra ser celda o conjunto de celdas.

Agregacin:
Ratio de integridad: Porcentaje de datos que satisfacen las
reglas (de dominio, intra-relacin o inter-relacin, segn el
factor).
Como puede haber varias reglas para una misma relacin (o
grupo de relaciones), en general se construye una suma
ponderada de los resultados de medir dichas reglas.

Calidad de Datos, curso 2013

Adriana Marotta

48

24

Multi-dimensionalidad

Algunas dimensiones

Relaciones

Consistencia: Resumen
Dimensin
Consistency

Factor
Domain
integrity

Relation
integrity

Referential
integrity

Dom. int.
rule

Rel. int.
rule

Ref. int.
rule

Mtrica

Calidad de Datos, curso 2013

Multi-dimensionalidad

49

Adriana Marotta

Algunas dimensiones

Relaciones

Estudio de algunas dimensiones


Exactitud
Completitud
Frescura
Consistencia
Unicidad

Calidad de Datos, curso 2013

Adriana Marotta

50

25

Multi-dimensionalidad

Algunas dimensiones

Relaciones

Unicidad (uniqueness)

Intuitivamente, la unicidad indica el nivel de duplicacin entre los datos.


Los mismos datos estn repetidos en el SI?
Hay datos contradictorios?

La duplicacin ocurren cuando una misma entidad est representada dos


o ms veces en un SI.

La duplicacin va ms all de un chequeo de unicidad de clave.


Una misma entidad puede identificarse de diferentes formas.
Ej. Un docente se identifica por un su NumeroCobro; un estudiante se identifica por su CI.
Pero hay datos repetidos de docentes que son tambin estudiantes.

Una misma entidad puede repetirse por errores en la clave.


Ej. una CI mal digitada.

Una misma entidad puede repetirse con claves diferentes.


Ej. un cliente se identifica por su cuenta bancaria. Pero una persona puede tener varias
cuentas.
Ej. Un usuario se identifica por su email. Pero una persona puede tener varios emails.

Calidad de Datos, curso 2013

Multi-dimensionalidad

51

Adriana Marotta

Algunas dimensiones

Relaciones

Factores de unicidad (aspectos)

No-duplicacin (duplication-free):
Hay duplicacin si la misma entidad aparece repetida en forma exacta.
Los valores de la clave y los atributos coinciden (o son nulos en algunas tuplas).
Ej. <1.234.567-8, A. Sosa, 25 aos, casado>,
. <1.234.567-8, A. Sosa, NULL, NULL>

No-contradiccin (contradiction-free):
Hay contradiccin si la misma entidad aparece repetida con
contradicciones.
Los valores de la clave pueden coincidir o no.
Hay diferencias en valores de algunos atributos (no nulos)
Ej. <1.234.567-8, A. Sosa, 25 aos, casado>,
. <1.234.567-6, Andrs Sosa, 24 aos, NULL>

En ambos casos interesa medir la cantidad de repetidos.

Calidad de Datos, curso 2013

Adriana Marotta

52

26

Multi-dimensionalidad

Algunas dimensiones

Relaciones

Mtricas de unicidad
Booleano de Unicidad
Si el dato est duplicado o no, para factor No-duplicacin
Si el dato tiene contradiccin o no, para factor No-contradiccin
La granularidad podra ser celda o conjunto de celdas.
Tcnicas de deteccin
de duplicados

Agregaciones
Para el factor No-duplicacin:

Ratio de no-duplicados: Porcentaje de datos que no estn


duplicados en forma exacta.

Para el factor No-contraccin:


Ratio de no-contradicciones: Porcentaje de datos que no estn
duplicados con contradicciones.

Calidad de Datos, curso 2013

Multi-dimensionalidad

53

Adriana Marotta

Algunas dimensiones

Relaciones

Importancia de la unicidad
Efecto multiplicatorio en sistemas que recolectan
datos:
Sistemas de data warehousing
Hubs de servicios y mediadores
Sistema P2P

Interfaz de acceso

Calidad de Datos, curso 2013

Adriana Marotta

54

27

Multi-dimensionalidad

Algunas dimensiones

Relaciones

Unicidad: Resumen
Dimensin
Uniqueness

Factor
Duplicatefree

Contradictionfree

Mtrica
Duplicate-free
boolean

Calidad de Datos, curso 2013

Multi-dimensionalidad

Contradiction-free
boolean

55

Adriana Marotta

Algunas dimensiones

Relaciones

Enfoques para las dimensiones


Terico
Se basa en la consideracin del mundo real (RW) y el sistema de
informacin que lo representa (IS), y en el mapeo entre stos.
Representaciones apropiadas?
Defectos de diseo
Repr. incompleta
Repr. ambigua
Estados sin significado
Defectos de operacin
garbling (errores)

Definen las dimensiones en funcin de esto.

Calidad de Datos, curso 2013

Adriana Marotta

56

28

Multi-dimensionalidad

Algunas dimensiones

Relaciones

Enfoques para las dimensiones


Emprico
Seleccionan las dimensiones a travs de entrevistas a
consumidores de datos.
A partir de 179, se quedan con 15 y las clasifican en 4 categoras.
Categoras:
Intrinsic, contextual, representational, accessibility.

Intuitivo
Clasifican las dimensiones en 3 categoras:
Conceptual schema, data value, data format

Calidad de Datos, curso 2013

Multi-dimensionalidad

57

Adriana Marotta

Algunas dimensiones

Relaciones

Enfoque emprico

Calidad de Datos, curso 2013

Adriana Marotta

58

29

Multi-dimensionalidad

Algunas dimensiones

Relaciones

Enfoque intuitivo

Calidad de Datos, curso 2013

Multi-dimensionalidad

59

Adriana Marotta

Algunas dimensiones

Relaciones

Comparacin entre definiciones


Dimensiones del tiempo.

Calidad de Datos, curso 2013

Adriana Marotta

60

30

Multi-dimensionalidad

Algunas dimensiones

Relaciones

Comparacin entre definiciones


Dimensiones de completitud.

Calidad de Datos, curso 2013

Multi-dimensionalidad

61

Adriana Marotta

Algunas dimensiones

Relaciones

Relaciones entre dimensiones

Hasta ahora hemos estudiado los factores de calidad por


separado, pero los factores no son independientes entre s

Algunos ejemplos de relaciones:


Los errores de tipeo (correctitud sintctica) pueden provocar que un dato
sea considerado como semnticamente incorrecto por no poder
encontrarlo en un referencial.
Datos desactualizados tambin causan incorrectitudes semnticas.
Los valores nulos (problemas de densidad) pueden ocultar duplicados e
inconsistencias.

En consecuencia, algunos factores pueden estimarse a partir de


otros:
Por ejemplo, en contextos donde hay pocos errores, en gral de tipeo, la
correctitud semntica puede estimarse a partir de la correctitud sintctica.
Por ejemplo, las inconsistencias suelen ser indicios de problemas de
correctitud semntica o desactualizaciones.

Calidad de Datos, curso 2013

Adriana Marotta

62

31

Multi-dimensionalidad

Algunas dimensiones

Relaciones

Relaciones entre dimensiones

Anlogamente, las acciones que puedan realizarse para mejorar


un factor de calidad pueden impactar en otros factores.

Dos formas de influencia:


Correlaciones positivas: se mejoran ambos factores
Negativa: se mejora un factor mientras se empeora el otro

Dichas correlaciones depende del contexto de aplicacin.


Correlaciones vlidas en un contexto pueden no serlo en otro.
Ejemplo:
En una aplicacin bancaria, contar con datos actualizados
generalmente se asocia a un incremento de la completitud (tengo info
de ms transacciones)
En un sistema de sensores en tiempo real, requerir datos actualizados
puede significar trabajar con informacin incompleta ya que algunos
sensores pueden no transmitir a tiempo.

Calidad de Datos, curso 2013

Multi-dimensionalidad

63

Adriana Marotta

Algunas dimensiones

Relaciones

Relaciones entre dimensiones


Las correlaciones positivas permiten aplicar acciones
de mejora conjunta.
Ejemplos:
Si se logran obtener datos ms actualizados, se podra mejorar la
correctitud semntica (ms datos corresponderan a la realidad).
Si se completan los valores nulos (densidad) tambin se podra
mejorar la correctitud semntica.

Correlaciones consideradas tpicamente:


Correctitud sintctica y semntica
Consistencia y exactitud
Actualizacin y correctitud semntica

Calidad de Datos, curso 2013

Adriana Marotta

64

32

Multi-dimensionalidad

Algunas dimensiones

Relaciones

Relaciones entre dimensiones


Las correlaciones negativas implican poner en balanza
algunos factores.
Ejemplos:
Si se realizan tareas costosas para corregir errores de correctitud
semntica (por ej. de control manual), se puede penalizar al sistema en
sus tiempos de respuesta o en la frescura de los datos.
Si se integran datos externos para mejorar la completitud, se pueden
introducir duplicados o degradar la consistencia (si los nuevos datos no
satisfacen las reglas de integridad).
Si se eliminan datos inconsistentes se pierde en completitud.

Correlaciones consideradas tpicamente:


Completitud vs. Consistencia
Completitud vs. Exactitud
Frescura vs. Exactitud / Completitud / Consistencia

Calidad de Datos, curso 2013

Multi-dimensionalidad

65

Adriana Marotta

Algunas dimensiones

Relaciones

Relaciones entre dimensiones


A veces elegimos favorecer una dimensin en
perjuicio de otras
Ejemplos
Aplicaciones web
Restricciones de tiempo.
Se prefiere frescura a exactitud, completitud o consistencia.
Ej.: Lista de cursos publicados en una universidad.

Aplicaciones administrativas
Es ms importante la exactitud, completitud y consistencia de los
datos, que el tiempo de respuesta .
Tambin son mas importantes que la actualidad de los datos, si se
considera que son datos que no cambian con una gran frecuencia.

Calidad de Datos, curso 2013

Adriana Marotta

66

33

Bibliografa

Data Quality: Concepts, Methodologies and Techniques. Batini, Scannapieco. 2006


Springer-Verlag, ISBN-10 3-540-33172-7

Data Quality for the Information Age. Redman. 1996 Artech House Inc., ISBN 089006-883-6

Completeness of Information Sources. Naumann, Freytag, Leser. Proc. of the


Workshop on Data Quality in Cooperative Information Systems (DQCIS'03), Italy, 2003.

Data Quality Evaluation in Data Integration Systems. Peralta. PhD thesis,


Universidad de Versalles, Francia & Universidad de la Repblica, Uruguay, 2006.

Modelling Information Manufacturing Systems to Determine Information Product


Quality. Ballou, Wang, Pazer, Tayi. Management Science, Vol. 44 (4), April 1998.

Beyond accuracy: What data quality means to data consumers. Wang, Strong.
Journal on Management of Information Systems, Vol. 12 (4):5-34, 1996.

Modeling Completeness versus Consistency Tradeoffs in Information Decision


Contexts. Ballou, Pazer. IEEE Transactions on Knowledge Data Engineering
(KDE2003), Vol. 15(1): 240-243, 2003.

Calidad de Datos, curso 2013

Adriana Marotta

67

34

También podría gustarte