Información Sobre Medidor de Calidad de Datasets de OPI

Calidad de Datos
Ciencia de Datos - OPI: Open Intelligence

Mayo del 2015
Introducci
on
Aquellas empresas que utilizan los datos para generar productos de valor
agregado, consideran estos como un activo estrategico, por lo que se vuelve
indispensable tener iniciativas de administracion de datos as como programas de gobernanza de datos los cuales aseguran la calidad de los mismos. Las
decisiones de alto impacto que se tomaran a partir de los analisis realizados
dependen crucialmente de la confiabilidad de los datos.
La calidad de datos se fundamenta en estandares que permiten homologar
y compartir datos de fuentes distintas y requiere de metricas clave que representen propiedades esenciales de los mismos. La importancia de datos de
alta calidad reside en la precision y confianza que brindan a los tomadores de
decisiones. Ademas el perfilado de datos permite planificar la transformacion
de un conjunto de datos crudo en un conjunto de datos u
til para su posterior
analisis.
En terminos resumidos el analisis de calidad de datos permite optimizar
procesos necesarios y clarificar las oportunidades de beneficio al determinar
la confianza con la que cuentan los resultados.
Metodologa
Para mitigar el riesgo de datos de baja calidad se realizan tareas de automatizacion de analisis de datos con el fin de descubrir y detectar problemas de
anomalas escondidos en los datos. Se disea la arquitectura de datos adecuada para reducir los riesgos de integracion de bases de datos nuevas as como
mejorar, limpiar, reparar y monitorear los datos existentes.
Los elementos principales de la calidad de datos son: precision, completez,
consistencia y actualidad.
OPI, a traves del equipo profesional de cientficos e ingenieros de datos
se encarga de generar metricas sobre la calidad de datos de la siguinete forma
Precisi
on: Se generan algoritmos estadsticos que determinan la precision que poseen los datos para poder realizar estimaciones puntuales
de parametros distribucionales. 1 .
Actualidad: Se verifica a traves de algoritmos de scraping que la informacion con la que cuenta en su almacen de datos sea la mas actualizada y rastrea las posibles modificaciones por parte de los generadores
de informacion.
Completez: Se contabiliza la porporcion de registros faltantes y detecta patrones anomalos de falta de informacion dentro de un almacen
de datos.
Integridad: Se realiza pruebas de consistencia a traves de los niveles
de agregacion geografica y temporal disponibles, ademas de considerar
las inconsistencias generadas por la metodologa de medicion de las
diversas fuentes.
Revisar documentaci
on metodolgica
Bibliografa
Elliot King, Government MOves Big Data from Hype to Confidence, Unisphere Resarch, Information Today, Inc., IBM, 2014
Information Integration and Governance, IBM, 2014
Peter Krensky, Aberdeen Group, The Information Confidence Calculator:
Measuring Trust in Big Data, IML14423USEN, April 2014
Ballou D., I. Chengalur-Smith, R.Y. Wang, A sampling Procedure for
Data Quality Auditing in the Relational Environment, MIT, 2000
Richard Y. Wang, Mostapha Ziad, Yang W. Lee, Data Quality, Springer,
US, 2002
Albert, J., Bayesian Computation with R, Bowling Green, OH, Springer,
2009
Metodologa: Calidad de Datos

Ciencia de Datos - OPI: Open Intelligence
Mayo del 2015
La metodologa detallada para el score de precision que se muestra en
nuestra plataforma se presenta a continuacion.
Para calcular un score de precision en las variables de las distintas bases
de datos se usaron dos parametros:
1. Longitud del intervalo de confianza frecuentista.
2. Longitud del intervalo de credibilidad bayesiano.
El intervalo de confianza frecuentista se encuentra calculando el error

estndar de la media con nivel de significancia del = 5 % (probabilidad
de equivocarnos). Dicho intervalo (con longitud 2 veces el error estandar
centrado en la media) nos da un rango de valores en el cual se encuentra el
verdadero valor del parametro con una probabilidad de 1 = 95 % llamada
nivel de confianza.
Por otro lado, el intervalo de credibilidad bayesiana, es un intervalo
en el dominio de la distribucion de probabilidad posterior, a diferencia del
intervalo de confianza frecuentista don las fronteras del intervalo son probabilsticas y el parametro estimado fijo, el intervalo de credibilidad tiene
fronteras fijas mientras que el parametro estimado se da en terminos de una
probabilidad. En esta caso queremos encontrar el intervalo de confianza Bayesiano del 95 % de una poblacion normal donde no conocemos ni la media
ni la varianza. Suponga que tenemos n datos observados y1 , ..., yn que representan una muestra aleatoria de una distribucion normal N (, 2 ). Vamos
a usar una probabilidad a priori no informativa g(, 2 ) 12 , entonces la

densidad posterior de la media y la varianza sera:

1
1
2
2
g(| ) 2 n +1 exp 2 (S + n( y) )
(1)
2
( ) 2
P
Donde S = ni=1 (yi y)2 .
La probabilidad posterior tiene la forma normal/inversa chi-cuadrada que
cumple:
La probabilidad
posterior de condicional en 2 esta distribuida como
N (
y , / n).
La probabilidad posterior de esta distribuida como S2n1 , donde 2
nu
es la distribucin chi-cuadrada inversa con grados de libertad.
Con esto se pueden encontrar los intervalos de confianza de las distribuiciones obtenidas para las estimaciones de los parametros.
Para obtener el score de precision primero se reescalaron el intervalo de
confianza frecuentista y el intervalo de credibilidad bayesiano de cada variable
IF
el intervalo
con respecto a rango de dicha variable, sean IF = (maxmin)
I
B
frecuentista reescalado y analogamente IB = (maxmin)
A continuacion se rankearon las variables de la base de datos con respecto
al intervalo de confianza frecuentista RIF , al intervalo de credibilidad bayesiano RIB , a la proporcioon de vacios RPV y se obtuvo finalmente el score
de precision restandole a 1 la normalizacion respecto al nmero de datos el
promedio de los rankings y multiplicarlo finalmente por 100, para obtener un
porcentaje de precision en orden descendiente (mientras mayor sea el score
mayor es la confiabilidad). Para esto, se us la siguiente formula.

RIF + RIB
ScoreP re = 100 1
(2)
2
Para obtener el score de completez, se rankeo la proporcion de vacos PV
de las distintas tablas para obtener RPV normalizado respecto al n
umero de
datos, obteniendo la formula de score de completes:
2
ScoreV ac = 100 (1 RPV )
(3)
Aparte del score de presicion se obtuvo otro score de proporcion de atpicos, esto es; se encontaron valores atpicos de las distintas variables de las
tablas, usando como criterio: los valores que esten a mas de 3,5MAD de la
mediana (donde MAD es la desviacion absoluta de la mediana), que abarca
el 98 % de la distribucion, se toman como valores atpicos. Se calculo la
porporcion de estos respecto al n
umero total de datos PA , y se rankearon las
porporciones obtenidas en las distintas variables de las tablas RPA , finalmente
se obtuvo un score de atipicidad con la siguiente formula:
ScoreAt = 100 (1 RPA )
(4)
El score de calidad se obtuvo promediando los u

ltimos tres scores:
Score = (ScoreP re + ScoreV ac + ScoreAt )/3
(5)
Aparte de este score se obtuvieron dos scores extras basados en criterios

distintos: Un score de consitencia y un score de temporalidad. El score de
consistencia se obtuvo sumando por entidad (admin1) los valores correspondientes a la misma fecha y a la misma variable en los distintos municipios
(admin2), en las tablas que estuvieran en niveles de agregacion admin1 y
admin2, y obteniendo la desviacion absoluta de esta suma con respecto al
valor obtenido en esa entidad (admin1), para cada variable se promediaron
dichas desviaciones absolutas normalizandolas con respecto al maximo de las
mismas.
Al valor obtenido de dichos promedios se le asocio un porcentaje (restando
a 1 el promedio normalizado y multiplicandolo por 100), obteniendo un score
de consistencia (Scoreconsis ) por variable, que mientras mas cercano es 100
tiene mayor consistencia la tabla.
Para obtener un score de temporalidad solo se obtuvo el tamao de los
distintos aos que hay en cada tabla (spantemp ).

Información Sobre Medidor de Calidad de Datasets de OPI

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Información Sobre Medidor de Calidad de Datasets de OPI

Cargado por

Copyright:

Formatos disponibles

Calidad de Datos

Ciencia de Datos - OPI: Open Intelligence

Metodologa: Calidad de Datos

El intervalo de confianza frecuentista se encuentra calculando el error

a usar una probabilidad a priori no informativa g(, 2 ) 12 , entonces la

ScoreV ac = 100 (1 RPV )

El score de calidad se obtuvo promediando los u

Aparte de este score se obtuvieron dos scores extras basados en criterios

También podría gustarte