Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Introducci
on
Aquellas empresas que utilizan los datos para generar productos de valor
agregado, consideran estos como un activo estrategico, por lo que se vuelve
indispensable tener iniciativas de administracion de datos as como programas de gobernanza de datos los cuales aseguran la calidad de los mismos. Las
decisiones de alto impacto que se tomaran a partir de los analisis realizados
dependen crucialmente de la confiabilidad de los datos.
La calidad de datos se fundamenta en estandares que permiten homologar
y compartir datos de fuentes distintas y requiere de metricas clave que representen propiedades esenciales de los mismos. La importancia de datos de
alta calidad reside en la precision y confianza que brindan a los tomadores de
decisiones. Ademas el perfilado de datos permite planificar la transformacion
de un conjunto de datos crudo en un conjunto de datos u
til para su posterior
analisis.
En terminos resumidos el analisis de calidad de datos permite optimizar
procesos necesarios y clarificar las oportunidades de beneficio al determinar
la confianza con la que cuentan los resultados.
Metodologa
Para mitigar el riesgo de datos de baja calidad se realizan tareas de automatizacion de analisis de datos con el fin de descubrir y detectar problemas de
anomalas escondidos en los datos. Se disea la arquitectura de datos adecuada para reducir los riesgos de integracion de bases de datos nuevas as como
mejorar, limpiar, reparar y monitorear los datos existentes.
Los elementos principales de la calidad de datos son: precision, completez,
consistencia y actualidad.
OPI, a traves del equipo profesional de cientficos e ingenieros de datos
se encarga de generar metricas sobre la calidad de datos de la siguinete forma
Precisi
on: Se generan algoritmos estadsticos que determinan la precision que poseen los datos para poder realizar estimaciones puntuales
de parametros distribucionales. 1 .
Actualidad: Se verifica a traves de algoritmos de scraping que la informacion con la que cuenta en su almacen de datos sea la mas actualizada y rastrea las posibles modificaciones por parte de los generadores
de informacion.
Completez: Se contabiliza la porporcion de registros faltantes y detecta patrones anomalos de falta de informacion dentro de un almacen
de datos.
Integridad: Se realiza pruebas de consistencia a traves de los niveles
de agregacion geografica y temporal disponibles, ademas de considerar
las inconsistencias generadas por la metodologa de medicion de las
diversas fuentes.
Revisar documentaci
on metodolgica
Bibliografa
Elliot King, Government MOves Big Data from Hype to Confidence, Unisphere Resarch, Information Today, Inc., IBM, 2014
Information Integration and Governance, IBM, 2014
Peter Krensky, Aberdeen Group, The Information Confidence Calculator:
Measuring Trust in Big Data, IML14423USEN, April 2014
Ballou D., I. Chengalur-Smith, R.Y. Wang, A sampling Procedure for
Data Quality Auditing in the Relational Environment, MIT, 2000
Richard Y. Wang, Mostapha Ziad, Yang W. Lee, Data Quality, Springer,
US, 2002
Albert, J., Bayesian Computation with R, Bowling Green, OH, Springer,
2009
N (
y , / n).
La probabilidad posterior de esta distribuida como S2n1 , donde 2
nu
es la distribucin chi-cuadrada inversa con grados de libertad.
Con esto se pueden encontrar los intervalos de confianza de las distribuiciones obtenidas para las estimaciones de los parametros.
Para obtener el score de precision primero se reescalaron el intervalo de
confianza frecuentista y el intervalo de credibilidad bayesiano de cada variable
IF
el intervalo
con respecto a rango de dicha variable, sean IF = (maxmin)
I
B
frecuentista reescalado y analogamente IB = (maxmin)
A continuacion se rankearon las variables de la base de datos con respecto
al intervalo de confianza frecuentista RIF , al intervalo de credibilidad bayesiano RIB , a la proporcioon de vacios RPV y se obtuvo finalmente el score
de precision restandole a 1 la normalizacion respecto al nmero de datos el
promedio de los rankings y multiplicarlo finalmente por 100, para obtener un
porcentaje de precision en orden descendiente (mientras mayor sea el score
mayor es la confiabilidad). Para esto, se us la siguiente formula.
RIF + RIB
ScoreP re = 100 1
(2)
2
Para obtener el score de completez, se rankeo la proporcion de vacos PV
de las distintas tablas para obtener RPV normalizado respecto al n
umero de
datos, obteniendo la formula de score de completes:
2
(3)
Aparte del score de presicion se obtuvo otro score de proporcion de atpicos, esto es; se encontaron valores atpicos de las distintas variables de las
tablas, usando como criterio: los valores que esten a mas de 3,5MAD de la
mediana (donde MAD es la desviacion absoluta de la mediana), que abarca
el 98 % de la distribucion, se toman como valores atpicos. Se calculo la
porporcion de estos respecto al n
umero total de datos PA , y se rankearon las
porporciones obtenidas en las distintas variables de las tablas RPA , finalmente
se obtuvo un score de atipicidad con la siguiente formula:
ScoreAt = 100 (1 RPA )
(4)
(5)