Está en la página 1de 5

Calidad de los datos en la interaccin con las entidades y en

la publicacin de los conjuntos de datos


Estrategia de Gobierno en lnea del Ministerio de Tecnologas de la Informacin y las
Comunicaciones .

Alexander Riascos Riascos

Ral Alberto Ruz

Profesional Senior CINTEL Profesional Acompaamiento CINTEL


Carrera 14 # 99-33 Oficina 505 Carrera 14 # 99-33 Oficina 505
(+571) 3004856738

(+571) 3143699361

Bogot Colombia

Bogot - Colombia

ariascoss@gmail.com

RESUMEN
El presente documento contiene una introduccin a los
anlisis de los datos de acceso pblico que actualmente
poseen las entidades del Estado Colombiano, registrados
en el portal datos.gov.co. Adems algunas consideraciones
sobre los servicios publicados en el directorio de servicios
de intercambio de informacin, lugares dispuestos para
facilitar el acceso a la informacin del gobierno segn el
caso.
El anlisis realizado en este documento tiene como base, el
uso de tcnicas para la deteccin de problemas de calidad
de los datos, teniendo en cuenta el modelo de datos
abiertos para Colombia y los objetivos que se esperan con
su implementacin Apoyar la generacin de progreso
econmico y social en el pas por medio del acceso y uso
de la informacin pblica por parte de los ciudadanos y
empresas, para que sea utilizada o transformada para la
generacin de servicios de gobierno que generen valor a
la sociedad en general1.
Esta premisa obliga a contar con estrategias claras que
ayuden a mitigar los problemas de calidad de datos
encontrados en la gran mayora de las empresas e
instituciones en el mundo.

Palabras Clave Datos abiertos, Calidad en los datos


abiertos, Calidad de los datos, Calidad en los servicios de
intercambio de informacin.

1.

INTRODUCCIN

raulalbertoruiz@hotmail.com

Process failure and information scrap and rework caused


by defective information costs the United States alone
$1.5 trillion or more.[5] Larry English, Information
Impact International
La calidad de los datos en las entidades pblicas es una
premisa que permite que el Estado tome mejores
decisiones en la definicin y desarrollo de polticas
pblicas y garantice los principios de Gobierno en lnea:
eficiencia, transparencia y provisin de servicios. 1
La ley 1712 de 2014, de transparencia y acceso a la
informacin, define informacin en su artculo 6 como un
conjunto organizado de datos contenido en cualquier
documento que los sujetos obligados generen, obtengan,
adquieran, transformen o controlen 2.
En el artculo 3 de la misma ley, se define el principio de
la calidad de la informacin as: Toda la informacin de
inters pblico que sea producida, gestionada y difundida
por el sujeto obligado, deber ser oportuna, objetiva, veraz,
completa, reutilizable, procesable y estar disponible en
formatos accesibles para los solicitantes e interesados en
ella, teniendo en cuenta los procedimientos de gestin
documental de la respectiva Entidad 3
Por otro lado, para poder intercambiar esta informacin
entre entidades, debe ser utilizado el lenguaje comn de
intercambio de informacin que se interpreta como el
estndar definido por el Estado Colombiano para
1

Principios de Gobierno en lnea a nivel territorial pgina 9 http://goo.gl/NU3wRX

Ley de transparencia y acceso a la informacin http://goo.gl/R2dStJ

Ley de transparencia y acceso a la informacin http://goo.gl/R2dStJ

intercambiar
informacin
entre
organizaciones,
facilitando el entendimiento de los involucrados en los
procesos de intercambio de informacin4.

2.

Esta es una actividad que se debe hacer permanentemente


Cmo hacer calidad de los datos?
La manera ms recomendada es hacerlo de forma
incremental, existen diferentes metodologas y tcnicas
para hacer perfilamiento de datos que pueden ayudar a
mejorar la calidad de los datos.

MARCO CONCEPTUAL

Se debe entender la informacin como uno de los activos


ms importantes de las organizaciones, por lo cual se debe
garantizar la calidad de la misma creando estrategias que
permitan certificar los datos generados, en otras palabras,
no contar con procesos de calidad de los datos, genera
costos adicionales en la operacin de las organizaciones.
Por ejemplo, en anlisis realizados a los datos de las
organizaciones se evidencia que:
Los problemas relacionados con la mala calidad
de los datos pueden costar alrededor del 10% de
los beneficios de una compaa.[1][2]
Las compaas pierden alrededor del 25% del
tiempo manejando reclamaciones de los clientes
por datos errados.[1][2]
El 15% de los datos de una tpica base de datos
de clientes son errneos. [1][2]
Bajo esta perspectiva no se puede negar la importancia de
contar con estrategias claras que permitan administrar el
riesgo que sera para las entidades no controlar la calidad
de los datos.
A continuacin se describen algunas causas de los
problemas en los datos:
Cambios en la dinmica del negocio

La entidad realiz cambios en sus


procesos y/o procedimientos.

Unin entre entidades.

Nuevos requerimientos
nuevas leyes.

externos

Descontrol de aplicaciones o Bases de datos

Diferentes reas de las entidades


creando sus o adquiriendo sus propias
aplicaciones, con o sin conocimiento de
TI.
Dando
lugar
a
datos
desestandarizados y desnormalizados.

Los usuarios copian y crean datos en sus


PCs que no son mantenidos por TI, no
cuentan con validaciones suficientes
etc

Herramientas que pueden ayudar en el perfilamiento 5 de


datos:
Oracle Warehouse builder (OWB)
Data profile task (SSIS de SQL Server 2008)
SAS data Quality
Ataccama - (DQ Analyzer)
Talend Open Studio / Talend open profiler
Nota: Contar con un experto y aplicar una metodologa
evitar problemas mayores.
En contraste con la normatividad existente, las mejores
prcticas y los escenarios de organizaciones que han
desarrollado he implementado iniciativas de calidad de los
datos, se analizaran los criterios definidos para la calidad
de los datos en los dataset publicados.
La siguiente es una relacin de los criterios de calidad
formulados para la iniciativa de datos abiertos en
Colombia enfocndose en la definicin de aquellos que se
examinarn en est paper:
Exactitud: la entidad que publica los datos debe garantizar
que los mismos describen correctamente la informacin
que est siendo abierta y refleja correctamente la situacin
del negocio, sector o mbito que se est manejando.
Totalidad: se debe garantizar que los datos publicados
estn completos de acuerdo al periodo de actualizacin
definido y a la informacin que est siendo publicada.
Oportunidad: la entidad debe garantizar la actualizacin
de los datos una vez publicados independiente del
mecanismo de publicacin seleccionado. La oportunidad
de actualizacin debe corresponder a la frecuencia de
cambio de los datos que fueron publicados.
Consistencia: la informacin publicada debe ser
consistente con anteriores conjuntos de datos que se hayan
publicado. En caso en que se detecte un error relacionado
con otros conjuntos de datos, la entidad deber proceder a
actualizar y corregir dicho conjunto de datos.
Formatos Permitidos: los siguientes son los formatos en
los que se permite publicar informacin: XLS 6, ODF5,
CSV5, XML5, JSON5, TXT5, RDF-XML5, KML-KMZ5.

Factor herencia

Migracin a nuevos sistemas

Perfilamiento: es el anlisis los datos a considerar, para


entender su estructura, contenido, dependencia, calidad,
atributos y caractersticas especiales del mismo.

Entregable no. 2 anlisis de prospectiva en interoperabilidad y


estndares gel - http://bit.ly/WDsT83

Cundo hacer calidad de los datos?


4

Lenguaje Comn de intercambio de informacin Conceptos


Generales - http://goo.gl/teRwRR

Alineacin con lenguaje comn de Intercambio: los


metadatos debern estar semnticamente alineados y
mapeado con los conceptos definidos en el lenguaje comn
de intercambio.

implica el desarrollo de cadenas de trmites, el


intercambio eficiente de informacin y el desarrollo de
nuevas aplicaciones que tienen como objetivo final mejorar
el estilo de vida de los ciudadanos.

Las anteriores definiciones comprenden los criterios de


calidad de los datos formulados para la iniciativa de datos
abiertos en Colombia; sin embargo, para hacer un anlisis
detallado de los datos existentes en cada dataset tambin se
tendrn en cuenta las siguientes variables para el anlisis:

3.1
Anlisis calidad de datos al portal del
Estado Colombiano

Valores faltantes: los datos publicados deben estar


completos de acuerdo a la estructura publicada.
Valores inconsistentes: los datos publicados contienen el
mismo formato, adems de su concordancia con la
descripcin principal.
Valores duplicados: los datos son libres de repeticiones
cuando se representan en su forma compacta.

3.

Figura 1, Resultado anlisis calidad de datos en el portal del


Estado colombiano datos.gov.co.

CONTEXTO NACIONAL

Las organizaciones invierten mucho dinero y esfuerzo para


mejorar sus procesos, productos, y servicios, por lo que en
ocasiones este esfuerzo se ve minimizado por la falta de
calidad en la informacin que se trata en las diferentes
actividades de la organizacin. En otras palabras la
informacin es origen de muchas dificultades en las
organizaciones del mundo, si no tenemos un buen control
de ella. Por eso requiere una especial atencin en el
proceso de recoleccin.
Colombia no est exenta de este problema; aunque no
existe un dato oficial que indique el porcentaje de datos
errneos en las bases de datos, si contamos con casos
reales que permiten vislumbrar el estado de la misma.
Por ejemplo Quin no ha tenido o conoce a alguien que
haya tenido problemas con errores de informacin en
fechas, nombres incompletos, informacin que cambi y
no fue actualizada, informes del mismo periodo en
diferentes reas de la organizacin con valores que no
coinciden etc.?
Es decir la informacin publicada para ser utilizada por el
ciudadano, la empresa privada y otras entidades del Estado
Colombiano, puede afectar la forma en la que se disean
las polticas pblicas que generan servicios de valor
agregado para los ciudadanos7, los costos de las
organizaciones, la imagen, el nivel de satisfaccin de los
ciudadanos y por lo tanto el nivel de aceptacin.
Finalmente, la calidad de los datos es observada en el
componente de Transformacin de la Estrategia de
Gobierno en lnea en la cual las entidades del Estado
realizan cambios operativos para eliminar los lmites con
otras entidades y organizar sus trmites y servicios
alrededor de necesidades de ciudadanos y empresas, lo que
7

La figura 1, muestra el estado actual de los conjuntos de


datos publicados en el portal del Estado colombiano frente
a los diferentes criterios del anlisis de calidad de datos,
tomando como referencia 40 dataset publicados en el
portal, a los cuales se les realiz un anlisis de las
variables descritas anteriormente; y el apoyo de
herramientas como DQ Analizer y FRIL:

Manual de Gobierno en lnea 3.1 - http://goo.gl/KxOZ5Q

Exactitud
Totalidad

Oportunidad

Baja

Alta

Consistencia

Media
Alineacin con GelXML

Formatos permitidos

Baja

Baja

Baja

Fuente: Cintel
Para el anlisis se tomaron dataset de los siguientes
sectores: Ciencia, Econmica y comercial, Movilidad y
transporte, Social, Datos administrativos, Comercio,
Movilidad y transporte, Educacin, Salud, Estadstica,
Ambiente, Funcin pblica, Vivienda, Agricultura y
desarrollo.
Figura 2. Muestra dataset utilizados en el perfilamiento de

los datos
Sectores

Nombre Dataset

Agricultura y Desarrollo
Rural

Clasificacin y tipificacin de necesidades rurales

Ambiente

Proyectos Mineros del Valle del Sin y San Jorge

Ambiente

Puntos Postconsumo

Ciencia

Diagnsticos emitidos

Ciencia

Datos sivigila por departamento y municipio de


procedencia

Comercio

Sitios tursticos de Castilla la Nueva

Datos Administrativos

Cooperacin Sur-Sur y Triangular

Datos Administrativos

Directorio de la Gobernacin del Cauca 2013

Econmica y Comercial

Vehculos Quindo

Sectores
Econmica y Comercial

Directorio de Artesanos del Tolima

Educacin

Informacin de los Programas de educacin superior

Educacin

Instituciones Educativas del municipio de Saboy

Estadstica

Corporacin autnoma de caldas

Funcin publica

Coordinacin Interinstitucional

Funcin publica

Directorio de Entidades Principales

Movilidad y Transporte

Sitrans_Shapes

Movilidad y Transporte

Vas del municipio de Oicat

Movilidad y Transporte

Vas terciarias del municipio de siachoque

Movilidad y Transporte

Registro nacional de accidentes de transito

Salud

Indicadores de Salud

Salud

Medicamentos del POS

Social

Atencion_Reparacion_Integral_Victimas.hechosporde
pto

Social

Videos Golombiao

Vivienda

Mi Vivienda en Lnea

Fuente: datos.gov.co
Los dataset seleccionados hacen parte de la informacin
existente en el portal del Estado Colombiano datos.gov.co.

4.

en el portal del Estado Colombiano, es


recomendable que algunas entidades implementen
calidad de datos antes de publicar su informacin.
De otro modo sera el destinatario (Desarrollador,
Empresa, Ciudadano) quien manipulara los
datos, esto puede causar problemas mayores; por
lo cual se recomienda a las entidades que
actualmente publican datos o estn en proceso de
publicacin crear actividades de calidad de datos
e indicadores que permitan identificar y corregir
la informacin generada y publicada en el portal.

Nombre Dataset

LECCIONES APRENDIDAS

Considerando la creciente demanda en el desarrollo de


aplicaciones mviles en Colombia, detectar y corregir los
datos que se publican para su posterior uso en el desarrollo
de nuevas soluciones mviles hace parte fundamental de la
estrategia.
En el marco de las actividades administradas por el
Ministerio TIC como (Hackathon, Grupos universitarios,
Colciencias, etc.) se evidencio lo siguiente:
Los problemas de calidad de datos identificados
en el proceso desarrollo se solucionan
efectivamente gracias al acercamiento inmediato
de las entidades generadoras de los retos con los
desarrolladores.
La empresa privada o grupos de desarrolladores
que no participan de los eventos organizados por
el Ministerio TIC, requieren
encontrar una
informacin clara, bien estructurada que permita
ser explotada sin necesidad de ser reprocesada y/o
manipulada por personas que no son los dueos
de los datos, esto fortalece la necesidad de
requerir una comunicacin efectiva con el
responsable del dato al interior de las entidades
que pueda resolver las inquietudes que dicha
informacin genere a las organizaciones y/o
grupos externos.
Evidenciada la necesidad de realizar procesos de
calidad de datos a la informacin que se publica

5.

RECOMENDACIONES

Desde el punto de vista de consumo de los datos existente


en el portal del estado colombiano datos.gov.co es
imprescindible garantizar la calidad de los datos que
posteriormente se utilizaran para generar aplicaciones y/o
nuevos modelos de negocio en organizaciones diferentes a
las generadoras de dicha informacin, por lo cual sera
recomendable controlar por lo menos con las siguientes
caractersticas:
Metadatos: el conjunto de datos reportado debe
especificar qu datos son obligatorios y cules no,
tipo de dato, etc.
Histricos: el conjunto de datos existente en el
portal cuenta con informacin anterior,
especificar cules poseen datos histricos y como
se obtienen.
Formatos: Permitir la carga de los diferentes
formatos establecidos en el manual GEL 3.1.
Validar la utilizacin del lenguaje GEL-XML en
la construccin de los conjuntos de datos
publicados.
Generar alertas de los conjuntos de datos
desactualizados.
Desde el punto de vista de generacin de conjuntos de
datos y servicios de intercambio de informacin por parte
de las entidades, sera recomendable contar por lo menos
con los siguientes controles:
Actualizar los responsables o contactos de los
servicios de intercambio de informacin
publicados y/o conjuntos de datos publicados una
vez estos cambien.
Generar indicadores internos de calidad de datos
que permitan monitorear la calidad de
informacin generada al exterior de la entidad
inicialmente.
Asignar responsables de los datos a publicar al
interior de la entidad, que puedan tomar accin de

los datos errneos y generar soluciones a los


problemas encontrados.

6.

REFERENCIAS

[1] Universidad Pontifica Bolivariana, Colombia, Tcnicas


para la deteccin de problemas de calidad de datos (2013),
Ivn Amn Uribe MSc.
[2] Universidad Pontifica Bolivariana, Colombia, Introduccin
a la calidad de datos (2013), Ivn Amn Uribe MSc.
[3] Ministerio de las Tecnologas de la Informacin para la
Comunicaciones, Colombia, Lineamientos para la
implementacin de datos abiertos en Colombia,[Online],
bit.ly/1pzxsbC
[4] Ministerio de las Tecnologas de la Informacin para la
Comunicaciones, Colombia, "Lenguaje Comn de
Intercambio de Informacin", [Online], Available:
bit.ly/1m1RY71
[5] The Four Stages of Data Maturity, page
2; English, Larry. Plain English about
Information Quality: Information Quality
Tipping Point. DM Review, July 2007

También podría gustarte