Está en la página 1de 31

Implementando la Publicación y el Consumo de Datos

Públicos1
Por Eduardo Poggi

Introducción

En este Módulo analizaremos la Publicación de datos bajo dos miradas: la interna a la organización que
los produce- pública y la externa de quien los utiliza-consume.
En la mirada intra-organizacional veremos: metodologías, estándares y principios para la publicación de
datos; estrategias de implementación gradual según niveles de madurez y analizaremos el impacto intra
y supra institucional de estas iniciativas.
Para la mirada extra-organizacional veremos las pautas de trabajo, como metodología incipiente,
propuestas bajo el nombre de Periodismo de Datos.

Bajo ambas miradas haremos una presentación de algunas experiencias de publicación y de consumo de
datos para tener como referentes.

Una vez analizado los fundamentos de la Publicación de Datos y el contexto en el cual debemos trabajar,
nos dedicaremos a avanzar un poco más en la implementación y en su explotación posterior. La
implementación con una mirada intra-institucional o intra-administración, mientras que la explotación es
su natural complemento de utilización con una mirada extra-institucional o extra- administración.

En el actual contexto, la implementación de la Publicación de Datos tiene sentido siempre que se logre
de una forma sistemática, reproducible y predecible. Es decir, no es nuestro objetivo la publicación
excepcional y coyuntural de datos sino, cómo lograr que se realicen de forma sistemática y sustentable.
Para lograr esto es necesario que la publicación sea el resultado de una etapa más dentro de un proceso
de gestión (de lo público) establecido en la organización sustentado en los respectivos sistemas
informáticos. Esto garantizaría que la etapa de Publicación fuera un aspecto rutinario y no discrecional y
que sea viable en términos de uso de recursos.

Pero para lograr esto es necesario que se cumplan varios requisitos:

1
Este documento está basado en textos previos del autor publicados bajo Creative Commons y utilizados en diversos cursos virtuales y
como material de referencia de eventos de capacitación presenciales. Por lo tanto puede ser usados y reutilizados con cualquier fin
siempre que se cite la fuente.
2 ipap.gba.gob.ar
1. Que exista, que esté definido e implementado el proceso de gestión relacionado con el
ciudadano.

2. Que los datos en cuestión estén digitalizados y bajo el control de Sistemas de Información que le
dan soporte informático al proceso y protección (en términos de seguridad informática) a los
datos.

3. Que exista una serie de recaudos fruto de actividades previas que permitan la automatización
de la Etapa de Publicación con riesgos bajo control.

Estos requerimientos ya son fuertes en sí mismos y requieren que las organizaciones tengan una
capacidad institucional significativa para llevarlos adelante junto con la atención del impacto en los
niveles culturales, legales, organizacionales, informacionales y tecnológicos.

Todo este esfuerzo de las organizaciones públicas tiene sentido si la publicación aporta valor público y
esto se logra cuando los datos publicados son explotados por actores de la sociedad.

En general la utilización no es directa y simple, requiere de cierto procesamiento de los datos para lograr
efectos interesantes. Nuevamente, el procesamiento requiere de cierta capacidad para realizarlo, pero
en este caso no hay -en principio- una organización social que lo reciba directamente. Puede haberlas y
muchas, pero no con un mandato para realizar la explotación de los datos. Puede hacerla más como un
consumidor o como un usuario de bienes públicos.

En términos muy generales, el consumo (procesamiento) de datos públicos también debería cumplir con
ciertas etapas:

1. Obtención de los datos, seguramente no basta con una sola fuente sino de un conjunto -
homogéneo o no- de datos publicados por la misma o por distintas organizaciones.

2. Asegurar el derecho a utilizar los datos.

3. Entender, relacionar, limpiar y analizar los datos de forma transparente, reproducible y


auditable. Esta actividad es crucial, particularmente el no entendimiento de los datos puede
generar malos resultados.
4. Publicar y legar los resultados (o no).
5. Hacerse cargo de lo publicado, en particular, ser responsables de una retroalimentación a las
fuentes.

3 ipap.gba.gob.ar
Las experiencias realizadas, tanto en la implementación (publicación) como en la explotación
(consumo) hasta el momento han dejado algunas lecciones aprendidas que podríamos resumir en las
siguientes expresiones:

 Abrir los datos públicos existentes a terceros tiene un costo económico y organizacional;
requiere de nuevas prácticas institucionales y cambios culturales, además de cierta capacidad
informática para hacerlos de forma automática y segura. Especialmente la determinación -y
posterior protección- de cuales datos son públicos y cuáles no, impacta fundamentalmente en el
esfuerzo-costo de publicar.
 La apertura de datos no es un fin en sí mismo, su consumo si lo puede ser.
 La disponibilidad de los datos no garantiza su utilización, son necesarias acciones para promover
su tratamiento.
 Una comunidad de usuarios interesados con acceso a los datos públicos puede ser una buena
fuente de información para las administraciones sobre los intereses de la comunidad.
 Hay algunas evidencias de acciones innovadoras y generación de Valor Público para la sociedad
a partir de la publicación de datos.
 Tanto la publicación como el consumo exigen hacerse cargo de lo realizado. La obtención de los
datos, el procesamiento (relacionado, limpieza, estandarización, etc.) y la publicación exigen de
un tratamiento profesional capaz de rendir cuentas sobre lo realizado, minimizando el riego de
cometer errores y o de elaborar conclusiones falsa, erróneas o débiles.

El Open Data es novedoso y genera grandilocuentes adhesiones conceptuales, especialmente en el


discurso político y en la consultoría asociada, lo cual lleva a una importante borrosidad del término e
ignora las particularidades de su operacionalización. Como todo cambio origina detractores sin que - por
ahora- aparezcan oposiciones conceptuales significativas, siempre que se respeten las respectivas leyes
de protección. Pero, será el tiempo y los avances los que confirmarán, rechazarán o nos sorprenderá con
sus reales efectos e implicaciones. Lo que no hay que olvidar, es que las discusiones conceptuales,
políticas y jurídicas son en general mucho más fáciles de enunciar que de llevar a la práctica y es preciso
considerar los tiempos de implementación y considerar un análisis serio de sus efectos para mitigar los
no deseados y potenciar los beneficiosos. Como en toda implementación significativa, un buen consejo
sería tener muy claras metas ambiciosas de largo plazo y avanzar hacia estas con pasos cortos, seguros y
continuos. Y, principalmente, no olvidar que la Publicación de Datos es un medio para conseguir
Consumo y no un fin en sí mismo.

4 ipap.gba.gob.ar
Implementando la Publicación de Datos

Comencemos el análisis de la Implementación de la Publicación de Datos con dos ejercicios simples de


procesos institucionales de gestión de información.
Análisis de casos
Hay mucha bibliografía sobre cómo debe ser la publicación de datos y muchas exigencias que sobre este
tema se discuten, tratemos ahora de hacer un ejercicio que nos permita pensar más en la
implementación y percibir los detalles y la complejidad que esto genera.
Hay datos sobre los cuales son relativamente fáciles de resolver si son publicables o no, por ejemplo: el
resultado de censos o encuestas, estadísticas, presupuestos y estados contables de los organismos,
resultados de investigaciones ya publicados, etc.; son todos datos que salvo por algún tema muy
específico son fácilmente publicables y difícilmente haya oposiciones. Otros pueden ser un poco más
difíciles de resolver porque requieren de un análisis específico sobre la posibilidad de publicación.

Veamos este caso – gestión de documentos


Por ejemplo en cualquier organismo público existen una serie de documentos que luego de algún
tratamiento pasan por una etapa de formalización claramente establecida, tanto para normas generales
como para normativas internas. Estos procesos de formalización convierten a los documentos en
resoluciones, decretos, dictámenes, ordenanzas, etc., que reciben una variedad de nombres
dependiendo del nivel que tiene y de cada sistema administrativo. Salvo casos específicos donde el
contenido del documento este protegido por algún tipo de secreto, todos los demás documentos
formalizados deberían ser publicados y abiertos a la sociedad.

Desde el punto de vista operativo, cualquier organismo razonablemente informatizado debería tener
digitalizado el proceso de elaboración de estos documentos y su versión formalizada debería estar
publicado en una Intranet. Es probable también, que aquellos que el organismo considere con algún nivel
de secreto, ya esté protegida su publicación en la red Interna. Por lo tanto, en estos casos los
documentos publicados internamente deberían ser publicados también en forma externa.

La situación parece simple pero se deberían aplicar algunas consideraciones:

 Los documentos deben estar digitales y ser parte de un sistema de workflow o tracking que
permita su fácil identificación y tratamiento. De no ser así, el tratamiento para lograr su
publicación sería artesanal y poco sustentable.

5 ipap.gba.gob.ar
 Es necesario poder distinguir automáticamente entre los documentos públicos y los que no lo
son. Por lo tanto, el sistema de gestión debería gestionar algún tipo de reglas o permisos que
permitan tal clasificación.

 Salvo que el organismo cuente con algún proceso de formalización digital, basado en firma
electrónica por ejemplo, la publicación tradicional exigiría que la versión final del documento se
imprimiera en papel, se firmara y sellara manualmente y luego se digitalizara para poder
publicarlo. Para cumplir con los principios, esta versión digitalizada debería estar acompañada
por su correspondiente versión digital editable, por lo menos para el contenido. Lo cual implica
administrar el flujo de los documentos para poder asegurar que ambos contenidos coinciden. En
un entorno más sofisticado se podría implementar el documento firmado digitalmente. Habría
que resolver en este caso, quién en nombre del organismo, es el responsable de firmarlo.

 Cuando los documentos se gestionan en una Intranet se tienen en cuenta una serie de
condiciones propias del entorno (acceso por empleados autenticados, con compromisos
contractuales, con normas de seguridad, etc.) que no se cumplen en un sitio público. Habría que
verificar como afecta el cambio de estas condiciones a la gestión de Intranet.

Caso 2. La gestión de recursos humanos


Concentrémonos ahora, para acotar el análisis, en los datos producidos por los sistemas de información
para la gestión de los organismos públicos normalmente persistidos en una base de datos. La primera
consideración en conocer con certeza cuales datos son públicos y cuáles no. En principio, los datos
pueden ser clasificados de tres formas según su nivel de publicación:

1. Públicos: los que pueden ser accedidos por cualquiera sin ningún tipo de restricción.

2. Irrestrictos: lo que podría requerir justificar pertinencia de acceso, se podrían entregar a


cualquier que los requiriera siempre que se identificara y pudiera –en el caso de que se le
requiérese- justificar el por qué de la solicitud.

3. Restringidos: son aquellos para los cuales existe una regla o trámite administrativo (basados en
alguna normativa) que limita su acceso y permite discernir a quienes se les puede entregar y
quienes no.

Para ejemplificar, consideremos para el análisis el Sistema de Gestión de Recursos Humanos (HRIS) de un
organismo cualquiera. En principio, este sistema representa parte del funcionamiento del estado y es
mantenido por recursos públicos, por lo tanto estaría bajo el mandato de ser publicados para asegurar la
transparencia.
6 ipap.gba.gob.ar
En términos generales, estos sistemas administran 3 grandes entidades de datos:
 La estructura organizativa con posiciones (puestos de trabajo), perfiles, competencias
necesarias, carrera, etc.
 Los empleados con datos básicos de las personas y detallados de experiencia laboral y
competencias.
 La relación laboral entre las personas y la estructura organizativa.
 Los salarios.

Estas entidades suelen contener los datos históricos, presentes y probablemente proyecciones de
futuros cambios. La ubicación de los datos salariales depende del sistema de remuneraciones pero en
general están en el tercer grupo.

Entonces: ¿cómo se publican estos datos? Veamos algunos pasos simples para empezar asumiendo que
todos los datos que administra el sistema son públicos.

Un primer proceso de pre-publicación debería realizar lo siguiente:


1. Cumpliendo con los principios de compleción, fuente primaria y “procesabilidad”, una forma
básica de publicación sería exportar todas las tablas2 a un formato estándar (un XML por
ejemplo) y publicar el conjunto de las mismas.
2. Para cumplir con el principio de documentación se deberá agregar toda la meta-información
pertinente: diagramas de entidad relación, diccionario de datos, etc.
3. Generar un ZIP con todos los documentos y asignarle una URL con la fecha.
4. Firmar digitalmente todo el paquete.
5. Para cumplir con el principio de permanencia, la publicación se podría hacer periódicamente, en
forma mensual por ejemplo.

Además de mantener un mínimo de documentación de la base de datos, habría que agregar un proceso
automático de ejecución periódica para que realice el proceso anterior. Hasta aquí no hay mayores
problemas. El proceso es relativamente simple y sólo requiere algún tiempo de procesamiento y lugar de
almacenamiento que dependerán fuertemente de la cantidad de datos, que serán dependientes de la
cantidad de empleados y de los años de historia. Se podría complicar un poco procesamiento para no usar
tanto almacenamiento generando una copia base -la primera de cada año calendario por ejemplo- y las
restantes sólo como una actualización de la anterior, filtrando solo los datos (filas de las tablas en realidad)
que han sido modificadas o agregadas. Los cual también complica el proceso de reconstrucción. El proceso

2
Se debe tener en cuenta que un sistema complejo de gestión de recursos humanos puede utilizar más de 1000 tablas normalizadas
para su funcionamiento.
7 ipap.gba.gob.ar
también debe considerar otros aspectos, por ejemplo: filtrar datos resultantes de transacciones no
completadas o no confirmadas.

Hasta aquí sólo tenemos costos de procesamiento y almacenamiento para cumplir con las demandas de
publicación, siempre que partamos del supuesto que todos los datos son públicos. Sin embargo, varios
datos de un HRIS pueden estar protegidos por diferentes leyes en cada país. Por ejemplo, los sueldos de
cada empleado no político, su grupo familiar, su domicilio, su historia de ausencias por salud, su historia de
ausencias por causas religiosas, todo lo relacionado a los postulantes a una posición, las evaluaciones de
desempeño, etc. Algunos de éstos podrían ser irrestrictos o restringidos dependiendo de la normativa
vigente. Para publicar estos datos sin violar la ley se requiere administrar reglas que permitan identificar,
filtrar y restringir la publicación o el acceso a los datos protegidos. Esto implica administrar un conjunto de
reglas variables para gran cantidad de entidades de datos, atributos y tablas y requiere de la existencia de
un sistema de gestión de reglas de protección de datos que puedan ser interpretadas y aplicadas por el
proceso de publicación. Tarea no menor por cierto.

El proceso de pre-publicación ya no sería una simple exportación en formato XML, sino que debería
interpretar las reglas y aplicarlas para filtrar columnas y filas de las tablas manteniendo la integridad
referencial. Por lo que el proceso de complicaría más, además del esfuerzo de gestionar las reglas. Hay que
considerar además que la existencia de datos irrestrictos y restringidos requiere de la administración y
operación de un sistema de gestión de identidades que permita identificar, registra, autenticar y autorizar
usuarios; lo que requerirá un esfuerzo importante de gestión de usuarios externos. Además para asegurar
el no repudio de la consulta se deberá disponer de mecanismos de persistencia de los accesos, que habrá
que decidir por cuánto tiempo deben mantenerse.

Adicionalmente, para cumplir con el principio de interoperabilidad, es probable que sea necesario traducir
códigos internos del sistema en códigos estandarizados para su publicación. Por ejemplo, si el sistema de
gestión de recursos humanos utiliza un número interno de legajo para identificar a las personas, deberá
traducirlo a la identificación de personas de uso nacional (un Documento Nacional de Identidad, por
ejemplo); si utiliza tablas propias para identificar direcciones postales o localidades, deberá traducirlas a los
estándares; y así siguiendo con todos los datos que estén bajo los esquemas de interoperabilidad. Por lo
tanto, el proceso de pre-publicación deberá complicarse mucho más para hacer esta traducción, además de
mantener las tablas de traducción correspondientes.

Finalmente, el proceso de pre-publicación debería estar bajo la responsabilidad del área de sistemas, pero
la gestión de las reglas sobre el área –de negocio- administradora de los datos, en este caso, el

8 ipap.gba.gob.ar
departamento de personal, por ejemplo. Alguien debería verificar la calidad del proceso y el cumplimiento
de las reglas de seguridad y privacidad, para asegurar que no se filtraron datos no publicables. Por lo tanto
si, cumpliéramos con las buenas prácticas de gestión de procesos, el archivo a publicar debería ser firmado
digitalmente por el CIO y por el CHRO3 por lo menos; quienes deberían confiar en la buena calidad de los
datos gestionados por todas las partes involucradas en el uso del sistema.

Por lo tanto, el proceso de publicación no es tan simple cuando hay datos irrestrictos o restringidos. Dista
mucho de ser un problema informático, requiere de cambios en los procesos de negocio. Tampoco es
gratuito, ya que requiere desarrollar procesos, ejecutarlos y persistir una gran cantidad de datos
redundantes. También requiere de muy buenas prácticas de gestión informática que permitan publicar
datos de gestión con riesgo muy bajo. Por lo tanto, agregar la etapa de publicación de datos en un
proceso básico de gestión organizacional, requiere de cierta capacidad institucional para realizarlo.

Variables analíticas para la Publicación de Datos

Muchas de las demandas conceptuales o legales sobre la transparencia del accionar del sector público se
pueden transformar en variables que los organismos deben atender -como un conjunto- para asegurar
su cumplimiento. Como veremos más adelante, estas variables no son “todo o nada” sino que se puede
determinar para cada una de ellas un gradiente de costo-valor que puede remontarse paulatinamente.

Nivel de apertura

El espíritu es maximizar la disponibilidad de información del sector público para su uso y reutilización,
basado en la presunción de la transparencia como la regla por defecto al facilitar el acceso y la
reutilización. El desarrollo de un régimen de los principios de acceso, asumiendo la apertura de la
información del sector público es una regla predeterminada, sin importar el modelo de financiación del
desarrollo y del mantenimiento de la información. Se debe minimizar el uso de motivos de denegación
total o parcial, por protección de los intereses de seguridad nacional, privacidad personal, preservación
de intereses privados y la utilización de derechos de autor, patentes o la aplicación de legislaciones
restrictivas de acceso. Y, en el caso de utilizarlos, los mismos deben ser explícitamente transparentados.

3
Responsable de Sistemas y de Recursos Humanos respectivamente.
9 ipap.gba.gob.ar
Nivel de sistematización del proceso

El objetivo de la publicación es que sea sistemática y continua y no artesanal y discrecional, por lo tanto
la etapa de publicación debe ser considerada en todos los procesos organizacionales e implementada en
aquellos que la amerite. Esto requiere gestionar eficientemente los procesos organizacionales más la
capacidad de ampliar incluyendo la publicación y todos sus requerimientos específicos.

Utilización de estándares

Los datos no deberían publicase de cualquier forma, se debe hacer de forma que tenga las menores
restricciones posibles para su explotación. Por lo tanto, se deberían evitar formatos privativos o que
requieran de recursos privativos o pagos para su tratamiento. La utilización de estándares abiertos
también suele facilitar el trabajo de publicación ya que suelen publicarse además gran variedad de
herramientas para su tratamiento que mejoradas continuamente gracias al aporte de los usuarios.

Oportunidad de la publicación

Para cada entidad de datos habrá que establecer el ritmo o la periodicidad de publicación razonable en
función de lógica de actualización propia del negocio y a un equilibrio en los costos de publicación.

Acceso y condiciones de transparencia para su reutilización

Se debe fomentar el acceso amplio y no discriminatorio, eliminando acuerdos de exclusividad y barreras


o restricciones sobre las formas en que se puede acceder, utilizar, volver a utilizarse, etc., de tal forma
que toda información accesible quede abierta para ser reutilizable por todos.

Registro de entidades publicadas

No solo se deben publicar las entidades correspondientes sino que se debe informar de forma fehaciente
su existencia, su publicación y demás información relevante. Esto puede hacerse por cada organización o
sector, pero idealmente se debería manejar un reservorio único donde pudiera accederse a toda la
información publicada por una administración.

Calidad

Para cada entidad se deben explicitar los parámetros de calidad aplicados en la recolección,
procesamiento y resguardo. Los datos se deben entregar con la misma calidad con que son utilizados en el
organismo que los gestiona. La cooperación entre los diversos organismos involucrados en la creación,
colección, procesamiento, almacenamiento y la distribución de la información del sector público, es un
10 ipap.gba.gob.ar
factor fundamental para mejorar la calidad, que debe ser utilizado lo más posible para evitar
inconsistencias entre las publicaciones individuales de dos o más organismos.

Integridad
Se debe establecer las salvaguardias adecuadas para proteger la información de modificaciones no
autorizadas o de la negación deliberada o involuntaria de acceso autorizado a la información.

Preservación
Atendiendo la obsolescencia tecnológica y los desafíos de largo plazo de preservación de los datos, se
deben encontrar formas para mantener las entidades publicadas utilizables en el tiempo, esquivando
prácticas de mercado que fomentan la obsolescencia.

Derechos de Autor
Los derechos de propiedad intelectual deben ser respetados, pero se debe asegurar que existan los
acuerdos correspondientes para que la información gestionada por el sector público esté libre de
copyright. Se debe fomentar el ejercicio de los derechos de autor de manera que facilite reutilización
(incluida la supresión de los derechos de autor y la creación de mecanismos que faciliten exención de
derechos de autor cuando los dueños del copyright están dispuestos y sean capaces de hacerlo) y, donde
los titulares de derechos de autor estén de acuerdo, el desarrollo de mecanismos sencillos para promover
un mayor acceso y uso.

Precios
Dependiendo de la normativa vigente, los datos administrados por el sector público pueden tener algún costo.
Normalmente, los costos con cargo al usuario que no deben exceder los costos marginales de mantenimiento y
distribución y, en casos especiales costos adicionales, por ejemplo de digitalización. Las estrategias de precios
de los datos deberían terne en cuenta consideraciones de competencia entre las empresas que ofrecen
servicios de valor añadido. Deben perseguir la neutralidad, la igualdad y la oportunidad de acceso y tener en
cuenta la posibilidad de subvenciones cruzadas de otras actividades del gobierno.

Mecanismos de atención
Como todo servicio, la publicación debe tener asociados mecanismos de atención de usuarios que asistan
a su explotación al igual que disponer de accesos simples para cuando existan quejas o procesos de
apelación ante los datos publicados.

11 ipap.gba.gob.ar
Las asociaciones público-privadas
Facilitar la colaboración público-privada cuando sea apropiado y viable en la toma de información del
sector público disponibles, por ejemplo, encontrar formas creativas de financiar los costos de
digitalización, mientras que el aumento del acceso y la reutilización de los derechos de terceros.

El acceso internacional
El acceso diferenciado o no a usuarios no nacionales es un tema delicado. Se debería buscar la mayor
coherencia en el acceso internacional en apoyo a la cooperación para la reutilización comercial o no
comercial. En estos casos es necesario considerar el ejercicio de la interoperabilidad para facilitar el
intercambio y la comparación con bases de datos internacionales.

Hacia un modelo de madurez


Como todo proceso complejo, la implementación de la publicación sistemática de datos no puede hacerse
de un día para otro. La generación de las capacidades institucionales para realizarla correctamente,
asegurando una buena ecuación entre servicio y costo, debe hacerse en forma gradual e incremental. Para
este tipo de situaciones es útil utilizar Modelos de Madurez como es habitual en tantas disciplinas
relacionadas a la gestión tecnología4. No es pretensión de este documento armar un Modelo de
Madurez para la Publicación de Datos, solamente se expondrán las principales dimensiones y variables
analíticas necesarias para la descripción de fenómeno utilizando dicha matriz de pensamiento.

Inicialmente podemos definir las siguientes variables:


1. Sistematización del proceso
2. Nivel de apertura
3. Utilización de estándares
4. Oportunidad
5. Accesibilidad
6. Calidad

4
Véase por ejemplo Poggi (2008) una aplicación de Modelos de Madurez para la interopearbilidad.
12 ipap.gba.gob.ar
Niveles 1 2 3 4 5
Variables Inicial Administrado Definido Medido Optimizado

Sistematizació Datos Proceso de Proceso de captura Proceso de Proceso de


n del proceso recopilados recopilación sistematizado con captura y captura,
artesanalmente automático con verificación y verificación verificación y
y publicados procesos publicación manual. sistematizado con publicación
con uso manuales para su publicación sistematizado
intensivo de formateo, manual. según un proceso
mano de obra. selección, formalmente
verificación y establecido.
publicación.

Nivel de Entidad Entidad para uso Entidad de uso Entidad libre de Entidad que solo
apertura protegida por privado. público no uso comercial. requiere
Copyright que comercial. reconocimiento
Se permite su
restringe su de fuente.
reuso sin
utilización.
aprobación solo
Requiere de para fines
proceso manual privados no
de solicitud / comerciales.
autorización
para su acceso
o uso.

Estándares Estándares Estándares Estándares abiertos Estándares Estándares


utilizados cerrados o abiertos. y documentados abiertos con abiertos con
ausentes. metadata. metadata y
Entidades Las entidades se
material
Entidad publicadas con publican con Las entidades se descriptivo
publicada con estándares estándares abiertos publican con .
estándares o abiertos como y con información estándares Las entidades se
especificacione archivos descriptiva sobre el abiertos y con publican con
s propietarios. individuales. contenido. información estándares
descriptiva sobre abiertos y con
(doc, xls) (csv, txt, odb, (csv, odb, odt, ods +
el contenido información
odt, ods, etc.) información
procesable. descriptiva sobre
adicional como
el contenido
tamaño, tipo de (open API, URI,
procesable y con
dato, rango de rdf sin
información
valores, cantidad de información
adicional.
registros, etc.) adicional)
(rdf con
información
adicional)

13 ipap.gba.gob.ar
Niveles 1 2 3 4 5
Variables Inicial Administrado Definido Medido Optimizado

Oportunidad Publicación Publicación a Publicación Publicación Acorde a la


solo por pedido. discrecional. periódica. natural
demanda actualización de
formal. la entidad y/o
con períodos de
actualización
claramente
establecidos.

Accesibilidad Solo Disponible en Disponible en Web Disponible en Disponible por


disponible Web con acceso pero requiere de Web pero API documentada
por restringido. cierta elaboración o requiere de cierta o algún otro
requerimient procesamiento elaboración o lenguaje de
o específico y para completar la procesamiento consulta
manual. entidad. para completar la apropiado.
entidad. Se deben
diferenciar por la
fecha de
actualización.

Desafíos organizacionales
De las variables anteriormente mencionadas se puede deducir que la puesta en práctica de la
publicación de datos en los organismos públicos presenta una serie de desafíos a nivel de cada
institución como de la propia administración que los contiene. Solo a modo demostrativo podemos
presentar algunas de las más importantes:

El tradicional aislamiento y opacidad de los organismos públicos debe ser roto,


tanto para relacionarse con los demás como para transparentar su accionar. La
Cambiar la cultural particular resistencia a abrir los datos utilizados en la gestión, ya sea por
organizacional sensación de poder, vergüenza o desidia, debe ser cambiada y esto afecta a los
aspectos más básicos de las culturas organizacionales.

Los organismos gestionan la calidad de sus datos en función de sus propias


necesidades y capacidades. Al publicar y compartir estos datos, las necesidades
Asegurar la calidad de de calidad y actualización pueden cambiar significativamente. Por lo tanto, es
los datos preciso articular los medios para una gestión creciente de calidad, la que
impacta en todos los planos de la gestión organizacional.

La publicación no puede quedar atada a la disponibilidad presupuestaria


coyuntural, sino que debe ser asumida como actividad organizacional básica.
Gestión
Por lo tanto se deben hacer las previsiones presupuestarias necesarias para
presupuestaria que las actividades relacionadas no queden expuestas al vaivén de los ciclos
económicos.

14 ipap.gba.gob.ar
La responsabilidad de los organismos no termina con la publicación, sino que deben
Aumento del interés hacerse cargo del servicio posterior de consumo y explotación de los mismos, siendo
público ellos mismos publicitadores de su existencia.

Como todo proceso sujeto a controles de calidad y seguridad, la publicación de datos


tendrá su punto de equilibrio donde la suma de los costos se minimiza. Buscar este
Equilibrio entre control
punto es fundamental para evitar la sobre exigencia de capacidad institucional para
y efectividad temas que no lo ameritan.

La Publicación, como todo servicio debe tener su correspondiente nivel de servicio


y asistencia al usuario externo. Los procesos no se terminan cuando los datos salen
Asegurar la rendición de
de la frontera sino que las instituciones deben hacerse caso de lo producido y
cuentas atender las inquietudes, necesidades y reclamos que esto genere.

Gestionar la La Publicación exige de procesos institucionales y de sistemas de información para su


infraestructura gestión, estos a su vez se apoyan en infraestructura tecnológica que debe estar
tecnológica adecuada en tiempo y forma a las necesidades.

Garantizar la La seguridad de los datos es un proceso trasversal a todos los demás e impacta sobre
seguridad toda la organización y no solo sobre el área de TI. La seguridad en su visión más amplia
debe ser entendida como parte esencial de proceso de Publicación de datos tanto en
sus características específicas como generales.

Mantenimiento de Al igual que todo el quehacer institucional público, la Publicación debe ir


normativas acompañada por un ajuste normativo que le de seguridad y legitimidad. Por lo tanto,
las instituciones deberán acomodar sus normativas internas y las administraciones
deberán a su vez realizar los ajustes pertinentes para las normativas generales.

Recomendaciones
Para la implementación de todo proceso que afecte significativamente la operatoria de las
organizaciones en todos sus planos, se pueden realizar algunas recomendaciones generales, como las
que se presentan a continuación:

No es sensato pensar que todos los cambios se pueden hacer de un momento para otro, ni
Utilizar un enfoque de esperar obtener todas las capacidades institucionales para hacerlo. Por lo tanto, usando
implementación por fases instrumentos tipo Modelo de Madurez, se deben ir planificando las actividades
relacionadas a la publicación en forma incremental y
permanente.

Considerar la Hacer aproximaciones preliminares en procesos y entidades de complejidad razonable


realización de suele ser una buena estrategia para ir haciendo experiencia e ir adquiriendo de a poco la
proyectos piloto. capacidad institucional.

Asegurar los recursos Las previsiones presupuestarias y de los demás recursos se deben ir asegurando con el
necesarios tiempo para evitar faltantes que amenacen retroceder en los avances logrados.

Dar prioridad a la Seleccionar las entidades centrales que hacen al quehacer de la organización y no
utilización de la regla perderse en detalles de poco interés.
80/20

15 ipap.gba.gob.ar
Alinear las iniciativas de Incluir las iniciativas estratégicas relacionadas al OD en los planes estratégicos de la
gobierno abierto con los organización evitando que sean medidas aisladas o parciales.
objetivos del organismo

Establecer mecanismos La gestión de datos, espacialmente cuando se exterioriza, debe quedar bajo control del
de gobernanza para el organismo. No pueden permitirse fugas o debilidades que atenten contra los recursos
intercambio de datos organizacionales o la seguridad y la privacidad.

Trabajar en el cambio Las personas, como parte central del quehacer organizacional, deben ser capacitadas e
inducidas a apropiar la publicación, en paralelo o anticipadamente a los cambios
cultural
organizacionales.

Hacer público el Explicitar y transparentar las acciones, los logros y los planes relacionados a la
Publicación. Como mecanismo de transparencia, como estímulo y para evitar demandas
compromiso
excesivas.

Evitar la discrecionalidad apuntando a incardinar los cambios en la organización,


Institucionalizar rearmando los procesos, formando a las personas, ajustando las normativas y los
mecanismos de control.

Apropiar la tecnología Sin la tecnología adecuada no se pueden hacer estos cambios significativos salvo en escalas
muy reducidas o a costos muy altos. Por lo tanto la informatización institucional y la
adecuada
apropiación de tecnología específica debe ser parte del proceso de cambio.

La integración de la organización al resto de la administración y a la sociedad, a través del


Coordinar las flujo de información es un objetivo central de la Publicación de datos. Se deben evitar la
organizaciones simple publicación para cumplir con los requisitos a favor de que esta sea un vínculo de la
organización con el exterior.

Desarrollar A nivel de la Administración se debe aprovechar la creación de comunidades de práctica


comunidades de con los involucrados en las tareas propias de la Publicación en los distintos organismos,
práctica aprovechando el conocimiento colectivo.

Desarrollar y
comunicar una También a nivel Administración se debe desarrollar y comunicar el plan común a todos los
estrategia de todo el organismos, asumiendo los compromisos y explicitando los logros y los problemas.
gobierno

Conclusiones y reflexiones
Existen varias tensiones en ciertos aspectos de la implementación de la Publicación de Datos, por
ejemplo: ¿los datos deben publicarse como un repositorio plano o interpretado? A muchas
autoridades les gusta más la segunda opción ya que existe "temor de las interpretaciones de terceros",
argumento que se ha escuchado en varias oportunidades; ¿qué pasa si de una determinada base de
datos se sacan conclusiones sin el contexto? Por lo tanto se plantea que debe existir la
"interpretación oficial", si bien es relevante dicha interpretación es relevante que exista la posibilidad
de procesamiento independiente de la data, desde su fuente primaria.
16 ipap.gba.gob.ar
Otro tema difícil es la gestión de la metadata: ¿qué tipo de marcas y qué documentación se van a
elaborar y publicar junto con los datos? Ambas tareas que requieren de un esfuerzo importante y que
además se irá depurando en el tiempo. Es importante destacar que este es un proceso continuo y no
coyuntural.
La experiencia del data.gov ha dejado algunas enseñanzas:

 Focalizarse en el acceso: la plataforma de publicación debe permitir un acceso lo más cerca a la


fuente original posible, incluso plantea que los datos residan en las instituciones generadoras.

 Plataforma abierta: debe permitir no sólo la descarga sino además la interacción vía API (del
inglés: Application Programming Interface) u otros instrumentos semejantes.

 Datos desagregados al máximo nivel posible: sin que se entre en atentar contra la privacidad y
los datos personales de los individuos.

 Retroalimentación: crecimiento y mejoramiento por la vía del aporte de los usuarios.

 Hacerse cargo: las agencias que publican deben hacerse responsables de la caducidad y la
privacidad de los datos, sin recargar a los consumidores en temas que son de incumbencia estatal.
 Estandarizar: apropiar buenas prácticas en temas de publicación de datos y gestión de
información

Implementando el Consumo de Datos


Como contrapartida de la Publicación de Datos Públicos debe estar el Consumo de los mismos, más como
fin que como consecuencia, ya que la publicación toma sentido cuando esta es consumida.
Análogamente a la Publicación, el Consumo de datos presenta también un abanico de formas de
realizarse y una serie de etapas que debieran cumplirse. En los últimos años se ha ido formando una
disciplina denominada Data Driven Journalism o Periodismo de Datos que su evolución le está dando
forma como disciplina al tratamiento de datos públicos.

17 ipap.gba.gob.ar
El párrafo anterior no debe interpretarse como que sólo el periodismo especializado deba consumir los
datos públicos, sino que la forma que hoy por hoy se presenta como correcta a la hora de hacerlo es la
que se va estableciendo bajo esta disciplina. Existen muchos ejemplos de investigadores o empresas que
utilizan datos públicos para llevar a cabo sus actividades; generando conocimiento unos; agregando valor
a sus productos los otros. El análisis de otras formas sistemáticas de consumo de datos públicos queda
por fuera del alcance de este texto pero por falta de tiempo y espacio, no de interés.

El Data Journalism o Periodismo de Datos

Presentamos a continuación las principales característica del Periodismo de Datos como disciplina
asociada al consumo de datos públicos.

El periodismo de datos es la explotación de datos en formatos más o menos estructurados para la


elaboración de noticias o información. Se considera el trabajo pionero de esta especialidad el de Adrian
Holovaty y sus mapas de la delincuencia de Chicago que fue uno de los primeros mashups de Google
Maps desarrollado.

El periodismo de datos es una nueva forma de contar historias basadas en el tratamiento de datos
públicos y en una efectiva visualización de los resultados obtenidos.

Así como para el periodista tradicional el componente básico es el artículo que contiene una narración;
en el periodismo de datos la narración verbal es secundaria, el relato central es construido en torno a los
elementos gramaticales que pertenecen al léxico visual. Este es un uso que se suma a otras formas de
periodismo de conceptualizar y visualizar la información.

Un ejemplo clásico en la agenda del Presidente Obama, desarrollado por el Washington Post que
muestra la importancia de las cuestiones a abordar por el presidente durante sus viajes, como se ve en la
siguiente imagen:

18 ipap.gba.gob.ar
Imagen: ejemplo de visualización, agenda del presidente Obama
Fuente: www.internetactu.net/2010/07/09/journaliste-de-donnees-data-as-storytelling/

Este es un claro ejemplo de procesamiento de datos públicos: la obtención de los datos de distintas
fuentes, el procesamiento, la elaboración de la presentación visual y su publicación. De alguna manera,
el consumo de datos públicos, sea hecho por periodistas o no, atraviesa estas etapas, pero con ciertos
requisitos, como veremos más adelante.

Las tecnologías de la información digitalizada y la Web están cambiando fundamentalmente la forma de


la información se publica. El periodismo de datos es una parte del ecosistema de herramientas y
prácticas que han surgido alrededor de los sitios y servicios de datos. Aprovechando el relacionamiento
de materiales de base que está en la naturaleza misma de la estructura de la Web con sus enlaces; de la
misma forma en que estamos acostumbrados a navegar por la información hoy en día. Yendo más atrás,
el principio que se encuentra en la base de la estructura de hipervínculos de la Web es el principio de la
cita utilizada en trabajos académicos. Citando y compartiendo los materiales básicos y los datos detrás
de la historia es una de las formas básicas en que el periodismo de datos puede mejorarse así mismo.

19 ipap.gba.gob.ar
Permitir profundizar en las fuentes de datos y encontrar información relevante para verificar las
afirmaciones y suposiciones recibidas, es un verdadero desafío. El periodismo de datos representa
efectivamente la democratización masiva de recursos, herramientas, técnicas y metodologías que se
utilizaron anteriormente por especialistas como científicos sociales, estadísticos, analistas y otros
expertos. Mientras que en la actualidad nos estamos moviendo hacia un mundo en el que los datos se
integran perfectamente en el tejido de los medios de comunicación. Los periodistas de datos tienen un
papel importante para ayudar a reducir las barreras a la comprensión y el interrogatorio de los datos y el
aumento de la alfabetización de los datos de sus lectores en una escala masiva.

El valor de una imagen que permita dar luz sobre un tema determinado se logra gracias al procesamiento
de datos disponibles. La riqueza en general estará dada por:

 La recopilación y el relacionamiento de diversas fuentes de datos no relacionados previamente.

 El procesamiento de los datos de una forma que permita sintetizarlos (deductivamente) o


generalizarlos (inductivamente) y que de alguna manera explicite algo que antes no estaba
explícito.

 La visualización adecuada que permita que esta información “penetre” en el usuario de una
manera física, sensorial y hasta irracional.

Estas tareas relacionadas al consumo de datos tienen ciertas consideraciones no triviales:

 Difícilmente las pueda realizar una sola persona, dada la variedad de capacidades que requiere
seguramente debe ser desarrollada por un equipo. Ciencias de la computación, Data Mining,
Estadística, Diseño Gráfico y Visualización, Periodismo; son solo las principales especialidades
profesionales necesarias para lograrlo.

 Difícilmente se puede obviar alguna, el natural desarrollo requiere del aporte de cada una de las
etapas para lograr un resultado interesante.

 La secuencia no es lineal, las etapas propuestas no se encadenan secuencialmente uniendo el fin


de una con el inicio de la otra. Se superponen, se cruzan y se reordenan hasta encontrar –o no- el
camino correcto.

 No son triviales ya que cada una requiere de cierta rigurosidad, como lo exigen los trabajos
periodísticos o académicos serios.

20 ipap.gba.gob.ar
Bajo el concepto de Data Journalism se ha ido estableciendo una metodología para este tipo de
actividades. Un “manual” incipiente se ha publicado en Internet, cuya síntesis se muestra en la siguiente
imagen.

Imagen: El Periodismo de datos


Fuente: www.datajournalismhandbook.org

Analicemos un poco más profundamente cada una de las etapas necesarias que hacen al consumo de
datos públicos.

21 ipap.gba.gob.ar
Obteniendo datos
En primer lugar se necesitan algunos datos, por lo tanto, en esta sección analizamos como se los puede y
debe obtener. Nos enteramos en cómo encontrar los datos en la web, la forma en que se los puede
solicitar mediante leyes de libertad de información, el uso de "screen scraping" para recopilar datos de
fuentes no estructuradas y cómo usar el 'crowd-sourcing' para armar sus propias bases de datos a partir de
aportes “comunitarios”. Es necesario además, tener en claro lo que diga la ley acerca a publicar datos y
cómo utilizar las herramientas legales para que los demás los puedan reutilizar. Analicemos un poco más
profundamente estos aspectos.

Podríamos considerar tres fuentes primarias de datos:

 Datos publicados específicamente por alguna administración u organización: estas son las
entidades de datos propias de los procesos de Publicación de Datos generalmente accesibles en
sitios específicos (Portales de Datos) o en sitios institucionales.
 Datos obtenidos por solicitudes específicas: estos son datos entregados por una administración u
organización a un solicitante por algún pedido específico que no son normalmente publicados.
 Datos recuperados de fuentes no específicas: por ejemplo los obtenidos por procesamiento de
otras fuentes o capturados de consultas a páginas Web (es decir, publicados para ser “leídos” por
personas pero no para ser procesados).

Es posible que para alguna investigación en particular se utilicen fuentes de datos de diferente tipo, ya
que el relacionamiento y procesamiento de diferentes fuentes es lo que normalmente le da gran valor a
la información generada.

Acerca de los portales de datos oficiales


En los últimos años ha aparecido una variedad de portales dedicados a la publicación de datos,
normalmente es el mejor lugar para familiarizarse con los tipos de datos que existentes. Obviamente,
estos datos están caracterizados por haber sido expresamente publicados por las administraciones u
organizaciones que los gestionan.

Los portales de datos oficiales son la puerta de entrada al resultado de la disposición de los gobiernos de
liberar un determinado conjunto de datos, que puede variar mucho de país a país o incluso en los niveles
subnacionales dentro de un mismo país. Un número creciente de países están poniendo en marcha
portales de datos (inspirado en data.gov de EEUU y data.gov.uk del Reino Unido) para promover la
reutilización social y comercial de la información gubernamental. La situación de estos sitios se puede
encontrar en datacatalogs.org.
22 ipap.gba.gob.ar
También hay otros recursos impulsados por organizaciones civiles como thedatahub.org impulsado por la
comunidad a cargo de la Open Knowledge Foundation que hace que sea fácil encontrar, compartir y
reutilizar las fuentes disponibles de datos abiertos, especialmente en las formas aptas para un
procesamiento directo

Los organismos multinacionales como el Banco Mundial y las Naciones Unidas proporcionan indicadores de
alto nivel sobre portales de datos de muchos países, a menudo con varios años de historia.
También surgen continuamente empresas u organizaciones que tienen por objeto la construcción de
comunidades sobre el intercambio de datos. Puede visitarse, por ejemplo, buzzdata.com (un lugar para
compartir y colaborar en las bases de datos públicas y privadas) o las tiendas de datos tales
www.infochimps.com y datamarket.com. También puede visitarse codeforamerica.org, un lugar para subir,
mejorar, compartir y visualizar sus datos.

getthedata.org es un sitio donde se pueden hacer preguntas sobre datos relacionados, incluyendo dónde
encontrar los datos relativos a un tema en particular, cómo consultar o recuperar una fuente de datos en
particular, qué herramientas utilizar para explorar un conjunto de datos de una manera visual, la forma de
limpieza de datos o ponerlo en un formato que pueda trabajar con ellos.
Como toda disciplina en formación en esta década, el panorama cambia continuamente, surgiendo nuevas
posibilidades y fuentes. La práctica y el ejercicio de la búsqueda permitirán ir encontrando las fuentes más
adecuadas a los intereses de cada uno.

Solicitudes específicas de información

Dependerá de las leyes específicas de cada Estado, pero en los que exista normativa de publicación de
datos, si usted cree que un órgano de gobierno tiene los datos que necesita, una solicitud de información
invocando estos derechos puede ser una buena herramienta.

No siempre los organismos “ocultan” datos intencionalmente, muchas veces no se publican simplemente
porque no está previsto que se haga. En primer lugar se debería comprobar si los datos que se están
buscando no estén ya disponibles. Sería interesante además poder verificar cual es el soporte natural de los
datos solicitados: documentos papel, digitalizaciones o datos procesables. Se debe verificar además si no
existe una tarifa para la obtención de los datos solicitados, esto debería estar claramente estipulado. Si se
hace la solicitud, deben considerarse demoras importantes en las respuestas.
Es importante conocer los derechos que se pueden ejercer antes de empezar, para saber a que atenerse y
23 ipap.gba.gob.ar
cuáles son los de los poderes públicos. Puede que ciertos datos estén protegidos por leyes especiales y, por
lo tanto, las organizaciones están obligadas a no entregarlos. La mayoría de leyes de libertad de información
proporcionan un límite de tiempo para las autoridades respondan. A nivel mundial, el rango en la mayoría
de las leyes es de unos pocos días a un mes. Conocer el procedimiento que establece la ley de libertad de
información es fundamental y en general es bueno hacer las solicitudes mencionando la norma que le da
derecho a hacerlo.
Es muy importante presentar las solicitudes de forma específica y lo menos ambigua posible. Esto es
especialmente importante si se está planeando comparar los datos de diferentes fuentes. Cada fuente
deberá contener los datos “clave” que le permitan relacionarlos con los demás.
Hacer públicas las peticiones puede ser una buena forma de acelerar las respuestas. El conocimiento
público de la petición puede ejercer presión sobre la institución pública para procesar y responder a la
solicitud. Se debería entonces actualizar la información a medida que se obtiene una respuesta a la solicitud
o, si el plazo pasa y no hay respuesta se puede hacer esto en una noticia así. Hacer esto tiene la ventaja
adicional de educar a los miembros del público sobre el derecho de acceso a la información y cómo
funciona en la práctica.
Si desea analizar, explorar o manipular los datos mediante una computadora, se deben pedir explícitamente
que sean entregados datos en forma electrónica con formatos legibles por máquinas. También se puede
solicitar de forma explícita para obtener información no agregada.

Obtener datos de la Web


Si se han encontrado datos interesantes en el Web pero no hay opciones de descarga o copia disponibles
pueden intentarse otros métodos de captura que normalmente requiere de ser utilizados por personas con
perfiles específicos en informática.

Una fuente de datos es la propia Web por medio de instrumentos específicos provistos a tal fin (API:
Application Programming Interface) como las interfaces proporcionadas por las bases de datos en línea y
muchas otras aplicaciones Web modernas (como Twitter y Facebook entre otros). Esta es una manera fácil
de acceder datos gubernamentales o comerciales, así como a los datos de sitios de medios sociales.

Extraer datos de los archivos PDF es un poco difícil ya que esta es una implementación para visualización e
impresión y no retiene información sobre la estructura de los datos que se muestran en un documento.
Algo semejante pasa cuando los datos son mostrados en modo gráfico, en formato.JPG por ejemplo. Los
datos que se muestran en la Web que solo fueron pensados para ser visualizados tienen también las
mismas características, se deben “raspar” (del inglés: (Web) Scraping) las páginas para ir recuperando y
estructurando los datos y dejarlos de forma procesable. Si bien este método es muy potente y se puede
utilizar en muchos lugares, se requiere de comprensión acerca de cómo trabaja la Web.

24 ipap.gba.gob.ar
La meta para la mayoría de estos métodos es obtener acceso a datos legibles por una computadora, es
decir, para el procesamiento por una máquina en lugar de la presentación a un usuario humano. Ejemplos
de estructuras de datos que facilitan la lectura o el procesamiento por computadoras son CSV, XML, JSON o
Excel. Mientras que los formatos, como documentos de Word, páginas HTML y archivos PDF están más
preocupados con el diseño visual de la información.

Hay límites y restricciones a lo que se puede raspar o recuperar automáticamente de la Web, algunos de los
factores que hacen más difícil para raspar un sitio, por ejemplo: códigos HTML con formato incorrecto, por
ejemplo con poca o ninguna información estructural o sistemas de verificación para evitar que el acceso
automático a las páginas como Códigos CAPTCHA y Paywalls.

Otra serie de limitaciones son las barreras legales. Algunos países reconocen los derechos de bases de
datos, que pueden limitar su derecho a volver a utilizar la información que se ha publicado en línea. A
veces, puede optar por hacer caso omiso de la licencia y hacerlo de todos modos o tener derechos
especiales como periodista, por ejemplo. Raspar los datos de libre disposición del Estado está bien, pero
mejor verificarlo. Las organizaciones comerciales y organizaciones no gubernamentales pueden reaccionar
con poca tolerancia y tratar de reclamar que se están "saboteando" sus sistemas.

scraperwiki.com es un sitio Web que te permite codificar raspadores en una serie de diferentes lenguajes
de programación, incluyendo Python, Ruby y PHP. Si se quiere empezar con el raspado, sin la molestia de
crear un entorno de programación en su computadora, este es el camino a seguir.

Los derechos sobre los datos


Es una obviedad, pero la obtención de datos nunca ha sido tan fácil como hoy en día. Ahora, hacer desde
una computadora un pedido de envío de datos a otra puede ser suficiente para recibir una copia casi
instantánea, mientras que el productor no han hecho gran cosa, incluso, puede no tener idea de que haya
descargado una copia. Sin embargo, la disponibilidad de datos puede no ser suficiente para lo que
queramos hacer con ellos.

Una entidad de datos puede estar sujeta a derechos de autor, igual que un trabajo creativo. En muchas
jurisdicciones, montar una base de datos con el "sudor de la frente" basta para que esté sujeta a derechos
de autor. También existen "los derechos de base de datos" que las restringen independientemente de los
derechos de autor.

Es evidente que tales restricciones no son la mejor manera de hacer crecer un ecosistema de datos
impulsado por la publicación de datos. Como editor de una base de datos, se pueden eliminar las
restricciones de la base de datos, esencialmente mediante la concesión de permisos. Se puede hacer esto

25 ipap.gba.gob.ar
mediante la liberación de la base de datos bajo una licencia pública o la dedicación de dominio público, al
igual que muchos programadores libera su código bajo una licencia de código abierto, por lo que otros
puedan construir en su código.

La variedad de licencias de códigos y de datos parece infinita y excede el alcance de este texto. Lo que sí es
esencial es que antes de usar los datos se debe estar seguro de poder hacerlo y/o tomar los recaudos
pertinentes.

Los datos cuentan historias


Una vez disponibles en un estado procesables las entidades de datos, se puede comenzar a trabajar con
ellos. Se solía decir de la estadística que es la disciplina de “torturar” datos hasta que expresen algo
interesante que parezca ser verdad. Hoy podría decirse lo mismo del procesamiento moderno de datos,
solo que con muchas herramientas que complementan a la estadística.

Existen dos aproximaciones puras al procesamiento de datos.

 El procesamiento tradicional de la informática, de la matemática en general y de la estadística en


particular, caracterizado por una lógica deductiva: exacto, predecible, repetible y determinístico.
 El procesamiento aproximado típico del Aprendizaje Automático5 basado en el uso de la inducción y la
abducción como métodos de inferencia y caracterizado por ser no determinístico y aproximado; por lo
tanto, sujeto a pruebas para validar los resultados.

El procesamiento tradicional aporta la capacidad de relacionar datos de distintas fuentes, de fíltralos,


seleccionarlos y hacer cuentas sobre ellos. El procesamiento aproximado permite generar patrones;
extraer reglas generales probables a partir de instancias específicas; detectar agrupamientos o similitudes
o realizar analogías.

Ambos grupos de herramientas son apropiados para el procesamiento de datos en búsqueda de


“verdades” no evidentes a simple vista.

La utilización de estas herramientas estará muy relacionada a los datos en cuestión, es difícil dar una
muestra general, pero lo fundamental es la disciplina con la cual este trabajo se debe realizar. Así como las
fuentes deben ser legítimas (no inventadas o adecuadas a nuestro gusto por ejemplo) el procesamiento
también debe seguir las buenas prácticas en la materia y debe ser transparente y reproducible. De la misma
manera que las investigaciones científicas son realizadas, siguiendo las prácticas establecidas por el “estado

5
Como disciplina científica dentro de la Inteligencia Artificial dentro de Ciencias de la Computación, hoy sumamente utilizado dentro
de lo que se conoce como Minería de Datos.
26 ipap.gba.gob.ar
del arte”; con los recaudos adecuados y la documentación pertinente y transparente.

Cuando una investigación es realizada y se obtiene un resultado interesante, se deben poner en


disponibilidad las “pruebas” que demuestran cómo se llegó de los datos fuente al resultado. De forma
análoga que se exige a los organismos la publicación de sus datos con estándares de calidad y seguridad, el
consumo de datos públicos debe ser hecho respetando las buenas prácticas de la disciplina.

La Gobernanza de Datos es una disciplina emergente con una definición propia de desarrollo; por más que
su práctica (bajo otras denominaciones) sea vieja como la informática.

La disciplina representa una convergencia de: calidad, gestión y políticas de datos; la gestión de procesos de
gestión y; la gestión de riesgos que rodea el tratamiento de los datos de una organización. A través de la
gobernanza de datos, las organizaciones buscan ejercer un control positivo sobre los procesos y métodos
utilizados por los administradores y por los custodios de datos para manejarlos.

En resumen, se entiende por Gobernanza de Datos: al conjunto de procesos que asegura que los de datos
que se administran cumplen con las garantías de calidad, actualización y seguridad adecuadas y por lo tanto
son confiables para su uso, particularmente para la toma decisiones. Así como a las instituciones públicas se
les solicita gestionar y custodiar sus datos con las buenas prácticas establecidas, a las personas u
organizaciones que consumen los datos públicos también se les debe exigir que cumplan con los requisitos
adecuados. De esta forma se trata de evitar el uso espurio, mal intencionado o no de los datos públicos,
minimizando el riesgo de utilizar datos dañados o elaborar informes sin fundamento real.

La publicación de la historia

La visualización de datos es una disciplina transversal que utiliza el enorme poder de comunicación de las
imágenes para explicar de manera comprensible las relaciones de significado, causa y dependencia
que se pueden encontrar entre las grandes masas abstractas de información que generan los procesos
científicos y sociales.

Actualmente, la visualización de datos se ha convertido en un área activa de investigación, enseñanza y


desarrollo.

Podríamos decir que el objetivo principal de la visualización de datos es comunicar información de forma
clara y eficaz a través de medios gráficos. Para transmitir ideas de manera efectiva, la estética y la
funcionalidad van de la mano para proporcionar información generada a partir de datos de una manera
intuitiva. La visualización de los datos está estrechamente relacionada con los gráficos de la información, la

27 ipap.gba.gob.ar
visualización de la información, la visualización científica y los gráficos estadísticos.

La cantidad de ejemplos de visualización es realmente enorme y es una de las disciplinas que más desarrollo
ha generado en los últimos tiempos. Van solo dos ejemplos como muestra, ya que un estudio más detallado
queda por fuera del alcance de este texto.

MySociety desarrolló hace años este


proyecto que ilustra perfectamente la
utilidad de cruzar datos urbanos con la
localización física. La herramienta
Mapumental permite visualizar el
tiempo de transporte para llegar a un
punto de determinado desde cualquier
lugar de la ciudad, ayudando con ello a
entender la distancia temporal de
movilidad, mucho más útil y práctica
que la distancia física.

Imagen: Distancias temporales para moverse en la


ciudad. Fuente: www.ateneonaider.com

28 ipap.gba.gob.ar
Una idea sencilla pero
impactante
visualmente. La
población de nueva
York durante el día y
durante la noche,
reflejando la densidad
de las diferentes
zonas.

Imagen: La ciudad cambiante: día y


noche. Fuente: www.ateneonaider.com

Reflexiones finales

Van a continuación, algunas reflexiones, no como conclusiones sino como iniciadores de nuevas
reflexiones y generadores de intercambios:

 La Publicación de Datos exige a las administraciones y organismos públicos poner en marcha


cambios profundos que afectan a todos los planos de su quehacer: cultural, político, legal,
organizacional, informacional y tecnológico.

 No se puede exigir a las administraciones y organismos públicos que publiquen todo y en un


corto plazo. Asumir la publicación como una actividad institucional más es un proceso que
requiere esfuerzo y tiempo para apropiación institucional de nuevas capacidades.

 La Publicación no es gratuita, los organismos deben hacer esfuerzo para realizarla como
corresponde. Por lo tanto, el objetivo es lograr que se haga de forma sistemática y
correctamente soportada por la tecnología que la haga viable.

 La Publicación debe hacerse siguiendo los estándares y las buenas prácticas establecidos de
gestión de datos, al igual que cualquier proceso institucional.

29 ipap.gba.gob.ar
 La Publicación de Datos no es un fin en sí mismo, es solo un paso necesario para el Consumo. Sin
consumo no se logra la deseada transparencia.
 El Consumo de Datos Públicos es parte del ejercicio democrático de los ciudadanos.

 El Consumo de Datos Públicos exige de prácticas profesionales responsables.

 La Publicación de Datos, más allá de su objetivo de transparencia, puede ser vista como Obra
Pública con el consecuente impacto económico en la sociedad.
 A pesar de requerir la intervención de diferentes perfiles específicos para llevar adelante las
distintas etapas del consumo de datos públicos, el “rol del periodista” es el que le da ilación y
sentido al resto para que todo el proceso finalice en un producto interesante para el público
objetivo.

30 ipap.gba.gob.ar
BIBLIOGRAFÍA

AR/SGP/FRRII (2008) “Mapa de restricciones a la Interoperabilidad en el sector público”.


Presentación del trabajo realizado por el Grupo de Interoperabilidad del Foro de Responsables
Informáticos de la ONTI/SGP en USUARIA 2006.
rrii.sgp.gob.ar/index.php?option=com_docman&task=cat_view&gid=154&Itemid=200002

Concha, Gastón y Naser, Alejandra (2012a): “Datos abiertos: Un nuevo desafío para los gobiernos de la
región”. CEPAL, Santiago, marzo de 2012.
http://www.eclac.cl/publicaciones/xml/7/46167/DatosAbiertos_17_04_2012.pdf

Data Journalism Handbook, datajournalismhandbook.org


datosabiertos.org: CONSULTA: CARTA DE PRINCIPIOS INTERNACIONALES PARA LOS DATOS
ABIERTOS. http://idatosabiertos.org/consulta-carta-de-principios-internacionales-para-los-datos-
abiertos/

MELODA: Methodology for Releasing Open Data www.meloda.org


Open Data USA, www.data.gov
Open Data UK, www.data.gov.uk

Poggi, Eduardo (2008): “Modelos de Madurez para la Interoperabilidad”. Monografía presentada en el


2° SIE / 37° JAIIO 2008, Santa Fe, Argentina, Septiembre de 2008. (2° Premio Nacional de Gobierno
Electrónico Edición 2008)

Wikipedia, es.wikipedia.org

31 ipap.gba.gob.ar

También podría gustarte