Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Públicos1
Por Eduardo Poggi
Introducción
En este Módulo analizaremos la Publicación de datos bajo dos miradas: la interna a la organización que
los produce- pública y la externa de quien los utiliza-consume.
En la mirada intra-organizacional veremos: metodologías, estándares y principios para la publicación de
datos; estrategias de implementación gradual según niveles de madurez y analizaremos el impacto intra
y supra institucional de estas iniciativas.
Para la mirada extra-organizacional veremos las pautas de trabajo, como metodología incipiente,
propuestas bajo el nombre de Periodismo de Datos.
Bajo ambas miradas haremos una presentación de algunas experiencias de publicación y de consumo de
datos para tener como referentes.
Una vez analizado los fundamentos de la Publicación de Datos y el contexto en el cual debemos trabajar,
nos dedicaremos a avanzar un poco más en la implementación y en su explotación posterior. La
implementación con una mirada intra-institucional o intra-administración, mientras que la explotación es
su natural complemento de utilización con una mirada extra-institucional o extra- administración.
En el actual contexto, la implementación de la Publicación de Datos tiene sentido siempre que se logre
de una forma sistemática, reproducible y predecible. Es decir, no es nuestro objetivo la publicación
excepcional y coyuntural de datos sino, cómo lograr que se realicen de forma sistemática y sustentable.
Para lograr esto es necesario que la publicación sea el resultado de una etapa más dentro de un proceso
de gestión (de lo público) establecido en la organización sustentado en los respectivos sistemas
informáticos. Esto garantizaría que la etapa de Publicación fuera un aspecto rutinario y no discrecional y
que sea viable en términos de uso de recursos.
1
Este documento está basado en textos previos del autor publicados bajo Creative Commons y utilizados en diversos cursos virtuales y
como material de referencia de eventos de capacitación presenciales. Por lo tanto puede ser usados y reutilizados con cualquier fin
siempre que se cite la fuente.
2 ipap.gba.gob.ar
1. Que exista, que esté definido e implementado el proceso de gestión relacionado con el
ciudadano.
2. Que los datos en cuestión estén digitalizados y bajo el control de Sistemas de Información que le
dan soporte informático al proceso y protección (en términos de seguridad informática) a los
datos.
3. Que exista una serie de recaudos fruto de actividades previas que permitan la automatización
de la Etapa de Publicación con riesgos bajo control.
Estos requerimientos ya son fuertes en sí mismos y requieren que las organizaciones tengan una
capacidad institucional significativa para llevarlos adelante junto con la atención del impacto en los
niveles culturales, legales, organizacionales, informacionales y tecnológicos.
Todo este esfuerzo de las organizaciones públicas tiene sentido si la publicación aporta valor público y
esto se logra cuando los datos publicados son explotados por actores de la sociedad.
En general la utilización no es directa y simple, requiere de cierto procesamiento de los datos para lograr
efectos interesantes. Nuevamente, el procesamiento requiere de cierta capacidad para realizarlo, pero
en este caso no hay -en principio- una organización social que lo reciba directamente. Puede haberlas y
muchas, pero no con un mandato para realizar la explotación de los datos. Puede hacerla más como un
consumidor o como un usuario de bienes públicos.
En términos muy generales, el consumo (procesamiento) de datos públicos también debería cumplir con
ciertas etapas:
1. Obtención de los datos, seguramente no basta con una sola fuente sino de un conjunto -
homogéneo o no- de datos publicados por la misma o por distintas organizaciones.
3 ipap.gba.gob.ar
Las experiencias realizadas, tanto en la implementación (publicación) como en la explotación
(consumo) hasta el momento han dejado algunas lecciones aprendidas que podríamos resumir en las
siguientes expresiones:
Abrir los datos públicos existentes a terceros tiene un costo económico y organizacional;
requiere de nuevas prácticas institucionales y cambios culturales, además de cierta capacidad
informática para hacerlos de forma automática y segura. Especialmente la determinación -y
posterior protección- de cuales datos son públicos y cuáles no, impacta fundamentalmente en el
esfuerzo-costo de publicar.
La apertura de datos no es un fin en sí mismo, su consumo si lo puede ser.
La disponibilidad de los datos no garantiza su utilización, son necesarias acciones para promover
su tratamiento.
Una comunidad de usuarios interesados con acceso a los datos públicos puede ser una buena
fuente de información para las administraciones sobre los intereses de la comunidad.
Hay algunas evidencias de acciones innovadoras y generación de Valor Público para la sociedad
a partir de la publicación de datos.
Tanto la publicación como el consumo exigen hacerse cargo de lo realizado. La obtención de los
datos, el procesamiento (relacionado, limpieza, estandarización, etc.) y la publicación exigen de
un tratamiento profesional capaz de rendir cuentas sobre lo realizado, minimizando el riego de
cometer errores y o de elaborar conclusiones falsa, erróneas o débiles.
4 ipap.gba.gob.ar
Implementando la Publicación de Datos
Desde el punto de vista operativo, cualquier organismo razonablemente informatizado debería tener
digitalizado el proceso de elaboración de estos documentos y su versión formalizada debería estar
publicado en una Intranet. Es probable también, que aquellos que el organismo considere con algún nivel
de secreto, ya esté protegida su publicación en la red Interna. Por lo tanto, en estos casos los
documentos publicados internamente deberían ser publicados también en forma externa.
Los documentos deben estar digitales y ser parte de un sistema de workflow o tracking que
permita su fácil identificación y tratamiento. De no ser así, el tratamiento para lograr su
publicación sería artesanal y poco sustentable.
5 ipap.gba.gob.ar
Es necesario poder distinguir automáticamente entre los documentos públicos y los que no lo
son. Por lo tanto, el sistema de gestión debería gestionar algún tipo de reglas o permisos que
permitan tal clasificación.
Salvo que el organismo cuente con algún proceso de formalización digital, basado en firma
electrónica por ejemplo, la publicación tradicional exigiría que la versión final del documento se
imprimiera en papel, se firmara y sellara manualmente y luego se digitalizara para poder
publicarlo. Para cumplir con los principios, esta versión digitalizada debería estar acompañada
por su correspondiente versión digital editable, por lo menos para el contenido. Lo cual implica
administrar el flujo de los documentos para poder asegurar que ambos contenidos coinciden. En
un entorno más sofisticado se podría implementar el documento firmado digitalmente. Habría
que resolver en este caso, quién en nombre del organismo, es el responsable de firmarlo.
Cuando los documentos se gestionan en una Intranet se tienen en cuenta una serie de
condiciones propias del entorno (acceso por empleados autenticados, con compromisos
contractuales, con normas de seguridad, etc.) que no se cumplen en un sitio público. Habría que
verificar como afecta el cambio de estas condiciones a la gestión de Intranet.
1. Públicos: los que pueden ser accedidos por cualquiera sin ningún tipo de restricción.
3. Restringidos: son aquellos para los cuales existe una regla o trámite administrativo (basados en
alguna normativa) que limita su acceso y permite discernir a quienes se les puede entregar y
quienes no.
Para ejemplificar, consideremos para el análisis el Sistema de Gestión de Recursos Humanos (HRIS) de un
organismo cualquiera. En principio, este sistema representa parte del funcionamiento del estado y es
mantenido por recursos públicos, por lo tanto estaría bajo el mandato de ser publicados para asegurar la
transparencia.
6 ipap.gba.gob.ar
En términos generales, estos sistemas administran 3 grandes entidades de datos:
La estructura organizativa con posiciones (puestos de trabajo), perfiles, competencias
necesarias, carrera, etc.
Los empleados con datos básicos de las personas y detallados de experiencia laboral y
competencias.
La relación laboral entre las personas y la estructura organizativa.
Los salarios.
Estas entidades suelen contener los datos históricos, presentes y probablemente proyecciones de
futuros cambios. La ubicación de los datos salariales depende del sistema de remuneraciones pero en
general están en el tercer grupo.
Entonces: ¿cómo se publican estos datos? Veamos algunos pasos simples para empezar asumiendo que
todos los datos que administra el sistema son públicos.
Además de mantener un mínimo de documentación de la base de datos, habría que agregar un proceso
automático de ejecución periódica para que realice el proceso anterior. Hasta aquí no hay mayores
problemas. El proceso es relativamente simple y sólo requiere algún tiempo de procesamiento y lugar de
almacenamiento que dependerán fuertemente de la cantidad de datos, que serán dependientes de la
cantidad de empleados y de los años de historia. Se podría complicar un poco procesamiento para no usar
tanto almacenamiento generando una copia base -la primera de cada año calendario por ejemplo- y las
restantes sólo como una actualización de la anterior, filtrando solo los datos (filas de las tablas en realidad)
que han sido modificadas o agregadas. Los cual también complica el proceso de reconstrucción. El proceso
2
Se debe tener en cuenta que un sistema complejo de gestión de recursos humanos puede utilizar más de 1000 tablas normalizadas
para su funcionamiento.
7 ipap.gba.gob.ar
también debe considerar otros aspectos, por ejemplo: filtrar datos resultantes de transacciones no
completadas o no confirmadas.
Hasta aquí sólo tenemos costos de procesamiento y almacenamiento para cumplir con las demandas de
publicación, siempre que partamos del supuesto que todos los datos son públicos. Sin embargo, varios
datos de un HRIS pueden estar protegidos por diferentes leyes en cada país. Por ejemplo, los sueldos de
cada empleado no político, su grupo familiar, su domicilio, su historia de ausencias por salud, su historia de
ausencias por causas religiosas, todo lo relacionado a los postulantes a una posición, las evaluaciones de
desempeño, etc. Algunos de éstos podrían ser irrestrictos o restringidos dependiendo de la normativa
vigente. Para publicar estos datos sin violar la ley se requiere administrar reglas que permitan identificar,
filtrar y restringir la publicación o el acceso a los datos protegidos. Esto implica administrar un conjunto de
reglas variables para gran cantidad de entidades de datos, atributos y tablas y requiere de la existencia de
un sistema de gestión de reglas de protección de datos que puedan ser interpretadas y aplicadas por el
proceso de publicación. Tarea no menor por cierto.
El proceso de pre-publicación ya no sería una simple exportación en formato XML, sino que debería
interpretar las reglas y aplicarlas para filtrar columnas y filas de las tablas manteniendo la integridad
referencial. Por lo que el proceso de complicaría más, además del esfuerzo de gestionar las reglas. Hay que
considerar además que la existencia de datos irrestrictos y restringidos requiere de la administración y
operación de un sistema de gestión de identidades que permita identificar, registra, autenticar y autorizar
usuarios; lo que requerirá un esfuerzo importante de gestión de usuarios externos. Además para asegurar
el no repudio de la consulta se deberá disponer de mecanismos de persistencia de los accesos, que habrá
que decidir por cuánto tiempo deben mantenerse.
Adicionalmente, para cumplir con el principio de interoperabilidad, es probable que sea necesario traducir
códigos internos del sistema en códigos estandarizados para su publicación. Por ejemplo, si el sistema de
gestión de recursos humanos utiliza un número interno de legajo para identificar a las personas, deberá
traducirlo a la identificación de personas de uso nacional (un Documento Nacional de Identidad, por
ejemplo); si utiliza tablas propias para identificar direcciones postales o localidades, deberá traducirlas a los
estándares; y así siguiendo con todos los datos que estén bajo los esquemas de interoperabilidad. Por lo
tanto, el proceso de pre-publicación deberá complicarse mucho más para hacer esta traducción, además de
mantener las tablas de traducción correspondientes.
Finalmente, el proceso de pre-publicación debería estar bajo la responsabilidad del área de sistemas, pero
la gestión de las reglas sobre el área –de negocio- administradora de los datos, en este caso, el
8 ipap.gba.gob.ar
departamento de personal, por ejemplo. Alguien debería verificar la calidad del proceso y el cumplimiento
de las reglas de seguridad y privacidad, para asegurar que no se filtraron datos no publicables. Por lo tanto
si, cumpliéramos con las buenas prácticas de gestión de procesos, el archivo a publicar debería ser firmado
digitalmente por el CIO y por el CHRO3 por lo menos; quienes deberían confiar en la buena calidad de los
datos gestionados por todas las partes involucradas en el uso del sistema.
Por lo tanto, el proceso de publicación no es tan simple cuando hay datos irrestrictos o restringidos. Dista
mucho de ser un problema informático, requiere de cambios en los procesos de negocio. Tampoco es
gratuito, ya que requiere desarrollar procesos, ejecutarlos y persistir una gran cantidad de datos
redundantes. También requiere de muy buenas prácticas de gestión informática que permitan publicar
datos de gestión con riesgo muy bajo. Por lo tanto, agregar la etapa de publicación de datos en un
proceso básico de gestión organizacional, requiere de cierta capacidad institucional para realizarlo.
Muchas de las demandas conceptuales o legales sobre la transparencia del accionar del sector público se
pueden transformar en variables que los organismos deben atender -como un conjunto- para asegurar
su cumplimiento. Como veremos más adelante, estas variables no son “todo o nada” sino que se puede
determinar para cada una de ellas un gradiente de costo-valor que puede remontarse paulatinamente.
Nivel de apertura
El espíritu es maximizar la disponibilidad de información del sector público para su uso y reutilización,
basado en la presunción de la transparencia como la regla por defecto al facilitar el acceso y la
reutilización. El desarrollo de un régimen de los principios de acceso, asumiendo la apertura de la
información del sector público es una regla predeterminada, sin importar el modelo de financiación del
desarrollo y del mantenimiento de la información. Se debe minimizar el uso de motivos de denegación
total o parcial, por protección de los intereses de seguridad nacional, privacidad personal, preservación
de intereses privados y la utilización de derechos de autor, patentes o la aplicación de legislaciones
restrictivas de acceso. Y, en el caso de utilizarlos, los mismos deben ser explícitamente transparentados.
3
Responsable de Sistemas y de Recursos Humanos respectivamente.
9 ipap.gba.gob.ar
Nivel de sistematización del proceso
El objetivo de la publicación es que sea sistemática y continua y no artesanal y discrecional, por lo tanto
la etapa de publicación debe ser considerada en todos los procesos organizacionales e implementada en
aquellos que la amerite. Esto requiere gestionar eficientemente los procesos organizacionales más la
capacidad de ampliar incluyendo la publicación y todos sus requerimientos específicos.
Utilización de estándares
Los datos no deberían publicase de cualquier forma, se debe hacer de forma que tenga las menores
restricciones posibles para su explotación. Por lo tanto, se deberían evitar formatos privativos o que
requieran de recursos privativos o pagos para su tratamiento. La utilización de estándares abiertos
también suele facilitar el trabajo de publicación ya que suelen publicarse además gran variedad de
herramientas para su tratamiento que mejoradas continuamente gracias al aporte de los usuarios.
Oportunidad de la publicación
Para cada entidad de datos habrá que establecer el ritmo o la periodicidad de publicación razonable en
función de lógica de actualización propia del negocio y a un equilibrio en los costos de publicación.
No solo se deben publicar las entidades correspondientes sino que se debe informar de forma fehaciente
su existencia, su publicación y demás información relevante. Esto puede hacerse por cada organización o
sector, pero idealmente se debería manejar un reservorio único donde pudiera accederse a toda la
información publicada por una administración.
Calidad
Para cada entidad se deben explicitar los parámetros de calidad aplicados en la recolección,
procesamiento y resguardo. Los datos se deben entregar con la misma calidad con que son utilizados en el
organismo que los gestiona. La cooperación entre los diversos organismos involucrados en la creación,
colección, procesamiento, almacenamiento y la distribución de la información del sector público, es un
10 ipap.gba.gob.ar
factor fundamental para mejorar la calidad, que debe ser utilizado lo más posible para evitar
inconsistencias entre las publicaciones individuales de dos o más organismos.
Integridad
Se debe establecer las salvaguardias adecuadas para proteger la información de modificaciones no
autorizadas o de la negación deliberada o involuntaria de acceso autorizado a la información.
Preservación
Atendiendo la obsolescencia tecnológica y los desafíos de largo plazo de preservación de los datos, se
deben encontrar formas para mantener las entidades publicadas utilizables en el tiempo, esquivando
prácticas de mercado que fomentan la obsolescencia.
Derechos de Autor
Los derechos de propiedad intelectual deben ser respetados, pero se debe asegurar que existan los
acuerdos correspondientes para que la información gestionada por el sector público esté libre de
copyright. Se debe fomentar el ejercicio de los derechos de autor de manera que facilite reutilización
(incluida la supresión de los derechos de autor y la creación de mecanismos que faciliten exención de
derechos de autor cuando los dueños del copyright están dispuestos y sean capaces de hacerlo) y, donde
los titulares de derechos de autor estén de acuerdo, el desarrollo de mecanismos sencillos para promover
un mayor acceso y uso.
Precios
Dependiendo de la normativa vigente, los datos administrados por el sector público pueden tener algún costo.
Normalmente, los costos con cargo al usuario que no deben exceder los costos marginales de mantenimiento y
distribución y, en casos especiales costos adicionales, por ejemplo de digitalización. Las estrategias de precios
de los datos deberían terne en cuenta consideraciones de competencia entre las empresas que ofrecen
servicios de valor añadido. Deben perseguir la neutralidad, la igualdad y la oportunidad de acceso y tener en
cuenta la posibilidad de subvenciones cruzadas de otras actividades del gobierno.
Mecanismos de atención
Como todo servicio, la publicación debe tener asociados mecanismos de atención de usuarios que asistan
a su explotación al igual que disponer de accesos simples para cuando existan quejas o procesos de
apelación ante los datos publicados.
11 ipap.gba.gob.ar
Las asociaciones público-privadas
Facilitar la colaboración público-privada cuando sea apropiado y viable en la toma de información del
sector público disponibles, por ejemplo, encontrar formas creativas de financiar los costos de
digitalización, mientras que el aumento del acceso y la reutilización de los derechos de terceros.
El acceso internacional
El acceso diferenciado o no a usuarios no nacionales es un tema delicado. Se debería buscar la mayor
coherencia en el acceso internacional en apoyo a la cooperación para la reutilización comercial o no
comercial. En estos casos es necesario considerar el ejercicio de la interoperabilidad para facilitar el
intercambio y la comparación con bases de datos internacionales.
4
Véase por ejemplo Poggi (2008) una aplicación de Modelos de Madurez para la interopearbilidad.
12 ipap.gba.gob.ar
Niveles 1 2 3 4 5
Variables Inicial Administrado Definido Medido Optimizado
Nivel de Entidad Entidad para uso Entidad de uso Entidad libre de Entidad que solo
apertura protegida por privado. público no uso comercial. requiere
Copyright que comercial. reconocimiento
Se permite su
restringe su de fuente.
reuso sin
utilización.
aprobación solo
Requiere de para fines
proceso manual privados no
de solicitud / comerciales.
autorización
para su acceso
o uso.
13 ipap.gba.gob.ar
Niveles 1 2 3 4 5
Variables Inicial Administrado Definido Medido Optimizado
Desafíos organizacionales
De las variables anteriormente mencionadas se puede deducir que la puesta en práctica de la
publicación de datos en los organismos públicos presenta una serie de desafíos a nivel de cada
institución como de la propia administración que los contiene. Solo a modo demostrativo podemos
presentar algunas de las más importantes:
14 ipap.gba.gob.ar
La responsabilidad de los organismos no termina con la publicación, sino que deben
Aumento del interés hacerse cargo del servicio posterior de consumo y explotación de los mismos, siendo
público ellos mismos publicitadores de su existencia.
Garantizar la La seguridad de los datos es un proceso trasversal a todos los demás e impacta sobre
seguridad toda la organización y no solo sobre el área de TI. La seguridad en su visión más amplia
debe ser entendida como parte esencial de proceso de Publicación de datos tanto en
sus características específicas como generales.
Recomendaciones
Para la implementación de todo proceso que afecte significativamente la operatoria de las
organizaciones en todos sus planos, se pueden realizar algunas recomendaciones generales, como las
que se presentan a continuación:
No es sensato pensar que todos los cambios se pueden hacer de un momento para otro, ni
Utilizar un enfoque de esperar obtener todas las capacidades institucionales para hacerlo. Por lo tanto, usando
implementación por fases instrumentos tipo Modelo de Madurez, se deben ir planificando las actividades
relacionadas a la publicación en forma incremental y
permanente.
Asegurar los recursos Las previsiones presupuestarias y de los demás recursos se deben ir asegurando con el
necesarios tiempo para evitar faltantes que amenacen retroceder en los avances logrados.
Dar prioridad a la Seleccionar las entidades centrales que hacen al quehacer de la organización y no
utilización de la regla perderse en detalles de poco interés.
80/20
15 ipap.gba.gob.ar
Alinear las iniciativas de Incluir las iniciativas estratégicas relacionadas al OD en los planes estratégicos de la
gobierno abierto con los organización evitando que sean medidas aisladas o parciales.
objetivos del organismo
Establecer mecanismos La gestión de datos, espacialmente cuando se exterioriza, debe quedar bajo control del
de gobernanza para el organismo. No pueden permitirse fugas o debilidades que atenten contra los recursos
intercambio de datos organizacionales o la seguridad y la privacidad.
Trabajar en el cambio Las personas, como parte central del quehacer organizacional, deben ser capacitadas e
inducidas a apropiar la publicación, en paralelo o anticipadamente a los cambios
cultural
organizacionales.
Hacer público el Explicitar y transparentar las acciones, los logros y los planes relacionados a la
Publicación. Como mecanismo de transparencia, como estímulo y para evitar demandas
compromiso
excesivas.
Apropiar la tecnología Sin la tecnología adecuada no se pueden hacer estos cambios significativos salvo en escalas
muy reducidas o a costos muy altos. Por lo tanto la informatización institucional y la
adecuada
apropiación de tecnología específica debe ser parte del proceso de cambio.
Desarrollar y
comunicar una También a nivel Administración se debe desarrollar y comunicar el plan común a todos los
estrategia de todo el organismos, asumiendo los compromisos y explicitando los logros y los problemas.
gobierno
Conclusiones y reflexiones
Existen varias tensiones en ciertos aspectos de la implementación de la Publicación de Datos, por
ejemplo: ¿los datos deben publicarse como un repositorio plano o interpretado? A muchas
autoridades les gusta más la segunda opción ya que existe "temor de las interpretaciones de terceros",
argumento que se ha escuchado en varias oportunidades; ¿qué pasa si de una determinada base de
datos se sacan conclusiones sin el contexto? Por lo tanto se plantea que debe existir la
"interpretación oficial", si bien es relevante dicha interpretación es relevante que exista la posibilidad
de procesamiento independiente de la data, desde su fuente primaria.
16 ipap.gba.gob.ar
Otro tema difícil es la gestión de la metadata: ¿qué tipo de marcas y qué documentación se van a
elaborar y publicar junto con los datos? Ambas tareas que requieren de un esfuerzo importante y que
además se irá depurando en el tiempo. Es importante destacar que este es un proceso continuo y no
coyuntural.
La experiencia del data.gov ha dejado algunas enseñanzas:
Plataforma abierta: debe permitir no sólo la descarga sino además la interacción vía API (del
inglés: Application Programming Interface) u otros instrumentos semejantes.
Datos desagregados al máximo nivel posible: sin que se entre en atentar contra la privacidad y
los datos personales de los individuos.
Hacerse cargo: las agencias que publican deben hacerse responsables de la caducidad y la
privacidad de los datos, sin recargar a los consumidores en temas que son de incumbencia estatal.
Estandarizar: apropiar buenas prácticas en temas de publicación de datos y gestión de
información
17 ipap.gba.gob.ar
El párrafo anterior no debe interpretarse como que sólo el periodismo especializado deba consumir los
datos públicos, sino que la forma que hoy por hoy se presenta como correcta a la hora de hacerlo es la
que se va estableciendo bajo esta disciplina. Existen muchos ejemplos de investigadores o empresas que
utilizan datos públicos para llevar a cabo sus actividades; generando conocimiento unos; agregando valor
a sus productos los otros. El análisis de otras formas sistemáticas de consumo de datos públicos queda
por fuera del alcance de este texto pero por falta de tiempo y espacio, no de interés.
Presentamos a continuación las principales característica del Periodismo de Datos como disciplina
asociada al consumo de datos públicos.
El periodismo de datos es una nueva forma de contar historias basadas en el tratamiento de datos
públicos y en una efectiva visualización de los resultados obtenidos.
Así como para el periodista tradicional el componente básico es el artículo que contiene una narración;
en el periodismo de datos la narración verbal es secundaria, el relato central es construido en torno a los
elementos gramaticales que pertenecen al léxico visual. Este es un uso que se suma a otras formas de
periodismo de conceptualizar y visualizar la información.
Un ejemplo clásico en la agenda del Presidente Obama, desarrollado por el Washington Post que
muestra la importancia de las cuestiones a abordar por el presidente durante sus viajes, como se ve en la
siguiente imagen:
18 ipap.gba.gob.ar
Imagen: ejemplo de visualización, agenda del presidente Obama
Fuente: www.internetactu.net/2010/07/09/journaliste-de-donnees-data-as-storytelling/
Este es un claro ejemplo de procesamiento de datos públicos: la obtención de los datos de distintas
fuentes, el procesamiento, la elaboración de la presentación visual y su publicación. De alguna manera,
el consumo de datos públicos, sea hecho por periodistas o no, atraviesa estas etapas, pero con ciertos
requisitos, como veremos más adelante.
19 ipap.gba.gob.ar
Permitir profundizar en las fuentes de datos y encontrar información relevante para verificar las
afirmaciones y suposiciones recibidas, es un verdadero desafío. El periodismo de datos representa
efectivamente la democratización masiva de recursos, herramientas, técnicas y metodologías que se
utilizaron anteriormente por especialistas como científicos sociales, estadísticos, analistas y otros
expertos. Mientras que en la actualidad nos estamos moviendo hacia un mundo en el que los datos se
integran perfectamente en el tejido de los medios de comunicación. Los periodistas de datos tienen un
papel importante para ayudar a reducir las barreras a la comprensión y el interrogatorio de los datos y el
aumento de la alfabetización de los datos de sus lectores en una escala masiva.
El valor de una imagen que permita dar luz sobre un tema determinado se logra gracias al procesamiento
de datos disponibles. La riqueza en general estará dada por:
La visualización adecuada que permita que esta información “penetre” en el usuario de una
manera física, sensorial y hasta irracional.
Difícilmente las pueda realizar una sola persona, dada la variedad de capacidades que requiere
seguramente debe ser desarrollada por un equipo. Ciencias de la computación, Data Mining,
Estadística, Diseño Gráfico y Visualización, Periodismo; son solo las principales especialidades
profesionales necesarias para lograrlo.
Difícilmente se puede obviar alguna, el natural desarrollo requiere del aporte de cada una de las
etapas para lograr un resultado interesante.
No son triviales ya que cada una requiere de cierta rigurosidad, como lo exigen los trabajos
periodísticos o académicos serios.
20 ipap.gba.gob.ar
Bajo el concepto de Data Journalism se ha ido estableciendo una metodología para este tipo de
actividades. Un “manual” incipiente se ha publicado en Internet, cuya síntesis se muestra en la siguiente
imagen.
Analicemos un poco más profundamente cada una de las etapas necesarias que hacen al consumo de
datos públicos.
21 ipap.gba.gob.ar
Obteniendo datos
En primer lugar se necesitan algunos datos, por lo tanto, en esta sección analizamos como se los puede y
debe obtener. Nos enteramos en cómo encontrar los datos en la web, la forma en que se los puede
solicitar mediante leyes de libertad de información, el uso de "screen scraping" para recopilar datos de
fuentes no estructuradas y cómo usar el 'crowd-sourcing' para armar sus propias bases de datos a partir de
aportes “comunitarios”. Es necesario además, tener en claro lo que diga la ley acerca a publicar datos y
cómo utilizar las herramientas legales para que los demás los puedan reutilizar. Analicemos un poco más
profundamente estos aspectos.
Datos publicados específicamente por alguna administración u organización: estas son las
entidades de datos propias de los procesos de Publicación de Datos generalmente accesibles en
sitios específicos (Portales de Datos) o en sitios institucionales.
Datos obtenidos por solicitudes específicas: estos son datos entregados por una administración u
organización a un solicitante por algún pedido específico que no son normalmente publicados.
Datos recuperados de fuentes no específicas: por ejemplo los obtenidos por procesamiento de
otras fuentes o capturados de consultas a páginas Web (es decir, publicados para ser “leídos” por
personas pero no para ser procesados).
Es posible que para alguna investigación en particular se utilicen fuentes de datos de diferente tipo, ya
que el relacionamiento y procesamiento de diferentes fuentes es lo que normalmente le da gran valor a
la información generada.
Los portales de datos oficiales son la puerta de entrada al resultado de la disposición de los gobiernos de
liberar un determinado conjunto de datos, que puede variar mucho de país a país o incluso en los niveles
subnacionales dentro de un mismo país. Un número creciente de países están poniendo en marcha
portales de datos (inspirado en data.gov de EEUU y data.gov.uk del Reino Unido) para promover la
reutilización social y comercial de la información gubernamental. La situación de estos sitios se puede
encontrar en datacatalogs.org.
22 ipap.gba.gob.ar
También hay otros recursos impulsados por organizaciones civiles como thedatahub.org impulsado por la
comunidad a cargo de la Open Knowledge Foundation que hace que sea fácil encontrar, compartir y
reutilizar las fuentes disponibles de datos abiertos, especialmente en las formas aptas para un
procesamiento directo
Los organismos multinacionales como el Banco Mundial y las Naciones Unidas proporcionan indicadores de
alto nivel sobre portales de datos de muchos países, a menudo con varios años de historia.
También surgen continuamente empresas u organizaciones que tienen por objeto la construcción de
comunidades sobre el intercambio de datos. Puede visitarse, por ejemplo, buzzdata.com (un lugar para
compartir y colaborar en las bases de datos públicas y privadas) o las tiendas de datos tales
www.infochimps.com y datamarket.com. También puede visitarse codeforamerica.org, un lugar para subir,
mejorar, compartir y visualizar sus datos.
getthedata.org es un sitio donde se pueden hacer preguntas sobre datos relacionados, incluyendo dónde
encontrar los datos relativos a un tema en particular, cómo consultar o recuperar una fuente de datos en
particular, qué herramientas utilizar para explorar un conjunto de datos de una manera visual, la forma de
limpieza de datos o ponerlo en un formato que pueda trabajar con ellos.
Como toda disciplina en formación en esta década, el panorama cambia continuamente, surgiendo nuevas
posibilidades y fuentes. La práctica y el ejercicio de la búsqueda permitirán ir encontrando las fuentes más
adecuadas a los intereses de cada uno.
Dependerá de las leyes específicas de cada Estado, pero en los que exista normativa de publicación de
datos, si usted cree que un órgano de gobierno tiene los datos que necesita, una solicitud de información
invocando estos derechos puede ser una buena herramienta.
No siempre los organismos “ocultan” datos intencionalmente, muchas veces no se publican simplemente
porque no está previsto que se haga. En primer lugar se debería comprobar si los datos que se están
buscando no estén ya disponibles. Sería interesante además poder verificar cual es el soporte natural de los
datos solicitados: documentos papel, digitalizaciones o datos procesables. Se debe verificar además si no
existe una tarifa para la obtención de los datos solicitados, esto debería estar claramente estipulado. Si se
hace la solicitud, deben considerarse demoras importantes en las respuestas.
Es importante conocer los derechos que se pueden ejercer antes de empezar, para saber a que atenerse y
23 ipap.gba.gob.ar
cuáles son los de los poderes públicos. Puede que ciertos datos estén protegidos por leyes especiales y, por
lo tanto, las organizaciones están obligadas a no entregarlos. La mayoría de leyes de libertad de información
proporcionan un límite de tiempo para las autoridades respondan. A nivel mundial, el rango en la mayoría
de las leyes es de unos pocos días a un mes. Conocer el procedimiento que establece la ley de libertad de
información es fundamental y en general es bueno hacer las solicitudes mencionando la norma que le da
derecho a hacerlo.
Es muy importante presentar las solicitudes de forma específica y lo menos ambigua posible. Esto es
especialmente importante si se está planeando comparar los datos de diferentes fuentes. Cada fuente
deberá contener los datos “clave” que le permitan relacionarlos con los demás.
Hacer públicas las peticiones puede ser una buena forma de acelerar las respuestas. El conocimiento
público de la petición puede ejercer presión sobre la institución pública para procesar y responder a la
solicitud. Se debería entonces actualizar la información a medida que se obtiene una respuesta a la solicitud
o, si el plazo pasa y no hay respuesta se puede hacer esto en una noticia así. Hacer esto tiene la ventaja
adicional de educar a los miembros del público sobre el derecho de acceso a la información y cómo
funciona en la práctica.
Si desea analizar, explorar o manipular los datos mediante una computadora, se deben pedir explícitamente
que sean entregados datos en forma electrónica con formatos legibles por máquinas. También se puede
solicitar de forma explícita para obtener información no agregada.
Una fuente de datos es la propia Web por medio de instrumentos específicos provistos a tal fin (API:
Application Programming Interface) como las interfaces proporcionadas por las bases de datos en línea y
muchas otras aplicaciones Web modernas (como Twitter y Facebook entre otros). Esta es una manera fácil
de acceder datos gubernamentales o comerciales, así como a los datos de sitios de medios sociales.
Extraer datos de los archivos PDF es un poco difícil ya que esta es una implementación para visualización e
impresión y no retiene información sobre la estructura de los datos que se muestran en un documento.
Algo semejante pasa cuando los datos son mostrados en modo gráfico, en formato.JPG por ejemplo. Los
datos que se muestran en la Web que solo fueron pensados para ser visualizados tienen también las
mismas características, se deben “raspar” (del inglés: (Web) Scraping) las páginas para ir recuperando y
estructurando los datos y dejarlos de forma procesable. Si bien este método es muy potente y se puede
utilizar en muchos lugares, se requiere de comprensión acerca de cómo trabaja la Web.
24 ipap.gba.gob.ar
La meta para la mayoría de estos métodos es obtener acceso a datos legibles por una computadora, es
decir, para el procesamiento por una máquina en lugar de la presentación a un usuario humano. Ejemplos
de estructuras de datos que facilitan la lectura o el procesamiento por computadoras son CSV, XML, JSON o
Excel. Mientras que los formatos, como documentos de Word, páginas HTML y archivos PDF están más
preocupados con el diseño visual de la información.
Hay límites y restricciones a lo que se puede raspar o recuperar automáticamente de la Web, algunos de los
factores que hacen más difícil para raspar un sitio, por ejemplo: códigos HTML con formato incorrecto, por
ejemplo con poca o ninguna información estructural o sistemas de verificación para evitar que el acceso
automático a las páginas como Códigos CAPTCHA y Paywalls.
Otra serie de limitaciones son las barreras legales. Algunos países reconocen los derechos de bases de
datos, que pueden limitar su derecho a volver a utilizar la información que se ha publicado en línea. A
veces, puede optar por hacer caso omiso de la licencia y hacerlo de todos modos o tener derechos
especiales como periodista, por ejemplo. Raspar los datos de libre disposición del Estado está bien, pero
mejor verificarlo. Las organizaciones comerciales y organizaciones no gubernamentales pueden reaccionar
con poca tolerancia y tratar de reclamar que se están "saboteando" sus sistemas.
scraperwiki.com es un sitio Web que te permite codificar raspadores en una serie de diferentes lenguajes
de programación, incluyendo Python, Ruby y PHP. Si se quiere empezar con el raspado, sin la molestia de
crear un entorno de programación en su computadora, este es el camino a seguir.
Una entidad de datos puede estar sujeta a derechos de autor, igual que un trabajo creativo. En muchas
jurisdicciones, montar una base de datos con el "sudor de la frente" basta para que esté sujeta a derechos
de autor. También existen "los derechos de base de datos" que las restringen independientemente de los
derechos de autor.
Es evidente que tales restricciones no son la mejor manera de hacer crecer un ecosistema de datos
impulsado por la publicación de datos. Como editor de una base de datos, se pueden eliminar las
restricciones de la base de datos, esencialmente mediante la concesión de permisos. Se puede hacer esto
25 ipap.gba.gob.ar
mediante la liberación de la base de datos bajo una licencia pública o la dedicación de dominio público, al
igual que muchos programadores libera su código bajo una licencia de código abierto, por lo que otros
puedan construir en su código.
La variedad de licencias de códigos y de datos parece infinita y excede el alcance de este texto. Lo que sí es
esencial es que antes de usar los datos se debe estar seguro de poder hacerlo y/o tomar los recaudos
pertinentes.
La utilización de estas herramientas estará muy relacionada a los datos en cuestión, es difícil dar una
muestra general, pero lo fundamental es la disciplina con la cual este trabajo se debe realizar. Así como las
fuentes deben ser legítimas (no inventadas o adecuadas a nuestro gusto por ejemplo) el procesamiento
también debe seguir las buenas prácticas en la materia y debe ser transparente y reproducible. De la misma
manera que las investigaciones científicas son realizadas, siguiendo las prácticas establecidas por el “estado
5
Como disciplina científica dentro de la Inteligencia Artificial dentro de Ciencias de la Computación, hoy sumamente utilizado dentro
de lo que se conoce como Minería de Datos.
26 ipap.gba.gob.ar
del arte”; con los recaudos adecuados y la documentación pertinente y transparente.
La Gobernanza de Datos es una disciplina emergente con una definición propia de desarrollo; por más que
su práctica (bajo otras denominaciones) sea vieja como la informática.
La disciplina representa una convergencia de: calidad, gestión y políticas de datos; la gestión de procesos de
gestión y; la gestión de riesgos que rodea el tratamiento de los datos de una organización. A través de la
gobernanza de datos, las organizaciones buscan ejercer un control positivo sobre los procesos y métodos
utilizados por los administradores y por los custodios de datos para manejarlos.
En resumen, se entiende por Gobernanza de Datos: al conjunto de procesos que asegura que los de datos
que se administran cumplen con las garantías de calidad, actualización y seguridad adecuadas y por lo tanto
son confiables para su uso, particularmente para la toma decisiones. Así como a las instituciones públicas se
les solicita gestionar y custodiar sus datos con las buenas prácticas establecidas, a las personas u
organizaciones que consumen los datos públicos también se les debe exigir que cumplan con los requisitos
adecuados. De esta forma se trata de evitar el uso espurio, mal intencionado o no de los datos públicos,
minimizando el riesgo de utilizar datos dañados o elaborar informes sin fundamento real.
La publicación de la historia
La visualización de datos es una disciplina transversal que utiliza el enorme poder de comunicación de las
imágenes para explicar de manera comprensible las relaciones de significado, causa y dependencia
que se pueden encontrar entre las grandes masas abstractas de información que generan los procesos
científicos y sociales.
Podríamos decir que el objetivo principal de la visualización de datos es comunicar información de forma
clara y eficaz a través de medios gráficos. Para transmitir ideas de manera efectiva, la estética y la
funcionalidad van de la mano para proporcionar información generada a partir de datos de una manera
intuitiva. La visualización de los datos está estrechamente relacionada con los gráficos de la información, la
27 ipap.gba.gob.ar
visualización de la información, la visualización científica y los gráficos estadísticos.
La cantidad de ejemplos de visualización es realmente enorme y es una de las disciplinas que más desarrollo
ha generado en los últimos tiempos. Van solo dos ejemplos como muestra, ya que un estudio más detallado
queda por fuera del alcance de este texto.
28 ipap.gba.gob.ar
Una idea sencilla pero
impactante
visualmente. La
población de nueva
York durante el día y
durante la noche,
reflejando la densidad
de las diferentes
zonas.
Reflexiones finales
Van a continuación, algunas reflexiones, no como conclusiones sino como iniciadores de nuevas
reflexiones y generadores de intercambios:
La Publicación no es gratuita, los organismos deben hacer esfuerzo para realizarla como
corresponde. Por lo tanto, el objetivo es lograr que se haga de forma sistemática y
correctamente soportada por la tecnología que la haga viable.
La Publicación debe hacerse siguiendo los estándares y las buenas prácticas establecidos de
gestión de datos, al igual que cualquier proceso institucional.
29 ipap.gba.gob.ar
La Publicación de Datos no es un fin en sí mismo, es solo un paso necesario para el Consumo. Sin
consumo no se logra la deseada transparencia.
El Consumo de Datos Públicos es parte del ejercicio democrático de los ciudadanos.
La Publicación de Datos, más allá de su objetivo de transparencia, puede ser vista como Obra
Pública con el consecuente impacto económico en la sociedad.
A pesar de requerir la intervención de diferentes perfiles específicos para llevar adelante las
distintas etapas del consumo de datos públicos, el “rol del periodista” es el que le da ilación y
sentido al resto para que todo el proceso finalice en un producto interesante para el público
objetivo.
30 ipap.gba.gob.ar
BIBLIOGRAFÍA
Concha, Gastón y Naser, Alejandra (2012a): “Datos abiertos: Un nuevo desafío para los gobiernos de la
región”. CEPAL, Santiago, marzo de 2012.
http://www.eclac.cl/publicaciones/xml/7/46167/DatosAbiertos_17_04_2012.pdf
Wikipedia, es.wikipedia.org
31 ipap.gba.gob.ar