Está en la página 1de 10

Implementando el Consumo de Datos

Eduardo Poggi
Como contrapartida de la Publicacin de Datos Pblicos debe estar el Consumo de los mismos,
ms como fin que como consecuencia, ya que la publicacin toma sentido cuando esta es
consumida. Anlogamente a la Publicacin, el Consumo de datos presenta tambin un abanico de
formas de realizarse y una serie de etapas que debieran cumplirse. En los ltimos aos se ha ido
formando una disciplina denominada Data Driven Journalism o Periodismo de Datos que su
evolucin le est dando forma como disciplina al tratamiento de datos pblicos. No se quiere decir
con esto que solo el periodismo especializado deba consumir los datos pblicos, sino que la forma
que hoy por hoy se presenta como correcta a la hora de hacerlo es la que se va estableciendo
bajo esta disciplina.
1 Data Journalism
Presentamos a continuacin las principales caracterstica del Periodismo de Datos como disciplina
asociada al consumo de datos pblicos.
1.1 Introduccin
El periodismo de datos es la explotacin de datos en formatos ms o menos estructurados para la
elaboracin de noticias o informacin. Se considera el trabajo pionero de esta especialidad es el
de Adrian Holovaty y sus mapas de la delincuencia de Chicago que fue uno de los primeros
mashups de Google Maps desarrollado. El periodismo de datos es una nueva forma de contar
historias basadas en el tratamiento de datos pblicos y en una efectiva visualizacin de los
resultados obtenidos. As como para el periodista tradicional el componente bsico es el artculo
que contiene una narracin; en el periodismo de datos la narracin verbal es secundaria, el relato
central es construido en torno a los elementos gramaticales que pertenecen al lxico visual. Este
es un uso que se suma a otras formas de periodismo de conceptualizar y visualizar la informacin.
Un ejemplo clsico en la agenda del Presidente Obama, desarrollado por el Washington Post que
muestra la importancia de las cuestiones a abordar por el presidente durante sus viajes, como se
ve en la siguiente imagen.
Imagen: ejemplo de visualizacin, agenda del presidente Obama
Fuente: www.internetactu.net/2010/07/09/journaliste-de-donnees-data-as-storytelling/

Este es un claro ejemplo de procesamiento de datos pblicos: la obtencin de los datos de


distintas fuentes, el procesamiento, la elaboracin de la presentacin visual y su publicacin. De
alguna manera, el consumo de datos pblicos, sea hecho por periodistas o no, atraviesa estas
etapas, pero con ciertos requisitos, como veremos ms adelante.
Las tecnologas de la informacin digitalizada y la Web estn cambiando fundamentalmente la
forma de la informacin se publica. El periodismo de datos es una parte del ecosistema de
herramientas y prcticas que han surgido alrededor de los sitios y servicios de datos.
Aprovechando el relacionamiento de materiales de base que est en la naturaleza misma de la
estructura de la Web con sus enlaces; de la misma forma en que estamos acostumbrados a
navegar por la informacin hoy en da. Yendo ms atrs, el principio que se encuentra en la base
de la estructura de hipervnculos de la Web es el principio de la cita utilizada en trabajos
acadmicos. Citando y compartiendo los materiales bsicos y los datos detrs de la historia es
una de las formas bsicas en que el periodismo de datos puede mejorarse as mismo.
Permitir profundizar en las fuentes de datos y encontrar informacin relevante para verificar las
afirmaciones y suposiciones recibidas, es un verdadero desafo. El periodismo de datos
representa efectivamente la democratizacin masiva de recursos, herramientas, tcnicas y
metodologas que se utilizaron anteriormente por especialistas como cientficos sociales,
estadsticos, analistas y otros expertos. Mientras que en la actualidad nos estamos moviendo
hacia un mundo en el que los datos se integran perfectamente en el tejido de los medios de
comunicacin. Los periodistas de datos tienen un papel importante para ayudar a reducir las
barreras a la comprensin y el interrogatorio de los datos y el aumento de la alfabetizacin de los
datos de sus lectores en una escala masiva.
El valor de una imagen que permita dar luz sobre un tema determinado se logra gracias al
procesamiento de datos disponibles. La riqueza en general estar dada por:
La recopilacin y el relacionamiento de diversas fuentes de datos no relacionados
previamente.
El procesamiento de los datos de una forma que permita sintetizarlos (deductivamente) o
generalizarlos (inductivamente) y que de alguna manera explicite algo que antes no estaba
explcito.
La visualizacin adecuada que permita que esta informacin penetre en el usuario de una
manera fsica, sensorial y hasta irracional.
Estas tareas relacionadas al consumo de datos tienen ciertas consideraciones no triviales:
Difcilmente las pueda realizar una sola persona, dada la variedad de capacidades que
requiere seguramente debe ser desarrollada por un equipo. Ciencias de la computacin,
Data Mining, Estadstica, Diseo Grfico y Visualizacin, Periodismo; son solo las
principales especialidades profesionales necesarias para lograrlo.
Difcilmente se puede obviar alguna, el natural desarrollo requiere del aporte de cada una
de las etapas para lograr un resultado interesante.
La secuencia no es lineal, las etapas propuestas no se encadenan secuencialmente
uniendo el fin de una con el inicio de la otra. Se superponen, se cruzan y se reordenan
hasta encontrar o no- el camino correcto.
No son triviales ya que cada una requiere de cierta rigurosidad, como lo exigen los trabajos
periodsticos o acadmicos serios.
Bajo el concepto de Data Journalism se ha ido estableciendo una metodologa para este tipo de
actividades. Un manual incipiente se ha publicado en Internet, cuya sntesis se muestra en la
siguiente imagen.
Imagen: El Periodismo de datos
Fuente: www.datajournalismhandbook.org

Analicemos un poco ms profundamente cada una de las etapas necesarias que hacen al
consumo de datos pblicos.
1.2 Obteniendo datos
En primer lugar se necesitan algunos datos, por lo tanto, en esta seccin analizamos como se los
puede y debe obtener. Nos enteramos en cmo encontrar los datos en la web, la forma en que se
los puede solicitar mediante leyes de libertad de informacin, el uso de "screen scraping" para
recopilar datos de fuentes no estructuradas y cmo usar el 'crowd-sourcing' para armar sus
propias bases de datos a partir de aportes comunitarios. Es necesario adems, tener en claro lo
que diga la ley acerca a publicar datos y cmo utilizar las herramientas legales para que los
dems los puedan reutilizar. Analicemos un poco ms profundamente estos aspectos.
Podramos considerar tres fuentes primarias de datos:
Datos publicados especficamente por alguna administracin u organizacin: estas
son las entidades de datos propias de los procesos de Publicacin de Datos generalmente
accesibles en sitios especficos (Portales de Datos) o en sitios institucionales.
Datos obtenidos por solicitudes especficas: estos son datos entregados por una
administracin u organizacin a un solicitante por algn pedido especfico que no son
normalmente publicados.
Datos recuperados de fuentes no especficas: por ejemplo los obtenidos por
procesamiento de otras fuentes o capturados de consultas a pginas Web (es decir,
publicados para ser ledos por personas pero no para ser procesados).
Es muy posible que para alguna investigacin en particular se utilicen fuentes de datos de
diferente tipo, ya que el relacionamiento y procesamiento de diferentes fuentes es lo que
normalmente le da gran valor a la informacin generada.
Portales de datos oficiales
En los ltimos aos ha aparecido una variedad de portales dedicados a la publicacin de datos,
normalmente es el mejor lugar para familiarizarse con los tipos de datos que existentes.
Obviamente, estos datos estn caracterizados por haber sido expresamente publicados por las
administraciones u organizaciones que los gestionan.
Los portales de datos oficiales son la puerta de entrada al resultado de la disposicin de los
gobiernos de liberar un determinado conjunto de datos, que puede variar mucho de pas a pas o
incluso en los niveles subnacionales dentro de un mismo pas. Un nmero creciente de pases
estn poniendo en marcha portales de datos (inspirado en data.gov de EEUU y data.gov.uk del
Reino Unido) para promover la reutilizacin social y comercial de la informacin gubernamental.
La situacin de estos sitios se puede encontrar en datacatalogs.org.
Tambin hay otros recursos impulsados por organizaciones civiles como thedatahub.org
impulsado por la comunidad a cargo de la Open Knowledge Foundation que hace que sea fcil
encontrar, compartir y reutilizar las fuentes disponibles de datos abiertos, especialmente en las
formas aptas para un procesamiento directo.
Los organismos multinacionales como el Banco Mundial y las Naciones Unidas proporcionan
indicadores de alto nivel sobre portales de datos de muchos pases, a menudo con varios aos de
historia.
Tambin surgen continuamente empresas u organizaciones que tienen por objeto la construccin
de comunidades sobre el intercambio de datos. Puede visitarse, por ejemplo, buzzdata.com (un
lugar para compartir y colaborar en las bases de datos pblicas y privadas) o las tiendas de datos
tales www.infochimps.com y datamarket.com. Tambin puede visitarse codeforamerica.org, un
lugar para subir, mejorar, compartir y visualizar sus datos.
getthedata.org es un sitio donde se pueden hacer preguntas sobre datos relacionados, incluyendo
dnde encontrar los datos relativos a un tema en particular, cmo consultar o recuperar una fuente
de datos en particular, qu herramientas utilizar para explorar un conjunto de datos de una
manera visual, la forma de limpieza de datos o ponerlo en un formato que pueda trabajar con
ellos.
Como toda disciplina en formacin en esta dcada, el panorama cambia continuamente,
surgiendo nuevas posibilidades y fuentes. La prctica y el ejercicio de la bsqueda permitirn ir
encontrando las fuentes ms adecuadas a los intereses de cada uno.
Solicitudes especficas de informacin
Depender de las leyes especficas de cada estado, pero en los que exista normativa de
publicacin de datos, si usted cree que un rgano de gobierno tiene los datos que necesita, una
solicitud de informacin invocando estos derechos puede ser una buena herramienta. No siempre
los organismos ocultan datos intencionalmente, muchas veces no se prublican simplemente
porque no est previsto que se haga. En primer lugar se debera comprobar si los datos que se
estn buscando no estn ya disponibles. Sera interesante adems poder verificar cual es el
soporte natural de los datos solicitados: documentos papel, digitalizaciones o datos procesables.
Se debe verificar adems si no existe una tarifa para la obtencin de los datos solicitados, esto
debera estar claramente estipulado. Si se hace la solicitud, deben considerarse demoras
importantes en las respuestas.
Es importante conocer los derechos que se pueden ejercer antes de empezar, para saber a que
atenerse y cules son los de los poderes pblicos. Puede que ciertos datos estn protegidos por
leyes especiales y, por lo tanto, las organizaciones estn obligadas a no entregarlos. La mayora
de leyes de libertad de informacin proporcionan un lmite de tiempo para las autoridades
respondan. A nivel mundial, el rango en la mayora de las leyes es de unos pocos das a un mes.
Conocer el procedimiento que establece la ley de libertad de informacin es fundamental y en
general es bueno hacer las solicitudes mencionando la norma que le da derecho a hacerlo.
Es muy importante presentar las solicitudes de forma especfica y lo menos ambigua posible. Esto
es especialmente importante si se est planeando comparar los datos de diferentes fuentes. Cada
fuente deber contener los datos clave que le permitan relacionarlos con los dems.
Hacer pblicas las peticiones puede ser una buena forma de acelerar las respuestas. El
conocimiento pblico de la peticin puede ejercer presin sobre la institucin pblica para
procesar y responder a la solicitud. Se debera entonces actualizar la informacin a medida que se
obtiene una respuesta a la solicitud o, si el plazo pasa y no hay respuesta se puede hacer esto en
una noticia as. Hacer esto tiene la ventaja adicional de educar a los miembros del pblico sobre el
derecho de acceso a la informacin y cmo funciona en la prctica.
Si desea analizar, explorar o manipular los datos mediante una computadora, se deben pedir
explcitamente que sean entregados datos en forma electrnica con formatos legibles por
mquinas. Tambin se puede solicitar de forma explcita para obtener informacin no agregada.
Obtener datos de la Web
Si se han encontrado datos interesantes en el Web pero no hay opciones de descarga o copia
disponibles pueden intentarse otros mtodos de captura que normalmente requiere de ser
utilizados por personas con perfiles especficos en informtica.
Una fuente de datos es la propia Web por medio de instrumentos especficos provistos a tal fin
(API: Application Programming Interface) como las interfaces proporcionadas por las bases de
datos en lnea y muchas otras aplicaciones Web modernas (como Twitter y Facebook entre otros).
Esta es una manera fcil de acceder datos gubernamentales o comerciales, as como a los datos
de sitios de medios sociales.
Extraer datos de los archivos PDF es un poco difcil ya que esta es una implementacin para
visualizacin e impresin y no retiene informacin sobre la estructura de los datos que se
muestran en un documento. Algo semejante pasa cuando los datos son mostrados en modo
grfico, en formato .JPG por ejemplo. Los datos que se muestran en la Web que solo fueron
pensados para ser visualizados tienen tambin las mismas caractersticas, se deben raspar (del
ingls: (Web) Scraping) las pginas para ir recuperando y estructurando los datos y dejarlos de
forma procesable. Si bien este mtodo es muy potente y se puede utilizar en muchos lugares, se
requiere de comprensin acerca de cmo trabaja la Web.
La meta para la mayora de estos mtodos es obtener acceso a datos legibles por una
computadora, es decir, para el procesamiento por una mquina en lugar de la presentacin a un
usuario humano. Ejemplos de estructuras de datos que facilitan la lectura o el procesamiento por
computadoras son CSV, XML, JSON o Excel. Mientras que los formatos, como documentos de
Word, pginas HTML y archivos PDF estn ms preocupados con el diseo visual de la
informacin.
Hay lmites y restricciones a lo que se puede raspar o recuperar automticamente de la Web,
algunos de los factores que hacen ms difcil para raspar un sitio, por ejemplo: cdigos HTML con
formato incorrecto, por ejemplo con poca o ninguna informacin estructural o sistemas de
verificacin para evitar que el acceso automtico a las pginas como Cdigos CAPTCHA y
Paywalls.
Otra serie de limitaciones son las barreras legales. Algunos pases reconocen los derechos de
bases de datos, que pueden limitar su derecho a volver a utilizar la informacin que se ha
publicado en lnea. A veces, puede optar por hacer caso omiso de la licencia y hacerlo de todos
modos o tener derechos especiales como periodista, por ejemplo. Raspar los datos de libre
disposicin del Estado est bien, pero mejor verificarlo. Las organizaciones comerciales y
organizaciones no gubernamentales pueden reaccionar con poca tolerancia y tratar de reclamar
que se estn "saboteando" sus sistemas.
scraperwiki.com es un sitio Web que te permite codificar raspadores en una serie de diferentes
lenguajes de programacin, incluyendo Python, Ruby y PHP. Si se quiere empezar con el
raspado, sin la molestia de crear un entorno de programacin en su coputadora, este es el camino
a seguir.
Los derechos sobre los datos
Es una obviedad, pero la obtencin de datos nunca ha sido tan fcil como hoy en da. Ahora,
hacer desde una computadora un pedido de envo de datos a otra puede ser suficiente para
recibir una copia casi instantnea, mientras que el productor no han hecho gran cosa, incluso,
puede no tener idea de que haya descargado una copia. Sin embargo, la disponibilidad de datos
puede no ser suficiente para lo que queramos hacer con ellos.
Una entidad de datos puede estar sujeta a derechos de autor, igual que un trabajo creativo. En
muchas jurisdicciones, montar una base de datos con el "sudor de la frente" basta para que este
sujeta a derechos de autor. Tambin existen "los derechos de base de datos" que las restringen
independientemente de los derechos de autor.
Es evidente que tales restricciones no son la mejor manera de hacer crecer un ecosistema de
datos impulsado por la publicacin de datos. Como editor de una base de datos, se pueden
eliminar las restricciones de la base de datos, esencialmente mediante la concesin de permisos.
Se puede hacer esto mediante la liberacin de la base de datos bajo una licencia pblica o la
dedicacin de dominio pblico, al igual que muchos programadores liberan su cdigo bajo una
licencia de cdigo abierto, por lo que otros puedan construir en su cdigo.
La variedad de licencias de cdigos y de datos parece infinita y excede el alcance de este texto.
Lo que si es esencial es que antes de usar los datos se debe estar seguro de poder hacerlo y/o
tomar los recaudos pertinentes.
1.3 Los datos cuentan historias
Una vez disponibles en un estado procesables las entidades de datos, se puede comenzar a
trabajar con ellos. Se sola decir de la estadstica que es la disciplina de torturar datos hasta que
expresen algo interesante que parezca ser verdad. Hoy podra decirse lo mismo del
procesamiento moderno de datos, solo que con muchas herramientas que complementan a la
estadstica.
Existen dos aproximaciones puras al procesamiento de datos.
El procesamiento tradicional de la informtica, de la matemtica en general y de la
estadstica en particular, caracterizado por una lgica deductiva: exacto, predecible,
repetible y determinstico.
El procesamiento aproximado tpico del Aprendizaje Automtico1 basado en el uso de la
induccin y la abduccin como mtodos de inferencia y caracterizado por ser no
determinstico y aproximado; por lo tanto, sujeto a pruebas para validar los resultados.
El procesamiento tradicional aporta la capacidad de relacionar datos de distintas fuentes, de
fltralos, seleccionarlos y hacer cuentas sobre ellos. El procesamiento aproximado permite generar
patrones, extraer reglas generales probables a partir de instancias especficas, detectar
agrupamientos o similitudes o realizar analogas. Ambos grupos de herramientas son apropiados
para el procesamiento de datos en bsqueda de verdades no evidentes a simple vista.
La utilizacin de estas herramientas estar muy relacionada a los datos en cuestin, es difcil dar
una muestra general, pero lo fundamental es la disciplina con la cual este trabajo se debe realizar.

1
Como disciplina cientfica dentro de la Inteligencia Artificial dentro de Ciencias de la Computacin, hoy
sumamente utilizado dentro de lo que se conoce como Minera de Datos.
As como las fuentes deben ser legtimas (no inventadas o adecuadas a nuestro gusto por
ejemplo) el procesamiento tambin debe seguir las buenas prcticas en la materia y debe ser
transparente y reproducible. De la misma manera que las investigaciones cientficas son
realizadas, siguiendo las prcticas establecidas por el estado del arte y con los recaudos
adecuados y la documentacin pertinente y transparente.
Cuando una investigacin es realizada y se obtiene un resultado interesante, se deben poner en
disponibilidad las pruebas que demuestran como se lleg de los datos fuente al resultado. De
forma anloga que se exige a los organismos la publicacin de sus datos con estndares de
calidad y seguridad, el consumo de datos pblicos debe ser hecho respetando las buenas
prcticas de la disciplina.
La Gobernanza de Datos es una disciplina emergente con una definicin de desarrollo, por ms
que su prctica (bajo otras denominaciones) es vieja como la informtica. La disciplina representa
una convergencia de: la calidad, la gestin y las polticas de datos; la gestin de procesos de
negocio y; la gestin de riesgos que rodea el tratamiento de los datos de una organizacin. A
travs de la gobernanza de datos, las organizaciones buscan ejercer un control positivo sobre los
procesos y mtodos utilizados por los administradores y por los custodios de datos para
manejarlos.
En resumen, se entiende por Gobernanza de Datos: al conjunto de procesos que asegura que los
de datos que se administran cumplen con las garantas de calidad, actualizacin y seguridad
adecuadas y por lo tanto son confiables para su uso, particularmente para la toma decisiones. As
como a las instituciones pblicas se les solicita gestionar y custodiar sus datos con las buenas
prcticas establecidas, a las personas u organizaciones que consumen los datos pblicos tambin
se les debe exigir que cumplan con los requisitos adecuados. De esta forma se trata de evitar el
uso espurio, mal intencionado o no de los datos pblicos, minimizando el riesgo de utilizar datos
daados o elaborar informes sin fundamento real.
1.4 La publicacin de la historia
La visualizacin de datos es una disciplina transversal que utiliza el enorme poder de
comunicacin de las imgenes para explicar de manera comprensible las relaciones de
significado, causa y dependencia que se pueden encontrar entre las grandes masas abstractas de
informacin que generan los procesos cientficos y sociales. Actualmente, la visualizacin de
datos se ha convertido en un rea activa de investigacin, enseanza y desarrollo.
Podramos decir que el objetivo principal de la visualizacin de datos es comunicar informacin de
forma clara y eficaz a travs de medios grficos. Para transmitir ideas de manera efectiva, la
esttica y la funcionalidad van de la mano para proporcionar informacin generada a partir de
datos de una manera intuitiva. La visualizacin de los datos est estrechamente relacionada con
los grficos de la informacin, la visualizacin de la informacin, la visualizacin cientfica y los
grficos estadsticos.
La cantidad de ejemplos de visualizacin es realmente enorme y es una de las disciplinas que
ms desarrollo ha generado en los ltimos tiempos. Van solo dos ejemplos como muestra, ya que
un estudio ms detallado queda por fuera del alcance de este texto.
MySociety desarroll
hace aos este
proyecto que ilustra
perfectamente la
utilidad de cruzar
datos urbanos con la
localizacin fsica. La
herramienta
Mapumental permite
visualizar el tiempo de
transporte para llegar
a un punto de
determinado desde
cualquier lugar de la
ciudad, ayudando con
ello a entender la
distancia temporal de
movilidad, mucho ms
til y prctica que la
distancia fsica.

Imagen: Distancias temporales para moverse en la ciudad.


Fuente: www.ateneonaider.com

Una idea sencilla pero


impactante
visualmente. La
poblacin de nueva
York durante el da y
durante la noche,
reflejando la densidad
de las diferentes
zonas.

Imagen: La ciudad cambiante: da y noche.


Fuente: www.ateneonaider.com

2 Reflexiones
Van a continuacin algunas reflexiones no como conclusiones sino todo lo contrario, como
iniciadores de nuevas reflexiones y generadores de intercambios:
La Publicacin de Datos no es un fin en si mismo, es solo un paso necesario para el
Consumo. Sin consumo no se logra la deseada transparencia.
El Consumo de Datos Pblicos es parte del ejercicio democrtico de los ciudadanos.
El Consumo de Datos Pblicos exige de prcticas profesionales responsables.
La Publicacin de Datos, ms all de su objetivo de transparencia, puede ser vista como
Obra Pblica con el consecuente impacto econmico en la sociedad.
A pesar de requerir la intervencin de diferentes perfiles especficos para llevar adelante las
distintas etapas del consumo de datos pblicos, el rol del periodista es el que le da ilacin
y sentido al resto para que todo el proceso finalice en un producto interesante para el
pblico objetivo.
3 Bibliografa
Concha, Gastn y Naser, Alejandra (ed.) (2012): El desafo del Gobierno Abierto en la hora de la
igualdad. CEPAL, Santiago, marzo de 2012. http://www.eclac.org/cgi-bin/getProd.asp?
xml=/publicaciones/xml/9/46119/P46119.xml&xsl=/ddpe/tpl/p9f.xsl&base=/socinfo/tpl/top-
bottom.xsl
Data Journalism Handbook 1.0 Beta, datajournalismhandbook.org
Guillaud, Hubert (19/07/11): Les donnes pour comprendre le monde.
www.internetactu.net/2011/07/19/les-donnees-pour-comprendre-le-monde/
Guillaud, Hubert (27/07/11): Lavenir de la rutilisation des donnes publiques.
www.internetactu.net/2011/07/27/lavenir-de-la-reutilisation-des-donnees-publiques/
Guillaud, Hubert (9/07/11): Journaliste de donnes : data as storytelling.
www.internetactu.net/2010/07/09/journaliste-de-donnees-data-as-storytelling/
Wikipedia, es.wikipedia.org

También podría gustarte