Está en la página 1de 11

Introduccin a la Publicacin de Datos1

Eduardo Poggi
Las iniciativas relacionadas al Open Data o apertura de datos por parte de las administraciones
pblicas son novedosas en su aplicacin masiva a pesar de ser un tema discutido desde hace
muchas dcadas. Desde principios del siglo XXI su aplicacin se ha vuelto ms activa, sin
embargo sigue siendo una prctica incipiente. Por lo tanto, el tema se encuentra an en debate y
las conceptualizaciones, definiciones y prcticas asociadas son creadas y modificadas
continuamente debiendo considerarse una disciplina en formacin. Esto va sucediendo al mismo
tiempo que se analizan los efectos -deseados o no- de su aplicacin y se va comprendiendo la
ecuacin de costo/beneficio asociada.
Lo que se incluye a continuacin es un resumen de lo considerado como actualmente-
establecido sin la pretensin de ser ni completo ni correcto, adems de estar sesgado por una
mirada desde la gestin de informacin.
Antecedentes.
Que los Estados transparenten su accionar y muestren la informacin que gestionan de sus
respectivas sociedades no es un requerimiento nuevo, pero en los ltimos aos ha resurgido
alcanzado tambin por el proceso de informatizacin y digitalizacin masivo que ha afectado tanto
a las administraciones como a las sociedades. El Open Data, como parte del Open Government,
es una postura que exige que los datos administrados por los Estados sean expuestos ante la
sociedad. Exceptuando a algunos datos que pueden estar protegidos por condiciones especiales,
Open Data propone que todo lo dems sea concebido como informacin pblica y, por lo tanto
publicado sin restricciones. Esta demanda se opone a la tradicional postura de los organismos
pblicos de mantener para s los datos que ha recopilado, aplicando un principio de reserva
implcita que se denomina (OEA, 2010) oscuridad por defecto.2
Segn Jos Manuel Alonso (OEA, 2010), el actual re-descubrimiento del valor de los datos en
poder de las administraciones pblicas se podra haber dado por la confluencia de los siguientes
factores: (a) una sociedad ms comunicada y acostumbrada a informarse online y que ha ido
perdiendo la confianza en sus representantes democrticamente elegidos; (b) una
democratizacin de las fuentes de informacin como los blogs, y (c) un desarrollo tecnolgico que
permite llegar a una gran masa de pblico con unos costos bajos.
Es cierto que con el avance del Gobierno Electrnico producido entre fines del sigo XX y principios
del XXI, los organismos pblicos han avanzado mucho en hacer ms accesible cierta informacin
por medio de sus sitios en Internet. Pero se considera que dicha informacin se publica
preprocesada, eventualmente a gusto del gobierno de turno, con contenidos que pueden ser
parciales y en formatos que dificultan un reprocesamiento que permita analizarlos o integrarlos a
otros datos de acuerdo con intereses particulares. Por esta razn, Open Data propone que,
adems de lo que se publique en los sitios Web, los datos deben ser publicados en bruto, es
decir sin ningn tipo de tratamiento previo y en formatos procesables automticamente.
Pero, la propuesta de Open Data va un poco ms all de la transparencia y la posibilidad de
control de la administracin. Tal como se ha propuesto en los pases ms avanzados en el tema
(EE.UU., Reino Unido, Australia, entre otros), la publicacin masiva de los datos en bruto puede
convertirse en una materia prima a partir de la cual, la misma sociedad desarrolle actividades que
agreguen valor y produzcan bienes intangibles como aplicaciones y servicios de inters social o
comercial. Se podra pensar entonces que la efectiva liberacin sistemtica de datos por parte de

1 Este documento est basado en una versin anterior elaborada por el autor para el Curso de
Implementacin de la Carta Iberoamericana de Gobierno Electrnico realizado por el INAP de Argentina y el
CLAD, Edicin 2011.
2 Este fenmeno tambin ocurre intra-estado, cuando los organismos no ponen en disponibilidad sus datos
a otros organismos ignorando el principio de simplificacin registral base de la interoperabilidad. Segn
estudios realizados en Argentina (AR/SGP/FRRII, 2008) este fenmeno se debe a una gran cantidad de
barreras de tipo legal, organizacional, tecnolgico y, especialmente, cultural.
las administraciones, permitiran desarrollar nuevos modelos de negocio como el
"crowdsourcing"3. Con esta postura, Open Data se podra ver ms como una obra pblica de los
estados en su rol facilitador de la actividad econmica.
En resumen, segn Roberto Agune -Presidente del Consejo Estadual de Informtica del Gobierno
del Estado de So Paulo, Brasil- (OEA, 2010): la liberacin del acceso a los datos
gubernamentales se caracteriza como un proceso sistematizado, articulado e intencional, capaz
de organizar, transferir y compartir bases de datos e informaciones de carcter pblico y no
restringida, para aumentar el grado de transparencia de la administracin pblica y permitir una
participacin ms efectiva del ciudadano como usuario, como productor y como generador de
conocimiento y productos de inters para la misma sociedad. Resulta aqu innegable el valor
poltico, cultural, econmico y social del libre acceso a los datos e informaciones de carcter
pblico
La demanda suena realmente interesante, pero hay que ser consientes que los estados no han
conseguido an lograr muchos de los principios deseables del Gobierno Electrnico propuestos
hace 20 aos. La integracin masiva de datos y servicios dentro de una misma administracin
sigue siendo una meta lejana, sin considerar la ampliacin a los distintos niveles administrativos o
poderes que conformen el Estado. La apropiacin de una prctica como el Open Data requerir
de cambios de tipo legal, organizacional, informtico, tecnolgico y, sobretodo, cultural. En este
sentido, se suma una exigencia ms a los Estados que deber ser abordada de forma constante y
paulatina, permitiendo comprender sus costos, beneficios y efectos colaterales. Avancemos ahora
en definir en forma ms precisa para luego intentar operacionalizar el Open Data.
Definicin
De acuerdo con la organizacin Open Government Data4, se denomina liberacin del acceso a
datos gubernamentales (open government data) a la puesta en disponibilidad pblica por parte de
los estados de datos en forma digital a travs de Internet de manera que permita y promueva su
anlisis y reutilizacin. En 2007 el grupo de trabajo denominado Open Government Working
Group reunido en Sebastopol (California, EE.UU.) propuso 8 principios para la liberacin del
acceso a datos gubernamentales5, los cuales se han convertido en un punto de partida de facto
para la puesta en disponibilidad masiva de datos pblicos. Estos principios fueron
complementados posteriormente en documentos de la W3C6, en sntesis, podramos aproximar la
siguiente definicin: el acceso a datos gubernamentales se considera abierto si los datos son
puestos a disposicin del pblico cumpliendo con los siguientes principios:
1. Complecin: se libera el acceso a todos los datos pblicos, es decir, aquellos que no
estn sujetos a restricciones de privacidad, seguridad o privilegio regidos por alguna
norma.
2. Fuente primaria: los datos se publican tal como son recolectados en la fuente, con el
mayor nivel de precisin y detalle, no en formas agregadas o modificadas.

3 Crowdsourcing es un trmino del slang que juega con el trmino outsourcing usado para describir la
prctica de utilizar las habilidades y dedicacin de un grupo de aficionados mal o no pagos (multitud, del
ingls crowd) para cumplir con alguna funcin. Bsicamente, significa usar a la multitud, conocido en
espaol como "tercerizacin masiva" o "subcontratacin voluntaria". Actualmente se le da el sentido de
externalizar tareas que tradicionalmente realizaba un empleado o contratista a un grupo numeroso de
personas o una comunidad a travs de una convocatoria abierta. Su uso depende esencialmente de la
masividad de una convocatoria abierta a un grupo indeterminado de personas, donde se reuniran los ms
aptos para ejercer las tareas, responder ante los problemas complejos y contribuir con las ideas ms
frescas y relevantes a sus aportaciones. Por ejemplo, se podra invitar al pblico a desarrollar una nueva
tecnologa, a llevar a cabo una tarea de diseo (diseo basado en la comunidad o diseo participativo
distribuido), a mejorar un algoritmo, o ayudar a capturar, sistematizar o analizar grandes cantidades de
datos. (basado en www.es.wikipedia.org)
4 www.opengovdata.org
5 www.opengovdata.org/home/8principles
6 En Tauberer (2009) se fundamenta la relevancia de la liberacin del acceso a los datos en poder de los
gobiernos, asignndole la significacin de capital cvico y se amplan a diecisis los principios y
recomendaciones de buenas prcticas.
3. Oportunidad: los datos se publican tan pronto como sea posible para preservar su valor.
4. Accesibilidad: los datos estn accesibles para las ms amplias gamas de usuarios y de
propsitos.
5. Procesables: los datos estn en formatos apropiados y razonablemente estructurados
para permitir su tratamiento automatizado.
6. No discriminacin: los datos estn disponibles para todos, sin necesidad de registrarse
para obtenerlos.
7. No restriccin: los datos estn accesibles en un formato sobre el que ninguna entidad
tiene control exclusivo.
8. Uso libre: los datos no estn sujetos a derechos de autor, patentes, marcas ni a
regulaciones de secreto industrial o comercial. Tampoco estn sujetos a restricciones de
privacidad, seguridad o privilegio reguladas por otras normas.
9. Documentacin: los datos estn documentados de forma que puedan ser correctamente
interpretados. Idealmente la semntica asociada a los datos debera cumplir tambin con
los restantes principios, por lo que debera ser publicada de forma estandarizada y
procesable, sin perjuicio de la documentacin tradicional que lo complemente.
10. Permanencia: los datos se mantienen accesibles de forma permanente.
11. Interoperables: los distintos conjuntos de datos son relacionables entre s sin mayor
esfuerzo, gracias a la estandarizacin sintctica y semntica.
12. Garanta de procedencia: los conjuntos de datos estn publicados con mecanismos que
provean confianza sobre: las fechas de creacin y publicacin, la identidad, autenticidad y
no repudio de la fuente y su integridad.
Para el cumplimiento de los anteriores principios se pide adems:
Asignar a una persona de contacto para responder a quienes desean usarlos.
Asignar a una persona de contacto para responder a las quejas sobre violaciones de los
principios.
Disponer de un tribunal administrativo o judicial con competencia y jurisdiccin para juzgar
si una agencia gubernamental ha aplicado apropiadamente los principios.
Ms all de la exactitud, borrosidad y alcance de la definicin, el espritu del movimiento Open
Data es claro: los datos administrados por los estados deben estar fcilmente accesibles al
pblico en general para su libre tratamiento siempre que no violen las protecciones vigentes.
Los principios precedentes especifican cmo se pretende que se publiquen los datos por parte de
las administraciones, pero deja varios aspectos borrosos (que comentaremos ms adelante). Por
lo que debera en realidad ser considerada ms como una poltica establecida por un conjunto de
principios, donde es importante no considerarlos de forma aislada, si no relacionada. Tambin
pueden existir ciertos factores contextuales polticos, administrativos, organizacionales,
culturales, tcnicos- que condicionen significativamente la forma y viabilidad de las iniciativas de
liberacin del acceso a datos en distintos pases o administraciones.7
Consideraciones
Ahora que contamos con una aproximacin de que es Open Data, presentaremos algunas
aclaraciones que permitirn comprender un poco mejor el alcance pretendido o aceptable de los
principios enunciados.
Hay que considerar que los datos pblicos pueden ser de cualquier tipo: documentos,
datos estructurados provenientes de sistemas de informacin, transcripciones y
grabaciones audiovisuales en soporte digital. Tambin se incluyen otros tipos de material
no-documental como: geogrfico, sobre genomas o compuestos qumicos, frmulas,
diagnsticos mdicos, etc. Por lo tanto, documento o dato deben considerarse en este
apartado en su acepcin ms amplia.

7 Como un ejemplo de tal incidencia, sugerimos leer Eaves (2009).


Las restricciones a la publicacin de datos o documentos pueden estar dadas por leyes
especficas, por ejemplo: datos sensibles referentes a personas, secreto fiscal o financiero,
secretos industriales, aquellos que pueda afectar la estabilidad del sistema financiero o la
seguridad nacional, etc. Open Data propone que el principio bsico es el de transparencia
y las restricciones son las excepciones.
Tampoco se exige que deban publicarse documentos con contenido patentable
proveniente de investigaciones industriales, tecnolgicas o cientficas. Los resultados de
estas investigaciones se abrira una vez que ya fueran publicados en revistas con
arbitraje por pares.
La disponibilidad, accesibilidad, gratuidad, no discriminacin pueden ser -en parte-
aseguradas por la publicacin libre en Internet. Pues, se considera que hoy en da las
personas que requieren informacin de los estados recurren a la Web como nica opcin o
antes de ejercer cualquier otra. Si la informacin slo puede obtenerse mediante solicitud a
travs de correo postal, o peor an, en persona, no puede considerarse disponible para la
gran mayora de los ciudadanos. Anlogamente, el acceso a la informacin debe ser
gratuito o costos muy bajos. Anlogamente al caso anterior, si se exige algn pago para la
recuperacin, se considera que se est limitando la disponibilidad. 8
Lo anterior se complementa con que los datos deben estar disponibles para las gamas
ms amplias de usuarios y propsitos y formatos compatibles con los usos intencionales y
no intencionales de los datos. Los datos deben ser publicados con los protocolos
estndares y actuales de la industria y todos los formatos cuando est disponible para
asegurar que los usos no intencionales no se limitan, as como los protocolos y formatos
alternativos cuando sea necesario para promover la amplia disponibilidad de ms casos de
uso limitado. Otro aspecto a considerar es que si los datos son accesibles a travs de una
interfaz interactiva, debe ser posible adems descargar el conjunto completo de forma
primaria gracias a una descarga masiva de datos.
Los datos primarios son los datos que se recogen en la fuente, con el nivel ms detallado
posible de granularidad, evitando formas agregada o modificadas. A menudo se considera
que el nico acceso abierto a audio, vdeo e imgenes son de baja resolucin con el fin de
hacerlos adecuados para su visualizacin en Internet. Si bien este es un caso de uso
importante, los editores de datos abiertos tienen la obligacin de hacer que la informacin
de alta resolucin disponible en grandes cantidades, probablemente adems de un
formato de baja resolucin, para soportar aplicaciones adicionales, tales como la creacin
de medios de comunicacin profesional y el archivo. Del mismo modo, los datos numricos
o estructurados no deben ser agregados para una aplicacin particular a costa de ignorar
otra informacin pblica que podran ser utilizados.
En cuanto a la oportunidad, los datos se deben poner a disposicin tan pronto como sea
necesario para preservar su valor. En otras palabras, los datos no se consideran abiertos
si es slo para compartir una vez que sea demasiado tarde para que puedan ser tiles al
pblico. Adicionalmente, se considera que las actualizaciones deben estar oportunamente
disponibles y se debe proveer ayudas para informar a los interesados de las nuevas
publicaciones. Dada la heterogeneidad de situaciones, la oportunidad depender de la
naturaleza de la entidad de datos. Por supuesto que la oportunidad debe equilibrarse
dentro de ciertos mrgenes de utilidad, confiabilidad y razonabilidad administrativa.
Que los datos sean razonablemente fciles de procesar indica que deben estar
mnimanente estructurados y utilizar un formato de divulgacin claro y aceptable a tales
fines. Es importante comprender las consecuencias tcnicas de la eleccin de los
formatos. Las imgenes de texto no son un sustituto para el propio texto. Para la
publicacin, es importante evitar las imgenes escaneadas de los documentos impresos.
Incluso el PDF puede no permitir un nivel satisfactorio de procesamiento. XML es un

8 Lo que constituye una tasa adecuada para la reutilizacin de informacin del gobierno vara de un pas a
otro. En algunos pases, tasas por encima del costo de reproduccin de un documento pueden ser vistas
como si estuvieran diseadas para incidir en la capacidad del pblico para supervisar al gobierno.
formato genrico de datos estndar de la industria, aunque un vuelco en bruto como texto
CVS puede considerarse aceptable.
Las libertades de uso implican que la publicacin de los datos no debe estar limitada por
las leyes como la de propiedad intelectual, derechos de autor, patentes o marcas, o de
otras restricciones arbitrarias. Las restricciones deben ser la excepcin y no la regla.9 Los
datos deben estar disponibles en un formato que no sea exclusivo de ninguna entidad. Los
formatos propietarios agregan restricciones sobre quin puede utilizar los datos, cmo
puede ser usada y compartida, debilitan la posibilidad de utilizacin futura y pueden
generar un conflicto de intereses.
La permanencia exige que los datos deban estar disponibles en un sitio de Internet estable
indefinidamente. Proporcionar documentos con direcciones de Internet permanente ayuda
a los ciudadanos compartir documentos con otras personas al permitirles a otros apuntar
directamente al documento, en lugar de tener que proporcionar instrucciones sobre cmo
llegar a ella o la distribucin del documento por separado ellos mismos. Un formato comn
para los enlaces permanentes a los documentos, que se utiliza en la mayora de sitios web
de peridicos, es "www.agencia.gov / ao / mes / da / nombre.xxx". Las direcciones Web
de esta forma dan una pista sobre la fecha y la naturaleza del documento
En cuanto a la confiabilidad, el contenido publicado debera estar firmado digitalmente o
incluir certificacin de la fecha de creacin de publicacin, autenticidad e integridad. Las
firmas digitales podran ayudar al pblico a validar la fuente de los datos que encuentran.
Debido a esto, los medios de comunicacin Web deben estar disponibles en formatos
adecuados para su visualizacin en un navegador y debe ser fcilmente localizables a
travs de buscadores.
Aspectos subyacentes
En los trminos definidos, la publicacin masiva de los datos gestionados por las administraciones
pblicas persigue los siguientes beneficios (basado en OEA (2010)):
Equidad: se postula que si la generacin de esos datos fue sufragada con recursos
pblicos, los mismos deben reintegrarse a la sociedad de manera totalmente libre y
gratuita, preservando las garantas de privacidad y la seguridad.
Transparencia: se seala que la mejor forma de ejercerla es difundiendo datos en bruto,
dado que ello permite una constante fiscalizacin de las acciones del gobierno.
Participacin: se supone que la disponibilidad de datos permite a los integrantes de la
sociedad desarrollar anlisis y ejercer las atribuciones participativas con posiciones
sustentadas en las propias perspectivas, sin interferencias emergentes de informacin
pre-digerida por otros. Esta dedicacin privada estara adems agregando valor a los
datos.
Colaboracin: se prev que las distintas instancias de la sociedad instituciones
educativas y de investigacin, organizaciones sociales, empresas, habitantes- aportarn, a
travs de la reutilizacin de los datos, una escalada de servicios con valor aadido y con
creciente aprovechamiento informativo, cognitivo, social y econmico.
Deberamos agregar el beneficio proveniente de la actividad econmica relacionada a la
explotacin de los datos, los cuales, como cualquier otra materia prima, conforman un bien que se
puede transformar y que puede crear valor econmico. El uso de la tecnologa est cambiando la
forma como las personas trabajan, producen, aprenden y se relacionan entre s y con su entorno.
Los datos en origen, no procesados ni transformados, permiten aportar valor si son utilizados para
generar nuevas funcionalidades y servicios. Con el concepto de reutilizacin de la informacin
generada por el sector pblico nos referimos al uso que pueden hacer personas, empresas y
organizaciones para crear nuevos productos y/o servicios para otros pblicos o destinatarios
(OEA; 2010).

9 Al igual que con lo que constituye tasas adecuadas, condiciones adecuadas de licencia pueden varar de
un pas a otro, ser necesario entonces un anlisis jurdico de cada situacin.
El uso de los datos abiertos suele estar sometido a leyes de reutilizacin de la informacin del
sector pblico y tener licencias de propiedad intelectual, aunque la tendencia es abrirlas sin
condiciones siempre y cuando se mantenga la fidelidad con la obligatoria citacin de la fuente. La
Comisin Europea, por ejemplo, considera que los datos pblicos tienen que ser reutilizados,
tanto por la ciudadana como por las empresas, ya que esto, adems de transparencia, supone un
motor al desarrollo de la sociedad de la informacin y el conocimiento sobre todo para el sector de
los contenidos digitales.
En lo que respecta al mbito cientfico, segn Hlio Kuramoto -Investigador en Ciencias de la
Informacin en el Instituto Brasileo de Ciencias de la Informacin y Tecnologa (IBICT) del
Ministerio de Ciencia y Tecnologa (MCT), Brasil- (OEA, 2010): el libre acceso a los datos
promovera un mayor intercambio del conocimiento y, en consecuencia, podra contribuir a reducir
las desigualdades sociales y la exclusin cognitiva promoviendo la inclusin social. Desde el
punto de vista del investigador, el argumento ms fuerte es que las iniciativas de acceso libre
promueven una mayor visibilidad de sus trabajos e investigaciones, lo que les permitira lograr un
mayor nmero de citas con el consecuente impacto. Tambin aumentara la visibilidad de las
universidades o instituciones de investigacin, resultando en mayores ventajas competitivas. Otro
beneficio se podra obtener del aumento de oportunidades de intercambio con otras instituciones
similares. Tal vez el nico segmento que a primera vista podra no resultar beneficiado es el de los
editores y distribuidores de publicaciones cientficas, pero incluso ellos podran beneficiarse, dado
que las iniciativas de repositorios institucionales promueven una mayor visibilidad de los trabajos
publicados, as como de las propias revistas, lo que implicara tambin un aumento de su factor
de impacto.
Trminos y condiciones de uso
Algunas implementaciones de Open Data establecen ciertas restricciones a la reutilizacin que se
hacer de los datos, es decir, al uso que pueden hacer personas, empresas y organizaciones para
crear nuevos productos y/o servicios para otros pblicos o destinatarios. Por ejemplo, el artculo 4
de la Ley 37/2007 de Espaa10, establece dos modalidades:
1. Reutilizacin sin ningn tipo de condicin. Aunque la informacin puesta a disposicin
pblicamente queda exenta del cumplimiento de condiciones por parte de los reutilizadores
(empresas y usuarios), tiene que contener un aviso legal que establezca los puntos
bsicos de cumplimiento, que son:
2. Que el contenido de la informacin no est alterado.
3. Que no se desnaturalice el sentido de la informacin.
4. Que se cite la fuente.
5. Que se mencione la fecha de la ltima actualizacin.
6. Reutilizacin con sujecin a condiciones que establezcan licencias-tipo. Son datos
que pueden estar sujetos a derechos de propiedad intelectual de la misma Administracin
o de terceros (la mayora de casos). En estos casos, las licencias, adems de ser
procesables electrnicamente y de estar en formato digital, tienen que tener en cuenta
estos criterios:
7. Tienen que ser claras, justas y transparentes.
8. No tienen que restringir las posibilidades de reutilizacin.
9. No tienen que ser discriminatorias para categoras comparables de reutilizacin.
La reutilizacin se puede limitar por la tutela de otros bienes jurdicos prioritarios, como por
ejemplo la proteccin de los datos personales, la intimidad o los derechos de proteccin intelectual
de terceros. La reutilizacin de obras protegidas por la propiedad intelectual se formaliza mediante

10 Por este motivo los pases de la comunidad han legislado sobre la reutilizacin de la informacin del
sector pblico en acuerdo con la Directiva 2003/98/CE del Parlamento Europeo. Vase la versin espaola
de la Ley 37/2007. http://ec.europa.eu/information_society/policy/psi/docs/laws/spain/law2007.pdf Tambin
puede verse como ejemplo la versin de Catalua en http://dadesobertes.gencat.cat/es/com-utilitzar-
dades.html.
el uso de la licencia de Reconocimiento Creative Commons CC BY 3.0
(creativecommons.org/licenses/by/3.0/es/)
En la prctica se permite la reproduccin, la distribucin, la comunicacin pblica y la
transformacin para generar una obra derivada, sin ninguna restriccin, siempre que se cite al
autor (Generalitat de Catalua). Por ejemplo, en el caso de las fotografas del Banc Iconogrfic de
la Generalitat de Catalua (BIG) y otros tipos de datos en los cuales hay participacin de terceros,
la reutilizacin se vehicula a travs de alguna de la licencia Creative Commons Reconocimiento
SinObraDerivada CC BY-ND 3.0, se permite el uso comercial de la obra pero no la generacin de
obras derivadas. 11
En determinados casos, la reutilizacin slo ser posible con solicitud previa en el ente generador
de los datos, como por ejemplo las del Instituto Cartogrfico de Catalua, las condiciones del cual
se especifican en www.icc.cat/esl/layout/set/print/Home-ICC/Inici/Condicions-d-us. En cualquier
caso, la aceptacin de los trminos de uso no supone la concesin de los derechos de autor ni la
propiedad intelectual sobre los conjuntos de datos. La Generalitat de Catalua se reserva el
derecho de publicar conjuntos de datos para los que haya que satisfacer el pago de
contraprestaciones econmicas. La cuanta de estas contraprestaciones tendr como objetivo
cubrir los costes asociados a la produccin, reproduccin y difusin de los conjuntos de datos y en
ningn caso puede ser superior. El listado con la cuanta de las contraprestaciones aplicables se
encontrar a disposicin pblica de forma concurrente a la publicacin de los conjuntos de datos.
Publicacin de datos
Tal como recomienda el W3C en su gua de publicacin (W3C, 2009), se tienen que liberar datos
tiles y en formatos reutilizables. Cualquier formato es bienvenido pero cuanto ms estructurados
y documentados estn los datos, ms fcil ser reutilizarlos y construir aplicaciones que los traten
automticamente. Por esto hay formatos y proyectos de datos abiertos que se consideran de
menor valor que otros. Segn algunas recomendaciones, los formatos ms adecuados son el
RDF, basado en XML y susceptible de pasar fcilmente al siguiente nivel llamado datos
enlazados (linked data), que a su vez es la base tcnica para alimentar la denominada Web
semntica, un estndar en el que cada dato contiene informacin asociada que lo relaciona
automticamente con otros. El W3C tambin recomienda crear un catlogo con la descripcin
precisa de todos y cada uno de los conjuntos de datos (data sets) que libera un estado y, a la vez,
libera tambin el propio catlogo en formato RDF.
La W3C (W3C, 2009) recomienda los siguientes pasos para publicar los datos del gobierno
1. La forma ms rpida y fcil para que los datos disponibles en la Internet es la publicacin
de los datos en su forma cruda (por ejemplo, un archivo XML de los datos electorales de
las pasadas elecciones). Sin embargo, los datos deben estar estructurados de forma tal
que permita a otros a procesarlos exitosamente. Los formatos ms conocidos son XML,
RDF y CSV.
2. Crear un catlogo en lnea de los datos en bruto (pero documentados) para que se pueda
descubrir lo que ha sido publicado. Estos conjuntos de datos en bruto deben ser fiables,
estructurados y documentados, de lo contrario su utilidad es insignificante. La mayora de
los gobiernos ya tienen mecanismos para crear y almacenar los datos (por ejemplo, Excel,
Word y otros formatos de archivos de software especfico).
3. Hacer que los datos tanto en formato humano como legibles por mquina: enriquecer su
ya existente HTML/XML con la semntica de los recursos, los metadatos, y los
identificadores; codificar los datos mediante estndares abiertos y la industria -en particular
XML- o crear sus propias normas sobre la base de su vocabulario; que sus datos legible
por cualquiera de convertir a HTML/XML, o mediante el uso de las transformaciones en
tiempo real a travs de CSS o XSLT. Recuerde que debe seguir los requisitos de
accesibilidad; uso permanente estampas de tiempo y/o descubrir "URIs"; permitir las citas

11 La licencia completa se puede consultar en


creativecommons.org/licenses/by/3.0/es/legalcode.es.
electrnicas en la forma de estndar (anclaje / enlaces de identidad o XLinks / XPointers)
hipervnculos.
Estos pasos le ayudarn al pblico a encontrar fcilmente, uso, citar y entender los datos.
10. Identificar: La capacidad de identificar las cosas por un URI / URL es la base de Internet.
El uso de direcciones permanentes en la publicacin de datos facilitar su identificacin y
acceso y podra ser utilizado en bases de datos y metadatos con identificadores
universales nicos, por ejemplo, aadiendo un nmero de serie u otro sistema de
nomenclatura interna de un dominio que podra incluir un identificador del organismos
publicador.
11. Documentar: sin la documentacin adecuada los datos no son muy tiles o pueden ser
mal interpretados. Se deben utilizar estndares ampliamente difundidos, por ejemplo, XML
o RDF, que tienen a ser auto-documentados o utilizar esquemas de documentacin
externa y formatos de datos ms simples. Tambin se debera crear una pgina Web con
una descripcin clara del conjunto de datos para ayudar a los motores de bsqueda a
encontrar datos. Como mnimo, se debe incluir: ttulo, descripcin, fecha de publicacin y
la fuente autorizada. Se debe usar un lenguaje claro y proveer enlaces a la informacin
relativa a ayudar a poner los datos en su contexto. Incluir tambin un catlogo de datos
con la descripcin de cada dato y las reglas de validacin de datos. Adems, el catlogo
de datos en s se considera "datos" y deben ser publicados como datos estructurados, a fin
de que terceros puedan procesarlos. El catlogo de datos debe explicar las normas o
reglamentos que se deben seguir en el uso del conjunto de datos.
12. Vincular: relacionar los datos con otras posibles fuentes de forma estandarizada que
permita asociarlos a un contexto ms amplio. Se recomienda usar URI y http URI segn
corresponda que puedan ser accedidos pblicamente.
13. Preservar: la preservacin de los datos publicados deber ser una de las mayores
preocupaciones. No slo se debe asegurar la presencia de los datos en el tiempo sino su
accesibilidad y su relacin temporal con otras versiones que permita conocer la historia del
conjunto. Esta exigencia debera ser tenida en cuenta al momento de elegir las URI. Si es
necesario, se deben proporcionar herramientas para traducir los datos ms antiguos. Se
deben documentar los cambios entre las versiones, e incluir el nmero de versin /
indicador dentro de los datos si es posible.
14. Elegir los datos a publicar: todos los datos que se pueden compartir pblicamente deben
ser abiertos a la difusin pblica, siempre en cumplimiento de las normativas aplicables y
dems cuestiones de seguridad y privacidad. En primer lugar se podran publicar los datos
ya disponibles en otros formatos, como los impresos por ejemplo, tanto en su versin
digital como una ms estructurada. Tambin deberan ser publicados todas las normas,
reglamentos, cdigos y dems documentos pblicos relacionados con la misin de la
agencia. Luego podran ir publicndose los datos administrados por los sistemas de
gestin.
15. Elegir el formato adecuado: El uso de estndares permite a las partes interesadas
descubrir ms fcilmente y proporcionar informacin sobre los datos para su correcta
interpretacin. Es preciso tener cuidado en la eleccin del estndar para publicar cada
dato o documento.
16. Publicar las restricciones al uso: una vez decidida la publicacin es recomendable
documentar y publicar las posibles restricciones sobre el uso de los datos, tanto genricas
como especficas. Se deben aclarar las licencias y exigencias requeridas para su
utilizacin. Es muy importante ser claro con respecto a los usos previstos, los crditos, las
limitaciones y responsabilidades que las partes en particular, tienen en lo que respecta a
trabajar con y al proporcionar los datos.
Algunas conclusiones y reflexiones
Las experiencias realizadas hasta el momento han dejado algunas lecciones aprendidas que
podramos resumir en las siguientes expresiones:
17. Abrir los datos pblicos existentes a terceros tiene un costo econmico y organizacional;
requiere de nuevas prcticas institucionales y cambios culturales, adems de cierta
sofisticacin informtica para hacerlos de forma automtica y segura. Especialmente la
determinacin -y posterior proteccin- de cuales datos son pblicos y cuales no impacta
fundamentalmente en el esfuerzo-costo de publicar.
18. La disponibilidad de los datos no garantiza su utilizacin, son necesarias acciones para
promover su tratamiento.
19. Una comunidad de usuarios interesados con acceso a los datos pblicos puede ser una
buena fuente de informacin para las administraciones sobre los intereses de la
comunidad.
20. La apertura de datos no es un fin en si mismo.
El Open Data es novedoso y genera grandilocuentes adhesiones conceptuales, especialmente en
el discurso poltico y en la consultora asociada, lo cual genera una importante borrosidad del
trmino. Como todo cambio origina detractores sin que -por ahora- aparezcan oposiciones
conceptuales significativas, siempre que se respeten las respectivas leyes de proteccin. Pero,
ser el tiempo y los avances los que confirmarn, rechazarn o nos sorprender con sus reales
efectos e implicaciones. Lo que no hay que olvidar, es que las discusiones conceptuales, polticas
y jurdicas son en general mucho ms fciles de enunciar que de llevar a la prctica y es preciso
considerar los tiempos de implementacin y de un anlisis serio de sus efectos para mitigar los no
deseados y potenciar los beneficiosos. Como en toda implementacin significativa, un buen
consejo sera tener muy claras metas ambiciosas de largo plazo y avanzar hacia estas con pasos
cortos, seguros y continuos. Y, principalmente, no olvidar que Open Data es un medio para
conseguir algo mejor, no un fin.
Aqu van algunas cuestiones para discutir, pensar y elaborar:
13. El crowdsourcing puede presentar algunas disyuntivas, por un lado tiene un potencial
beneficio de transparencia y dems expectativas que ya hemos enunciado. Pero, por otro
lado puede utilizarse para transferir a la sociedad el costo de cumplir con obligaciones que
son propias de las administraciones, lo cual sera un uso espurio del concepto de Open
Data. Cmo se determina el lmite entre lo que son obligaciones estatales y abuso del
Open Data?
14. Puede cobrarse el uso de los datos pblicos? Nunca, siempre o en algunas
circunstancias? Por ejemplo, cuando ciertos datos fueron generados con el presupuesto
pblico y pueden ser aprovechados por algn sector especfico para actividades lucrativas.
Y, cundo fueron generados por algn esfuerzo sectorial, por ejemplo los provenientes de
la educacin privada?
15. Qu significa en la prctica: no desnaturalizar el sentido de la informacin?
16. Hasta que punto se cumple con el anonimato? Las leyes de secreto estadstico
establecen que no se pueden identificar personas fsicas pero, y las jurdicas?, y
entornos acotados de personas?, es correcto hacer una caracterstica descriptiva de un
pequeo barrio ocupado por pocas familias o de un sector industrial muy concentrado?
17. Los datos de tipo cientfico deben quedar disponibles slo al mbito cientfico? Qu se
considerara el mbito cientfico? las instituciones formalmente declaradas?, los centros
de investigacin privados o las reas de Investigacin y Desarrollo de las empresas?, un
estudiante haciendo su tesis es un investigador? y el periodismo de divulgacin?
18. Tienen el mismo derecho de acceder a datos pblicos un ciudadano del mismo pas que
un extranjero?
19. Qu pasa con el mal procesamiento de los datos? Dejemos por fuera del anlisis la
intencin delictiva, consideremos slo error de concepcin de los algoritmos o de
implementacin. Es punible la mala praxis en el procesamiento? Cubrira slo a
profesionales matriculados o a cualquiera?
20. La publicacin de los datos seguramente va a requerir una duplicacin por parte de las
administraciones (no parece sensato que los datos se publiquen desde su reservorio
productivo); lo cual va a generar una mayor necesidad de almacenamiento y por lo tanto un
mayor costo directo (infraestructura de TI), un mayor costo indirecto (huella ecolgica) y
una mayor demanda de servicios (ancho de banda por ejemplo). Este incremento de
costos debe ser pagado por la sociedad como parte del funcionamiento del Estado de
derecho?
21. La existencia de la figura de un CIO Pblico con injerencia sobre los datos se presenta
como una necesidad para publicar los datos con confianza y responsabilidad, las cuales
que deberan estar compartidas con el responsable funcional de los datos. Esta exigencia
no siempre est clara en muchos pases, especialmente en las administraciones. Es
posible publicar datos sin la respectiva responsabilidad sobre el servicio? Por ejemplo,
muchas regulaciones (SOX, COBIT, etc.) han promovido que un balance contable por
nombrar un ejemplo- sea firmado (real o digitalmente) por CEO, CIO, CFO y dems
participantes de la cadena jerrquica involucrada antes de ser entregado a las autoridades.
En el caso de la publicacin de datos estatales, habra que hacer algo parecido?
22. La publicacin de datos puede ser considerada como un servicio, por lo tanto, las buenas
prcticas exigiran que tuviera asociado un SLA12. De ser as, el Estado debera hacerse
cargo de la calidad del servicio de publicacin (en este caso, tanto de la disponibilidad
como de la calidad de los datos en s).
Bibliografa
AR/SGP (2008) Res. 99/08: Marco de Interoperabilidad de la Repblica Argentina.
www.sgp.gov.ar/contenidos/uci/actividades_realizadas/docs/Resolucion_99-08.pdf
AR/SGP/FRRII (2008) Mapa de restricciones a la Interoperabilidad en el sector pblico.
Presentacin del trabajo realizado por el Grupo de Interoperabilidad del Foro de
Responsables Informticos de la ONTI/SGP en USUARIA 2006. rrii.sgp.gob.ar/index.php?
option=com_docman&task=cat_view&gid=154&Itemid=200002
Eaves David (2009) Open Data: USA vs. Canada, October 2009. eaves.ca/2009/10/08/open-
data-us-vs-canada/
OCDE (2008) Recomendacin para el mejor acceso y el efectivo uso de la informacin pblica.
www.oecd.org/dataoecd/0/27/40826024.pdf
OEA (2010) Boletn Electrnico del Foro de e-Goierno de la Organizacin de Estados Americanos,
N 56, agosto de 2010. www.suboletin.com/contentsoea/docs/Boletin_56/Principal56.htm
Tauberer, Joshua (2009) Open Data is Civic Capital: Best Practices for Open Government Data",
versin 1.3 del 14/04/2010. http://razor.occams.info/pubdocs/opendataciviccapital.html
W3C (2009) Publishing Open Government Data, W3C Working Draft 8 September 2009.
www.w3.org/TR/2009/WD-gov-data-20090908/
Documentos complementarios y enlaces en la web

Referencia Enlace Sntesis

Wikipedia es.wikipedia.org Enciclopedia abierta.

Tracking the state of http://index.okfn.org/ Lista de catlogos de Open Data.

12 Por las siglas en ingls de Acuerdo de Nivel de Servicio: que se implementa como un contrato escrito
entre un proveedor de servicio y su cliente con objeto de fijar el nivel acordado para la calidad de dicho
servicio. Es una herramienta que ayuda a ambas partes a llegar a un consenso en trminos del nivel de
calidad del servicio, en aspectos tales como tiempo de respuesta, disponibilidad horaria, documentacin
disponible, personal asignado al servicio, etc. http://es.wikipedia.org/wiki/Acuerdo_de_nivel_de_servicio
Referencia Enlace Sntesis

government open data

Ejemplo de publicacin de datos


Open Data USA www.data.gov
abiertos de Estados Unidos.

Open Data UK http://data.gov.uk/ Ejemplo de publicacin de datos


abiertos del Reino Unido.

Datos Abiertos CABA http://data.buenosaires.gob.ar/ Ejemplo de publicacin de datos


abiertos de la Ciudad Autnoma de
Buenos Aires.