Está en la página 1de 64
UNIVERSIDAD CARLOS III DE MADRID FACULTAD DE HUMANIDADES COMUNICACIÓN Y DOCUMENTACIÓN DEPARTAMENTO DE BIBLIOTECONOMÍA Y

UNIVERSIDAD CARLOS III DE MADRID

FACULTAD DE HUMANIDADES COMUNICACIÓN Y DOCUMENTACIÓN

DEPARTAMENTO DE BIBLIOTECONOMÍA Y DOCUMENTACIÓN

Máster en Investigación en Documentación

2011/2012

Trabajo de Fin de Máster

LA RELACIÓN DEL PERIODISMO DE DATOS CON BIG DATA Y OPEN DATA

Autora: Ángeles Mariño

Tutor: Dr. Luis Joyanes Aguilar

TRABAJO DE FIN DE MÁSTER HA SIDO POSIBLE GRACIAS A LA BECA MAEC-AECID PARA EXTRANJEROS, CONVOCADA POR LA AGENCIA ESPAÑOLA DE COOPERACIÓN INTERNACIONAL PARA EL DESARROLLO Y QUE ME FUE CONCEDIDA EN EL PERÍODO ACADÉMICO 2011-2012.

CONTENIDO

1.INTRODUCCIÓN A LA INVESTIGACIÓN

5

1.1 ANTECEDENTES Y MOTIVACIÓN

5

 

1.2 OBJETIVOS

5

1.3 OBJETO Y ESTADO DE LA CUESTIÓN

6

 

1.4 HIPÓTESIS

9

1.5 JUSTIFICACIÓN

9

1.6 METODOLOGÍA

9

1.6.1

LA WEB 2.0 EN MI TRABAJO DE INVESTIGACIÓN

12

2.PERIODISMO DE DATOS

13

2.1 INTRODUCCIÓN

13

2.2 LOS ANTECEDENTES DEL PERIODISMO DE DATOS: PERIODISMO DE PRECISIÓN Y CAR

15

2.3 DEFINICIONES DE PERIODISMO DE PRECISIÓN

16

2.4 LA EVOLUCIÓN DEL PERIODISMO DE PRECISIÓN Y DEL PERIODISMO DE DATOS

17

2.5 CARACTERÍSTICAS DEL PERIODISMO DE DATOS

25

2.5.1 OBJETIVIDAD Y TRANSPARENCIA

25

2.5.2 NECESIDAD DE ORDENAR

26

2.5.3 TRABAJO EN GRUPO

27

2.6 ¿CÓMO SE HACE PERIODISMO DE DATOS?

27

2.6.1 COMPILAR LOS DATOS

28

2.6.2 FILTRADO Y LIMPIEZA DE DATOS

29

2.6.3 CONTEXTUALIZAR LA INFORMACIÓN

30

2.6.4 COMBINAR LOS DATOS

31

2.6.5 COMUNICACIÓN DE LOS DATOS

32

2.7 DOS EJEMPLOS DE PERIODISMO DE DATOS

38

2.7.1 “¿DÓNDE VAN MIS IMPUESTOS?”

38

2.7.2 “METADONA Y LA POLÍTICA DEL DOLOR

39

3.HERRAMIENTAS PARA EL PERIODISMO DE DATOS

40

3.1 MAPAS

40

3.2 SCREEN SCRAPING (RASPADO)

41

3.3 LENGUAJE DE SCRIPTS

41

3.4 MANEJO DE BASES DE DATOS

41

3.5 VISUALIZACIÓN DE DATOS

42

3.6 LIMPIEZA DE DATOS

42

3.7 ANÁLISIS ESTADÍSTICO

43

3.8 OTRAS HERRAMIENTAS

43

4.BIG DATA

44

4.1 BIG DATA Y SU INFLUENCIA EN EL PERIODISMO

49

4.2 EJEMPLO DE TRABAJO PERIODÍSTICO CON GRANDES BASES DE DATOS

50

5.OPEN DATA (DATOS ABIERTOS)

52

5.1 OPEN DATA Y EL PERIODISMO

53

5.2 ESPAÑA

54

5.3 FORMATO

56

6.CONCLUSIÓN

56

7. ANEXO

58

7.1 FRASES

58

7.2 BIBLIOGRAFÍA

59

7.2.1 BIBLIOGRAFÍA INTRODUCCIÓN A LA INVESTIGACIÓN

59

7.2.2 BIBLIOGRAFÍA PERIODISMO DE DATOS

60

7.2.3 BIBLIOGRAFÍA BIG DATA Y OPEN DATA

62

ILUSTRACIONES

ILUSTRACIÓN 1. "THE COLOUR OF

18

ILUSTRACIÓN 2. "LESS WIND, LOTS OF

¡ERROR! MARCADOR NO DEFINIDO.

ILUSTRACIÓN 3. "THE HOMICIDE

21

ILUSTRACIÓN 4. "AFGHANISTAN IEDS MAPPED"

22

ILUSTRACIÓN 5. “THE INVERTED PYRAMID OF DATA

¡ERROR! MARCADOR NO DEFINIDO.

ILUSTRACIÓN 6. “EXPORTS AND IMPORTS TO AND FROM DENMARK & NORWAY FROM 1700 TO

33

ILUSTRACIÓN 7. “MAPA GEOLÓGICO DE WILLIAM SMITH

33

ILUSTRACIÓN 8. “DISTRIBUCIÓN DE LA AYUDA INTERNACIONAL DE ESTADOS UNIDOS EN ELTIEMPO: 1946-2005”

34

ILUSTRACIÓN 9. “SIETE GÉNEROS

35

ILUSTRACIÓN 10. “WHERE THE HEAT AND THE THUNDER HIT THEIR SHOTS

37

ILUSTRACIÓN 11. "¿DÓNDE VAN MIS IMPUESTOS?"

38

ILUSTRACIÓN 12. “METHADONE AND THE POLITICS OF

40

ILUSTRACIÓN 13. “A DECADE OF DIGITAL UNIVERSE GROWTH

45

ILUSTRACIÓN 14. "DATA INFLATION"

46

ILUSTRACIÓN 15. "DOLLARS FOR DOCS"

50

1. INTRODUCCIÓN A LA INVESTIGACIÓN

A medida que la información disponible en Internet se ha ido multiplicando, el Periodismo también

fue ampliando sus fuentes de información de manera tan relevante que nació una nueva forma de

contar historias: el Periodismo de Datos (Data Journalism en inglés), aquel que se basa principal o exclusivamente en bases de datos y documentación en línea para crear una historia.

Dos de los fenómenos que más han ido acelerando el desarrollo de esta nueva especialidad han sido Big Data y Open Data, los cuales han ido impulsando el desarrollo de nuevas herramientas para su análisis y comunicación. De ahí que los periodistas fueron y continúan- adquiriendo nuevas habilidades en orden a analizar, filtrar y hacer visibles grandes masas de datos.

Lo que pretende este Trabajo de Fin de Máster es estudiar esta nueva disciplina en el marco de la

Documentación y ser tanto material de consulta para periodistas que quieren adentrarse en la actividad como para documentalistas que quieren hacer llegar el material de su trabajo a la población a través de

los

medios de comunicación.

1.1

ANTECEDENTES Y MOTIVACIÓN

Mi

formación de grado y mi experiencia profesional se han dado más que nada en el periodismo

gráfico. Por ello, cuando comencé el Máster de Investigación en Documentación en la Universidad Carlos III creí que mis estudios apuntarían a perfeccionar la tarea documentalista del periodista.

Sin embargo, diferentes factores se conjugaron para que encontrara en el Periodismo de Datos un

interés aún mayor. Pues en este caso no se trata sólo de la tarea de documentarse para contextualizar

una noticia, sino de que los datos se vuelven la noticia misma.

Y entre los factores que me llevaron a tomar esta decisión se encuentra el rápido desarrollo del

Periodismo de Datos a nivel internacional, aunque con todavía poco anclaje en el mundo académico en español. Y, aunque el Periodismo de Datos tiene sus antecedentes en tiempos previos a la llegada de Internet, éste sumado a Big Data, Open Data y otros fenómenos han cambiado el panorama hasta llegar al actual contexto que es de sobreabundancia de información.

Profesionalmente entonces, es de mi interés que tanto los periodistas conozcan el potencial de las enormes cantidades de datos disponibles para la creación de noticias como que los mismos responsables de la creación y puesta a disposición de datos, los documentalistas, conozcan dicho potencial.

Por lo tanto, el objetivo general planteado para esta investigación, es realizar una introducción actualizada al Periodismo de Datos (tanto su contextualización y definición como las herramientas y habilidades que involucra) y relacionarla con los fenómenos de Big Data y Open Data.

Por ende, los objetivos específicos que se han determinado son los siguientes:

1. El Periodismo de Datos. Dar a conocer las características de esta especialización del periodismo, analizando tanto sus antecedentes como su presente.

2. Big Data y Open Data y su influencia en el Periodismo de Datos. Describir cómo ambos fenómenos potencian nuevos contenidos informativos.

3. Herramientas del Periodismo de Datos. Repasar las principales herramientas que facilitan el trabajo de elaboración y lectura de los datos aplicables a los medios de comunicación.

1.3 OBJETO Y ESTADO DE LA CUESTIÓN

Wikileaks didn't invent data journalism. But it did give newsrooms a reason to adopt it. There was just too much data for it to happen any other way.

Simon Rogers, enero 2011

Es de destacar que el trabajo presente se centrará en el tratamiento con fines periodísticos del enorme volumen de datos disponibles en el entorno digital. Esto es, el Periodismo de Datos o Data Journalism como se le llama más comúnmente en su terminología anglosajona.

El término “Periodismo de Datoscomienza a divulgarse en los años noventa como respuesta a cantidades de información antes desconocidas y a nuevas herramientas para su tratamiento en las noticias. Sin embargo, cobró más fuerza en los últimos años, con las iniciativas aisladas sobre todo de diarios de Estados Unidos y de Gran Bretaña, hasta la actualidad cuando ya se han sumado al movimiento medios de otros países y no sólo diarios sino también programas de televisión.

Para entender mejor el agitado momento en que se encuentra el Periodismo de Datos alcanza con destacar acontecimientos relevantes recientes:

- En 2011, de 16 ganadores del concurso “Knight News Challenge” de la Knight Foundation para subvencionar innovaciones en los medios de difusión, 14 eran de proyectos relacionados con el Periodismo de Datos. Asimismo, la convocatoria 2012 también repartirá más de 1 millón de dólares en iniciativas centradas específicamente en este tema.

- En enero de 2012 se lanza el primer concurso internacional de Periodismo de Datos. La iniciativa es de la Global Editors Network (GEN) en asociación con Google y el European

Journalism Centre. Durante los tres meses que se mantiene abierta la convocatoria, se postulan más de 300 trabajos procedentes de 60 países.

- Recientemente, en abril de 2012, en el marco de “The School of Data”, durante el Festival Internacional de Periodismo en Italia se lanzó “The Data Journalism Handbook”, un manual para Periodismo de Datos de código abierto y escrito de manera colaborativa entre especialistas de todo el mundo.

de manera colaborativa entre especialistas de todo el mundo. Y, a pesar de que hechos como

Y, a pesar de que hechos como este hacen parecer que el Periodismo de Datos es un fenómeno nuevo, este tiene importantes antecedentes. Pero el caudal informativo actual y las herramientas a disposición de los periodistas son los que marcan la gran diferencia.

De estos antecedentes, cabe destacar que el Periodismo de Datos tiene sus raíces en el “Computer Assisted Reporting” (CAR), que en español se traduce como “Periodismo Asistido por Computadora” y en el Periodismo de Precisión”, el cual cobró impulso en los años sesenta sobre todo gracias al profesional y académico Philip Meyer 1 .

Por parte de CAR, este nació en la década del ’50 transformándose en el primer acercamiento organizado y sistemático del uso de los ordenadores para recolectar y analizar datos en orden a mejorar las noticias. Su primer uso fue por parte de la CBC (Canadian Broadcasting Corporation) que en 1952 que lo implementó para predecir los resultados de las elecciones presidenciales (BOUNEGRU, 2012).

Y, en tanto que CAR es una técnica, basándose en ella es que Meyer comienza a vislumbrar un “cambio de concepción de la actividad periodística”, en la que “la vieja tradición de los periodistas transportadores de información está siendo sustituida por periodistas procesadores de información”

1 Actualmente, Philip Meyer es profesor emérito de la Universidad de North Carolina en Chapel Hill.

(MEYER, 1993). Y fue el mismo Philip Meyer quien, inspirado en la propuesta de un colega, llamó así entonces al Periodismo que era el objeto de sus estudios y afición y asentó el nombre en su libro del año 1973, “Precision Journalism. A Reporter’s Introduction to Social Science Methods”. Este libro fue fundamental para un acercamiento académico a esta práctica del Periodismo, rol que cumple hasta la actualidad ya que sigue siendo un manual de consulta.

Este último tipo de Periodismo, según la definición de Meyer (1993) es “la aplicación de métodos científicos de investigación social y comportamental a la práctica del Periodismo”. Tales métodos pueden incluir sondeos, encuestas, análisis de contenido…consiguiendo que su eje sean los números y las estadísticas.

Sin embargo, aunque hay una relación directa entre el Periodismo de Precisión y el Periodismo de Datos, este último término es más amplio ya que abarca toda información procesable por ordenadores. Su práctica se ha fortalecido desde 2010 a partir de la forma en que medios como The Guardian y The New York Times trataron las grandes cantidades de información que se derivaron de los cables de WikiLeaks.

Pero hasta llegar allí, según Liliana Bounegru (2012), del European Journalism Centre una de las primeras alusiones a lo que hoy se conoce como Periodismo de Datos es la que hizo en 2006 el periodista Adrian Holovaty en su ensayo “A fundamental way newspaper sites need to change”. El texto de Holovaty discurre sobre que hay contenidos que si se los tratase a partir de una base de datos podrían complementar los “big blob of text”, es decir los “grandes bloques de texto”.

A

la actualidad todavía existe una discusión sobre si Periodismo de Datos no es lo mismo que CAR o

el

Periodismo de Precisión pero actualizado. Sin embargo, quienes lo defienden como una nueva

especialización apuntan a que los datos son la noticia en sí.

1.3.1 TÉCNICAS Y HERRAMIENTAS QUE LO HACEN POSIBLE

Asimismo, el Periodismo de Datos no puede comprenderse en su totalidad sin mencionar las herramientas tecnológicas que involucra y que constantemente están evolucionando. Por lo tanto, este existe no sólo porque hay más información a disposición sino también porque surgen nuevas técnicas para el proceso de esta.

“Hablar de Periodismo de Datos es referirnos a técnicas nuevas en la creación de información periodística que requiere de conocimientos específicos y destrezas en el uso de bases de datos y presentación (visualización) de la información en nuevas interfaces”. (FLORES Y CEBRIÁN, 2012)

Tal es la conclusión de Jesús Flores Vivar Doctor en Ciencias de la Información de la Universidad Complutense de Madrid- y de Cebrián Herreros, quienes en la actualidad trabajan en un proyecto de investigación de técnicas del Periodismo de Datos 2 .

1.4 HIPÓTESIS

El caudal de información disponible que se ha visto potenciado en los últimos años gracias a Internet ha derivado en una nueva manera de información periodística: el Periodismo de Datos. Especialmente la extensión de fenómenos como Big Data y Open Data ha llevado a que los periodistas aprendan tanto el uso de las nuevas herramientas que exige la lectura de grandes cantidades de datos, como la limpieza (o normalización y unificación) de estos para luego comunicar la información al público.

1.5 JUSTIFICACIÓN

Por una parte, la intención de este trabajo es dar a conocer el nuevo uso que se está haciendo en el Periodismo de la cantidad de información disponible en el mundo digital, especialmente de bases de datos tanto públicas como privadas.

Por otra parte, entendemos que hay una necesidad de dar un anclaje académico en español a un tema que prolifera a gran velocidad pero que lo hace más que nada en inglés y más en circuitos profesionales de la información que en mundo universitario.

Además, aquello que se desarrolla en el presente trabajo es de utilidad tanto para periodistas e informadores como para documentalistas, quienes son los responsables de crear y hacer accesibles bases de datos y documentos.

1.6 METODOLOGÍA

El presente trabajo requirió una documentación incesante debido a que el Periodismo de Datos es un tema que está floreciendo tanto desde el ámbito de la investigación como del profesional y relacionado al cual surgen constantemente nuevos conocimientos y, más que nada, herramientas.

Así pues, entre las fuentes de información utilizadas para realizar esta investigación es de mencionar que primero se hizo una lectura de los contenidos más recientes, para luego ir a los antecedentes y a las fuentes académicas. De los primeros destacamos el “Data Journalism Handbook”, el cual fue publicado muy recientemente, ya iniciado este trabajo, y es un manual completo y actualizado sobre el tema.

2 En el marco del “Proyecto Cybermedia II: Desarrollos e innovaciones del periodismo en las redes sociales en Internet y telefonía móvil. Convergencias, modelos de negocios, servicio y formación”.

Este nació como una iniciativa colectiva en el Festival Mozilla 2011 en Londres y culminó en abril de 2012 cuando fue presentado en el International Journalism Festival, en Perugia (Italia). Sus principales propulsores fueron la Open Knowledge Foundation y el European Journalism Centre que convocaron a algunos de los profesionales más expertos en el tema para colaborar de manera conjunta en su redacción.

La intención era escribir un manual que sirviese de introducción al Periodismo de Datos y que respondiese a las siguientes preguntas:

- ¿Dónde puedo encontrar datos?

- ¿Cómo puedo pedir datos?

- ¿Qué herramientas puedo utilizar?

- ¿Cómo puedo encontrar historias en los datos?

Por otra parte, entre las fuentes de constante actualización caben mencionar los artículos que brindan fundaciones e instituciones con autorizada voz en lo que respecta al estudio constante del Periodismo y de las Ciencias de la Información como el Nieman Journalism Lab -un proyecto conjunto de la Nieman Foundation y la Universidad de Harvard-, el Poynter Institute y el Freedom Forum for Media Studies (www.freedomforum.org).

También están aquellos contenidos de consultoras privadas especialistas en temas de tecnología como O’Reilly Media que posee un sello editorial propio y la asociación Investigative Reporters and Editors (IRE) que en su sitio web cuenta con revistas, publicaciones y enlaces a su centro asociado, el National Institute for Computer-Assisted Reporting (NICAR). También son importantes los estudios de la consultora internacional McKinsey Global Institute, al igual que los de Cisco Systems o IBM.

En cuanto a publicaciones, algunas de las más prestigiosas que han tratado de manera especial los temas que se citan en este trabajo son “The Economist”, “Wired” y “Nature”. Luego están los aportes de blogs de profesionales en el marco o no de sus medios de trabajo- y que se han convertido en unos de los principales promotores del tema en cuestión, como el de Paul Bradshaw, también consultor y profesor de Periodismo on-line de la Universidad de Birmingham o las columnas de Simon Rogers en “The Data Blog”, del diario inglés The Guardian.

Este último también es autor del libro que se cuenta entre los de más reciente publicación relacionados al Periodismo de Datos, llamado “Facts are sacred” (ROGERS, 2011) que, basado en la experiencia propia, propone que una nueva misión del periodista es la de mediar entre la información disponible de organizaciones públicas o privadas y el procesamiento de esta para la audiencia.

Otra voz especializada que cabe mencionar es la del profesor y periodista español Alberto Cairo, con quien tomé el curso en línea "Introducción a la Infografía y Visualización para Periodistas”, ofrecido por el Centro Knight para el Periodismo en las Américas. El español es autor de dos libros recomendables para la puesta en práctica de este periodismo, especialmente en lo que refiere a la visualización de los datos: “El arte funcional: infografía y visualización de la información” e “Infografía 2.0: visualización interactiva de información en prensa”.

En cuanto a los antecedentes académicos, basé gran parte de la bibliografía en el creador del concepto de Periodismo de Precisión Philip Meyer y en quienes siguieron y ampliaron sus enseñanzas.

De Meyer revisé aquella bibliografía suya a mi alcance incluyendo el discurso de su última comparecencia pública de relevancia, la cual la hizo en 2011 con ochenta años de edad. Su gran aporte ha estado en reforzar el costado científico del Periodismo con sus métodos de investigación tomados de las ciencias sociales (encuestas, estadísticas, matemáticas…).

En España, su traductor y principal divulgador es José Luis Dader, profesor de la Universidad Complutense de Madrid y quien amplió también su teorización con libros como Periodismo de Precisión: vía socioinformática de descubrir noticias”. En él procura dar importancia y contenido teórico a una rama del periodismo descuidada en su criterio ya que afirma que “mientras disponemos de ríos de tinta sobre el deber ser o los valores del periodismo, la cuestión de los métodos ingenuamente se soslaya y resulta casi inexistente en la discusión de la profesión” (DADER, 1997).

Dader sugiere también el aprovechamiento de las bases de datos, de las nuevas tecnologías informativas y de Internet para descubrir y tratar nuevas noticias mediante técnicas estadísticas y científicas que lleven a un periodismo preciso.

Así pues, estos dos autores han sido la base bibliográfica de este trabajo, a partir de quienes enlacé para conocer otros académicos y otros estudiosos del Periodismo de Precisión.

En la actualidad se habla más del Periodismo de Datos y su bibliografía ha ido actualizándose de manera permanente y por vías no sólo académicas: publicaciones, libros, ponencias y congresos, medios de comunicación e Internet, sobre todo.

Para este trabajo he procurado concentrarme sobre todo en estas últimas publicaciones, de las cuales por lo menos el setenta por ciento se encuentran en inglés.

Cabe mencionar también que en el mes de julio de 2012 (del 23 al 27) asistí al Curso de Verano Periodismo de Datos” organizado por la Universidad Complutense. Allí también amplié mis conocimientos y fuentes de información.

1.6.1 LA WEB 2.0 EN MI TRABAJO DE INVESTIGACIÓN

“El desarrollo de Internet y de las tecnologías de la información ha alterado el panorama de las fuentes y de los sistemas de recuperación inherentes a ellas, debido a la aparición de tipos documentales completamente nuevos y de aplicaciones de navegabilidad e intercambio de información que han potenciado la interconexión entre usuarios y la transferencia de información entre ellos”. (CORDÓN et alter, 2012)

Con esta frase de las primeras páginas del libro “Las Nuevas fuentes de información: información y búsqueda documental en el contexto de la web 2.0quiero destacar cuánto me ha servido el intercambio de información al que se refieren los autores, para llegar a contenido valioso y de importancia para este trabajo.

Pues tanto Internet como la web 2.0 han venido a complementar los medios convencionales de información. Entre las herramientas utilizadas y más consultadas para este trabajo destaco:

- Herramientas RSS o de Sindicación de Contenidos: imprescindibles para el manejo de la información y la actualización permanente.

- Twitter: las cuentas de especialistas en Periodismo de Datos como Alberto Cairo @albertocairo, Guardian Data Store @datastore, Paul Bradshaw @paulbradshaw, Sandra Crucianelli @spcrucianelli, Mar Cabra @cabralens, La Nación Data @LNdata, Marcelo Soares @msoares, entre otros

- Wikis: destaco sobre todo el del grupo de Periodismo de Datos del MediaLab Prado de Madrid donde los profesionales aportan todo aquello que consideran de relevancia para el desarrollo de esta práctica.

- Blogs de actualización permanente y novedades constantes. Cabe mencionar:

o

Data Driven Journalism (datadrivenjournalism.net), una iniciativa del European Journalism Centre (http://ejc.net/) para acercar a los periodistas al uso de bases de datos y fuentes de información con distintas técnicas, herramientas y habilidades.

o

Open Knwoledge Foundation Blog (http://okfn.org/)

o

El Online Journalism Blog (http://onlinejournalismblog.com/), el cual comenta y debate acerca de entre otros temas, el Periodismo de Datos. Su editor es Paul Bradshaw

o

NaciónData (http://blogs.lanacion.com.ar/data/), blog del diario La Nación de Argentina especializado en periodismo y datos. Nació en 2012, durante el proceso de este trabajo.

o

DataBlog

el

cual

forma

parte

del

proyecto

iData,

patrocinado por la fundación Ahref y que pretende desarrollar la primera plataforma italiana para el Periodismo de Datos.

o

A final de contas (http://afinaldecontas.blogfolha.uol.com.br/), blog del diario Folha de São Paulo con iniciativa similar a la de otros medios. Escrito por el periodista Marcelo Soares, también nació en abril de 2012.

o

DataBlog de The Guardian(http://www.guardian.co.uk/news/datablog), blog pionero especializado en este tema e inspirador de otros. Nació en 2009 como parte del proyecto DataStore que dirige Simon Rogers.

o

ProPublica (http://www.propublica.org/), fundación periodística sin fines de lucro de Estados Unidos que ya ha ganado dos premios Pulitzer por sus trabajos de investigación. Destaca por la importancia que da al Periodismo de Datos.

- Revistas y libros electrónicos, a algunos de los cuales tuve acceso mediante la biblioteca y los recursos electrónicos de la Universidad Carlos III de Madrid.

Sistema de citas y fuentes bibliográficas

En el texto del trabajo he utilizado el sistema de citas “autor-fecha” y para crear las referencias bibliográficas de las fuentes de información consultadas he utilizado las normas ISO 690 e ISO 690-2.

En cuanto a la bibliografía, esta se ha reunido y figuran tras lo grandes bloques que conforman el trabajo. En primer lugar, figura la dedicada a la introducción; le sigue el apartado relacionado con el Periodismo de Datos y, por último, la destinada a fuentes sobre Big Data y Open Data.

Para la gestión de toda la información bibliográfica y documental me he auxiliado con los gestores de información Refworks y Zotero. Este último ha sido usado particularmente para las páginas web.

1.PERIODISMO DE DATOS

2.1 INTRODUCCIÓN

Un campo que se está perfeccionando y está desarrollando una nueva especialización a raíz de la multiplicación de los datos en el mundo digital es el Periodismo. Y, si bien para esta disciplina no es algo nuevo la lectura, el análisis y la publicación de bases de datos, sí lo son la importancia que estas han adquirido y las nuevas herramientas y habilidades necesarias para mejor aprovechamiento de los datos en orden a su comunicación.

De ello trata el Periodismo de Datos, una especialización que suena cada vez más entre los profesionales de los medios a partir sobre todo de la avalancha de información que ha significado la

aparición de Internet y de fenómenos como Big Data, Open Data y la lectura y comunicación de las historias que hay detrás de los datos.

Pues en este tipo de periodismo el eje no es retransmitir los datos de las bases de datos tal cual se

consiguen o están disponibles si bien puede hacerse-, sino que su función es la de informar a partir de ellas. Entonces, se pueden establecer relaciones entre los datos, practicar minería de datos, aplicar estadísticas, armar una secuencia… Es decir, extraer una historia de los datos. Y los datos pueden ser tanto el origen de una investigación para una noticia como pueden acompañar una noticia o pueden ser

la noticia misma.

Periodismo de Datos hace entonces referencia al conjunto de herramientas y prácticas que utilizan datos para la construcción de una historia (o noticia). Y estos datos pueden tanto acompañar una historia como ser fuentes de una investigación.

Según la definición del profesor Jesús Flores Vivar (2012): “El Periodismo de Datos es una forma de periodismo de investigación que utiliza la informática (ordenadores y sistemas algorítmicos) para buscar, contrastar, visualizar, combinar datos y proporcionar información de diferentes fuentes, públicas o privadas”.

El video documental “Journalism in the age of data” (2010) que llevó a cabo el periodista especializado en multimedia Geoff McGhee (2009) para la universidad de Standford, fue un disparador para dejar asentado tanto la necesidad de desarrollar más este Periodismo como las iniciativas que ya apuntaban en esa dirección.

En el vídeo, McGhee procura mostrar la importancia de fusionar las narrativas tradicionales del periodismo con los avances tecnológicos en torno a la explotación de los datos. Para ello entrevistó a profesionales de medios de comunicación e investigadores de distintos centros que trabajaban tanto en

el desentrañar y comunicar los datos como en las herramientas idóneas para ello, sobre todo en lo que

refiere a su visualización.

Y como ya demostraba McGhee en dicho material, en la actualidad, cada vez más los medios son

conscientes de la cantidad de historias que hay detrás de los datos y que no se las conoce porque no se

las busca. Pero están ahí, están en los archivos, en las bases de datos, en los Boletines Oficiales de Estados, en los informes oficiales, en las bibliotecas, en las empresas, en Internet.

Desentrañarlas, darles contexto y hacerlas visibles y notorias al resto de la población es la misión del Periodismo de Datos (en inglés, Data Journalism), más que nunca ahora que existe tanta información

al alcance de la mano gracias a Internet y a las nuevas tecnologías de la información.

Claro que hay algunos medios que han sido pioneros o que llevan la delantera respecto de otros. Así

por ejemplo, el periódico estadounidense The New York Times tiene un equipo de 25 personas sólo

para proyectos de visualización de datos. Algunas de ellas son expertas en estadísticas, otras en

Periodismo, otras en diseño gráfico, programación…

También hay medios que destacan por haber hecho una verdadera apuesta al Periodismo de Datos,

tanto desde la incorporación de herramientas específicas como desde su promoción. Entre los que cabe

mencionar se encuentran el diario británico The Guardian con su Datablog, el estadounidense Los

Angeles Times, el diario La Información de España, el proyecto NaciónDatadel diario La Nación de

Argentina y el blog “Ao final de Contasdel diario Folha de São Paulo.

2.2 LOS ANTECEDENTES DEL PERIODISMO DE DATOS: PERIODISMO DE PRECISIÓN Y CAR

Pero, ¿qué es exactamente y en qué consiste el Periodismo de Datos? Para entenderlo conviene revisar

sus antecedentes pues esta no es una forma nueva y desconocida de comunicar. La diferencia está en

cómo se la practica en la actualidad, en un contexto de una cantidad de información difícil de prever

hace un tiempo.

El movimiento principal que antecede al Periodismo de Datos es el ya mencionado Periodismo de

Precisión, una rama del Periodismo de Investigación que surgió como una respuesta al Nuevo

Periodismo de la década del 60 y que se entiende como la utilización de programas informáticos y

técnicas de las ciencias sociales como las estadísticas para aportar pruebas y no sólo anécdotas en

reportajes periodísticos.

Como término, Periodismo de Precisión” toma fuerza a partir del libro de 1973 del académico Philip

Meyer “Precision Journalism. A Reporter’s Introduction to Social Science Methods”. Y, a pesar de

que Meyer ha sido el principal promotor de esta disciplina, académicos sugieren que su historia podría

remontarse a los años treinta cuando la revista Fortune publicó la que se cree fue la primera encuesta

científica llevada a cabo por un medio de comunicación (DEMERS Y NICHOLS, 1987),.

A ello le seguirán otros ejemplos periodísticos esporádicos hasta que en la década del ’60 los

ordenadores hicieron más fácil el trabajo de la recolección de datos y su análisis (DEMERS Y

NICHOLS, 1987). Es para estos años que Philip Meyer se interesa en el estudio de los métodos

empíricos de investigación social para su aplicación en el periodismo y lo lleva a cabo con una beca

Nieman en la Universidad de Harvard.

A partir de allí combinará una carrera tanto académica y de investigación como una profesional en

medios periodísticos. Así es que en 1968 gana un premio Pulitzer por su publicación en el Detroit

Free Press acerca de las causas de una protesta racial en Detroit. Esta investigación se realizó con los métodos del Periodismo de Precisión y se volvió una referencia en la historia de este hasta la actualidad.

Lo que allí había hecho el estudio del equipo de Meyer fue un cruce de datos que llevaron a contradecir la idea errónea de que los disturbios habían sido causados por negros procedentes del sur de Estados Unidos o por personas de bajo nivel educativo.

Después de ello, Meyer se dedicará a divulgar sus conocimientos y métodos de investigación periodística en el ámbito académico - actualmente es profesor emérito de la School of Journalism and Mass Communication en la Universidad de North Carolina at Chapel Hill- y con publicaciones y libros.

De manera paralela, una variante del Periodismo de Precisión que se desarrolla junto con este, es el Periodismo de Investigación Asistido por Ordenador (Computer-Assisted Investigative Reporting, CAR por sus siglas en inglés).

Este periodismo es todavía promovido bajo este nombre si bien podría enmarcarse dentro de la disciplina más general que tratamos en este trabajo, el Periodismo de Datos. Su principal divulgador es el National Institute for Computer-Assisted Reporting (NICAR) un programa del Investigative Reporters and Editors, Inc. Bajo su patrocinio es que anualmente desde 1989 se lleva a cabo la conferencia CAR, donde se difunden los avances en herramientas para encontrar y analizar información en formato electrónico.

2.3 DEFINICIONES DE PERIODISMO DE PRECISIÓN

Para Meyer, el Periodismo de Precisión es “la aplicación de métodos científicos de investigación social y comportamental a la práctica del Periodismo(MEYER, 1993). Para el autor, en 1973 algunos de esos métodos incluían el sondeo o encuesta de opinión, el experimento psicosocial y el análisis de contenido.

Es decir, proponía tomar herramientas de las ciencias sociales para el análisis cuantitativo para que fueran aplicadas en el periodismo, sin por ello alterar la misión de “localizar hechos, comprenderlos y explicarlos sin pérdida de tiempo”.

Demers y Nichols (1987) también sugieren que el Periodismo de Precisión es un método de investigación, “un modo de aprender sobre el mundo”. Y su diferencial, según afirman, radica en que esos métodos cuantitativos de investigación social sirven para conseguir la noticia.

Por su parte, la definición que brinda el académico español José Luis Dader es: “se entiende por

Periodismo de Precisión’ la información periodística que, sobre cualquier asunto de trascendencia

social, aplica o analiza sistemáticamente métodos empíricos de investigación científica, de carácter

numérico o no numérico, con especial inclinación al campo de las ciencias sociales. En dicha actividad

el énfasis corresponderá a la validez y fiabilidad del método de análisis, por encima de la mayor o

menor espectacularidad de los resultados” (DADER, 1997).

Respecto a su comparación con el Periodismo de Investigación, Dader ha escrito que estos guardan

relación pero no se tratan de lo mismo pues “ni todo el Periodismo de Investigación aplica las

estrategias metodológicas y conocimientos instrumentales del Periodismo de Precisión, ni este último

se aplica tan sólo en proyectos de investigación periodística” (DADER, 1997).

La diferencia está en la metodología de investigación pues el periodista de precisión es el que aplica

métodos como el análisis estadístico, la encuesta sociológica y el rastreo en bases de datos.

2.4 LA EVOLUCIÓN DEL PERIODISMO DE PRECISIÓN Y DEL PERIODISMO DE DATOS

Al momento en que Philip Meyer comienza a hacer difusión y practica el Periodismo de Precisión,

todavía no era posible pensar en computadores personales para cada periodista, lo que dificultaba su

puesta en marcha.

Es durante la década del setenta que esto empieza a ser posible y es finalmente en los ochenta que los

ordenadores se vuelven más accesibles y permiten a los periodistas tener acceso a un conjunto de datos

que antes no era posible.

Por ese entonces proliferan también las encuestas y los sondeos de opinión. Incluso para finales de los

ochenta los principales periódicos anglosajones tenían ya departamentos exclusivamente de

información socio-estadística. Estos eran llevados por profesionales de las ramas de estadísticas y

gestión de bases de datos que, entre otras misiones, daban soporte a casos de investigación

periodística.

De a poco entonces, esta rama del periodismo fue generando visibilidad, sobre todo en los Estados

Unidos. Algunos de los hechos que lo ilustran y marcan antecedentes en la historia reciente del

Periodismo de Datos son:

1986. Reconocimiento con un premio Pulitzer al reportaje del Dallas Morning News que, basándose

en cruce de bases de datos por ordenador, denunciaron la existencia de discriminación racial en la

adjudicación de viviendas públicas en Texas.

1989. Premio Pulitzer de Periodismo Investigativo al periodista Bill Dedman por el reportaje “The

colour of money”. Este se trataba de una serie de artículos publicados en el diario estadounidense The Atlanta Constitution en los que, a partir de un análisis informático de los formularios que debían rellenar prestamistas hipotecarios, quedaba en evidencia que había discriminación por parte de estos.

Como consecuencia de dicha investigación se introdujeron reformas en las condiciones crediticias de bancos de todo el país. A continuación, una imagen que formaba parte del reportaje:

ILUSTRACIÓN 1. "THE COLOUR OF MONEY". FUENTE: HTTP://POWERREPORTING.COM/COLOR/

". F UENTE : HTTP :// POWERREPORTING . COM / COLOR / 1991. Philip Meyer publica

1991. Philip Meyer publica “The new precision journalism: a reporter’s introduction to social science

methods”, tercera edición de su libro donde explica y actualiza cómo hacer análisis de datos y estadística con los ordenadores del momento.

1993. The Miami Herald gana un premio Pulitzer por su especial sobre la devastación producida por el huracán Andrew titulado “What went wrong?”. En este número, un equipo de periodistas entre los que se encontraba Steve Doigt -hoy un férreo impulsor del Periodismo de Datos-, decidió comprobar cuánto del nivel de destrucción del huracán había sido responsabilidad de autoridades municipales y constructores. Para ello recopiló cuatro bases de datos oficiales que, según el académico José Luis Dader (2006) fueron las siguientes:

1) Los informes de las 50.000 inspecciones de daños realizadas en el condado tras el paso del huracán

2) El registro de datos de la propiedad de 1992, que incluía información detallada del tipo de vivienda, valor y año de construcción de todas las edificaciones del área

3) El fichero de Memorias de Edificación de todas esas construcciones, que recogía información minuciosa sobre los tipos y calidades de los materiales utilizados

4) El Censo de Edificación y Planificación del condado, con más de 7 millones de expedientes de permisos de construcción e inspecciones realizadas en los últimos años.

Tras un cruce de toda esta información, el Miami Herald realizó un especial de 16 páginas en las que podía verse un mapa de las zonas afectadas por el huracán y cuadros estadísticos. Lo que terminaron por demostrar fue que el número de casas construidas después de 1979 y que declaraban haber sido destruidas totalmente doblaba a las de construcción previa. Además, dejaban evidencia de que los vientos más fuertes no habían sido causantes de más destrucción sino que también, esto se correlacionaba con los hogares de construcción posterior a 1979.

En conclusión, había sido causante de más daño la reducción de los controles de calidad de construcción que la fuerza el huracán.

I LUSTRACIÓN HTTP :// WWW . FLICKR . COM / PHOTOS / JUGGERNAUTCO / SETS

ILUSTRACIÓN

HTTP://WWW.FLICKR.COM/PHOTOS/JUGGERNAUTCO/SETS/72157607210036175/DETAIL/

2

"LESS

WIND,

LOTS

OF

DAMAGE".

FUENTE:

CUENTA

DE

FLICKR

DE

DANIEL

X.

O'NEIL,

2006. El periodista Adrian Holovaty (2006) publica su ensayo “A fundamental way newspaper sites

need to change” a partir del cual se extiende la necesidad de profundizar en el “Periodismo de Datos. Según especialistas en el tema como el periodista Simon Rogers, Holovaty pudo haber sido el primero en hablar de “Data Journalism”, término anglosajón de “Periodismo de Datos, para anclarlo como una tendencia.

2007. Entre ejemplos de Periodismo de Datos que empiezan a multiplicarse destaca el de Los

2007. Entre ejemplos de Periodismo de Datos que empiezan a multiplicarse destaca el de Los Angeles Times llamado “The homicide report” y consiste en un mapa interactivo (http://projects.latimes.com/homicide/map/) con una base de datos para conocer todos los casos de homicidio en el distrito de Los Ángeles desde 2007 hasta la actualidad, presentando detalles de cada uno de los asesinatos que de la región. En este mapa se pueden filtrar los datos de las víctimas según raza, edad, género, causa de muerte, ubicación y otros parámetros. También pueden verse fotos de estos.

Para Rich Gordon (2007), profesor asociado de la escuela Medill de Periodismo en la Northwetern University de Estados Unidos), esta iniciativa representa que cuando se unen el reportaje tradicional con las nuevas capacidades de uso de las bases de datos, surgen nuevas formas de periodismo.

ILUSTRACIÓN 3. "THE HOMICIDE REPORT". FUENTE: LOS ANGELES TIMES

surgen nuevas formas de periodismo. I LUSTRACIÓN 3. "T HE HOMICIDE REPORT ". F UENTE :

2009. Premio Pulitzer para el diario estadounidense St. Petersburg Times por el proyecto “Politi Fact”

en el que se comparaban las declaraciones juradas de políticos con hechos reales y concretos para evaluar el grado de veracidad. Trabajo basado en el uso de estadísticas y bases de datos.

2010. Las filtraciones más importantes de Wikileaks cambian el panorama del Periodismo de Datos y

sitios de noticias como The Guardian, a través de su “Datablog”, y The New York Times llevan esta

modalidad a su auge.

ILUSTRACIÓN 4. "AFGHANISTAN IEDS MAPPED". FUENTE: GUARDIAN.COM.UK

IED S MAPPED ". F UENTE : GUARDIAN . COM . UK 2011. Los 16 proyectos

2011. Los 16 proyectos ganadores del Knight News Challenge, un concurso anual de la Knight Foundation destinado a promover las mejores ideas relacionadas con la innovación en el ámbito del periodismo, tienen al Periodismo de Datos como principal objetivo. El total de dinero que se les destina testimonia su importancia, 4,7 millones de dólares.

En 2011 nace también el proyecto Overview, una herramienta de visualización de documentos. Ofrece organizarlos y conectarlos para ayudar a los periodistas a encontrar historias en medio de tanta información. Es una iniciativa del periodista Jonathan Stray con la financiación de la agencia de noticias Associated Press.

2012. Algo que marcó la transición que está viviendo el Periodismo de Datos fue el lanzamiento en enero de 2012 del primer concurso internacional de esta especialidad, una iniciativa del Global Editors Network en alianza con Google. Además, este mismo año se publica el manual de Periodismo de Datos, ya citado anteriormente, “The Data Journalism Handbook”, una iniciativa colaborativa en la que participaron periodistas de todo el mundo.

en la que participaron periodistas de todo el mundo. Como puede deducirse, el Periodismo de Precisión

Como puede deducirse, el Periodismo de Precisión tuvo al comienzo una mayor incidencia en Estados Unidos mientras que en Europa la evolución fue más lenta (Dader, 1993). En España incluso, como también documenta el académico José Luis Dader, habían aplicaciones de un Periodismo de Precisión pero sin que sus profesionales supieran del movimiento: “la relativa presencia de actuaciones periodísticas intuitivas, catalogables entre nosotros bajo el rótulo que nos ocupa, choca con la perplejidad generalizada que su sola mención continúa produciendo entre la mayoría de los periodistas y profesores españoles de Ciencias de la Información”.

Años después, ya para cuando comienza a hablarse de Periodismo de Datos a raíz de la multiplicación de bases de datos y herramientas para su tratamiento, la evolución se da paralelamente en distintos ámbitos geográficos. Estados Unidos no pierde su vanguardia con medios de comunicación cabeceras como The New York Times mientras que en Europa sus primeros promotores están en Inglaterra con The Guardian y en Alemania con Der Spiegel.

Y la gran bisagra en la evolución del Periodismo de Datos no está sólo en fenómenos de desarrollo continuo como puede ser Big Data. También, hubo hechos puntuales y entre ellos es de mencionar el “Cablegate”, la filtración de documentos diplomáticos -especialmente de Estados Unidos- y que difundió el sitio Wikileaks.

Al respecto, en diciembre de 2010, Paul Bradshaw escribió en su blog onlinejournalismblog.com un artículo que tituló “Un embajador avergonzado es una tragedia, 15 mil civiles muertos es una estadística”. Allí deducía, a partir del efecto Wikileaks en la prensa, que el Big Data traía nuevos desafíos: “hay que humanizar y personalizar grandes conjuntos de datos de una manera tal que ello no vaya en contra de la complejidad del tema que se está tratando”.

Es decir, en medio de enormes cantidades de datos, el periodista debe intentar lograr un interés con

ellos a pesar de que a los lectores les interesen más las historias individualizadas, como la del embajador avergonzado con el que ejemplifica este punto.

Al respecto, es válido también comentar que los mismos datos necesitan de los medios de comunicación pues de otra manera es posible que el público no se acerque a ellos, por la complejidad que esto representa.

Como escribió el periodista John Keenan (agosto 2010) en The Guardian: “Sin el análisis, el

comentario y la explicación de periodistas especializados, los documentos habrían quedado en el sitio

de Wikileaks llamando la atención sólo de aquellos con un ferviente interés en el conflicto. La Casa

Blanca y el Pentágono, apenas se habrían inmutado”.

Eso es precisamente lo que entendió Julian Assange, el fundador de Wikileaks, cuando decidió hacer

la distribución de sus documentos a través de grandes diarios occidentales, los cuales fueron El País

de España; The New York Times de Estados Unidos; The Guardian de Reino Unido, Le Monde de

Francia y Der Spiegel de Alemania.

Al mismo tiempo, en una visión actualizada del Periodismo de Precisión y ya con el Periodismo de

Datos como una tendencia, Philip Meyer dio un discurso el 3 de octubre de 2011, como invitado a la Hedy Lamarr Lecture sobre Changing Needs in Journalism en la Academia Austríaca de las Ciencias.

En su exposición, que luego fue difundida por los reportes Nieman, dijo:

Necesitamos una estructura para ver la verdad de los hechos. (…). ¿Es posible que encontremos la manera de unir estas dos estrategias (Periodismo Narrativo y Periodismo de Precisión) y contar historias sobre los datos que se basan en teorías verificables?

Para dar una respuesta a este interrogante, se remontó a la historia del término “Periodismo de Precisión”, el cual fue acuñado por el profesor Everette E. Dennis en la Universidad de Obregón en 1971. Lo que intentaba este, era explicar el nuevo Periodismo, basado en métodos científicos. Pero como desde hacía unos años se hablaba de “nuevo periodismopara referirse a la corriente literaria del oficio, lo diferenciaron.

Y continuó entonces con su discurso, acercándose a la definición de lo que se conoce como

Periodismo de Datos:

“Ambos géneros, el Periodismo Narrativo y el Periodismo de Precisión, son especialidades que requieren determinadas habilidades. Si tuviéramos que mezclar ambos, ¿cómo lo llamaríamos? El término que me gusta es ‘narrativa basada en evidencia’. Ello implica una buena historia basada en

evidencia verificable. Sí, esa sería una especialidad esotérica. Pero creo que hay un mercado que se está desarrollando para ella. El mercado de la información nos está llevando cada vez hacia una mayor especialización. Y tanto el Periodismo de precisión como el Periodismo narrativo atraen a una audiencia sofisticada, una que aprecia la necesidad de estructurar la información de una manera que centre la atención en la verdad.”

Y casi cuarenta años después de que el profesor Meyer remarcara por primera vez la necesidad de aplicar métodos sociales en la investigación periodística hoy no sólo se aplican en los más importantes medios de comunicación, sino que también las nuevas tecnologías permiten toda una variante de actividades a partir de ello. El ejemplo principal es la exploración personal que puede hacer la audiencia de tantas bases de datos ahora a su disposición.

2.5 CARACTERÍSTICAS DEL PERIODISMO DE DATOS

En la actualidad, el Periodismo de Datos exige una especialización, tal como remarcó Philip Meyer. De ahí que sobrevenga la necesidad de aprender las nuevas herramientas, de sortear las dificultades que representa la lectura de cierto formato de datos y de facilitar la tarea de lectura de la audiencia.

Es decir que, como cualquier nueva tendencia también tiene sus puntos fuertes y débiles. En cuanto a una de sus principales consecuencias positivas se encuentra la objetividad y transparencia que pueden brindar los datos, ya que el lector también tiene la posibilidad de interpretarlos y sacar sus propias conclusiones.

Por otra parte, tanta información a disposición puede complicar la tarea de su lectura. De ahí la necesidad de ordenar. A continuación, un listado de características del Periodismo de Datos.

2.5.1 OBJETIVIDAD Y TRANSPARENCIA

"Aquel periodista que adapte los instrumentos del método científico a su propia tarea, gozará de la posibilidad de realizar útiles evaluaciones con la mucha más potente objetividad de la ciencia”

Philip Meyer, 1993

El profesor de gráficos en la Universidad de Miami, Alberto Cairo (25 de abril 2011) coincide indirectamente con Philip Meyer cuando en un texto sobre “infográficos peligrosos” se refiere al método científico como “el mayor avance de la Humanidad en su lucha por superar limitaciones

perceptivas, ilusiones inconscientes e impulsos emocionales: un sistema que antepone la evidencia empírica a la opinión subjetiva, aunque esta última se rebele contra sus conclusiones, a veces

contrarias a la intuición, al statu quo

y al sentido común”.

Como es común aprender en las carreras de Periodismo, la objetividad es un principio de este, si bien hay quienes la defienden y quienes no pues la neutralidad absoluta no es algo que pueda asegurarse en

el discurso comunicativo

En relación con el Periodismo de Datos, la lectura de los datos y su puesta a disposición contribuye a una mayor transparencia y objetividad en la tarea comunicativa. Es más, hay quienes defienden que “la transparencia es la nueva objetividad” (THE ECONOMIST, julio 2011).

2.5.2 NECESIDAD DE ORDENAR

Philip Meyer también reflexionó en 2011 en su discurso en la Academia Austríaca de las Ciencias acerca de la gran cantidad de información actual y la necesidad de organizar: “Creería que todos estamos de acuerdo en que las tecnologías de la era de la información producen datos más rápido de lo que producen conocimiento. En lugar de remplazar el periodismo, Internet está creando una nueva necesidad de mercado: para la síntesis y la interpretación del flujo constante de hechos”.

Para el académico, los datos sin procesar son lo mismo que el ruido, de ahí que a medida que se multiplica la información disponible en el mundo, también se multiplican las necesidades para procesarlo.

Asimismo, Guy Laurence, CEO de Vodafone Reino Unido argumentaba en una entrevista de Simon Rogers editor del “Datablog” del periódico británico The Guardian- que antes el acceso a la información era un gran problema mientras que ahora, la prioridad es saber manejarla: “Nos hicieron creer que cuanto más datos, mejor, pero eso ya no es verdad”.

Regresando a Meyer, en su discurso ya mencionado (2011) también dijo que ahora que la información es abundante lo importante es su procesamiento: “Necesitamos una estructura para ver ‘la verdad de los hechos”.

Para ello, Meyer (1993) reconoce que en la actualidad no sólo alcanza con aplicar el método científico

a los datos. Ahora también es necesario saber nadar entre un mundo de datos: El periodista debe

ahora ser un administrador de datos acumulados, un procesador de datos y un analista de esos datos”.

Los pasos que Meyer enumera para trabajar con los datos en periodismo son:

1. Recopilarlos

2. Almacenarlos

3. Recuperarlos

4. Analizarlos

5.

Resumirlos

6.

Comunicarlos

2.5.3

TRABAJO EN GRUPO

Una característica que todos los expertos en Periodismo de Datos coinciden es que cuanto más un trabajo en equipo sea, mejores resultados se pueden obtener. Sobre todo a la actualidad, cuando las herramientas se multiplican y se valoran cada vez más las especializaciones.

Cierto es que así como se multiplican las herramientas estas se simplifican. Sin embargo, en un trabajo completo de Periodismo de Datos intervienen diferentes capacidades como las que dan la Estadística, la Sociología, la Programación, el Diseño Gráfico y el Periodismo.

Puede haber reporteros que reúnan conocimientos de estadística por ejemplo, pero no es lo más común. Por tanto, según mencionaba Meyer (2011) ello exige una inversión por parte de los medios:

Necesitaremos más reportaje en equipo y editores capaces de reclutar y manejar los talentos que hacen falta”.

José Luis Dader (1993) asegura también en el prólogo de la versión española de “Periodismo de Precisión. Nuevas Fronteras para la investigación periodística” que “este tipo de aventura profesional es una tarea de equipo”. Pues el periodista puede encontrarse en su tarea con dificultades técnicas y de métodos, para lo que es una solución buscar la ayuda de especialistas.

2.6 ¿CÓMO SE HACE PERIODISMO DE DATOS?

En un post de julio de 2011 Paul Bradshaw propuso en su blog cuatro fases de trabajo en el Periodismo de Datos: compilar los datos, filtrarlos, contextualizarlos y combinarlos para luego transmitirlos.

Ilustración 5 “THE INVERTED PYRAMID OF DATA JOURNALISM”. FUENTE: ONLINEJOURNALISMBLOG.COM

OF DATA JOURNALISM”. FUENTE: ONLINEJOURNALISMBLOG.COM 2.6.1 COMPILAR LOS DATOS Para Paul Bradshaw, la búsqueda de

2.6.1 COMPILAR LOS DATOS

Para Paul Bradshaw, la búsqueda de datos puede iniciarse por dos razones: o porque hay una pregunta que necesita datos para su respuesta o porque hay datos que plantean un interrogante. Como sea, hay que encontrarlos o incluso crearlos, por ejemplo, a través de encuestas.

Para ello están las bases de datos, públicas o privadas. Las privadas no necesariamente son secretas, pero no está pensadas para el uso de los periodistas por lo que se puede pedir consultarlas o pagar por ellas, dado el caso.

Algunas de las fuentes más consultadas a partir de las cuales surgen historias son (BRADSHAW, abril

2010):

- Fuentes gubernamentales, locales, nacionales e internacionales

- Organismos que monitorean a diferentes organizaciones

- Instituciones académicas y científicas

- Organismos de la salud

- Grupos de presión y organizaciones sociales

- Empresas

- Los medios comunicación

Los modos de recuperación que Philip Meyer enumeraba en la versión actualizada de Periodismo de Precisión eran los siguientes:

- CdRom, para ser leídas en el ordenador personal.

- Conexión

- Fuentes de acceso público

- Recepción mediante conexión a Internet

- De texto completo y bibliográficas

Con las nuevas tecnologías y facilidades de la informática, las maneras de recuperación se han ampliado considerablemente. De ahí que las enumeradas por Paul Bradshaw en su artículo de 2011 sean diferentes y actualizadas. A continuación, citamos algunas de las que el periodista inglés propone, más otras a considerar:

- Información provista al periodista directamente por una organización (todavía no es común que los datos estén adjuntos a los comunicados de prensa)

- Recuperada luego de búsquedas avanzadas dentro de sitios gubernamentales

- Haciendo scraping en bases de datos ocultas con herramientas como Scraperwiki, Yahoo!Pipes y el complemento de Firefox Outwit Hub.

- A través de la conversión de documentos para su análisis.

- Tomando información de las APIs

- Recolectando información por uno mismo a través de observaciones, encuestas o formularios, entre otras formas.

2.6.2 FILTRADO Y LIMPIEZA DE DATOS

Un problema que presenta el trabajar con bases de datos públicas o ajenas incluso propias- es que pueden contener errores de tipeo o de otro tipo- que podrían alterar la verdad de los contenidos que se pretenden comunicar.

“Para evaluar la información de una base de datos hay que preguntarse siempre quién suministró los datos originales y cuándo y cómo se recolectaron. Muchas bases de datos gubernamentales son compilaciones de material procedente de muy diversas fuentes, cuya fiabilidad y meticulosidad no es uniforme. (MEYER, 1993)

Para ello es que un paso fundamental al trabajar con estas bases de datos es proceder a su revisión y “limpieza”. Numerosas herramientas permiten descubrir típicos errores humanos sin necesidad de ir registro por registro. Una de ellas es Google Refine que descubre palabras aproximadas, entradas vacías y duplicados.

Philip Meyer también repetía en su libro “Periodismo de Precisión. Nuevas Fronteras para la investigación periodística.(1993): “Nunca consideres como palabra de Dios lo que el ordenador te indica. Habrá siempre que rastrear el paso anterior a la creación de la base de datos, comprobando los documentos impresos o lo realizado por las personas que reunieron los datos.”

Asimismo, este ítem también incluye la conversión de datos al formato con el que se pretende trabajar. Lo más común en este caso es el paso de información presente en archivos PDF a planillas de cálculo como Microsof Excel. No siempre es una tarea sencilla y, a pesar de que existen herramientas gratuitas (PDFtotext, Cometdocs.com, PDFtoexcelonline.com, Zamzar.com) y de pago (PDFconverter, Adobe Acrobat X Pro, Nitro PDF), es necesaria una revisión meticulosa.

Relacionado a este punto, otra tarea frecuente en el Periodismo de Datos es la extracción de información de una página web a un documento de texto. Y, para cuando el “copiar” y “pegar” no funciona correctamente, sobre todo con listas y tablas, existen herramientas para convertir información en lenguaje HTML para su uso en un documento de texto o planilla de cálculo. Un ejemplo de ellas es la que facilita Google: ImportHTML.

2.6.3 CONTEXTUALIZAR LA INFORMACIÓN

Es necesario preguntarse de dónde viene la información, cuál es su historia, qué instituciones intervinieron, porqué se recolectó, cómo, dónde…

Entonces, si llega a manos de un periodista la base de datos de crímenes de una ciudad esta sólo tendrá sentido si se conoce la cantidad de población, el historial, la calidad de vida, el desempleo, la inflación, etcétera.

Es decir, una base de datos puede no ser interesante en sí misma hasta que se cruzan dos variables. Así por ejemplo, un registro de accidentes de una ciudad que se combina con el nivel educativo de los conductores protagonistas de estos puede tal vez dar lugar a una conclusión relevante. Es entonces cuando entra en juego la capacidad del periodista para hacerse las preguntas que deriven en material de noticia.

Es en este paso también que entran en juego los conocimientos estadísticos y la importancia de esta ciencia dentro del periodismo y del mundo de la información.

Respecto a las estadísticas, en una entrevista de 2008 a Hal Varian, economista jefe de Google y profesor de Tecnologías de la Información en la Universidad de Berkeley, este ya predecía que en la próxima década se iba a tender inevitablemente al campo estadístico: "La capacidad de trabajar los datos - ser capaz de entenderlos, procesarlos, extraer valor de ellos, visualizarlos, comunicarlos- va a

ser una habilidad de enorme importancia en las próximas décadas (

se dispone de datos, esencialmente libres y en todas partes. Así que el factor que falta es la capacidad

de entenderlos y extraer valor de ellos” (MCKINSEY QUARTERLY, enero 2009)

Porque es ahora que realmente

).

Y Philip Meyer (1993) también ya lo decía en cuanto a su aplicación en el oficio del periodista:

Hubo un tiempo en que todo lo que hacía falta era amor a la verdad, vigor físico y cierta gracia literaria. Todavía el periodista necesita esos recursos, pero ya han dejado de ser suficientes.

Un número por sí solo no significa mucho. Debe tener un contexto, debe ser comparado con otros números. Para José Luis Dader (1997), la estadística consiste “en una aplicación práctica de la matemática, destinada a hacer visible, mediante una explicación condensada y por tanto asequible al conocimiento humano-, la variabilidad de relaciones ciertas, pero a primera vista invisibles, que existen en grandes masas de datos o poblaciones”.

Es de mencionar que, en la actualidad, uno de los más grandes precursores de las estadísticas es el médico sueco Hans Rosling. Él no sólo insiste en la necesidad de aplicar las estadísticas en la tarea de

la comunicación sino también en todas las áreas de la vida para entender el mundo actual.

Conocido también por sus presentaciones en las charlas TED (organización internacional de divulgación de ideas) para promover el entendimiento del mundo a través de las estadísticas, en una entrevista de Ulrike Reinhard (marzo 2011), Rosling pone en palabras su percepción respecto al universo de datos actual: “Mi idea fundamental es que el mundo ha cambiado tanto que lo que la gente necesita no es más datos sino una nueva mentalidad. Necesita un nuevo sistema de almacenamiento con el que poder manejar esta información”.

2.6.4 COMBINAR LOS DATOS

Este paso se refiere a la fusión de datos de diferentes fuentes en una sola. Un modo típico en periodismo que incluye esta tarea está representado por los mashups, aplicaciones que toman y mezclan datos existentes en la web para crear algo nuevo.

El de mapas es de los más utilizados en el periodismo y sirve para ver cómo se distribuye algo en el espacio. Un ejemplo sería un mapa qué muestre cuáles son los países que acumulan más de cien

medallas de oro en la historia de los Juegos Olímpicos basándose en los datos de una tabla de información extraída de, por mencionar una fuente probable, Wikipedia.

2.6.5 COMUNICACIÓN DE LOS DATOS

La forma de transmitir los datos a la audiencia es lo que más ha variado en los últimos años gracias a las nuevas tecnologías de la información y herramientas que permiten que estos se vuelvan más fáciles de manipular y de acceder. De allí que una característica fundamental del Periodismo de Datos actual es la visualización de estos en tablas y gráficos.

2.6.5.1 INFOGRAFÍA Y VISUALIZACIÓN DE DATOS

En el mundo académico suele diferenciarse entre la “infografía” y la “visualización de datos” alegando que la infografía se preocupa en presentar la información de una manera que pueda ser asimilada por

la audiencia, mientras que la visualización permite la exploración al usuario a través de esos datos.

Sin embargo, Alberto Cairo, autor del libro “El arte funcional: infografía y visualización de información” habla de una “frontera difusa” entre ambos conceptos (16 de abril, 2011). Pues este periodista español considera que “la relación entre infografía y visualización es un continuo” ya que “todo gráfico (de datos, cartográfico, etc.) presenta, pero también puede convertirse en una herramienta que una audiencia manipule mentalmente para explicarse unos datos, para extraer de ellos significados, tendencias, para vincularlos con su propia vida, para buscar en ellos su propio barrio, su ciudad, su vivienda.”

He ahí parte del potencial de la visualización de datos en los medios de comunicación ya que permite esa interacción del lector sobre todo con las nuevas herramientas.

Y, aunque las formas visuales de presentar datos parecen novedosas, lo cierto es que, al menos las más típicas, existen desde hace dos siglos gracias a los estudios de mapas en historia y geografía y en otras disciplinas como las matemáticas.

Así, al que se considera como el inventor de la tabla moderna es al ingeniero escocés William Playfair quien en The Commercial and Political Atlas de 1786 y en el Statistical Breviary de 1801 inventó y utilizó un gráfico de barras, uno de fiebre y otro de tarta, los gráficos estadísticos que son más utilizados en la actualidad. Uno de ellos es el que presentamos a continuación y que plasma en un diseño gráfico la evolución del comercio de Inglaterra en relación a Dinamarca y Noruega entre 1700

y 1780.

ILUSTRACIÓN 6. “EXPORTS AND IMPORTS TO AND FROM DENMARK & NORWAY FROM 1700 TO 1780”. FUENTE:

HTTP://UPLOAD.WIKIMEDIA.ORG/WIKIPEDIA/COMMONS/D/D8/PLAYFAIR_TIMESERIES.PNG

WIKIPEDIA / COMMONS / D / D 8/P LAYFAIR _T IME S ERIES . PNG Además

Además de las mencionadas, otras formas de comunicación visual de datos se inventaron durante el siglo XIX como el mapa geológico de William Smith de 1815 que los cartografistas llaman “el mapa que cambió el mundo”:

ILUSTRACIÓN

7.

“MAPA

GEOLÓGICO

DE

WILLIAM

SMITH

(1815).

FUENTE:

_ MAP _B RITAIN _W ILLIAM _S MITH _1815. JPG 7. “M APA GEOLÓGICO DE W

Pero cuando comienzan a asomar las cantidades masivas de datos, se tornan necesarias nuevas herramientas para su lectura y comprensión. De ahí que se comenzaran a utilizar aquellas específicas para la visualización de datos que poco a poco fueron mejorando y convirtiéndose de uso común, sobre todo desde el momento en que se las comprendió como una forma alternativa de comunicación.

Así, cada vez más herramientas facilitan a cualquier usuario la visualización de datos. Una que tuvo especial repercusión fue ManyEyes, de IBM, la cual funciona en Internet y es de acceso gratuito. Con esta herramienta, a partir de bases de datos se pueden diseñar visualizaciones para cruzar los datos y encontrar nuevas relaciones.

ILUSTRACIÓN 8. “DISTRIBUCIÓN DE LA AYUDA INTERNACIONAL DE ESTADOS UNIDOS EN ELTIEMPO: 1946-2005”. FUENTE:

MANYEYES.

NIDOS EN ELTIEMPO : 1946- 2005”. F UENTE : M ANY E YES . La visualización

La visualización entre otras cosas, sirve para “poner datos en contexto”, según explica Jeffrey Heer, de la Universidad de Stanford en el video de Geoff McGhee (2010) “Journalism in the age of data”

(2010).

A su vez, Cole Nussbaumer (2011), experta en visualización de datos en Silicon Valley- prefiere hablar de “humanización” de datos, pues al presentarlos de manera creativa es posible hacer de ellos una historia más transparente.

Uno de los medios precursores y que constantemente está innovando en visualización de datos es The New York Times.

2.6.5.1.1 “LA NARRATIVA DE LA VISUALIZACIÓN”

Para ambos académicos las visualizaciones estáticas a lo largo del tiempo han sido utilizadas para apoyar la narración, generalmente en forma de diagramas insertos en un cuerpo mayor de texto. Y es en este formato que el texto transmite la historia, y la imagen por lo general proporciona evidencia de apoyo o detalles relacionados.

Ahora, para ellos, una nueva clase de visualizaciones cada vez más complejas tratan de combinar narraciones con gráficos interactivos y narradores y periodistas, especialmente en línea.

A su vez, describieron siete géneros de narrativas de visualización: el estilo revista, el gráfico anotado, el diagrama de flujo, la tira cómica, las diapositivas, el vídeo y el “cartel dividido”.

ILUSTRACIÓN 9. “SIETE GÉNEROS”. FUENTE: (SEGEL Y HEER, 2010).

“S IETE GÉNEROS ”. F UENTE : (SEGEL Y HEER, 2010). El gurú del Periodismo de

El gurú del Periodismo de Precisión, Philip Meyer (2011) también considera que la narrativa va a la par de los datos, pues en el siglo XXI es necesario tanto el Periodismo de precisión el cual toma sus herramientas de la ciencia- como el Periodismo narrativo, basado en el arte:

La ciencia crea estructura con lo que Lippmann denomina modelos esquemáticos, que provienen de la teoría. El arte crea la estructura a través del diseño de la narrativa en la narración.”

Por ello no es cuestión de poner los datos como son y abrumar al lector. Hay que preguntarse qué es lo que este quiere saber a partir del gráfico, qué es lo que puede llegar a preguntarse.

Igualmente, Alberto Cairo insiste en la necesidad de no caer en la simplificación excesiva. Y habla de dos corrientes en el campo de la visualización de la información: la de los minimalistas (racionales, científicos) y la de los de una perspectiva más emocional y estética.

En cuanto a la teoría, Cairo (2011) recuerda a Edward Tufte, un influyente profesor de estadística que es defensor de la corriente minimalista y un aberrador de la “ideología de la decoración”. Incluso este habla de la “basura de gráficos” (chart junk) que hay que evitar, como estilos que dificultan la lectura de los datos, grillas sobrecargadas, texturas incomprensibles…

Algunas de las reglas que enumera en su libro básico “The visual display of quantitative information” son:

- Mostrar los datos

- Maximizar el uso de data-ink (tinta destinada a los datos). 3

- Evitar el chart-junk, o todo lo que dificulte la lectura de los datos

- Utilizar elementos multifuncionales, que facilitan la lectura.

- Múltiplos pequeños

- Textos y leyendas con la orientación tradicional

- Hacer un uso cuidadoso del color

Su postura es en ocasiones extrema. Sin embargo, sus principios tuvieron y tienen hasta la actualidad gran percusión entre diseñadores y comunicadores. Sin embargo, en las dos últimas décadas también se le ha rebatido su postura minimalista, basada más en apreciaciones personales que en hechos empíricos.

Por su parte, están aquellos defensores de un uso más estético y emocional de los gráficos. Entre ellos se incluye el influyente Nigel Holmes, referente de la infografía moderna y defensor de la inclusión de ilustraciones junto a los datos.

Para Cairo (2011), la estética no está de más siempre y cuando el gráfico no esté por encima del rigor informativo: “rendirse en ocasiones a lo lúdico y crear un gráfico que tenga más artificio que sustancia puede ser positivo, dependiendo del asunto y del contexto”.

Por su parte, las nuevas herramientas tecnológicas permiten que sin llegar a la simplificación absoluta se creen gráficos interactivos que permiten a la audiencia buscar aquello que les sea de más interés.

El siguiente es un ejemplo de gráfico interactivo que realizó el The New York Times el pasado junio llamado “Where the Heat and the Thunder hit their shots”. Aquí se pueden comparar las fortalezas de los jugadores de baloncesto del Miami Heat y del Oklahoma City Thunder basándose en sus patrones de disparo.

3 La regla central de Tufte es la ratio data-ink, la cual representa la cantidad de tinta que debe llevar la ilustración en orden a representar los datos de manera aceptable.

ILUSTRACIÓN 10. “WHERE THE HEAT AND THE THUNDER HIT THEIR SHOTS”. FUENTE: THE NEW YORK TIMES.

HIT THEIR SHOTS ”. F UENTE : T HE N EW Y ORK T IMES .

2.6.5.2 OTRAS FORMAS DE COMUNICAR LOS DATOS

La visualización de los datos se presenta como una de las formas que se están volviendo cada vez más populares para presentar la información a los lectores. Sin embargo, según Paul Bradshaw (abril 2010) en su teoría de la Pirámide Invertida del Periodismo de Datos, hay otras maneras de comunicar los datos:

- La narración: un artículo escrito de manera tradicional en el que se incluyen los datos recolectados.

- Comunicación social: los datos pueden conseguirse a través de las redes sociales o a través de convocatorias y concursos.

- Humanización: presentar los números con ejemplos reales para ilustrar una historia. No solo datos abstractos.

- Personalizar: la interacción con los datos permite a los usuarios buscar aquello que les es de su interés personal. Por ejemplo: “¿cómo le afectan los recortes de este trimestre según región?”.

- Utilizar: semejante a personalizar, la comunicación de los datos puede permitir al usuario buscar aquella información que le interese, sea o no que lo afecte a nivel personal.

2.7 DOS EJEMPLOS DE PERIODISMO DE DATOS

2.7.1 ¿DÓNDE VAN MIS IMPUESTOS?

En Internet, el sitio español www.dondevanmisimpuestos.es es una iniciativa de la Fundación Ciudadana Civio la cual cuenta con el apoyo de la Open Knowdlege Foundation. Se trata de un proyecto de Periodismo de Datos para dar conocer los destinos del dinero según los Presupuestos Generales del Estado desde 2008 hasta 2011.

Inspirada en el proyecto inglés “Where Does My Money Go?”, básicamente es una visualización interactiva en la que el usuario o lector puede ir desplegando los gráficos según cuáles sean sus intereses. Por ejemplo, puede ver los presupuestos que se destinan a Cultura, Artes Recreativas y Religión y a su vez cuánto de esto va, por ejemplo, a Bibliotecas y Archivos. También está la posibilidad de ver los presupuestos por comunidades autónomas año a año.

Esta información es posible porque está disponible en los Boletines Oficiales del Estado. Sin embargo, lo que ya no puede saberse en España es si efectivamente ese dinero fue destinado tal como estaba planeado por las trabas que presenta el no contar con una Ley de Acceso a la Información 4 .

En este caso se trata de un diseño realizado a través de las tablas en las que se recolectó la información de los Presupuestos Generales de los gastos anuales de la Administración Central del Estado (ministerios, agencias dependientes y otros organismos públicos, como el Congreso) y la Seguridad Social.

ILUSTRACIÓN 11. "¿DÓNDE VAN MIS IMPUESTOS?". FUENTE: WWW.DONDEVANMISIMPUESTOS.ES

4 Ver apartado sobre Open Data.

2.7.2 “ METADONA Y LA POLÍTI CA DEL DOLOR” Es un reportaje de The Seattle

2.7.2

METADONA Y LA POLÍTICA DEL DOLOR”

Es un reportaje de The Seattle Times de Estados Unidos cuyo título original es “Methadone and the politics of pain” y fue publicado en tres partes en diciembre de 2011. Galardonado con el premio Data Journalism Award en la categoría “Data-Driven Investigation”, consistió en la denuncia de todo lo que hay detrás del consumo del analgésico metadona.

Su elaboración llevó diez meses y en el equipo participaron cinco personas. Entre otras cosas revelaban que desde 2003 habían muerto 2173 personas en el estado de Washington por sobredosis de metadona, la mayoría de ellas de clases bajas. Denunciaban también que el fármaco tiene un interés financiero para el Estado, además de que deja a los pacientes con un dolor crónico.

El reportaje incluyó representaciones gráficas de los datos demográficos de las muertes relacionadas con la metadona. El más ambicioso de ellos traza las direcciones de aquellas personas que habían muerto por una sobredosis accidental vinculada a la metadona. Utilizando un código de colores, el gráfico del Estado fue dividido en cinco partes según ingresos lo que permitía ver que había más muertes en las comunidades más pobres.

A su vez, la investigación estuvo sustentada en tres bases de datos: la de los certificados de muerte del Estado con detalles de la causa de muerte, entre otros; las notas de texto acerca de las muertes, por ejemplo las escritas por los médicos y la del Comprehensive Hospital Abstract Reporting System (CHARSEl) con datos sobre cientos de miles de hospitalizaciones, diagnósticos, procedimientos realizados, costo de la estancia y la situación económica de cada paciente.

ILUSTRACIÓN 12. “METHADONE AND THE POLITICS OF PAIN”.FUENTE: THE SEATTLE TIMES

THE POLITICS OF PAIN ”.F UENTE : T HE S EATTLE T IMES 3.HERRAMIENTAS PARA EL

3.HERRAMIENTAS PARA EL PERIODISMO DE DATOS

Como se ha mencionado a lo largo del trabajo, numerosas herramientas están a disposición de los periodistas, diseñadores o quien lo quiera para hacer Periodismo de Datos. A continuación, algunas de ellas clasificadas según el uso que se le puede dar en la elaboración de un contenido.

3.1 MAPAS

QUANTUM GIS (QGIS): sistema de información geográfica de código libre. Herramienta para crear mapas a partir del análisis de bases de datos.

OPENHEATMAP: una herramienta fácil de usar mientras los datos estén clasificados por país, región o provincial.

ARC GIS: Sistema de información que permite crear, analizar, almacenar y difundir datos, modelos, mapas y globos en 3D.

POSTGIS: módulo que añade soporte espacial a la base de datos objeto-relacional PostgreSQL, para su utilización en Sistema de Información Geográfica (SIG).

GRASS: también un software SIG libre.

3.2 SCREEN SCRAPING (RASPADO)

Esta actividad se refiere a una técnica de programación para extraer mediante ingeniería inversa la información de un PDF, plantilla de Excel, página web, gráfico…

SCRAPERWIKI: una herramienta en línea que permite a cualquiera recoger, guardar y publicar la información de una página web y convertirla en una base de datos.

READABILITY: aplicación para facilitar la lectura de contenido en la web y que permite extraer el texto.

SCRAPER (extensión para Chrome): sirve para extraer tablas de páginas webs.

3.3 LENGUAJE DE SCRIPTS

RUBY: lenguaje de programación de código abierto y dinámico.

PYTHON: lenguaje de programación también de código abierto fácil de leer y escribir.

ACTIONSCRIPT: lenguaje de la plataforma Adobe Flash

PERL:lenguaje de programación.

PHP:lenguaje de programación.

3.4 MANEJO DE BASES DE DATOS

MICROSOFT EXCEL: no es un gestor de bases de datos sino una hoja de cálculo, pero cuando se trata de conjuntos de datos hasta de tamaño medio es la herramienta más utilizada por los periodistas. Su funcionalidad primera es el trabajo con planillas de cálculo y la aplicación de diversas funciones en estas, en orden al análisis y administración de datos.

OPENOFFICECALC: tiene la misma finalidad que MicrosoftExcel aunque es de código abierto y presenta menos funciones que este.

Cuando las hojas de cálculo no son suficientes para el trabajo del periodista este necesita un gestor de bases de datos relacional, sobre todo cuando se trata de unir varias hojas de cálculo o si se trabaja con grandes conjuntos de datos. Algunos de estos gestores pueden ser: SQLITE, MYSQL,

POSTGRESQL,

MICROSOFTACCESS Y SQL SERVER.

3.5 VISUALIZACIÓN DE DATOS

MANYEYES: aplicación que mezcla los datos y convierte números complejos y datos de bases de datos en visualizaciones que pueden ser tanto para la web como para la prensa escrita. Es una creación del grupo de investigación de IBM, el cual procuraba con esta herramienta la “democratización de la visualización” ya que es fácil de utilizar y de compartir.

YAHOO PIPES: es una herramienta informática semejante a ManyEyes.

TABLEAU PUBLIC: versión gratuita del software Tableau. Es integrable y puede insertarse con facilidad en la página web, blog o medio del usuario. No es confidencial pues queda abierto al público y tiene un límite de cien mil registros y 50 MB por usuario. Su herramienta “Show me” indica qué tipo de gráficos se adapta a la información que se está analizando.

GOOGLE FUSION TABLES: es una herramienta ideal para principiantes. Permite visualizar los datos y publicarlos y compartirlos como mapas, líneas de tiempo y gráficos. Se pueden combinar las tablas de datos, filtrarlos y ordenarlos. Además, permite a otros dejar comentarios sobre cada uno de estos. Una desventaja es que los datos quedan en los servidores de Google, aun cuando se elija configurarlos en privado.

3.6 LIMPIEZA DE DATOS

Esto es para unificar criterios antes de cruzar datos. Es decir, formateo de datos.

Por ejemplo, si a la ciudad de Buenos Aires se la nombra como BA, Capital Federal o Ciudad Autónoma de Buenos Aires en la misma base de datos; entonces será necesario unificarlas. En este caso se trata de establecer consistencia en los datos estableciendo un control de autoridades dirigido a denominar a cada entidad, sea nombre de persona, corporación o concepto, de una única manera.

DATA WRANGLER: herramienta del Grupo de Visualización de la Universidad de Standford. Funciona en el mismo explorador y todavía está en fase demo. Su ventaja es que permite, entre otras cosas, borrar de manera sistemáticas filas en blanco, reacomodar los datos para que haya sólo uno por fila, formatear datos mediante la deducción automática… Su desventaja es la relacionada con la

seguridad de los datos pues estos son enviados a un sitio externo, por lo que para información confidencial no es tan recomendable (KANDEL et al., 2011)

GOOGLE REFINE: se trata de una poderosa herramienta gratuita para explorar datos y limpiarlos de fácil manera. Funciona a través del navegador, pero es una aplicación de escritorio por lo que los datos con los que se trabaja no se hacen públicos.

Su principal función es el clustering o limpieza de datos basada en similitudes y corrección de erratas tanto en textos como en números-, que agrupa por aproximación distintos valores de celda que pueden referirse a lo mismo. Para ello utiliza diferentes algoritmos y el usuario puede elegir el que desea utilizar, pues van desde los más simples hasta los más estrictos.

Su desventaja es que no tiene todas las funciones de una hoja de cálculo aunque se parezca a una. Sin embargo, los datos se pueden importar y exportar desde formatos varios como CVS, Excel, XML y JSON.

3.7 ANÁLISIS ESTADÍSTICO

EL PROYECTO R: R es un sistema estadístico que sus autores prefieren llamar de “entorno” y es la evolución o nueva implementación del lenguaje S que había sido desarrollado en AT&T por Rick Becker, John Chambers y Allan Wilks. Es OpenSource, multiplataforma y su uso se está extendiendo cada vez más. Algunas de las operaciones que pueden realizarse son: almacenamiento y manipulación

efectiva de datos; operadores para cálculo sobre variables indexadas (Arrays), en particular matrices; una colección de herramientas para análisis de datos; posibilidades de visualización de datos y un lenguaje de programación. Su gran potencial es que es extensible.

SPSS (STADISTICAL PRODUCT AND SERVICE SOLUTIONS): software estadístico muy poderoso, de pago.

3.8 OTRAS HERRAMIENTAS

DOCUMENT CLOUD: proyecto ganador de uno de los desafíos de la Knight Foundation que está pensado para que los periodistas de diferentes medios de comunicación publiquen sus documentos en una misma plataforma, con marcaciones propias si se quiere. Un caso de su uso que merece mención también por relacionarse con información abierta es el del diario The New York Times que publicó 25.000 hojas de correos electrónicos de la candidata a vicepresidenta de Estados Unidos, Sarah Palin. Así, al estar a disposición del público, los lectores también podían marcar aquello que les parecía relevante y ayudar a los periodistas.

TEXTMATE: editor de texto plano con soporte para múltiples lenguajes de programación.

4.BIG DATA

Big Data o lo que es lo mismo en español, los grandes volúmenes de datos, es el fenómeno que en tecnología de la información hace referencia precisamente a aquellas cantidades de datos tan altas que es difícil imaginarlas.

Y así como es difícil imaginarlas, es de comprender el problema que representan en distintos ámbitos de la vida, tanto a nivel individual como general. Pues así como Big Data trajo beneficios también surgen constantemente nuevas necesidades en orden a poder almacenar tanta información, compartirla, organizarla y visualizarla.

Para intentar imaginar a qué se refiere Big Data conviene destacar el último informe sobre el Universo Digital de la consultora internacional IDC de junio de 2011 (GANTZ, Jhon; REINSEL, David, 2011) según el cual toda la información digital del mundo se duplica cada dos años. Y lo que calculaban para fines de dicho año es que se llegaría a los 1,8 zettabytes de datos cifra todavía por confirmar si se alcanzó-. Para tener una idea aproximada, un zettabyte son 1.000.000.000 billones de bytes.

Dicho estudio -patrocinado por la empresa líder en almacenamiento EMC- se realiza anualmente desde 2007 y cada año ha arrojado conclusiones sorprendentes, como la que deduce que el 75 por ciento de la actual información en la web es creada por los individuos y que los datos a la actualidad siguen superando la capacidad de almacenamiento disponible.

Las principales conclusiones del año a año de este estudio podrían resumirse de la siguiente manera:

- En 2006, la cantidad de información digital creada, capturada y replicada fue de 161 mil millones de gigabytes, lo mismo que tres millones de veces la información contenida en todos los libros de la historia. La conversión de lo analógico en digital es gran responsable del crecimiento.

- En 2007, la cantidad de información digital era de 281 mil millones de gigabytes. Este mismo año, por primera vez toda la información creada, capturada y replicada había excedido el almacenamiento disponible.

- En 2008 se crearon 487 mil millones de gigabytes y alrededor del 70 por ciento fue responsabilidad de los individuos.

- En 2009, según revelaba el informe 2010 de IDC, la información había crecido en el mundo un 62 por ciento hasta casi alcanzar 800.000 petabytes. Para imaginarlo, el informe compara esta cantidad con una torre de DVDs que va y vuelve de la Tierra a la Luna.

- Por último, en 2010 la información ya alcanzaba y superaba la barrera del zettabyte llegando a 1,2 de esta última medida. Además, los usuarios se vuelven responsables del 75 por ciento del

contenido disponible y no sólo por la creación de información sino por la información que generan alrededor de ello.

ILUSTRACIÓN 13. “A DECADE OF DIGITAL UNIVERSE GROWTH”. FUENTE: IDC’S DIGITAL UNIVERSE STUDY.

”. F UENTE : IDC’ S D IGITAL U NIVERSE S TUDY . Los efectos de

Los efectos de tanta información disponible se manifiestan constantemente y hasta han transformado

el panorama social. Así es que el tráfico de datos también ha crecido exponencialmente y según el

Informe Global de la Nube (2010-2015) de Cisco se calcula que este se cuadriplicará para 2015 hasta

llegar a los 4,8 zettabytes.

Por aclarar aquí a qué es lo que se refiere el término “la nube” o “computación en la nube” (Cloud Computing), esta no tiene una definición estándar aceptada. Por lo que una que encuentra acepción y que puede considerarse en este trabajo es la de 2008 del IEEE Computer Society (MCFEDRIES,

2008):

“Estamos al borde de la computación en la nube, en la que no sólo los datos sino incluso nuestro software reside dentro de la nube, y podemos acceder a todo, no sólo a través de nuestros equipos, sino también a través de dispositivos como teléfonos inteligentes, PDAs, electrodomésticos, consolas de juegos e incluso coches "

A su vez, para el profesor y experto Luis Joyanes Aguilar “los datos y las aplicaciones se reparten en

nubes de máquinas, cientos de miles de servidores de ordenadores pertenecientes a los gigantes de Internet, Google, Microsoft, IBM, Sun Microsystems, Oracle, Amazon…, y poco a poco a cientos de grandes empresas, universidades, administraciones, que desean tener sus propios centros de datos a disposición de sus empleados, investigadores, doctorandos, etc.” (JOYANES, 2009).

De parte de todo esto se trata el fenómeno al que se llama Big Data, que no es una “cosa” o algo estático, sino que alude a un concepto dinámico. Según la definición de IDC, las tecnologías de Big Data, describen “una nueva generación de tecnologías y arquitecturas, diseñadas para extraer valor de grandes volúmenes de datos, permitiendo la captura a alta velocidad, su descubrimiento y/o análisis” (GANTZ, Jhon; REINSEL, David, 2011).

Las medidas

Para conocer con exactitud las medidas y tamaños de datos a los que se hace mención en este trabajo, es pertinente prestar atención al gráfico siguiente.

ILUSTRACIÓN 14. "DATA INFLATION". FUENTE: THE ECONOMIST.

14. "D ATA INFLATION ". F UENTE : T HE E CONOMIST . Este cuadro corresponde

Este cuadro corresponde al artículo “All too much” de la revista The Economist (febrero 2010) e ilustra de manera clara las unidades que miden la información digital. Como allí se especifica, estas están tomadas de la Oficina Internacional de Pesos y Medidas que en 1991 agregó los términos zetta y yotta, siendo estos los dos últimos.

Así, para tener una estimación de cuanta información representa cada medida, The Economist hace comparaciones. Un B (byte) podría ser un número en código informático. Dos KB (kilobytes) son una página de sólo texto. Cinco MB (megabytes) podrían ser todas las obras de Shakespeare. Entre uno y dos GB (gigabytes) alcanzan para una película comprimida de dos horas. Todos los libros catalogados de la Biblioteca del Congreso de Estados Unidos son 15 TB (terabytes). Luego, un PB (petabyte)

equivalía en 2010 a toda la información que Google procesaba en una hora. Un EB (exabyte) podrían ser mil millones de copias de la revista The Economist. Por su parte, 1,2 ZB (zettabyte) es la cantidad de información que había en total en 2010. Mientas que un YB (yottabyte) es todavía “muy grande como para imaginar”.

Un desafío en todos los ámbitos

Con el correr de los últimos años es así como Big Data se ha ido convirtiendo en un elemento central del mundo actual. Y, sobre todo se ha vuelto un desafío. Por ejemplo para aquellas empresas que manejan inmensurables cantidades de información a cada hora. Pensar sino solamente en Facebook, Google o Twitter. Sólo en la plataforma de videos de YouTube se suben 72 horas de contenido por minuto 5 , para tener una idea aproximada de los volúmenes de información a los que hacemos mención.

Precisamente, por el lado empresarial es que el tema Big Data fue objeto de una cobertura especial de la revista The Economist de febrero de 2010 que se tituló “Data, data, everywhere”. Allí se dio cuenta de la “astronómica” cantidad de información que es procesada cada segundo -“en el mundo hay una cantidad de información digital inimaginable que se multiplica cada vez más rápido”- y del negocio que representa la economía centrada en los datos, si bien todavía faltaban las herramientas. En ese mismo reportaje así lo admitía el ejecutivo de Microsoft Craig Mundie: “Usted puede ver las líneas generales de esta economía pero las implicaciones técnicas de esta, la infraestructura e incluso el modelo de negocio, en este momento todavía no se comprenden bien”.

La empresa del buscador Google bien sabe también la importancia que tiene la información y su potencial de negocio. Esto lo pone constantemente de manifiesto y puede evidenciarse en que el primer número de la primera revista de su autoría, “Think Quarterly” estuvo destinada a los datos y se llamó “The Data Issue”. En su introducción, Matt Brittin (2011), el Managing director de Google Reino Unido e Irlanda, invita a los lectores a inspirarse con la revista para “encontrar, entre un mar de información, los indicadores mágicos que le ayudarán a transformar su negocio”.

Big Data es un desafío empresarial tanto por los problemas que puede acarrear, como por las oportunidades que representa. Un importante ejemplo es el tema del almacenamiento disponible que todavía es inferior a la cantidad de datos existente. Tener en cuenta al respecto que un gigabyte de contenido almacenado puede generar un tráfico de hasta un petabyte sin que este sea almacenado, como es el caso del streaming de televisión o de las llamadas de voz.

5 Cfr. “It's YouTube's 7th birthday

and you’ve outdone yourselves, again”. YouTube Blog (Mayo 2012)

Pero, según el informe de IBM, “What is big data? Bringing big data to the Enterprise”(2012), este fenómeno de Big Data, es “más que una simple cuestión de tamaño, es una oportunidad para encontrar ideas en nuevos y emergentes tipos de datos y contenidos, para hacer un negocio más ágil y dar respuestas a preguntas que antes podían parecer fuera de alcance”.

Lo mismo decía la consultora Gartner Inc.-especializada en tecnologías de la información- en “Pattern-Based Strategy IT Research Report”, una publicación de 2011 en la que advertía que las empresas no debían tomar el almacenamiento como el único problema que acarrean los grandes volúmenes de datos. También están la variedad y la velocidad. La variedad en el sentido de que cada vez hay más tipos de información con los que lidiar y la velocidad tanto por la rapidez con la que se producen los datos como por lo rápido que la información deber ser procesada para satisfacer la demanda.

De todas maneras, para los analistas de Gartner, BigData es un tema complejo pero el verdadero problema está en encontrarle sentido a tanta información y en buscar patrones que ayuden a las organizaciones a tomar mejores decisiones.

Y, así como The Economist o Google con Think Quarterly no fueron ni los primeros medios relevantes

ni los únicos en centrarse en Big Data como un tema actual y preponderante, previamente ya había

habido otros indicios como el de la revista “Wired”. Esta, en su número de julio de 2008 habló de la “Era del Petabyte”, enfocada a destacar el potencial de la lectura matemática y estadística de los datos,

sin importar el ámbito de su aplicación pues es la cantidad de información lo que hace la diferencia.

Es en ese sentido que BigData permite una nueva forma de investigación en la que los números hablan por sí mismos: “La nueva disponibilidad de grandes volúmenes de datos junto con las herramientas estadísticas de hacer cálculos de estas cifras ofrece una nueva forma de entender el mundo”. Se refiere a la aplicación de algoritmos tan solo sea para descifrar tendencias y costumbres de los usuarios, por ejemplo.

Asimismo, el desafío no sólo alcanza a las empresas en lo que refiere a almacenamiento y buen uso. También alcanza a los individuos y a la sociedad en general que deben aprender a manejarse en un mundo con sobreabundancia de información y aprovechar su potencial.

O puede también alcanzar ámbitos específicos, como el científico por mencionar uno. Es así como la

prestigiosa revista Nature en septiembre de 2008, hizo también su especial sobre el tema Big Data para resaltar los cambios que este fenómeno exige en el ámbito de la investigación: “Los investigadores deben obligarse a documentarse y manejar la información con el mismo profesionalismo que invierten en sus experimentos.” Incluso, en su editorial llega a afirmar que el

futuro de la ciencia puede depender en parte de la inteligencia que se aplique en navegar por la gran abundancia de datos para su propio beneficio.

También a nivel social y económico están las consecuencias. El Foro Económico Mundial en su informe de 2012 “Big Data, Big Impact: New Possibilities for International Development” la ha considerado como una “herramienta de desarrollo económico”, al referirse como ejemplo a los datos generados por los móviles y su utilidad en situaciones de emergencia como un terremoto: “Los investigadores y los responsables políticos están empezando a darse cuenta del potencial que tiene la canalización de flujos de datos en información que puede ser utilizada para identificar necesidades, proveer servicios, y predecir y prevenir crisis en beneficio de las poblaciones de bajos ingresos”.

4.1 BIG DATA Y SU INFLUENCIA EN EL PERIODISMO

Today, making sense of Big Data, particularly unstructured data, will be a central goal for data scientists around the world, whether they work in newsrooms, Wall Street or Silicon Valley.

Alex Howard (O'Reilly Media)

Pero Big Data no sólo ha supuesto desafíos para los mundos corporativos, gubernamentales y a nivel individual. También ha supuesto cambios para el periodismo y la manera de contar historias.

El análisis de grandes bases de datos -ajenas o propias- supone el acceso a nuevas historias gracias a los vínculos que se pueden establecer.

En esta línea es que el periodista alemán Mirko Lorenz (2012), especializado en datos, define data como pequeños puntos de información que frecuentemente no son relevantes de manera aislada pero que a nivel masivo sí lo son cuando se los analiza desde el ángulo correcto.

Sin embargo, no es tan simple como suena pues exige a los comunicadores nuevas habilidades para dar contexto a enormes cantidades de información. O, en el caso que los comunicadores no incorporen estos nuevos conocimientos, lo idóneo es que tengan compañeros de equipo que sí lo hagan. Lo mismo en lo que refiere a la visualización de los datos.

Al mismo tiempo es de destacar que las herramientas para el manejo de mucha información se vuelven más accesibles y permiten más fácilmente volver legibles y visibles grandes masas de datos que pueden provenir de diferentes sitios y que son demasiado grandes como para ser leídas o analizadas con los métodos tradicionales.

En general, cada vez hay una mayor toma de conciencia en el valor que tiene encontrar patrones de información para la elaboración de noticias. Por ejemplo, una gran fuente de información actual es la

que está disponible en las redes sociales, como Facebook o Twitter. Aplicando allí los algoritmos

adecuados y extrayendo patrones es posible reunir información noticiable de todo el “fluir” constante

de

datos.

O

si los recursos son pocos y la información a analizar y cruzar es mucha, un trabajo en conjunto con

la

audiencia es también una nueva posibilidad. Lo mismo si se analiza una base de datos y se pone a

disposición del público para que haga sus propios cruces de información y, si la plataforma lo permite,

la

comparta. Pues los intereses varían de persona a persona y de comunidad a comunidad, de ahí parte

la

ventaja de alojarlas en algún sitio del Internet.

Asimismo, las herramientas para el manejo de Big Data en una redacción no sirven sólo para encontrar información, también es posible utilizarlas para conocer en tiempo real o no las reacciones de la audiencia digital y predecir aquello que será más de su interés, o que - tratándose de una empresa- venderá más.

4.2 EJEMPLO DE TRABAJO PERIODÍSTICO CON GRANDES BASES DE DATOS

El proyecto “Dollars for Docs” de la organización periodística sin fines de lucro ProPublica

constituye un válido ejemplo de trabajo con varias y grandes fuentes de datos. Lo que permite es que

el lector pueda averiguar cuál es la relación de su médico de interés de Estados Unidos- con las

industrias farmacéuticas.

Ello fue posible gracias a la apertura de datos que las mencionadas industrias farmacéuticas comenzaron a hacer en 2010 por un tema legal 6 . La intención no es desenmascarar relaciones fraudulentas sino reconocer que estas pueden plantear cuestiones éticas. Además, su foco está puesto

en poner a disposición dicha información de manera sencilla y desde allí es posible sacar conclusiones.

Así es como medios de diferentes estados del país norteamericano basaron investigaciones periodísticas en la fuente facilitada por ProPublica. O la misma organización basó notas periodísticas en su base de datos durante estos últimos años.

ILUSTRACIÓN 15. "DOLLARS FOR DOCS". FUENTE: PROPUBLICA.

6 A raíz de la reforma sanitaria de Estados Unidos. La ley que así lo dispone es la llamada Physician Payments Sunshine que exige un informe anual para declarar cualquier pago o “regalo” por un monto mayor a los 10 dólares, lo que incluye viajes, subvenciones para investigación, invitaciones a congresos, etcétera.

51

5.OPEN DATA (DATOS ABIERTOS)

“La teoría democrática sostiene que la información sobre lo público ha de ser accesible de modo igualitario para todos los miembros del público.”

Philip Meyer, 1993

El acceso a la información pública se ha ido multiplicando en los últimos años en distintos países y, aunque todavía se está lejos del nivel deseado, esto ya ha ido revolucionando la manera de hacer periodismo.

El concepto de Open Data (cuya traducción sería “datos abiertos”) hace referencia a la información de carácter público que se pone a disposición del ciudadano o usuario, en orden a una mayor transparencia de acción.

Se trata simplemente de abrir al público información que se aloja en los servidores propios o en la Nube y que son de autoría de la institución local, nacional o internacional. Puede tratarse de informes, de bases de datos, de encuestas, de estadísticas y demás, en formatos compatibles con los potenciales usuarios y terceros.

Según la definición de la Unesco, el libre acceso “consiste en permitir a todos acceder libremente a la información relativa a la investigación científica evaluada por expertos (artículos científicos y datos de investigación). Ello supone que los titulares de los derechos conceden un derecho de acceso universal e irrevocable para copiar, utilizar, distribuir, transmitir y crear obras derivadas en cualquier formato en el marco de actividades legales, siempre y cuando se mencione como corresponde el autor original” (UNESCO, 2011).

Su énfasis en el libre acceso a la información de carácter científico hace referencia a que la institución internacional fomenta el crecimiento del conocimiento en los ámbitos de la educación, la ciencia, la cultura y la comunicación e información. Por ello es que participa activamente en su promoción.

Asimismo, en la declaración de la Sociedad de Gobierno Abierto sus miembros firmantes defienden “el valor de la apertura en nuestro compromiso con los ciudadanos para mejorar los servicios, gestionar los recursos públicos, promover la innovación y crear comunidades más seguras. Adoptamos los principios de transparencia y gobierno abierto para que haya más prosperidad, bienestar y dignidad humana en nuestros propios países y en un mundo cada vez más interconectado”.

Esta Sociedad (Open Government Partnership, por sus siglas en inglés) fue lanzada en septiembre de 2011 entre los presidentes de Estados Unidos y Brasil, Barack Obama y Dilma Rousseff para

promover la transparencia como medio para mejorar la gestión de los recursos públicos y aumentar la participación cívica. La conforman gobiernos de diferentes países y organizaciones civiles, públicas y privadas.

Una administración pionera y ejemplo en lo que refiere a Open Data es la de Estados Unidos con su portal data.gov que fue luego replicado en otros gobiernos, entre ellos el de la Comisión de la Unión Europea o el de Gran Bretaña.

Este último, para su lanzamiento en enero de 2010 contó incluso con el apoyo del inventor de la World Wide Web, Tim Berners-Lee. Este sitio, http://data.gov.uk/, funciona como buscador y tiene indexadas miles de bases de datos ordenadas por distritos y estadísticas. Además, cuenta con foros en los que los usuarios pueden discutir temas relacionados con el manejo de datos. Incluso tiene tutoriales sobre cómo utilizar la información y aprovechar las diferentes herramientas para su uso.

En ellos puede encontrarse desde la cantidad de homicidios de un municipio o ciudad hasta las planillas con información detallada de los gastos públicos.

No es el caso de España a nivel de estado aunque sí en algunos casos a nivel autonómico, como es el País Vasco o el Principado de Asturias, que son los pioneros en el país. El País Vasco tiene la plataforma Open Data Euskadi donde puede encontrarse la información reutilizable, es decir aquella que ya se ha hecho pública y está librada a su reutilización.

Además, están las iniciativas ciudadanas de datos abiertos, sobre todo a nivel de organización civil y que procuran facilitar al ciudadano el acceso a la información. Dos de ellas mencionables y que sirven

a modo de ejemplo son TheyWorkForYOU y FixMyStreet.

La primera se traduce como “EllosTrabajanParaTí” y es un portal que, aprovechando la ley de acceso

a la información británica crea una plataforma para que fácilmente un ciudadano sepa todo aquello que

hay disponible sobre sus representantes políticos en el Parlamento. Desde qué leyes votaron a favor o en contra, hasta qué preguntas hicieron en las intervenciones parlamentarias y demás.

La segunda se traduciría como “ArreglaMiCalle” y es una aplicación de la misma organización civil británica que creó la anterior y se llama MySociety. Esta permite notificar sobre problemas en un radio determinado para solicitar la intervención del ayuntamiento y no sólo eso, sino que es posible ver cuáles de todos los problemas denunciados fueron resueltos y también pueden recibirse notificaciones de cuando se denuncian problemas en el código postal de interés. Dicha aplicación es de código abierto y se ha aplicado en otros países.

Si tanta información abierta al público tiene un valor agregado a nivel ciudadano también lo tiene a nivel periodístico. Y ahí es donde entra la función del periodismo y, especialmente, del Periodismo de Datos que se vio potenciado con el movimiento de datos abiertos. No porque necesitara de este para afirmarse como tendencia, sino porque hizo crecer la cantidad de fuentes de información oficiales.

Wikileaks también ha sentado un precedente en lo que refiere a información disponible al público. Sus documentos no se consiguieron de manera legal pero dieron relevancia a la necesidad de una apertura de datos y de normas que avalen esta.

Pero es sobre todo la información pública abierta la que ya continuará dando lugar a la elaboración de noticias. Claro que no toda ni siempre, pues puede simplemente haber información de carácter público que no interesa.

He ahí también parte del trabajo adicional del periodista o documentalista más allá de lo que podría mirar un ciudadano común y buscar entre el montón de información aquella historia que será de interés en los medios.

Luego quedará buscar la manera de comunicarla, conectándola e interpretándola procurando siempre dejar libre el acceso a la fuente de información original.

5.2 ESPAÑA

En Europa, España es de los pocos países que no cuenta con una Ley de Acceso a la Información. Los otros son Chipre, Luxemburgo y Malta. Es decir, es el único país de la región con más de un millón de habitantes que no tiene esta legislación.

La Ley de Transparencia, Acceso a la Información Pública y Buen Gobierno es todavía un proyecto si bien su texto ha sido aprobado por el Consejo de Ministros el pasado 27 de julio. Antes de ello hubo una consulta abierta para los ciudadanos que quisieran aportar algo, aunque esta consulta irónicamente no fue transparentada y se desconoce si se tuvo en cuenta o no. Sobre su texto ha dicho la experta Helen Darbishire, directora ejecutiva de Access Info Europe que es “insuficiente, poco progresista y está por debajo de los estándares internacionales”, a raíz de que no se considere el derecho a saber como un derecho fundamental, asociado a la libertad de expresión y a la calidad democrática (GARCÍA GÓMEZ, 2012)

Constitucionalmente lo que está contemplado es el derecho a la información (artículo 20) y el acceso a los archivos y registros administrativos (artículo 105). Sin embargo, una ley que desarrolle el libre acceso no ha sido formulada e incluso el derecho a la información se encuentra con numerosos

obstáculos, sobre todo de los que devienen de la Ley Orgánica de Protección de Datos (LOPD) pues suele anteponerse el derecho a la privacidad.

Entonces, si bien a nivel de las comunidades autónomas sí hay iniciativas en orden a un gobierno abierto a nivel Estado hasta ahora sólo hubo aproximaciones a una ley de acceso a la información

A nivel autonómico las iniciativas ya sancionadas son las siguientes:

- Ley Foral de la Transparencia y del Gobierno Abierto de la Comunidad de Navarra:

aprobada en 2012, y con una propuesta muy ambiciosa para la participación ciudadana. A su respecto dijo Helen Darbishire (2012), directora de Access Info Europe: "Esta es una ley muy fuerte, a la altura de las mejores leyes de acceso a la información del mundo. De hecho esta ley va más lejos incorporando principios datos abiertos y participación ciudadana al concepto de Gobierno Abierto".

- Open Data Euskadi: sitio web a cargo del Gobierno Vasco donde se alojan los documentos abiertos, con información reutilizable a disposición de cualquier ciudadano.

- Principado de Asturias: Catálogo de Datos Asturias, pionero en las iniciativas de gobierno abierto de España.

- Cataluña: Datos Abietos GenCat, de la Generalitat de Catalunya.

- Xunta de Galicia: portal Open Data, para la reutilización de información pública

Lo que es posible en España es la reutilización de contenidos ya públicos siendo una gran fuente de información los Boletines Oficiales del Estado. La dificultad de estos reside en su lectura ya que en los sitios estatales donde se alojan se encuentran en formato PDF que exige herramientas específicas y tiempo para extraer los datos.

Además, sobre España es posible encontrar información a nivel de la Unión Europea que tiene más políticas de datos abiertos. La Unión Europea lanzó en diciembre de 2011 una “estrategia Open Data” para Europa que establece normas para un mejor uso de la información en manos de los gobiernos. Se trata de un borrador de ley que pretende abrir una importante fuente de información pública en sectores varios como el científico, el gubernamental, geográfico, de diferentes administraciones, etcétera.

Asimismo existen en España iniciativas para promover la apertura de datos que parten del ámbito civil. Entre ellas:

- Access Info Europe. Organización dedicada a promover el derecho a la información en España y el resto del mundo.

- Tuderechoasaber.es Plataforma para hacer solicitud de información a instituciones públicas.

5.3 FORMATO

El hecho de que los documentos de carácter público estén a disposición de quien así lo quiera no es

suficiente. De allí que el concepto de Open Data también hace alusión al formato en que esta información es presentada. Pues, es conocido el problema que significa recolectar datos relevantes de archivos PDF, uno de los más comunes.

Es de destacar la iniciativa de Sun Microsystems que desarrolló el formato de documento abierto ODF

(OpenDocumentFormat) en 2006 con la intención de crear un formato libre que funcionara con distintos sistemas operativos, es decir, que fuera interoperable. Así es que numerosas iniciativas de datos abiertos lo han adoptado para facilitar la lectura de la información a publicar.

6.CONCLUSIÓN

El Periodismo de Datos no es algo estrictamente nuevo pero el contexto de abundancia de información

actual ha hecho que en los últimos años su práctica se disparara, se diversificara y se facilitara. Pero no

es solamente la cantidad lo que ha intervenido en su potenciamiento, también ha sido responsable la

concientización sobre librar la información para uso y desuso de los usuarios, sean estos periodistas o

no.

Además, la aparición constante de herramientas que facilitan el acceso y la comunicación de datos que

de otra manera resultarían complejos de interpretar, ha contribuido también a perfeccionar y extender

esta forma de comunicación. Desde aplicaciones masivas como las de Google Fusion Tables para la gestión y visualización de datos hasta otras más específicas como Scraperwiki para la extracción de datos.

El

especialista en Documentación debe conocer también esta faceta periodística de las diferentes bases

de

datos y fuentes de información con las que trabaja constantemente para poder ayudar en el proceso

de

su comunicación a través de medios de difusión, en caso de que sea de interés.

Y

el Periodismo de Datos, sobre todo para temas de gran envergadura o que exigen la revisión de

pesadas fuentes de información, tiene la particularidad de combinar diferentes talentos en orden a un

mejor resultado.

Consideramos que, puesto que no es común que se dé el caso de un periodista con habilidades para programar, para realizar estadísticas, para investigar temas que no sean de su especialidad, para manejar bases de datos, para realizar infografías, etcétera el Periodismo de Datos se trata de una forma

de

periodismo idónea para el trabajo en equipo donde confluyen distintas especialidades entre las que

no

debe quedar fuera la del documentalista.

En

cuanto a su divulgación académica, el Periodismo de Datos todavía no es una materia muy presente

en

programas de formación, siquiera de Periodismo, por lo que tampoco ocupa un lugar fundamental

en

el área de Documentación. Sin embargo, el fenómeno se va imponiendo por su fuerza e influencia

por lo que se espera que en los próximos años su aproximación académica se potencie y precisamente este trabajo de fin de Máster es un intento de agilizar este proceso.

Y así como hay cada vez más acceso a bases de datos que antes era impensable que estuviesen

disponibles para cualquiera, es cierto que el Periodismo de Datos alcanzaría una mayor expresión con

una ley de acceso a la información pública o de transparencia que no ponga trabas cuando se necesita

tal o cual dato. Y este escollo está presente todavía en muchísimos países, incluido entre ellos España

con una ley encaminada, pero una ley que no reconoce el acceso a la información pública como un derecho inherente a la libertad de expresión, sino como una norma.

Este mismo anteproyecto de ley de transparencia encuentra contradicciones con la anterior ley orgánica de protección de datos. Entonces, por ejemplo, sería posible acceder a cierta información de carácter público pero no sería legal difundirla a través un medio de difusión por si posible violación al derecho a la privacidad.

Así pues, lo más común es que un trabajo de Periodismo de Datos se base en fuentes públicas y accesibles. Pues puede darse el caso de que haya países que cuenten con normas para el acceso a la información pero cuando esta se solicita ponen trabas o no las presentan en formatos legibles e interoperables, lo que puede complejizar el trabajo de su lectura.

Eso sí, según recomienda José Luis Dader (2012), “los datos incrustados sin más en una información,

a partir de la iniciativa de fuentes externas no constituyen una transformación sustancial del

Periodismo convencional”. Bajo su perspectiva ello tendrá valor en la medida en que aporte “una diferencia apreciable frente al periodismo de narración episódica y enfoque dramatístico

(infoentretenimiento)”.

Es decir, ir por aquella información por la que el ciudadano no iría por motu proprio o encontrar en

ella lo que no podría verse a primera vista en una larga lista de datos.

En cuanto a la sobreabundancia de información, esta no es nueva. Ya en 1970 Alvin Toffler hablaba de “information overload” (sobrecarga de información) en su libro “Future Shock”.

Incluso hasta podríamos remontarnos a los años que siguieron a la invención de la imprenta y la anecdótica queja del téologo Juan Calvino que en 1550 hablaba de que había tantos libros que ni tiempo tenía de leer los títulos.

Así es que, si tanto el Periodismo de Datos en sí no es nuevo o si la gran cantidad de datos (Big Data) tampoco lo es, no se trata de una revolución en la forma de comunicar. Sin embargo, las circunstancias actuales de las tecnologías de la información y la necesidad de informarse reclaman un reconocimiento a las nuevas características del tipo de periodismo que trabaja con datos.

Por ello, este trabajo pretende ser un llamado de atención para documentalistas, especialmente para aquellos que trabajan directamente en medios de comunicación y también para otros profesionales de los medios. Pues el Periodismo de Datos brinda la oportunidad de una lectura más objetiva y diferente de la actualidad, basándose en las múltiples herramientas disponibles, tanto para su producción como para su lectura.

Puede incluso ser la oportunidad para que el periodismo tradicional se reinvente a sí mismo y encuentre el potencial de la comunicación y visualización de los datos, derivados de fuentes abiertas o recopilados por otros medios.

7. ANEXO

7.1 FRASES

“I THINK DATA-DRIVEN JOURNALISM IS ONE OF THE BIG POTENTIAL GROWTH AREAS IN THE FUTURE OF JOURNALISM (…). IN FACT, I BELIEVE IT IS JOURNALISM IN ITS TRUEST ESSENCE: UNCOVERING AND MINING THROUGH INFORMATION THE PUBLIC DO NOT HAVE ENOUGH TIME TO DO THEMSELVES, INTERROGATING IT, AND MAKING SENSE OF IT BEFORE SHARING IT WITH THE AUDIENCE.

Adam Westbrook, autor de “Next Generation Journalist”. Fuente:European Journalism Centre

ONLY TIME WILL TELL, BUT INFORMATION OUGHT TO HELP DEMOCRACY, NOT HURT IT. WE NEED NEW INSTITUTIONS TO BUILD NEW MEDIA FORMS THAT WILL LET TRUTH STAND OUT FROM THE NOISY BABBLE AND COMMAND ATTENTION BECAUSE THEY are TRUSTED AND COMPREHENDED. NARRATIVE

JOURNALISM COMBINED WITH PRECISION JOURNALISM COULD DO THAT JOB. LET’S GET STARTED.

Philip Meyer, autor de “Precision Journalism”. Fuente: Nieman Lab.

“ONE OF OUR BIG GOALS IN THE STORYTELLING PROCESS IS TO HUMANIZE THE STATISTICS. IT’S HARD FOR PEOPLE TO CARE ABOUT NUMBERS, ESPECIALLY LARGE NUMBERS.

Brian Storm, fundador de Mediastorm. Fuente: European Journalism Centre.

"DATA JOURNALISM" IS NOT ALWAYS PRESENTING THE DATA *AS* JOURNALISM. IT'S ALSO FINDING THE JOURNALISM WITHIN THE DATA”.

Jay Rosen, profesor de Periodismo en la Universidad de Nueva York. Fuente: Twitter.

7.2 BIBLIOGRAFÍA

7.2.1 BIBLIOGRAFÍA INTRODUCCIÓN A LA INVESTIGACIÓN

BOUNEGRU, Liliana. “Data Journalism in Perspective”. En GRAY, Jonathan; CHAMBERS, Lucy;

BOUNEGRU, Liliana (ed) The Data Journalism Handbook. Estados Unidos. O'Reilly Media. 2012.

2012].

CORDÓN GARCÍA, J.A; ALONSO ARÉVALO, J.; GÓMEZ DÍAZ, R. Y LÓPEZ LUCAS, J. Las Nuevas fuentes de información: información y búsqueda documental en el contexto de la web 2.0. Madrid. Pirámide. 2012.

DADER, José Luis. Periodismo de precisión. Vía socioinformática de descubrir noticias. España:

Editorial Síntesis. 1997.

EGIDO, Moisés. “Se desarrolla el Periodismo de precisión”. Telos Nº 45. Madrid. 1996. P.136- 143.

FLORES VIVAR, Jesús Miguel y CEBRIÁN HERREROS, Mariano. El ‘data journalism’ en la

construcción de mashups para Medios digitales. En: SABÉS TURMO, Fernando y VERÓN LASSA,

José Juan (Eds.). “El Periodismo digital analizado desde la investigación procedente del ámbito

académico”. XIII Congreso de Periodismo Digital de Huesca 15/16 de marzo 2012. Huesca:

Asociación de la Prensa de Aragón. 2012. P. 215-229.

MEYER, Philip. Periodismo de precisión: Nuevas fronteras para la investigación periodística. España: Editorial Bosch. 1993.

ROGERS, Simon. Facts are Sacred: The power of data. Guardian Shorts. Edición para Kindle. 2011.

ROGERS, Simon. “Wikileaks data journalism: how we handled the data” [en línea]. Guardian.go.uk. Enero 2011. Disponible en: http://www.guardian.co.uk/news/datablog/2011/jan/31/wikileaks-data- journalism. [Consulta: 2 febrero 2012].

ROGERS, Simon. “Executive Insight” [en línea]. Think Quarterly by Google. Marzo 2011. Disponible en: http://www.thinkwithgoogle.co.uk/quarterly/data/executive-insight-guy-laurence-ceo- vodafone.html [Consulta: 14 junio 2012].

7.2.2 BIBLIOGRAFÍA PERIODISMO DE DATOS

BRADSHAW, Paul. “Data journalism pt1: Finding data (draft – comments invited)” [en línea]. Online Journalism Blog. Abril 2010. Disponible en: http://onlinejournalismblog.com/2010/04/21/data- journalism-pt1-finding-data-draft-comments-invited. [Consulta: 2 febrero 2012].

BRADSHAW, Paul. “One ambassador’s embarrassment is a tragedy, 15,000 civilian deaths is a statistic” [en línea]. Online Journalism Blog. Diciembre 2010. Disponible en:

CAIRO, Alberto.

El arte funcional. Infografía y visualización de la información. España. Alamut.

2011.

CAIRO, Alberto. “Periodismo de precisión y visualización de datos (parte 2)” [en línea]. Periodismo

Blogs EL PAÍS. 16 de abril de 2011. Disponible en: http://blogs.elpais.com/Periodismo-

2

con futuro.

febrero 2012].

[Consulta:

CAIRO, Alberto. “Los abusos de Guantánamo y una apología de los infográficos peligrosos” [en línea]. Periodismo con futuro. Blogs EL PAÍS. 25 de abril de 2011. Disponible en:

DADER, José Luis. "Introducción”. En: MEYER, Philip. Periodismo de Precisión: Nuevas Fronteras para la investigación periodística. Barcelona. Bosch. 1993.

DADER, José Luis. Periodismo de precisión. Vía socioinformática de descubrir noticias. España:

Editorial Síntesis. 1997.

DADER, José Luis. “Periodismo De Precisión: El Análisis Matemático e Informático Como Vigilancia De Las Estadísticas Sociales y Su Manipulación Por El Poder”. España. 2006. Disponible en: http://www.juntadeandalucia.es:9002/jornadas/jornadas-informacion/ponencias-jornadas- periodistas/Periodismo-de-Precision.Sevilla06.pdf [Consulta: 5 julio 2012].

DEMERS, David Pearce y NICHOLS, Suzanne. Precision journalism: A practical guide. Estados Unidos: Sage Publications. 1987.

“DJA nominee of the day: Methadone and the Politics of Pain” [en línea]. Data Driven Journalism.

en:

Mayo

2012.

Disponible

FLORES VIVAR, Jesús Miguel. “Reflexiones, tendencias y perfiles del Periodismo de Datos”. Durante: Curso de verano “Periodismo de Datos”. San Lorenzo del Escorial, Madrid. 2012.

GORDON, Richard. “Data as journalism, journalism as data”. Readership Institute. Noviembre 2007. Disponible en: http://getsmart.readership.org/2007/11/data-as-journalism-journalism-as-data.html [Consulta: 14 julio 2012].

“Hal Varian on how the Web challenges managers” [en línea]. McKinsey Quarterly. Enero 2009.

Disponible

en:

HOLOVATY, Adrian. “A Fundamental

Holovaty.com. Septiembre 2006. Disponible en:

change/ [Consulta: 14 julio 2012].

way

newspaper

línea].

sites

need

to

change”

[en

“How to Shape Your Data” [en línea]. Tableau Public. 7 de abril 2011. Disponible en:

“Impartiality: The Foxification of news”. The Economist. Julio 2011. Disponible en:

http://www.economist.com/node/18904112?fsrc=scn/tw_ec/the_foxification_of_news [Consulta: 25 de mayo 2012].

KANDEL, Sean; PAEPCKE, Andreas; HELLERSTERIN, Joseph y HEER, Jeffrey. “Interactive Visual Specification of Data Transformation Scripts”. ACM Human Factors in Computing Systems (CHI). 2011.

KEENAN, John. “Why raw data sites need journalism” [en línea]. Guardian.co.uk. Agosto 2010. Disponible en: http://www.guardian.co.uk/commentisfree/libertycentral/2010/aug/11/raw-data- journalism-wikileaks [Consulta: 25 de junio 2012].

MCGHEE, Geoff. Journalism in the Age of Data: A Video Report on Data Visualization. [Videoreportaje] Estados Unidos. 2010. Disponible en: http://datajournalism.stanford.edu/ [Consulta:

2 1 junio 2012].

MEYER, Philip. Periodismo de precisión: Nuevas fronteras para la investigación periodística. España. Bosch. 1993.

MEYER, Philip. Precision Journalism and Narrative Journalism: Toward a Unified Field Theory. Nieman Reports. 2011. Disponible en http://www.nieman.harvard.edu/reports/article-online-

Theory.aspx [Consulta: 14 junio 2012].

NUSSBAUMER, Cole. “Data Stories” [en línea]. Think Quarterly by Google. Marzo 2011. Disponible en: http://www.thinkwithgoogle.co.uk/quarterly/creativity/data-stories.html [Consulta: 10 febrero

2012].

REINHARD, Ulrike. “A Data State of Mind” [en línea]. Think Quarterly by Google. Marzo 2011. Disponible en: http://www.thinkwithgoogle.co.uk/quarterly/data/hans-rosling-a-data-state-of- mind.html [Consulta: 25 de junio 2012].

SEGEL, Edward y HEER, Jeffrey. “Narrative Visualization: Telling Stories with Data”. The IEEE Transactions on Visualization and Computer Graphics.2010. Vol. 16, no. 6, pp. 1139-1148.

7.2.3 BIBLIOGRAFÍA BIG DATA Y OPEN DATA

"All Too Much". The Economist. Vol. 394. Número 8671. Sección especial, pág 5. Febrero 2010. Disponible en: http://www.economist.com/node/15557421 [Consulta: 5 Junio 2012].

Big Data, Big Impact: New Possibilities for International Development”. World Economic Forum. Enero 2012. Vital Wave Consulting. Disponible en: http://www.weforum.org/reports/big-data-big- impact-new-possibilities-international-development [Consulta: 15 de junio 2012].

BRITTIN, Matt. “Data” [en línea]. Think Quarterly by Google. Marzo 2011. Disponible en:

"Data, Data Everywhere." The Economist. Vol. 394. Número 8671. Sección especial. Febrero 2010. Disponible en: http://www.economist.com/node/15557443 [Consulta: 5 Junio 2012].

“It's YouTube's 7th birthday

and you’ve outdone yourselves, again” [en línea]. YouTube Blog.

GANTZ, Jhon; REINSEL, David. "The 2011 Universal Digital Study: Extracting value from chaos". IDC research report, sponsored by EMC. Vol. 19. Junio 2011. Disponible en:

GARCÍA GÓMEZ, Rosario. “Donde no hay luz pasan cosas”. El País. 15 de agosto 2012. Disponible en: http://sociedad.elpais.com/sociedad/2012/08/15/actualidad/1345050724_942894.html [Consulta:

23 de agosto 2012].

JOYANES AGUILAR, Luis. Computación en la nube. Estrategias de Cloud Computing en las empresas. Edición Latinoamericana: México. Alfaomega. Edición Española: Barcelona. Marcombo/Alfaomega. 2012.

LORENZ, Mirko. “Why Journalists Should Use Data”. En GRAY, Jonathan; CHAMBERS, Lucy; BOUNEGRU, Liliana (ed). The Data Journalism Handbook. Estados Unidos. O'Reilly Media. 2012. Disponible en: http://datajournalismhandbook.org/1.0/en/introduction_4.html [Consulta: 25 de mayo

2012].

MCFEDRIES, Paul. “The Cloud Is The Computer”. IEEE Spectrum. Agosto 2008. Disponible en:

“Navarra open government law” [en línea]. Access Info Europe. Madrid, 20 de enero de 2012. Disponible en: http://www.access-info.org/es/coalicion-pro-acceso/215-navarra-open-government-law [Consulta: 23 de agosto 2012].

OPEN GOVERNMENT PARTNERSHIP. “Declaración sobre Gobierno Abierto”. Septiembre 2011. Disponible en: http://www.opengovpartnership.org/declaraci%C3%B3n-sobre-gobierno-abierto [Consulta: 20 de agosto 2012].

“Pattern-Based Strategy IT Research Report”. Gartner Inc. Disponible en:

“Special: Big Data”. Nature. Vol. 455. Nro. 7209. 4 septiembre 2008. Disponible en:

“The Petabyte Age : Because More Data Isn't just More - More is Different”. Wired. 16 julio 2008.

en:

San

Francisco,

Estados

Unidos.

Disponible

UNESCO. “Proyecto revisado de estrategia sobre la contribución de la UNESCO a la promoción del libre acceso a la información y la investigación científicas”. París. Agosto 2011. Disponible en:

unesdoc.unesco.org/images/0021/002133/213342s.pdf [Consulta: 20 de agosto 2012].

“What is Big Data? Bringing Big Data to the Enterprise”. IBM. 2012. Disponible en:

01.ibm.com/software/data/bigdata/ [Consulta: 25 de mayo 2012].