4toparadigma PDF

El c UA RT O pA R A DIGM A
RECTOR GENERAL
Salvador Vega y León
SECRETARIO GENERAL
Norberto Manjarrez Álvarez
COORDINADOR GENERAL DE DIFUSIÓN

Walterio Beller Taboada
DIRECTOR DE PUBLICACIONES Y PROMOCIÓN EDITORIAL

Bernardo Ruiz
SUBDIRECTORA DE PUBLICACIONES
Laura González Durán
SUBDIRECTOR DE DISTRIBUCIÓN Y PROMOCIÓN EDITORIAL

Marco Moctezuma
El
c UARTO
pARADIGMA
Descu br imien to c i e n t í f i c o i n t e n s i vo
e n dat o s
EDITADO POR
TONY HEY, STEWART TANSLEY
Y KRISTIN TOLLE
TRADUCCIÓN DE
JOSÉ LUIS ACOSTA,
RODRIGO CAMBRAY-NÚÑEZ Y
ABDIEL MACÍAS ARVIZU
Título original en inglés The Fourth Paradigm, Microsoft Research, 2009.
Edited by Tony Hey, Stewart Tansley and Kristin Tolle.
Copyright © 2009 Microsoft Corporation

Excepto donde se indique lo contrario, el contenido de esta
publicación se encuentra bajo la licencia Creative Commons
Attribution-Share Alike 3.0 United States, disponible en
http://creativecommons.org/licenses/by-sa/3.0/us/legalcode.
Segunda impresión, versión 1.1, octubre 2009.
ISBN 978-0-9825442-0-4
Microsoft, Amalga, Bing, Excel, HealthVault, Microsoft Surface, SQL Server,

Virtual Earth y Windows son marcas registradas del grupo de consorcios de
Microsoft. Todas las demás marcas registradas son propiedad de sus respecti-
vos dueños.
La información, hallazgos, perspectivas y opiniones contenidas en esta publi-

cación pertenecen a los autores y no necesariamente reflejan los puntos de vista
de Microsoft Corporation o de Microsoft Research. Microsoft Corporation no
garantiza la exactitud de la información contenida en la presente obra.
Microsoft Research
http://research.microsoft.com
Traducción al español: José Luis Acosta, Rodrigo Cambray-Núñez y Abdiel Macías Arvizu
Revisión técnica: Manuel López Michelone
D.R. © 2014, Universidad Autónoma Metropolitana

Prolongación Canal de Miramontes 3855, Ex hacienda San Juan de Dios, delegación Tlalpan,
14387 México, D.F.
Esta publicación no puede ser reproducida, total ni parcialmente, ni registrada en un sistema

de recuperación de información, ni transmitida por ningún medio, sea mecánico, fotoquí-
mico, electrónico, magnético, electroóptico, por fotocopia o cualquier otro, sin el permiso
previo, por escrito, de los editores.
ISBN de la obra: 978-607-28-0151-6
Impreso en México/Printed in Mexico

Para Jim
CO N T E N I DO
xi prólogo Gordon Bell

xvii jim gray sobre la e- ciencia: un método científico transformado
Editado por Tony Hey, Stewart Tansley y Kristin Tolle
1 . TIE R R A Y ME DIO AMBIE NTE

3 introducción Dan Fay
7 las leyes de gray: cómputo científico centrado en bases de datos
Alexander S. Szalay, José A. Blakeley
15 la nueva ciencia de las aplicaciones ambientales
Jeff Dozier, William B. Gail
23 redefiniendo la ciencia ecológica mediante los datos
James R. Hunt, Dennis D. Baldocchi, Catharine van Ingen
29 una visión de la oceanografía en el año 2020
John R. Delaney, Roger S. Barga
41 acercando el cielo nocturno: descubrimientos
en la avalancha de datos
Alyssa A. Goodman, Curtis G. Wong
49 la instrumentación de la tierra: redes de sensores
de próxima generación y las ciencias del ambiente
Michael Lehning, Nicholas Dawes, Mathias Bavay,
Marc Parlange, Suman Nath, Feng Zhao
2 . SALUD Y BIE N ESTAR

59 introducción Simon Mercer
63 la singularidad de la asistencia sanitaria y la era
de la medicina semántica
Michael Gillam, Craig Feied, Jonathan Handler, Eliza Moody,
Ben Shneiderman, Catherine Plaisant, Mark Smith, John Dickason
71 la provisión de servicios de salud en los países en vías
de desarrollo: desafíos y soluciones potenciales
Joel Robertson, Del DeHart, Kristin Tolle, David Heckerman
81 descubriendo el esquema de conexiones del cerebro
Jeff W. Lichtman, R. Clay Reid, Hanspeter Pfister, Michael F. Cohen
91 hacia un microscopio computacional para la neurobiología
Eric Horvitz, William Kristan
99 un enfoque de modelado unificado para la asistencia
sanitaria intensiva en datos
Iain Buchan, John Winn, Chris Bishop
107 visualización en modelos de álgebra de procesos
de sistemas biológicos
Luca Cardelli, Corrado Priami
3. IN FR AESTRUCTUR A CIE NTÍFICA
117 introducción Daron Green
121 ¿una nueva ruta para la ciencia? Mark R. Abbott
129 más allá del tsunami : a edificación de la infraestructura
para el tratamiento de los datos de las ciencias biológicas
Christopher Southan, Graham Cameron
137 la computación multinúcleo y el descubrimiento científico
James Larus, Dennis Gannon
143 el paralelismo y la nube Dennis Gannon, Dan Reed
149 el impacto de las herramientas de flujo de trabajo en la
investigación centrada en datos Carole Goble, David de Roure
159 la e- ciencia semántica: la codificación de significado en la

ciencia mejorada digitalmente de la siguiente generación
Peter Fox, James Hendler
165 visualización para la ciencia intensiva en datos
Charles Hansen, Chris R. Johnson, Valerio Pascucci, Claudio T. Silva
177 una plataforma para todo lo que sabemos: la creación
de una infraestructura de investigación basada
en los conocimientos Savas Parastatidis
4. COMUNICACIÓN ACADÉ MICA

187 introducción Lee Dirks
191 el cuarto paradigma de jim gray y la construcción
del registro científico Clifford Lynch
199 el texto en un mundo centrado en datos Paul Ginsparg

207 todos a bordo: hacia un sistema de comunicación
académica amigable con las máquinas
Herbert van de Sompel, Carl Lagoze
215 el futuro de las políticas de datos
Anne Fitzgerald, Brian Fitzgerald, Kylie Pappalardo
225 he visto el cambio de paradigma , y somos nosotros
John Wilbanks
233 de la web 2.0 a la base de datos global Timo Hannay
241 el camino por recorrer Craig Mundie

245 conclusiones Tony Hey, Stewart Tansley y Kristin Tolle
249 siguientes pasos
250 agradecimientos
253 algunas palabras sobre jim …
255 glosario
259 índice
Prólogo
GORDON BELL | Microsoft Research
E
ste libro propone un novedoso cuarto paradigma para la ciencia basado
en la computación intensiva en datos. Esta investigación se encuentra en un
momento parecido al de la invención de la imprenta de tipos móviles, que tardó
un milenio en desarrollarse y evolucionar hasta sus múltiples manifestaciones
actuales. El uso de computadoras para obtener conocimientos a partir de los datos creados
y respaldados en nuestros depósitos electrónicos tomará décadas o, quizá, menos. Los
coautores de esta obra han hecho un trabajo extraordinario que ayuda a la comprensión
más precisa de este nuevo paradigma desde diversos puntos de vista especializados.
En varios aspectos, la ciencia va atrás del mundo comercial en cuanto a inferir un
significado a partir de los datos y actuar con base en él. Sin embargo, en los negocios las
cosas son comparativamente sencillas: los objetos que pueden describirse con un nom-
bre o con unos cuantos números se manufacturan para ser comprados y vendidos. Las
disciplinas científicas no pueden encapsularse en unos pocos nombres y números de fácil
comprensión, y muchos datos científicos carecen de un valor económico suficientemente
elevado capaz de propiciar un progreso más intenso de los descubrimientos científicos.
El asistente de Tycho Brahe, Johannes Kepler, al estudiar el catálogo sistemático de
las observaciones astronómicas de Brahe, descubrió las leyes del movimiento planetario.
Con ello se establece la división entre la exploración y el análisis de datos experimen-
tales cuidadosamente registrados y la formulación de teorías. Tal división es un rasgo
propio del cuarto paradigma.
En el siglo xx, los datos que fundamentaban las teorías científicas se hallaban con
frecuencia sepultados en libretas o, para algunos aspectos relacionados con la “alta cien-
cia”, almacenados en medios magnéticos que terminaron siendo ilegibles. En especial
EL CUARTO PARADIGM A xi
los personales y los de pequeños laboratorios, son inaccesibles; en su mayoría, se
desechan cuando el investigador se retira o, acaso, se conservan en una biblioteca
institucional antes de eliminarlos. El registro a largo plazo del origen de los datos, o
el común acceso comunitario a los datos distribuidos, son sólo algunos de los retos.
Afortunadamente, algunos “centros de datos”, como el National Center for At-
mospheric Research1 (ncar), se prestan para recibir investigadores de ciencias de la
Tierra que buscan analizar los datos curados procedentes de mediciones y modelos
computacionales. Con ello, en una sola institución tenemos la cadena de obtención,
curaduría y análisis de datos para toda una disciplina.
En el siglo xxi es muy factible que la mayor parte del vasto y continuo volumen
de datos capturados por nuevos instrumentos de manera ininterrumpida, junto con
la información generada en los mundos artificiales de los modelos computarizados,
residan de manera permanente en una forma viva, de amplio acceso público y curada
para efectos de su continuo análisis. Éste conducirá al desarrollo de nuevas teorías.
Pronto atestiguaremos que los datos se conservan a perpetuidad como materiales de
archivo —como sucede con el registro en papel— y serán accesibles a todos, humanos
y máquinas, en la nube. Es reciente imaginar tal permanencia para los datos como lo
pensamos para los objetos de bibliotecas y museos nacionales. Ese grado de duración
era inverosímil, hasta que notamos que la captura del origen de los datos —incluso los
registros de los investigadores, y a veces toda la información sobre ellos— es lo que
piden y —han deseado— las bibliotecas. La “nube” de polarizaciones magnéticas que
codifica datos y documentos en la biblioteca digital se convertirá en el equivalente
de los kilómetros de estantes de bibliotecas que almacenan papel y tinta.
En 2005, el Consejo Nacional de Ciencia de la National Science Foundation publicó
el informe “Long-Lived Digital Data Collections: Enabling Research and Education in
the 21st Century”, que inicia un diálogo sobre el interés de la preservación de los datos y
la importancia de su cuidado y soporte con un nuevo equipo: los “científicos de datos”:
El interés de los científicos de datos —expertos de la información y la com-

putación, ingenieros y programadores de bases de datos y software, y ex-
pertos interdisciplinarios, curadores y expertos anotadores, bibliotecarios,
archivistas y otros actores cruciales para la exitosa administración de una
colección digital de datos— se basa en el reconocimiento a su creatividad y
sus contribuciones intelectuales. [1]
1
www.ncar.ucar.edu
xii PROLOGO
EL CUARTO PARADIGMA: UN ÉNFASIS EN LOS SISTEMAS INTENSIVOS DE DATOS
Y LA COMUNICACIÓN CIENTÍFICA
En su última conferencia para la Comisión de Ciencias de la Computación y de

Telecomunicaciones el 11 de enero de 2007 [2], Jim Gray describió su visión del
cuarto paradigma de la investigación científica. Hizo un exhorto en dos partes para
el financiamiento de herramientas para la obtención, curación y análisis de datos, y
para la creación de una infraestructura de comunicación y publicación. Argumentó
en favor del desarrollo de modernos repositorios para los datos y los documentos,
que compitieran con las bibliotecas tradicionales. La versión editada de su trabajo,
introduce la escena para los capítulos siguientes.
La ciencia intensiva en datos se basa en tres actividades: obtención, curación y
análisis. Los datos existen en todos los tamaños y formas, lo que incluye los de grandes
experimentos internacionales; observaciones provenientes de redes de laboratorios,
laboratorios particulares e individuos; y potencialmente vidas personales.2 La disciplina
y la escala de los experimentos individuales, y en particular sus tasas de datos, hacen
del asunto de las herramientas un magno problema. El proyecto de radiotelescopios
Australian Square Kilometre Array,3 el Gran Colisionador de Hadrones4 del cern y
el sistema de telescopios astronómicos Pan-STARRS5 tienen la capacidad de generar
varios petabytes (pb) de datos cada día, mas sus directrices los limitan a tasas de
recolección más manejables hoy. Los dispositivos de secuenciación genética presen-
tan rendimientos más modestos por su costo, de modo que sólo se secuencian por
individuo algunas regiones de secuencias genómicas (25 kb por unos cuantos cientos
de miles de pares de bases). Sin embargo, esto es, cuando mucho, temporal hasta
que se otorgue el X Prize for Genomics6 de 10 millones de dólares —100 individuos
completamente secuenciados en 10 días, a menos a 10 000 dólares por cada uno,
cubriendo 3 000 millones de pares de bases por cada genoma humano—.
Es necesario invertir en la creación de una serie de herramientas genéricas que
cubran el total de actividades: desde la obtención y validación de los datos hasta la
curaduría, el análisis y, finalmente, el almacenamiento permanente. La curaduría
abarca un amplio espectro de tareas, que empiezan con la determinación de las es-
tructuras de datos idóneas para ser distribuidas en diversos depósitos. Esto incluye
los archivos de esquema y los metadatos necesarios para la preservación a largo
2
http://research.microsoft.com/en-us/projects/mylifebits
3
www.ska.gov.au
4
http://public.web.cern.ch/public/en/LHC/LHC-en.html
5
http://pan-starrs.ifa.hawaii.edu/public
6
http://genomics.xprize.org
EL CUARTO PARADIGM A xiii

plazo, y para la integración por medio de dispositivos, experimentos y laboratorios.
Sin ellos, la interpretación sólo es implícita y queda muy subordinada a los progra-
mas específicos para el análisis. Finalmente, los datos no curados se perderán. Debe
considerarse con cuidado qué datos han de conservarse por siempre y cuáles otros
metadatos serían necesarios para ello.
El análisis de datos abarca actividades durante todo el flujo de trabajo. Incluye el
uso de bases de datos (en vez de la recolección de archivos planos que una base de
datos lee), análisis, modelado y visualización de datos. La receta de Jim Gray para
el diseño de una base de datos para determinada disciplina implica que debe ser ca-
paz de responder las veinte preguntas principales que el científico quisiera hacerle.
En buena parte del mundo científico las bases de datos se usan actualmente como
almacenes para guardar algunas propiedades de los datos, más que como un espacio
para los datos mismos; esto se explica porque el tiempo requerido para explorar toda
la información hace inviable el análisis. Hace una década, la relectura de los datos
era apenas factible. Hasta 2010, los discos tenían 1 000 veces más capacidad, pero
el tiempo de acceso a su contenido mejoró apenas en un factor de dos.
BIBLIOTECAS DIGITALES PARA DATOS Y DOCUMENTOS: EQUIPARABLES A LAS MODERNAS

BIBLIOTECAS DE DOCUMENTOS
La comunicación científica, incluyendo sus procesos de arbitraje, también expe-

rimenta cambios esenciales. Las bibliotecas públicas digitales están asumiendo la
función de resguardar publicaciones de bibliotecas convencionales —sea por su
costo, la necesidad de un servicio expedito o la conveniencia de mantener reunidos
los datos experimentales y la documentación acerca de ellos.
Así, las bibliotecas de datos digitales se encuentran aún en fase de desarrollo, con
dimensiones, formas y principios constitutivos divergentes. Por supuesto, ncar es
una de las entidades más antiguas en lo que respecta al modelado, recopilación y
curación de datos de las ciencias de la Tierra. El San Diego Supercomputer Center
(sdsc) en la Universidad de California, San Diego, que normalmente está asociado
con el abastecimiento de poder de cómputo para la comunidad científica, fue una
de las primeras organizaciones en reconocer la necesidad de agregar los datos a su
misión. El sdsc creó su sitio Data Central,7 que aloja 27 pb de datos en más de 100
bases de datos específicas (por ejemplo, para bioinformática y recursos hídricos).
En 2009, reservó 400 terabytes (tb) de espacio en disco para bases de datos tanto
7
http://datacentral.sdsc.edu/index.html
xiv PROLOGO
públicas como privadas y para colecciones de datos que dan servicio a una extensa
gama de instituciones científicas, incluyendo laboratorios, bibliotecas y museos.
El Australian National Data Service8 (ands) ofrece servicios como el Register
My Data, una especie de “fichero catalográfico” que registra la identidad, estruc-
tura, nombre y ubicación (dirección ip) de las diversas bases de datos, incluso las
de particulares. El solo hecho de levantar tal registro es un gran paso hacia el
almacenamiento a largo plazo. ands busca influir en la política nacional de su país
en lo tocante al manejo de los datos, e ilustrar sobre las mejores prácticas para la
curación de datos, con lo que las distintas y divergentes colecciones de datos de
investigación se transformarían en un conjunto coherente de recursos de investi-
gación. En el Reino Unido, el Comité Conjunto de Sistemas de Información (jisc,
por sus siglas en inglés) ha financiado la creación del Digital Curation Centre9 para
estudiar estas cuestiones. Se espera que con el tiempo surjan muchos otros centros
de datos como éste. La Dirección de Ciencia e Ingeniería de Computación y de
Información, de la National Science Foundation, lanzó ya una convocatoria para
la solicitudes de becas a largo plazo para investigadores en cómputo intensivo en
datos y en almacenamiento de larga duración.
Esta obra considera en sus capítulos las múltiples oportunidades y desafíos que
entraña la ciencia intensiva en datos, incluídas la cooperación y el entrenamiento
interdisciplinarios, el intercambio de información entre organizaciones para crear
“hibridaciones” (mashups) de datos científicos, la instauración de nuevos procesos y
rutas de trabajo, así como una agenda de investigación que explote las oportunidades
y sostenga la vanguardia de la avalancha de datos. Estos retos exigirán una vasta
inversión económica y operacional. El sueño de erigir una infraestructura de datos
con “sensores ubicuos” que apoye nuevas modalidades de investigación científica
requerirá de una extraordinaria cooperación entre organismos de financiamiento,
científicos e ingenieros. Un sueño que vale la pena alentar y financiar activamente.
REFERENCIAS
[1] National Science Board, Long-Lived Digital Data Collections: Enabling Research and Education in the
21st Century, Technical Report NSB-05-40, National Science Foundation, septiembre de 2005,
www.nsf.gov/pubs/2005/nsb0540/nsb0540.pdf.
[2] Conferencia de Jim Gray al NRC-CSTB en Mountain View, California, el 11 de enero de 2007,
http://research.microsoft.com/en-us/um/people/gray/JimGrayTalks.htm. (Transcripción editada
también en esta obra.)
8
www.ands.org.au
9
www.dcc.ac.uk
EL CUARTO PARADIGM A xv
Jim Gray sobre la e-ciencia:
un método científico transformado
Basado en la transcripción de una conferencia impartida por Jim Gray ante
la Comisión de Ciencias de la Computación y de Telecomunicaciones del
Consejo Nacional de Investigación (nrc-cstb) 1 en Mountain View,
California, el 11 de enero de 2007 2
EDITADO POR TONY HEY, STEWART TANSLEY Y KRISTIN TOLLE | Microsoft Research
T
enemos que mejorar en la producción de herramientas para apo-
yar todo el ciclo de la investigación —desde la captura de los datos y su
curación hasta su análisis y visualización—.1Hoy en día, las herramien-
tas para la captura de datos, tanto a megaescala como a miliescala, son
simplemente terribles. Después de que se han capturado los datos, es necesario
curarlos antes de que se pueda empezar a hacer cualquier tipo de análisis con ellos,
y carecemos de herramientas adecuadas para dicha2curación y análisis. Luego sigue
la publicación de los resultados de la investigación, y la literatura publicada es sólo la
punta del iceberg de datos. Con esto quiero decir que las personas reúnen una gran
cantidad de datos que luego reducen a una determinada cantidad de pulgadas de
columna en Science o en Nature —o a diez páginas si quien escribe es un especialista
en ciencias de la computación—. A lo que me refiero con “iceberg de datos” es que
hay una gran cantidad de ellos que se recopilan, pero que no se curan ni se publican
de manera sistemática. Hay algunas excepciones, y creo que éstas son instancias en
las que debemos basarnos para determinar mejores prácticas. Voy a hablar de cómo
todo el proceso de revisión por pares tiene que cambiar, así como de la manera en
1
National Research Council (NRC), http://sites.nationalacademies.org/NRC/index.htm; Computer Science and
Telecommunications Board (CSTB), http://sites.nationalacademies.org/cstb/index.htm.
2
Esta presentación es, emotivamente, la última publicada en la página web de Jim en Microsoft Research antes
de desaparecer en el mar el 28 de enero de 2007, http://research.microsoft.com/en-us/um/people/gray/talks/
NRCCSTB_eScience.ppt
EL CUARTO PARADIGM A xvii

Paradigmas de la ciencia
• Hace mil años:
la ciencia era empírica
descripción de fenómenos naturales
• Últimos siglos:
rama teórica . 2
a 4πGp c2
utilización de modelos, generalizaciones a = K 2
3 a
• Últimas décadas:
una rama computacional
simulación de fenómenos complejos
• Hoy: la exploración de datos (e-ciencia)
unificación de teoría, experimentación y simulación
– Los datos se capturan mediante instrumentos
o se generan mediante simulador
– Procesados mediante software
– La información/conocimientos se almacenan
en computadora
– El científico analiza la base de datos o los archivos
mediante administración de datos y estadística
FIGURA 1.
la que visualizo como está cambiando, y lo que la Comisión de Ciencias de la Com-

putación y de Telecomunicaciones (cstb) puede hacer para ayudarnos a todos para
tener acceso a nuestras investigaciones.
LA E-CIENCIA: ¿QUÉ ES?
La e-ciencia es “donde las tecnologías de información y los científicos convergen”.

Los investigadores utilizan muchos métodos diferentes para recopilar o generar datos
—desde sensores y dispositivos de acoplamiento de carga (ccd) hasta supercompu-
tadoras y colisionadores de partículas—. Cuando los datos finalmente aparecen en
su computadora, ¿qué hace usted con toda esa información que está ahora en su caja
digital? La gente constantemente está buscándome, me dice: “¡Auxilio! Tengo todos
estos datos. ¿Qué se supone que debo hacer con ellos? ¡Mis hojas de cálculo de Excel
se desbordan!” Así que, ¿qué sigue? ¿Qué sucede cuando se tienen 10 000 hojas de
cálculo de Excel, cada una con 50 páginas? Digamos que las he estado nombrando
de manera sistemática, pero ahora, ¿qué hago?
PARADIGMAS DE LA CIENCIA
Muestro esta diapositiva (véase la figura 1) cada vez que imparto alguna conferencia.
Creo que es justo decir que esta idea se me ocurrió en un estudio de la cstb sobre
el futuro de la computación. Decíamos: “Mira, la ciencia computacional es una
xviii JIM GRAY SOBRE LA E- CIENCIA

tercera pierna”. Originalmente sólo existía la ciencia experimental, y luego apareció
la ciencia teórica, con las leyes de Kepler, las leyes de Newton del movimiento, las
ecuaciones de Maxwell, y así sucesivamente. Entonces, para muchos problemas,
los modelos teóricos se volvieron demasiado complicados como para ser resueltos
analíticamente, y la gente tuvo que empezar a utilizar la simulación. Estas simula-
ciones nos han servido a lo largo de gran parte de la segunda mitad del milenio más
reciente. En la actualidad, éstas generan una gran cantidad de datos junto con un
enorme aumento en los datos de las ciencias experimentales. Ahora la gente real-
mente no mira a través de telescopios: en lugar de ello están “mirando” a través de
complejos instrumentos de gran escala que transmiten información a las centrales
de datos, y sólo entonces es cuando examinan la información en sus computadoras.
El mundo de la ciencia ha cambiado, y no hay duda alguna sobre esto. El nuevo
modelo consiste en que los datos se capturan mediante instrumentos o se generan
a través de simulaciones antes de procesarlos con software. La información o el co-
nocimiento resultantes se almacenan en computadoras. Los científicos sólo llegan a
mirar sus datos bastante tarde en esta secuencia. Las técnicas y las tecnologías para
tal ciencia intensiva en datos son tan diferentes que vale la pena distinguir la ciencia
intensiva en datos de la ciencia computacional como un nuevo paradigma: el cuarto
paradigma para la exploración científica [1].
DISCIPLINAS INFORMÁTICAS Y DISCIPLINAS COMPUTACIONALES
En todas las disciplinas presenciamos la evolución de dos ramas, como se muestra

en la siguiente diapositiva (véase la figura 2). Si nos fijamos en la ecología, existen
actualmente tanto la ecología computacional, que tiene que ver con la simulación
de ecologías, como la ecoinformática, que tiene que ver con la recolección y el aná-
lisis de información ecológica. De manera semejante, tenemos la bioinformática,
que recoge y analiza información de muchos experimentos diferentes, y la biología
computacional, que simula cómo funcionan los sistemas biológicos, las vías metabó-
licas, el comportamiento de una célula o la forma en que se construye una proteína.
Esto se acerca a la noción de Jeannette Wing del “pensamiento computacional”, en
el que las técnicas y las tecnologías de las ciencias de la computación se aplican a
diferentes disciplinas [2].
La meta de muchos científicos es codificar su información para poder intercam-
biarla con otros científicos. ¿Por qué necesitan codificarla? Porque si guardo alguna
información en mi computadora, la única manera en que usted podrá entenderla será
que el programa que usted utilice pueda entenderla. Esto significa que la información
EL CUARTO PARADIGM A xix

Disciplinas informáticas
• La evolución de la rama informática y la rama
• computacional para cada disciplina
• Cómo codificar y representar nuestros conocimientos
Experimentos He
e instrumentos chos
Preguntas
Otros archivos Hechos
Literatura Hechos Respuestas
Simulaciones Hechos
Los problemas genéricos

• Ingesta de datos • Herramientas de consulta y de visualización
• Administración de un petabyte • Construcción y la ejecución de modelos
• Esquemas comunes • Integración de los datos y la literatura
• Cómo organizarlos • Documentación de experimentos
• Cómo reorganizarlos • Curación y conservación a largo plazo
• Cómo compartirlos con otros
FIGURA 2.
tiene que representarse de manera algorítmica. Para conseguir esto necesitamos una
representación estándar de lo que es un gen o de lo que es una galaxia o de lo que es
una medición de temperatura.
ENTRE UNA CUARTA PARTE Y LA MITAD DE LOS PRESUPUESTOS PARA EXPERIMENTACIÓN

SE DESTINA AL SOFTWARE
Durante los últimos 10 años he estado tratando con astrónomos y tengo la opor-
tunidad de ir a algunas de sus estaciones de base. Quedo maravillado al ver sus
telescopios, es algo simplemente increíble. Se trata de equipo que representa
básicamente una inversión de 15 a 20 millones de dólares, el cual es operado
por unas 20 a 50 personas. Entonces uno entiende que hay literalmente miles
de personas escribiendo código para hacer frente al volumen de información
que genera este instrumento, y de que se necesitan millones de líneas de código
para analizar toda esa información. En realidad, ¡el costo del software domina el
gasto de capital! Esto es cierto en el caso del Sloan Digital Sky Survey (sdss), y
seguirá siendo cierto para proyectos de exploración celeste de mayores dimensio-
nes, y para muchos experimentos a gran escala. No estoy seguro de que el costo
de software sea también dominante en el caso de la comunidad de la física de
partículas y su Gran Colisionador de Hadrones (gch), pero sin duda lo es en los
experimentos del gch.
xx JIM GRAY SOBRE LA E- CIENCIA

Incluso en las ciencias de “datos pequeños” se ve a la gente reuniendo información
y luego dedicando mucha más energía en el análisis de esa información que en reca-
barla en primera instancia. El software es típicamente muy particular, ya que existen
muy pocas herramientas genéricas disponibles para que el científico de laboratorio
recopile, analice y procese los datos. Esto es algo que los científicos computacionales
podríamos ayudar a remediar mediante la construcción de herramientas genéricas
para la comunidad científica.
Tengo una lista de asuntos para los responsables de políticas, como la cstb. El
primero de ellos es básicamente promover y apoyar la construcción de herramientas.
La National Science Foundation (nsf) cuenta ahora con una organización de ciberin-
fraestructura; y no quiero decir nada malo acerca de ellos, pero se necesita más que
sólo apoyo para el proyecto TeraGrid y la computación de alto rendimiento. Ahora
sabemos cómo construir clústeres Beowulf para conseguir cómputo de alto rendi-
miento barato; pero no sabemos cómo construir una verdadera malla de datos (data
grid) o cómo crear almacenes de información a partir de “ladrillos de datos” de bajo
costo donde alguien pueda guardar todos sus datos y luego analizar la información.
En realidad hemos hecho progresos en las herramientas de simulación, pero no en
las herramientas de análisis de datos.
PIRÁMIDES DE PROYECTOS Y FINANCIAMIENTO DE LA PIRÁMIDE
En esta sección hago simplemente una observación acerca de la manera en que la

mayoría de los proyectos científicos parecen funcionar. Hay pocos proyectos interna-
cionales, hay más proyectos multicampus, y luego hay muchos más proyectos de un
solo laboratorio. Así que básicamente tenemos esta pirámide de instalaciones nivel 1,
nivel 2 y nivel 3, que encontramos una y otra vez en muchos campos diferentes.
Los proyectos de los niveles 1 y 2 generalmente están organizados y administrados
de manera sistemática; pero existen relativamente pocos proyectos de esa índole.
Estos grandes proyectos pueden darse el lujo de tener un presupuesto para software
y otro para hardware, y asignar equipos de científicos para escribir software a la
medida del experimento. A modo de ejemplo, he estado viendo que el observa-
torio de océanos estadounidense-canadiense —el proyecto Neptune— asigna aproxi-
madamente 30% de su presupuesto a ciberinfraestructura [3]. En números redondos,
eso es 30% de 350 millones de dólares, o algo así como ¡100 millones de dólares! De
manera semejante, los experimentos del gch cuentan con un enorme presupuesto
para software, y esta tendencia hacia presupuestos cuantiosos para software también
es evidente desde el temprano experimento BaBar [4, 5]. Pero si es usted un científico
EL CUARTO PARADIGM A xxi

de laboratorio en la parte inferior de la pirámide, ¿qué puede hacer para conseguir
algún presupuesto para software? Básicamente terminará comprando matlab3 y
Excel 4 o algún otro paquete similar y arreglándoselas con este tipo de herramientas
comerciales. No hay mucho más que pueda hacer.
Así pues, los gigaproyectos y los megaproyectos se ven impulsados en gran medida
por la necesidad de algunos recursos de gran escala, como supercomputadoras, teles-
copios u otras instalaciones experimentales de gran magnitud. Estas instalaciones
normalmente las utiliza una importante comunidad de científicos y necesitan ser
financiadas en su totalidad por organismos como la nsf o el Departamento de
Energía. Los proyectos de menor escala por lo general obtienen fondos de una mayor
diversidad de fuentes, con apoyo de organismos de financiamiento a menudo con-
juntamente con alguna otra organización —que podría ser la propia universidad—.
En el artículo que Gordon Bell, Alex Szalay y yo escribimos para ieee Computer
[6] hicimos notar que las instalaciones de nivel 1, como el gch, son financiadas
por un consorcio internacional de organismos, pero los experimentos del gch de
nivel 2 y las instalaciones de nivel 3 son financiadas por los investigadores, que
traen consigo sus propias fuentes de financiamiento. Así que los organismos de
financiamiento deben apoyar económicamente en su totalidad los gigaproyectos
de nivel 1 y luego asignar la otra mitad de sus fondos a la ciberinfraestructura para
proyectos más pequeños.
SISTEMAS DE ADMINISTRACIÓN DE INFORMACIÓN PARA LABORATORIOS
Para resumir lo que he estado diciendo sobre software, lo que efectivamente nece-
sitamos son “sistemas de administración de información para laboratorios”. Tales
sistemas de software ofrecen una ruta desde los datos que se obtienen mediante el
instrumento o la simulación hasta un archivo o depósito de datos, y es algo que es-
tamos a punto de lograr en varios casos modelo sobre los que he estado trabajando.
Básicamente, colocamos los datos de un grupo de instrumentos en una secuencia
que los calibra y los “limpia”, e inclusive llena los huecos según sea necesario. En
seguida, volvemos a “cuadrar” 5 (re‑grid) la información y finalmente la guardamos en
una base de datos, la cual podríamos “publicar” en internet y de esa manera permitir
que la gente tenga acceso a nuestra información.
3
www.mathworks.com
4
http://office.microsoft.com/en-us/excel/default.aspx
5
Esto significa “regularizar” la organización de los datos de manera que quede una variable de datos por fila, lo cual
es análogo a la normalización en las bases de datos relacionales.
xxii JIM GRAY SOBRE LA E- CIENCIA

Toda la cuestión de pasar de un instrumento a un navegador Web implica un enor-
me número de habilidades. Sin embargo, lo que en realidad sucede es muy simple.
Debiéramos poder crear un paquete tipo Beowulf y algunas plantillas que permitirían
a quienes llevan a cabo experimentos de laboratorio húmedo simplemente reunir
sus datos, guardarlos en una base de datos y publicarlos. Para lograr esto habría que
crear unos cuantos prototipos y documentarlos. Tomará varios años lograrlo, pero
repercutirá de manera decisiva en la manera en que se hace la ciencia.
Como ya he dicho, esas secuencias de software se denominan sistemas de admi-
nistración de información para laboratorios (sail). Entre paréntesis: existen versiones
comerciales, y uno puede comprar un sistema sail listo para ser usado. El problema
es que tales sistemas en realidad están dirigidos a personas que son muy ricas y que
se encuentran en un entorno industrial. Además, a menudo son bastante específicos
para una u otra tarea propia de alguna comunidad en particular —tal como tomar
datos de una máquina de secuenciación o un espectrómetro de masas, correrlos en
el sistema y obtener resultados en la salida—.
ADMINISTRACIÓN DE INFORMACIÓN Y ANÁLISIS DE DATOS
He aquí una situación típica. La gente está reuniendo datos ya sea a partir de
instrumentos o de sensores, o corriendo simulaciones. Muy pronto se ven con
millones de archivos, y no hay una manera fácil de administrar o analizar sus
datos. He ido de puerta en puerta y he visto lo que los científicos han hecho. En
general, hacen una de dos cosas: o bien están buscando agujas en pajares o están
buscando los pajares mismos. Las consultas del tipo “aguja en el pajar” son en
realidad muy fáciles: uno busca anomalías específicas en los datos, y generalmente
se tiene una idea del tipo de señal que se está buscando. Los físicos de partículas
están buscando la partícula de Higgs en el gch, y tienen una buena idea de cómo
se verá en sus detectores el decaimiento de tal partícula pesada. Los arreglos de
clústeres compartidos de computadoras son ideales para consultas del tipo “aguja
en el pajar”, pero son pésimos en el análisis de tendencias, el agrupamiento esta-
dístico y el descubrimiento de patrones globales en los datos.
En realidad necesitamos algoritmos mucho mejores para efectuar operaciones de
agrupamiento y para lo que es esencialmente minería de datos. Desafortunadamente,
los algoritmos de agrupamiento no son de orden N o N log N, sino que típicamente
son cúbicos en N, de modo que cuando N se vuelve demasiado grande este método
no funciona. De esta manera, nos vemos obligados a inventar nuevos algoritmos, y
uno tiene que vivir con respuestas que son sólo aproximadas. Por ejemplo, resulta
EL CUARTO PARADIGM A xxiii

ser sorprendentemente eficaz el uso de la mediana aproximada. ¿Y quién lo habría
adivinado? ¡Yo no!
Gran parte del análisis estadístico tiene que ver con crear muestras uniformes, llevar
a cabo algún filtrado de datos, incorporar o comparar algunas simulaciones Monte
Carlo, y así sucesivamente, todo lo cual genera una gran cantidad de archivos. Y la
situación con tales archivos es que cada uno contiene sólo un manojo de bytes. Si le
diera a usted uno de estos archivos, tendría que esforzarse mucho para averiguar lo que
significan los datos contenidos en él. Por tanto, es muy importante que los archivos sean
autodescriptivos. Cuando la gente utiliza el término base de datos, lo que fundamental-
mente está diciendo es que los datos debieran ser autodescriptivos y venir acompañados
de un esquema. Eso es realmente todo lo que significa el término base de datos. De esta
manera, si le doy una colección particular de información podrá verla y decir: “Quiero
todos los genes que tienen esta propiedad”, o “Quiero todas las estrellas que tienen esta
propiedad”, o “Quiero todas las galaxias que tienen esta propiedad”. Pero si sólo le doy
un montón de archivos, ni siquiera podrá utilizar el concepto de galaxia, y tendrá que
investigar y descubrir por usted mismo cuál es el esquema efectivo para los datos de
ese archivo. Si cuenta usted con ese esquema, podrá indexar los datos, reunirlos con
diversos criterios, ejecutar búsquedas paralelas y realizar consultas ad hoc; además,
será mucho más fácil construir algunas herramientas genéricas de visualización.
En toda justicia, debo decir que la comunidad científica ha inventado un montón
de formatos que para mí califican como formatos de bases de datos. El hdf (Hierar-
chical Data Format) 6 es uno de tales formatos, y el NetCDF (Network Common Data
Form) 7 es otro. Estos formatos se utilizan para el intercambio de información y llevan
consigo el esquema de los datos. Pero la ciencia en general necesita herramientas
mucho mejores que hdf y NetCDF para lograr que los datos sean autodefinitorios.
LA ENTREGA DE DATOS: LLEGANDO AL LÍMITE
La otra cuestión clave es que a medida que los conjuntos de datos se hacen más gran-
des, ya no es posible simplemente transferirlos por ftp o efectuar en ellos búsquedas
mediante expresiones regulares. ¡Es muy difícil transferir por ftp un petabyte de
datos! Así que en algún punto se necesitan índices y acceso en paralelo a éstos, y es
aquí donde las bases de datos pueden ayudar. Para su análisis, una posibilidad es
llevarlos hasta usted, pero la otra es trasladar su consulta hasta los datos. Así que se
6
www.hdfgroup.org
7
www.unidata.ucar.edu/software/netcdf
xxiv JIM GRAY SOBRE LA E- CIENCIA

puede trasladar las consultas o los datos. Con frecuencia, resulta ser más eficiente
trasladar las consultas que trasladar los datos.
LA NECESIDAD DE HERRAMIENTAS DE DATOS: “QUE FLOREZCAN CIEN FLORES”
Lo que he estado sugiriendo hasta ahora es que actualmente tenemos pésimas herra-
mientas para la administración de datos en la mayoría de las disciplinas científicas.
Las organizaciones comerciales como Walmart pueden permitirse el lujo de construir
su propio software de administración de datos, pero en la ciencia no podemos darnos
ese lujo. En la actualidad, difícilmente contamos con herramientas de visualización y
análisis de datos. Algunas comunidades de investigación utilizan matlab, por ejem-
plo, pero los organismos de financiamiento en Estados Unidos y en otras partes tienen
que hacer mucho más para promover la construcción de herramientas que permitan
a los científicos ser más productivos. Es verdaderamente pavoroso ir y ver lo que los
científicos están haciendo día tras día en términos de análisis de datos. Y sospecho
que muchos de ustedes están en la misma situación en la que me encuentro: ¡Esen-
cialmente las únicas herramientas que tengo a mi disposición son matlab y Excel!
Sí contamos con algunas buenas herramientas, como los clústeres Beowulf,8
que nos ofrecen cómputo rentable de alto rendimiento mediante la combinación de
muchas computadoras de bajo costo. Tenemos un software llamado Condor,9 el cual
permite recolectar ciclos de procesamiento de máquinas departamentales. Asimis-
mo, tenemos el boinc10 (Berkeley Open Infrastructure for Network Computing),
que es un software que permite la recolección de ciclos de pc como en el proyecto
seti@Home. Y tenemos algunos productos comerciales como el matlab. Todas estas
herramientas surgieron de la comunidad de investigación, y no puedo entender por
qué éstas en particular tuvieron éxito.
También tenemos el Linux y el Unix Freebsd. El Freebsd antecedió a Linux, pero de
alguna manera Linux despegó y Freebsd no. Creo que estas cuestiones tienen mucho
que ver con la comunidad, las personalidades y el momento. Así que mi sugerencia
es, simplemente, que debiéramos tener muchas cosas. Tenemos herramientas co-
merciales como Labview,11 por ejemplo, pero debiéramos crear otros tantos sistemas
similares. Y sólo necesitamos esperar que algunos de éstos despeguen. No debiera
ser muy caro sembrar un gran número de proyectos.
8
www.beowulf.org
9
www.cs.wisc.edu/condor
10
http://boinc.berkeley.edu
11
www.ni.com/labview
EL CUARTO PARADIGM A xxv

LA REVOLUCIÓN QUE SE AVECINA EN LA COMUNICACIÓN ACADÉMICA
He llegado al final de la primera parte de mi conferencia, que trató sobre la necesidad

de crear herramientas para ayudar a los científicos a capturar sus datos, curarlos,
analizarlos y después visualizarlos. La segunda parte de la conferencia es acerca de la
comunicación académica. Hace aproximadamente tres años, el Congreso de Estados
Unidos aprobó una ley que recomendaba que si usted obtenía fondos de los National
Institutes of Health (nih) para financiar su investigación, debía depositar los infor-
mes de esa investigación en la National Library of Medicine (nlm), de manera que
el texto completo de los artículos quedara en el dominio público. El cumplimiento
voluntario de esta ley ha sido sólo de 3%, así que las cosas están a punto de cambiar.
Ahora es probable que veamos que toda la literatura científica apoyada con fondos
públicos sea forzada por los organismos de financiamiento a publicarse en línea.
En la actualidad existe un proyecto de ley patrocinado por los senadores Cornyn y
Lieberman que hará que sea obligatorio para los beneficiarios de las subvenciones
de los nih depositar sus artículos de investigación en el repositorio PubMed Central
de la nlm.12 En el Reino Unido, el Wellcome Trust ha puesto en acción un mandato
semejante para los beneficiarios de la investigación que financia, y ha creado un
espejo del repositorio PubMed Central.
Sin embargo, internet puede hacer más que poner a disposición pública el texto
completo de los artículos de investigación. En principio, puede unificar todos los
datos científicos con toda la literatura para crear un mundo en el que los datos y la
literatura interactúen entre sí (véase la figura 3). Usted podría estar leyendo un artí-
culo de alguien y luego ir a ver los datos originales; incluso podría volver a efectuar
el análisis en cuestión. O podría estar revisando algunos datos y luego ir a localizar
toda la literatura acerca de ellos. Esta posibilidad aumentará la “velocidad de la infor-
mación” de las ciencias y mejorará la productividad científica de los investigadores.
¡Y creo que esto sería un desarrollo muy bueno!
Tómese el ejemplo de alguien que trabaja para los National Institutes of Health
—que es el caso que se está discutiendo aquí— y que elabora un informe. Supongamos
que descubre algo sobre la enfermedad X. Usted va al médico y dice: “Doctor, ¡no me
siento muy bien!”, y él dice: “Andy, le vamos a hacer unos cuantos análisis clínicos”.
Y le hacen unos cuantos análisis clínicos. Su médico lo llama al día siguiente y le
dice: “No hay nada malo con usted. Tómese dos aspirinas, y tome unas vacaciones”.
12
Véase el Open Access Newsletter de Peter Suber para un resumen de la situación actual: www.earlham.edu/~peters
/fos/newsletter/01-02-08.htm.
xxvi JIM GRAY SOBRE LA E- CIENCIA

Todos los datos científicos en línea
• Muchas disciplinas se superponen y utilizan •
datos de otras ciencias
• Internet puede unificar toda la literatura Literatura
• y los datos
• Ir desde la literatura a los cómputos Datos derivados y
• y los datos, y de vuelta a la literatura recombinados
• La información al alcance de todos
• en todas partes
Datos sin procesar
• Aumentar la velocidad de
• la información científica
• Enorme aumento en la productividad
• científica
FIGURA 3.
Regresa usted un año después y se repite la historia. Tres años más tarde, el médico
lo llama y le dice: “Andy, ¡descubrimos que usted tiene X!” Pregunta usted: “¿Qué
es X?”, y él responde: “No tengo idea, es una enfermedad rara, pero hay un tipo en
Nueva York que sabe todo acerca de ella”. Así que entra a Google13 y escribe todos sus
síntomas. En la primera página de los resultados aparece X. Selecciona el enlace y es
dirigido a PubMed Central y al resumen del artículo “Todo acerca de X”. Selecciona
eso y llega al sitio de la New England Journal of Medicine, donde se le pide: “Páguenos
por favor 100 dólares y le permitiremos leer acerca de X”. Busca y encuentra que
el autor trabaja para los nih, que funciona gracias al dinero de sus impuestos. Por
lo anterior, Lieberman14 y otros han manifestado: “Esto es un asco. La información
científica pasa ahora por un filtro de revisión de expertos y se coloca en el dominio
público, pero sólo en el sentido de que cualquiera puede leerla si paga por ello. ¿De
qué se trata entonces? Ya hemos pagado por ello”.
Los editores académicos ofrecen el servicio de organizar la revisión por pares,
imprimir la revista y distribuir la información a las bibliotecas. Sin embargo, internet
es ahora nuestro distribuidor, y es más o menos gratuito. Todo esto está relacionado
con el momento de reflexión por el que está pasando la sociedad acerca de dónde
inicia y dónde termina la propiedad intelectual. La literatura científica, y en par-
13
O como Jim podría haber sugerido hoy: Bing.
14
Ley Federal de Acceso Público a la Investigación (Federal Research Public Access Act), de 2006, por Cornyn y
Lieberman.
EL CUARTO PARADIGM A xxvii

ticular la que sigue un proceso de revisión por pares, es probablemente uno de los
lugares donde termina. Si desea obtener información acerca de la enfermedad X,
probablemente podrá descubrir que las semillas del durazno son un magnífico tra-
tamiento para X. Pero esa información no proviene de la literatura arbitrada y está
disponible sólo porque hay por ahí un tipo que le quiere vender semillas de durazno
para curar X. Así que quienes han liderado el movimiento hacia el acceso abierto
han sido principalmente personas que trabajan en el campo de la salud pública, ya
que la buena información sobre el cuidado de la salud está resguardada bajo llave,
mientras que la mala información circula por internet.
LA NUEVA BIBLIOTECA DIGITAL
¿Cómo funciona la nueva biblioteca? Bueno, es gratis porque es muy fácil publicar
una página o un artículo en internet. Cada uno de ustedes puede darse el lujo de
publicar en PubMed Central. Sólo le costaría unos pocos miles de dólares obtener
una computadora —¡aunque no sé qué cantidad de accesos tendría!—. Sin embargo,
la curaduría no es barata. Colocar la información en la computadora, interindexarla
y todo ese tipo de cuestiones implican para la nlm un costo de curaduría de alre-
dedor de 100 dólares por artículo presentado. Si recibe un millón de artículos al
año, que es aproximadamente lo que espera obtener, sólo la curación del material
va a costar 100 millones de dólares anuales. Por eso es necesario automatizar todo
el proceso de curación.
Lo que está sucediendo ahora es que PubMed Central, el brazo digital de la nlm, se
ha vuelto portátil. Hay versiones de PubMed Central en funcionamiento en el Reino
Unido, en Italia, en Sudáfrica, en Japón y en China. La del Reino Unido se puso en línea
apenas la semana pasada. Podrán entender ustedes, por ejemplo, que los franceses no
quieren que su biblioteca nacional de medicina se encuentre en Bethesda, Maryland,
o en inglés. Y los ingleses no quieren que el texto esté en inglés estadounidense, por
lo que la versión del Reino Unido probablemente utilizará, para lo que aparezca en
su interfaz Web, la ortografía del inglés británico. Pero fundamentalmente, se puede
colocar un documento en cualquiera de estos archivos y éste se reproducirá en el resto.
Es bastante barato administrar alguno de estos archivos, pero los grandes desafíos
radican en cómo hacer la curación y el arbitraje o revisión por pares.
REVISTAS ARBITRADAS DE ACCESO ABIERTO
Así es como pienso que podría funcionar, para lo cual me baso en el concepto de
las revistas arbitradas de acceso abierto (overlay journals). La idea es que tenemos
xxviii JIM GRAY SOBRE LA E- CIENCIA

archivos para datos y archivos para literatura. Los artículos se depositan en los ar-
chivos de literatura, y los datos van a los archivos de datos. Entonces hay un sistema
de administración de revistas que alguien ha construido, el cual nos permite, como
grupo, producir una revista sobre X. Permitimos que las personas envíen artículos
a nuestra revista depositándolos en el archivo. Los sometemos a revisión por pares
y, para los que nos gustan, elaboramos una portada donde decimos: “Éstos son los
artículos que nos gustan”, y también la ponemos en el archivo. Ahora, llega un mo-
tor de búsqueda y eleva la calificación de todos esos artículos clasificándolos como
buenos gracias a que ahora están referenciados por esta muy importante página ini-
cial. Estos artículos, por supuesto, también pueden referirnos de vuelta a los datos.
Entonces entra en escena un sistema de colaboración que permite a las personas
hacer anotaciones y comentar sobre los artículos de la revista. Los comentarios no
se almacenan en el archivo arbitrado sino aparte, ya que no han sido revisados por
pares, aunque podrían moderarse.
La National Library of Medicine va a hacer todo esto para la comunidad biomé-
dica, pero no está ocurriendo lo mismo en otras comunidades científicas. Deben
saber, como miembros de la cstb, que la comunidad de ciencias de la computación
podría ayudar a que esto suceda proporcionando herramientas adecuadas para las
otras disciplinas científicas.
Hay un software que hemos creado en Microsoft Research llamado Herramienta
de Administración de Congresos (cmt, Conference Management Tool). Hemos lle-
vado a cabo cerca de 300 congresos con ella, y el servicio de cmt hace que sea trivial
crear un congreso. La herramienta cubre todo el flujo de trabajo: la formación de un
comité a cargo del programa, la publicación de un sitio web, la aceptación de manus-
critos, la declaración de conflictos de interés y la recusación personal, la producción
de reseñas, la decisión sobre los artículos que han de aceptarse, la confección del
programa, la notificación a los autores, las revisiones y así sucesivamente. Ahora esta-
mos trabajando en agregar un botón que permita depositar los artículos en arXiv.org
o en PubMed Central, y también trabajamos en incorporar la portada. Esto nos
da ahora la posibilidad de capturar talleres y congresos con mucha facilidad; pero
también permitirá editar una revista en línea. Este mecanismo haría que fuese muy
fácil crear revistas arbitradas de acceso abierto.
Alguien preguntó antes si esto no signficaría un duro golpe para los editores
académicos. Y la respuesta es que sí. ¿Pero acaso no va a ser también difícil para la
ieee y la acm? La respuesta es que las sociedades profesionales están aterrorizadas
ante la posibilidad de que si no tienen algún artículo que enviarles, ustedes no se
EL CUARTO PARADIGM A xxix

afiliarán a ellas. Creo que van a tener que lidiar con esto de alguna manera, porque
pienso que el acceso abierto será una realidad. Mirando a mi alrededor en esta sala,
me doy cuenta de que la mayoría de nosotros somos viejos y no de la generación X.
La mayoría de nosotros nos afiliamos a estas organizaciones simplemente porque
pensamos que es parte de ser un profesional en nuestro campo. El problema es que
los miembros de la generación X no se afilian a organizaciones.
¿QUÉ SUCEDE CON LA REVISIÓN POR PARES?
Esto no es una cuestión que les haya preocupado a ustedes, pero mucha gente dice:
“¿Por qué es absolutamente necesaria la revisión por pares? ¿Por qué no sólo tenemos
una wiki?” Y pienso que la respuesta es que la revisión por pares es diferente. Está
muy estructurada, se modera y hay determinado grado de confidencialidad sobre
lo que dice la gente. Una wiki es mucho más igualitaria. Creo que las wikis tienen
mucho sentido si se trata de reunir comentarios acerca de la literatura después de que
se ha publicado determinado artículo. Se necesita alguna estructura para el proceso
de revisión por pares, como la que provee la cmt.
LA PUBLICACIÓN DE DATOS
Es mejor que me apresure y comente rápidamente la publicación de datos. He ha-

blado acerca de la publicación de artículos, pero si la respuesta es 42, ¿cuáles son
las unidades? Uno puede colocar algunos datos en un archivo en internet, pero esto
nos lleva de vuelta al problema de los archivos. El registro importante para mostrar
nuestro trabajo en contexto se llama procedencia de los datos. ¿Cómo se obtuvo el
número 42?
He aquí un experimento imaginario. Usted ha hecho algo de ciencia, y quiere
publicar sus resultados. ¿Cómo los publica para que otros puedan leerlos y además
reproducirlos de aquí a cien años? Mendel lo hizo, y también Darwin, pero a duras
penas. Ahora estamos más rezagados que Mendel y Darwin en cuanto a las técnicas
para hacer esto. Es un desastre, y tenemos que trabajar en este problema.
DATOS, INFORMACIÓN Y CONOCIMIENTOS: LAS ONTOLOGÍAS Y LA SEMÁNTICA
Estamos tratando de hacer objetivos los conocimientos. Podemos ayudar con cues-
tiones básicas como las unidades, lo que es una medición, quién tomó esa medición
y cuándo la tomó. Éstas son cuestiones genéricas que se aplican en todos los campos.
Aquí [en Microsoft Research] hacemos ciencia de la computación. ¿Qué queremos
decir con planeta, estrella y galaxia?; eso es astronomía. ¿Qué es un gen?; eso es
xxx JIM GRAY SOBRE LA E- CIENCIA

biología. Así que ¿cuáles son los objetos, cuáles son los atributos y cuáles son los
métodos (en el sentido de orientación a objetos) que se utilizan en dichos objetos? Y
nótese, entre paréntesis, que internet realmente se está convirtiendo en un sistema
orientado a objetos en el que la gente extrae objetos. En el mundo de los negocios se
está objetivando lo que es un cliente, lo que es una factura, y así sucesivamente. En
las ciencias, por ejemplo, y de manera similar, necesitamos objetivar lo que es un
gen —que es lo que hace GenBank—.15
Y aquí es necesario advertir que, para ir más lejos, necesariamente tropeza-
remos con las palabras “ontología”, “esquema” y “vocabularios controlados”. Es
decir, al tomar este camino empezaremos a hablar de semántica; en otras pala-
bras, ¿qué significan las cosas? Y por supuesto que cada quien tiene una opinión
diferente de lo que significan las cosas, por lo que las conversaciones pueden
extenderse sin fin.
El mejor ejemplo de todo esto es Entrez,16 el motor de búsqueda de las ciencias
biológicas creado por el National Center for Biotechnology Information para la nlm.
Entrez permite búsquedas en PubMed Central, que contiene las publicaciones, pero
también tienen datos de filogenia, secuencias de nucleótidos, secuencias de proteí-
nas y sus estructuras en 3-D, y también cuentan con GenBank. Es un sistema muy
impresionante en realidad. También han construido la base de datos PubChem y
muchas otras cosas. Todo esto constituye un ejemplo de la interoperabilidad de los
datos y la literatura. Usted puede estar examinando un artículo, ir a los datos gené-
ticos, seguir el camino desde el gen hasta la enfermedad, regresar a la literatura y
así sucesivamente. ¡Es realmente asombroso!
Así que en este mundo, tradicionalmente hemos tenido autores, editores, curado-
res y consumidores. En el nuevo mundo, los científicos individuales trabajan ahora
en equipo, y las revistas se están convirtiendo en sitios Web que alojan los datos y
otros detalles de los experimentos. Los curadores se encargan ahora de voluminosos
archivos digitales, y lo único que sigue permaneciendo aproximadamente igual es
el científico individual. Verdaderamente es un cambio radical en la forma en que
hacemos ciencia.
Un problema es que todos los proyectos terminan en determinado momento y
no hay claridad sobre lo que pasa entonces con los datos. Los datos aparecen a toda
escala. Hay antropólogos reuniendo información en campo y anotándola en sus
15
www.ncbi.nlm.nih.gov/Genbank
16
www.ncbi.nlm.nih.gov/Entrez
EL CUARTO PARADIGM A xxxi

cuadernos; y luego están los físicos de partículas en el gch. La mayoría de los bytes
se encuentran en el extremo superior de la cadena, pero la mayoría de los conjuntos
de datos se encuentran en el extremo inferior. Ahora estamos empezando a ver “hi-
bridaciones” (mashups) en las que las personas toman conjuntos de datos de varios
lugares y los reúnen para crear un nuevo conjunto de datos. Así, en el mismo sentido
en que necesitamos archivos para publicaciones en revistas, necesitamos archivos
para los datos.
Así que ésta es mi última recomendación a la cstb: promuevan las bibliotecas
digitales de datos. Francamente, el proyecto de la Biblioteca Digital de la nsf se
trataba enteramente de metadatos para bibliotecas y no de verdaderas bibliotecas
digitales. Debiéramos construir bibliotecas digitales reales tanto para los datos como
para la literatura.
RESUMEN
He querido exponer que casi todo lo relacionado con la ciencia está cambiando
gracias al impacto de la tecnología de la información. Las ciencias experimentales,
las teóricas y las computacionales todas están siendo afectadas por la avalancha de
datos, y está surgiendo un cuarto paradigma de la ciencia: la ciencia intensiva
en datos. La meta es tener un mundo en el que toda la literatura científica esté en
línea, todos los datos científicos estén en línea, y que interactúen. Se necesitan mu-
chas herramientas nuevas para que esto suceda.
NOTA DE LOS EDITORES
La transcripción completa y las diapositivas en PowerPoint de la conferencia de Jim

se pueden encontrar en el sitio Web Fourth Paradigm.17 Las preguntas y respuestas
durante la conferencia se han extraído de este texto y están disponibles en el sitio
Web (téngase en cuenta que no se ha identificado a los interlocutores por su nom-
bre). El texto que aquí se presenta incluye algunas ediciones menores para mejorar
la legibilidad, así como notas al pie y referencias que hemos agregado, pero creemos
que el texto sigue siendo fiel a la presentación de Jim.
17
www.fourthparadigm.org
xxxii JIM GRAY SOBRE LA E- CIENCIA

REFERENCIAS
[1] G. Bell, T. Hey y A. Szalay, “Beyond the Data Deluge”, Science, vol. 323, núm. 5919, 2009, pp.
1297-1298, doi: 10.1126/science.1170411.
[2] J. Wing, “Computational Thinking”, Comm. ACM, vol. 49, núm. 3, marzo de 2006, doi:
10.1145/1118178.1118215.
[3] NSF Regional Scale Nodes, http://rsn.apl.washington.edu.
[4] Experimentos del Gran Colisionador de Hadrones, http://public.web.cern.ch/Public/en/LHC/LHC
Experiments-en.html.
[5] Experimento BaBar, www.slac.stanford.edu/BFROOT.
[6] G. Bell, J. Gray y A. Szalay, “Petascale Computational Systems”, IEEE Computer, vol. 39, 2006, pp.
110-112, doi: 10.1109/MC.2006.29.
EL CUARTO PARADIGM A xxxiii

1. TIERRA Y MEDIO AMBIENTE
TIERR A Y MEDIO AMBIENTE
Introducción
DAN FAY | Microsoft Research
E
l cambio es inevitable: el universo se expande, la na-
turaleza se adapta y evoluciona, y así deben hacerlo las
herramientas científicas y las tecnologías que empleamos
para alimentar nuestra búsqueda implacable de mayores
conocimientos en las ciencias del espacio, de la Tierra y del medio
ambiente. Las oportunidades y los desafíos son muchos. Las nuevas
tecnologías computacionales, tales como la computación en la nube
y los procesadores multinúcleo, no pueden proporcionarnos la solu-
ción completa en sus formas genéricas, pero la aplicación efectiva y
oportuna de tales tecnologías nos puede ayudar a avanzar de manera
significativa en nuestra comprensión del mundo, incluyendo sus
desafíos ambientales y cómo podríamos abordarlos.
Con la ciencia en proceso de volverse computacional y basada
en datos, los principales retos tecnológicos incluyen la necesidad
de capturar, analizar, modelar y visualizar información científica
de mejor manera. El objetivo final es ayudar a los científicos, a los
investigadores, a los responsables de políticas y al público en general
en la toma de decisiones informadas. Conforme la sociedad exige
acción y capacidad de respuesta a los crecientes problemas ambien-
tales, los nuevos tipos de aplicaciones basadas en la investigación
científica tendrán que pasar del descubrimiento puro y la obten-
ción de datos básicos que conducen al conocimiento, a informar
la toma de decisiones prácticas. Problemas apremiantes como el
EL CUARTO PARADIGM A 3
cambio climático no esperarán hasta que los científicos reúnan todos los datos para
llenar sus vacíos de conocimiento.
Como se desprende de los capítulos de esta parte del libro, los científicos en
realidad están buscando activamente el saber científico mediante el uso de nuevas
tecnologías computacionales. Szalay y Blakeley describen las reglas informales de
Jim Gray para el desarrollo centrado en datos, y la forma en que sirven como modelo
para lograr que conjuntos de datos a gran escala sean accesibles mediante el uso de
bases de datos, aprovechando tanto los sistemas de administración de datos como
el procesamiento en paralelo incorporados a los servidores sql.
Con el fin de facilitar la toma informada de decisiones con base en evidencias
científicas confiables, Dozier y Gail exploran cómo el uso aplicado de la tecnología y
de los conocimientos científicos actuales son clave para proporcionar herramientas
a los responsables de las políticas y de la toma de decisiones. Hunt, Baldocchi y Van
Ingen describen los cambios en curso en las ciencias ecológicas, que están pasando
de la “ciencia en lo pequeño” a las grandes colaboraciones basadas en la síntesis de da-
tos. Estos conjuntos agregados de datos exponen la necesidad de herramientas
de colaboración en la nube, así como de herramientas de visualización y de análi-
sis fáciles de usar. A continuación, Delaney y Barga proporcionan perspicaces in-
tuiciones convincentes sobre la necesidad de monitorear en tiempo real la compleja
dinámica en el mar mediante la creación de un laboratorio marino interactivo. Esta
novedosa ciberinfraestructura permitirá nuevos descubrimientos y conocimientos
a través de mejores modelos oceánicos.
Goodman y Wong destacan la necesidad de nuevas tecnologías de exploración
científica. Para impulsar la vinculación entre los recursos existentes, los astróno-
mos pueden usar una nueva clase de herramientas de visualización, tales como el
WorldWide Telescope (wwt). Esta nueva clase de herramienta ofrece acceso a datos e
información no sólo a los científicos profesionales, sino también al público en general,
tanto para la educación como para posiblemente permitir nuevos descubrimientos
por parte de cualquier persona que tenga acceso a Internet. Por último, Lehning y sus
colaboradores proporcionan detalles acerca del uso de sensores en tiempo real den-
samente desplegados en combinación con recursos de visualización para una mayor
comprensión de la dinámica del ambiente —como un telescopio virtual que mira hacia
la Tierra—. Estas aplicaciones ilustran cómo los científicos y los tecnólogos tienen la
oportunidad de implicar y hacer participar a científicos ciudadanos en sus esfuerzos.
En la Parte 1, y en todo el libro, veremos cómo es que nuevos sensores e infraes-
tructuras permiten el acceso en tiempo real a potencialmente enormes cantidades de
4 TIERRA Y MEDIO AMBIENTE

datos, pero con capacidad de repetición experimental mediante el uso de flujos de tra-
bajo. Las arquitecturas orientadas a servicios están ayudando a mitigar la transición
a las nuevas tecnologías subyacentes y permiten la vinculación de datos y recursos.
Este proceso de rápida evolución es el único mecanismo que tenemos para hacer
frente al torrente de datos que surge de nuestros instrumentos.
La pregunta es cómo los recursos intelectuales y tecnológicos del mundo se pueden
instrumentar mejor para guiar con autoridad nuestras respuestas a los retos actuales y
futuros de la sociedad. Los capítulos que siguen ofrecen algunas excelentes respuestas.
Las leyes de Gray: ALE XAN DE R S.

SZAL AY
cómputo científico centrado The Johns Hopkins

University
JOSÉ A . BL AKE LEY
en bases de datos Microsoft
E
l crecimiento explosivo de los datos científicos plantea
un desafío importante a la investigación de frontera. Ante
conjuntos de datos que rebasan las decenas de terabytes,
los científicos no cuentan con herramientas comerciales
prediseñadas que puedan aplicar en el manejo y análisis de la in-
formación [1]. Los proyectos exitosos a la fecha han recurrido a
distintas combinaciones de archivos planos y bases de datos [2]; sin
embargo, muchas de estas soluciones han sido creadas a la medida
de proyectos específicos y su generalización o escalamiento para la
próxima generación de experimentos no parece una tarea sencilla.
Por otro lado, las modernas arquitecturas computacionales pre-
sentan un creciente desequilibrio; la brecha de latencia entre los
cpu multinúcleo y los discos duros mecánicos aumenta cada año,
lo que dificulta aún más remontar los retos que supone el cómputo
intensivo en datos [3]. Es necesario un enfoque sistemático general
respecto a estos problemas, aunado al diseño de arquitecturas con
capacidad de escalamiento futuro.
LAS LEYES DE GRAY
Jim Gray formuló una serie de lineamientos o leyes informales que

codifican la forma de abordar problemas de ingeniería de datos
relacionados con el procesamiento de grandes volúmenes de infor-
mación científica. Las leyes son las siguientes:
1. El cómputo científico se está volviendo cada vez más intensivo en datos.
2. La solución radica en una arquitectura con “escalabilidad horizontal”.
3. Llevar los cálculos a los datos, más que los datos a los cálculos.
4. Empezar el diseño con las “20 preguntas”.
5. Avanzar de “funcional a funcional”.
Es importante notar que el análisis de los conjuntos de datos provenientes de obser-

vaciones está rigurosamente limitado por el bajo desempeño de entrada/salida (e/s) que
presentan muchas plataformas computacionales modernas; de hecho, las simulaciones
numéricas de alto rendimiento también están resintiendo el “cuello de botella de e/s”.
Una vez que determinado conjunto de datos excede la capacidad de memoria ram del
sistema, la localidad en caché multicapa resulta ineficaz [4]; sin embargo, muy pocas
plataformas de alto nivel cuentan con subsistemas de e/s suficientemente veloces.
La computación numérica escalable de alto desempeño también representa un reto
algorítmico. Los paquetes tradicionales de análisis numérico están diseñados para
operar en conjuntos de datos que caben en ram. Cuando los análisis por realizar son
varios órdenes de magnitud mayores, estos paquetes deben rediseñarse para trabajar
en múltiples fases, siguiendo una estrategia de “dividir y vencer”, pero sin perder
precisión numérica. Esto sugiere un criterio en el que un problema de gran escala se
descompone en piezas más pequeñas que pueden resolverse en ram, mientras que
el resto del conjunto de datos reside en disco. Este enfoque es análogo a la manera
en que los algoritmos de bases de datos, como los ordenamientos y combinaciones
(joins), funcionan en conjuntos de datos mayores que el ram. Estos retos están al-
canzando un momento crítico.
Adquirir sistemas más grandes de almacenamiento en red y añadírselos a clús-
ters de nodos de cómputo no va a solucionar el problema, ya que las velocidades de
red y de interconexión no crecen lo suficientemente rápido como para lidiar con
las necesidades de almacenamiento que se duplican anualmente. Las soluciones
escalables horizontalmente proponen el uso de bloques simples en los cuales los
datos se encuentren particionados entre nodos con almacenaje local incorporado
[5]. Entre más pequeños y sencillos sean estos bloques mejor será el balance entre
los cpu, discos y redes. Gray visualizó “ciberladrillos” simples, donde cada unidad de
disco contaba con su propio cpu y conexión de red [6]. Si bien el número de nodos
en un sistema de este tipo sería mucho más grande que en una arquitectura “esca-
lable verticalmente”, la sencillez y bajo costo de cada nodo, así como el desempeño
combinado, compensarían con creces la complejidad adicional. Con el surgimien-

to de los discos de estado sólido y las tarjetas madre de bajo consumo estamos cerca
de poder construir sistemas de este tipo [7].
CÓMPUTO CENTRADO EN BASES DE DATOS
Muchos análisis de datos científicos se realizan en una serie jerárquica de pasos. En

una primera etapa se extrae un subconjunto de los datos, ya sea filtrando a partir
de ciertos atributos (por ejemplo, eliminando datos erróneos) o extrayendo un sub-
conjunto vertical de las columnas. En el siguiente paso, los datos son generalmente
transformados o reunidos de alguna manera. Por supuesto, en conjuntos de datos más
complejos, estos patrones se acompañan frecuentemente de combinaciones complejas
entre múltiples conjuntos de datos, como sería el caso de las calibraciones externas
o la extracción y análisis de distintas porciones de una secuencia genética [8]. Dado
que los conjuntos de datos son cada vez más grandes, la manera más eficiente de
realizar estas operaciones es claramente llevar las funciones de análisis tan cerca
de los datos como sea posible. También tenemos que muchos de estos patrones se
pueden expresar fácilmente mediante un lenguaje declarativo orientado a conjuntos,
cuya ejecución puede beneficiarse enormemente de la optimización de consultas
(queries) basada en costos, paralelismo automático e índices.
Gray y sus colaboradores han mostrado en varios proyectos que las actuales tec-
nologías de bases de datos relacionales pueden aplicarse con éxito en este contexto
[9]. También existen maneras transparentes de incorporar complejas bibliotecas de
clases escritas en lenguajes de procedimientos como una extensión de la maquinaria
de base de datos subyacente [10, 11].
En años recientes, MapReduce ha ganado popularidad como un paradigma de cóm-
puto y de análisis distribuido de datos [12]. Los principios detrás de este paradigma
son semejantes a las capacidades de agrupamiento distribuido y de agregación que
existen desde hace algún tiempo en sistemas paralelos de bases de datos relacionales.
Bases de datos paralelas de nueva generación, como Teradata, Aster Data y Vertica,
han rebautizado estas capacidades como “MapReduce en la base de datos”. Se han
desarrollado nuevos indicadores para comparar los méritos de cada estrategia [13].
COMUNICACIÓN CON LOS CIENTÍFICOS
Uno de los problemas más desafiantes al diseñar bases de datos científicas es esta-
blecer una comunicación efectiva entre el autor de la base de datos y los científicos
del área interesados en el análisis. Casi todos los proyectos cometen el error de tratar
de ser “todo para todos”; es claro que algunas funciones son más importantes que
otras y que es necesario hacer algunas concesiones en el diseño, lo que conlleva
concesiones de desempeño.
Jim Gray creó la regla heurística de las “20 preguntas”. En cada proyecto en el
que participaba solicitaba a los investigadores una lista de las 20 preguntas más
importantes que querían que respondiera el sistema de datos. Él sostenía que cinco
preguntas no son suficientes para ver un patrón más amplio y que 100 preguntas
producirían una pérdida de enfoque. Como casi toda elección que incluye decisiones
humanas sigue una distribución de “larga cola” —la llamada distribución 1/f—, es
claro que la información relativa en las preguntas ordenadas por importancia es
logarítmica; por lo tanto, la ganancia obtenida al pasar de unas 20 (24.5) preguntas
a 100 (26.5) es muy pequeña [14].
La regla de las “20 preguntas” es sólo un rótulo para designar una etapa en el
diseño donde el científico del área y el ingeniero de bases de datos entablan una con-
versación que ayuda a superar la brecha semántica entre los sustantivos y los verbos
que se emplean en el campo científico en cuestión y las entidades y relaciones que se
almacenan en la base de datos. Las preguntas definen así el conjunto específico de
consultas, en términos de entidades y relaciones, que los científicos del área esperan
hacerle a la base de datos. Al final de un ciclo completo de este ejercicio, el científico
y la base de datos hablan el mismo idioma.
Esta estrategia ha sido muy exitosa para mantener el proceso de diseño enfocado
en las funciones más importantes que el sistema debe proveer y, al mismo tiempo,
ayudar a los científicos del área a entender mejor las limitaciones del sistema de base
de datos, reduciendo así la “sobrecarga de funciones”.
Otra regla de diseño es avanzar de versión funcional en versión funcional. Gray
era plenamente consciente de la rapidez con que cambia la arquitectura del cómputo
basado en datos, especialmente si esos datos son distribuidos. Nuevos paradigmas de
cómputo distribuido nacen y mueren cada año, haciendo sumamente difícil emprender
un ciclo descendente (top-down) de diseño e implementación que abarque un periodo
de varios años, ya que para cuando tal proyecto se concluye las premisas iniciales han
quedado obsoletas. Si construimos un sistema que comience a funcionar únicamente
cuando todos sus componentes funcionen de manera correcta, nunca terminaremos.
En un contexto así, la única manera de sobrevivir y progresar es construir sistemas
modulares en los que cada componente individual pueda ser reemplazado cuando la
tecnología en la cual está basado evolucione. Las actuales arquitecturas orientadas
a servicios son un buen ejemplo de esto; los servicios Web han pasado ya por varias
etapas evolutivas y el fin de este proceso aún no se vislumbra.

DE LOS TERABYTES A LOS PETABYTES EN LAS BASES DE DATOS CIENTÍFICAS
Hemos abordado de manera exitosa varios proyectos del rango de unos cuantos
terabytes (tb) a decenas de terabytes utilizando Microsoft sql Server [15-17]. La
implementación de bases de datos que pronto excederán los 100 tb aparenta ser
también un proceso directo [18]; pero no es del todo claro cómo es que la ciencia
podrá cruzar la barrera de los petabytes. En la medida en que las bases de datos
sigan creciendo, tendrán que recurrir a arquitecturas cada vez más escalables ho-
rizontalmente. Los datos estarán fuertemente segmentados, provocando que las
consultas distribuidas no locales y las combinaciones distribuidas (distributed joins)
sean cada vez más difíciles.
Para casi todos los problemas que actualmente alcanzan la escala de los petabytes
se ha aplicado con éxito una estrategia simple de rastreo sobre particiones de datos
masivamente escaladas horizontalmente y que no tienen elementos en común (Map-
Reduce, Hadoop, etc.). Sin embargo, es claro que este diseño está muy por debajo
de lo óptimo, ya que un buen índice podría mejorar el desempeño en varios órdenes
de magnitud. Las combinaciones entre tablas de muy diferentes cardinalidades son
particularmente difíciles de usar con los rastreadores (crawlers).
Las bases de datos tienen mucho que ofrecernos en términos de planes más
eficientes. También tenemos que repensar la utilidad de esperar un conjunto mo-
nolítico de resultados. Podemos imaginar rastreadores trabajando sobre bases de
datos altamente segmentadas, implementando una estructura que pueda generar
resultados un bloque a la vez, lo que facilitaría el control punto a punto y la recu-
peración en medio de una consulta extensa. Esta estrategia también es útil para
funciones agregadas con una cláusula que detendría la búsqueda cuando se estime
que el resultado se acerca, digamos, a un 99% de exactitud. Estas sencillas mejoras
serían de gran ayuda para evitar enormes consultas monolíticas, dividiéndolas en
consultas pequeñas y más manejables.
La computación en la nube es otro paradigma que ha surgido recientemente. Ofre-
ce ventajas evidentes como la ubicación concurrente de los datos con los cómputos
y una economía de escala en el alojamiento Web de los servicios. Si bien es evidente
que estas plataformas desempeñan muy bien las tareas para las que están pensadas
en los motores de búsqueda o en los sistemas de alojamiento flexible de sitios Web
comerciales, su papel en la informática científica está todavía por definirse. En algu-
nos escenarios de análisis científico, los datos tienen que estar cerca del experimento;
en otros casos, los nodos tienen que estar estrechamente integrados con una latencia
muy baja, y en otros casos más se requiere un gran ancho de banda de e/s. Ninguna
de estas estrategias de análisis daría resultados óptimos en los actuales ambientes de
virtualización. Ciertamente, se espera que nubes de datos más especializadas surjan
pronto. En los próximos años veremos si la computación científica se traslada de las
universidades a los proveedores comerciales de servicios o si es necesario que los
grandes almacenes de datos científicos se fusionen en uno solo.
CONCLUSIONES
La ciencia experimental está generando grandes volúmenes de datos. El proyecto

Pan-starrs capturará 2.5 petabytes (pb) de datos cada año cuando entre en actividad
[18]. El Gran Colisionador de Hadrones (gch) generará entre 50 y 100 pb de datos
cada año, con cerca de 20 pb de esos datos almacenados y procesados en una federa-
ción mundial de redes nacionales enlazando 100 000 cpu [19]. Sin embargo, todavía
no se dispone de soluciones genéricas centradas en datos que puedan afrontar estos
volúmenes de información ni sus correspondientes análisis [20].
Los científicos y las instituciones científicas necesitan un modelo y un reperto-
rio de buenas prácticas que conduzcan a arquitecturas de hardware equilibradas y
software correspondiente para manejar esos volúmenes de datos. De esta manera,
se reduce la necesidad de reinventar la rueda. Ciertas propiedades de las bases de
datos, como los lenguajes declarativos orientados a conjuntos y el paralelismo auto-
mático, que han sido exitosas para construir aplicaciones científicas a gran escala,
son claramente necesarias.
Creemos que la actual generación de bases de datos puede lidiar con al menos
otro orden de magnitud en escala, así que por ahora podemos seguir trabajando. Sin
embargo, es momento de empezar a pensar en la siguiente generación. Las bases
de datos científicas son un indicador temprano de los requerimientos que en su
momento serán necesarios para las aplicaciones corporativas convencionales; por
tanto, lo que se invierta en estas aplicaciones llevarán a desarrollar tecnologías que
serán ampliamente aplicables en unos cuantos años. Los desafíos científicos actuales
son buenos representantes de los desafíos del manejo de datos para el siglo xxi. Las
leyes de Gray representan un excelente conjunto de principios rectores para diseñar
los sistemas intensivos en datos del futuro.
REFERENCIAS
[1] A. S. Szalay y J. Gray, “Science in an Exponential World”, Nature, vol. 440, 2006, pp. 23-24, doi:
10.1038/440413a.
[2] J. Becla y D. Wang, “Lessons Learned from Managing a Petabyte”, ponencia presentada en CIDR
2005, Asilomar, CA, 2005, doi: 10.2172/839755.

[3] G. Bell, J. Gray y A. Szalay, “Petascale Computational Systems: Balanced Cyber-Infrastructure in
a Data-Centric World”, en IEEE Computer, vol. 39, 2006, pp. 110-112, doi: 10.1109/MC.2006.29.
[4] W. W. Hsu y A. J. Smith, “Characteristics of I/O Traffic in Personal Computer and Server Work-
loads”, IBM Sys. J., vol. 42, 2003, pp. 347-358, doi: 10.1147/sj.422.0347.
[5] A. Szalay, G. Bell et al., “GrayWulf: Scalable Clustered Architecture for Data Intensive Com-
puting”, en Proc. HICSS-42 Conference, IEEE Computer Society, Hawaii, 2009, doi: 10.1109/
HICSS.2009.750.
[6] J. Gray, “Scaleable Computing”, ponencia sobre los Cyberbricks presentada en DEC/NT Wizards
Conference, 2004, http://research.microsoft.com/en-us/um/people/gray/talks/DEC_Cyberbrick.
ppt; T. Barclay, W. Chong y J. Gray, TerraServer Bricks. A High Availability Cluster Alternative,
Microsoft Technical Report MSR-TR-2004-107, 2004.
[7] A. S. Szalay, G. Bell, A. Terzis, A. S. White y J. Vandenberg, “Low Power Amdahl Blades for Da-
ta-Intensive Computing”, 2009, http://perspectives.mvdirona.com/content/binary/
AmdahlBladesV3.pdf.
[8] U. Roehm y J. A. Blakeley, “Data Management for High-Throughput Genomics”, en Proc. CIDR,
2009.
[9] J. Gray, D. T. Liu, M. A. Nieto-Santisteban, A. S. Szalay, G. Heber y D. DeWitt, “Scientific Data
Management in the Coming Decade”, ACM SIGMOD Record, 2005, vol. 34, núm. 4,
pp. 35-41; publicado también como Microsoft Technical Report MSR-TR-2005-10,
doi:10.1145/1107499.1107503.
[10] A. Acheson et al., “Hosting the .NET Runtime in Microsoft SQL Server”, en Proceedings of the
2004 ACM SIGMOD International Conference on Management of Data, Nueva York, ACM, 2004,
pp. 860-865, doi: 10.1145/1007568.1007669.
[11] J. A. Blakeley, M. Henaire, C. Kleinerman, I. Kunen, A. Prout, B. Richards y V. Rao, “.NET Data-
base Programmability and Extensibility in Microsoft SQL Server”, en Proceedings of the 2008 ACM
SIGMOD International Conference on Management of Data, Nueva York, ACM, 2008, pp. 1087-1098,
doi: 10.1145/1376616.1376725.
[12] J. Dean y S. Ghemawat, “MapReduce: Simplified Data Processing on Large Clusters”, po-
nencia presentada en Operating Systems Design & Implementation (OSDI), 2004, doi:
10.1145/1327452.1327492.
[13] A. Pavlo et al., “A Comparison of Approaches to Large-Scale Data Analysis”, en Proceedings of the
2009 ACM SIGMOD International Conference on Management of Data, Nueva York, ACM, 2009,
pp. 165-178, doi: 10.1145/1559845.1559865.
[14] C. Anderson, The Long Tail, Nueva York, Random House, 2007.
[15] A. R. Thakar, A. S. Szalay, P. Z. Kunszt y J. Gray, “The Sloan Digital Sky Survey Science Archive:
Migrating a Multi-Terabyte Astronomical Archive from Object to Relational DBMS”, Comp. Sci.
and Eng., vol. 5, núm. 5, septiembre de 2003, pp. 16-29.
[16] A. Terzis, R. Musaloiu-E., J. Cogan, K. Szlavecz, A. Szalay, J. Gray, S. Ozer, M. Liang, J. Gupchup
y R. Burns, “Wireless Sensor Networks for Soil Science”, Int. J. Sensor Networks, 2009.
[17] Y. Li, E. Perlman, M. Wan, Y. Yang, C. Meneveau, R. Burns, S. Chen, A. Szalay y G. Eyink,
“A Public Turbulence Database Cluster and Applications to Study Lagrangian Evolu-
tion of Velocity Increments in Turbulence”, J. Turbul., vol. 9, núm. 31, 2008, pp. 1-29, doi:
10.1080/14685240802376389.
[18] Pan-STARRS: Panoramic Survey Telescope and Rapid Response System, http://pan-starrs.ifa.hawaii.
edu.
[19] A. M. Parker, “Understanding the Universe”, en Towards 2020 Science, Microsoft Corporation,
2006, http://research.microsoft.com/towards2020science/background_overview.htm.
[20] G. Bell, T. Hey y A. Szalay, “Beyond the Data Deluge”, Science, vol. 323, núm. 5919, 2009,
pp. 1297-1298, doi: 10.1126/science.1170411.
La nueva ciencia de JE FF DOZIE R

University of California,
las aplicaciones ambientales Santa Barbara

WILLIAM B. GAIL
Microsoft
L
as ciencias de la tierra y del medio ambiente han tran-
sitado por dos fases y están entrando a una tercera. En la
primera fase, que terminó hace dos décadas, las ciencias de
la Tierra y el medio ambiente estaban, sobre todo, estruc-
turadas por disciplinas y se dedicaban a desarrollar conocimientos
en geología, química atmosférica, ecosistemas y otros aspectos del
sistema Tierra. En la década de los ochenta, la comunidad científica
reconoció la cercanía entre estas disciplinas y empezó a estudiar-
las como elementos de un mismo sistema que interactúan entre
sí. Durante esta segunda fase surgió como paradigma la ciencia
del sistema Tierra. Con ello se desarrolló la capacidad de entender
algunos fenómenos complejos de naturaleza sistémica, como el
cambio climático, por ejemplo, que vincula conceptos de ciencias de
la atmósfera, biología y comportamiento humano. Era esencial para
el estudio de los sistemas interactuantes de la Tierra la capacidad de
adquirir, administrar y hacer accesibles los datos de observaciones
satelitales; en paralelo, se desarrollaron nuevos modelos para ex-
presar nuestro creciente entendimiento de los procesos complejos
en el dinámico sistema terrestre [1].
En la naciente tercera fase, el conocimiento, desarrollado princi-
palmente con el propósito de la comprensión científica, se comple-
menta con conocimiento orientado específicamente a la toma de de-
cisiones prácticas y a la acción. Este nuevo impulso del conocimiento
puede denominarse ciencia de las aplicaciones ambientales. El cambio climático provee
el ejemplo más prominente de la importancia de esta transformación. Hasta ahora,
la comunidad de la ciencia del clima se ha enfocado en preguntas fundamentales que
involucran conocimiento básico, desde medir la magnitud del cambio hasta deter-
minar las causas. Con las nociones básicas establecidas, está surgiendo la demanda
de conocimiento sobre aplicaciones del clima. ¿Cómo cuantificar y monitorear la
biomasa total de un bosque para que los mercados de carbón puedan definir sus
reservas? ¿Qué implicaciones pueden tener los cambios regionales de los recursos
hídricos en las tendencias demográficas, el rendimiento agrícola y la producción
energética? ¿Hasta qué punto los diques y otras adaptaciones a los crecientes niveles
marinos repercutirán en las costas?
Estas preguntas son contestadas por la ciencia básica, pero plantean otras cues-
tiones que únicamente pueden ser abordadas por una nueva disciplina científica,
enfocada específicamente en aplicaciones, que integre procesos físicos, biogeoquí-
micos, humanos y de ingeniería. Sus temas primordiales reflejan una curiosidad
fundamental acerca de la naturaleza del mundo en el que vivimos, matizada por el
hecho de que la importancia de una pregunta pesa tanto como su relevancia para un
imperativo social. El ganador del Premio Nobel y Secretario de Energía de Estados
Unidos, Steven Chu, dijo: “Buscamos soluciones, no buscamos más —¿me atreveré
a decirlo así?— artículos científicos” [2].
Para ilustrar las relaciones entre ciencia básica y de aplicaciones, consideremos
el papel que juega la escorrentía del deshielo en las reservas de agua. En el mundo,
mil millones de personas dependen del deshielo de nieve o glaciar para cubrir sus
necesidades de agua [3]. Tradicionalmente, el diseño y la operación de sistemas de
agua se han apoyado en mediciones históricas en el contexto de un clima estaciona-
rio, así como en relaciones empíricas y modelos. Como los climas y el uso del suelo
cambian, las poblaciones crecen y emigran y los sistemas que construimos envejecen y
decaen, estos métodos empíricos para manejar nuestras aguas se tornan inexactos; un
dilema que puede resumirse con la frase “lo estacionario ha muerto” [4]. El deshielo
normalmente provee agua para necesidades en competencia: suministro urbano y
agrícola, energía hidroeléctrica, esparcimiento y ecosistemas. En muchas áreas se
presentan tanto lluvias como nevadas, lo que suscita la preocupación de que un futuro
clima más cálido provocará que un mayor porcentaje de la precipitación sea en forma
de lluvia, con lo que el agua llegará meses antes de los picos de demanda agrícola
y cuya mayor escorrentía generará más inundaciones. En estos sistemas mixtos de
nieve y lluvia la necesidad social es la siguiente: ¿Cómo mantenemos el control de

inundaciones y los beneficios que el agua provee a la humanidad y a los ecosistemas
cuando los cambios en el ritmo y la magnitud de las escorrentías probablemente
vuelvan inadecuada la infraestructura existente?
La solución a esta necesidad social requiere una comprensión más fundamental
del ciclo del agua, concebido como un proceso. Actualmente, los procedimientos
prácticos y decisiones respecto al control de inundaciones y de abastecimiento de
agua se derivan de datos históricos. El control de inundaciones y la capacidad de
contención están predeterminados por reglamentos inamovibles, que no toman
en cuenta el tipo de año en términos hídricos, el estado actual de los bancos de
nieve o el riesgo de inundación. En determinados años, los primeros deshielos no
se almacenan porque las proyecciones estadísticas prevén inundaciones, las cuales,
con mejor información, podría deducirse que no sucederán debido a la ausencia de
nieve. Mientras más se eleve la temperatura global más frecuentemente esta situa-
ción afectará el suministro de agua [5]. Los retos científicos son, entonces: (1) Los
métodos estadísticos actualmente utilizados no tratan de estimar el balance de agua
en las cuencas, y con las redes de medición actuales, aún en los Estados Unidos, no
tenemos información suficiente sobre la cantidad de nieve en las cuencas; (2) Somos
incapaces de distinguir entre los aportes de agua y nieve, o de distinguir entre la
evapotranspiración y la escorrentía de dichas fuentes; (3) Nos falta el conocimiento
para administrar la relación entre capa de nieve, bosques y reservas de carbón; (4) Las
predicciones sobre deshielo que no están basadas en principios físicos relacionados
con el derretimiento de la nieve son frecuentemente inexactas; y (5) No sabemos
qué incentivos y acuerdos institucionales llevarían a un mejor manejo de las cuencas
para servicios de los ecosistemas.
En general, los modelos no consideran esta clase de interacciones; de ahí la nece-
sidad de una ciencia de las aplicaciones ambientales. Sus características fundamentales
la diferencian de las ciencias básicas ambientales y de la Tierra:
• Necesidad vs. curiosidad. La ciencia básica es impulsada por preguntas; en
cambio, la nueva ciencia de aplicaciones es impulsada más por necesidades so-
ciales que por curiosidad científica. En lugar de buscar respuestas a preguntas se
enfoca en crear la capacidad de buscar líneas de acción y determinar sus conse-
cuencias.
• Limitaciones externas. Circunstancias externas frecuentemente dictan cuándo
y cómo el conocimiento generado por las aplicaciones es necesario. La formación
de un mercado de comercio de carbón se dará aunque no se tengan resultados
sobre la cuantificación total de carbón de un bosque. Será dictada por decisiones
políticas y económicas. La construcción y reparación de la infraestructura urba-
na de agua no esperará a una comprensión de los patrones evolutivos de precipi-
tación. La ciencia de las aplicaciones debe estar preparada para informar sobre
acciones sujetas a estos intereses externos, y no a plazos académicos basados en
cuándo y cómo puede obtenerse el conocimiento más pertinente.
• Consecuencias y recursividad. Acciones basadas en nuestro conocimiento de
la Tierra frecuentemente la modifican, generando la necesidad de un nuevo co-
nocimiento sobre aquello que hemos cambiado. Por ejemplo, mientras más
conocimiento tuvimos acerca de la ubicación de poblaciones de peces, más han
sido estas poblaciones sobreexplotadas; nuestro conocimiento inicial sobre ellas
se volvió rápidamente obsoleto a causa de nuestras acciones. La ciencia de las
aplicaciones busca entender no sólo los aspectos de la Tierra involucrados en
un plan de uso particular, sino también las consecuencias y externalidades que
resultan de ese escenario. Un ejemplo reciente es el cambio en el uso de suelo
para agricultura a siembra de maíz para producción de etanol, un esfuerzo para
reducir el cambio climático que más bien ha resultado ser una carga significativa
en los escasos recursos hídricos.
• Útil aun antes de ser terminado. El ejemplo de la capa de nieve muestra que
frecuentemente es necesario emprender acciones aun con datos incompletos o
un conocimiento parcial. La dificultad de tener confianza en la calidad de nues-
tro conocimiento es particularmente desconcertante dada la pérdida de estabi-
lidad generada por el cambio climático. Nuevos medios de hacer uso efectivo de
conocimiento parcial deben ser desarrollados, incluyendo máquinas de inferen-
cia robusta e interpretación estadística.
• Escalable. El conocimiento de la ciencia básica no siempre puede ser escalado
para cubrir las necesidades de las aplicaciones. El ejemplo del comercio del car-
bón deja claro el punto. La ciencia básica nos dice cómo relacionar el contenido
del carbón con las mediciones de tipo y densidad de vegetación, pero no nos da
las herramientas para conseguir un inventario global. Nuevas herramientas de
conocimiento deben ser generadas para crear y actualizar con exactitud este in-
ventario por medio de una teledetección rentable u otros medios.
• Robusto. Los tomadores de decisiones que utilizan conocimiento de aplicacio-
nes normalmente tienen una comprensión limitada de cómo fue desarrollado el

conocimiento y en qué situación es aplicable. Para evitar malos usos, el conoci-
miento debe estar caracterizado en términos altamente robustos. Debe ser esta-
ble ante el paso del tiempo e insensible a interpretaciones individuales, cambio
de contexto o condiciones especiales.
• Intensivo en datos. La ciencia básica es intensiva en datos en sí misma, pero
las fuentes de datos usadas por la ciencia básica son frecuentemente insuficien-
tes para el uso de las aplicaciones. Impactos locales con alcance global como la
intrusión de especies invasivas son difíciles de verificar para proyectos centrali-
zados con pocos investigadores. Nuevas fuentes de datos apropiadas para aplica-
ciones deben ser identificadas, y nuevas maneras de observar (incluyendo el uso
de comunidades como recolectores de datos) deben ser desarrolladas.
Cada una de estas características implica el desarrollo de nuevos tipos de conoci-

miento y nuevas herramientas para adquirir ese conocimiento. El ejemplo de la capa de
nieve ilustra lo que esto quiere decir para un área específica de aplicación. Reciente-
mente cuatro elementos se han unido haciendo posible el despliegue de un sistema de
medida e información capaz de sustentar decisiones en escalas de grandes cuencas
de ríos: (1) precisión, estimados de área cubierta por nieve en una cordillera mediante
uso continuo de satélite; (2) confiabilidad, sensores y sistemas de telemetría de bajo
costo para medir nieve y humedad del suelo; (3) conocimiento en ciencias sociales
que complemente la información de sistemas naturales y diseñados que permitan el
análisis de la toma humana de decisiones; y (4) avances en la ciberinfraestructura
para integrar y procesar datos en velocidades cercanas a tiempo real.
Para cuencas de drenaje dominadas por nieve, el reto científico de más alta prio-
ridad es estimar la distribución espacial y la heterogeneidad del equivalente entre
nieve y agua (es decir, la cantidad de agua que resultaría si toda la nieve se derritiera).
Debido a que el viento redistribuye la nieve después de que ésta ha caído, la nieve en
el suelo es mucho más heterogénea que la lluvia, con varios metros de diferencia en
un radio de 10 a 100 metros. La heterogeneidad en las profundidades de nieve suaviza
la escorrentía diaria debido a la variabilidad de la duración del agua del deshielo en
las capas de nieve [6]; por temporada, produce zonas cuasi-ribereñas, con mayor hu-
medad de suelo, que se mantienen hasta bien entrado el verano. El mecanismo para
estimar el equivalente de nieve y agua involucra varias tareas usando información
mejorada: (1) amplia validación de los estimados de cobertura de nieve vía satélite y
su reflectividad, como lo muestra la figura 1 en la siguiente página; (2) usar resulta-
dos de una reconstrucción del balance de energía de la capa de nieve para mejorar
Elevation,
Elevación,km
km MODIS,
MODIS,19 enero
19 Jan 2008
2008 Fractional
Área snow-covered
fraccional area
cubierta de nieve
Bandas
Bands2,2,4,3
3, 4 (RGB)
(RGB)
0 1 2 3 4 0 0.25 0.5 0.75 1.0
41N
40N
39N
38N
37N
36N
35N
122W 120W 118W 122W 120W 118W 122W 120W 118W
FIGURA 1.
Esta imagen es una muestra del tipo de datos que son útiles al hacer un análisis de la cubier-
ta de nieve. El panel izquierdo muestra las elevaciones de la Sierra Nevada y el Valle Central
de California, así como una porción del noroeste de Nevada. El panel central muestra los
datos satelitales sin procesar en tres bandas espectrales (0.841-0.876, 0.545-0.565 y 0.459-
0.479 μm) del espectrorradiómetro de imágenes de resolución moderada (modis, por sus
siglas en inglés) de la nasa, que genera datos globales diariamente a una resolución de 250 a
1 000 m en 36 bandas espectrales. Desde siete bandas “terrestres” a una resolución de 500 m
obtenemos el área fraccional de cobertura de nieve; es decir, el porcentaje cubierto por nieve
de cada celda de de 500 m de la cuadrícula, como se muestra en el panel derecho [10].
la interpolación desde medidas de terrenos más extensos e información de satélite

[7]; (3) desarrollo de métodos innovadores para caracterizar la heterogeneidad [8]; y
(4) probar los estimados interpolados con un modelo de escorrentía con distribución
espacial [9]. Las mediciones también ayudarían a clarificar la precisión de estimados
de precipitación en modelos de clima regional.
Esta tercera fase de las ciencias de la Tierra y el ambiente evolucionará durante la
siguiente década a medida que la comunidad científica comience a adherirse a ella.
La ciencia del clima ya ha adquirido gran competencia en la ciencia de aplicaciones;
el amplio campo de ciencias de la Tierra necesitará aprender de estos esfuerzos y

enriquecerlos. La necesidad de ciencia básica y nuevos descubrimientos no dismi-
nuirá, sino será mejorada y extendida por las necesidades de esta nueva fase. Las
interrogantes a responder tienen tanto importancia práctica como interés intelectual.
¿Declinará nuestra habilidad para pronosticar cuando los cambios de precipitación
disminuyan el valor de datos estadísticos obtenidos de patrones históricos? ¿Cuál
será la siguiente gran problemática de cambio climático, y qué medidas tomadas hoy
nos permitirían prevenirla?
Incorporar este conocimiento y su aplicación a nuestra vida cotidiana es igual-
mente importante. La telefonía móvil e internet, con su alcance global, presentan
nuevas maneras de diseminar información amplia y rápidamente. Se contaba con
información para evitar gran parte de la devastación causada por el tsunami Asiático
y el huracán Katrina, pero no se tenían las herramientas para una toma rápida de
decisiones y para comunicar las acciones necesarias. La ciencia de las aplicaciones
es por esto integral; vincula la comprensión de fenómenos físicos y la investigación
científica con los métodos mediante los cuales personas y organizaciones pueden usar
la información en la toma de decisiones. La población en su conjunto puede contribuir
de manera importante a observaciones focalizadas de la Tierra, complementando
nuestras limitadas redes de sensores de satélite con aparatos tan sencillos como cá-
maras de teléfonos móviles. Aprovechar esta creciente capacidad de adquisición de
datos será un reto importante para la nueva fase de la ciencia ambiental.
La seguridad y prosperidad de casi 7 000 millones de personas dependen cada
vez más de nuestra habilidad para recopilar y usar información sobre el mundo
que nos rodea. La ciencia ambiental básica ha establecido un excelente punto
de partida; debemos partir de este punto y desarrollarla hacia una ciencia robusta de
aplicaciones ambientales.
REFERENCIAS
[1] National Research Council, Earth Observations from Space: The First 50 Years of Scientific Achieve-
ment, Washington, D.C., National Academies Press, 2007.
[2] R. DelVecchio, “UC Berkeley: Panel Looks at Control of Emissions”, S.F. Chronicle, 22 de marzo de 2007.
[3] T. P. Barnett, J. C. Adam y D. P. Lettenmaier, “Potential Impacts of a Warming Climate on Water
Availability in Snow-Dominated Regions”, Nature, vol. 438, 2005, pp. 303-309, doi: 10.1038/
nature04141.
[4] P. C. D. Milly, J. Betancourt, M. Falkenmark, R. M. Hirsch, Z. W. Kundzewicz, D. P. Lettenmaier
y R. J. Stouffer, “Stationarity is Dead: Whither Water Management?”, Science, vol. 319, 2008,
pp. 573-574, doi: 10.1126/science.1151915.
[5] R. C. Bales, N. P. Molotch, T. H. Painter, M. D. Dettinger, R. Rice y J. Dozier, “Mountain
Hydrology of the Western United States”, Water Resour. Res., vol. 42, 2006, W08432, doi:
10.1029/2005WR004387.
[6] J. D. Lundquist y M. D. Dettinger, “How Snowpack Heterogeneity Affects Diurnal Streamflow
Timing”, Water Resour. Res., vol. 41, 2005, W05007, doi: 10.1029/2004WR003649.
[7] D. W. Cline, R. C. Bales y J. Dozier, “Estimating the Spatial Distribution of Snow in Mountain
Basins Using Remote Sensing and Energy Balance Modeling”, Water Resour. Res., vol. 34, 1998,
pp. 1275-1285, doi: 10.1029/97WR03755.
[8] N. P. Molotch y R. C. Bales, “Scaling Snow Observations from the Point to the Grid Element:
Implications for Observation Network Design”, Water Resour. Res., vol. 41, 2005, W11421, doi:
10.1029/2005WR004229.
[9] C. L. Tague y L. E. Band, “RHESSys: Regional Hydro-Ecologic Simulation System—An
Object-Oriented Approach to Spatially Distributed Modeling of Carbon, Water, and Nutrient
Cycling”, Earth Int., vol. 8, núm. 19, 2004, pp. 1-42.
[10] T. H. Painter, K. Rittger, C. McKenzie, R. E. Davis y J. Dozier, “Retrieval of Subpixel Snow-
Covered Area, Grain Size, and Albedo from MODIS”, Remote Sens. Environ., vol. 113, pp. 868-879,
2009, doi: 10.1016/j.rse.2009.01.001.

Redefiniendo la ciencia JAM ES R . H U NT

ecológica mediante los datos Berkeley, and the Berkeley

Water Center
DE N NIS D.
BALDOCCHI
Berkeley
CATHAR IN E
VAN ING E N
Microsoft Research
L
a ecología es el estudio de la vida y sus interacciones con
el entorno físico. El cambio climático exige adaptación rápida,
por tanto, son esenciales nuevas herramientas de análisis de
datos para cuantificar esos cambios en un medio natural de
gran variabilidad. La ecología es una ciencia en la que los estudios se
han realizado principalmente por pequeños grupos de personas, con
datos registrados y almacenados en cuadernos de notas. Actualmente
se llevan a cabo grandes estudios de síntesis mediante esfuerzos de
colaboración que involucran a cientos de científicos. Estos esfuerzos
mayores son esenciales a la luz de dos procesos de cambio: uno de
ellos en la forma en que se hace la ciencia y otro que afecta el tipo de
preguntas que hacemos respecto al manejo de los recursos. Aunque
los estudios de síntesis colaborativos son todavía incipientes su cre-
ciente importancia es clara. El apoyo computacional es parte integral
de estas colaboraciones y un punto clave para el proceso científico.
CÓMO LOS CAMBIOS GLOBALES ESTÁN CAMBIANDO LA CIENCIA ECOLÓGICA
El clima y el paisaje terrestre están cambiando y los científicos deben

cuantificar los vínculos significativos entre procesos atmosféricos,
oceánicos y terrestres para estudiar apropiadamente los fenómenos.
Por ejemplo, los científicos se están preguntando cómo es que las
fluctuaciones climáticas de temperatura, precipitación, radiación
solar, duración de la época de cultivo, y fenómenos meteorológicos
extremos como las sequías, afectan el intercambio neto de carbono entre vegetación
y atmósfera. Esta pregunta abarca muchas disciplinas de las ciencias de la Tierra con
sus respectivos datos, modelos y suposiciones.
Estos cambios requieren un nuevo enfoque para resolver preguntas sobre gestión
de recursos. En las próximas décadas los ecosistemas no podrán ser restaurados a
su estado original. Por ejemplo, con un calentamiento climático en la costa oeste de
Estados Unidos, ¿podrían utilizarse los datos históricos de las cuencas costeras del sur
de California para predecir el hábitat de los peces en las cuencas costeras del norte de
California? Del mismo modo, ¿qué información podemos obtener sobre deforestación
por medio de detección a distancia? Para afrontar estos desafíos son necesarias síntesis
de datos y modelos que abarquen escalas que vayan de lo local (piscinas fluviales) a lo
global (circulaciones oceánicas) y escalas
temporales desde unas decenas de mili-
segundos hasta siglos. En milímetros
500
UN EJEMPLO DE SÍNTESIS ECOLÓGICA
La figura 1 muestra un ejemplo simple del 400

tipo “mezcla de ciencias” sobre un estu-
Escorrentía anual
dio de síntesis. La gráfica compara la es- 300

correntía anual de cuencas relativamente
pequeñas en las faldas de las montañas
200
de la Sierra Nevada de California con la
precipitación anual local de varios años.
Los valores anuales de escorrentía fueron 100
obtenidos del u.s. Geological Survey (usgs)

en tres de las estaciones de medición de 0
0 200 400 600 800 1000
Dry Creek y la zona de experimentación de
Precipitación anual
la University Schubert de California.1 Los
Schubert (1.03 km 2 ) Dry Creek (689 km 2 )
registros históricos de precipitación de plu- Dry Creek (181 km 2 ) Dry Creek (829 km 2 )
viómetros cercanos fueron obtenidos del
National Climatic Data Center.2 La lluvia
que no fluye después de caer experimenta
FIGURA 1.
evapotranspiración (et) dominada en gran
Balance anual simple de agua para estimar
la evapotranspiración en cuencas de las
1
http://waterdata.usgs.gov/nwis faldas de Sierra Nevada. La línea punteada
2
www.ncdc.noaa.gov representa una ET anual de 400 mm.

parte por la vegetación de las cuencas. En éstas se tiene registrado un valor de 400 mm
en todos los años. Un valor semejante de et anual fue obtenido de manera independiente
por sensores atmosféricos desplegados sobre un ecosistema de sabana de robles en la
torre del AmeriFlux Tonzi Ranch.3 Esta síntesis de datos históricos define un modelo de
cuenca apropiado para las condiciones históricas y proporciona un marco de referencia
para abordar los efectos del cambio climático en un sistema altamente variable.
LA INMINENTE INUNDACIÓN DE DATOS ECOLÓGICOS
Estos nuevos estudios de síntesis son posibles gracias a la confluencia de sensores

de bajo costo, detección a distancia, conexión a internet y recursos informáticos
accesibles. El despliegue de sensores implementado por grupos de investigación
está cambiando de periodos cortos a monitoreo a largo plazo, a una escala más fina
y con instrumentos más diversos. Los satélites dan cobertura global, especialmente
a regiones inhóspitas y remotas, donde la investigación de campo se dificulta por
logísticas físicas y políticas. La conexión a internet permite compartir datos entre
organizaciones y disciplinas. El resultado de estos primeros tres factores es una
inundación de datos. Los recursos informáticos proporcionan parte de la solución
al permitir que esta inundación se empareje con modelos que incorporan diferentes
procesos físicos y biológicos, y al permitir también la vinculación de modelos dife-
rentes para abarcar las escalas de tiempo y longitud bajo estudio.
La inundación de datos ecológicos y las ciencias ecológicas presentan desafíos
únicos en infraestructura de cómputo y nuevas oportunidades. A diferencia de
ciencias como la física o la astronomía, en las que los detectores son compartidos,
en las ciencias ecológicas los datos son generados por una amplia variedad de grupos
usando un amplio rango de metodologías de muestreo o simulación, así como diversos
estándares de datos. Como se mostró anteriormente en la figura 1, el uso de datos
publicados en dos fuentes diferentes fue esencial para obtener evapotranspiración.
Esta síntesis requirió acceso digital a registros largos, procesamiento separado de
esos conjuntos de datos para obtener et y, finalmente, verificación con medidas
independientes de torre de flujo. Otras actividades sintéticas requerirán acceso a
recursos en constante evolución de organizaciones de gobierno como nasa o usgs,
colaboraciones científicas como el National Ecological Observatory Network y la
Red waters,4 grupos de investigación de universidades como Life Under Your Feet,5
3
www.fluxdata.org:8080/SitePages/siteInfo.aspx?US-Ton
4
www.watersnet.org
5
www.lifeunderyourfeet.org
incluso grupos de ciudadanos científicos como Community Collaborative Rain, Hail
and Snow Network6 y el usa National Phenology Network.7
Si bien el grueso de los datos son digitales al comienzo, originados en un sensor
de campo, radar o satélite, los datos históricos y de campo, que son fundamentales
para la ciencia, están en proceso de digitalización. Estos últimos datos no siempre son
series de tiempo uniformemente espaciadas; pueden incluir la fecha en que comienza
el brote de las hojas o imágenes aéreas en diferentes resoluciones y longitudes de
onda, para calcular cantidades en la cuenca como humedad del suelo, vegetación y
uso de suelo. Derivar variables de ciencia de la detección a distancia sigue siendo un
área activa en la investigación; por lo que arduas mediciones de campo frecuente-
mente son la verdad básica necesaria para desarrollar algoritmos de conversión. Las
observaciones científicas de campo que hacen los ciudadanos, tales como la especie
de planta, el crecimiento de plantas (fechas de brote, crecimiento de anillos de árbol,
entre otros) y el conteo de peces y pájaros, son cada vez más importantes. Es un reto
creciente para el análisis científico lograr la integración de información tan diversa.
NAVEGANDO EN LA INUNDACIÓN DE DATOS ECOLÓGICOS
El primer paso en cualquier análisis de ciencias ecológicas es el descubrimiento y

la armonización de los datos. Hoy en día se pueden localizar grandes conjuntos de
datos; los conjuntos de datos más pequeños e históricos a menudo se encuentran por
medio de referencias orales. Debido a que quienes publican los datos lo hacen con
distintos parámetros, no existe un protocolo único de reporte de éstos. Las conver-
siones de unidad, las reproyecciones geoespaciales y las regularizaciones de escala de
tiempo son operaciones cotidianas e ineludibles. Los portales integradores de datos
científicos, como SciScope8 y servicios Web con los mismos modelos de datos como
los del Open Geospatial Consortium9 están evolucionando.
Para estos portales de búsqueda de datos científicos es fundamental el conocimiento
de características geoespaciales y la mediación de espacio de nombre variable. Lo prime-
ro permite búsquedas tanto en cuencas de estudio o regiones geológicas, así como en un
polígono simple envolvente. Lo segundo permite búsquedas que incluyen varios términos
de búsqueda —como “lluvia”, “precipitación” y “precip”— cuando se busca en varios
depósitos de datos con diferentes convenciones de nomenclatura. Una nueva generación
6
w ww.cocorahs.org
7
www.usanpn.org
8
w ww.sciscope.org
9
www.opengeospatial.org

de registros de metadatos que utilice tecnologías Web semánticas permitirá búsquedas
más ricas, así como conversiones automáticas de nombres y unidades. La combinación
de ambos desarrollos permitirá búsquedas en datos científicos tales como “encuentra
cauces diarios de río y descargas de sedimento suspendido de todas las cuencas en el
estado de Washington con más de 76 cm de precipitación anual”.
TRASLADANDO LA SÍNTESIS ECOLÓGICA A LA NUBE
Los grandes conjuntos de datos de síntesis están iniciando una migración desde las
computadoras de escritorio hacia la nube. La mayor parte de los conjuntos de datos de
la ciencia ecológica provienen de colecciones de archivos. Un ejemplo es el conjunto
de datos de síntesis Fluxnet LaThuile, que contiene 966 años de datos en registros
acumulados provenientes de sensores en 253 sitios alrededor del mundo. Los datos
de cada registro anual acumulado son publicados como un archivo separado por
comas o como un archivo listo para su utilización en matlab, en agregados ya sea
diarios o de cada media hora. La mayor parte de los científicos descarga algunos o
todos los archivos y los analiza localmente. Otros científicos utilizan la alternativa
de un servicio de nube que vincula el matlab de la computadora de escritorio a un
cubo de datos de los servicios de análisis de sql Server en la nube. Los datos parecen
locales, pero los científicos no necesitan preocuparse por el manejo de cada archi-
vo. La descarga y manipulación locales de los datos de la detección a distancia que
complementarían esos datos de sensores no son prácticos para muchos científicos.
Actualmente un análisis de nube en progreso, que utilice tanto los datos de detección
a distancia, como los datos de sensor para calcular cambios en la evapotranspiración
en Estados Unidos en los últimos 10 años, descargará 3 terabytes de imágenes y
usará 4 000 horas de procesamiento para generar menos de 100 mb de resultados.
No hacer el análisis en una computadora de escritorio aprovecha el ancho de banda,
así como la gran capacidad de almacenamiento temporal y la capacidad de cómputo
disponible en la nube.
Los estudios de síntesis también generan la necesidad de herramientas de colabo-
ración en la nube. Los datos científicos tienen valor para sus propietarios, ya que ge-
neran publicaciones, apoyos, reputación y estudiantes. Compartir datos con los otros
debería aumentar más que disminuir ese valor. Determinar un sistema apropiado de
citas, reconocimientos o políticas de coautoría para artículos de síntesis se mantiene
como un área de discusión activa en colaboraciones más grandes como Fluxnet10 y el
10
www.fluxdata.org
North American Carbon Program.11 Las limitaciones de espacio y autoría en revistas
especializadas son puntos importantes en estas discusiones. Abordar el aspecto ético
de qué significa ser un coautor es fundamental: ¿Es suficiente contribuir con datos
cuya obtención requirió un esfuerzo físico e intelectual significativo? Una vez que
sean acordados los lineamientos, herramientas sencillas de colaboración en la nube
pueden reducir de manera importante las logísticas requeridas para publicar un
artículo, proveer un espacio para encontrar autores con quien colaborar y permitir
a los investigadores mantenerse al corriente de cómo sus datos son utilizados.
CÓMO LA CIBERINFRAESTRUCTURA ESTÁ CAMBIANDO LA CIENCIA ECOLÓGICA
La inundación de datos ecológicos romperá la compartimentalización científica y

permitirá una nueva generación de investigación científica. El objetivo de compren-
der los impactos del cambio climático está impulsando una investigación que abarca
disciplinas como la fisiología vegetal, ciencias del suelo, meteorología, oceanografía,
hidrología y geomorfología fluvial. Salvar las diferencias en las escalas de tiempo y
longitud involucradas en estos estudios requerirá una colección de modelos de coopera-
ción. Sintetizar las observaciones de campo con esos resultados de modelos en escalas
de tiempo y longitud clave es crucial para el desarrollo y validación de dichos modelos.
La diversidad en el tamaño de conjuntos de datos ecológicos, la semántica de los
conjuntos de datos y los intereses de quienes publican datos presentan un reto para
la ciberinfraestructura que se abordará en los próximos años. La ciencia de síntesis
impulsa conversaciones directas y también virtuales entre científicos de diferentes
orígenes. Los avances en las representaciones de metadatos pueden romper las barre-
ras semánticas y sintácticas que dificultan dichas conversaciones. Las visualizaciones
de datos, que van desde una sencilla síntesis como la que aquí presentamos a mundos
virtuales más complejos, también son elementos clave en esas conversaciones. Acce-
der por medio de la nube a conjuntos de datos explorables y distribuidos, así como
habilitar análisis de datos en la nube más cercanos a los gigantescos conjuntos de
datos, posibilitará una nueva generación de ciencia transdisciplinaria.
11
www.nacarbon.org/nacp

Una visión de la JOH N R . DE L AN EY

University of Washington
oceanografía en el año 2020 ROG E R S. BARGA

Microsoft Research
E
l océano global es la última frontera física en la Tie-
rra. Cubre 70% de la superficie del planeta, es el bioma
más grande y complejo que conocemos. El océano es un
enorme depósito móvil de calor y masa química. Por ello,
es el “motor” que impulsa a los sistemas meteorológicos y climáticos
por medio de las cuencas oceánicas y los continentes, incidiendo
directamente en la producción de alimento, las sequías y las inun-
daciones en la tierra. El agua es, en la práctica, opaca a la radiación
electromagnética, por lo que el fondo marino no ha sido tan bien
cartografiado como las superficies de Marte y Venus, y aunque las
relaciones espaciales dentro de las cuencas oceánicas se conocen
bien en un primer nivel, las variaciones temporales a corto y largo
plazos y las complejidades de las dinámicas oceánicas son poco
comprendidas.
Por ser el mayor depósito de desechos generados por el ser hu-
mano, el océano ha absorbido prácticamente la mitad del carbono
fósil emitido desde 1800. Las cuencas oceánicas son una fuente de
riesgo: terremotos, tsunamis y tormentas gigantes. Estos eventos
son esporádicos, potentes y a menudo altamente móviles, además de
ser frecuentemente impredecibles. Dado que las cuencas oceánicas
son una vasta, aunque finita, reserva de recursos vivos y no vivos,
los usamos para obtener energía y muchos de los minerales nece-
sarios para mantener una amplia gama de estilos de vida. Muchos
científicos creen que los volcanes submarinos fueron el crisol en que se fraguaron
los orígenes de la vida en la Tierra y tal vez en otros planetas. Los océanos conectan
a todos los continentes; no son propiedad de nadie y, sin embargo, nos pertenecen a
todos en virtud de su naturaleza móvil. Los océanos pueden ser vistos como un pa-
trimonio de la humanidad; la responsabilidad y el sustento de vida de todos nosotros.
COMPLEJIDAD OCEÁNICA
Nuestro reto es optimizar los beneficios y mitigar los riesgos de vivir en un planeta
en el que predominan dos grandes fuentes de energía: la energía solar, que propulsa
la atmósfera y gran parte de las capas superiores del océano; y el calor interno, que
propulsa a las capas tectónicas y zonas inferiores del océano. Por más de 4 000 mi-
llones de años el océano global ha respondido e integrado los impactos de estas dos
poderosas fuerzas, mientras que la Tierra, los océanos, la atmósfera y la vida han
coevolucionado. Como resultado, nuestros océanos han tenido una larga y compli-
cada historia, generando la inmensa complejidad del sistema actual, en el que miles
de procesos físicos, químicos y biológicos interactúan de manera continua en varias
escalas de tiempo y espacio, mientras los océanos mantienen nuestro ecosistema en
una “zona de confort” de escala planetaria.
La figura 1 muestra una pequeña fracción de esta complejidad, la cual es constan-
temente propulsada por energía desde arriba y desde abajo. Una comprensión más
profunda de este “sistema de soporte vital global” requiere enfoques de investigación
completamente frescos que permitan que los procesos oceánicos de amplio espectro
y de naturaleza interactiva sean estudiados de manera simultánea e interactiva por
muchos científicos, enfoques que permitan una revisión continua in situ de los víncu-
los entre muchos procesos en un marco temporal y espacial coherente. El desarrollo
de estos nuevos y poderosos enfoques es tanto el reto como la visión de la siguiente
generación de la ciencia oceanográfica.
PERSPECTIVA HISTÓRICA
Durante miles de años, los humanos se han hecho a la mar en barcos para escapar,
conquistar, comercializar y explorar. Entre octubre de 1957 y enero de 1960, lanza-
mos el primer satélite a órbita terrestre y nos sumergimos en la parte más profunda
del océano. En los últimos 50 años, barcos, satélites y submarinos han sido las piezas
clave de la investigación y exploración oceanográfica, que ha estado fundamental-
mente enfocada a lo espacial. Estamos ahora en el umbral de un avance tecnológico
que impulsará el descubrimiento oceánico; esta vez la exploración se enfocará en el

FIGURA 1.
Dos fuentes primarias de energía influyen poderosamente en las cuencas oceánicas: la luz solar
con su energía radiante y el calor interno cuya aportación se da por convección y conducción.
Entender la complejidad de los océanos requiere documentar y cuantificar —en un marco espacio-
temporal bien definido que abarque décadas— innumerables procesos que están constantemente
cambiando e interactuando entre ellos.
Ilustración diseñada por John Delaney y Mark Stoermer;
creada por el Center for Environmental Visualization (cev)
para el Programa neptune .
ámbito temporal y en procesos interactuantes. Esta nueva era se alimentará de nuevas
tecnologías que están evolucionando rápidamente. Estos cambios definen el escenario
de lo que Marcel Proust llamó “el verdadero viaje de descubrimiento, [que] no consiste
en buscar nuevos paisajes, sino en aprender a verlos con nuevos ojos”.
En muchos sentidos, esta “visión” de la siguiente generación de investigación y
educación oceanográfica exige el uso de un amplio espectro de tecnologías innovado-
ras, para simultánea y continuamente “ver”, o detectar, muchos procesos diferentes
que operan a través de volúmenes enteros del océano desde una perspectiva interna
al océano. Algunas de estas mismas capacidades permitirán la detección in situ a
distancia de cambios críticos que suceden dentro de volúmenes seleccionados del
océano. La reconfiguración rápida de matrices prioritarias de sensores conectadas
a internet vía cables electro-ópticos submarinos nos permitirá capturar, visualizar,
documentar y medir fenómenos energéticos y otros fenómenos antes inaccesibles
como volcanes en erupción, patrones de migraciones importantes, grandes depre-
siones submarinas, enormes terremotos, tormentas gigantes y una multitud de otros
fenómenos complejos, que en gran medida han sido inaccesibles al estudio científico.
EL CUARTO PARADIGMA
El muestreo océano se ha realizado croónicamente de manera insuficiente desde que

los seres humanos han tratado de describir su complejidad innata. En un sentido muy
real, el conjunto actual de los modelos numéricos o teóricos computacionalmente
intensivos del comportamiento oceánico ha rebasado el nivel requerido de datos ne-
cesarios para anclar esos modelos a la realidad. Como consecuencia, no hemos sido
capaces de acercarnos a modelos predictivos útiles acerca del verdadero comporta-
miento de los océanos. Sólo mediante la cuantificación de potentes acontecimientos
episódicos, como tormentas gigantes y volcanes en erupción, dentro del contexto
de cambios decenales a largo plazo, comenzaremos a acercarnos a modelos predic-
tivos y confiables del comportamiento oceánico. Con el paso del tiempo, como los
modelos adaptativos se refinan progresivamente mediante la comparación continua
con los datos verdaderos que emanan de los sistemas reales, ganamos lentamente la
capacidad de predecir el comportamiento futuro de estos sistemas naturales inmen-
samente complejos. Para lograr este objetivo debemos adoptar medidas que cambien
radicalmente la forma en que nos aproximamos a la oceanografía.
Este camino tiene varios pasos cruciales. Debemos ser capaces de documentar las
condiciones y medir flujos dentro del volumen del océano, simultáneamente y en tiempo
real, en un amplio rango de escalas de tiempo y espacio, independientemente de la

profundidad, la energía, la movilidad o la complejidad de los procesos involucrados.
Estas mediciones deben realizarse utilizando matrices co-localizadas de muchos tipos
de sensores, operados por muchos investigadores durante periodos que abarquen
desde décadas hasta siglos. Estos datos deben ser reunidos, archivados, visualizados
y comparados inmediatamente con simulaciones de modelo que estén explícitamen-
te configuradas para lidiar con la complejidad en escalas de tiempo y espacio que
permitan la comparación con las mediciones reales.
Este enfoque ofrece tres grandes ventajas: (1) Los modelos deben emular pro-
gresivamente las mediciones reales mediante la constante comparación con datos
para captar el verdadero comportamiento de los océanos en el “espacio de modelo”
y entonces avanzar hacia simulaciones más predictivas; (2) Cuando los modelos y
los datos no coincidan, en el supuesto que los datos sean válidos, debemos adaptar
inmediatamente sistemas de sensores robóticos marinos para caracterizar completa-
mente los eventos que se están desplegando, debido a que obviamente ofrecen mejor
entendimiento de las complejidades que buscamos captar en los modelos fallidos;
(3) Al hacer y archivar todas las observaciones y medidas en marcos espacio-tempora-
les coherentemente indexados, se permite a muchos investigadores (incluso aquellos
no involucrados en la recolección de datos) examinar correlaciones entre cualquiera
de los fenómenos seleccionados durante, o mucho después, el tiempo que los eventos o
procesos ocurran. Si los datos archivados están inmediata y ampliamente disponibles
por medio de internet, las posibilidades de descubrimiento aumentan considerable-
mente debido al creciente número de investigadores potenciales que pueden explorar
un espectro rápidamente creciente del “espacio de parámetros”. Para los científicos
que trabajan en este entorno intensivo en datos, será necesario desarrollar un nuevo
paquete de productos para el flujo de trabajo científico que facilite archivar, asimilar,
visualizar, modelar e interpretar la información acerca de todos los sistemas científicos
de interés. Varias memorias de talleres que ofrecen ejemplos de estos “productos para
el flujo de trabajo” están disponibles en la bibliografía de acceso libre [1, 2].
EMERGENCIA Y CONVERGENCIA
La oceanografía se está convirtiendo en la beneficiaria de un conjunto de potentes

tecnologías emergentes impulsadas por muchas comunidades que son totalmente
ajenas al mundo de la investigación oceanográfica —que incluyen, aunque sin limi-
tarse a ellas, nanotecnología, biotecnología, tecnología de la información, modelado
computacional, tecnologías de la imagen y robótica—. Más poderosa será la progresiva
convergencia de estas capacidades propiciadoras al ser adaptadas para llevar a cabo,
de maneras novedosas, complejas operaciones marinas a distancia por medio de la
combinación de tecnologías innovadoras en sistemas apropiados de investigación o
experimentación.
Por ejemplo, actividades de apoyo habilitadas por computadora deben incluir sis-
temas de almacenamiento masivo de datos, computación en la nube, flujo de trabajo
científico, visualización avanzada y supercomputación portátil. En lugar de usar
baterías y satélites para operar instalaciones remotas, serán usados energía eléctrica
y el gran ancho de banda de la fibra óptica para transformar los tipos de activida-
des científicas y educativas que pueden ser realizadas en el océano. La adaptación
de cables electro-ópticos con estándares industriales para uso en la investigación
oceanográfica puede cambiar fundamentalmente la naturaleza de la telepresencia
humana en la totalidad del volumen de los océanos al introducir por primera vez
la energía y ancho de banda cotidianamente disponibles al “espacio oceánico”. La
óptica de alta resolución y la detección acústica serán parte de la tecnología ampliada
de “los sistemas de imagen oceánica”. Estos enfoques incluirán el uso rutinario de
video de alta definición, en estéreo de ser necesario, así como sonar de alta resolu-
ción, lentes acústicos, imagenología láser y muestreo volumétrico. Las tecnologías
avanzadas de sensores incluirán detección química, móvil y a distancia, usando
espectrómetros de masa, cromatógrafos de gas, análisis eco-genómico y técnicas de
muestreo adaptativas.
UN ENFOQUE INTEGRAL
Después de décadas de planificación [3, 4], la National Science Foundation (nsf) de

Estados Unidos está a punto de invertir más de 600 millones de dólares a seis años
en la construcción y operación temprana de una novedosa infraestructura conocida
como la Ocean Observatories Initiative ( ooi) [4]. El programa está diseñado para 25
años. Además de efectuar las muy necesarias mediciones costeras y de alta latitud,
apoyadas por sistemas de comunicación satelital de relativamente escaso ancho de
banda, esta iniciativa incluirá la transformadora tarea de implementar sistemas de
observación de cableado electro-óptico en la región noreste del Océano Pacífico [5-7],
cerca de las costas de Washington, Oregon y Columbia Británica, como se muestra
en la figura 2.1
Estas redes interactivas y distribuidas de sensores en Estados Unidos y Canadá
crearán un “laboratorio natural” de gran apertura para llevar a cabo una amplia
1
w ww.interactiveoceans.ocean.washington.edu

FIGURA 2.
Una sección de la ooi se centra en el comportamiento dinámico de la Placa de Juan de Fuca y los
procesos energéticos en el océano y la atmósfera suprayacentes. Los cambios recientes en los nodos
regionales de escala (rsn, por sus siglas en inglés) se han centrado en la entrega de los elementos
mostrados en rojo, y los componentes en rosa indican expansiones futuras. El recuadro muestra la
cresta del volcán submarino Axial a lo largo de la dorsal activa de Juan de Fuca. El sitio correspon-
diente a cada bloque cuadrado proporcionará una cantidad sin precedentes de energía eléctrica y
ancho de banda disponibles para la investigación y la educación. Muchos de los procesos mostra-
dos en la figura 1 pueden ser examinados en estos sitios.
Imagen creada por cev para ooi - rsn .
gama de experimentos innovadores a largo plazo dentro del volumen oceánico, uti-
lizando control en tiempo real sobre todo el sistema de “laboratorio”. Extender sin
precedentes el poder y ancho de banda a una gran variedad de sensores interactivos,
instrumentos y robots diseminados a lo largo de las aguas oceánicas, en la interfaz
aire-mar, sobre el fondo marino y en perforaciones debajo del lecho marino impul-
sará una nueva etapa en la creatividad y exploración del dominio temporal entre
un amplio espectro de investigadores. La Universidad de Washington conduce el
componente cableado de la iniciativa nsf, conocido como los Nodos Regionales de
Escala (anteriormente conocido, y financiado, como neptune); la Universidad de
Victoria está a cargo del proyecto en Canadá, bajo el nombre de neptune Canadá.
FIGURA 3.
La próxima generación de científicos o ciudadanos. Esta imagen virtual muestra un pulpo del
océano profundo, conocido como Grimpoteuthis, y una parte del sistema hidrotermal submarino
de la dorsal de Juan de Fuca. Tales representaciones en tiempo real de video de alta definición en
tercera dimensión serán rutinarias dentro de cinco años.
Diseño gráfico realizado por Mark Stoermer y creado por cev para neptune en 2005.
Los dos enfoques fueron concebidos conjuntamente en el año 2000 como una cola-
boración entre Estados Unidos y Canadá. El Consortium for Ocean Leadership, en
Washington, D.C., administra e integra todo el sistema ooi para la nsf. La Woods
Hole Oceanographic Institution y la Universidad de California, en San Diego, son
responsables de supervisar las secciones Costera-Global y Ciberinfraestructura del
programa, respectivamente. La Oregon State University y la Scripps Institution of
Oceanography son participantes en la sección Costera-Global de la ooi.
El enfoque del observatorio oceánico cableado revolucionará la oceanografía al
proporcionar acceso interactivo a los datos e instrumentos oceánicos 24 horas al
día los 365 días del año en un plazo de dos a tres décadas. Más de 1200 km de cable
electro-óptico submarino proporcionarán muchas decenas de kilowatts de poder a
los nodos en el fondo marino, donde instrumentos que podrían distribuirse en un
radio de más de 50 km para cada nodo estarán conectados de manera directa o a

través de cables de extensión secundarios. El cable primario proporcionará entre 2.5
y 10 gigabits de conectividad de ancho de banda entre el suelo y un número cada vez
mayor de paquetes fijos de sensores y plataformas móviles de sensores. Esperamos
el desarrollo de una amplia variedad de enfoques novedosos hacia la oceanografía
que estarán basados en la disponibilidad del ancho de banda y energía in situ. Una de
las ventajas más importantes será la obtención de datos en tiempo real y el control
de mando de flotas de vehículos remotamente operados (vro) y vehículos submari-
nos autónomos (vsa). La infraestructura será adaptable, expandible y exportable a
usuarios interesados. La política de datos de la ooi requiere que toda la información
esté disponible en internet para todos los usuarios interesados (con la excepción de
la información concerniente a la seguridad nacional).
Físicamente conectados a internet, los observatorios cableados proporcionarán a
científicos, estudiantes, educadores y al público en general, acceso virtual a lugares
notables de nuestro planeta que rara vez son visitados por humanos. En la práctica,
internet se extenderá al fondo del mar, con la capacidad de interactuar con una
multitud de instrumentos, incluyendo video de alta definición en vivo desde diversos
entornos dentro del océano, como se ilustra en la figura 3. Los sistemas de los obser-
vatorios cableados podrán captar procesos en la escala de placas tectónicas, remolinos
oceánicos de mesoescala e incluso en escalas más pequeñas. La investigación sobre
algunas actividades responsables del cambio climático, la productividad biológica
en la base de la cadena alimenticia o el crecimiento de zonas afectadas por la acidi-
ficación oceánica, entre otras, se verá facilitada por esta nueva infraestructura. Y la
misma inversión en dicha infraestructura permitirá nuevos estudios sobre centros
de expansión mesooceánicos, fallas transformantes, y especialmente sobre procesos
en la zona de subducción en la base del talud continental que podrían desencadenar
terremotos masivos en la región noroeste del Pacífico.
Este laboratorio oceánico interactivo será posible gracias a una ciberinfraestructura
compartida que integre múltiples observatorios, miles de instrumentos, decenas de miles
de usuarios y petabytes de datos. Los objetivos del observatorio oceánico cableado pue-
den lograrse únicamente si el trabajo en el mar se complementa con una infraestructura
de vanguardia en tecnología de la información, que sea resultado de un importante
esfuerzo cooperativo entre científicos computacionales y científicos oceanográficos.
Esta colaboración permitirá que los científicos interactúen con el océano mediante el
mando y control de sensores en tiempo real; proporcionará de manera continua datos
a los modelos; automatizará el control de calidad y la calibración de los datos, y apoyará
nuevos enfoques respecto a la administración, análisis y visualización de datos.
¿HASTA DÓNDE SE PUEDE LLEGAR?
La figura 4 muestra algunas de las capacidades potencialmente transformadoras

que podrían surgir en la ciencia oceanográfica para el año 2020. En el largo plazo,
la ventaja clave de la incorporación sin precedentes de energía y ancho de banda en
la investigación de las cuencas oceánicas será su potencial para gestar diseños y de-
sarrollos audaces e integradores que mejoren nuestra comprensión, y quizá nuestra
habilidad para predecir el comportamiento de las interacciones entre la Tierra, los
océanos y la atmósfera, así como su relación con un hábitat planetario sustentable.
CONCLUSIÓN
El observatorio oceánico cableado combina los avances tecnológicos radicales en

tecnologías de sensores, sistemas robóticos, comunicación de alta velocidad, eco-
genómica y nanotecnología con la infraestructura del observatorio oceánico. Estas
nuevas relaciones transformarán sustancialmente los enfoques que los científicos,
educadores, tecnólogos y legisladores, tomen al interactuar con el océano global di-
námico. En las próximas décadas, la mayoría de las naciones instrumentará sistemas
de este tipo en las líneas costeras de sus mares territoriales. En la medida en que los
datos estén disponibles de forma rutinaria por internet y aumente el refinamiento
de estos sistemas, internet se convertirá en la herramienta de investigación oceano-
gráfica más poderosa del planeta. De esta manera, el legado de Jim Gray continuará
creciendo en la medida en que aprendamos a descubrir verdades y conocimientos
en los datos que tenemos “en el cajón” listos para analizar.
Si bien el observatorio cableado tendrá profundas ramificaciones en la manera en
que los científicos, ingenieros y educadores realizarán sus actividades profesionales,
el efecto de mayor alcance podría ser el cambio significativo en las actitudes del
público hacia los océanos, así como hacia el proceso científico. Los datos en tiempo
real y las comunicaciones de alta velocidad inherentes a los observatorios cableados
a distancia también abrirán nuevos espacios para que el público pueda interactuar
con el mundo natural.
Concluyendo, el tener modelos predictivos del funcionamiento oceánico basados
en décadas de refinar simulaciones muy complejas por computadora, comparándolas
con observaciones de alta calidad provenientes de redes distribuidas de sensores,
formará la base para aprender a gestionar o, al menos adaptarse, al más poderoso
sistema de modulación de clima en el planeta: el océano global.

FIGURA 4.
Algunos de los desarrollos transformantes que podrían llegar a ser rutinarios dentro de cinco años
con el poder que añade un sistema de soporte cableado. La imagen superior muestra sistemas
miniaturizados de análisis genómico adaptados de laboratorios terrestres al océano para permitir
a los científicos que, al presionar un botón en su laboratorio, puedan muestrear, a cientos de
kilómetros, el flujo ambiental y ejecutar dentro del océano operaciones de secuenciación de genes
in situ. Unos minutos después de tomar la decisión de examinar microbios en la erupción de una
pluma de manto submarina o de un brote estacional de fitoplancton, los datos obtenidos pueden
ser puestos a disposición en internet. La imagen inferior muestra una ilustración conceptual de
este laboratorio analítico-biológico controlado a distancia que descansa en el fondo marino y que
permite diversas y fundamentales mediciones y disecciones que pueden realizarse in situ usando
video de alta definición en estéreo para realizar a distancia manipulaciones de alta precisión.
Conceptos científicos aportados por Ginger Armbrust y John Delaney; diseño gráfico de Mark Stoermer para cev.
AGRADECIMIENTOS
Agradecemos la importante aportación de Jim Gray, quien afirmó contundentemente

que los observatorios cableados oceánicos, aunados al uso de gran ancho de banda
y flujo de datos en tiempo real, serían fundamentales para el progreso humano y
la comprensión del mundo en el que vivimos. Nos complace reconocer el apoyo de
la Universidad de Washington, la National Science Foundation y el Consortium for
Ocean Leadership, así como al grupo Microsoft External Research por su colabo-
ración técnica y apoyo financiero. La nsf y el National Oceanographic Partnership
Program apoyaron de manera significativa el desarrollo de las primeras etapas del
concepto neptune, de 1998 a 2005, mediante el apoyo económico a J. R. Delaney.
Contribuyeron en gran medida a la elaboración de este manuscrito: Deborah Kelley,
Nancy Penrose y Mark Stoermer, quienes además participaron en conversaciones
sobre su contenido.
REFERENCIAS
[1] Microsoft Research, “Project Trident: A Scientific Workflow Workbench Brings Clarity to Data”,
http://research.microsoft.com/en-us/collaboration/focus/e3/workflowtool.aspx.
[2] Dos direcciones electrónicas referentes al taller de la NSF sobre los retos de los flujos de trabajo
científicos: http://grids.ucs.indiana.edu/ptliupages/publications/IEEEComputer-gil.pdf;
http://vtcpc.isi.edu/wiki/index.php/Main_Page.
[3] National Research Council of the National Academies, Enabling Ocean Research in the 21st
Century: Implementation of a Network of Ocean Observatories, Washington, D.C., The National
Academies Press, 2003, p. 220.
[4] “Ocean Observatories Initiative (OOI) Scientific Objectives and Network Design: A Closer Look”,
2007, http://ooi.ocean.washington.edu/cruise/cruiseFile/show/40. Sitio Web del Consortium for
Ocean Leadership para la Ocean Observatories Initiative: www.oceanleadership.org/
programs-and-partnerships/ocean-observing/ooi.
[5] J. R. Delaney, F. N. Spiess, S. C. Solomon, R. Hessler, J. L. Karsten, J. A. Baross, R. T. Holcomb,
D. Norton, R. E. McDuff, F. L. Sayles, J. Whitehead, D. Abbott y L. Olson, “Scientific Rationale
for Establishing Long-Term Ocean Bottom Observatory/Laboratory Systems”, en P. G. Teleki,
M. R. Dobson, J. R. Moore y U. von Stackelberg (comps.), Marine Minerals: Resource Assessment
Strategies, Dordrecht, D. Reidel Publishing Company, 1987, pp. 389-411.
[6] J. R. Delaney, G. R. Heath, A. D. Chave, B. M. Howe y H. Kirkham, “NEPTUNE: Real-Time
Ocean and Earth Sciences at the Scale of a Tectonic Plate”, Oceanography, vol. 13, pp. 71-79, 2000,
http://dx.doi.org/10.5670/oceanog.2000.37.
[7] A. D. Chave, B. St. Arnaud, M. Abbott, J. R. Delaney, R. Johnson, E. Lazowska, A. R. Maffei, J.
A. Orcutt y L. Smarr, “A Management Concept for Ocean Observatories Based on Web Services”,
en Proc. Oceans ’04/Techno-Ocean ’04, Kobe, Japan, Nov. 2004, vol. 4, pp. 2187-2193, doi: 10.1109/
OCEANS.2004.1406486.

Acercando el cielo nocturno: ALYSSA A .

GOODMAN
descubrimientos en la Harvard University

CU RTIS G . WONG
Microsoft Research
avalancha de datos
A
lo largo de la historia, los astrónomos han estado
acostumbrados a que los datos les caigan del cielo. Sin
embargo, nuestra relativamente reciente capacidad
de almacenar los datos celestes en “nubes” nos ofrece
nuevas y fascinantes formas de acceso, distribución, uso y análisis
de datos, tanto en el ámbito de la investigación como en el educa-
tivo. Consideremos tres preguntas relacionadas entre sí: (1) ¿Qué
tendencias se han visto, y pronto se verán, en el crecimiento de
la recopilación de datos e imágenes provenientes de telescopios?
(2) ¿Cómo se podría enfrentar el creciente desafío de encontrar la
proverbial aguja en este pajar de datos para facilitar el conocimiento
científico? (3) ¿Qué oportunidades de visualización y análisis nos
depara el futuro?
TENDENCIAS EN EL CRECIMIENTO DE LOS DATOS
La astronomía tiene una historia de recopilación de datos que se

remonta al menos a Stonehenge, hace más de tres milenios. Con
el paso del tiempo, el formato de la información registrada por
los astrónomos ha cambiado, desde el tallado en piedra hasta los
registros escritos, y de los dibujos a mano, a las fotografías y a
los medios digitales.
Si bien el telescopio (ca. 1600) y la apertura del espectro elec-
tromagnético hacia longitudes más allá de las visibles para el ojo
humano (ca. 1940) dieron lugar a cambios cualitativos en la naturaleza de las inves-
tigaciones astronómicas; aumentaron muy poco el volumen de los datos recopilados,
en comparación con lo que produjo el advenimiento de la era digital.
Los dispositivos de acoplamiento de carga (ccd, por sus siglas en inglés), cuyo
uso se generalizó en la década de 1980, y los detectores equivalentes en longitudes
de onda no ópticas se volvieron mucho más eficientes que los tradicionales medios
analógicos (por ejemplo, placas fotográficas). Esto produjo un incremento en la tasa
de recolección de fotones que se vio reflejado en el aumento progresivo (y con el
potencial de perpetua aceleración) de datos disponibles para los astrónomos. El au-
mento de las capacidades y la caída del precio de los dispositivos digitales utilizados
en el procesamiento de señales, análisis de datos y almacenamiento de datos, junto
con la expansión de la World Wide Web, transformó la astronomía de una ciencia
observacional a una ciencia digital y computacional.
Por ejemplo, el Gran Telescopio para Rastreos Sinópticos (Large Synoptic Sur-
vey Telescope, lsst) que se construirá en esta década producirá, por un margen
significativo, más datos en su primer año de funcionamiento —1.28 petabytes—
que cualquier otro telescopio en la historia. El lsst logrará esta proeza utilizando
ccd muy sensibles con un gran número de pixeles, en un telescopio relativamente
grande, de óptica muy veloz (f/1.234) y con un amplio campo de visión (9.6 grados
cuadrados), que capture una gran cantidad de exposiciones cortas (en lugar de las
tradicionales exposiciones largas) que pueden ser utilizadas para el estudio del com-
portamiento temporal de fuentes astronómicas. Y si bien el lsst, el Pan-starrs y
otros megaproyectos astronómicos venideros —muchos de longitudes de onda no
ópticas— producirán enormes conjuntos de datos que abarcarán todo el cielo, otros
grupos e individuos continuarán agregando sus conjuntos de datos, más pequeños,
pero potencialmente más específicos.
En el resto de este capítulo daremos por supuesto que el desafío de administrar este
crecimiento explosivo de datos será resuelto (probablemente a través de la utilización
inteligente de almacenamiento en “la nube” y estructuras novedosas de datos); en
cambio, nos centraremos en cómo ofrecer mejores herramientas y novedosos análisis
técnicos y sociales, que nos permitirán conocer más acerca de nuestro universo.
Una serie de nuevas tendencias nos puede ayudar a encontrar las “agujas en los
pajares” de los datos disponibles a través de internet, incluyendo la “externalización
colectiva” (crowdsourcing), la democratización del acceso mediante nuevas tecnologías
de navegación y el creciente poder de cómputo.

EXTERNALIZACIÓN COLECTIVA
El proyecto Sloan Digital Sky Survey (sdss) se emprendió con la finalidad de capturar
las imágenes y medir el espectro de millones de galaxias. La mayoría de las imágenes
de galaxias nunca han sido vistas por un ser humano, ya que se han extraído automá-
ticamente de imágenes de campo ancho reducidas por procedimientos automáticos.
Para probar la afirmación de que un mayor número de galaxias giran en sentido
antihorario que en sentido horario, el equipo Sloan utilizó código hecho a la medida
para crear una página Web que presentara imágenes de galaxias a miembros del
público dispuestos a jugar el juego en línea Galaxy Zoo, que consiste principalmente
en clasificar la dirección de giro de las galaxias. Algoritmos ingeniosos en el “Zoo”
presentan la misma galaxia a varios usuarios como un índice de referencia y para
averiguar el grado de exactitud de los jugadores.
Los resultados globales del primer año de clasificación de galaxias por el público
demostraron ser tan precisos como los realizados por astrónomos. Más de 50 mi-
llones de clasificaciones de un millón de galaxias fueron hechas por el público en
el primer año, y la hipótesis de preferencia de una determinada dirección de giro
fue finalmente refutada. En este periodo, Hanny van Arkel, una maestra de escuela
en Holanda, encontró una galaxia que es ahora la galaxia más azul conocida en el
universo. Ha estado bajo intenso escrutinio de los principales telescopios, incluyendo
el radiotelescopio Very Large Array (vla), y pronto será estudiada por el telescopio
espacial Hubble.
LA DEMOCRATIZACIÓN DEL ACCESO MEDIANTE NUEVAS TECNOLOGÍAS DE NAVEGACIÓN
El tiempo necesario para adquirir datos sobre cualquier objeto astronómico aumenta
por lo menos tan rápidamente como el cuadrado de la distancia al objeto, por lo que
cualquier servicio que pueda acumular conjuntos específicos de imágenes y datos ya
capturados, efectivamente nos acerca el cielo nocturno. El uso de datos archivados
en línea almacenados en una “nube de datos” se ha facilitado con las nuevas herra-
mientas de software, tales como el World Wide Telescope (wwt) de Microsoft, que
permite un acceso intuitivo a las imágenes del cielo nocturno, cuya adquisición les
ha tomado a los astrónomos miles y miles de horas de uso de telescopio.
Al utilizar el wwt (como se muestra en la figura 1) cualquier persona puede des-
plazarse por el cielo y acercarse a cualquier parte que desee en longitudes de onda
desde rayos x hasta radiofrecuencia, y también puede navegar por medio de un
modelo tridimensional del universo construido a partir de observaciones reales, sólo
para ver lo que está ahí. Cualquiera puede observar una correspondencia inusual
FIGURA 1.
La vista del World Wide Telescope de la región 30 Doradus cerca de la Gran Nube de Magallanes
Imagen cortesía de National Optical Astronomy Observatory/
National Science Foundation
entre rasgos característicos a diferentes longitudes de onda en una posición del cielo,
y a continuación, con sólo un clic, tener acceso a todos los artículos científicos que
hacen referencia a esa posición. Cualquier persona puede conectar un telescopio
a una computadora donde esté corriendo el wwt y superponer nuevas imágenes
en vivo sobre las imágenes en línea de cualquier zona del cielo, en prácticamente
cualquier longitud de onda. Cualquier persona puede ser guiada en sus exploracio-
nes mediante “recorridos” narrados y generados por usuarios del wwt. Entre más
recorridos se produzcan, más el wwt se convertirá en un verdadero “navegador del
cielo”, donde el cielo sea el sustrato para conversaciones acerca del universo. Los
exploradores navegarán por senderos que se cruzan en objetos de interés común,
vinculando ideas y personas. Brincar de un recorrido a otro será como navegar de
una página Web a otra hoy en día.
Pero el poder del wwt va mucho más allá de su capacidad de funcionar como
un programa independiente. Es, y continuará siendo, parte de un ecosistema de

astronomía en línea, que acelerará el progreso de la ciencia tanto “ciudadana” como
“profesional” en los próximos años.
Microsoft, mediante el wwt, y Google, mediante Google Sky, han creado entor-
nos de interfaz de programación de aplicaciones (api, por sus siglas en inglés) que
permiten al software de navegación celeste funcionar dentro de una página Web.
Estas API permiten crear lo que sea, desde entornos educativos para niños hasta
sitios de “ciencia ciudadana” y sitios de distribución de datos para exploraciones
astronómicas profesionales.
Herramientas como Galaxy Zoo son ahora fáciles de implementar gracias a las
API. Por ello, ahora corresponde a las comunidades astronómicas y educativas apro-
vechar la disposición del público para analizar la creciente afluencia de datos. Los
alumnos de preparatoria hoy en día pueden utilizar datos de satélites que nadie
ha analizado aún para hacer descubrimientos reales acerca del universo, en lugar
de simplemente deslizar bloques por planos inclinados, en su clase de física. Los
astrónomos aficionados pueden recoger datos para cubrir información faltante que
estudiantes, profesionales y otros astrónomos solicitan en línea. Las posibilidades
de colaboración y educativas son realmente ilimitadas.
El papel del wwt y herramientas similares en la astronomía profesional seguirá
ampliándose. En particular, el wwt se ha convertido ya en una mejor vía de acceso
a proyectos de inspección celeste que cualquier herramienta profesional existente.
El wwt, como parte de los esfuerzos internacionales de creación de un “observato-
rio virtual”, está siendo ligado a herramientas cuantitativas y de investigación a las
que los astrónomos están acostumbrados, con el fin de proporcionar un hermoso
visor contextual de información que normalmente sólo se puede ver por partes. Ya
ha comenzado a restaurar las visiones integrales a las que los astrónomos estaban
acostumbrados antes de que la era digital separara el cielo en pequeños trozos y
formatos incompatibles.
CRECIENTE PODER DE CÓMPUTO
En 10 años, los procesadores multinúcleo permitirán a los clústeres de computadoras

comerciales incrementar su capacidad de dos a tres órdenes de magnitud por encima
de las computadoras actuales. ¿Cómo ayudará todo este poder de cómputo para en-
frentar la avalancha de datos? Computadoras más rápidas, así como el incremento del
ancho de banda y la capacidad de almacenaje, permitirán que nuestro abordaje con-
temporáneo sea escalado a conjuntos de datos mayores. Además, formas totalmente
nuevas de manipulación y análisis de datos serán accesibles. Por ejemplo, técnicas de
visión artificial ya empiezan a aparecer en cámaras digitales comerciales que cuentan
con funciones de detección y reconocimiento facial como características comunes.
Una mayor potencia de cómputo nos permitirá clasificar y potencialmente iden-
tificar casos atípicos de objetos, eventos y datos que, tan pronto sean detectados,
serán dirigidos a redes ciudadano-científicas para confirmación. La participación de
científicos ciudadanos en la red de alerta en esta “etapa final” de detección puede
ser optimizada mediante interfaces mejor diseñadas que transformarán el trabajo en
juego. Las interfaces podrían, potencialmente, conectar la confirmación humana de
objetos con redes globales de juegos y simulaciones donde datos en tiempo real son
ampliamente distribuidos e integrados a juegos multijugador masivos, que integren
continuamente la correcta identificación de los objetos en la métrica de éxito de los
juegos. Juegos de este tipo podrían darle a los jóvenes una oportunidad de elevar su
prestigio social entre sus jugadores pares, al mismo tiempo que hacen una contri-
bución significativa a la ciencia.
VISUALIZACIÓN Y ANÁLISIS PARA EL FUTURO
El wwt ofrece un atisbo al futuro. Con el crecimiento de la diversidad y de la escala

de los datos recopilados, el software tendrá que volverse más sofisticado en términos
de cómo se accede a los datos, al mismo tiempo, tendrá que ser cada vez más intuitivo,
personalizable y compatible.
La manera de mejorar herramientas como el wwt probablemente estará ligada al
desafío más amplio de cómo mejorar la forma en que las herramientas de visualiza-
ción y análisis de datos pueden ser usadas de manera conjunta en todos los campos,
no únicamente en la astronomía.
Los retos de análisis y visualización en diversos campos científicos son más pare-
cidos que diferentes. Imaginemos, por ejemplo, a un astrónomo y a un científico del
clima trabajando en paralelo. Ambos quieren estudiar las propiedades de sistemas
físicos que son observados en un sistema de coordenadas esféricas. Ambos quieren
acceder fácilmente a, por ejemplo, las observaciones de línea espectral de algunas
fuentes en posiciones específicas sobre una esfera (por ejemplo para estudiar la
composición de una atmósfera estelar o el CO2 en la atmósfera terrestre), al contexto
de estas posiciones en la esfera, y a artículos científicos y discusiones en línea acerca
de estos fenómenos.
Hoy, aún dentro de una disciplina, los científicos se encuentran con frecuencia
con muchas opciones respecto a cómo lograr la misma tarea parcial en el análisis,
pero ningún paquete las realiza todas de la manera en que ellos preferirían. En el

futuro existirá la posibilidad para científicos o especialistas en datos que trabajen
con científicos, de diseñar su propio software, engarzando diferentes componentes y
aplicaciones modulares según sus necesidades. Así, por ejemplo, tanto el astrónomo
como el científico del clima podrían utilizar una versión generalizada del wwt como
parte de un sistema personalizado que vincule paquetes específicos para tareas como
el análisis espectral de línea.
CONCLUSIÓN
La pregunta que vincula los tres temas que hemos discutido aquí es: ¿Cómo podemos
diseñar nuevas herramientas para enriquecer el descubrimiento frente a la avalancha
de datos que se avecina en astronomía? La respuesta parece centrarse en mejorar la
vinculación entre los recursos existentes, incluyendo ciudadanos científicos dispuestos
a ayudar en el análisis de datos; navegadores de imágenes accesibles como el wwt;
y más herramientas personalizadas de visualización que son compiladas a partir de
componentes comunes. Este enfoque, que busca conectar (y reutilizar) de manera
continua componentes diversos, será probablemente usado en muchas áreas de la
ciencias —no sólo en astronomía— en la década venidera.
La instrumentación de la Tierra: MICHAE L LE H NING

NICHOL AS DAWES
redes de sensores de próxima MATHIAS BAVAY

WSL Institute for
Snow and Avalanche
generación y las ciencias Research SLF
MARC PAR L ANG E
del ambiente École Polytechnique

Fédérale de Lausanne
SUMAN NATH
FE NG ZHAO
L
Microsoft Research
os crecientes desafíos ambientales a escala mundial y
una mayor conciencia del cambio climático global seña-
lan la necesidad urgente de que los científicos ambientales
desarrollen la ciencia de una nueva y mejor manera. Los
sistemas actuales de monitoreo ambiental de gran escala, con su
baja resolución espacio-temporal, no sólo son caros sino también
incapaces de revelar las complejas interacciones entre los compo-
nentes atmosféricos y los de la superficie terrestre con la suficiente
precisión para generar modelos exactos del sistema ambiental.
Ésta es especialmente la situación en las regiones montañosas con
superficies de gran complejidad —la fuente de gran parte del agua
dulce del mundo y de los patrones climáticos—. Las cantidades de
datos necesarios para comprender y modelar estas interacciones son
tan masivas (se cuentan en terabytes, y siguen en aumento) que no
hay soluciones prefabricadas que permitan a los científicos admi-
nistrar y analizar fácilmente dichos datos. Lo anterior ha conducido
a un rápido crecimiento de la colaboración global entre científicos
ambientales y computacionales para abordar estos problemas de
manera sistemática y para desarrollar tecnologías de sensores y
de bases de datos que permitirán a los científicos ambientales llevar
a cabo sus experimentos de nueva generación.
LA CIENCIA AMBIENTAL DE PRÓXIMA
GENERACIÓN
Nieve y hielo
Como se muestra en la figura 1, la ciencia

ambiental de próxima generación está mo-
tivada por las siguientes observaciones por
parte de la comunidad de las ciencias de Deslave
la atmósfera: en primer lugar, el desafío Humedal
más importante en la predicción meteo-

LIDAR Muestreo
rológica y climática está representado por DT
procesos de interacción entre la tierra y la BAFU
atmósfera; en segundo lugar, el efecto me-

dio que una superficie irregular produce
en la atmósfera puede ser muy diferente FIGURA 1.
a un efecto que se calcule promediando Un contexto típico de fuente de datos para
una propiedad particular de superficie, la ciencia ambiental de próxima generación,
con un despliegue heterogéneo de senso-
tal como sucede con la temperatura o la
res que incluye: (1) estaciones móviles, (2)
humedad [1-3] —particularmente en las estaciones meteorológicas convencionales
montañas, donde la variación de superficie de alta resolución, (3) estaciones completas
es típicamente muy alta. de nevadas y meteorología, (4) estaciones
En la figura 2 se muestra un ejemplo: meteorológicas externas, (5) imágenes de
una superficie montañosa altamente satélite, (6) radar meteorológico, (7) radar
meteorológico móvil, (8) observaciones de
compleja con rocas desnudas, permahielo
corrientes, (9) observaciones suministradas
cubierto de escombros, capa irregular de por los ciudadanos, (10) lidar terrestre (Light
nieve, árboles dispersos, y suelos superfi- Detection and Ranging: detección y alcance
ciales y profundos con vegetación variable. de la luz), (11) lidar aéreo, (12) mediciones
Todas estas características de superficie de nitrógeno/metano, (13) hidrología de nieve
pueden encontrarse dentro de un solo ki- y sondas de avalanchas, (14) sondas sísmicas,
(15) detección de temperaturas (dt) mediante
lómetro, una resolución que normalmente
fibra óptica distribuida, (16) muestreo de la
no alcanzan los modelos de predicción me- calidad del agua, (17) estaciones de medición
teorológica, ni siquiera los de generación de caudales, (18) investigación de movi-
más reciente. Los modelos existentes de mientos rápidos de masas, (19) estaciones de
predicción meteorológica y de cambio cli- escorrentías, y (20) investigación de suelos.
mático siguen funcionando con retículas
de resolución demasiado toscas (de varios kilómetros) como para cartografiar de manera
clara y correcta la heterogeneidad superficial de las montañas (y otros lugares), lo que
puede conducir a errores graves de comprensión y predicción.

778500 778750 779000 779250 779500 779750
187000
186750
186500
186250
186000
Snow DepthdeinlaMillimeters
Profundidad 4/26/2008
nieve en milímetros, 4/26/2008
No nieve
Sin Snow 600-800 1400-1600
0-200 800-1000 >1600
200-400 1000-1200
185750 400-600 1200-1400
Cartography
Cartografía and Design:
y diseño: Grünewald
Grünewald T. T.
Base de
Mapa Map: Landeskarte
base: Landeskarteder
derSchweiz
SchweizNr.
Nr.1197
1197,1:25000
1 : 25 000
FIGURA 2.
Escaneo mediante láser terrestre de la distribución de nieve en los Alpes
suizos que muestra la capa de nieve irregular típica.
En la ciencia ambiental de próxima generación el problema de la resolución de

los datos se abordará mediante el uso de redes de sensores densamente desplegadas
(generalmente inalámbricas). Los avances recientes en la detección inalámbrica han
hecho posible instrumentar y sondear el mundo físico con alta resolución y fidelidad
durante un periodo prolongado. Las conexiones inalámbricas permiten la recolección
confiable de datos mediante sensores remotos para ser enviados a laboratorios donde
son procesados, analizados y archivados. Tal detección de alta resolución permite
a los científicos comprender con mayor precisión la variabilidad y la dinámica de
los parámetros ambientales. La detección inalámbrica también proporciona a los
científicos un seguro y práctico acceso visual a los despliegues in situ de sensores,
además de permitirles activar, depurar y probar esos despliegues desde el laboratorio.
Esto ayuda a minimizar las visitas a las instalaciones, lo cual puede resultar costoso,
consumir mucho tiempo e incluso ser peligroso.
Sin embargo, los despliegues densos de sensores en ambientes hostiles y remo-
tos siguen siendo un reto por varias razones. En primer lugar, todo el proceso de
detección, cómputo y comunicación debe ser extremadamente eficiente en energía
para que los sensores puedan permanecer en funcionamiento durante un periodo
prolongado utilizando baterías pequeñas, paneles solares u otro tipo de energía
ambiental. En segundo lugar, los sensores y sus enlaces de comunicación deben
ser bastante robustos para asegurar la adquisición confiable de datos en entornos
exteriores hostiles. En tercer lugar, los datos inválidos de sensores a causa de fa-
llos en el sistema o impactos ambientales se deben identificar y ser tratados según
corresponda (por ejemplo, marcados o incluso filtrados de la colección de datos).
Aunque investigaciones recientes —incluyendo el Swiss Experiment y Life Under
Your Feet— abordan parcialmente estas cuestiones, se necesita más investigación
para abordarlos en muchos sistemas de producción.
LA ADMINISTRACIÓN Y LA EXPLORACIÓN DE VOLÚMENES MASIVOS DE DATOS DE SENSORES
La detección ambiental de alta resolución presenta a los científicos difíciles desafíos

de administración de datos. Éstos incluyen determinar maneras confiables de alma-
cenar grandes volúmenes (muchos terabytes) de datos, el intercambio de esos datos
con los usuarios siguiendo las políticas de control de acceso, y el mantenimiento de
suficiente contexto e información sobre la procedencia de los datos de los sensores
usando los metadatos correctos [4].
Los científicos ambientales pueden utilizar herramientas de bases de datos co-
merciales para abordar muchos de los desafíos tanto exploratorios como de admi-
nistración de información asociados con tal afluencia masiva de datos. Por ejemplo,
el proyecto SenseWeb de Microsoft [5] proporciona una infraestructura, que incluye
una base de datos subyacente Microsoft sql Server, para almacenar cantidades
masivas de datos de sensores que podrían comprimirse y distribuirse en múltiples
computadoras. El SenseWeb también mantiene índices adecuados de datos y per-
mite un eficiente procesamiento de consultas para ayudar a los usuarios a explorar
rápidamente el conjunto de datos y así determinar características para un análisis
detallado [5-7]. Pero incluso con estas capacidades, el SenseWeb apenas toca la punta
del iceberg de las difíciles tareas de administración de datos que enfrentan los cien-
tíficos ambientales. Se necesitan herramientas adicionales para integrar de manera
eficiente los datos de sensores con el contexto relevante y proporcionar información
de la procedencia de los datos. La consulta de tales datos en un marco unificado
sigue siendo un reto. También se necesita más investigación para tratar con datos
inciertos que provienen de sensores con ruido y para manejar el flujo constante de
datos proveniente de ubicaciones dispersas.

Para comprender me-
jor los fenómenos am-
bientales, los científicos
necesitan derivar y apli-
car diversos modelos para
transformar los datos de
sensores tanto en resul-
tados científicos como en
otros de índole práctica.
La tecnología de bases de
datos puede ayudar a los
científicos a integrar fácil-
FIGURA 3.
mente datos de observa-
SensorMap mostrando la distribución de temperatura
ción de diversas fuentes,
superpuesta en un terreno montañoso tridimensional.
posiblemente distribuidos
a través de internet, con
evaluaciones y pronósticos de modelos —un procedimiento conocido como asi-
milación de datos—. Refinadas técnicas de minería de datos pueden permitir a los
científicos explorar fácilmente patrones espacio-temporales de datos (tanto en forma
interactiva como en lotes en los datos archivados). Las técnicas de modelado pueden
proporcionar predicción correcta y oportuna de fenómenos tales como inundacio-
nes, deslizamientos o ciclos de avalanchas, que pueden ser de gran utilidad para la
intervención y la prevención de daños, incluso a tan sólo unas pocas horas de que
ocurran. Esta predicción a muy corto plazo se llama, en meteorología, predicción
inmediata (nowcasting).
Los científicos en el proyecto Swiss Experiment1 han hecho progresos en la asimi-
lación útil de datos y en la predicción inmediata. Un estudio de caso en este proyecto
utiliza sensores y modelos avanzados para la predicción de riesgos naturales alpinos
[8]. Una predicción inmediata refinada depende de la predicción meteorológica
funcional para definir el área de destino de una tormenta potencial que afectaría
una región de menor escala (unos pocos kilómetros cuadrados) en las montañas.
La predicción meteorológica funcional debiera dar tiempo suficiente para instalar
estaciones móviles locales (tales como estaciones SensorScope2) y dispositivos de
1
ww.swiss-experiment.ch
w
2
www.swiss-experiment.ch/index.php/SensorScope:Home
detección remota en el área de destino, y así establecer modelos de riesgo de alta
resolución. A largo plazo, se desarrollarán modelos especializados de predicción
meteorológica para permitir simulación local de mucha mayor precisión.
Para aumentar la conciencia ambiental de los ciudadanos y apoyar a los respon-
sables de la toma de decisiones y de la política, los hallazgos útiles de los experi-
mentos científicos se deben presentar y difundir de manera práctica. Por ejemplo, el
SenseWeb proporciona una aplicación basada en Web llamada SensorMap,3 la cual
presenta factores ambientales históricos y en tiempo real en una interfaz visual fácil
de entender. Superpone visualizaciones espaciales (tales como iconos que muestran
la contaminación actual del aire en determinada ubicación, o imágenes que mues-
tran la distribución de nevadas) en un mapa geográfico navegable; reproduce las
visualizaciones de colecciones seleccionadas de datos ambientales como una película
sobre un mapa geográfico, y muestra tendencias importantes en datos ambientales
históricos así como resúmenes útiles de datos ambientales en tiempo real (véase la
figura 3). En la actualidad, este tipo de plataformas admiten sólo un conjunto limitado
de visualizaciones, y quedan por resolverse muchos desafíos para dar soporte a las
visualizaciones más avanzadas requeridas por diversas audiencias.
EL MONITOREO AMBIENTAL GLOBAL
Hemos descrito el sistema de monitoreo ambiental de próxima generación como aisla-

do —enfocado en una región particular de interés, tal como una cadena montañosa,
un campo de hielo, o el bosque—, y es así como tales sistemas se están empezando
a desplegar. Sin embargo, prevemos sistemas de monitoreo mucho más amplios
que pueden permitir a los científicos compartir datos entre sí, así como combinar
y correlacionar datos de millones de sensores en todo el mundo para obtener una
comprensión aún mejor de patrones ambientales globales.
Tal despliegue de sensores a escala mundial introduciría beneficios y desafíos sin
precedentes. Conforme los conjuntos de datos provenientes de sensores se vuelven
cada vez más grandes, las técnicas tradicionales de administración de datos (tales
como cargarlos en una base de datos sql para después consultarla) claramente re-
sultarán inadecuadas. Para evitar el traslado de grandes cantidades de datos de un
lugar a otro, los cómputos tendrán que ser distribuidos y aproximados lo más posible
a las fuentes de datos [7]. Para reducir el espacio de almacenamiento y comunica-
ción, los conjuntos de datos tendrán que comprimirse sin pérdida de fidelidad. Para
3
www.sensormap.org

permitir el análisis de datos con latencias razonables, los cómputos debe hacerse
preferentemente sobre datos comprimidos [9]. El análisis científico muy probable-
mente también requerirá metadatos adicionales, tales como especificaciones del
sensor, configuraciones de experimentos, procedencia de los datos y otra información
contextual. Los datos de fuentes heterogéneas tendrán que integrarse en un marco
unificado de administración y exploración de datos [10].
Evidentemente, las herramientas de las ciencias computacionales pueden ha-
bilitar la ciencia ambiental de próxima generación solamente si los científicos del
área realmente las utilizan. Para acelerar su adopción por parte de los científicos,
tales herramientas deben ser intuitivas, fáciles de usar y robustas. Además, no
pueden ser recursos “unitalla” aplicables a cualquier disciplina; más bien deben ser
herramientas personalizadas específicas de cada área, o cuando menos variantes
personalizadas de herramientas genéricas. El desarrollo de estos recursos implicará
la identificación de los problemas importantes que los científicos del área estén
tratando de resolver, analizando las limitaciones de diseño y enfocándose en ca-
racterísticas importantes. Mientras que tales estrategias de ingeniería son comunes
para las aplicaciones no científicas, no suelen ser una prioridad en las aplicaciones
de la ciencia. Esto debe cambiar.
CONCLUSIÓN
La estrecha colaboración entre la ciencia ambiental y las ciencias de la computación

está conduciendo a una nueva y mejor manera de llevar a cabo la investigación cien-
tífica mediante procesos de alta resolución y fidelidad en la adquisición de datos,
la administración simplificada de grandes volúmenes de información, el potente
modelado y minería de datos, así como el efectivo intercambio y visualización de los
datos. En este capítulo hemos delineado varios desafíos para hacer realidad la visión
de la ciencia ambiental de la próxima generación. Se han logrado algunos avances
importantes en este contexto —como en el Swiss Experiment y el SenseWeb, en los
que se está utilizando una infraestructura de datos ambientales integrada y avanzada
por parte de científicos individuales y por parte de una variedad de grandes proyectos
de investigación del ambiente, dirigidos a la educación ambiental—. Mientras tanto,
se están haciendo progresos espectaculares en campos complementarios tales como
la tecnología básica de sensores. Nuestra expectativa es que todos estos avances en
la instrumentación de la Tierra nos ayudarán a materializar los sueños de la ciencia
ambiental de la próxima generación, permitiendo a los científicos, al gobierno y al
público a entender mejor y a vivir con seguridad en su ambiente.
REFERENCIAS
[1] M. Bavay, M. Lehning, T. Jonas y H. Löwe, “Simulations of Future Snow Cover and Discharge
in Alpine Headwater Catchments”, Hydrol. Processes, vol. 22, 2009, pp. 95-108, doi: 10.1002/
hyp.7195.
[2] M. Lehning, H. Löwe, M. Ryser y N. Raderschall, “Inhomogeneous Precipitation
Distribution and Snow Transport in Steep Terrain”, Water Resour. Res., vol. 44, 2008, doi:
10.1029/2007WR006545.
[3] N. Raderschall, M. Lehning y C. Schär, “Fine Scale Modelling of the Boundary Layer Wind Field
over Steep Topography”, Water Resour. Res., vol. 44, 2008, doi: 10.1029/2007WR006544.
[4] N. Dawes, A. K. Kumar, S. Michel, K. Aberer y M. Lehning, “Sensor Metadata Management and
Its Application in Collaborative Environmental Research”, ponencia presentada en la 4th IEEE
International Conference on e-Science, 2008.
[5] A. Kansal, S. Nath, J. Liu y F. Zhao, “SenseWeb: An Infrastructure for Shared Sensing”, IEEE
MultiMedia, vol. 14, núm. 4, octubre de 2007, pp. 8-13, doi: 10.1109/MMUL.2007.82.
[6] Y. Ahmad y S. Nath, “COLR-Tree: Communication Efficient Spatio-Temporal Index for a Sensor
Data Web Portal”, ponencia presentada en la 24th IEEE International Conference on Data Engi-
neering, 2008, doi: 10.1.1.65.6941.
[7] A. Deshpande, S. Nath, P. B. Gibbons y S. Seshan, “Cache-and-Query for Wide Area Sensor
Databases”, Proc. 22nd ACM SIGMOD Int. Conf. Management of Data, 2003, pp. 503-514, doi:
10.1145/872757.872818.
[8] M. Lehning y C. Wilhelm, “Integral Risk Management and Physical Modelling for Mountainous
Natural Hazards”, en S. Albeverio, V. Jentsch y H. Kantz (eds.), Extreme Events in Nature and
Society, Springer, 2005.
[9] G. Reeves, J. Liu, S. Nath y F. Zhao, “Managing Massive Time Series Streams with MultiScale
Compressed Trickles”, Proc. 35th Int. Conf. Very Large Data Bases, vol. 2, núm. 1, 2009, pp. 97-108.
[10] S. Nath, J. Liu y F. Zhao, “Challenges in Building a Portal for Sensors World-Wide”, ponencia
presentada en el First Workshop on World-Sensor-Web, 2006, doi: 10.1109/MPRV.2007.27.

2 . S A L U D Y B I E N E S TA R
SA LU D Y B I E N E S TA R
Introducción
SIMON MERCER | Microsoft Research
L
a parte 2 de este libro explora los notables progresos
y desafíos que estamos observando en la más íntima y
personal de nuestras ciencias, la que tiene repercusiones
más inmediatas sobre todos nosotros en todo el planeta:
la ciencia de la salud y la medicina.
El primer artículo plantea el escenario. Gillam et al. describen
los avances de la ciencia médica a lo largo de la historia humana
y presentan sólidos argumentos en favor de la convergencia de
tecnologías que cambiarán el rostro de la asistencia sanitaria en
el curso de nuestra vida. Los artículos restantes arrojan luz so-
bre las líneas convergentes que conforman esta imagen global, al
enfocarse en determinados desafíos que encara la ciencia médica
y en las tecnologías que se están desarrollando para superarlos.
Cualquier afirmación de que la inminente revolución en la
asistencia sanitaria será universal es creíble sólo si podemos
mostrar cómo puede cruzar las brechas económicas y sociales
del mundo moderno. Robertson y sus colaboradores muestran
que una combinación de la tecnología del teléfono celular, que
se extiende a todo el planeta, y la técnica computacional de las
redes bayesianas posibilitaría la recopilación de historiales médi-
cos computarizados en regiones donde los servicios médicos son
escasos, y también pueden ofrecer diagnósticos automatizados
y precisos.
Comprender el cerebro humano es uno de los mayores desafíos de la medicina.
Lichtman et al. describen su modo de abordar el problema de la generación de
los inmensos conjuntos de datos necesarios para entender esta intrincadísima
estructura biológica. Incluso la creación de imágenes del cerebro humano en el
nivel subcelular, con sus 160 billones de conexiones sinápticas calculadas, es un
reto que pondrá a prueba los límites del almacenamiento de datos, y éste es tan
sólo el primer paso en la deducción de la función a partir de la forma.
Un enfoque que ilustra una nueva comprensión de nuestros procesos de pen-
samiento es el que presentan Horvitz y Kristan, quienes describen técnicas para
registrar secuencias de actividad neuronal y correlacionarlas con la conducta en
los organismos más simples. Este trabajo conducirá a una nueva generación de
herramientas de software y propiciará, con la ayuda de tecnologías de aprendizaje
automático (machine learning) e inteligencia artificial, nuevas formas de compren-
der y manejar los datos médicos.
Si bien los conjuntos de datos que constituyen un historial médico personal son
varios órdenes de magnitud menores que los que describen la arquitectura del ce-
rebro, las actuales tendencias hacia los registros médicos electrónicos universales
indican que una amplia proporción de la población mundial pronto tendrá historia-
les de su salud disponibles en forma digital. Esto constituirá, en suma, un conjunto
de datos de un tamaño y una complejidad que rivalizará con los de la neurociencia,
y aquí encontraremos desafíos y oportunidades paralelos. Buchan, Winn y Bishop
aplican novedosas técnicas de aprendizaje computacional en este inmenso cuerpo
de datos médicos para automatizar la selección de terapias que rindan los mejores
resultados. Esta clase de tecnologías serán necesarias si queremos llegar al mundo
de la “singularidad de la asistencia sanitaria”, en el que la experiencia colectiva en
el cuidado de la salud humana se aprovechará para suministrar información a las
mejores prácticas clínicas a velocidades computacionales.
Aun cuando la nueva era de los historiales médicos computarizados abre la
puerta a datos médicos más accesibles y detallados, la utilidad de esta informa-
ción requerirá la adopción de criterios uniformes de codificación que permitan
establecer inferencias a partir de distintos conjuntos de datos. Cardelli y Priami
contemplan un futuro en el cual los datos médicos puedan ser transmitidos a mo-
delos ejecutables que codifiquen la lógica en que se basan los sistemas biológicos,
no sólo para ilustrar la conducta de un organismo, sino también para predecir su
condición futura o su reacción a un estímulo. En el caso de la neurociencia, esos
modelos pueden ayudarnos a entender cómo pensamos; en el caso de los historiales
60 SALUD Y BIENESTAR
médicos, pueden ayudarnos a entender los mecanismos de la enfermedad y de los
tratamientos. Si bien la creación de modelos computacionales de los fenómenos
biológicos está en sus albores, de todos modos proporciona el más fascinante
acercamiento a la naciente relación complementaria y sinérgica entre los sistemas
computacionales y los seres vivos.
La singularidad de la MICHAE L GILL AM

CR AIG FE IE D
asistencia sanitaria y la era JONATHAN

HAN DLE R
E LIZA MOODY
de la medicina semántica Microsoft

BE N SH N E IDE R MAN
CATH E R IN E
PL AISANT
Universidad de Maryland
MAR K SMITH
MedStar Health Institutes
E
for Innovation
n 1499, cuando el explor ador portugués Vasco da
JOH N DICK ASON
Gama regresó a casa después de realizar el primer viaje Profesional independiente
marítimo de Europa a la India, conservaba menos de la
mitad de la tripulación original; el escorbuto había cobra-
do las vidas de 100 de los 160 hombres. A lo largo de la Era de los
Descubrimientos,1 el escorbuto fue la causa principal de muerte
entre los marineros. Los capitanes de los navíos solían contar con
que perderían hasta la mitad de su tripulación durante sus prolon-
gados viajes. Se sospechaba que había una causa relacionada con
la alimentación, pero nadie lo había demostrado. Más de un siglo
después, en una travesía de Inglaterra a la India en 1601, el capitán
James Lancaster ordenó que la tripulación de uno de sus cuatro
barcos siguiera un régimen de tres cucharaditas de jugo de limón
al día. Hacia la mitad de la expedición, casi 40% de los hombres
(110 de 278) en tres de las naves había muerto, mientras que en el
barco provisto con limones todos habían sobrevivido [1]. La armada
británica atendió este descubrimiento con la repetición del experi-
mento… 146 años después.
En 1747 un médico de la armada británica, de nombre James
Lind, trató a marineros que padecían de escorbuto con base en
seis enfoques aleatorios y demostró que los cítricos revertían los
1
Siglos del xv al xvii.
síntomas. La armada británica respondió, 48 años después, estableciendo nuevas
pautas de régimen alimentario que ordenaran el consumo de cítricos, lo que erradicó
virtualmente el escorbuto de la flota británica de la noche a la mañana. El Ministerio
de Comercio británico adoptó prácticas dietéticas similares para la marina mercante
en 1865, otros 70 años más tarde. El lapso total desde la demostración definitiva
de Lancaster de cómo prevenir el escorbuto hasta la adopción en todo el imperio
británico fue de 264 años [2].
Por fortuna, el tránsito del descubrimiento médico a la práctica ha mejorado
sustancialmente. Pero un informe de 2003 del Institute of Medicine encontró que el
rezago entre un descubrimiento importante y la adopción de medidas de atención a
la salud de los pacientes todavía promedia los 17 años [3, 4]. Esta dilatada transición
del conocimiento a los cuidados clínicos tiene efectos negativos tanto en los costos
como en la calidad de la atención al paciente. Un examen a escala nacional de 439
indicadores de calidad arrojó el resultado de que sólo la mitad de los adultos reciben
la atención de salud recomendada por las normas nacionales de Estados Unidos [5].
EL IMPACTO DE LA EXPLOSIÓN DE LA INFORMACIÓN EN LA MEDICINA
Pese a que la tasa de adopción del conocimiento médico está mejorando significa-
tivamente, enfrentamos un nuevo desafío que se debe al incremento exponencial
en los descubrimientos en el conocimiento médico. En la actualidad, más de 18
millones de artículos están catalogados en la literatura biomédica, incluyendo más
de 800 000 agregados en 2008. Cada 20 años se ha duplicado la tasa de ingresos a
esta bibliografía, y se espera que el número de artículos por año sobrepase el millón
en 2012, como se muestra en la figura 1.
Llevar todo este conocimiento médico que va surgiendo a la práctica es un desafío
arduo y muy complejo. Hace 500 años Leonardo da Vinci pudo ser pintor, ingeniero,
músico y científico. Hace cien años se decía que un médico podía esperar, razona-
blemente, conocer todo en el campo de la medicina.2 Hoy un médico general o de
primera atención debe estar al corriente de unas 10 000 enfermedades y síndromes,
3 000 tratamientos médicos y 1 100 pruebas de laboratorio [6]. Bibliotecarios dedi-
cados a la investigación estiman que un especialista en una sola disciplina, como la
epidemiología, necesita 21 horas de estudio al día sólo para mantenerse al corriente
[7]. Ante este flujo de información médica, los clínicos suelen quedarse a la zaga,
con todo y la especialización y la subespecialización [8].
2
www.medinfo.cam.ac.uk/miu/papers/Hanka/THIM/default.htm
La sensación de sobrecarga de información en la medicina ha estado presente por
muchos años. En 1865, el doctor Henry Noyes dio una conferencia para la Sociedad
Oftalmológica de Estados Unidos que fue reveladora. Decía que “los médicos se
esfuerzan con valentía en mantener al día sus conocimientos sobre los avances en el
mundo de la medicina, pero con mucha frecuencia son los primeros en acusarse de
ser incapaces de satisfacer los deberes de su llamado diario”. Luego agregó: “El trabajo
preparatorio en el estudio de medicina es tan grande, si se hace adecuadamente, que
sólo unos pocos pueden tener tiempo para su ejecución cabal” [9].
¿ES POSIBLE QUE LA ADOPCIÓN DE CONO-

Artículos médicos CIMIENTO EN LA ASISTENCIA SANITARIA SE
catalogados cada año VUELVA CASI INSTANTÁNEA?
La rapidez con que los descubrimientos

médicos definitivos han llegado amplia-
mente a la práctica médica en los dos
últimos milenios se ha incrementado
Total de artículos
cada vez más, como se muestra en la

figura 2.
Si nos concentramos en los últimos
150 años, en los que los efectos de la in-
dustrialización y la explosión de la infor-
mación han sido más agudos, la trayec-
toria se vuelve ligeramente horizontal
aunque en gran medida sigue siendo li-
Año
neal, como muestra la figura. (Un ajuste
asintótico arroja un r 2 de 0.73, mientras
FIGURA 1.
El número de artículos biomédicos catalogados que el ajuste lineal es de 0.83.)
cada año se incrementa aceleradamente y se Puesto que incluso la velocidad de la
espera que en 2012 sobrepase el millón. luz es finita, esta tendencia será inevi-
tablemente asintótica al eje horizontal.
Sin embargo, si la linealidad puede mantenerse suficientemente por un tiempo,
podría ser que los próximos 20 años sean una época especial en que, en el campo
de la asistencia sanitaria, la conversión del descubrimiento médico en práctica médica
generalizada se vuelva casi instantánea.
La proximidad de esta trayectoria al eje ocurre alrededor del año 2025. En res-
puesta al espectacular progreso computacional observado con la ley de Moore y el
Difusión de los descubrimientos médicos
a la práctica clínica: los últimos 2 500 años
Angina
de pecho
Artemisina
Años para alcanzar la práctica médica
Autopsias
Cuarentena
Ligaduras Anestesia
Escorbuto Inoculación
Fiebre puerperal
Helicobacter
Año
Fiebre puerperal Los últimos 150 años

Pasteur
Años para alcanzar
la práctica médica
Raquitismo: luz solar Detalle del intervalo

Lister: antisepsia
Transfusiones sanguíneas
Esteroides prenatales
Raquitismo: dieta Penicilina Helicobacter pylori
Informe del National Año
Institute of Medicine 2025
Año
FIGURA 2.
Mientras que pasaron 2 300 años entre la identificación de la angina de pecho como una dolencia
y su incorporación a los programas de enseñanza médica, los modernos descubrimientos se difun-
den a una tasa cada vez más rápida. Si nos concentramos en los últimos 150 años, la tendencia
parece seguir siendo lineal, y se aproxima al eje alrededor del año 2025.
crecimiento en las arquitecturas de cómputo en paralelo y distribuidas, Ray Kurzweil,
en The Singularity Is Near, predice que 2045 será el año de la singularidad, cuando
las computadoras alcancen o excedan la capacidad computacional humana y cuando
su capacidad para mejorarse recursivamente pueda llevar a una “explosión de inteli-
gencia” que afectará definitivamente todos los aspectos de la cultura y la tecnología
humanas [10]. En matemáticas se define una “singularidad” como un punto en el
cual un objeto cambia su naturaleza para adquirir propiedades que ya no pertenecen
a las normas esperadas de esa clase de objeto. En la actualidad, la vía de difusión
de la información médica es compleja y multifacética, pues abarca anuncios comer-
ciales, conferencias, folletos, colegas y publicaciones periódicas. En un mundo con
transmisión de conocimiento casi instantánea, las vías de diseminación se volverían
digitales y directas casi por entero.
Aunque las ideas en torno a la singularidad tecnológica siguen siendo objeto de
debate,3 los autores se refieren a este momento de umbral, cuando el conocimiento
médico se vuelve “líquido” y su flujo de la investigación a la práctica (“del laboratorio
a la cama del paciente”) pierde fricción y se vuelve inmediato, como la “singularidad
de la asistencia sanitaria”.
LAS PROMESAS DE UN MUNDO POSTERIOR A LA SINGULARIDAD DE LA ASISTENCIA SANITARIA
El 20 de mayo de 1999, la Food and Drug Administration (fda) de Estados Unidos

aprobó el rofecoxib (Vioxx) como seguro y efectivo. El 30 de septiembre de 2004,
Merck lo sacó del mercado debido a la preocupación pública sobre sus posibles efec-
tos secundarios cardiovasculares. La fda calcula que en los cinco años que estuvo
en el mercado, el rofecoxib contribuyó a más de 27 000 ataques cardiacos o muertes
súbitas por daño al corazón y unos 140 000 casos de cardiopatías [11]. El rofecoxib
fue uno de los medicamentos más utilizados que se hayan retirado de las farmacias;
más de 80 millones de personas lo habían tomado, y generaba 2 500 millones de
dólares al año en ventas.4
En la actualidad es razonable esperar que, luego del anuncio del retiro del mer-
cado de un medicamento por la fda, los pacientes serán informados de ello y los
médicos clínicos inmediatamente prescribirán alternativas. Pero los canales actuales
de divulgación retrasan esa respuesta. En un mundo posterior a la singularidad de
la asistencia sanitaria, esa expectativa será satisfecha. Para permitir la transmisión
3
http://en.wikipedia.org/wiki/Technological_singularity
4
http://en.wikipedia.org/wiki/Rofecoxib
instantánea, los artículos en las publicaciones periódicas no sólo constarán de pa-
labras, sino también de bits. El texto irá mezclado con código, y los artículos sólo se
considerarán completos si incluyen los algoritmos.
Con esta automatización del conocimiento cada nuevo medicamento fluirá por una
cascada de estudios posteriores a su comercialización, los cuales serán producidos y
analizados de manera independiente por destacados especialistas en todo el mundo
(consiguiéndose así una externalización colectiva —crowdsourcing— del control de
calidad). Los productos sospechosos serán etiquetados en tiempo real y, cuando se
alcance la certeza, los fármacos no seguros desaparecerán en cadena de los sistemas
de prescripción médica de las empresas y las clínicas. Finalmente, la explosión de la
información biomédica se contendrá y aprovechará al máximo.
Otros escenarios de difusión de conocimiento serán igualmente fluidos: los resi-
dentes médicos podrán abandonar los manuales que tradicionalmente presentaban la
lista de medicamentos de elección para las enfermedades, y en su lugar optarán por
sistemas clínicos que personalicen la atención a la salud y regionalicen geográfica-
mente los tratamientos con base en las sensibilidades a los medicamentos obtenidas
en tiempo real del laboratorio de microbiología del hospital local y correlacionadas
con el perfil genómico del paciente.
También se potenciará el descubrimiento de conocimientos. Los médicos tendrán
acceso a muy precisas bases de datos de alto desempeño que contendrán los histo-
riales de los pacientes, lo que les permitirá impulsar la atención médica preventiva,
descubrir patrones de tratamiento exitosos [12, 13] y reducir los errores médicos. Los
médicos clínicos podrán generar hipótesis de causa-efecto, realizar pruebas clínicas
virtuales para ofrecer planes de tratamiento personalizados, y simular intervenciones
que puedan evitar pandemias.
Si miramos más adelante, el flujo instantáneo de conocimiento desde los cen-
tros de investigación a los frentes del cuidado clínico acelerará el tratamiento y la
prevención de enfermedades de nueva aparición. Para cuando los laboratorios de
investigación hayan identificado los epítopos que han de ser enfocados como blancos
para encarar un nuevo brote de enfermedad, los sintetizadores de proteínas/adn/arn/
lípidos ubicados en los grandes hospitales de todo el mundo recibirán instrucciones,
transmitidas remotamente desde una autoridad central, que dirigirán la síntesis
de vacunas in situ o incluso de terapias específicas con anticuerpos para su rápida
administración a los pacientes.
AVANCES HACIA LA SINGULARIDAD DE LA ASISTENCIA SANITARIA
Compañías como Microsoft y Google están construyendo nuevas tecnologías que

permitirán la fluidez de los datos y el conocimiento. Microsoft HealthVault y Google
Health son “nubes de datos de consumidor” en línea, privadas y seguras hacia las
cuales se pueden subir datos clínicos de pacientes desde dispositivos móviles y otros
sistemas de información. Muy importante es que, una vez dentro de estas “nubes de
pacientes”, los datos son propiedad del paciente. Los pacientes mismos son los que
determinan qué datos pueden ser redistribuidos y a quiénes pueden ser entregados.
Un estudio de febrero de 2009 realizado por klas examinaba una nueva clase de
soluciones de agregación de datos para la asistencia sanitaria. Estas soluciones de
agregación de datos de empresas (“nubes de datos de empresas”) unifican datos de
cientos o miles de sistemas distintos (como medseek, Carefx, dbMotion, Medicity y
Microsoft Amalga).5 Estas plataformas están empezando a servir como canales para
alimentar nubes de datos de pacientes. Un ejemplo reciente es un enlace entre el
sistema de agregación Amalga del Hospital Presbiteriano de Nueva York y el servicio
HealthVault empleado por sus pacientes.6 A través de esta clase de enlaces, los datos
pueden fluir casi instantáneamente de los hospitales a los pacientes.
La aparición de las nubes de datos de consumidor ha creado nuevas vías por las
cuales el nuevo conocimiento médico puede llegar directamente a los pacientes. El
21 de abril de 2009, la Clínica Mayo anunció el lanzamiento del Mayo Clinic Health
Advisory (Consejero de Salud de la Clínica Mayo), una aplicación en línea, mejorada
en privacidad y seguridad, que ofrece asesoría y recomendaciones de salud a la medida,
construidas a partir de la amplia experiencia clínica de la institución, y que utiliza los
datos seguros y privados de Microsoft HealthVault.7 Algo muy importante es que los
nuevos conocimientos y recomendaciones médicas pueden implementarse computacio-
nalmente en el sistema asesor y aplicarse al instante para pacientes de todo el mundo.
Las nuevas tecnologías están tendiendo puentes entre los laboratorios de investi-
gación y el ejercicio clínico. El 28 de abril de 2009, Microsoft anunció el lanzamiento
de Amalga Life Sciences, un complemento a su línea de productos de agregación de
datos para científicos e investigadores. Con este producto, Microsoft ofrece solucio-
nes escalables de “agregación y fluidez de datos” que enlazan tres nichos: pacientes,
proveedores e investigadores. Compañías como Microsoft están construyendo la
línea de conducción que permitirá el flujo de datos y conocimiento a través de una
5
www.klasresearch.com/Klas/Site/News/PressReleases/2009/Aggregation.aspx
6
http://chilmarkresearch.com/2009/04/06/healthvault-ny-presbyterian-closing-the-loop-on-care
7
www.microsoft.com/presspass/press/2009/apr09/04-21MSMayoConsumerSolutionPR.mspx
red semánticamente interoperable de pacientes, proveedores e investigadores. Estos
tipos de esfuerzos de conectividad son los que sostienen la promesa de una difusión
efectivamente instantánea del conocimiento médico por todo el sistema de asistencia
sanitaria. La singularidad de la asistencia sanitaria podría ser el acontecimiento que
dará paso a una nueva era de la medicina semántica.
La transmisión instantánea de conocimiento en la medicina no es sólo algo de
una importancia inmensa, muy deseable, valioso y alcanzable en el lapso de nuestra
vida actual, sino quizás incluso algo inevitable.
REFERENCIAS
[1] F. Mosteller, “Innovation and Evaluation”, Science, vol. 211, 1981, pp. 881-886, doi: 10.1126/
science.6781066.
[2] J. Lind, A Treatise of the Scurvy, Edimburgo, University Press, 1753. Reimpreso en 1953.
[3] E. A. Balas, “Information Systems can Prevent Errors and Improve Quality”, J. Am. Med. Inform.
Assoc., vol. 8, núm. 4, 2001, pp. 398-399, PMID: 11418547.
[4] A. C. Greiner y E. Knebel (eds.), Health Professions Education: A Bridge to Quality, Washington,
D.C., National Academies Press, 2003.
[5] E. A. McGlynn, S. M. Asch, J. Adams, J. Keesey, J. Hicks, A. DeCristofaro et al., “The Quality of
Healthcare Delivered to Adults in the United States”, N. Engl. J. Med., vol. 348, 2003, pp. 2635-
2645, PMID: 12826639.
[6] T. H. Davenport y J. Glaser, “Just-in-time Delivery Comes to Knowledge Management”, Harv. Bus.
Rev., vol. 80, núm. 7, julio de 2002, pp. 107-111, 126, doi: 10.1225/R0207H.
[7] B. S. Alper, J. A. Hand, S. G. Elliott, S. Kinkade, M. J. Hauan, D. K. Onion y B. M. Sklar, “How
Much Effort is Needed to Keep up with the Literature Relevant for Primary Care?”, J. Med. Libr.
Assoc., vol. 92, núm. 4, octubre de 2004, pp. 429-437.
[8] C. Lenfant, “Clinical Research to Clinical Practice—Lost in Translation?”, N. Engl. J. Med.,
vol. 349, 2003, pp. 868-874, PMID: 12944573.
[9] H. D. Noyes, “Specialties in Medicine”, Trans. Am. Ophthalmol. Soc., vol. 1, núm 2, junio de 1865,
pp. 57-74.
[10] R. Kurzweil, The Singularity Is Near: When Humans Transcend Biology, Nueva York, Penguin
Group, 2005, p. 136.
[11] D. J. Graham, D. Campen, R. Hui, M. Spence, C. Cheetham, G. Levy, S. Shoor y W. A. Ray,
“Risk of Acute Myocardial Infarction and Sudden Cardiac Death in Patients Treated with
Cyclooxygenase 2 Selective and Non-selective Non-steroidal Anti-inflammatory Drugs: Nested
Case-control Study”, Lancet, vol. 365, núm. 9458, febrero de 2005, pp. 475-481.
[12] C. Plaisant, S. Lam, B. Shneiderman, M. S. Smith, D. Roseman, G. Marchand, M. Gillam,
C. Feied, J. Handler y H. Rappaport, “Searching Electronic Health Records for Temporal Patterns
in Patient Histories: A Case Study with Microsoft Amalga”, Proc. Am. Med. Inform. Assoc.,
Washington, D. C., noviembre de 2008.
[13] T. Wang, C. Plaisant, A. Quinn, R. Stanchak, B. Shneiderman y S. Murphy, “Aligning Temporal
Data by Sentinel Events: Discovering Patterns in Electronic Health Records”, Proc. ACM CHI2008
Human Factors in Computing Systems Conference, ACM, Nueva York, abril de 2008, pp. 457-466,
doi: 10.1145/1357054.1357129.
La provisión de servicios de salud JOE L ROBE RTSON

DE L DE HART
Robertson Research
en los países en vías de desarrollo: Institute
KR ISTIN TOLLE
desafíos y soluciones potenciales DAVID H ECKE R MAN

Microsoft Research
L
a utilización de sistemas de información inteligentes
de asistencia sanitaria para enfrentar el doble problema de
reducir los costos de los servicios de salud y de mejorar su
calidad y sus resultados es un desafío incluso en países con
una infraestructura tecnológica razonablemente desarrollada. Gran
parte de la información y el conocimiento médicos se encuentra
todavía en forma impresa, y aun aquellos materiales que ya se han
digitalizado residen por lo general en conjuntos de datos o reposito-
rios dispersos, incluso en distintos formatos. El intercambio de datos
se da rara vez y se ve frecuentemente entorpecido por la carencia
de mecanismos seguros de anonimato para proteger la intimidad
de los pacientes. Todos estos problemas generan condiciones poco
propicias para el análisis y la minería de datos, los que harían posible
una mejor medicina predictiva y preventiva.
Los países en vías de desarrollo encaran estos mismos problemas,
además de los efectos combinados de limitaciones económicas y
geopolíticas, barreras de transportación y geográficas, un personal
clínico mucho más limitado y retos infraestructurales a la hora
de ofrecer sus servicios. Los insuficientes sistemas de supervisión
y notificación entorpecen la procuración de servicios simples y
de alto impacto, como la inmunización universal de la infancia
y la atención maternoinfantil. En un artículo reciente de Lancet,
el grupo de Christopher Murray concluyó que “la cobertura de
inmunización ha ido mejorando más len-
tamente y no con el nivel recomendado
por los informes oficiales para los países
con base en las estimaciones de la oms y
la unicef. Hay una urgente necesidad de
monitoreos, independientes y contrasta-
bles, de los indicadores de salud en esta
era de iniciativas globales orientadas por
objetivos y que financian con base en de
sempeño”. [1]
Por añadidura, el informe más reciente
sobre los Objetivos de Desarrollo del Mi-
Trabajadores de extensión sanitaria de la India lenio, de las Naciones Unidas, señala que
utilizando la plataforma de salud NxOpinion. “la neumonía mata más niños que cual-
quier otra enfermedad; sin embargo, en
los países en vías de desarrollo, la proporción de niños menores de cinco años con
posibles cuadros de neumonía que llegan a ser atendidos por trabajadores de la salud
calificados sigue siendo baja”. [2] La provisión de sistemas confiables de acopio de
datos y de apoyo diagnóstico donde se necesite, y por parte de los individuos mejor
capacitados en materia de salud, es el objetivo de los esfuerzos de la salud pública,
pero las herramientas para lograrlo han sido costosas, insostenibles e inaccesibles.
A continuación profundizaremos sobre los desafíos que encaran los servicios de
asistencia sanitaria en los países en vías de desarrollo y describiremos la tecnología,
basada en computadoras y teléfonos celulares, que hemos creado para afrontar estos
retos. La médula de esta tecnología es el NxOpinion Knowledge Manager (nxkm),1
que se ha estado desarrollando en el Robertson Research Institute desde 2002. Esta
plataforma para la salud consta de tres elementos: una base de conocimientos médicos
alimentada por un numeroso equipo de expertos de Estados Unidos y de países en vías
de desarrollo, un motor diagnóstico basado en redes bayesianas y equipo de telefonía
celular para los usuarios finales.
ESCALABILIDAD VERTICAL, HORIZONTAL E INTERNA
Uno de los más claros límites para el despliegue de un sistema de apoyo a la toma
de decisiones o de organización de historiales médicos electrónicos es la capacidad
1
www.nxopinion.com/product/knowledgemng
de escalar. El término “escalabilidad vertical” se refiere a la capacidad de un sistema
de manejar una gran base de usuarios, normalmente cientos de miles o millones. La
mayor parte de los sistemas se evalúan dentro de un rango más estrecho de usuarios.
La “escalabilidad horizontal” se refiere a la capacidad de un sistema para funcionar
en muchos países y regiones, así como a la capacidad de trabajar con diversos tipos de
enfermedades. Muchos sistemas sólo funcionan para una enfermedad determinada
y no pueden ser regionalizados fácilmente en virtud, por ejemplo, de los idiomas, las
regulaciones y los procesos locales. La “escalabilidad interna” se refiere a la capacidad
de un sistema para capturar la información de un solo individuo y cotejarla con un
valor de referencia. La mayor parte de los sistemas suponen un paciente genérico
y no logran capturar características particulares que puedan ser de utilidad en un
tratamiento individualizado.
Con respecto a la escalabilidad vertical, el nxkm ha sido puesto a prueba en India,
Congo, Ghana, Irak y República Dominicana. También ha sido evaluado en una comu-
nidad citadina con pocos servicios de salud en Estados Unidos. Con base en consultas
a expertos en escalabilidad de bases de datos, la arquitectura se ha diseñado para
combinar múltiples bases de datos individuales con una base central anonimizada
(de-identified), para así permitir, en principio, opciones de escalabilidad ilimitadas.
En cuanto a la escalabilidad horizontal, para manejar muchos tipos de enferme-
dades, y la interna, para ofrecer diagnósticos individuales precisos, la cantidad de
conocimiento requerida es enorme. Por ejemplo, internist-1, un sistema experto para
diagnósticos en medicina interna, contiene aproximadamente 250 000 relaciones
entre unas 600 enfermedades y 4 000 signos y síntomas [3]. Partiendo de un trabajo
anterior de uno de nosotros (Heckerman), quien estableció métodos eficientes para
evaluar y representar conocimientos médicos complejos mediante una red bayesiana
[4], reunimos bibliografía médica, información de libros de texto y recomendaciones
de paneles de expertos para construir una creciente base de conocimientos para
nxkm, que en la actualidad contiene más de 1 000 enfermedades y más de 6 000
signos y síntomas individuales. El sistema también escala hacia adentro al permitir
la captura de datos con gran detalle. Es posible rastrear y examinar cada uno de los
signos y síntomas registrados en un historial clínico o caso diagnóstico particular.
Este nivel de detalle permite una gran flexibilidad a la hora de determinar factores
relacionados con los resultados y la precisión del diagnóstico.
Con respecto al escalamiento horizontal para cubrir toda una región, un desafío
común en los países en vías de desarrollo es la naturaleza excepcionalmente diversa,
y específica por región, de los padecimientos médicos. Por ejemplo, una enfermedad
que es común en un país o región puede ser rara en otro. Mientras que los sistemas
expertos basados en reglas deben someterse a una completa reingeniería en cada
región, la naturaleza modular de la base de conocimientos nxkm, que está basada
en redes de similitudes probabilísticas [4], permite una rápida adaptación a cada
región. La actual encarnación de nxkm utiliza la prevalencia específica por región,
tomada de estimaciones de expertos. También puede actualizar la prevalencia en
cada región conforme se usa en el campo. El nxkm incorpora asimismo un sistema
modular que facilita la adaptación a la terminología, tratamientos e idiomas espe-
cíficos de cada región. Cuando no se conoce o no está disponible la información
específica por región, se utiliza un módulo por omisión hasta que pueden obtenerse
o identificarse dichos datos.
PRECISIÓN Y EFICIENCIA DIAGNÓSTICAS
Hay estudios que indican que incluso médicos con una excelente preparación so-
brestiman su precisión diagnóstica. En fechas recientes, el Institute of Medicine de
Estados Unidos estimó que cada año ocurren de 44 000 a 98 000 muertes prevenibles
debido a errores médicos, muchas debidas a diagnósticos equivocados [5]. En los
países en vías de desarrollo, la problemática combinada de diagnósticos equivocados
y carencia de datos no sólo reducen la calidad de los servicios médicos para la gente,
sino que también impiden la detección de brotes de enfermedades y ocasionan que
la evaluación y planificación de la salud para la población sea defectuosa.
De nuevo, construyendo sobre la metodología diagnóstica a partir de las redes de
similitudes probabilísticas [4], el nxkm emplea un motor de razonamiento bayesiano
que produce diagnósticos precisos. Un importante componente de este sistema que
provee una mayor precisión es la capacidad de hacer al usuario preguntas adicionales
que probablemente estrecharán el abanico de diagnósticos posibles. El nxkm tiene la
capacidad de solicitar al usuario signos y síntomas adicionales con base en cálculos
sobre el valor de la información (como una función de costo) [4]. También importante
para el uso clínico es la capacidad de determinar la confianza en el diagnóstico (es
decir, la probabilidad del diagnóstico más probable). Esta determinación es de especial
utilidad para los usuarios del sistema con menos formación, y es importante para
perfeccionar y supervisar los cuidados ofrecidos por los trabajadores de extensión
sanitaria (tes) en los países en vías de desarrollo, donde son escasos los conocimientos
médicos especializados.
LLEVAR LOS SERVICIOS DE SALUD A DONDE SON NECESARIOS: LA ÚLTIMA FRONTERA
Otro desafío básico es llevar los diagnósticos a donde son más necesarios. Debido a
su gran difusión en los países en vías de desarrollo, los teléfonos celulares son una
opción natural para ser un vehículo de servicio. De hecho, se piensa que en muchas
de esas áreas el acceso a los teléfonos celulares es mayor que al agua potable. Por
ejemplo, de acuerdo con la base de datos mercadotécnica Wireless Intelligence,2 80%
de la población mundial en 2008 se encontraba en el radio de cobertura de una red
celular. Y hay cifras de la International Telecommunication Union3 que muestran
que, para finales de 2006, 68% de las suscripciones a servicios de telefonía móvil en
el mundo eran de países en vías de desarrollo. Datos más recientes de la International
Telecommunication Union muestran que entre 2002 y 2007, la telefonía celular era
el área en telecomunicación de más alto crecimiento en el mundo, y que el mayor
incremento per cápita estaba en los países en vías de desarrollo.4
En consecuencia, hemos desarrollado un sistema en el cual se utilizan teléfonos
celulares para ingresar a una base de conocimientos y a un motor diagnóstico nxkm
implementado en una pc en una ubicación central. Hoy en día estamos poniendo
a prueba el uso de este sistema con tes en la India rural. Además de proporcionar
recomendaciones sobre cuidados médicos a los tes, puede emplearse la solución
teléfono/ pc central para crear registros personales de salud portátiles. Una de nues-
tras organizaciones amigas, el School Health Annual Report Programme (sharp),
lo utilizará para examinar en 2009 a más de 10 millones de escolares básicos de la
India, creando un historial clínico personal virtual de cada niño.
Otra ventaja de esta manera de proceder es que pueden utilizarse los datos re-
colectados por este sistema para perfeccionar la base de conocimientos nxkm. Por
ejemplo, como antes se mencionó, la información sobre la prevalencia de enferme-
dades específicas por región es importante para el diagnóstico preciso. Es de especial
importancia que la información sobre el brote de una enfermedad en una ubicación
determinada se obtenga a tiempo. Al usar la aplicación clínica, los casos de enfer-
medad confirmados, incluyendo los correspondientes a un nuevo brote, quedan a
disposición inmediata de nxkm. Además, los diagnósticos individuales pueden ser
monitoreados desde la central. Si se encuentra que los signos y síntomas de un pa-
ciente individual conducen a un diagnóstico poco confiable, se puede identificar al
paciente para su seguimiento.
2
www.wirelessintelligence.com
3
www.itu.int
4
www.itu.int/ITU-D/ict/papers/2009/7.1%20teltscher_IDI%20India%202009.pdf
LA INTERFAZ DE USUARIO
Un problema por superar con la tecnología celular es la muy restringida interfaz de

usuario y la dificultad de insertar datos con una pantalla y un teclado relativamente
pequeños. Nuestro sistema simplifica el proceso de varias maneras. En primer lugar,
los signos y síntomas que son comunes en una localidad determinada (por ejemplo,
datos sobre una aldea dada) se cargan de origen en el sistema. Además, como se
mencionó antes, el sistema es capaz de generar preguntas —específicamente, simples
preguntas de opción múltiple— justo después de insertarle información muy básica,
como cuál es el principal malestar. Asimismo, las preguntas pueden ser adaptadas
a la organización, ubicación o nivel de destrezas del tes.
También es importante que la interfaz de usuario sea independiente del hardware
específico del dispositivo, porque los usuarios suelen cambiar entre distintos diseños
de telefonía. Nuestra aplicación de interfaz se monta sobre una plataforma intermedia
que implementamos para múltiples dispositivos.
Además del ingreso simple de datos, la interfaz permite un fácil acceso a importan-
tes fragmentos de información. Por ejemplo, provee un resumen diario de pacientes
que necesitan atención, lo que incluye su diagnóstico, la ubicación de la localidad y
sus médicos anteriores.
SOLUCIONES PARA EL INTERCAMBIO DE DATOS
Más allá incluso de los silos de datos ya tradicionales (como epic y cerner) [5], todavía
existen barreras al intercambio de datos críticos sobre salud pública, entre ellas las
preocupaciones acerca de la privacidad y la soberanía. Asimismo, la disponibilidad
de los datos puede ser restringida regionalmente (por ejemplo, en India y África del
Sur), por organizaciones (por ejemplo, la Organización Mundial de la Salud, World
Vision o compañías farmacéuticas) o por los proveedores (por ejemplo, compañías
aseguradoras y grupos de servicios médicos). En cada uno de estos conjuntos de datos
reside un significativo valor en cuanto a la salud pública, y deberían hacerse esfuer-
zos por superar las barreras al acopio de datos para lograr construir bases de datos
globales, anonimizadas y compartidas. Tales conjuntos públicos de datos, aunque
son útiles per se, también agregan un importante valor a los conjuntos privados de
datos, al ofrecer un valioso contexto genérico a la información privada.
El nxkm importa, administra y exporta datos a través de paquetes de divulgación
(publish sets). Estos procesos permiten que diversos grupos de interés (gobiernos,
instituciones de salud pública, médicos generales, pequeños hospitales, servicios
de laboratorio y de especialidad, y aseguradoras) compartan la misma base de
El innovador método de NxOpinion presenta los datos cuando se requieren, como se
requieren y donde se requieren mediante inteligencia artificial.
datos global, interactiva y anonimizada (que resguarda la identidad), a la vez que
mantienen el control de los datos privados y protegidos.
UNA MIRADA AL FUTURO
Quedan otros desafíos por vencer. Si bien los tes más preparados son capaces de
valerse fácilmente de estas herramientas de acopio de datos y de asesoría para las
decisiones diagnósticas, otros tes como los activistas sanitarios sociales acreditados
y otros trabajadores que laboran en el primer frente en las comunidades, a menudo
son analfabetas o hablan sólo la lengua local. Estamos explorando dos soluciones
potenciales: una se vale de la tecnología del reconocimiento de voz, y la otra permite
que un usuario responda preguntas de opción múltiple a través del teclado numé-
rico de un teléfono celular. La tecnología del reconocimiento de voz provee mayor
flexibilidad en la entrada de datos, pero —al menos hasta ahora— requiere que el
reconocedor de voz sea entrenado por cada usuario.
Otro desafío es la identificación única y reproducible del paciente —la verificación
de que el sujeto que recibe el tratamiento es realmente el paciente correcto— cuando
no hay un sistema estándar de identificación para la mayoría de las poblaciones que
reciben menos servicios de salud. El reconocimiento de voz, en combinación con el
reconocimiento de rostros y nuevos métodos biométricos, junto con una confirma-
ción de la ubicación por gps, pueden ayudar a asegurar que el paciente que necesita
la atención sea realmente el que recibe el tratamiento.
Otro problema es la integridad de los datos. Por ejemplo, muchos pobladores
rurales presentarán diagnósticos que no han sido verificados por personal médico
calificado y que podrían ser erróneos. Hemos tratado de mitigar este problema
mediante un motor de inferencias que permite dar un menor peso a los datos no
comprobados.
Implementar sistemas que funcionen en cualquier punto del planeta puede con-
ducir a la creación de una enorme cantidad de información sobre los pacientes.
Almacenar, conciliar y luego tener acceso a esa información in situ, a la vez que
se atiende la seguridad y se resguarda la privacidad adecuadamente, presenta un
excepcional desafío cuando el número de pacientes llega a millones (en vez de de-
cenas de miles, como sucede con la mayoría de los actuales sistemas de historiales
médicos electrónicos). Por añadidura, sigue siendo difícil ingresar datos verificados
en tal magnitud al sistema para mejorar su capacidad de predicción y conservar a la
vez la posibilidad de analizar y recuperar segmentos específicos (minería de datos).
Un escollo final, quizás el mayor, es el de la cooperación. Si las organizaciones,
los gobiernos y las compañías estuvieran dispuestos a compartir una base de datos
global anonimizada, mientras pudieran proteger y conservar sus propias bases de
datos, los servicios de asistencia sanitaria y la ciencia médica podrían beneficiarse
enormemente. Una base de datos unificada que permita la integración entre muchas
bases de datos y sistemas de monitoreo y evaluación ayudaría a identificar, rápida y
eficientemente, resistencias a fármacos o brotes de enfermedades y a supervisar la
efectividad de los tratamientos y de las intervenciones sanitarias. La base de datos
global deberá permitir consultas que resguarden la identidad de los individuos,
pero aun así proporcionen la información suficiente para los análisis y la validación
estadísticos. Ya está empezando a aparecer esta tecnología (por ejemplo, [6]), pero
persiste el abrumador problema de encontrar un sistema de recompensas que aliente
ese tipo de cooperación.
RESUMEN
Hemos creado y estamos empezando a llevar a la práctica un sistema para la adqui-

sición, el análisis y la transmisión de información y conocimiento médicos en los
países en vías de desarrollo. El sistema cuenta con un componente central basado en
pc —que alberga conocimiento y datos médicos y tiene capacidades de hacer diag-
nósticos en tiempo real—, y está complementado por una interfaz de telefonía celular
para los trabajadores médicos en el campo. Creemos que un sistema así coadyuvará a
una mejor asistencia sanitaria en los países en vías de desarrollo, aportando mejores
diagnósticos, un acopio de datos más preciso y oportuno acerca de más individuos
y una mejor difusión del conocimiento e información médicos.
Cuando nos detenemos a considerar cómo puede aprovecharse este nuevo universo
de historiales médicos personales interconectados para perfeccionar la medicina,
podemos ver que su impacto potencial es asombroso. Si conocemos prácticamente
a cada individuo que existe, las enfermedades que lo aquejan y dónde habita; si me-
joramos la integridad de los datos, y si reunimos la información en una ubicación
central, podremos revolucionar la medicina y quizás, incluso, erradicar más enfer-
medades. Este sistema global puede monitorear los efectos de numerosos esfuerzos
humanitarios y así justificar y adaptar las acciones, los medicamentos y los recur-
sos para áreas específicas. Nuestra esperanza es que un sistema que pueda ofrecer
diagnósticos de alta calidad y reunir y diseminar rápidamente datos válidos salvará
millones de vidas. El lapso entre los llamados de alerta y las respuestas a ellos puede
volverse prácticamente instantáneo y puede, de tal modo, lograr que se identifiquen
resistencias a fármacos, brotes de enfermedades y tratamientos efectivos en una
fracción del tiempo que se necesita hoy. El potencial de dotar de tantas capacidades
al personal sanitario en los países en vías de desarrollo mediante un sistema global
diagnóstico y de bases de datos es enorme.
REFERENCIAS
[1] S. S. Lim, D. B. Stein, A. Charrow y C. J. L. Murray, “Tracking progress towards universal
childhood immunisation and the impact of global initiatives: A systematic analysis of three-dose
diphtheria, tetanus, and pertussis immunisation coverage”, Lancet, vol. 372, 2008, pp. 2031-2046,
doi: 10.1016/S0140-6736(08)61869-3.
[2] Organización de las Naciones Unidas, The Millennium Development Goals Report, onu, 2008.
[3] R. A. Miller, M. A. McNeil, S. M. Challinor, F. E. Masarie Jr. y J. D. Myers, “The Internist-1/
Quick Medical Reference Project-Status Report”, West. J. Med., vol. 145, 1986, pp. 816-822.
[4] D. Heckerman, Probabilistic Similarity Networks, Cambridge, MA, MIT Press, 1991.
[5] L. Kohn, J. Corrigan y M. Donaldson (eds.), To Err Is Human: Building a Safer Health System,
Washington, D. C., National Academies Press, 2000.
[6] C. Dwork y K. Nissim, “Privacy-Preserving Datamining on Vertically Partitioned Databases”,
Proc. CRYPTO, 2004, doi: 10.1.1.86.8559.
Descubriendo el esquema JE FF W. LICHTMAN

R . CL AY R E ID
HANSPE TE R PFISTE R
de conexiones del cerebro Harvard University
MICHAE L F. COH E N
Microsoft Research
E
l cerebro, el asiento de nuestras capacidades cognosciti-
vas, es quizás el enigma más complejo en toda la biología.
Cada segundo en el cerebro humano miles de millones de
células nerviosas corticales transmiten miles de millones
de mensajes y ejecutan cálculos extraordinariamente complejos.
El funcionamiento del cerebro —cómo su función deriva de su
estructura— sigue siendo un misterio.
El inmenso número de células nerviosas cerebrales se interco
nectan mediante sinapsis, conformando circuitos de inimaginable
complejidad. Se considera, en gran medida, que la especificidad de
estas conexiones se halla en la base de nuestra capacidad de percibir
y clasificar objetos, de nuestras conductas aprendidas (como tocar
el piano) e intrínsecas (como caminar) y de nuestros recuerdos, por
no mencionar el control de las funciones básicas, como mantener
la postura y hasta respirar. En el nivel superior, nuestras emocio-
nes, nuestro sentido de identidad y nuestra propia conciencia son,
en su totalidad, el resultado de actividades en el sistema nervioso.
En un nivel macroscópico, el cerebro humano se ha cartografiado
en regiones que pueden asociarse aproximadamente con tipos espe-
cíficos de actividades. Sin embargo, incluso este enfoque modular
está colmado de complejidad porque a menudo muchas partes del
cerebro intervienen en la ejecución de una tarea. Esta complejidad
surge, en particular, porque muchos comportamientos comienzan
con el ingreso de información sensorial, seguido de análisis, toma de decisiones y,
finalmente, de una respuesta o acción motoras.
En el nivel microscópico, el cerebro comprende miles de millones de neuronas, cada
una de las cuales está conectada con otras neuronas por varios miles de conexiones
sinápticas. Aunque se ha reconocido la existencia de estos circuitos sinápticos por más
de un siglo, carecemos de diagramas detallados de los circuitos de los cerebros huma-
nos o de cualquier otro mamífero. De hecho, sólo una vez se ha intentado establecer
un mapa de tales circuitos, y eso fue hace dos décadas en un pequeño gusano con
sólo 300 células nerviosas. El obstáculo principal ha sido la enorme dificultad técnica
relacionada con el proceso. Los recientes adelantos tecnológicos en creación de imáge-
nes, ciencia computacional y biología molecular permiten hacer un replanteamiento
de este problema. Sin embargo, aun si tuviéramos un esquema de las conexiones,
necesitaríamos conocer qué mensajes están transmitiendo las neuronas en el circuito,
algo semejante a escuchar las señales en un chip de computadora. Esto representa el
segundo impedimento para la comprensión: los métodos fisiológicos tradicionales sólo
nos permiten escuchar una fracción diminuta de los nervios en el circuito.
Para tener una idea de la escala del problema, consideremos la corteza del cerebro
humano, que contiene más de 160 billones de conexiones sinápticas, las cuales se
originan a partir de miles de millones de neuronas. Cada neurona recibe conexio-
nes sinápticas de cientos y hasta de miles de neuronas diferentes, y cada una envía
información a través de las sinapsis a un número similar de neuronas de destino.
Este enorme volumen de puntos de entrada y salida es posible porque cada neurona
tiene una geometría compleja, y posee muchas prolongaciones receptoras (dendritas)
y una prolongación de salida con muchas ramas (un axón) que pueden extenderse
por distancias relativamente largas.
Sería ideal que fuera posible hacer ingeniería inversa a los circuitos del cerebro;
en otras palabras, si pudiéramos desenredar las neuronas individuales y ver cuál
está conectada con cuál y con qué fuerza, tendríamos por lo menos las herramientas
para comenzar a descifrar el funcionamiento de un circuito determinado. Las cifras
colosales y las formas celulares complejas no son los únicos aspectos desalentadores
del problema. Los circuitos que conectan a las células nerviosas son de escala na-
noscópica. La densidad de las sinapsis en la corteza cerebral es aproximadamente
de 300 millones por milímetro cúbico.
Las imágenes por resonancia magnética funcional (irmf) han proporcionado
indicios sobre las operaciones tridimensionales del cerebro a escala macroscópica.
Sin embargo, la resolución máxima de las irmf es aproximadamente de 1 milímetro
cúbico por voxel: el mismo milímetro cúbico que puede contener 300 millones de
sinapsis. Así que hay una enorme cantidad de circuitos incluso en las imágenes
funcionales de resolución más fina del cerebro humano; además, el tamaño de estas
sinapsis es menor a la resolución límite por difracción de las tecnologías ópticas de
imagen tradicionales.
La construcción del mapa de circuitos podría apoyarse en análisis basados en
el marcado cromático de prolongaciones neuronales [1] o en el uso de técnicas que
superen el límite de difracción [2]. En la actualidad, el estándar de referencia para
el análisis de las conexiones sinápticas es el uso de la microscopía electrónica (me),
cuya resolución en nanómetros (nm) es más que suficiente para indagar los detalles
más finos de las conexiones nerviosas. Pero para determinar las conexiones de los
circuitos, es necesario superar un obstáculo técnico: la me suele muestrear gráfica-
mente secciones muy delgadas (decenas de nanómetros de grosor), así que reconstruir
un volumen requiere una “reconstrucción en serie” en la que la información gráfica
proveniente de rebanadas continuas del mismo volumen se recompone en un conjunto
de datos volumétrico. Existen distintas maneras de generar tales datos volumétricos
(véanse, por ejemplo, [3-5]), pero todas tienen el potencial de generar vastísimas
bibliotecas de datos de imágenes digitales, como se describe a continuación.
ALGUNAS CIFRAS
Si quisiéramos reconstruir por me todos los circuitos sinápticos en un milímetro

cúbico del cerebro (aproximadamente lo que podría caber en la punta de un alfiler),
necesitaríamos un conjunto de imágenes en serie que cubrieran un milímetro de
profundidad. Para precisar gráficamente, sin ambigüedad, todas las ramas axonales
y dendríticas se requeriría seccionar en espesores posiblemente no mayores a 30 nm.
Así, el milímetro de profundidad requeriría 33 000 imágenes. Para discernir todas
las vesículas (las fuentes de los neurotransmisores) y los tipos de sinapsis, cada
imagen debería tener al menos una resolución lateral de 10 nm. Una imagen de un
milímetro cuadrado con resolución de 5 nm tiene ~4 × 1010 pixeles, o sea de 10 a 20
gigapixeles. Así, el volumen de información gráfica en un milímetro cúbico estará
en el rango de 1 petabyte (250 ~ 1 000 000 000 000 000 bytes). Y el cerebro humano
contiene cerca de un millón de milímetros cúbicos de tejido nervioso.
ALGUNOS LOGROS A LA FECHA
Dado lo desalentador de esta tarea, uno estaría tentado a renunciar y buscar un problema
más simple. Sin embargo, las nuevas técnicas y tecnologías ofrecen destellos de espe-
ranza. Estamos valiéndonos de éstas con el objetivo último de crear un “conectoma”: un
diagrama completo de los circuitos del cerebro. Cumplir este objetivo requerirá la cola-
boración intensa y a gran escala de biólogos, ingenieros y científicos de la computación.
Hace tres años, los laboratorios de Reid y de Lichtman empezaron a trabajar en
mecanismos para automatizar y acelerar la me de seccionamiento en serie de gran
escala. Enfocándose particularmente en grandes volúmenes corticales en alta reso-
lución, el grupo de Reid se ha concentrado también en procesos de muy alto rendi-
miento y altamente automatizados. Hasta la fecha, su trabajo sólo se ha publicado en
forma de síntesis [3], pero confían en que pronto tendrán los primeros 10 terabytes
de datos volumétricos de anatomía cerebral de microescala. En la actualidad, existen
experimentos fisiológicos que pueden mostrar la función de prácticamente todas las
neuronas en un cubo de 300 µm. Los nuevos datos de me tienen la resolución para
mostrar prácticamente cualquier axón, dendrita y sinapsis: las conexiones físicas de
las que depende la función neuronal.
Persiste el problema de separar y seguir la pista de las neuronas individuales dentro
del volumen. No obstante, ya se han obtenido algunos resultados utilizando medios
novedosos. El laboratorio de Lichtman encontró una manera de expresar diversas
combinaciones de proteínas fluorescentes rojas, verdes y azules en ratones modifica-
dos genéticamente. Estas combinaciones aleatorias producen por ahora 90 colores o
combinaciones de colores [1]. Con este método, es posible seguir la pista de neuronas
individuales conforme se ramifican a sus sucesivas conexiones sinápticas con otras
neuronas o con los órganos de destino en los músculos. Los nervios marcados con
FIGURA 1.
Imágenes de arco iris cerebral que muestran la fluorescencia de neuronas individuales en diferentes
colores. Si seguimos la pista de las neuronas a través de bloques de rebanadas, podemos seguir la
estructura de ramificación compleja de cada neurona para crear las estructuras arborescentes en la
imagen de la derecha.
FIGURA 2.
Neuronas en una corteza visual teñidas in vivo con un colorante sensible al calcio. Izquierda:
reconstrucción tridimensional de miles de neuronas en la corteza visual de una rata, obtenida de
un bloque de imágenes (300 µm por lado). Las neuronas están codificadas cromáticamente según
la orientación del estímulo visual que más las excitó. Centro: imagen bidimensional del plano del
corte que se muestra en el panel izquierdo. Las neuronas que reaccionaron a diferentes orientaciones
del estímulo (colores diferentes) se acomodan de manera aparentemente aleatoria en la corteza.
Recuadro: Códigos de color para cada orientación del estímulo. Derecha: en comparación, la corteza
visual del gato es sumamente ordenada. Las neuronas que reaccionaron con preferencia a diferentes
orientaciones del estímulo están segregadas con una extraordinaria precisión. Esta imagen repre-
senta un mapa funcional completo en tres dimensiones de más de 1 000 neuronas en un volumen de
300 × 300 × 200 µm en la corteza visual [6, 7].
múltiples colores (el llamado “arco iris cerebral” o brainbow), como se muestra en la
figura 1, evocan el cableado en arco iris de las computadoras y sirven para el mismo
propósito: ayudar a diferenciar cables que se extienden grandes distancias.
Como estos marcadores cromáticos están presentes en el ratón vivo, es posible
monitorear los cambios en las conexiones sinápticas manteniendo en observación
las mismas regiones varias veces a lo largo de minutos, días o incluso meses
El laboratorio de Reid ha podido teñir neuronas de las cortezas visuales de ratas
y gatos de tal manera que “se encienden” cuando son activadas. Al estimular al
gato con líneas de distinas orientaciones, han sido capaces de ver literalmente qué
neuronas se activan dependiendo del estímulo visual específico. Al comparar la
organización de la corteza visual de la rata con la del gato, encontraron que, mien-
tras que las neuronas de una rata parecen distribuirse aleatoriamente a partir de
la orientación del estímulo visual, las neuronas de un gato presentan una notable
estructura. (Véase la figura 2).
Esta banda de tejido es recogida por
una correa transportadora sumergida
El tejido rota
El cuchillo FIGURA 3.
avanza El nivel de agua del
cuchillo se regula por El torno ultramicrotómico
medio de este tubo con acopio automático de
Estos movimientos sincronizados producen un de alimentación
corte en espiral a través del bloque de tejido, cinta (atlum) permite la
suministrando una banda continua de tejido al obtención eficiente de imágenes
depósito de agua del cuchillo en nanoescala de grandes
volúmenes de tejidos.
Lograr la resolución más fina con la me requiere la toma de imágenes de rebanadas

muy delgadas de tejido nervioso. Un método parte de un bloque de tejido; después
de cada paso de toma de imagen, se retira (y se destruye) una delgada rebanada
del bloque, para luego repetir el proceso. Investigadores del grupo de Lichtman en
Harvard crearon un nuevo aparato —una especie de torno de alta tecnología que
denominan “torno ultramicrotómico para recolección automática en cinta” (atlum,
por sus siglas en inglés de automatic tape-collecting lathe ultramicrotome)— que permite
la obtención eficiente de imágenes en nanoescala de grandes volúmenes de tejido.
(Véase la figura 3).
El atlum [3] corta automáticamente un bloque empotrado de tejido cerebral en
miles de secciones ultradelgadas y las recoge en una larga cinta recubierta de car-
bono para su posterior tintura y toma de imágenes en un microscopio electrónico
de barrido (meb). Como el proceso es completamente automatizado, volúmenes de
decenas de milímetros cúbicos —tan grandes como para abarcar circuitos neuronales
multirregionales completos— pueden ser reducidos, rápida y confiablemente, a una
cinta de secciones ultradelgadas. Las imágenes meb de estas secciones recogidas por
el atlum pueden alcanzar resoluciones laterales de 5 nm o mejores, suficientes para
hacer imágenes de vesículas sinápticas individuales y para identificar y seguir todas
las conexiones del circuito.
Las finísimas rebanadas son imágenes de una pequeña región en un momento
dado. Una vez que se obtiene una serie de imágenes individuales, éstas deben em-
palmarse para formar imágenes muchos más grandes, y posiblemente apilarse en
FIGURA 4.
hd View permite explorar interactivamente esta imagen de
2.5 gigapixeles. Izquierda: rebanada de tejido nervioso. El
elemento gris de mayor tamaño en el centro es el núcleo de
una neurona. Centro: primer plano de un capilar y un axón
mielinizado. Derecha: primer plano de capas de mielina que
rodean el corte transversal de un axón. Abajo: acercamiento
que muestra las diminutas vesículas que rodean a una conexión
sináptica entre estructuras muy finas.
FIGURA 5.
NeuroTrace permite a los neurocientíficos explorar y segmentar en forma interactiva prolongacio-
nes nerviosas en datos de me de alta resolución.
volúmenes. En Microsoft Research se ha hecho el trabajo de unir y luego observar
interactivamente imágenes que contienen miles de millones de pixeles.1 Una vez
que estas imágenes con dimensiones que alcanzan los gigapixeles se organizan
en una pirámide jerárquica, la aplicación hd View puede difundir en tiempo real
por la Web las imágenes para ser observadas por quien las requiera.2 Esto permite
la exploración de elementos de gran escala y de muy pequeña escala. La figura 4
muestra un recorrido por el resultado.
Una vez que las imágenes son capturadas y empalmadas, es necesario apilar múl-
tiples rebanadas de una muestra para ensamblarlas en un volumen coherente. Quizás
la tarea más difícil en ese punto sea la extracción de hebras individuales de neuronas.
En Harvard se está trabajando para proveer herramientas interactivas que ayuden
a delinear las “prolongaciones” celulares individuales y seguirlas entre rebanada y
rebanada para extraer cada fibra dendrítica y axonal [8, 9] (véase la figura 5). Es
posible que sea aún más arduo encontrar automáticamente las interfaces sinápticas;
sin embargo, los adelantos en las interfaces de usuario y las técnicas de visión articial
alimentan la esperanza de que el proceso completo pueda ser manejable.
Descifrar el conectoma completo del cerebro humano es uno de los grandes de-
safíos del siglo xxi. Los adelantos en el nivel biológico y en el técnico conducirán
con toda seguridad a nuevos logros y descubrimientos, y es de esperar que ayuden a
responder preguntas fundamentales sobre cómo nuestro cerebro realiza el milagro
del pensamiento.
REFERENCIAS
[1] J. Livet, T. A. Weissman, H. Kang, R. W. Draft, J. Lu, R. A. Bennis, J. R. Sanes y J. W. Lichtman,
“Transgenic Strategies for Combinatorial Expression of Fluorescent Proteins in the Nervous
System”, Nature, vol. 450, 2007, pp. 56-62, doi: 10.1038/nature06293.
[2] S. Hell, “Microscopy and its Focal Switch”, Nature Methods, vol. 6, 2009, pp. 24-32, doi: 10.1038/
NMeth.1291.
[3] D. Bock, W. C. Lee, A. Kerlin, M. L. Andermann, E. Soucy, S. Yurgenson y R. C. Reid, “High-
throughput Serial Section Electron Microscopy in Mouse Primary Visual Cortex Following in
vivo Two-photon Calcium Imaging”, Soc. Neurosci. Abstr., vol. 769, núm. 12, 2008.
[4] W. Denk y H. Horstmann, “Serial Block-face Scanning Electron Microscopy to Reconstruct
Three-dimensional Tissue Nanostructure”, PLoS Biol., vol. 2, e329, 2004, doi: 10.1017/
S1431927606066268.
[5] K. J. Hayworth, N. Kasthuri, R. Schalek y J. W. Lichtman, “Automating the Collection of
Ultrathin Serial Sections for Large Volume TEM Reconstructions”, Microsc. Microanal., vol. 12,
2006, pp. 86-87.
1
http://research.microsoft.com/en-us/um/redmond/groups/ivm/ICE
2
http://research.microsoft.com/en-us/um/redmond/groups/ivm/HDView
[6] K. Ohki, S. Chung, Y. H. Ch’ng, P. Kara y R. C. Reid, “Functional Imaging With Cellular
Resolution Reveals Precise Microarchitecture in Visual Cortex”, Nature, vol. 433, 2005,
pp. 597‑603, doi:10.1038/nature03274.
[7] K. Ohki, S. Chung, P. Kara, M. Hübener, T. Bonhoeffer y R. C. Reid, “Highly Ordered
Arrangement of Single Neurons in Orientation Pinwheels”, Nature, vol. 442, 2006, pp. 925-928,
doi:10.1038/nature05019.
[8] W. Jeong, J. Beyer, M. Hadwiger, A. Vazquez, H. Pfister y R. Whitaker, “Scalable and Interactive
Segmentation and Visualization of Neural Processes in EM Datasets”, IEEE Trans. Visual. Comput.
Graphics, octubre de 2009.
[9] A. Vazquez, E. Miller y H. Pfister, “Multiphase Geometric Couplings for the Segmentation of
Neural Processes”, Proceedings of the IEEE Conference on Computer Vision Pattern Recognition
(CVPR), junio de 2009.
Hacia un microscopio E R IC HORVITZ

Microsoft Research
computacional para WILLIAM KR ISTAN

San Diego
la neurobiología
S
i bien se han dado grandes avances en neurobiología,
todavía no comprendemos cómo la sinfonía de la comu
nicación entre las neuronas conduce a las complejas y
competentes conductas en los animales. ¿Cómo se rela-
cionan las interacciones locales entre las neuronas con la dinámica
conductual de los sistemas nerviosos, lo que da a los animales sus
impresionantes capacidades para sentir, aprender, decidir y actuar
en el mundo? Muchos detalles permanecen envueltos en el misterio.
Nos entusiasman las promisorias posibilidades de obtener nuevos
conocimientos mediante la aplicación de métodos computacionales,
en especial los procedimientos de aprendizaje e inferencia automá-
ticos, para producir modelos explicativos a partir de los datos acerca
de las actividades de poblaciones de neuronas.
NUEVAS HERRAMIENTAS PARA LOS NEUROBIÓLOGOS
Durante la mayor parte de la historia de la electrofisiología, los neu-

robiólogos han estudiado las propiedades de membrana de las neuro-
nas de vertebrados e invertebrados utilizando micropipetas de vidrio
rellenas de una solución conductora. Con el dominio de técnicas que
impresionarían al más experto de los relojeros, los neurocientíficos
han fabricado electrodos de vidrio con puntas que a menudo tienen
un diámetro menor a una micra, y han empleado maquinaria espe-
cial para insertar esas puntas en los cuerpos celulares de neuronas
individuales, con la esperanza de que éstas funcionen como normalmente lo hacen
dentro de conjuntos mayores. Este tipo de procedimiento ha proporcionado datos
sobre los voltajes de membrana y los potenciales de acción de una célula individual
o de unas cuantas células.
No obstante, está cambiando la relación entre los neurobiólogos y los datos referen-
tes a los sistemas nerviosos. Nuevos dispositivos para la toma de registros permiten
disponer de datos sobre la actividad de grandes poblaciones de neuronas. Esos datos
hacen que los procedimientos computacionales sean cada vez más necesarios como
herramientas experimentales para permitir una nueva comprensión de las conexio-
nes, la arquitectura y la maquinaria general de los sistemas nerviosos.
La aparición de rápidos métodos ópticos de generación de imágenes abre nuevas
posibilidades para la experimentación y el modelado en una escala más amplia. Con
este método, se usan colorantes y fotomultiplicadores para determinar los niveles de
calcio y los potenciales de membrana de las neuronas, y ello con una alta resolución
espacial y temporal. Estos registros ópticos de alta fidelidad permiten a los neuro-
biólogos examinar la actividad simultánea de poblaciones de decenas a miles de
neuronas. En un tiempo relativamente corto, los datos disponibles sobre la actividad
de las neuronas han dejado de ser exiguos trozos de información, obtenida mediante
el muestreo de unas cuantas neuronas, para convertirse en observaciones de gran
escala de la actividad neuronal.
Los conjuntos de datos espaciotemporales sobre las conductas de las poblaciones
de neuronas plantean impresionantes desafíos inferenciales, tanto como oportu-
nidades. Probablemente la próxima oleada de nociones sobre la base neurofisiológica
de la cognición provendrá de la aplicación de nuevos tipos de lentes computacionales
que dirigirán una “óptica” teórico-informática hacia corrientes de datos espaciotem-
porales relativos a poblaciones neuronales.
Prevemos que algún día los neurobiólogos que estudian poblaciones de neuronas
requerirán de herramientas que sirvan como microscopios computacionales: sistemas
que aprovecharán tecnologías de aprendizaje, razonamiento y visualización automá-
ticos para ayudar a los neurocientíficos a formular y poner a prueba hipótesis a partir
de los datos. Incluso, las inferencias derivadas del flujo de datos espaciotemporales
extraídos de una preparación pueden superponerse a las exploraciones ópticas tradi-
cionales durante los experimentos, ampliándolas con anotaciones que pueden ayudar
en la conducción de la investigación.
Los análisis computacionales intensivos servirán de base para el modelado y la
visualización de datos de poblaciones de dimensiones intrínsecamente altas, donde
múltiples unidades neuronales interactúan y contribuyen a la actividad de otras
neuronas o conjuntos de ellas, y donde las interacciones son potencialmente depen-
dientes del contexto (los circuitos y los flujos pueden ser dinámicos, momentáneos
y hasta simultáneos en el mismo sustrato neuronal).
COMPUTACIÓN Y COMPLEJIDAD
Vemos en el futuro muchas oportunidades para aprovechar cómputos de alta veloci-

dad que ayudarán a los neurobiólogos en la ciencia de extraer inferencias de los datos
de poblaciones de neuronas. Ya se ha aplicado el análisis estadístico en estudios de
poblaciones de neuronas. Por ejemplo, se han utilizado métodos estadísticos para
identificar y describir la actividad neuronal como trayectorias en grandes espacios
de estado dinámicos [1]. Nos entusiasma la posibilidad de emplear portentes recur-
sos de aprendizaje y razonamiento automáticos para inducir modelos explicativos a
partir de bibliotecas de datos sobre poblaciones neuronales. Dichos procedimientos
computacionales inductivos pueden ayudar a los científicos a entrever hallazgos en
datos brutos sobre actividad neuronal al efectuar búsquedas en grandes conjuntos de
opciones alternativas y evaluar la plausibilidad de diferentes modelos explicativos. Los
métodos computacionales pueden trabajar en múltiples niveles de detalle, desplazán-
dose desde el nivel base de la exploración de circuitos de conectividad y funcionalidad
local de neuronas hasta abstracciones de más alto nivel, potencialmente valiosas,
de poblaciones neuronales; estas abstracciones pueden ofrecernos representaciones
simplificadas del funcionamiento de los sistemas nerviosos.
Más allá de generar explicaciones a partir de observaciones, los modelos inferen-
ciales pueden utilizarse para calcular el valor esperado de la información, ayudando a
los neurocientíficos a identificar el siguiente mejor examen por ejecutar o la informa-
ción por recabar, a la luz de los objetivos e incertidumbres del momento. Calcular el
valor de la información puede ayudar a dirigir estudios de intervención; por ejemplo,
orientar la decisión de estimular unidades específicas, fijar o “clampear” el voltaje
de determinadas células o ejecutar una modificación selectiva de la actividad celular
mediante agentes farmacológicos agonistas o antagonistas.
Pensamos que hay promisorias posibilidades en los sistemas tanto automatizados
como interactivos, incluyendo los que se usan en instalaciones en tiempo real como
herramientas de uso común. Algún día las herramientas computacionales incluso
podrían ofrecer asesorías en tiempo real para realizar exámenes e intervenciones;
ellas constarían de visualizaciones y recomendaciones que se generarían en forma
dinámica durante los estudios de imagen.
Más allá del estudio de sistemas animales específicos, es muy probable que las
herramientas computacionales para analizar datos de poblaciones neuronales sean
muy valiosas en los estudios de la construcción de los sistemas nerviosos durante la
embriogénesis, así como en la comparación de los sistemas nerviosos en diferentes
especies de animales. Tales estudios pueden revelar los cambios en los circuitos y en
la función durante el desarrollo y a través de las presiones de la adaptación evolutiva.
ESPECTRO DE COMPLEJIDAD
Los neurobiólogos estudian los sistemas nerviosos de invertebrados y vertebrados en

todo un espectro de complejidad. Los cerebros humanos están compuestos por unos
100 000 millones de neuronas que interactúan entre sí a través de unos 100 000 billo-
nes de sinapsis, según se estima. En contraste, el cerebro del nematodo Caenorhabditis
elegans (C. elegans) posee tan sólo 302 neuronas. Tales sistemas nerviosos de in-
vertebrados nos ofrecen una oportunidad de aprender sobre los principios de los
sistemas neuronales, que pueden generalizarse a sistemas más complejos, entre ellos
el nuestro. Por ejemplo, C. elegans ha sido un sistema modelo para la investigación
sobre la estructura de los circuitos neuronales; se han hecho grandes avances para
determinar el mapa de las precisas conexiones entre sus neuronas.
Muchos neurobiólogos deciden estudiar sistemas nerviosos más simples aunque su
principal motivación sean cuestiones relacionadas con la naturaleza neurobiológica
de la inteligencia humana. Los sistemas nerviosos derivan de un árbol genealógico de
sucesivos refinamientos y modificaciones, así que es probable que aspectos críticos del
procesamiento de la información neuronal se hayan conservado en cerebros de una
amplia gama de complejidades. Si bien nuevas abstracciones, capas e interacciones
pueden haber evolucionado en sistemas nerviosos más complejos, es probable que
cerebros de diversas complejidades se basen en un entramado neuronal similar; y
hay mucho que ignoramos de ese entramado.
En colaboración con nuestros colegas Ashish Kapoor, Erick Chastain, Johnson
Apacible, Daniel Wagenaar y Paxon Frady, hemos tratado de utilizar sistemas de
aprendizaje, razonamiento y visualización automáticos para comprender la maquina-
ria en que se basa la toma de decisiones en Hirudo, la sanguijuela medicinal europea.
Hemos estado aplicando análisis computacionales para hacer inferencias a partir de
datos ópticos acerca de la actividad de poblaciones de neuronas dentro de los ganglios
segmentados de Hirudo. Los ganglios están compuestos por unas 400 neuronas, y
las imágenes ópticas revelan la actividad de aproximadamente 200 neuronas cada
vez: todas las neuronas de un lado del ganglio. En la figura 1 se presentan varios
FIGURA 1.
Imágenes de una secuencia de neuronas de Hirudo
antes de su decisión de nadar o arrastrarse.
cuadros de imágenes ópticas de Hirudo. La brillantez de cada una de las imágenes de

neuronas representa el nivel de despolarización de las células, lo que está a la base
de la producción de los potenciales de acción.
Estamos desarrollando análisis y herramientas con el fin de crear microscopios
computacionales para comprender la actividad de las poblaciones neuronales y su
relación con la conducta. En esta búsqueda, estamos generando modelos gráficos
temporales y probabilísticos que pueden predecir la próxima conducta de Hirudo
a partir de una pequeña ventana de análisis de datos poblacionales. Los modelos
se generan buscando entre grandes espacios de modelos viables en los cuales las
neuronas, y abstracciones de neuronas, sirven como variables aleatorias y donde
las dependencias temporales y atemporales se infieren de entre las variables. Los
métodos pueden revelar módulos de neuronas que parecen cooperar entre sí, y
que aparecen en forma dinámica durante el curso de la actividad que conduce a la
toma de decisiones por parte del animal. En un trabajo complementario, estamos
considerando el papel de los estados neuronales en la definición de las trayectorias
a través de los espacios de estado de un sistema dinámico.
SURGIMIENTO DE UN MICROSCOPIO COMPUTACIONAL
Ya empezamos a construir visores y herramientas interactivas que permiten a los cien-

tíficos manipular suposiciones y parámetros inferenciales e inspeccionar visualmente
las implicaciones. Por ejemplo, se han diseñado barras de desplazamiento (sliders)
FIGURA 2.
Posibles conexiones y
grupos que se infieren
de datos de poblaciones
neuronales durante la
toma de imágenes de
Hirudo.
FIGURA 3.
Relaciones de información
inferidas entre neuronas
en un ganglio segmentado
de Hirudo. Las medidas
de similaridad de la
dinámica de la actividad
neuronal se representan
con arcos y grupos en
racimo.
que permiten cambios muy graduales en los umbrales de admisión de conexiones
entre las neuronas y de evaluación de la fuerza de las relaciones y la pertenencia a
los módulos. Nos encantaría ver un mundo en el que esas herramientas pudieran
ser compartidas ampliamente entre los neurocientíficos y se ampliaran mediante
componentes de aprendizaje, inferencia y visualización desarrollados por la comu-
nidad de la neurociencia.
La figura 2 muestra una pantalla de la herramienta prototipo que llamamos
Microscopio Computacional msr, que fue desarrollado por Ashish Kapoor, Erick
Chastain y Eric Horvitz en Microsoft Research como parte de una colaboración
más amplia con William Kristan, de la Universidad de California en San Diego, y
Daniel Wagenaar, del California Institute of Technology. La herramienta permite
a los usuarios visualizar la actividad neuronal durante un periodo determinado y
luego explorar las inferencias sobre relaciones entre las neuronas de manera inte-
ractiva. Los usuarios pueden escoger entre varios métodos de inferencia y especifi-
car las suposiciones de modelado. También pueden marcar neuronas específicas y
subconjuntos neuronales como puntos focales de análisis. La imagen en la figura 2
muestra un análisis de la actividad de las neuronas en los ganglios segmentados de
Hirudo. Las relaciones de información inferidas entre las células se muestran con
un resaltado de las neuronas y mediante la generación de arcos entre las neuronas.
Tales inferencias pueden ayudar a dirigir la exploración y la confirmación de las
conexiones físicas entre las neuronas.
La figura 3 muestra otro análisis de información que agrupa espacialmente células
que se comportan de manera similar en los ganglios de Hirudo en una serie de ensa-
yos. Este análisis ofrece una primera visión de la forma en que algún día los análisis
basados en teoría de información podrían ayudar a los neurobiólogos a descubrir y
evaluar las interacciones dentro de los subsistemas neuronales y entre ellos.
Apenas estamos en el inicio de esta prometedora dirección de investigación, pero
esperamos ver un florecimiento de análisis, herramientas y una subdisciplina más
amplia que se concentre en la neuroinformática de las poblaciones de neuronas.
Creemos que los métodos computacionales nos permitirán crear representaciones y
lenguajes efectivos para comprender los sistemas neuronales y que éstos se conver-
tirán en herramientas esenciales para que los neurobiólogos puedan acercarse a la
solución de la miríada de misterios en torno al sentir, aprender y tomar decisiones
que realizan los sistemas nerviosos.
REFERENCIAS
[1] K. L. Briggman, H. D. I. Abarbanel y W. B. Kristan Jr., “Optical Imaging of Neuronal Populations
During Decision-making”, Science, vol. 307, 2005, pp. 896-901, doi: 10.1126/science.110.
Un enfoque de modelado IAIN BUCHAN

University of Manchester
unificado para la asistencia JOH N WIN N

CH R IS BISHOP
Microsoft Research
sanitaria intensiva en datos
L
a cantidad de datos disponibles sobre la asistencia sani-
taria está creciendo con gran rapidez, y excede por mucho
la capacidad para ofrecer beneficios para la salud personal
o pública a partir del análisis de estos datos [1]. Los tres
factores clave que determinan ese crecimiento son los historiales
médicos electrónicos (hme), las biotecnologías y la productividad
científica. A continuación examinamos cada uno de ellos, para
después plantear nuestra propuesta de un enfoque de modelado
unificado que puede aprovechar al máximo un entorno intensivo
en datos.
HISTORIALES MÉDICOS ELECTRÓNICOS
Las instituciones de salud en todo el mundo, tanto en zonas de altos

como de bajos recursos, están elaborando los hme. En el nivel de la
comunidad, los hme pueden utilizarse para administrar servicios de
asistencia sanitaria, llevar un seguimiento de la salud de la pobla-
ción y apoyar la investigación. Además, pueden obtenerse mayores
beneficios sociales de los hme cuando se les emplea en tales niveles
poblacionales que al hacerlo en el nivel de la atención individual.
El uso de términos y ontologías estándar en los hme está incre-
mentando la estructura de los datos sobre asistencia sanitaria, pero
las prácticas clínicas de asignación de códigos médicos introducen
nuevos sesgos potenciales. Por ejemplo, la introducción de incen-
tivos para que los médicos generales atiendan determinadas enfermedades puede
provocar fluctuaciones en la cantidad de códigos ingresados para nuevos casos de esos
padecimientos [2]. Por otra parte, el abatimiento del costo de los dispositivos para la
supervisión remota y la aplicación de exámenes clínicos en el punto de atención al
paciente conduce a un mayor registro de mediciones objetivas en los hme, cosa que
puede arrojar señales menos sesgadas pero puede crear la ilusión de un incremento
en la prevalencia de enfermedades, sencillamente porque se dispone de más datos.
Algunos pacientes están empezando a tener acceso y suplementar sus propios
historiales médico o a editar un historial paralelo en línea [3]. La administración de
los futuros historiales médicos podría correr a cargo de los individuos (pacientes,
ciudadanos, consumidores) y las comunidades (familias, poblaciones locales, etc.) más
que de las instituciones de atención médica. En resumen, el uso de los hme está pro-
piciando el surgimiento de más escenarios de asistencia sanitaria intensiva en datos,
en los cuales se captura y se transfiere en forma digital una cantidad mucho mayor
de información. Sin embargo, el pensamiento computacional y los modelos de asis-
tencia sanitaria aplicables a esta profusión de datos se han desarrollado escasamente.
BIOTECNOLOGÍAS
Las biotecnologías han promovido un auge en la investigación médica molecular.

Algunas técnicas, como el análisis de genoma completo, producen grandes volú-
menes de datos sin el sesgo muestral que podría producir una selección intencional
de factores de estudio. Así, tales conjuntos de datos son de mayor alcance y menos
selectivos que las mediciones experimentales convencionales. De cualquier forma,
pueden surgir importantes sesgos derivados de artefactos en el procesamiento bio-
técnico de las muestras y los datos, pero es muy probable que disminuyan conforme
mejoren las tecnologías. Más preocupante aún es el error sistemático que proviene
de ámbitos ajenos a los datos: considérese, por ejemplo, un análisis metabolómico
que resulta viciado por no tener en cuenta el horario de toma de una muestra o el
tiempo transcurrido entre el último alimento y dicha toma. La integración de datos
de distinta escala, desde las variables de nivel molecular a las de nivel poblacional, y
de mediciones de distinto tipo (directas o indirectas) de los factores bajo estudio son
un enorme desafío para la ciencia médica intensiva en datos. Cuando se disponga de
modelos complejos multiescala realistas, el siguiente reto será hacerlos accesibles a
los médicos clínicos y a los pacientes, quienes podrán evaluar concertadamente los
riesgos comparativos que entrañan diferentes opciones de tratamiento personalizado.

PRODUCTIVIDAD CIENTÍFICA
La productividad en la ciencia médica ha estado creciendo en forma exponencial

[4]. En 2009, ingresaba al índice de PubMed —el sistema bibliográfico de la ciencia
médica— un nuevo artículo cada dos minutos en promedio. Por tanto, el modelo
de la literatura arbitrada como medio de gestión del conocimiento sobre la salud
está potencialmente rebasado. Además, la conversión de nuevos conocimientos en
innovaciones en la práctica médica es lenta e inconsistente [5]. Esto afecta de ma-
nera adversa no sólo a los médicos clínicos y los pacientes que enfrentan decisiones
terapéuticas, sino también a los investigadores que reflexionan acerca de patrones y
mecanismos. Es necesario combinar la minería de acervos de evidencias con mode-
los computacionales para explorar el creciente volumen de datos provenientes de la
asistencia sanitaria y la investigación.
La investigación basada en hipótesis y los enfoques causales reduccionistas han
servido a la ciencia médica en la identificación de los principales factores deter-
minantes y autónomos de la salud, así como en la evaluación de los resultados de
acciones sanitarias particulares (véase figura 1), pero no reflejan la complejidad de
EPOC
Conocimiento Pruebas estadísticas
Hipótesis Conclusión
independiente
Datos Depuración de hipótesis
ECV
independiente
Cáncer pulmonar
independiente
FIGURA 1.
Los enfoques convencionales basados en la comprobación estadística de hipótesis descomponen
artificialmente el dominio de la atención médica en numerosos subproblemas. De tal manera,
pierden una importante oportunidad de “compartir fuerza” estadística. La enfermedad pulmonar
obstructiva crónica (epoc), la enfermedad cardiovascular (ecv) y el cáncer pulmonar pueden
considerarse en conjunto como “los tres grandes” [6].

la salud. Por ejemplo, las pruebas clínicas excluyen casi 80% de las situaciones en las
que podría prescribirse un fármaco; por ejemplo, cuando un paciente padece varias
enfermedades y toma varios medicamentos [7]. Considérese un medicamento recién
autorizado que sale al mercado para su prescripción general. El médico X podría
recetarlo, pero no así el médico Y, lo que daría lugar a experimentos naturales. En
un sistema sanitario intensivo en datos plenamente desarrollado, en el cual los datos
de esos experimentos se registraran en los hme, los investigadores clínicos podrían
comparar los resultados de pacientes que reciben el nuevo medicamente con controles
naturales, corrigiendo quizá el efecto de factores de confusión o de modificación. Sin
embargo, tales ajustes podrían ser extremadamente complejos y rebasar la capacidad
de los modelos convencionales.
UN ENFOQUE UNIFICADO
Proponemos un enfoque de modelado unificado que puede aprovechar al máximo

un entorno intensivo en datos sin perder de vista la complejidad real de la salud
(véase la figura 2). Nuestro enfoque se basa en avances registrados en el campo del
aprendizaje automático (machine learning) durante los últimos diez años, el cual
provee nuevas y poderosas herramientas que son idóneas para encarar este desafío.
El conocimiento de los resultados, las intervenciones y los factores de confusión o
modificación puede ser incorporado y representado a través del marco de modelos
gráficos probabilísticos, en los que las variables relevantes, entre ellas los datos ob-
servados, se expresan como un grafo [8]. Es posible efectuar posteriores inferencias
automáticas a partir de este grafo mediante una variedad de algoritmos basados en
la transmisión local de mensajes, como se muestra en [9]. En comparación con los
enfoques clásicos de aprendizaje automático, este nuevo marco ofrece una integra-
ción más profunda entre conocimientos especializados, obtenidos directamente de
expertos o de la literatura científica, y aprendizaje estadístico. Por otra parte, estos
algoritmos de inferencia automática pueden escalar para manejar conjuntos de datos
de cientos de millones de registros; además, nuevas herramientas como Infer.net
permiten el rápido desarrollo de soluciones dentro de este marco [10]. Ilustraremos
la aplicación de este enfoque con dos escenarios.
En el escenario 1, un epidemiólogo está investigando los factores genéticos y
ambientales que predisponen a algunos niños a padecer asma. Realiza un estudio
de cohortes de 1 000 niños, a quienes se les ha dado seguimiento por diez años,
incluyendo detalladas mediciones fisiológicas y ambientales, así como datos sobre
más de medio millón de los tres millones de factores genéticos que podrían variar

Conocimiento Conocimiento Conocimiento
Modelo gráfico unificado Salud

Historiales Inferencias multiescala y
médicos de gran multisistemas
electrónicos escala
(HME) Investigación
Políticas
Datos Atención
Datos
Datos Depuración del modelo
FIGURA 2.
Proponemos un enfoque unificado para modelar la asistencia sanitaria, que aproveche los
crecientes recursos estadísticos de los registros electrónicos de salud, además de los datos
recopilados para estudios específicos.
entre individuos. El enfoque epidemiológico convencional puede consistir en poner a

prueba hipótesis preestablecidas utilizando grupos selectos de factores genéticos y de
otro tipo; pero puede también seguirse una estrategia de análisis de genoma completo
para buscar asociaciones entre factores genéticos individuales y definiciones simples
de estado de salud (por ejemplo, presencia o ausencia de resuellos a la edad de 5 años).
Ambas aproximaciones utilizan modelos estadísticos relativamente simples. En un
enfoque alternativo de aprendizaje automático, el epidemiólogo puede comenzar
construyendo un modelo gráfico del espacio del problema, consultando la bibliografía
y a colegas para elaborar un grafo con base en el principio organizador —digamos,
“obstrucción de vías respiratorias periféricas”—. Este modelo refleja mejor la com-
plejidad del padecimiento asmático al emplear una variedad de clases de resuello
y otros signos y síntomas, relacionándolos con mecanismos conocidos. A partir de
aquí, se emplean métodos de agrupamiento no supervisado para explorar cómo los

factores de estudio genéticos, ambientales y de otro tipo influyen en el agrupamiento
en distintos conjuntos de sensibilización alérgica con base en resultados de pruebas
dermatológicas y sanguíneas, así como sintomatología de resuellos. El epidemiólogo
puede relacionar estos patrones con procesos biológicos, con lo que puede configurar
hipótesis a ser exploradas.
En el escenario 2, un equipo clínico está evaluando los resultados de la atención
médica a pacientes con angina de pecho crónica. Los planes de tratamiento más co-
munes difieren poco; por ejemplo, pueden variar en cuanto al grado de investigación
y tratamiento que se considera necesario en el nivel de atención primaria antes de
remitir al paciente a la atención especializada. En un enfoque tradicional de eva-
luación del desempeño clínico podría discutirse el plan de tratamiento, consultar
bibliografía, examinar resúmenes estadísticos simples, generar algunas hipótesis y
quizás poner a prueba dichas hipótesis mediante modelos de regresión lineal simple.
En un enfoque alternativo de aprendizaje automático se podría construir un modelo
gráfico del plan de tratamiento convenido, a partir de discusiones y consultas bi-
bliográficas, y compararlo con topologías de red descubiertas en conjuntos de datos
que reflejen los resultados de los pacientes. Entonces podrían utilizarse las redes
más viables para simular los efectos potenciales de cambios en el ejercicio clínico
ejecutando escenarios que modificaran la ponderación de los valores de las aristas
en los grafos implicados. De esta manera, las familias de asociaciones en los datos
localmente relevantes pueden combinarse con evidencias encontradas en la literatu-
ra en una actividad de planificación por escenarios que incorpora el razonamiento
clínico y el aprendizaje automático.
EL CUARTO PARADIGMA: AVATARES DE LA SALUD
Está claro que los modelos unificados tienen el potencial de influir en las decisiones
personales de salud, en el ejercicio clínico y en la salud pública. ¿Es por ello éste un
paradigma para el futuro?
El primer paradigma de la información sanitaria podría resumirse en el historial
de caso más el médico experto, formalizado por Hipócrates hace más de 2 000 años
y que sigue siendo parte importante del ejercicion clínico. En el segundo paradigma,
un equipo de médicos clínicos comparten un historial de salud, cada uno concen-
trando su conocimiento especializado en la condición del paciente en turno. El tercer
paradigma consiste en la asistencia sanitaria basada en evidencias que enlaza una
red de profesionales de la salud conocedores con registros de pacientes en forma
oportuna. Este tercer paradigma todavía no alcanza su culminación, sobre todo en

lo que respecta a capturar las complejidades del ejercicio clínico en registros digitales
y hacer computables algunos aspectos de la asistencia sanitaria.
Prevemos un cuarto paradigma de la información sanitaria, que es reflejo de lo que
ocurre en otras disciplinas, por el cual los datos de salud de un individuo, dispersos en
una diversidad de fuentes, se agrupan y añaden a un modelo unificado de la salud de
esa persona. Tales fuentes pueden ir desde sensores de una red de área corporal hasta
la supervisión e interpretación clínica especializada, situación en la que el individuo
desempeña un papel mucho mayor que en el presente en construir la información
sobre su salud, y actuar sobre ello. Al incorporar todos estos datos, el modelo unifi-
cado asumirá el papel de un “avatar de la salud”: la representación electrónica de la
salud de un individuo como puede ser medida o inferida por modelos estadísticos
o por médicos. Los médicos que interactúan con el avatar de un paciente pueden
obtener una visión más integrada de diferentes planes de tratamiento especializado
de lo que obtendrían sólo con los registros de atención médica.
El avatar no es sólo una herramienta estadística para apoyar el diagnóstico y el
tratamiento, sino que también es una herramienta de comunicación que vincula al
paciente con la red de médicos elegida por él y con otros profesionales capacitados
—por ejemplo, para discusiones sobre posibles rutas de tratamiento—. Aunque en un
principio funcione como un simple modelo multisistémico, el avatar podría crecer
en profundidad y complejidad para cerrar la brecha entre él y la realidad. Un avatar
de este tipo no implicaría una simulación de nivel molecular de un ser humano (lo
que nos parece poco plausible), sino que más bien implicaría un modelo estadístico
unificado que incorporara el conocimiento clínico del momento aplicable a un pa-
ciente individual.
Este paradigma puede extenderse a las comunidades, donde muchos avatares
individuales podrían interactuar con un avatar comunitario para ofrecer un modelo
unificado de la salud de una comunidad. Tal avatar comunitario podría ofrecer in-
formación relevante y oportuna para proteger y mejorar la salud de los integrantes
de esa comunidad. Los escasos recursos de la comunidad podrían destinarse con
mayor precisión a solventar las necesidades médicas a lo largo de todo el espectro
vital, en especial para la prevención y la intervención temprana, para reducir la
gravedad y la duración de las enfermedades, y para servir mejor a la comunidad en
su conjunto. Los servicios de salud clínica, pública y particular podrían interactuar
con más eficacia al ofrecer un beneficio social y nuevas oportunidades para la in-
novación y el emprendimiento médicos.

CONCLUSIÓN
Por sí sola, la información no pueden llevarnos a una asistencia sanitaria intensiva

en datos. Es necesaria una rectificación sustancial de la metodología si queremos
encarar la complejidad real de la salud, lo que a la larga conduciría a mejores están-
dares globales de salud pública. Creemos que el aprendizaje automático, aunado a
un incremento general del pensamiento computacional relativo a la salud, puede ser
determinante. Es un deber de las sociedades desarrollar marcos computacionales
para buscar señales en las colecciones de datos sanitarios si el beneficio potencial a
la humanidad sobrepasa los riesgos. Y creemos que así es.
REFERENCIAS
[1] J. Powell y I. Buchan, “Electronic Health Records Should Support Clinical Research”, J. Med.
Internet Res., vol. 7, núm. 1, 14 de marzo de 2005, p. e4, doi: 10.2196/jmir.7.1.e4.
[2] S. de Lusignan, N. Hague, J. van Vlymen y P. Kumarapeli, “Routinely-collected General Practice
Data are Complex, but with Systematic Processing can be Used for Quality Improvement and
Research”, Prim. Care. Inform., vol. 14, núm. 1, 2006, pp. 59-66.
[3] L. Bos y B. Blobel (eds.), Medical and Care Compunetics 4, Amsterdam, IOS Press (Studies in
Health Technology and Informatics, vol. 127), 2007, pp. 311-315.
[4] B. G. Druss y S. C. Marcus, “Growth and Decentralization of the Medical Literature:
Implications for Evidence-based Medicine”, J. Med. Libr. Assoc., vol. 93, núm. 4, octubre de 2005,
pp. 499‑501. PMID: PMC1250328.
[5] A. Mina, R. Ramlogan, G. Tampubolon y J. Metcalfe, “Mapping Evolutionary Trajectories:
Applications to the Growth and Transformation of Medical Knowledge”, Res. Policy, vol. 36,
núm. 5, 2007, pp. 789-806, doi: 10.1016/j.respol.2006.12.007.
[6] M. Gerhardsson de Verdier, “The Big Three Concept—A Way to Tackle the Health Care Crisis?”,
Proc. Am. Thorac. Soc., vol. 5, 2008, pp. 800-805.
[7] M. Fortin, J. Dionne, G. Pinho, J. Gignac, J. Almirall y L. Lapointe, “Randomized Controlled
Trials: Do They Have External Validity for Patients with Multiple Comorbidities?”, Ann. Fam.
Med., vol. 4, núm. 2, marzo-abril de 2006, pp. 104-108, doi: 10.1370/afm.516.
[8] C. Bishop, Pattern Recognition and Machine Learning, Springer, 2006.
[9] J. Winn y C. Bishop, “Variational Message Passing”, J. Mach. Learn. Res., vol. 6, 2005, pp. 661-694.
[10] T. Minka, J. Winn, J. Guiver y A. Kannan, Infer.NET, Microsoft Research Cambridge,
http://research.microsoft.com/infernet.

Visualización en modelos LUCA CAR DE LLI

Microsoft Research
de álgebra de procesos COR R ADO PR IAMI

Microsoft Research-
University of Trento
de sistemas biológicos Centre for Computational
and Systems Biology;
University of Trento
E
n un artículo reciente, paul nurse, galardonado con el
Premio Nobel, propone buscar una mejor comprensión
de los organismos vivos mediante “el desarrollo de los
lenguajes apropiados para describir el procesamiento de
información en sistemas biológicos y la generación de métodos
más efectivos para traducir las descripciones bioquímicas en el
funcionamiento de los circuitos lógicos que sostienen los fenó-
menos biológicos” [1].
El lenguaje que Nurse quisiera ver es un lenguaje formal que
pueda ser traducido automáticamente a código ejecutable de má-
quina y que posibilite el desarrollo de técnicas de simulación y
análisis para probar propiedades de sistemas biológicos. Aunque
hay muchos enfoques para el modelado de sistemas vivos, sólo unos
cuantos ofrecen descripciones ejecutables que resaltan los pasos
mecánicos que hacen que un sistema cambie de un estado a otro [2].
Casi todas las técnicas relacionadas con el modelado matemático
hacen abstracción de estos pasos individuales para representar el
comportamiento global, normalmente promediado en el tiempo.
La ciencia de la computación ofrece los elementos fundamen-
tales para describir pasos mecánicos: algoritmos y lenguajes de
programación [3]. Siguiendo la metáfora de las moléculas como
procesos presentada en [4], los cálculos o álgebras de procesos han
sido identificados como una herramienta promisoria para modelar

sistemas biológicos que son inherentemente complejos, concurrentes e impulsados
por las interacciones de sus subsistemas.
La causalidad es un factor que distingue de manera esencial los enfoques de
modelado basados en lenguajes y otras técnicas. De hecho, la causalidad en los
lenguajes concurrentes se relaciona estrictamente con la noción de concurrencia
o independencia de eventos, lo cual hace de la causalidad algo sustancialmente
diferente del ordenamiento temporal. Una actividad A causa una actividad B si A
es una condición necesaria para que B ocurra y A influye en la actividad de B; es
decir, hay un flujo de información de A a B. La segunda parte de la condición que
define la causalidad hace clara la distinción entre precedencia (relacionada sólo con
el orden temporal) y causalidad (un caso especial de ordenamiento temporal en el
que también se considera el flujo de información) [5]. Como consecuencia, una lista
de reacciones ejecutadas por un sistema no ofrece información causal, sino sólo
información temporal. Por tanto, es imperativo diseñar nuevas herramientas de
modelado y análisis para incorporar la causalidad.
La causalidad es un aspecto fundamental en el análisis de sistemas interactivos
complejos porque ayuda a analizar en detalle componentes independientes y a sim-
plificar modelos, a la vez que permite identificar interferencias entre diferentes flujos
de señales. Una vez que el científico experimental observa un evento interesante en
una simulación, es posible compactar la historia anterior del sistema, exponiendo sólo
los eventos precedentes que causaron el evento de interés. Esto puede dar indicios
precisos acerca de la causa de una enfermedad, la interacción de un fármaco con un
sistema vivo (identificando su eficacia y sus efectos colaterales) y los mecanismos
regulatorios de comportamientos oscilantes.
La causalidad es una relación entre eventos y, como tal, lo más natural es estudiarla
en modelos discretos que, a su vez, se describen a través de lenguajes algorítmicos de
modelado. Si bien se han construido en la ciencia de la computación muchos lenguajes
para modelar sistemas concurrentes, todavía quedan muchos desafíos a la hora de
construir modelos para la comprensión, en el nivel de sistema, de los procesos bioló-
gicos. Entre estos retos están la relación entre las interacciones locales de bajo nivel
y el comportamiento emergente y global de alto nivel; el conocimiento incompleto
de los sistemas que se están investigando; las representaciones de múltiples niveles
y múltiples escalas de tiempo, espacio y tamaño, y las relaciones causales entre
interacciones y la conciencia del contexto de los componentes internos. Por consi-
guiente, los formalismos de modelado que son candidatos para impulsar la biología
de sistemas algorítmicos deberían ser complementarios del modelado matemático

e interoperables con éste. Deberán poder manejar el paralelismo y la complejidad,
ser algorítmicos y cuantitativos, expresar la causalidad y orientarse a la interacción,
ser combinables, escalables y modulares.
VISUALIZACIÓN DEL LENGUAJE
Un aspecto fundamental en la adopción de lenguajes formales en biología es su prac-

ticidad. Un lenguaje de modelado debe ser comprensible para los biólogos, de modo
que puedan relacionarlo con sus propios modelos informales y con los experimentos.
Un intento de los biólogos para conectar los lenguajes formales y las descripciones
informales de los sistemas consistió en el uso de un lenguaje natural restringido,
organizado en forma de tablas que recogían toda la información relacionada con la
estructura y la dinámica de un sistema. Esta representación narrativa es lo suficien-
temente informativa y estructurada para ser compilada en una descripción formal
que sea susceptible de simulación y análisis [6, 7]. Aunque el estilo de modelado
narrativo todavía no es visual, ciertamente es más legible y corresponde mejor con
la intuición de los biólogos que un lenguaje formal (de programación).
La mejor manera de hacer comprensible un lenguaje a los científicos, a la vez que
ayude a manejar la complejidad, es “visualizarlo” (dotarlo de una forma gráfica).
Esto es más difícil que visualizar datos o resultados de simulaciones, porque un len-
guaje describe implícitamente la cinética completa de un sistema, lo que incluye las
relaciones dinámicas entre eventos. Por consiguiente, la visualización del lenguaje
debe ser dinámica, y posiblemente reactiva [8], lo que significa que un científico
debería ser capaz de detectar e insertar eventos en la ejecución de una simulación
por intervención directa. Esto requiere una correspondencia de uno a uno entre la
ejecución interna de un lenguaje formal y su visualización, de modo que la cinética del
lenguaje pueda reflejarse por completo en la cinética de la visualización, y viceversa.
Se ha demostrado esta capacidad de hacer corresponder completamente la cinética
de un lenguaje general (Turing completo) de modelado con representaciones visuales,
por ejemplo, en el caso del cálculo pi [9], pero sigue habiendo muchos problemas
prácticos para adaptar tales métodos generales a requerimientos de visualización
específicos (figura 1). Un requerimiento de este tipo, por ejemplo, es la visualización
y el rastreo de complejos moleculares; para este fin, el lenguaje BlenX [10] y sus he-
rramientas de apoyo permiten la representación explícita de complejos de elementos
biológicos y el examen de su evolución en el tiempo [11] (figura 2). La representación
gráfica de los complejos también es útil en el estudio de los procesos de morfogénesis
para desentrañar los pasos mecánicos de la formación de patrones (figura 3).

ANÁLISIS
producirM degradarM La construcción de modelos es una eta-
pa en el ciclo científico, y para ello es
+ tpn
importante contar con lenguajes apro-
M TM
piados de modelado (junto con sus ca-
– tpnV
pacidades de ejecución y visualización),
en especial para modelar sistemas com-
+pep – pep +pepa – pepq
plejos. A la larga, sin embargo, uno
querrá analizar el modelo utilizando
– tpn
un gran número de técnicas. Algunas
de esas técnicas pueden centrarse en el
MP TMP
marco matemático subyacente, como
el análisis de ecuaciones diferenciales,
salida
las cadenas de Markov o las redes de
Petri generadas a partir del modelo.
Otras técnicas pueden centrarse en la
degradar
MeP descripción del modelo (el lenguaje en
el cual está escrito). Por ejemplo, quizá
querríamos saber si dos descripciones
diferentes del modelo representan de
FIGURA 1. hecho el mismo comportamiento, si-
Este diagrama puede ponerse en corresponden- guiendo algún criterio de equivalen-
cia uno a uno con modelos estocásticos de cál- cia de comportamientos. Este tipo de
culo pi [9, 12, 13], de modo que se puedan editar
correspondencia de modelos puede
tanto los diagramas como los modelos. Los
surgir, por ejemplo, de sistemas bio-
nodos representan los estados moleculares (los
iconos de nodo son sólo con fines de ilustración) lógicos aparentemente diferentes que
y las flechas etiquetadas representan las inte- funcionan según los mismos principios
racciones con otras moléculas del entorno. Los fundamentales. Una pregunta similar
modelos utilizan una variante bioquímica del es si podemos simplificar (abstraer) la
cálculo pi donde los superíndices representan descripción de un modelo y aún con-
tasas ponderadas, y los signos + y — indican servar su comportamiento, de nuevo si-
respectivamente unión y desunión.
guiendo algún criterio de equivalencia
que pueda ocultar detalles irrelevantes.
De hecho, la equivalencia de comportamiento es un recurso fundamental en
la ciencia de la computación para verificar los sistemas de cómputo. Por ejemplo,
podemos utilizar equivalencias para asegurar que una implementación concuerda

con una especificación dada, haciendo abstracción, tanto como sea posible, de las
descripciones semánticas y enfocándonos más bien en la semántica (dinámica) de las
especificaciones y las implementaciones. Hasta ahora, la biología se ha concentrado
en las relaciones sintácticas entre genes, genomas y proteínas. Una corriente com-
pletamente nueva de investigación es la indagación de las equivalencias semánticas
entre entidades biológicas que pueblan redes complejas de interacciones. Este enfoque
podría conducir a nuevas perspectivas sobre los sistemas y subrayar la importancia
que tiene la ciencia de la computación en el avance de la biología de sistemas.
FIGURA 2.
Los recuadros verdes con la letra S representan las entidades que pueblan el sistema biológico bajo
estudio. Los rectángulos en azul claro unidos a los recuadros verdes representan las interfaces/
dominios activos disponibles para el acoplamiento y desacoplamieno de complejos. El diagrama
muestra cómo la simulación de la especificación BlenX formó un complejo en anillo y ofrece la
posición y las conexiones entre los recuadros para su inspección.
La biología es una ciencia intensiva en datos. Los sistemas biológicos son coleccio-
nes enormes de componentes que interactúan recíprocamente. Las investigaciones
durante la década pasada contribuyeron a la identificación y clasificación de esos

FIGURA 3.
En el diagrama, los recuadros verde, rojo y azul con la letra S representan diferentes especies que
pueblan el sistema biológico bajo estudio. Los rectángulos en azul claro unidos a los recuadros
representan las interfaces/dominios activos disponibles para el acoplamiento y desacoplamieno
de complejos. El diagrama aclara cómo se forman los patrones en los procesos de morfogénesis
simulados por las especificaciones de BlenX.
componentes, en especial en el nivel molecular (genes, metabolitos, proteínas).

Para dar sentido a la gran cantidad de datos disponibles, necesitamos representarlos
implícitamente en modelos compactos y ejecutables a fin de que las ejecuciones pue-
dan recuperar los datos disponibles conforme sea necesario. Este enfoque fundiría
la sintaxis y la semántica en representaciones unificadoras y crearía la necesidad de
almacenar, recuperar y comparar los datos de diferentes maneras. Por consiguiente,
un repositorio de modelos que representara la dinámica de los procesos biológicos
en una forma compacta y mecánica sería extremadamente valioso y podría elevar la
comprensión de los datos biológicos y los principios básicos biológicos que rigen la
vida. Ello facilitaría las predicciones y el diseño óptimo de experimentos posteriores
para pasar del acopio de datos a la producción de información.

VISUALIZACIÓN DE ANÁLISIS
Los modelos ejecutables necesitan la visualización para hacer su ejecución interactiva

(para enfocarse en forma dinámica en características específicas) y reactiva (para
influir en su ejecución en tiempo real). La ejecución es una forma de análisis; otros
métodos de análisis también necesitarán la visualización. En el caso de sistemas
complejos, el método normal de análisis “por lotes”, que consiste en ejecutar un
análisis complejo sobre el modelo y luego extraer de los resultados indicios o pistas,
necesita ser sustituido por un enfoque más interactivo y exploratorio.
La abstracción de modelos es una herramienta importante para manejar la com-
plejidad, y podemos prever que esta actividad se realizará en forma interactiva; por
ejemplo, agrupando componentes u ocultando componentes. La noción de agrupación
requerirá por lo mismo una visualización adecuada y un mecanismo apropiado para
relacionar el comportamiento de los componentes originales con el de los componentes
agrupados. Esto no significa visualizar el lenguaje de modelado, sino más bien visuali-
zar una función de abstracción entre modelos. Por consiguiente, sugerimos visualizar
la ejecución de programas/modelos de tal manera que el resultado esté vinculado con
la especificación del código fuente/modelo, y que la abstracción gráfica realizada por
el usuario final se convierta en una transformación formal del programa/modelo. La
herramienta de apoyo verificaría entonces qué propiedades está conservando o no la
transformación y avisaría al usuario en consecuencia.
Todo lo anterior refuerza la necesidad un lenguaje formal y ejecutable de modela-
do biológico como la pieza medular de un laboratorio in silico para los biólogos, que
podría ser la nueva generación de herramientas de alto rendimiento para la biología.
AGRADECIMIENTOS
Los autores agradecen a Andrew Phillips y a Lorenzo Dematté por la elaboración

de las figuras.
REFERENCIAS
[1] P. Nurse, “Life, Logic and Information”, Nature, vol. 454, 2008, pp. 424-426, doi:
10.1038/454424a.
[2] J. Fisher y T. Henzinger, “Executable Cell Biology”, Nature Biotechnology, vol. 25, 2007,
pp. 1239‑1249, doi: 10.1038/nbt1356.
[3] C. Priami, “Algorithmic Systems Biology: An Opportunity for Computer Science”, Commun. ACM,
vol. 52, mayo de 2009, pp. 80-88, doi: 10.1145/1506409.1506427.
[4] A. Regev y E. Shapiro, “Cells as Computation”, Nature, vol. 419, 2002, p. 343, doi:
10.1038/419343a.

[5] P. Degano y C. Priami, “Non-interleaving Semantics of Mobile Processes”, Theor. Comp. Sci.,
vol. 216, núms. 1-2, 1999, pp. 237-270.
[6] M. L. Guerriero, J. Heath y C. Priami, “An Automated Translation from a Narrative Language
for Biological Modelling into Process Algebra”, en M. Calder y S. Gilmore (eds.), Computational
Methods in Systems Biology, Berlín, Springer (Lecture Notes in Bioinformatics, 4695), 2007,
pp. 136-151, doi: 10.1007/978-3-540-75140-3_10.
[7] M. L. Guerriero, A. Dudka, N. Underhill-Day, J. Heath y C. Priami, “Narrative-Based
Computational Modelling of the Gp130/JAK/STAT Signalling Pathway”, BMC Syst. Biol., vol. 3,
núm. 1, 2009, p. 40, doi: 10.1186/1752-0509-3-40.
[8] S. Efroni, D. Harel e I. R. Cohen, “Reactive Animation: Realistic Modeling of Complex Dynamic
Systems”, Computer, vol. 38, núm. 1, enero de 2005, pp. 38-47, doi: 10.1109/MC.2005.31.
[9] A. Phillips, L. Cardelli y G. Castagna, “A Graphical Representation for Biological Processes in
the Stochastic Pi-calculus”, en C. Priami (ed.), Transactions on Computational Systems Biology
VII, Berlín, Springer (Lecture Notes in Computer Science, 4230), 2006, pp. 123-152, doi:
10.1007/11905455_7.
[10] L. Dematté, C. Priami y A. Romanel, “The BlenX Language: A Tutorial”, en M. Bernardo et al.
(eds.), Formal Methods for Computational Systems Biology, Berlín, Springer (Lecture Notes in
Computer Science, 5016), 2008, pp. 313-365, doi: 10.1145/1506409.1506427.
[11] L. Dematté, C. Priami y A. Romanel, “The Beta Workbench: A Computational Tool to Study the
Dynamics of Biological Systems”, Brief. Bioinform., vol. 9, núm. 5, 2008, pp. 437-449, doi: 10.1093/
bib/bbn023.
[12] C. Priami, “Stochastic Pi-calculus”, Comp. J., vol. 38, núm. 7, 1995, pp. 578-589, doi: 10.1093/
comjnl/38.7.578.
[13] A. Phillips y L. Cardelli, “Efficient, Correct Simulation of Biological Processes in Stochastic
Pi-calculus”, en M. Calder y S. Gilmore (eds.), Computational Methods in Systems Biology, Berlín,
Springer (Lecture Notes in Computer Science, 4695), 2007, pp. 184-199, doi: 10.1007/978-3-540-
75140-3_13.

3. INFR AESTRUCTUR A CIENTÍFICA
I N F R A E S T R U C T U R A CI E N T Í F I C A
Introducción
DARON GREEN | Microsoft Research
¡ Precaución! Los textos de la parte 3 de este libro emplean

una serie de metáforas drásticas, como “explosión”, “tsunami”
e incluso “big bang”, para ilustrar de manera espectacular la
transformación que sufrirá la investigación científica a raíz
de la continua creación y disponibilidad de grandes volúmenes de
datos científicos. Si bien los escenarios pueden variar, estos autores
comparten el propósito común de abordar la forma en que debe-
remos adaptar nuestro entendimiento de la ciencia computacional
para hacer frente a esta nueva proliferación de datos. Sus palabras
están motivadas por la posibilidad de que estos enormes y nutridos
conjuntos de datos puedan dar pie a importantes descubrimien-
tos, pero también dimensiona de manera implícita la magnitud de
nuestra derrota cultural en caso de que nuestra infraestructura de
investigación no esté a la altura de esa tarea.
La perspectiva de Abbott sobre el conjunto de la investigación
científica nos confronta con una pregunta fundamental: si, a la luz
de la proliferación de datos y su creciente disponibilidad, la nece-
sidad de compartir y colaborar, y el papel cambiante de la ciencia
computacional, debiera delinearse “una nueva ruta para la ciencia”.
El autor adopta un punto de vista pragmático sobre la forma en que
la comunidad científica evolucionará, pero se muestra escéptico
respecto a la disposición que tendrán los investigadores para adoptar
técnicas como las ontologías y otras tecnologías semánticas. Sin caer

en malos presagios, Abbott es, sin embargo, muy claro al exponer la desconexión
que existe entre la oferta de conocimiento científico y la demanda de los sectores
público y privado.
Para enfocar con más precisión estas cuestiones, Southan y Cameron exploran
el “tsunami” de datos que crece en el depósito del embl-Bank, un servicio de in-
formación de secuenciación de nucleótidos. A lo largo de la Parte 3 de este libro, el
campo de la secuenciación genética sirve como un modelo representativo para varios
dominios científicos en los que la tasa de producción de datos es elevada (en este caso,
un incremento de 200% al año), lo que conduce a importantes retos en términos de
agregación de datos, flujos de trabajo, respaldo de información, almacenamiento,
calidad y retención de datos, por nombrar sólo algunas áreas.
Larus y Gannon agregan una nota de optimismo al considerar que los volúmenes
de datos son tratables mediante la aplicación de tecnologías multinúcleo, siempre
y cuando —claro está— podamos concebir los paradigmas de programación y los
recursos de abstracción necesarios para aprovechar efectivamente esta innovación
técnica en aplicaciones científicas de propósito general.
A continuación se retoma la metáfora de una catástrofe provocada por una mareja-
da de datos en el contexto en que la discuten Gannon y Reed de cómo el paralelismo
y la nube pueden ayudar con las cuestiones de escalabilidad para determinadas clases
de problemas computacionales.
A partir de ahí, se sigue con la discusión sobre el papel de las herramientas compu-
tacionales de flujos de trabajo como auxiliares en la instrumentación de tareas clave
en la administración del diluvio de datos. Goble y De Roure identifican los beneficios
y las dificultades asociadas con la aplicación de un flujo de trabajo computacional en
la investigación y la colaboración científicas. En última instancia, sostienen que los
flujos de trabajo ilustran la primacía del método como una tecnología fundamental
en la investigación centrada en datos.
Fox y Hendler consideran que la “e-ciencia semántica” es vital para ayudar a
interpretar interrelaciones de conceptos, términos y datos complejos. Después de
explicar los beneficios potenciales de las herramientas semánticas en la investiga-
ción centrada en datos, exploran algunos de los desafíos para su mejor adopción.
Señalan la insuficiente participación de la comunidad científica en el desarrollo de
requerimientos, así como la falta de un debate coherente acerca de la aplicabilidad
de las tecnologías semánticas basadas en la Web en el proceso científico.
Enseguida, Hansen y sus colaboradores proporcionan una descripción lúcida de
los obstáculos para visualizar extensos y complejos conjuntos de datos. Lidian con
118 INFRAESTRUCTURA CIENTÍFICA

los temas familiares de flujo de trabajo, escalabilidad, desempeño de aplicaciones,
procedencia e interacción con el usuario, pero desde la perspectiva de la visualiza-
ción. Ponen de relieve que los métodos actuales de análisis y visualización están
muy por detrás de nuestra capacidad de crear datos, y llegan a la conclusión de que
se necesitan habilidades multidisciplinarias para tratar diversos temas tales como la
interpretación automática de datos, la incertidumbre, las visualizaciones sumarias,
la verificación y la validación.
Para completar nuestro viaje a través de estos riesgos y oportunidades, Parastatidis
analiza cómo podemos lograr una infraestructura integral de investigación basada en
conocimientos que sirva a la ciencia. Prevé que esto ocurrirá mediante la confluencia
de herramientas científicas tradicionales de computación, herramientas basadas en
la Web y métodos semánticos selectos.

¿Una nueva ruta MAR K R . ABBOT T

Oregon State University
para la ciencia?
L
os retos científicos del siglo x xi pondrán a prueba las
alianzas que el gobierno, la industria y la academia han
forjado y consolidado en el transcurso de poco más o menos
un siglo. Por ejemplo, en los Estados Unidos, a partir de la
creación de la National Science Foundation en 1950, ha prosperado
el sistema nacional de investigación universitaria y actualmente do-
mina el sector de la investigación básica. (La investigación aplicada,
de mucho mayor tamaño, obtiene financiamiento y se desarrolla
principalmente en el sector privado.)
Nadie podría negar los logros de este sistema, pero también es
cierto que con el tiempo se ha organizado en buena medida alrede-
dor de disciplinas científicas particulares y recompensa el trabajo
científico individual mediante publicaciones y el proceso de ascenso
y titularidad académica. Más aún, la constante búsqueda de ideas
frescas y nuevos financiamientos por parte de los investigadores
[1, 2] es lo que da a este sistema su característico aire de eterna “agi-
tación”. Una consecuencia imprevista de este modelo es la creciente
disociación entre la oferta de conocimientos científicos y su deman-
da por parte de los sectores público y privado [3, 4]. La estructura
interna de estímulos en las universidades, así como el sistema de
revisión por los pares, favorece los proyectos de investigación que
interesan de manera inherente a la comunidad científica, pero no
necesariamente a quienes son ajenos a ella.

NUEVAS DIRECCIONES
Es tiempo de revisar las estructuras básicas que sustentan nuestra empresa de inves-
tigación. Por ejemplo, ante la necesidad cada vez más apremiante de abordar desde
perspectivas renovadas la investigación sobre el clima y la energía en el contexto
amplio de la sustentabilidad, la investigación básica sobre el sistema climático global
seguirá siendo necesaria; sin embargo, los empresarios y los responsables de las polí-
ticas buscan respuestas a preguntas de un carácter más interdisciplinario que en el
pasado. Este nuevo enfoque guarda mayor afinidad con la elaboración de escenarios
que faciliten la evaluación y gestión de los riesgos que con la resolución tradicional
de problemas y la búsqueda desinteresada del conocimiento.
En el ámbito de la climatología, la demanda de información se concentra en las
interacciones entre el cambio climático y los procesos socioeconómicos, los fenó-
nemos inusuales (pero de alta repercusión) y el diseño de políticas correctivas o de
protocolos administrativos. La oferta científica, por su parte, da preferencia a los
estudios sobre aspectos físicos y biológicos del sistema climático a escala continental
o global y se esfuerza por abatir la incertidumbre (cf. [5]). Este desajuste entre oferta
y demanda socava la capacidad social para responder con eficacia y oportunidad a
un clima cambiante.
HISTORIA RECIENTE
La infraestructura en tecnologías de información de hace 25 años era la adecuada

para la cultura científica del momento. Los volúmenes de datos eran relativamente
pequeños y por lo mismo cada dato puntual era muy valioso. Los equipos eran costosos
y comprensibles sólo para los expertos. La secuencia de trabajo típica consistía en un
sistema para la recopliación de datos (v. gr. un laboratorio o un sensor de campo), la
transferencia de éstos a un medio de almacenamiento, así como su posterior proce-
samiento, análisis, visualización y publicación.
La figura 1 muestra la arquitectura del Earth Observing System Data and Informa-
tion System (eosdis) de la nasa, fabricado a fines de los años ochenta. Aun cuando
muchos consideraban que se trataba de un diseño muy ambicioso (se había planea-
do para 1 terabyte diario de datos), la principal objeción consistía en que era demasiado
centralizado para un sistema que debía regirse por criterios científicos. El eosdis era
percibido como una fábrica de datos que operaba bajo especificaciones rígidas y con
poco espacio para incorporar conocimiento nuevo o mejoras técnicas. En última
instancia, la discusión no tenía que ver con un diseño centralizado o descentrali-
zado, sino con quién controlaría las especificaciones, la comunidad científica o el

contratista de la nasa. La arquitectura subyacente del sistema, con sus flujos de datos
preestablecidos (y de escasa capacidad) y su combinación de componentes centrales
y distribuidos, ha permanecido inalterada, aun cuando la World Wide Web, la propia
internet y el volumen de datos que circulan en línea han crecido exponencialmente.
FIGURA 1.
El Earth Observing System Data and Information System (eosdis) de la nasa, según se
proyectó en 1989.
EL PRESENTE
En la actualidad, tanto los centros nacionales de supercómputo como el concepto mis-

mo de “computación en la nube” se asemejan mucho a la arquitectura representada
en la figura 1. Así pues, no importa si la conexión de red es una interfaz asincrónica
RS-232, un módem telefónico o un dispositivo de 1 gigabit, y tampoco es relevante
si el investigador usa una terminal gráfica VT100 o una lujosa estación de trabajo
de múltiple núcleo. El acceso a los repositorios virtualizados (si bien distribuidos)

donde se almacenan los datos y los servicios de cómputo se hace por red utilizando
instrumentos de capacidad relativamente baja.
La ley de Moore ha ejercido su efecto por 25 años desde la creación del eosdis, y
aunque generalmente enfocamos nuestra atención en los incrementos de capacidad
y la caída súbita en la proporción precio/rendimiento, es un hecho que el ritmo
vertiginoso de la innovación tecnológica ha puesto gran presión sobre los esquemas
convencionales de investigación científica. La disponibilidad de volúmenes enormes
de datos ha disminuido considerablemente el costo por dato individual, de manera
que nuestras limitaciones ya no están en la información, sino en nuestra comprensión
de ella. “Intensivo en datos” no debería usarse sólo con referencia a los repositorios
centralizados, sino también al volumen mucho mayor de datos a los que se accede por
la red desde oficinas, laboratorios y hogares, así como desde sensores o dispositivos
portátiles; de este modo, el cómputo intensivo en datos es algo más que la posibilidad
de guardar y desplazar grandes cantidades de información. La complejidad de estos
nuevos conjuntos de datos y la creciente diversidad en los flujos de información han
dejado obsoleto el modelo clásico de la central de cómputo y procesamiento para las
necesidades de la investigación científica contemporánea.
IMPLICACIONES PARA LA CIENCIA
Las repercusiones de las tecnologías de información para la comunidad científica

han sido de dos tipos. En primer término, han convertido en servicios comerciables el
cómputo y el almacenamiento genéricos. Para labores científicas que pueden solven-
tarse con medios genéricos, el uso de tales servicios es una elección sensata, ya que
siempre resulta más rentable contratar servicios de bajo costo y alta capacidad
que operen a través de mecanismos centralizados como es la computación en la nube.
Así, cada vez más universidades recurren a esta clase de servicios para respaldo de
información, correo electrónico, uso de aplicaciones ofimáticas, etcétera.
Una segunda repercusión de estas tecnologías es que han conducido a una perso-
nalización radical del cómputo. Gracias al acceso individual a teraflops de velocidad y
a terabytes de espacio, los científicos pueden crear sus propias nubes de cómputo. La
innovación y los servicios científicos de vanguardia provendrán de los márgenes de
las redes, no de las centrales de procesamiento de datos. Por otra parte, y superando
en número a los científicos, una plétora de sensores e instrumentos de laboratorio
se conectarán a internet con sus servicios locales de cómputo y almacenamiento. El
reto será usufructuar el poder de esta nueva red de recursos de conocimiento tan
extensamente diseminada.

En la actualidad, el descubrimiento científico no se consigue solamente a través
del proceso riguroso y claramente definido de la verificación de hipótesis. La abun-
dancia monumental de datos, las relaciones complejas y difíciles de percibir, las
modalidades de colaboración intensiva y cambiante entre las disciplinas, así como
las modernas plataformas de publicación en tiempo casi real, incorporan al método
científico los procesos de descubrimiento de reglas y patrones [6]. En particular, en el
campo de la climatología y las políticas relacionadas con ella, podríamos presenciar
la convergencia de esta forma inédita de investigación intensiva en datos y la nueva
generación de competencias en tecnologías de información.
La alineación de la oferta científica con su demanda en el contexto de una incer-
tidumbre científica persistente dependerá de la búsqueda de nuevas relaciones, la
fusión de modelos y datos en la evaluación de escenarios y la superación de barreras
culturales y lingüísticas para habilitar la colaboración. Este proceso parece tener más
en común con los videojuegos en red que con el método científico tradicional. Captar
conceptos tan esenciales como los de preservación de datos, colaboración, proceden-
cia de la información y rendición de cuentas requerirá perspectivas frescas por parte
de los numerosos miembros de la comunidad de investigación intensiva en datos.
En lugar de fábricas de datos y redes de diseño preestablecido, unidas a sistemas ex-
clusivos de publicación que descansan en mecanismos de revisión por pares y titularidad
académica, esta incipiente forma de investigación tendrá un talante más impredecible
e indócil, y sus pautas de descubrimiento nos recordarán la forma en que funcionan los
ecosistemas; es decir, será una investigación caracterizada por redes flexibles de ser-
vicios dinámicos, ágil innovación desde los márgenes y una colaboración más cercana
entre quienes generan conocimiento y quienes lo aplican. Como en todo ecosistema,
predominarán los patrones de comportamiento emergente (y en ocasiones impredecible).
Nuestras instituciones actuales, incluidos los organismos federales y las universi-
dades donde se hace investigación, se verán desafiadas por estas nuevas estructuras.
El acceso a datos y servicios de cómputo, así como a nuevos colaboradores, no estará
determinado por la presencia física de una universidad o por el acceso a subvenciones
federales millonarias. Es posible incluso que los rigores de la cátedra y su concentra-
ción en el éxito individual dentro de una disciplina científica obren en contra de esta
nueva empresa. Necesitamos una organización que integre la ciencia natural con
la ciencia socioeconómica, equilibre ciencia y tecnología, fomente el pensamiento
sistémico, impulse la búsqueda flexible e interdisciplinaria de soluciones de largo
alcance, permita que confluya la creación del conocimiento con su aplicación y logre
armonizar las metas personales con las grupales.

Una organización de este tipo podría desarrollar enfoques integrales con miras a
un futuro sustentable, los cuales tendrían como finalidad entender la diversidad de
los futuros posibles. Asimismo, se concentraría en investigar procesos de alcance
global que se manifiestan a escalas regionales con marcadas consecuencias socioe-
conómicas. A diferencia de una institución educativa tradicional, con su planta
relativamente fija de docentes sujetos a mecanismos de promoción académica, una
nueva organización asumiría más riesgos, forjaría y alimentaría formas originales
de colaboración e incorporaría al personal indicado para las tareas específicas. De
manera parecida a como sucede en la serie televisiva Misión imposible, se convocaría
a participantes de todo el mundo para trabajar en problemas particulares, como los
que impone el fenómeno del calentamiento global.
CÓMO HACERLO REALIDAD
¿Cómo pueden las tecnologías de información actuales coadyuvar al surgimiento

de este novedoso tipo de organización y esta nueva clase de ciencia? En la época
del eosdis se pensaba que las bases de datos relacionales proveerían los servicios
suficientes para administrar la formidable cantidad de datos que producirían los
satélites del sistema eos. Si bien la tecnología de bases de datos aportó los servicios
mínimos para los productos estándar de información eos, no pudo asimilar la inno-
vación que se gestaba en las fronteras del sistema, donde la ciencia tenía el control.
Hoy por hoy, se propone el uso de redes semánticas y ontologías como recursos de
descubrimiento y de colaboración. Sin embargo, como ya sucedió con las bases de
datos, es de esperar que la comunidad científica muestre reticencias a emplear estas
herramientas, complejas de por sí, excepto para las tareas más simples.
En última instancia, las tecnologías digitales sólo pueden ofrecernos descripciones
limitadas de una realidad rica y compleja; de hecho, captar lo inusual y lo inesperado
exige facultades como la creatividad y la perspicacia, que son difíciles de modelar
en rígidos esquemas digitales. Por otra parte, la mera aplicación de correlaciones
estadísticas al estilo PageRank,1 y con base en el uso, no necesariamente llevarán al
descubrimiento de lo inusual y lo inesperado. Sin embargo, las nuevas herramien-
tas de información diseñadas para un mundo intensivo en datos pueden ayudar a
“filtrar” y reducir esos datos a escalas manejables, al tiempo que proveen recursos
de visualización y presentación gráfica para facilitar el descubrimiento creativo y
alentar formas de colaboración.
1
PageRank es el algoritmo central del motor de búsquedas de Google.

La arquitectura del cómputo intensivo en datos debe consistir en una red inter-
conectada que cuente con servicios de almacenamiento, cómputo y presentación
en cada uno de sus nodos. Nuevos sistemas estandarizados, extensibles y aptos para
captar la innovación desde los márgenes, brindarán el medio donde se gestarán y
desarrollarán estos “ecosistemas” de conocimiento, en fase con los cambios que
experimenten las necesidades de la ciencia climatológica y sus políticas asociadas.
REFERENCIAS
[1] D. S. Greenberg, Science, Money, and Politics: Political Triumph and Ethical Erosion, Chicago,
University of Chicago Press, 2001.
[2] National Research Council, Assessing the Impacts of Changes in the Information Technology R&D
Ecosystem: Retaining Leadership in an Increasingly Global Environment, Washington, D. C., National
Academies Press, 2009.
[3] D. Sarewitz y R. A. Pielke, Jr., “The Neglected Heart of Science Policy: Reconciling Supply of and
Demand for Science”, Environ. Sci. Policy, vol. 10, 2007, pp. 5-16, doi: 10.1016/
j.envsci.2006.10.001.
[4] L. Dilling, “Towards Science in Support of Decision Making: Characterizing the Supply of
Carbon Cycle Science”, Environ. Sci. Policy, vol. 10, 2007, pp. 48-61, doi: 10.1016/j.envsci.
2006.10.008.
[5] Intergovernmental Panel on Climate Change, Climate Change 2007: The Physical Science Basis,
Nueva York, Cambridge University Press, 2007.
[6] C. Anderson, “The End of Theory”, Wired, vol. 16, núm. 7, 2008, pp. 108-109.

Más allá del tsunami: CH R ISTOPH E R

SOUTHAN
la edificación de la infraestructura G R AHAM

CAM E RON
EMBL-European
para el tratamiento de los datos Bioinformatics Institute
de las ciencias biológicas
N
o es fácil cuantificar una revolución científica,
pero la velocidad con la que se producen los datos en
la ciencia se ha incrementado en forma tan vertiginosa
que la simple inspección de un área particular de las
ciencias biológicas nos permite apreciar los efectos de ese cambio
en todo el campo. La figura 1 registra el aumento extraordinario en
el número de nucleótidos individuales (bases) que la comunidad in-
ternacional de investigación experimental ha remitido al repositorio
embl-Bank1 (European Molecular Biology Laboratory Nucleotide
Sequence Database). Actualmente, el volumen de dichos registros
crece a razón de 200% al año.
La información está al cuidado del International Nucleotide
Sequence Database Collaboration (insdc), un proyecto colectivo
conformado por los repositorios dna Data Bank of Japan (ddbj),
GenBank de los Estados Unidos y embl-Bank del Reino Unido,
los cuales intercambian información nueva día con día. En mayo
de 2009, estos bancos sumaban un total aproximado de 250 000
millones de bases, repartidas en 160 millones de entradas.
Una entrega reciente al embl-Bank, con número de registro
FJ982430, puede dar testimonio de la rapidez con que se producen
los datos y la eficacia con que la infraestructura bioinformática
1
www.ebi.ac.uk/embl

global reacciona ante una emergencia
300
sanitaria. El registro mencionado contie-
ne la secuencia completa de la subunidad
250 H1, de 1 699 bases, de una muestra viral
proveniente del primer caso de influen-
200 za H1N1 identificado en Dinamarca, la
cual fue remitida el 4 de mayo de 2009,
150 a unos días del diagnóstico. Desde el
inicio de la pandemia mundial H1N1 se
100 han recibido muchas otras secuencias
de subunidades virales de países como
50
Estados Unidos, Italia, México, Canadá,
Dinamarca e Israel.
0
El embl-Bank se encuentra alojado
2000
1990
2009
2005
1985
1995
19 82
en el European Bioinformatics Institute

(ebi), una institución académica con sede
en Cambridge, Reino Unido, y adscrita
al European Molecular Biology Labo-
FIGURA 1.
Crecimiento del número de bases ratory (embl). El ebi es un centro tanto
depositadas en el embl-Bank de 1982 a de investigación como de servicios en
inicios de 2009. bioinformática y almacena información
biológica sobre ácidos nucleicos, secuen-
cias proteicas y estructuras macromoleculares. Por su parte, el Wellcome Trust
Sanger Institute, con instalaciones vecinas al ebi, genera aproximadamente 8% de
la producción mundial de secuencias de nucleótidos. Ambas instituciones, ubicadas
en el Wellcome Trust Genome Campus, cuentan con científicos que producen datos
y administran las bases donde éstos se almacenan, biocuradores encargados de agre-
gar anotaciones, expertos bioinformáticos que desarrollan herramientas analíticas
y equipos de investigación que buscan inferir conocimientos biológicos que habrán
de consolidarse posteriormente por vía experimental. Como puede verse, ésta es una
comunidad que cotidianamente enfrenta problemas relacionados con la infraestruc-
tura informática, el almacenamiento y la minería de datos, y que continuamente
explora soluciones de colaboración locales y globales.
El servicio de información sobre secuencias nucleotídicas se conoce con el nombre
colectivo de European Nucleotide Archive [1] y reúne los acervos del embl-Bank y otros
tres repositorios creados para alojar datos generados por nuevos mecanismos: el Trace

Volumen (en terabytes) Archive, para datos cromatográficos producidos por
1.9 secuenciadores capilares de primera generación, el
Short Read Archive, para datos obtenidos a partir de
30
secuenciadores de nueva generación, y el Trace Assem-
75 bly Archive, en fase experimental, que recopila alinea-
mientos de secuenciaciones múltiples e incluye enlaces
hacia las secuencias genómicas finalizadas depositadas
Volumen (en terabases) en el embl-Bank. La información contenida en todos
0.27 estos repositorios se intercambia frecuentemente con
el National Center for Biotechnology Information en
1.5 Estados Unidos. La figura 2 presenta una comparación
1.7 entre los volúmenes de datos correspondientes del em-
bl-Bank, el Trace Archive y el Short Read Archive.
Trace Archive (primera gen.) LOS RETOS DE LA SECUENCIACIÓN DE NUEVA GENERACIÓN

Short Read Archive (nueva gen.)
embl-Bank (montajes finales)
La aparición en 2005 de los llamados secuenciado-
res de nueva generación, capaces de leer millones
de bases nucleotídicas de adn en una sola corrida
instrumental, no sólo contribuyó a acrecentar consi-
FIGURA 2.
Volumen de datos y de derablemente el acervo de información genética, sino
número de nucleótidos en el que proyectó a la investigación en bioinformática, y
embl-Bank, el Trace Archive en ciencias biológicas en general, a la vanguardia en
y el Short Read Archive según la creación de infraestructura para el almacenamien-
registros de mayo de 2009. to, traslado, análisis, interpretación y visualización
de volúmenes de datos del orden de petabytes [2]. El
Short Read Archive, que es el repositorio europeo destinado a recopilar la información
generada por las máquinas antes descritas, recibió 30 terabytes (tb) de datos en los
primeros seis meses de operación, lo que equivale a casi 30% del inventario total del
embl-Bank, acumulado a lo largo de 28 años desde que se inició la recolección de
datos. La incorporación de instrumental nuevo y avances técnicos no sólo multiplicará
varias veces el volumen de envíos al Short Read Archive en pocos años, sino que pre-
parará el camino para la próxima generación de sistemas de secuenciación de adn [3].
Ante tal perspectiva, el ebi incrementó su capacidad de almacenamiento de 2 500
tb (2.5 pb) en 2008 a 5 000 tb (5 pb) en 2009, lo que significa prácticamente una du-
plicación anual. Sin embargo, aun cuando fuera posible mantener al día la capacidad
podrían surgir cuellos de botella al desplazarse los déficits de entrada-salida a otros

puntos de la infraestructura. Por ejemplo, a esta escala, el respaldo convencional de
información se vuelve ineficazmente lento (de hecho, en el hipotético escenario
de una pérdida total de datos en el ebi, se calcula que la restauración tomaría meses);
por lo mismo, se contempla ahora como una mejor opción la duplicación en flujo
continuo (streamed replication) de los datos originales, ya que cada copia queda distri-
buida en distintas ubicaciones. Otro posible cuello de botella radica, por ejemplo, en
que los avances en las velocidades de transferencia de datos han excedido ya la tasa
de escritura a disco, que es del orden de 70 megabits/s, y para la cual no se prevén
mejoras sustanciales. El problema podría mitigarse mediante la escritura simultánea
en varios discos, pero a un costo mucho mayor.
Este crecimiento implacable de la carga de información exige sopesar todo el
tiempo la posibilidad de enviar sólo los datos derivados a los depósitos y guardar
localmente la salida bruta del dispositivo. Las decisiones sobre las estrategias de
almacenamiento requerirán el concurso de los científicos que participan en cada
etapa del proceso, los experimentadores, los operadores del equipo, los encargados
de administrar centrales de procesamiento, los bioinformáticos y los biólogos que
analizan los resultados. Considérese, por ejemplo, que en los laboratorios que cuentan
con secuenciadores de alto rendimiento el costo de almacenar los datos brutos de
un determinado experimento se aproxima ya al costo de repetir el propio experi-
mento. Los investigadores podrían mostrar reservas ante la sola idea de eliminar los
datos brutos después del procesamiento, pero es una opción práctica que debe ser
considerada. Otras soluciones menos controvertidas tienen que ver con la reducción
selectiva de datos, lo que implica priorizar entre salidas de datos en bruto, lecturas
de nucleótidos, múltiples secuenciaciones, montajes de secuencias y secuencias ge-
nómicas consenso. Un ejemplo de aplicación de este tipo de estrategia es el estándar
fastq, un formato textual que permite almacenar de manera codificada tanto una
secuencia nucleotídica como sus indicadores de calidad en un solo carácter ascii. El
formato, cuya invención se debe al Sanger Institute, se ha convertido recientemente
en la norma para el almacenamiento de secuencias producidas por instrumentos
de nueva generación, ya que con él se logra reducir en 200 veces un determinado
volumen de datos, lo que significa eliminar 99.5% de la salida bruta. Actualmente
se desarrollan formatos de representación de secuencias todavía más compactos.
LA PRODUCCIÓN DE GENOMAS EN SERIE
La producción de genomas completos ha contribuido a acelerar nuestra comprensión

de la biología y la evolución. Este progreso se ilustra en la figura 3, que muestra el

extraordinario crecimiento en el nú-
mero de proyectos de secuenciación
4500 genómica que conforman el Genomes
4000 OnLine Database (gold).
Si bien la figura se construyó con
3500
base en la cantidad total de proyec-
3000 tos globales de secuenciación, la ma-
2500 yoría de los genomas referidos están
2000
disponibles para su análisis en el sitio
de internet Ensembl, que mantienen
1500
de manera conjunta el ebi y el Sanger
1000 Institute. El gráfico muestra que para
500 2010 se habrán iniciado más de 5 000
0
proyectos de secuenciación, de los
cuales más de 1 000 habrán logrado
2001
2000
2006
2009
2007
2008
2005
2002
1998
1999
2004
1997
2003
montajes completos. Un caso reciente

a destacar es el del genoma de los bovi-
nos [4], obtenido posteriormente al del
pollo y que pronto será acompaña-
FIGURA 3.
Incremento en el número de proyectos de do por los del resto de las principales
secuenciación genómica en el Genomes On- especies agropecuarias. Estos adelan-
Line Database (gold) iniciados y concluidos tos, que enriquecerán nuestro cono-
desde 1997. Cortesía del gold. cimiento de la evolución de los ma-
míferos y su domesticación, también
habrán de impulsar los procesos de mejoramiento genético en la agricultura, la
ganadería y la producción de alimentos.
RESECUENCIAR EL GENOMA HUMANO: OTRO CRECIMIENTO DE ESCALA EN DATOS
Estudios recientes que exploran la variabilidad genética humana en el nivel genómi-

co han allanado el camino hacia una mejor comprensión de algunas enfermedades
comunes, lo que ha motivado la formación de un consorcio internacional encargado
de elaborar un exhaustivo catálogo de variantes de secuencias (polimorfismos) en
diversas poblaciones humanas. Instituciones como el Sanger Institute en el Reino
Unido, bgi-Shenzhen en China y el National Human Genome Research Institute en los
Estados Unidos —este último a través del Large-Scale Genome Sequencing Program—
planean secuenciar en los próximos tres años un mínimo de 1 000 genomas humanos.

En 2008, la fase preliminar de este proyecto produjo aproximadamente una
terabase (1012 bases) de datos de secuenciación cada mes, cantidad que se prevé se
duplique en 2009. La producción total ascenderá a unas 20 terabases, de manera
que si cada base de secuencia ocupa 30 bytes de espacio en disco, puede inferirse
que el proyecto completo producirá aproximadamente 500 tb de datos. En contraste,
el proyecto original de secuenciación del genoma humano requirió 10 años para
generar alrededor de 40 gigabases (40 × 109 bases) de secuencia de adn. En los
próximos dos años habrán de secuenciarse hasta 10 000 millones de bases por día,
lo que equivale a más de dos genomas humanos cada 24 horas (calculando sobre
2 850 millones de bases por genoma). El conjunto final de datos, de 6 billones de
bases de adn, representará 60 veces más datos de secuenciación que los graficados
previamente en la figura 1.
EL PROPÓSITO CENTRAL DEL TRATAMIENTO DE LOS DATOS: LA OBTENCIÓN DE
NUEVO CONOCIMIENTO
Aun antes de publicada la versión preliminar del genoma humano en 2001, las
bases de datos biológicos habían pasado de ocupar una posición marginal a una
central en la investigación moderna en ciencias biológicas, lo que trajo consigo el
problema de que nuestra capacidad para analizar los datos va ahora a la zaga de
nuestra habilidad para generarlos. A consecuencia de lo anterior, existe la necesidad
apremiante de hallar nuevos métodos que permitan aprovechar no sólo los datos
genómicos disponibles, sino también otros conjuntos de resultados generados por
dispositivos de alto rendimiento que residen en bases de datos. Por otra parte, la
producción de dichos conjuntos es cada vez más neutral en cuanto a hipótesis, en
comparación con los resultados de los experimentos convencionales, de propósito
y tamaño más restringido. Los registros de uso de los servicios del ebi, según se
ilustra en la figura 4, revelan que los biólogos, con apoyo de colegas versados en
bioinformática, acceden cada vez en mayor número a estos recursos.
Actualmente, las páginas vinculadas con las 63 bases de datos que hospeda el ebi
reciben unos 3.5 millones de accesos al día, lo que representa más de medio millón
de usuarios individuales por mes. Si bien este volumen no va a la par del incremento
en las tasas de acopio de datos, se ha visto un aumento importante en la actividad de
minería de datos, como lo evidencian los índices que miden la cantidad de accesos
mediante api a los servicios de red, los cuales registran cerca de un millón de tareas
por mes. Para alentar una mayor exploración de los datos, el ebi ha desarrollado, con
herramientas de acceso libre, el sistema de búsquedas eb-eye, con el que ofrece una

sola puerta de acceso a sus
1 000 000 contenidos. Por medio de la
indexación en formatos di-
800 000
versos (como archivos pla-
nos, dumps o volcados xml
y el formato obo), el siste-
600 000
ma provee acceso expedito
y permite efectuar búsque-
400 000 das globales en el conjunto
CGI
de bases de datos del ebi, así
200 000 como búsquedas específicas
en acervos selectos.
API
0
2005 2006 2007 2008 2009 LOS PLANES EUROPEOS
PARA CONSOLIDAR LA
INFRAESTRUCTURA DE DATOS
La oferta de recursos del ebi

FIGURA 4.
Número de accesos por red (cgi: common gateway atiende con eficacia las ne-
interface) y uso de servicios automáticos (api: application cesidades crecientes de los
programming interface) según información registrada en productores y los usuarios
los servidores del ebi de 2005 a 2009. de los datos; sin embargo,
los incrementos de escala
que experimentan las ciencias biológicas en todo el ámbito europeo requieren una
planificación de largo aliento. Tal es la misión del proyecto elixir, que busca edificar
una sólida infraestructura distribuida para aumentar al máximo las posibilidades de
acceso a información biológica que actualmente se encuentra dispersa en más de 500
bases de datos a lo largo de toda Europa. Además de buscar soluciones a consultas
sobre gestión de datos, el proyecto también se enfoca en garantizar un financiamiento
sostenible para mantener los acervos de información y la colaboración internacio-
nal; asimismo, tiene la encomienda de instaurar procedimientos para desarrollar
colecciones que admitan nuevos tipos de datos, asegurar la compatibilidad de las
herramientas bioinformáticas y elaborar ontologías y normas sobre bioinformática.
La creación del proyecto elixir va de la mano con la transición hacia una nueva
etapa en la que la computación de alto desempeño e intensiva en datos se convierte
en un factor indispensable para el progreso de las ciencias biológicas [5]. Es evidente
que las repercusiones para la investigación no pueden anticiparse con certeza, pero es

posible dar algunos indicios. Mediante la exploración minuciosa de la vasta reserva de
datos que aportan de manera creciente los trabajos de secuenciación genómica antes
discutidos, pero también de los datos transcriptómicos, proteómicos y de la genómica
estructural, los biólogos podrán profundizar su comprensión de los procesos vitales
y su evolución, lo que a su vez reforzará el poder predictivo de la biología sintética
y la biología de sistemas. Más allá de su efecto decisivo sobre el curso futuro de la
investigación académica, estos avances impulsados por datos trascenderán hasta áreas
científicas aplicadas —como la investigación y el desarrollo de fármacos, la biotec-
nología, la medicina, la salud pública, las actividades agropecuarias y las ciencias
ambientales—, todo ello en aras de mejorar nuestra calidad de vida.
REFERENCIAS
[1] G. Cochrane et al., “Petabyte-Scale Innovations at the European Nucleotide Archive”, Nucleic
Acids Res., vol. 37, enero de 2009, pp. D19-D25, doi: 10.1093/nar/gkn765.
[2] E. R. Mardis, “The Impact of Next-Generation Sequencing Technology on Genetics”, Trends
Genet., vol. 24, núm. 3, marzo de 2008, pp. 133-141, doi: 10.1016/j.tig.2007.12.007.
[3] N. Blow, “DNA Sequencing: Generation Next-Next”, Nat. Methods, vol. 5, 2008, pp. 267-274, doi:
10.1038/nmeth0308-267.
[4] Bovine Genome Sequencing and Analysis Consortium, “The Genome Sequence of Taurine Cattle:
A Window to Ruminant Biology and Evolution”, Science, vol. 324, núm. 5926, 24 de abril de 2009,
pp. 522-528, doi: 10.1126/science.1169588.
[5] G. Bell, T. Hey y A. Szalay, “Beyond the Data Deluge,” Science, vol. 323, núm. 5919, 6 de marzo de
2009, pp. 1297-1298, doi: 10.1126/science.1170411.

La computación multinúcleo JAM ES L ARUS

DE N NIS GAN NON
y el descubrimiento científico Microsoft Research
E
n el último medio siglo, las computadoras paralelas, el
procesamiento en paralelo y la investigación científica han
evolucionado de manera conjunta. La insaciable necesidad
de los científicos e investigadores por efectuar cálculos
más complejos y en mayor cuantía excedió hace mucho tiempo la
capacidad de las computadoras convencionales. La única estrategia
a la altura de esta necesidad ha sido la del paralelismo, es decir, la
ejecución simultánea de más de una operación. En un primer nivel,
el paralelismo es una idea sencilla y fácil de llevar a la práctica.
Construir una computadora paralela duplicando componentes ope-
rativos básicos, como unidades aritméticas o, incluso, procesadores
completos, no presenta mayor dificultad; pero fabricar una máquina
estable, no entorpecida por cuellos de botella internos, constituye
un gran reto. En última instancia, el problema principal ha sido el
software, no el hardware: los programas paralelos son más difíciles
de diseñar, escribir, depurar y perfeccionar que sus contrapartes
secuenciales, las cuales no pueden considerarse todavía productos
totalmente desarrollados y reproducibles.
LA EVOLUCIÓN DE LA COMPUTACIÓN PARALELA
La evolución de las sucesivas generaciones de hardware de cómputo

paralelo ha obligado también a replantear constantemente los algo-
ritmos y el software paralelos. En las primeras supercomputadoras,

como la ibm Stretch, la Cray i y las de la serie Control Data Cyber, el paralelismo
consistía en una serie de operaciones vectoriales. La Cray ii, Encore, Alliant y muchas
generaciones de computadoras ibm fueron construidas con múltiples procesadores que
compartían memoria. Como resultó muy difícil incrementar el número de procesado-
res que podían hacer uso de un mismo espacio de memoria, los diseños evolucionaron
hacia sistemas que prescindían de la memoria compartida y donde los procesadores
intercambiaban información mediante mensajes. Los clústeres Beowulf, que eran
arreglos de máquinas pc convencionales conectadas por Ethernet, aparecieron como
opciones de supercómputo de menor costo. Por su parte, las tecnologías de redes
mejoraron en latencia y ancho de banda, y este modelo de computación distribuida
es el que predomina actualmente en las supercomputadoras. Con el tiempo, otros
sistemas, como las plataformas Cray multihilos (multi-threaded), demostraron que
existían diferentes medios para abordar el paralelismo de memoria compartida.
Mientras que la comunidad científica ha batallado para programar cada generación
de estas exóticas máquinas, el resto del mundo informático se ha contentado con la
programación secuencial de máquinas en las que cualquier recurso de paralelismo
está oculto en las entrañas del hardware, fuera de la vista del programador.
En años recientes, la computación paralela ha irrumpido en el medio informá-
tico masivo con la llegada de las computadoras multinúcleo. Anteriormente, las
computadoras eran en su mayoría dispositivos secuenciales que ejecutaban una
sola operación por unidad de tiempo. Siguiendo la ley de Moore, los avances en
la ingeniería de semiconductores permitieron duplicar la cantidad de transistores
por chip cada dos años, lo que multiplicó la velocidad de las computadoras en una
medida semejante y también abrió el camino para implementaciones más complejas.
Como consecuencia, el rendimiento de las computadoras mejoró alrededor de 40%
cada año a partir de la década de 1970, un incremento que satisfacía a la genera-
lidad de los desarrolladores y usuarios. Este ciclo de mejoras constantes llegó a su
fin debido a que todo aumento en la frecuencia de reloj de un procesador requiere
energía adicional, de manera que cerca de los 3 GHz los chips alcanzaron su límite
económico de enfriamiento. Los fabricantes de chips de computadora, como Intel,
amd, ibm y Sun, cambiaron a procesadores multinúcleo que aprovechaban las ge-
neraciones de transistores previstas por la ley de Moore para duplicar la cantidad
de procesadores independientes en un chip. Cada procesador corría a una velocidad
no mayor que la de su predecesor, y en ocasiones incluso a una velocidad un poco
menor; pero, en último término, un chip multinúcleo podía ejecutar el doble de
instrucciones que su predecesor.

LOS RETOS DE LA PROGRAMACIÓN PARALELA
Esta nueva generación de computadoras multinúcleo descansa sobre la misma in-

fraestructura precaria de software con que la comunidad científica batalló en su larga
experiencia con las primeras computadoras paralelas. Una cantidad importante de
programas de propósito general se ha escrito para hardware secuencial y no corren
más rápido en computadoras multinúcleo. Para explotar el potencial de estas máqui-
nas se necesitan nuevos programas paralelos que puedan dividir una tarea en múlti-
ples fragmentos, resolver cada uno de manera relativamente independiente y reunir
los resultados en una solución única. En la actualidad, el reto más acuciante que
tienen ante sí los desarrolladores es el de encontrar mejores métodos de producción
de software paralelo, lo que también es objeto de mucha investigación y desarrollo.
Las comunidades de científicos e ingenieros pueden beneficiarse de estos apre-
miantes esfuerzos y al mismo tiempo nutrirlos de información. Numerosas técnicas
de programación paralela surgieron de la comunidad científica, cuya experiencia
ha influido en la búsqueda de nuevas formas de aproximarse a la programación de
computadoras multinúcleo. Los futuros avances en nuestra capacidad para programar
estos dispositivos redundarán en beneficio de todos los desarrolladores de software,
en la medida en que la frontera que separa la informática científica de vanguardia de
la de consumo masivo se diluye a consecuencia del surgimiento de la computación
paralela como el paradigma de referencia en el mundo de la programación.
Un problema fundamental de la programación paralela actual es que en su mayo-
ría se instrumenta en un nivel de abstracción muy bajo. Los programadores deben
segmentar su código en componentes que corren en procesadores separados y se
comunican leyendo y escribiendo datos en espacios de memoria compartidos o me-
diante el intercambio de mensajes. En más de un sentido, esta situación es análoga
a la que prevalecía en los primeros días de la informática, cuando los programas se
escribían en lenguajes de ensamblador para una determinada computadora y era
necesario rescribirlos para que pudieran correr en alguna otra máquina. En ambos
casos, el problema no era solamente la imposibilidad de reutilizar el código, sino
también el que el desarrollo en lenguaje de ensamblador resultaba menos productivo
y más propenso a errores que la programación en lenguajes de más alto nivel.
LA BÚSQUEDA DE SOLUCIONES
Distintas líneas de investigación trabajan en elevar el nivel de abstracción en que

pueden escribirse los programas paralelos. La propuesta más antigua y con mayor
arraigo es la de la programación paralela en datos. En este paradigma, una instrucción

o secuencia de instrucciones se aplica simultáneamente a todos los elementos de una
colección de datos. La granularidad del procedimiento puede ir desde la suma de dos
números en una adición paralela de dos matrices hasta cálculos complejos de minería
de datos en una operación de tipo map-reduce [1]. El atractivo de la computación para-
lela en datos es que el paralelismo es transparente para el programador. Cada cómputo
se lleva a cabo aislado de los cómputos concurrentes sobre otros datos, y el código que
describe dichas operaciones es secuencial. El desarrollador no necesita ocuparse de los
pormenores del traslado de datos o la ejecución de cálculos, ya que quedan al cuidado
del entorno de ejecución (runtime). Las gpu (unidades de procesamiento gráfico) pro-
veen el soporte de hardware para esta modalidad de programación, y recientemente
han sido extendidas para convertirlas en gpgpu (unidades gpu de propósito general),
las cuales pueden llevar a cabo cómputos numéricos de muy alto desempeño.
Desafortunadamente, el paralelismo de datos no es un modelo de programación
que funcione para todo tipo de problema. Algunos cálculos requieren mayor comu-
nicación y coordinación. Por ejemplo, en problemas de plegamiento de proteínas, las
fuerzas sobre todos los átomos se calculan en paralelo, pero las interacciones locales
se calculan de manera diferente a como se hace con las interacciones remotas. Otros
ejemplos de cálculos que son difíciles de expresar como programas paralelos en datos
incluyen distintas modalidades de refinamiento adaptativo de mallas que se utilizan
en muchas simulaciones en física moderna, en las que la caracterización de estruc-
turas locales, como aglomeraciones de materia o agrietamientos en una estructura,
requieren una resolución espacial más detallada que la del resto del sistema.
Una nueva idea que recientemente ha atraído un considerable interés de inves-
tigación es la memoria transaccional (mt), un mecanismo para coordinar el acceso
compartido a los datos en una computadora multinúcleo. Los datos compartidos son
una prolífica fuente de errores de programación, ya que el desarrollador debe asegu-
rarse de que un procesador que modifique el valor de un dato tenga acceso exclusivo
a él. Si otro procesador tratara también de acceder al mismo dato, uno de los dos
cambios podría perderse, y si un procesador leyera el dato demasiado pronto, podría
encontrar un valor inconsistente. El mecanismo más común para prevenir este tipo
de error es el candado, que los programas utilizan para evitar que varios procesadores
accedan simultáneamente a una ubicación de memoria. Sin embargo, los candados
son recursos de programación de bajo nivel que fácilmente y con frecuencia son mal
empleados en formas que permiten el acceso concurrente o causan bloqueos mutuos
(deadlocks) que paralizan la ejecución de un programa.
La memoria transaccional es una abstracción de alto nivel que permite al desa-

rrollador identificar un grupo de instrucciones que deben ser ejecutadas de manera
atómica, es decir, como si ninguna otra parte del programa estuviera ejecutándose
al mismo tiempo. De esta manera, en lugar de asignar candados a todos los datos
a los que podrían acceder las instrucciones, el desarrollador desplaza ese trabajo al
entorno de ejecución y al hardware. La mt es una idea prometedora, pero tendrá que
superar numerosos retos técnicos antes de establecerse en el uso general. Actual-
mente, la mt tiene un elevado costo de implementación si no cuenta con soporte en
los procesadores, y su usabilidad y utilidad en el mundo real, en programas volumi-
nosos, está todavía por demostrarse. Si se halla una solución a estos problemas, la
mt promete simplificar muchos aspectos de la programación multinúcleo y limitar
su propensión a errores.
Otra idea novedosa es el uso de los lenguajes de programación funcionales, los
cuales representan un estilo de programación que generalmente prohíbe actualiza-
ciones al estado del programa. En otras palabras, en estos lenguajes puede asignarse
un valor inicial a una variable, pero dicho valor no puede cambiarse; más bien, se
crea una nueva variable para contener el nuevo valor. Este estilo de codificación es
idóneo para la programación paralela, ya que elimina las actualizaciones que re-
quieren sincronización entre dos procesadores. Los programas paralelos funcionales
recurren a estados mutables sólo para la comunicación entre procesadores paralelos,
y necesitan candados o mt sólo para esta breve y específica porción de sus datos.
Hasta hace muy poco, sólo la comunidad de científicos e ingenieros había lidiado
con las dificultades de usar computadoras paralelas para algo más que tareas cuya
solución fuera manifiestamente paralela. La llegada de los procesadores multinúcleo ha
cambiado esta situación y ha convertido a la programación paralela en un desafío para
todos los desarrolladores de software. Seguramente, las nuevas ideas y herramientas
de código creadas para programas de consumo masivo redundarán en beneficio de
la comunidad técnica y la dotarán de nuevos medios para obtener el mejor provecho
del poder en constante aumento de los procesadores multinúcleo.
REFERENCIAS
[1] D. Gannon y D. Reed, “El paralelismo y la nube”, en este volumen, pp.143-147.

El paralelismo DE N NIS GAN NON

DAN R E E D
y la nube Microsoft Research
A
lo largo de la década pasada, la investigación en
ingeniería y ciencias apoyada en la computación se ha
erigido como el tercer pilar del proceso científico, com-
plementando a la teoría y a la experimentación. Diver-
sos estudios nacionales han destacado la importancia de la ciencia
computacional como un habilitador crucial del descubrimiento cien-
tífico y la competitividad nacional en las ciencias físicas y biológicas,
la medicina, la atención a la salud, el diseño y la manufactura [1-3].
Como su nombre lo indica, la ciencia computacional se ha cen-
trado históricamente en la computación: la creación y ejecución de
modelos matemáticos de procesos naturales y artificiales. Impul-
sada por la oportunidad y la necesidad, la ciencia computacional
está expandiendo su campo para abarcar tanto a la computación
como al análisis de datos. Actualmente, un creciente tsunami de
información amenaza con abrumarnos con su solo volumen y di-
versidad. Alimentado por sensores de bajo costo y aparentemente
ubicuos, redes de banda ancha y sistemas de almacenamiento de
alta capacidad, el tsunami incluye datos provenientes de sensores
que monitorean nuestro planeta desde las profundidades oceáni-
cas, instrumentos terrestres y sistemas de producción de imágenes
ubicados en el espacio; también incluye mediciones ambientales
y datos relacionados con el cuidado de la salud que cuantifican
procesos biológicos y los efectos de las condiciones circundantes.

En pocas palabras, estamos transitando de la escasez de datos al exceso de datos, lo
que produce una relativa disminución de la atención humana hacia cualquier dato
particular e impone la necesidad de filtrar la información con asistencia de máquinas.
Esta disponibilidad inmediata de tal diversidad de datos está cambiando la forma
de proceder en la ciencia, desplazándola del enfoque tradicional del método cientí-
fico, basado en hipótesis, a una ciencia basada en la exploración. Los investigadores
ya no se preguntan simplemente: “¿Qué experimento puedo construir para probar
esta hipótesis?”, sino, cada vez más: “¿Qué correlaciones puedo extraer de los datos
existentes?” En un sentido más contundente, quisiéramos preguntar: “¿Qué nuevos
discernimientos podrían hallarse de ser posible fusionar datos de múltiples disciplinas
y dominios?” El reto consiste en analizar muchos petabytes de información en una
escala temporal práctica en términos humanos.
La capacidad para crear modelos ricos y detallados de fenómenos naturales y
artificiales, así como para procesar los enormes volúmenes de datos experimentales
creados por una nueva generación de dispositivos científicos potenciados por la in-
formática, convierte a la computación en un amplificador intelectual universal que
impulsa el avance de la ciencia y la ingeniería y nutre a la economía del conocimiento.
La computación en la nube es el desarrollo tecnológico más reciente de la ciencia
computacional, y permite a grupos de usuarios hospedar, procesar y analizar grandes
volúmenes de datos provenientes de distintas disciplinas. Consolidar el cómputo y el
almacenamiento en grandes centrales de procesamiento de datos crea economías de
escala en lo que respecta al diseño y construcción de instalaciones, adquisición
de equipo y logística de operación y mantenimiento, lo que resulta imposible cuando
estos elementos se encuentran dispersos geográficamente. Más aún, la consolidación
y el hospedaje permiten remontar muchas de las barreras sociológicas y técnicas que
han dificultado el intercambio de datos multidisciplinarios y la colaboración. Final-
mente, el hospedaje en la nube facilita la preservación de los datos a largo plazo, una
tarea especialmente ardua para las universidades y las instituciones gubernamentales,
y que es esencial para nuestra capacidad de realizar experimentos longitudinales.
No sería descabellado afirmar que las modernas centrales de datos y las supercom-
putadoras actuales son como gemelos separados al nacer. Ambas son masivamente
paralelas en su diseño y están organizadas como una red de nodos computacionales
intercomunicados. En cada una, los nodos individuales consisten en microprocesado-
res genéricos con múltiples núcleos, memorias de gran capacidad y almacenamiento
local en disco. Ambas ejecutan aplicaciones expresamente diseñadas para explotar
recursos masivos de paralelismo. Sus diferencias radican en su evolución. Las super-

computadoras masivamente paralelas fueron diseñadas para correr cómputos con
ocasionales accesos de entrada/salida y para completar un extenso cálculo individual
tan rápido como fuera posible, haciendo una tarea a la vez. En contraste, las centrales
de procesamiento dirigen su poder hacia el mundo exterior y consumen inmensas
cantidades de datos.
El paralelismo puede aprovecharse en la nube de dos maneras. La primera tiene
que ver con el acceso de los usuarios. Las aplicaciones de nube se han diseñado para
utilizarse como servicios Web, de manera que están organizadas como un conjunto
de dos o más capas de procesos. Una capa provee la interfaz del servicio para la
aplicación cliente o el navegador del usuario; este “rol de Web” recibe las solicitudes
de los usuarios y administra las tareas asignadas a la segunda capa. Esta segunda
capa de procesos, a veces llamada “rol de trabajador”, ejecuta las tareas analíticas
necesarias para satisfacer las solicitudes de los usuarios. Un rol de Web y un rol de
trabajador pueden ser suficientes para unos cuantos usuarios simultáneos, pero si una
aplicación de nube va a ser ampliamente utilizada —por ejemplo, para búsquedas,
mapas personalizados, redes sociales, servicios climáticos, información turística
o subastas en línea— debe ser capaz de atender a miles de usuarios concurrentes.
La segunda forma en que se aprovecha el paralelismo en la nube se relaciona con
el tipo de tareas de análisis de datos que realiza la aplicación. En muchos escenarios
de análisis de grandes volúmenes de información es impráctico destinar un solo
procesador o tarea a inspeccionar un conjunto o flujo de datos masivo para encontrar
un patrón; el costo y la demora son enormes. En estos casos, podemos segmentar
los datos y repartirlos entre un gran número de procesadores, cada uno de los cua-
les puede analizar un subconjunto de ellos. Posteriormente, los resultados de cada
inspección parcial se combinan y se presentan al usuario.
Este procedimiento tipo map-reduce se emplea comúnmente en aplicaciones de
centrales de procesamiento de datos, y es uno en una extensa familia de consultas
(queries) de análisis paralelo empleadas en cómputo de nube. La búsqueda en Web
es el ejemplo canónico de este modelo en dos fases. Requiere construir un índice
de palabras clave, apto para búsquedas, a partir de los contenidos de la Web, lo que
implica crear una copia de toda la Web y ordenar sus contenidos mediante una se-
cuencia de pasos map-reduce. Tres destacadas tecnologías hacen uso de este modelo
de paralelismo: Google tiene una versión de uso exclusivo [4], Yahoo! cuenta con una
versión de código abierto conocida como Hadoop y Microsoft tiene una herramienta
llamada Dryadlinq [5]. Dryad es un mecanismo que permite ejecutar grupos distri-
buidos de tareas que pueden configurarse en un grafo acíclico dirigido (dag, por sus

siglas en inglés) y arbitrario. La extensión del lenguaje C# conocida como Language
Integrated Query (linq) permite incrustar expresiones de consulta directamente
en programas regulares. El sistema Dryadlinq puede compilar automáticamente
estas consultas en Dryad dag, las cuales pueden ejecutarse, también de manera
automática, en la nube.
La plataforma Windows Azure de Microsoft permite una combinación de es-
calabilidad multiusuario y análisis paralelo de datos. En Azure, las aplicaciones se
han diseñado como “roles” sin registro de estado (stateless) que secuencialmente
recaban tareas de listas, las ejecutan e insertan nuevas tareas o datos en otras
listas de prioridad. Los cómputos map-reduce en Azure consisten en dos conjuntos
de roles de trabajador: los correlacionadores (mappers), que recaban tareas de una
lista de correlaciones e insertan datos en el sistema de almacenamiento Azure;
y los reductores (reducers), que buscan tareas que apunten a datos que requieran
reducción en el sistema de almacenamiento. Mientras que Dryadlinq ejecuta un
dag estático, Azure es capaz de ejecutar un dag implícito en el que los nodos co-
rresponden a roles y los enlaces corresponden a mensajes en listas. Los cómputos
de Azure también pueden representar el paralelismo que genera la concurrencia
de enormes cantidades de usuarios.
Este mismo tipo de análisis de datos estilo map-reduce se observa frecuentemente
en procesos de análisis científico de gran escala. Considérese, por ejemplo, el trabajo
de comparar una muestra de adn contra las miles de secuencias de adn conocidas.
Esta clase de búsqueda es una tarea “manifiestamente paralela” que puede acele-
rarse fácilmente si se le segmenta en muchas búsquedas independientes en varios
subconjuntos de los datos en cuestión. De manera similar, imaginemos la tarea de
identificar regularidades en datos médicos, como sucede en la detección de anomalías
en imágenes cerebrales obtenidas por resonancia magnética funcional; o la búsqueda
de posibles anomalías climáticas en flujos de eventos detectados por radares.
Finalmente, otra ubicación donde puede explotarse el paralelismo en las centrales
de procesamiento de datos está en el hardware de un nodo individual. Cada nodo
contiene múltiples procesadores, que a su vez están conformados por varios núcleos.
Para muchas tareas de análisis de datos, es posible explotar recursos masivos de
paralelismo en el nivel de las instrucciones. Por ejemplo, filtrar el ruido en datos
obtenidos por sensores puede requerir la aplicación de una transformada rápida de
Fourier u otros métodos espectrales. Estos cálculos pueden acelerarse mediante el
uso de unidades de procesamiento gráfico de propósito general (gpgpu, por sus siglas
en inglés) en cada nodo. Dependiendo de la velocidad a la que determinado nodo

pueda leer datos, este procesamiento basado en gpgpu podría permitirnos reducir la
cantidad de nodos requeridos para cumplir con una cuota global de servicio.
La World Wide Web comenzó como una federación libre de simples servidores,
donde cada uno de ellos almacenaba documentación científica y datos de interés para
una reducida comunidad de investigadores. Al crecer exponencialmente el número
de esos servidores y al madurar la internet global, las búsquedas Web convirtieron lo
que en un principio fue un experimento científico en una nueva fuerza económica
y social. La meta de lograr búsquedas eficientes fue asequible sólo gracias al para-
lelismo que proveían las grandes centrales de procesamiento de datos. Conforme
ingresamos a un periodo en el que la ciencia en su conjunto está determinada por
la explosión de los datos, la computación en la nube y su capacidad intrínseca de
explotar el paralelismo en muchos niveles se ha convertido en una nueva tecnología
fundamental para el avance del conocimiento humano.
REFERENCIAS
[1] President’s Information Technology Advisory Committee, Computational Science: Ensuring Ameri-
ca’s Competitiveness, junio de 2005, www.nitrd.gov/pitac/
reports/20050609_computational/computational.pdf.
[2] D. A. Reed (ed.), Workshop on The Roadmap for the Revitalization of High-End Computing, junio de
2003, http://archive.cra.org/reports/supercomputing.pdf.
[3] S. L. Graham, M. Snir y C. A. Patterson (eds.), Getting Up to Speed: The Future of Supercomputing,
Washington, D. C., National Academies Press, 2004, www.nap.edu/openbook.php?record_
id=11148.
[4] J. Dean and S. Ghemawat, “MapReduce: Simplified Data Processing on Large Clusters”, OSDI
’04: Sixth Symposium on Operating Systems Design and Implementation, San Francisco, diciem-
bre de 2004, doi: 10.1145/1327452.1327492.
[5] Y. Yu., M. Isard, D. Fetterly, M. Budiu, Ú. Erlingsson, P. Kumar Gunda, and
J. Currey, “DryadLINQ: A System for General-Purpose Distributed Data-Parallel Computing
Using a High-Level Language”, OSDI ’08: Eighth Symposium on
Operating Systems Design and Implementation, San Diego, diciembre de 2008,
http://research.microsoft.com/pubs/70861/DryadLINQ-osdi.pdf.

El impacto de las herramientas de CAROLE GOBLE

University of Manchester
flujo de trabajo en la investigación DAVID DE ROU R E

University of Southampton
centrada en datos
N
os encontramos en la época de la investigación cien-
tífica centrada en datos, en la cual las hipótesis no sólo
se ponen a prueba mediante la recolección y el análi-
sis dirigidos de datos, sino que también son generadas
mediante la combinación y la exploración de la reserva de datos ya
disponible [1-3]. El paisaje de datos científicos al que recurrimos
se está expandiendo rápidamente en escala y en diversidad. Si se
toma a las ciencias biológicas como ejemplo, las plataformas de alto
rendimiento de secuenciación de genes pueden generar terabytes
de datos en un solo experimento, y los volúmenes de datos están
destinados a aumentar aún más con la automatización a escala
industrial. De 2001 a 2009, el número de bases de datos referidas
en Nucleic Acids Research saltó de 218 a 1 170 [4]. Las colecciones de
datos no sólo están aumentando en tamaño y en número, sino que
además están coordinadas de manera parcial y con frecuencia son
incompatibles [5], lo que significa que las tareas de descubrimien-
to y de integración constituyen desafíos significativos. Al mismo
tiempo, estamos recurriendo a una serie más amplia de fuentes
de datos: la biología moderna obtiene conocimiento a partir de la
combinación de diferentes tipos de datos “ómicos” (proteómicos,
metabolómicos, transcriptómicos, genómicos), así como de datos
de otras disciplinas tales como la química, la medicina clínica y la
sanidad, mientras que la biología de sistemas enlaza datos de escala

múltiple con modelos matemáticos también de escala múltiple. Estos datos abarcan
todos los tipos: desde registros de bases de datos estructurados hasta artículos pu-
blicados, datos numéricos sin procesar, imágenes e interpretaciones descriptivas que
utilizan vocabularios controlados.
La generación de datos en esta escala requiere métodos de procesamiento escala-
bles. La preparación, el manejo y el análisis de datos constituyen cuellos de botella
y a la vez se encuentran más allá de las habilidades de muchos científicos. Los flujos
de trabajo (workflows) [6] proporcionan: (1) un medio sistemático y automatizado
de conducir análisis transversales entre distintos conjuntos de datos y aplicaciones;
(2) una manera de capturar este proceso de modo que los resultados se puedan re-
producir y el método se pueda examinar, validar, repetir y adaptar; (3) una interfaz
visual de programación mediante scripts, de modo que los científicos computacionales
puedan crear estas rutas (pipelines) sin necesidad de recurrir a programación de bajo
nivel, y (4) una plataforma de integración y de acceso para el creciente número de
proveedores independientes, de modo que los científicos computacionales no nece-
siten especializarse en cada uno. El flujo de trabajo se está convirtiendo así en un
paradigma que posibilita la ciencia a gran escala mediante la instrumentación de las
rutas de preparación y análisis de datos, pero también se está constituyendo como el
vehículo preferido para la extracción computacional de conocimientos.
DEFINICIÓN DE FLUJO DE TRABAJO
Un flujo de trabajo es una descripción precisa de un procedimiento científico; un

proceso en varias etapas para coordinar tareas múltiples, que actúa como un script
complejo [7]. Cada tarea representa la ejecución de un proceso computacional, tal
como correr determinado programa, hacer una consulta a una base de datos, enviar
un trabajo a una nube o una malla computacional, o llamar a un servicio a través
de la Web para utilizar un recurso remoto. La salida de datos de una tarea se con-
sume en tareas subsiguientes de acuerdo con la topología de un grafo predefinido
que “organiza” el flujo de los datos. En la figura 1 se presenta un flujo de trabajo a
manera de ejemplo, codificado en el Taverna Workflow Workbench [8], que busca
genes enlazando cuatro fuentes de datos de acceso público distribuidas en Estados
Unidos, Europa y Japón: BioMart, Entrez, UniProt y kegg.
Los flujos de trabajo generalmente tienen tres componentes: una plataforma
de ejecución, una suite de diseño visual y un paquete de desarrollo. La plataforma
ejecuta el flujo de trabajo en nombre de las aplicaciones y resuelve cuestiones que
son comunes a las distintas etapas, como (1) la invocación de las aplicaciones de

Entradas del flujo de trabajo
qtl_end_position qtl_start_position chromosome_name
genes_in_qtl
mmusculus_gene_ensembl
remove_uniprot_duplicates remove_entrez_duplicates create_report
merge_uniprot_ids merge_entrez_genes merge_reports
REMOVE_NULLS_2 remove_Nulls
add_uniprot_to_string add_ncbi_to_string
Kegg_gene_ids Kegg_gene_ids_2
concat_kegg_genes
regex_2 split_gene_ids merge_kegg_references
split_for_duplicates
remove_duplicate_kegg_genes
Get_pathways
Entradas
regex gene_ids
split_by_regex
lister
get_pathways_by_genes1
Merge_pathways
concat_ids
concat_gene_pathway_ids pathway_desc
Merge_gene_pathways Merge_pathway_desc
Workflow Outputs
pathway_genes pathway_desc pathway_ids
merge_genes_and_pathways remove_pathway_duplicates merge_pathway_list_1 gene_descriptions
kegg_pathway_release merge_genes_and_pathways_2 merge_pathway_desc merge_pathway_list_2 merge_gene_desc species
binfo merge_genes_and_pathways_3 remove_pathway_nulls remove_pathway_nulls_2 remove_nulls_3 getcurrentdatabase
Resultados del flujo de trabajo
kegg_pathway_release merged_pathways pathway_descriptions pathway_ids gene_descriptions kegg_external_gene_reference report ensembl_database_release
Resultados Entradas
An_output_port An_input_port A_local_service Beanshell A_Soaplab_service String_constant A_Biomart_Service
FIGURA 1.
Un flujo de trabajo Taverna que enlaza varios conjuntos de datos distribuidos a escala inter-
nacional para identificar genes prospectos implicados en la resistencia a la tripanosomiasis
africana [11].

servicio y el manejo de la heterogeneidad de los tipos de datos e interfaces en di-
versas plataformas computacionales; (2) el monitoreo de fallas y su restablecimiento;
(3) la optimización de la memoria, el almacenamiento y la ejecución, incluyendo la
concurrencia y el procesamiento en paralelo; (4) el manejo de datos: correlación,
referenciación, desplazamiento, transmisión y preparación; (5) el control de la bi-
tácora de procesos y el rastreo de la procedencia de los datos, y (6) la seguridad y el
monitoreo de políticas de acceso. Es necesario que los sistemas de flujo de trabajo
soporten procesos de ejecución de larga duración en entornos inestables, por lo que
deben ser robustos, tolerantes a errores y capaces de recuperarse de ellos. También es
necesario que evolucionen continuamente para aprovechar las capacidades crecientes
de los recursos computacionales y de almacenamiento, con lo que pueden proveer
mayor capacidad de análisis.
La suite de diseño proporciona una aplicación visual de programación por scripts
para crear flujos de trabajo y compartirlos, así como para preparar los componentes
que se han de incorporar como pasos ejecutables. El propósito es resguardar al autor
de las complejidades de las aplicaciones subyacentes y permitirle diseñar y entender
los flujos de trabajo sin tener que delegar en aplicaciones particulares y especializa-
das o contratar ingenieros de software. Esto habilita a los científicos para construir
sus propias rutas cuando las necesiten y como las quieran. Por último, el paquete de
desarrollo permite a los programadores ampliar las capacidades del sistema y facilita
que los flujos de trabajo se integren en aplicaciones, portales Web o bases de datos.
Esta integración es transformativa: tiene el potencial de incorporar conocimientos
sofisticados de manera invisible en las herramientas que los científicos utilizan
rutinariamente.
Cada sistema de flujo de trabajo cuenta con su propio lenguaje, una suite de diseño
y componentes de software. Los sistemas varían en cuanto a sus modelos de ejecu-
ción y los tipos de componentes que coordinan [9]. Sedna es uno de los pocos que
utilizan el Business Process Execution Language (bpel), un estándar de la industria
para flujos de trabajo científicos [10]. Entre los sistemas de flujo de trabajo de código
abierto y propósito general se encuentran Taverna,1 Kepler,2 Pegasus3 y Triana.4 Otros
sistemas, como el loni Pipeline5 para imágenes neuronales y el Pipeline Pilot,6 de
1
www.taverna.org.uk
2
http://kepler-project.org
3
http://pegasus.isi.edu
4
www.trianacode.org
5
http://pipeline.loni.ucla.edu
6
http://accelrys.com/products/scitegic

distribución comercial, para el descubrimiento de fármacos, están más orientados
hacia aplicaciones particulares y están optimizados para dar soporte a bibliotecas de
componentes específicas. Todos ellos se enfocan en aplicaciones interoperativas; otros
sistemas de flujo de trabajo se orientan al aprovisionamiento de ciclos de cómputo o
a la asignación de trabajos a grids. Por ejemplo, Pegasus y dagMan7 se han utilizado
para una serie de experimentos de e-ciencia a gran escala, tales como modelos de
predicción para el pronóstico de terremotos utilizando datos de sensores en el pro-
yecto CyberShake del Southern California Earthquake Center (scec).8
USO DE LOS FLUJOS DE TRABAJO
Los flujos de trabajo liberan a los científicos de la monotonía del procesamiento ru-
tinario de datos de modo que puedan concentrarse en el descubrimiento científico.
Ayudan a sobrellevar la carga de las tareas rutinarias, representan los protocolos
computacionales necesarios para acometer la ciencia centrada en datos, y ponen al
alcance de un grupo mucho más amplio de científicos y desarrolladores de aplica-
ciones científicas el uso de procesos y de recursos de datos.
Los flujos de trabajo son ideales para ejecutar procedimientos de rutina de ma-
nera precisa, repetida y sistemática: el control de la captura de datos de sensores o
instrumentos; la limpieza, normalización y validación de datos; el traslado y alma-
cenamiento de datos de manera segura y eficiente; la comparación de datos a través
de múltiples ejecuciones, y la puesta al día con regularidad de los depósitos de datos.
Por ejemplo, el programa de exploración astronómica Pan-starrs9 utiliza los flujos de
trabajo de Microsoft Trident Scientific Workflow Workbench10 para cargar y validar
las detecciones de telescopio que se ejecutan a aproximadamente 30 tb por año. Los
flujos de trabajo también han resultado útiles para el mantenimiento y la actualiza-
ción de colecciones y depósitos de datos al reaccionar ante cambios en las colecciones
de datos subyacentes. Por ejemplo, el Centro Médico Nijmegen reconstruyó la base
de datos tgrap de receptores mutantes acoplados a proteínas G con ayuda de una
suite de flujos de trabajo Taverna para minería de textos.
En un nivel superior, un flujo de trabajo es una expresión modular explícita y
precisa de un protocolo experimental in silico o de “laboratorio seco”. Los flujos
de trabajo son ideales para recopilar y reunir datos a partir de conjuntos dispersos
7
www.cs.wisc.edu/condor/dagman
8
http://epicenter.usc.edu/cmeportal/CyberShake.html
9
http://pan-starrs.ifa.hawaii.edu
10
http://research.microsoft.com/en-us/collaboration/tools/trident.aspx

de datos y de algoritmos de emisión de datos —una actividad esencial en la anota-
ción de conjuntos de datos, en la curación de datos y en la ciencia comparativa de
evidencias múltiples—. En la figura 1 se exploran colecciones dispares de datos para
encontrar y reunir información relacionada con rutas metabólicas implicadas en
la resistencia a la tripanosomiasis africana; el flujo de datos entrelaza colecciones
interrelacionadas. En este caso, el procesamiento automatizado y sistemático lleva-
do a cabo por el flujo de trabajo superó las deficiencias de la priorización manual
de datos —lo que conduce a excluir datos del análisis prematuramente para hacer
manejable la cantidad— y proporcionó nuevos resultados [11].
Más allá del ensamblaje de datos, los flujos de trabajo codifican rutas de minería de
datos y de descubrimiento de conocimientos, así como barridos paramétricos a través
de algoritmos de predicción. Por ejemplo, los flujos de trabajo lead11 son conducidos
por eventos externos generados por agentes de minería de datos que monitorean
colecciones de instrumentos buscando patrones significativos para desencadenar
un análisis de predicción de tormentas; el Jet Propulsion Laboratory utiliza flujos de
trabajo Taverna para explorar una amplia gama de configuraciones multiparamétricas
de instrumentos espaciales.
Por último, los sistemas de flujo de trabajo permiten liberar el flujo de trabajo
implícito que se encuentra integrado a determinada aplicación convirtiéndolo así
en una especificación explícita que se puede reutilizar en una maquinaria de soft-
ware común y de infraestructura compartida. Los expertos informáticos utilizan
sistemas de flujo de trabajo directamente como medios de desarrollo de flujos para
manejar la infraestructura; los expertos informáticos científicos los utilizan para
diseñar y explorar nuevos procedimientos de investigación; un grupo más extenso
de científicos utiliza flujos de trabajo preparados de antemano, con restricciones
de configuración, que corren desde el interior de las aplicaciones o que se corren
ocultos en portales Web.
LA CIENCIA CENTRADA EN DATOS HABILITADA POR LOS FLUJOS DE TRABAJO
Los flujos de trabajo ofrecen técnicas para apoyar el nuevo paradigma de la ciencia
centrada en datos, ya que se pueden reproducir y repetir. Los resultados y los datos
secundarios pueden calcularse según sea necesario utilizando las fuentes más re-
cientes, generando depósitos de datos virtuales (o bajo demanda) al proporcionar
un procesamiento efectivo de consultas distribuidas. Las repeticiones inteligentes de
11
http://portal.leadproject.org

ejecución de flujos de trabajo producen automáticamente nuevos resultados cuando
surgen datos primarios frescos o nuevos resultados, y también cuando aparecen
nuevos métodos. Los flujos de trabajo mismos, como ciudadanos de primera clase en
la ciencia centrada en datos, se pueden generar y transformar dinámicamente para
satisfacer las necesidades del momento. En un paisaje de datos en rápido cambio, los
flujos de trabajo proporcionan solidez, rendición de cuentas y total auditabilidad. Al
combinar los flujos de trabajo y sus registros de ejecución con resultados publicados,
podemos fomentar una investigación sistemática, imparcial, transparente y compa-
rable, en la que los resultados llevan consigo la procedencia de su derivación. Esta
situación tiene el potencial de acelerar el descubrimiento científico.
Para acelerar el diseño experimental, los flujos de trabajo se pueden reconfigurar
y reutilizar como nuevos componentes o plantillas. La creación de flujos de trabajo
requiere de una pericia que se adquiere con dificultad y que con frecuencia se en-
cuentra más allá de las habilidades del investigador. Los flujos de trabajo a menudo
resultan complejos y difíciles de construir, ya que esencialmente son formas de
programación que requieren algún conocimiento de los conjuntos de datos y de las
herramientas que manipulan [12]. Así pues, resulta muy benéfico crear colecciones
compartidas de flujos de trabajo que incluyan rutas de procesamiento estandarizadas
para su reutilización inmediata o para readaptarlas en su totalidad o en parte. Esta
suma de pericia y recursos puede ayudar a propagar técnicas y prácticas óptimas.
Los especialistas pueden crear los pasos para la aplicación, los expertos pueden di-
señar los flujos de trabajo y establecer parámetros, y quienes son inexpertos pueden
beneficiarse mediante el uso de protocolos complejos.
El sitio social myExperiment12 ha demostrado que mediante la adopción de he-
rramientas de intercambio de contenidos para repositorios de flujos de trabajo,
podemos habilitar los recursos de las redes sociales en torno a los flujos de trabajo y
proporcionar apoyo comunitario para etiquetado social, comentarios, puntuaciones
y recomendaciones, además de combinar los nuevos flujos de trabajo con los que
previamente se habían depositado [13]. Esto se vuelve posible gracias a la escala de
la participación en la ciencia centrada en datos, que puede aplicarse a problemas
desafiantes. Por ejemplo, es tal el dinamismo del medio donde se ejecutan los flujos
de trabajo que éstos parecen decaer conforme transcurre el tiempo, pero se pueden
mantener al día mediante un esfuerzo de depuración combinado tanto de los expertos
como de la comunidad.
12
www.myexperiment.org

Los flujos de trabajo convierten a la ciencia centrada en datos en una empresa de
colaboración en múltiples niveles. Permiten a los científicos colaborar utilizando
datos y servicios compartidos, y garantizan a quienes no son programadores el ac-
ceso a código y aplicaciones avanzadas sin la necesidad de instalarlas y operarlas.
De esta manera, los científicos pueden utilizar las mejores aplicaciones, y no sólo
aquellas con las que están familiarizados. Los flujos de trabajo multidisciplinarios
fomentan una colaboración todavía más amplia. En este sentido, un sistema de flujo
de trabajo constituye un marco para la reutilización de las herramientas y de las
colecciones de datos de la comunidad que respeta los códigos originales y puede
remontar el reto que supone la existencia de distintos estilos de programación. Ini-
ciativas tales como BioCatalogue,13 un registro de servicios Web relacionados con
ciencias biológicas, y los registros de componentes desplegados en el scec facilitan
el descubrimiento de tales componentes. Además de los beneficios que resultan del
intercambio explícito, hay un valor considerable en la información que se puede
recabar simplemente a través del monitoreo del uso de fuentes de datos, servicios y
métodos; esto hace posible el monitoreo automático de recursos y la recomendación
de prácticas comunes y optimización.
Aunque el impacto de las herramientas de flujo de trabajo en la investigación
centrada en datos es potencialmente profundo —se escala el procesamiento para
que se empareje con la escala de los datos—, existen muchos desafíos más allá de
las cuestiones de ingeniería inherentes al software distribuido de gran escala [14].
Hay una confusa cantidad de plataformas de flujo de trabajo, cada una con distin-
tas capacidades y propósitos, y poca conformidad con los estándares. La creación
de los flujos de trabajo suele ser una tarea difícil, ya que se emplean lenguajes que
se encuentran en un nivel inapropiado de abstracción y se presupone un extenso
conocimiento de la infraestructura subyacente. La reutilización de un determinado
flujo de trabajo a menudo se limita al proyecto en el que fue concebido —o incluso
a su autor— e intrínsecamente es sólo tan fuerte como sus componentes. Si bien
los flujos de trabajo incentivan a los proveedores para que suministren servicios de
datos limpios, sólidos y validados, son comunes las fallas en los componentes. Si los
servicios o la infraestructura decaen, lo mismo ocurre con el flujo de trabajo. Des-
afortunadamente, la depuración de flujos de trabajo defectuosos es un tema crucial
que se ha descuidado. Las plataformas de flujo de trabajo contemporáneas carecen
de los medios adecuados para una rápida implantación en las aplicaciones de usuario
13
www.biocatalogue.org

que las consumen, y las porciones de código heredado (legacy) de las aplicaciones
deben incorporarse y administrarse.
CONCLUSIÓN
Los flujos de trabajo conciernen a la investigación centrada en datos de cuatro mane-

ras. En primer lugar, modifican la práctica científica. Por ejemplo, en una hipótesis
basada en datos [1], el análisis de éstos produce resultados que se tienen que poner
a prueba en el laboratorio. En segundo lugar, tienen el potencial de habilitar a los
científicos como autores de sus propias rutas complejas de procesamiento de datos, sin
tener que esperar a que los desarrolladores de software produzcan las herramientas
que necesitan. En tercer lugar, ofrecen una producción sistemática de datos que es
susceptible de comparación y de atribución a su fuente de manera verificable. Por
último, se habla de un torrente de datos [15], y la ciencia centrada en datos se podría
caracterizar como que trata acerca de la primacía de los datos en contraposición a
la primacía del artículo o documento académico [16]; pero también trae consigo un
torrente de métodos: los flujos de trabajo ilustran la primacía del método como otro
paradigma decisivo en la investigación centrada en datos.
REFERENCIAS
[1] D. B. Kell y S. G. Oliver, “Here Is the Evidence, Now What Is the Hypothesis? The Complemen-
tary Roles of Inductive and Hypothesis-Driven Science in the Post-genomic Era”, BioEssays, vol.
26, núm. 1, 2004, pp. 99-105, doi: 10.1002/bies.10385.
[2] A. Halevy, P. Norvig y F. Pereira, “The Unreasonable Effectiveness of Data”, IEEE Intell. Syst., vol.
24, núm. 2, 2009, pp. 8-12, doi: 10.1109/MIS.2009.36.
[3] C. Anderson, “The End of Theory: The Data Deluge Makes the Scientific Method Obsolete”, Wired,
vol. 16, núm. 7, 23 de junio de 2008, www.wired.com/science/discoveries/magazine/16-07/pb_theory.
[4] M. Y. Galperin y G. R. Cochrane, “Nucleic Acids Research Annual Database Issue and the NAR
Online Molecular Biology Database Collection in 2009”, Nucl. Acids Res., vol. 37 (Database issue),
pp. D1-D4, doi: 10.1093/nar/gkn942.
[5] C. Goble y R. Stevens, “The State of the Nation in Data Integration in Bioinformatics”, J. Biomed.
Inform., vol. 41, núm. 5, 2008, pp. 687-693.
[6] I. J. Taylor, E. Deelman, D. B. Gannon y M. Shields (eds.), Workflows for e-Science: Scientific Work-
flows for Grids, Londres, Springer, 2007.
[7] P. Romano, “Automation of In-Silico Data Analysis Processes through Workflow Management
Systems”, Brief Bioinform, vol. 9, núm. 1, enero de 2008, pp. 57-68, doi: 10.1093/bib/bbm056.
[8] T. Oinn, M. Greenwood, M. Addis, N. Alpdemir, J. Ferris, K. Glover, C. Goble, A. Goderis,
D. Hull, D. Marvin, P. Li, P. Lord, M. Pocock, M. Senger, R. Stevens, A. Wipat y C. Wroe, “Taverna:
Lessons in Creating a Workflow Environment for the Life Sciences”, Concurrency and Computa-
tion: Practice and Experience, vol. 18, núm. 10, 2006, pp. 1067-1100, doi: 10.1002/cpe.v18:10.
[9] E. Deelman, D. Gannon, M. Shields e I. Taylor, “Workflows and e-Science: An Overview of Work-
flow System Features and Capabilities”, Future Gen. Comput. Syst., vol. 25, núm. 5, mayo de 2009,
pp. 528-540, doi: 10.1016/j.future.2008.06.012.

[10] B. Wassermann, W. Emmerich, B. Butchart, N. Cameron, L. Chen y J. Patel, “Sedna: A BPEL-Ba-
sed Environment for Visual Scientific Workflow Modelling”, en: I. J. Taylor, E. Deelman, D. B.
Gannon y M. Shields (eds.), Workflows for e-Science: Scientific Workflows for Grids, Londres, Sprin-
ger, 2007, pp. 428-449, doi: 10.1.1.103.7892.
[11] P. Fisher, C. Hedeler, K. Wolstencroft, H. Hulme, H. Noyes, S. Kemp, R. Stevens y A. Brass,
“A Systematic Strategy for Large-Scale Analysis of Genotype-Phenotype Correlations: Identifica-
tion of Candidate Genes Involved in African Trypanosomiasis”, Nucleic Acids Res., vol. 35, núm.
16, 2007, pp. 5625-5633, doi: 10.1093/nar/gkm623.
[12] A. Goderis, U. Sattler, P. Lord y C. Goble, “Seven Bottlenecks to Workflow Reuse and Repurpo-
sing in The Semantic Web”, ISWC 2005, pp. 323-337, doi: 10.1007/11574620_25.
[13] D. de Roure, C. Goble y R. Stevens, “The Design and Realisation of the myExperiment Virtual
Research Environment for Social Sharing of Workflows”, Future Gen. Comput. Syst., vol. 25, 2009,
pp. 561-567, doi:10.1016/j.future.2008.06.010.
[14] Y. Gil, E. Deelman, M. Ellisman, T. Fahringer, G. Fox, D. Gannon, C. Goble, M. Livny, L. Moreau
y J. Myers, “Examining the Challenges of Scientific Workflows”, Computer, vol. 40, 2007,
pp. 24-32, doi: 10.1109/MC.2007.421.
[15] G. Bell, T. Hey y A. Szalay, “Beyond the Data Deluge”, Science, vol. 323, núm. 5919, 6 de marzo de
2009, pp. 1297-1298, doi: 10.1126/science.1170411.
[16] G. Erbach, “Data-Centric View in e-Science Information Systems”, Data Sci. J., vol. 5, 2006,
pp. 219-222, doi: 10.2481/dsj.5.219.

La e-ciencia semántica: PE TE R FOX

JAM ES H E N DLE R
la codificación de significado en la Rensselaer Polytechnic

Institute
ciencia mejorada digitalmente de

la siguiente generación
L
a ciencia se está volviendo cada vez más dependiente
de datos. Sin embargo, las tecnologías tradicionales de
datos no se diseñaron para afrontar la escala ni la hete-
rogeneidad de los datos en el mundo moderno. Proyectos
tales como el Gran Colisionador de Hadrones (gch) y el Australian
Square Kilometre Array Pathfinder (askap) generarán petabytes
de datos que deben ser analizados por centenas de científicos que
trabajan en diversos países y que hablan muchos idiomas diferentes.
La facilitación digital o electrónica de la ciencia, o e-ciencia [1], ahora
es esencial y se está extendiendo.
Desde luego que la ciencia intensiva en datos, uno de los com-
ponentes de la e-ciencia, debe ir más allá de los depósitos de datos
y de los sistemas cerrados, buscando más bien permitir el acceso
a los datos a quienes no sean parte de los equipos principales del
proyecto, así como una mayor integración de fuentes, y proporcionar
interfaces a quienes son científicos expertos pero que no lo son en
la administración de datos ni en computación. Conforme florece la
e-ciencia y las barreras para liberar y abrir el acceso a los datos se
reducen, están surgiendo otras preguntas, que son más difíciles,
como las siguientes: “¿Cómo puedo utilizar estos datos que yo no
generé?”, o “¿Cómo puedo utilizar este tipo de datos, que nunca he
visto, con los datos que uso todos los días?”, o “¿Qué debo hacer si
realmente necesito datos de otra disciplina, pero cuyos términos

no entiendo?” Esta lista de preguntas es grande y crece cada vez más conforme se
incrementa la utilización de productos de datos y de información, y conforme mayor
parte de la ciencia se vuelve dependendiente de dispositivos especializados.
Una idea importante que surge sobre el tratamiento de datos heterogéneos es
que si se sabe lo que los datos “significan”, será más fácil utilizarlos. Conforme
crecen el volumen, la complejidad y la heterogeneidad de los recursos de datos, los
científicos necesitan cada vez más competencias nuevas basadas en nuevos enfoques
“semánticos” (e. g., en la forma de ontologías —codificaciones de términos, concep-
tos y relaciones entre ellos mediante máquina—). Las tecnologías semánticas están
cobrando impulso en áreas de la e-ciencia como la física solar-terrestre (véase la fi-
gura 1), la ecología,1 las ciencias oceanográficas y marítimas,2 la asistencia sanitaria
y las ciencias biológicas,3 por mencionar sólo algunas. Quienes desarrollan las in-
fraestructuras de la e-ciencia necesitan cada vez más de metodologías, herramientas
y middleware*4basadas en la semántica. A su vez ellos pueden facilitar el modelado
de conocimientos científicos, la comprobación de hipótesis con base en la lógica, la
integración de datos semánticos, la composición de aplicaciones, así como la integra-
ción del descubrimiento de conocimientos y del análisis de datos para los diferentes
dominios y sistemas científicos que se han mencionado antes, para que los utilicen
los científicos, los estudiantes y, cada vez más, los no especializados en estos ámbitos.
La influencia de la comunidad dedicada a la inteligencia artificial y la creciente
cantidad de datos disponibles en la Web (lo cual ha llevado a muchos científicos
a utilizar la Web como su “equipo de cómputo” principal) han conducido a los
investigadores de la Web semántica a enfocarse tanto en cuestiones formales de
los lenguajes de representación semántica como en el desarrollo de aplicaciones
semánticas de propósito general. Los lenguajes se están estandarizando y las co-
munidades a su vez están recurriendo a esos lenguajes para construir y utilizar
ontologías —especificaciones de conceptos y términos y de las relaciones entre
ellos (en el sentido formal, legible por máquina)—. Si la e-ciencia tiene que volverse
completamente intensiva de datos, todas las competencias que actualmente requiere
necesitan de representación y mediación semánticas —incluyendo la integración, la
fusión y la minería de datos; el desarrollo, instrumentación y ejecución de flujos de
trabajo; la captura de la procedencia, el linaje y la calidad de los datos; la validación
1
Por ejemplo, el Science Environment for Ecological Knowledge (SEEK) y [2].
2
Por ejemplo, el proyecto Marine Metadata Interoperability (MMI).
3
Por ejemplo, el grupo de interés Health Care and Life Sciences (HCLS) de Web semántica y [3].
* “Middleware es un software que asiste a una aplicación para interactuar o comunicarse con otras aplicaciones, sof-
tware, redes, hardware o sistemas operativos”. Tomado de http://es.wikipedia.org/wiki/middleware (N. del T.).

FIGURA 1.
El Virtual Solar-Terrestrial Observatory (vsto) proporciona integración de datos entre
parámetros físicos medidos por diferentes instrumentos. vstotambién media información
de coordenadas independientes para seleccionar tipos de trazado apropiados utilizando un
enfoque de e-ciencia semántica sin que el usuario tenga que conocer las representaciones
subyacentes ni la estructura de los datos [4, 5].
y la verificación de la autenticidad de los datos así como la confianza en ésta, y la

conveniencia para el propósito—.
La necesidad de más semántica en la e-ciencia también surge en parte de los desafíos
cada vez más distribuidos e interdisciplinarios de la investigación moderna. Por ejemplo,
la disponibilidad de datos de sensores remotos de alta resolución espacial (como las
imágenes) de los satélites para la ciencia de los ecosistemas está cambiando al mismo
tiempo la naturaleza de la investigación en otros campos científicos, como la ciencia del
medio ambiente. Sin embargo, la verificación de campo con datos in situ crea un desafío
inmediato de integración de datos. Las preguntas que se plantean a los investigadores que
utilizan estos datos incluyen: “¿Cómo pueden los datos de ‘puntos’ reconciliarse con va-
rios productos de datos de satélite —e. g., de franja o cuadriculados—?”, “¿Cómo se lleva
a cabo el registro espacial?”, “¿Representan estos datos lo ‘mismo’, en la misma posición

vertical (así como geográfica) o al mismo tiempo, y acaso eso tiene importancia?”
Otro científico, como un biólogo, podría necesitar utilizar los mismos datos desde una
perspectiva muy diferente, para plantear preguntas tales como: “Encontré esta especie
particular en un lugar inesperado. ¿Cuáles son los parámetros geofísicos —temperatura,
humedad, etcétera— para esta área, y cómo ha cambiado durante las últimas semanas,
meses, años?” Las respuestas a este tipo de preguntas residen tanto en los metadatos
como en los datos mismos. Tal vez es más importante que los productos de datos y de
información están cada vez más disponibles mediante los servicios Web, por lo que la
unión semántica (i. e., el significado) que buscamos debe pasar de la posición del nivel
de datos a la de servicio de la internet/Web.
La semántica no sólo añade las definiciones bien hechas y codificadas mediante má-
quina de vocabularios, conceptos y términos, sino que también explica las interrelaciones
entre ellos (y especialmente entre diferentes vocabularios que residen en diferentes
documentos o repositorios en la Web) en formas declarativas (enunciadas) y condicio-
nales (e. g., formas basadas en reglas o lógicas). Uno de los desafíos actuales en torno a
la e-ciencia semántica es equilibrar la expresividad (de la representación semántica) con
la complejidad de definir términos utilizados por los expertos científicos y la aplicación
de los sistemas resultantes. Este equilibrio depende de la aplicación, lo que significa que
no hay solución de un enfoque único que se acople a todo. A su vez, esto implica que
se requiere una relación de igualdad entre científicos físicos y de la computación, así
como entre ingenieros de software y tanto administradores como proveedores de datos.
Durante los últimos años se ha experimentado un desarrollo significativo en lenguajes
de marcado basados en la Web (i.e., xml), incluyendo la estabilización y la estandarización.
Los datos retrospectivos y sus catálogos adjuntos ahora se ofrecen como servicios de la Web,
y los datos en tiempo real y en casi tiempo real se están estandarizando conforme surgen
los servicios Web de sensores. Esto significa que ahora están ampliamente disponibles
diversos conjuntos de datos. Los centros de información para tales registros de servicio,
incluyendo el Earth Observing System Clearinghouse (echo) y el Global Earth Observa-
tion System of Systems (geoss) para las ciencias de la Tierra, se están poblando, y éstos
complementan catálogos completos de inventario tales como el Global Change Master
Directory (gcmd) de la nasa. Sin embargo, estos registros se mantienen en gran medida
limitados a representaciones sólo de sintaxis de los servicios y de los datos subyacentes.
Para utilizarlos se requiere del intensivo esfuerzo humano —para hacer coincidir entradas,
salidas y condiciones previas, así como el significado de los métodos para los servicios—.
También están aumentando los trabajos bajo proyecto y comunitarios para desarro-
llar modelos de datos que mejoren la interoperabilidad de bajo nivel. Estos modelos

exponen vocabularios de dominio, lo cual es útil para los dominios inmediatos de
interés, pero no necesariamente para áreas transversales tales como los registros y
colecciones de datos de las ciencias de la Tierra. Como se ha señalado en los informes
desde el nivel internacional al nivel de agencia, los datos de nuevas misiones, junto
con datos de fuentes existentes de agencia, son cada vez más utilizados en siner-
gia con otras fuentes de observación y de modelización. A medida que se ponen a
disposición estas fuentes de datos como servicios, se mantiene la necesidad de inte-
roperabilidad entre diferentes vocabularios, servicios y representaciones de método,
y las limitaciones de sólo la sintaxis (o semántica de peso ligero, como la cobertura)
se aclaran. Además, conforme aumenta la demanda de productos de información
(representaciones de los datos más allá de su uso en la ciencia pura), la necesidad de
acceso no especilizado a los servicios de información basados en datos de la ciencia
está aumentando rápidamente. Esta necesidad no se está satisfaciendo en la mayoría
de las áreas de aplicación.
Quienes están implicados en los esfuerzos que actualmente se llevan a cabo
(mencionados antes, tales como la física solar-terrestre, la ecología, las ciencias
oceánicas y marítimas, la asistencia sanitaria y las ciencias biológicas) han expuesto
los argumentos de la interoperabilidad que se aleja de la dependencia de acuerdos
al nivel de elementos de datos, o sintáctico, hacia un nivel superior científico, o
semántico. Los resultados de tales proyectos de investigación han demostrado estos
tipos de competencias de integración de datos en el uso de medición interdiscipli-
naria e interinstrumental. Ahora que la interoperabilidad sólo de sintaxis ya no es
más estado el arte, el siguiente paso lógico es utilizar la semántica para empezar a
permitir un nivel similar de apoyo semántico en el nivel de datos como un servicio.
A pesar de esta creciente conciencia de la importancia de la semántica para la
e-ciencia intensiva en datos, la participación de la comunidad científica para de-
sarrollar los requerimientos particulares de áreas científicas específicas ha sido
inadecuada. Los investigadores científicos son cada vez más dependientes de la Web
para sus necesidades de datos, pero hasta la fecha todavía no han creado una agen-
da coherente para la exploración de las tendencias emergentes que las tecnologías
semánticas están permitiendo y para interactuar con los investigadores de la Web
semántica. Para ayudar a crear tal agenda, necesitamos desarrollar un campo mul-
tidisciplinario de la e-ciencia semántica que fomente el crecimiento y el desarrollo de
aplicaciones científicas intensivas de datos con base en metodologías y tecnologías
semánticas, así como enfoques relacionados que se basen en los conocimientos. Para
ese fin, hacemos un llamado de cuatro puntos para la acción:

• Los investigadores en la ciencia deben trabajar con sus colegas en las ciencias
de la computación y la informática para desarrollar requerimientos específicos
de cada campo y para poner en práctica y evaluar los lenguajes, las herramien-
tas y las aplicaciones que se están desarrollando para la e-ciencia semántica.
• Las sociedades científicas y profesionales deben proporcionar los entornos en
los que la vasta interacción necesaria entre los requerimientos de la ciencia y
las competencias de la informática se puedan identificar, y deben reconocer la
importancia de este trabajo en la promoción profesional a través de métricas
parecidas a las de las citas.
• Los organismos de financiamiento deben dirigirse cada vez más a la creación de
comunidades de práctica, con énfasis en los tipos de equipos interdisciplinarios
de investigadores y practicantes que se necesitan para hacer avanzar y sostener
los esfuerzos de la e-ciencia semántica.
• Todas las partes —los científicos, las sociedades y los financiadores— deben
desempeñar un papel en la creación de gobernabilidad en los vocabularios, las
taxonomías y las ontologías controlados que se puedan utilizar en aplicaciones
científicas para garantizar la vigencia y la evolución de los conocimientos codi-
ficados en la semántica.
Aunque los primeros esfuerzos se están realizando en las cuatro áreas, se debe hacer
mucho más. La naturaleza misma de hacer frente a la creciente complejidad de la
ciencia moderna lo demanda.
REFERENCIAS
[1] T. Hey y A. E. Trefethen, “Cyberinfrastructure for e-Science,” Science, vol. 308, no. 5723, mayo de
2005, pp. 817—821, doi: 10.1126/science.1110410.
[2] J. Madin, S. Bowers, M. Schildhauer, S. Krivov, D. Pennington y F. Villa, “An Ontology for
Describing and Synthesizing Ecological Observation Data,” Ecol. Inf., vol. 2, no. 3, 2007, pp.
279—296, doi: 10.1016/j.ecoinf.2007.05.004.
[3] E. Neumann, “A Life Science Semantic Web: Are We There Yet?” Sci. STKE, 2005, p. 22, doi:
10.1126/stke.2832005pe22.
[4] P. Fox, D. McGuinness, L. Cinquini, P. West, J. Garcia y J. Benedict, “Ontology-Supported Scienti-
fic Data Frameworks: The Virtual Solar-Terrestrial Observatory Experience,” Comput. Geosci.,
vol. 35, no. 4, 2009, pp. 724—738, doi:10.1.1.141.1827.
[5] D. McGuinness, P. Fox, L. Cinquini, P. West, J. Garcia, J. L. Benedict y D. Middleton, “The
Virtual Solar-Terrestrial Observatory: A Deployed Semantic Web Application Case Study for
Scientific Research,” AI Mag., vol. 29, no. 1, 2007, pp. 65—76, doi: 10.1145/1317353.1317355.

Visualización para la ciencia CHAR LES HANSE N

CH R IS R . JOH NSON
intensiva en datos VALE R IO PASCUCCI

CL AU DIO T. SILVA
University of Utah
D
esde la llegada de la computación, el mundo ha
experimentado un “big bang” de información: una
explosión de datos. La cantidad de información que
se produce está aumentando a un ritmo exponencial.
Desde 2003, la información digital ha sido responsable de 90 por
ciento de toda la información producida [1], muy superior a la
cantidad de información en papel y en filme. Uno de los mayores
desafíos científicos y de ingeniería del siglo xxi consistirá en com-
prender y usar eficazmente este creciente cuerpo de información.
El análisis visual de datos, facilitado por interfaces interactivas,
permite la detección y la validación de resultados esperados y a la
vez descubrimientos inesperados en la ciencia; permite la valida-
ción de nuevos modelos teóricos y ofrece una comparación entre
modelos y conjuntos de datos; permite la consulta cuantitativa
y cualitativa, mejora la interpretación de datos y facilita la toma
de decisiones. Los científicos pueden utilizar sistemas de análisis
visuales de datos para explorar escenarios del estilo “qué pasaría
si”, definir hipótesis y analizar datos utilizando múltiples perspec-
tivas y suposiciones. Pueden identificar conexiones entre grandes
cantidades de atributos y evaluar cuantitativamente la fiabilidad de
hipótesis. En esencia, el análisis visual de datos es parte integral del
descubrimiento científico y está lejos de ser un problema resuelto.
Siguen abiertas muchas líneas para futuras investigaciones. En este

artículo se describen temas de análisis visuales de datos y que recibirán atención
durante la década siguiente [2, 3].
VISUS: “STREAMING” PROGRESIVO PARA LA EXPLORACIÓN DE DATOS ESCALABLES
La fuerza de gravedad impulsa la mezcla
Interfaz fluido pesado

alterada
fluido ligero
t=0 t=200 t=400 t=700
FIGURA 1.
Visualización interactiva de cuatro etapas de la simulación 11523 de una inestabilidad de Raylei-
gh-Taylor. La gravedad impulsa la mezcla de un fluido pesado encima de uno más ligero. Dos
superficies envolventes captan la región de mezcla.
En los años recientes, los científicos computacionales con acceso a las supercompu-
tadoras más grandes del mundo han simulado con éxito una serie de fenómenos,
tanto naturales como originados por el ser humano, con niveles de detalle sin pre-
cedentes. Tales simulaciones habitualmente producen cantidades masivas de datos.
Por ejemplo, las simulaciones de inestabilidad hidrodinámica realizadas a principios
de 2002 en el Lawrence Livermore National Laboratory (llnl) produjeron varias
decenas de terabytes de datos, como se muestra en la figura 1. Estos datos deben
visualizarse y analizarse para verificar y validar el modelo subyacente, entender el
fenómeno detalladamente, y desarrollar nuevas ideas sobre su física fundamental.
Por lo tanto, la visualización y los algoritmos de análisis de datos requieren nuevos
diseños avanzados que permitan un alto rendimiento cuando se trabaje con grandes
cantidades de datos.
Las técnicas de streaming (flujo continuo) de datos y la computación fuera
de núcleo abordan específicamente los temas de rediseño de algoritmos y la
restructuración de la disposición de datos, que son necesarios para permitir el
procesamiento escalable de grandes cantidades de datos. Por ejemplo, las curvas
que llenan el plano se han utilizado para desarrollar un esquema de indexación

FIGURA 2.
El ajuste de la infraestructura visus, que se utiliza para la visualización en una variedad de
aplicaciones (tales como imágenes médicas, el modelado del subsuelo, la modelización del clima,
microscopía, imágenes de satélite, fotografía digital y simulaciones científicas a gran escala) y con
una amplia gama de dispositivos (desde el iPhone a la Powerwall).
estática llamado v isus,1 que produce una disposición de datos que permite el
recorrido jerárquico de mallas regulares n-dimensionales. Tres características
hacen que este enfoque sea particularmente atractivo: (1) el orden de los datos es
independiente de los parámetros del hardware físico (un enfoque ajeno al caché),
(2) la conversión del orden Z utilizado en los modelos clásicos de bases de datos se
consigue mediante una sencilla secuencia de manipulaciones de cadena de bits, y
(3) no introduce duplicación alguna de datos. Este enfoque ha sido utilizado para
el streaming directo y el monitoreo en tiempo real de simulaciones a gran escala
durante la ejecución [4].
En la figura 2 se muestra la infraestructura del streaming de visus transmitiendo
códigos de simulación llnl y visualizándolos en tiempo real en la instalación Blue
Gene/L en la exposición de Supercómputo 2004 (donde se introdujo la Blue Gene /L
como la nueva super computadora más rápida en el mundo). La escalabilidad extrema
de este enfoque permite el uso de la misma base de código para un gran conjun-
to de aplicaciones, mientras se explota una amplia gama de dispositivos, desde las
grandes pantallas (powerwall) a las estaciones de trabajo, computadoras portátiles y
dispositivos de mano tales como el iPhone.
1
www.pascucci.org/visus

La generalización de esta clase de técnicas al caso de mallas no estructuradas
sigue siendo un problema importante. De manera más general, la evolución rápida
y la creciente diversidad de hardware plantean un reto importante en el diseño de
infraestructuras de software que sean intrínsecamente escalables y adaptables a una
diversidad de recursos informáticos y a condiciones de funcionamiento. Esto plan-
tea cuestiones teóricas y prácticas de la visualización y el análisis para aplicaciones
intensivas en datos que los futuros investigadores necesitarán abordar.
VISTRAILS: PROCEDENCIA Y EXPLORACIÓN DE DATOS
La exploración de datos es un proceso inherentemente creativo que requiere que el

investigador localice datos relevantes, visualice los datos y descubra relaciones entre
ellos; colabore con sus colegas mientras se exploran soluciones, y difunda los resul-
tados. Dado el volumen de datos y la complejidad de los análisis que son comunes en
la exploración científica, se necesitan nuevas herramientas y las que existen deben
ampliarse para apoyar de mejor manera la creatividad.
La habilidad para captar sistemáticamente la procedencia es un requisito clave para
estas herramientas. La procedencia (también conocida como rastro, linaje o pedigrí)
de un producto de datos contiene información sobre el proceso y los datos utilizados
para obtener el producto de datos. La importancia de conservar la información sobre
la procedencia de los productos de datos es bien reconocida en la comunidad científica
[5, 6]. Proporciona documentación importante que es clave para la preservación de
los datos, la determinación de su calidad y de la autoría, así como la reproducción y la
validación de los resultados. La disponibilidad de la información sobre la procedencia
también apoya el razonamiento reflexivo, lo que permite a los usuarios almacenar
resultados provisionales, hacer inferencias de los conocimientos almacenados, y
seguir cadenas de razonamiento en sentido inverso y directo.
VisTrails2 es un sistema de código abierto que diseñamos para apoyar tareas com-
putacionales de exploración tales como visualización, minería de datos e integración.
VisTrails proporciona una infraestructura integral de gestión de la procedencia y
se puede combinar fácilmente con las herramientas y las bibliotecas existentes. Un
nuevo concepto que introdujimos con VisTrails es la noción de la procedencia de la
evolución del flujo de trabajo [7]. A diferencia de sistemas previos de flujo de trabajo y
de visualización, que conservan la procedencia sólo para productos de datos deriva-
dos, VisTrails trata los flujos de trabajo (o rutas) como elementos de datos de primera
2
http://vistrails.sci.utah.edu

FIGURA 3.
Un ejemplo de una visualización exploratoria para el estudio de estructuras celestes derivadas de
simulaciones cosmológicas utilizando el VisTrails. La procedencia completa del proceso de explo-
ración se muestra como un “vistrail”. También se almacenan metadatos detallados, incluyendo
notas de texto libre realizadas por el científico, la fecha y hora en que se creó o modificó el flujo de
trabajo, etiquetas descriptivas opcionales y el nombre de la persona que lo creó.
clase y conserva la información de su procedencia. VisTrails es un sistema extensible.

Al igual que los sistemas de flujo de trabajo, permite que las rutas se creen de modo
que combinen varias bibliotecas. Además, la infraestructura de procedencia VisTrails
se puede integrar con herramientas interactivas, las cuales no se pueden envolver
fácilmente en un sistema de flujo de trabajo [8].
En la figura 3 se muestra un ejemplo de una visualización exploratoria utilizando
VisTrails. En el centro, el rastro visual, o el vistrail, capta todas las modificaciones
que los usuarios aplican a las visualizaciones. Cada nodo en el árbol de vistrail co-
rresponde a una ruta, y los bordes entre dos nodos corresponden a cambios aplicados
para transformar la ruta madre en el descendiente (e. g., a través de la adición de un
módulo o un cambio al valor de un parámetro). La representación de árbol permite
que un científico regrese a una versión previa de manera intuitiva, deshaga cambios

erróneos, compare flujos de trabajo, y que se le recuerden las acciones que condujeron
a determinado resultado particular.
Los enfoques ad hoc para la exploración de datos, que se utilizan ampliamente
en la comunidad científica, tienen serias limitaciones. En particular, los científicos
y los ingenieros necesitan invertir esfuerzo sustancial en la administración de los
datos (e. g., los scripts que codifican las tareas computacionales, datos sin procesar,
productos de datos, imágenes y notas) así como registrar la procedencia de manera
que se puedan contestar preguntas básicas, tales como: ¿Quién creó el producto de
datos y cuándo? ¿Cuándo se modificó, y quién lo hizo? ¿Qué proceso se utilizó para
crearlo? ¿Se derivaron dos productos de datos de los mismos datos sin procesar? Este
proceso no sólo consume mucho tiempo, sino que es propenso a errores. La ausencia
de la información sobre la procedencia hace que sea difícil (y a veces imposible) re-
producir y compartir resultados, resolver problemas de manera colaborativa, validar
resultados con diferentes datos de entrada, entender el proceso utilizado para resolver
un problema en particular, y reutilizar los conocimientos implicados en el proceso de
análisis de datos. También limita en gran medida la longevidad del producto de datos.
Sin información precisa y suficiente acerca de cómo se generó, su valor se reduce en
gran medida. Los sistemas de visualización dirigidos al ámbito científico necesitan
proporcionar un marco flexible que no sólo permita a los científicos realizar análisis
complejos sobre grandes conjuntos de datos, sino que también capte la procedencia
detallada del proceso de análisis.
En la figura 4 se muestra el ParaView3 (una herramienta de análisis de datos y
de visualización para conjuntos de datos extremadamente grandes) y el VisTrails
Provenance Explorer captando de manera transparente un proceso de exploración
completo. El mecanismo de captación de la procedencia se llevó a cabo mediante la
inserción de código de monitoreo en el mecanismo de deshacer/rehacer de ParaView,
que capta los cambios hechos en la especificación subyacente de la ruta. Esencial-
mente, la acción en la parte superior de la pila de deshacer se añade al vistrail en
el lugar apropiado, y “deshacer” se reinterpreta en el sentido de “subir el árbol de
versiones”. Nótese que la representación basada en el cambio es a la vez simple y
compacta —sustancialmente utiliza menos espacio que el enfoque alternativo de
almacenar varias instancias, o versiones, del estado—.
3
www.paraview.org

FIGURA 4.
La representación de la procedencia como una serie de acciones que modifican una ruta hace posi-
ble la visualización de las diferencias entre los dos flujos de trabajo. La diferencia entre dos flujos
de trabajo se representa de una manera significativa, como una reunión de los dos. Esto es tanto
informativo como intuitivo, reduciendo el tiempo que se necesita para entender cómo dos flujos de
trabajo son funcionalmente diferentes.
TÉCNICAS DE VISUALIZACIÓN DE FLUJOS
Se requiere de una evaluación cualitativa y cuantitativa precisa de los fenómenos de

flujo transitorio de tres dimensiones en una amplia gama de aplicaciones científicas,
de ingeniería y médicas. Afortunadamente, en muchos casos el análisis de un campo
vectorial tridimensional se puede reducir a la investigación de las estructuras de dos

dimensiones producidas por su interacción con el contorno del objeto bajo considera-
ción. Ejemplos típicos de tales análisis de flujos incluyen superficies aerodinámicas y
reactores en la aeronáutica, las paredes del motor y los tubos de escape en la industria
automotriz, y las cuchillas del rotor en turbomaquinaria.
Otras aplicaciones en biomedicina se enfocan en la interacción entre campos bioeléc-
tricos y la superficie de un órgano. En cada caso, las simulaciones numéricas de tamaño
y sofisticación crecientes se están volviendo fundamentales para ayudar a los científicos
y a los ingenieros a alcanzar un entendimiento más profundo de las propiedades de flujo
que son relevantes para su tarea. La comunidad de visualización científica ha centrado
una parte importante de sus esfuerzos de investigación en el diseño de métodos de
visualización que transmitan estructuras locales y globales que se producen en varias
escalas del espacio y del tiempo en las simulaciones temporales de flujo. En particular,
se ha puesto énfasis en la interactividad del análisis visual correspondiente, que se ha
identificado como una faceta crítica de la efectividad de los algoritmos propuestos.
Una tendencia reciente en la investigación de visualización de flujo es el uso de
unidades de procesamiento gráfico para calcular métodos de espacio de imagen
y así hacer frente a la complejidad computacional de las técnicas de visualización
que apoyan flujos definidos sobre superficies curvas. La característica clave de este
enfoque es la capacidad de producir eficientemente una representación de textura
densa del flujo sin calcular explícitamente una parametrización de superficie. Esto
se logra mediante la proyección del flujo correspondiente a la parte visible de la
superficie sobre el plano de la imagen, lo que permite la subsecuente generación
de textura en el espacio de imagen a través de la integración en sentido inverso y la
mezcla iterativa. Aunque el uso de la parametrización parcial de superficie obteni-
da mediante proyección da como resultado una impresionante ganancia en el rendi-
miento, los patrones de textura que se extienden más allá de la parte visible de la
superficie auto-ocluida se vuelven incoherentes a causa de la falta de parametrización
completa de la superficie.
Para abordar este problema, hemos introducido un esquema novedoso que apoya
plenamente la creación de visualizaciones de flujos de alta calidad basadas en textura,
que se definen sobre superficies curvas arbitrarias [9]. Llamados diagramas de flujo,
nuestro esquema aborda la cuestión mencionada antes mediante la segmentación
de la superficie en parches sobrepuestos que luego se parametrizan individualmen-
te en diagramas y se empacan en el dominio de la textura. La región sobrepuesta
proporciona a cada diagrama local una representación suave de su vecindad directa
en el dominio de flujo al igual que la información de adyacencia interdiagramática,

FIGURA 5.
Simulación de un tren de alta velocidad ice. Izquierda: el resultado gpuflic. En medio: configura-
ciones de parches. Derecha: diagramas en el espacio de textura.
requiriéndose ambos para la advección*4precisa e ininterrumpida de partículas.

El campo vectorial y la relación de adyacencia mediante parches naturalmente se
representan como texturas, lo que permite la implementación eficiente de unidades
de procesamiento gráfico, tales como gpuflic y ufac, de algoritmos de síntesis de
textura de flujo del estado de la técnica.
En la figura 5 se muestra el resultado de una simulación de un tren Intercity-
Express (ice) alemán de alta velocidad que viaja a una velocidad de aproximadamente
250 km/h con viento que sopla desde el lado en un ángulo de incidencia de 30 grados.
El viento hace que se formen vórtices en el lado de sotavento del tren, provocando
una caída en la presión que afecta negativamente la capacidad del tren para per-
manecer en la pista. Estas estructuras de flujo inducen la separación y patrones de
flujo de fijación en la superficie del tren. Se pueden ver claramente en las imágenes
propuestas cerca de los bordes sobresalientes de la geometría.
La efectividad de una formulación de base física se puede ver con el conjunto de
datos Karman (figura 6), una simulación numérica del fenómeno de la calle clásico
del vórtice de Von Kármán, en el que por la separación de flujo que pasa a través de
un obstáculo de forma circular se causa un patrón repetitivo de vórtices arremoli-
nándose. La visualización de advección de tinte se superpone sobre la visualización
de textura densa que muestra estructuras de flujo instantáneas generadas por la
* “Advección es la variación de un escalar en un punto dado por efecto de un campo vectorial”. Tomado de
http://es.wikipedia.org/wiki/Advecci%B3n (N. del E.)

FIGURA 6.
Visualización del conjunto de datos Karman con advección de tinte. Columna izquierda: ad-
vección de tinte de base física. Columna central: método de advección de textura. Columna
derecha: método de nivel establecido. La secuencia de tiempo es en sentido descendente.
gpuflic. Los patrones generados por el método de advección de textura son confu-
sos a causa de la difusión numérica y de la pérdida de masa. En un método de nivel
establecido, estructuras intricadas se pierden a causa del umbral binario de tinte/
fondo. Gracias a la formulación de base física [10], la visualización puede transmitir
con precisión estructuras detalladas que no se muestran usando el método tradicional
de la advección de textura.
DESAFÍOS FUTUROS DE LA VISUALIZACIÓN INTENSIVA EN DATOS
Se deben lograr avances fundamentales en las técnicas y sistemas de visualización

para extraer significado de conjuntos de datos grandes y complejos derivados de
experimentos y de próximos sistemas de simulación a petaescala y exaescala. Las
herramientas efectivas de análisis de datos y de visualización para apoyar simulacio-
nes de predicción y el descubrimiento de conocimientos científicos deben basarse en
sólidos fundamentos algorítmicos y matemáticos, y deben permitir a los científicos
caracterizar de manera fiable rasgos sobresalientes en sus datos. Nuevos métodos
matemáticos en áreas tales como la topología, el análisis tensorial de orden superior
y la estadística constituirán el núcleo de la extracción de rasgos y la modelación de
la incertidumbre usando la definición formal de formas complejas, patrones y distri-
buciones de espacio-tiempo. Los métodos topológicos son cada vez más importantes
en el desarrollo del análisis avanzado de datos gracias a su poder expresivo en la

descripción de formas complejas en múltiples escalas. La reciente introducción de
técnicas robustas de combinatoria para el análisis topológico ha permitido el uso
de la topología —no sólo para la presentación de fenómenos conocidos, sino para
la detección y la cuantificación de nuevos rasgos de interés científico fundamental—.
Nuestras capacidades actuales de análisis de datos están muy atrasadas en rela-
ción con nuestra capacidad de producir datos de simulación o de registrar datos de
observación. Nuevas técnicas de análisis visual de datos necesitan considerar de for-
ma dinámica distribuciones de probabilidad de alta dimensión de cantidades de
interés. Esto requerirá de nuevas contribuciones de las matemáticas, la probabilidad
y la estadística. El ajuste de las simulaciones a un grado de especificidad y de pasos
de tiempo cada vez más finos trae nuevos retos a la visualización de los datos que se
generan. Será crucial desarrollar algoritmos y metodologías de visualización inte-
ligentes y semiautomatizados para ayudar a filtrar los datos o presentar “visuali-
zaciones sumarias” que permitan a los científicos comenzar a analizar los inmensos
conjuntos de datos utilizando una ruta metodológica en dirección descendente.
La capacidad de cuantificar plenamente la incertidumbre en simulaciones compu-
tacionales de alto rendimiento ofrecerá nuevas capacidades para la verificación y la
validación de códigos de simulación. Por tanto, es necesario desarrollar técnicas para
representar, cuantificar, propagar y visualizar la incertidumbre y así proporcionar a
los científicos visualizaciones creíbles y verificables.
Se necesitan nuevos enfoques para el análisis visual de datos y descubrimientos
de conocimientos que permitan a los investigadores obtener ideas sobre esta forma
emergente de datos científicos. Estos enfoques deben tomar en cuenta la naturale-
za multimodelo de los datos; proporcionar los medios para que los científicos fácilmen-
te modelen datos desde perspectivas de transición de lo global a lo local; permitir la
mezcla de la visualización científica tradicional y la visualización de la información;
realizar la prueba, la verificación y la validación de hipótesis, y abordar los retos que
plantea el uso de tipos bastante diferentes de red mediante los diversos elementos del
código multimodelo. Las herramientas que apoyan la información semántica y ocultan
detalles de formatos de conjuntos de datos serán fundamentales para que los expertos
en visualización y análisis se concentren en el diseño de estos enfoques en lugar de que
queden envueltos en las trivialidades de representaciones particulares de datos [11].
AGRADECIMIENTOS
La publicación de este capítulo se basa, en parte, en trabajo apoyado por doe: vacet,
doe sdm, doe c- safe Alliance Center, the National Science Foundation (subven-

ciones iis-0746500, cns-0751152, iis-0713637, oce-0424602, iis-0534628, cns-
0514485, iis-0513692, cns-0524096, CCF-0401498, oise-0405402, cns-0615194,
cns-0551724, ccf-0541113, iis-0513212 y ccf-0528201), ibm Faculty Awards (2005,
2006 y 2007), la subvención No. 5P41RR012553-10 del nih ncrr y el premio número
mus-C1-016-04, otorgado por la King Abdullah University of Science and Technology
(kaust). Los autores desean agradecer a Juliana Freire y el equipo VisTrails por su
ayuda con la tercera sección de este artículo.
REFERENCIAS
[1] C. R. Johnson, R. Moorhead, T. Munzner, H. Pfister, P. Rheingans y T. S. Yoo (eds.), nih-nsf
Visualization Research Challenges Report, ieee Press, ISBN 0-7695-2733-7, 2006,
http://vgtc.org/wpmu/techcom/national-initiatives/nihnsf-visualization-research-challenges-
report-january-2006, doi: 10.1109/MCG.2006.44.
[2] nsf Blue Ribbon Panel Report on Simulation-Based Engineering Science (J. T. Oden, T.
Belytschko, J. Fish, T. Hughes, C. R. Johnson, D. Keyes, A. Laub, L. Petzold, D. Srolovitz y S. Yip),
“Simulation-Based Engineering Science”, 2006, www.nd.edu/~dddas/References/SBES_
Final_Report.pdf.
[3] nih-nsf Visualization Research Challenges, http://erie.nlm.nih.gov/evc/meetings/vrc2004.
[4] V. Pascucci, D. E. Laney, R. J. Frank, F. Gygi, G. Scorzelli, L. Linsen y B. Hamann, “Real-Time
Monitoring of Large Scientific Simulations”, sac, 2003, pp. 194—198, acm, doi: 10.1.1.66.9717.
[5] S. B. Davidson y J. Freire, “Provenance and Scientific Workflows: Challenges and Opportunities”,
Proc. acm sigmod, 2008, pp. 1345—1350, doi: 10.1.1.140.3264.
[6] J. Freire, D. Koop, E. Santos y C. Silva, “Provenance for Computational Tasks: A Survey”, Comput.
Sci. Eng., vol. 10, núm. 3, pp. 11—21, 2008, doi: 10.1109/MCSE.2008.79.
[7] J. Freire, C. T. Silva, S. P. Callahan, E. Santos, C. E. Scheidegger y H. T. Vo, “Managing
Rapidly-Evolving Scientific Workflows”, International Provenance and Annotation Workshop
(ipaw), lncs 4145, 2006, pp. 10—18, doi:10.1.1.117.5530.
[8] C. Silva, J. Freire y S. P. Callahan, “Provenance for Visualizations: Reproducibility and Beyond,”
ieee Comput. Sci. Eng., 2007, doi: 10.1109/MCSE.2007.106.
[9] G.-S. Li, X. Tricoche, D. Weiskopf y C. Hansen, “Flow Charts: Visualization of Vector Fields on
Arbitrarysurfaces”, ieee Trans. Visual. Comput. Graphics, vol. 14, núm. 5, 2008, pp. 1067—1080,
doi: 10.1109/TVCG.2008.58.
[10] G.-S. Li, C. Hansen y X. Tricoche, “Physically-Based Dye Advection for Flow Visualiza-
tion”, Comp. Graphics Forum J., vol. 27, núm. 3, 2008, pp. 727—735, doi: 10.1111/j.1467-
8659.2008.01201.x.
[11] “Visualization and Knowledge Discovery: Report from the doe/ascr Workshop on Visual
Analysis and Data Exploration at Extreme Scale”, C. R. Johnson, R. Ross, S. Ahern, J. Ahrens,
W. Bethel, K. L. Ma, M. Papka, J. van Rosendale, H. W. Shen y J. Thomas, www.sci.utah.edu/
vaw2007/doe-Visualization-Report-2007.pdf, 2007.

Una plataforma para todo lo que SAVAS

PAR ASTATIDIS
sabemos: la creación de una Microsoft Research
infraestructura de investigación
basada en los conocimientos
L
os sistemas informáticos se han convertido en parte
vital del entorno de la investigación moderna, apoyando
todas las facetas del ciclo de vida de la investigación [1]. La
comunidad utiliza los términos “e-ciencia” y “e-investiga-
ción” para poner de relieve el importante papel de la tecnología de
la computación en las maneras en que abordamos la investigación,
colaboramos, compartimos datos y documentos, presentamos so-
licitudes de financiamiento, usamos dispositivos para recolectar
datos de los experimentos automáticamente y con precisión, imple-
mentamos nuevas generaciones de microscopios y telescopios para
aumentar la calidad de las imágenes adquiridas, y archivamos todo
a lo largo del camino para tener la información de su procedencia
y conservarlo a largo plazo [2, 3].
Sin embargo, los mismos avances tecnológicos en la captura, la
generación y el intercambio de datos, así como la automatización
que las computadoras permiten han dado como resultado una ex-
plosión sin precedentes en datos —esta situación no sólo prevalece
en la investigación sino en todas las facetas de nuestras vidas digi-
tales—. Este diluvio de datos, especialmente en el ámbito científico,
ha traído nuevos desafíos para la infraestructura de investigación,
según lo han destacado Jim Gray y Alex Szalay [4]. Las demandas de
procesamiento, transferencia de datos y almacenamiento son hoy
mucho mayores que hace apenas unos pocos años. No es de extrañar

que estemos hablando del surgimiento de una nueva metodología de investigación
—el “cuarto paradigma”— en la ciencia.
EL CUARTO PARADIGMA
Mediante el uso de la tecnología y la automatización, estamos tratando de mante-

nernos al día con los desafíos del diluvio de datos. El surgimiento de la Web como
una plataforma de aplicaciones, intercambio de datos y colaboración ha roto muchas
barreras en la manera en que se aborda y se difunde la investigación. Las infraestruc-
turas de computación en la nube que están surgiendo (e. g., la de Amazon1) y la nueva
generación de plataformas de cómputo intensivas en datos (e. g., disc,2 el MapReduce
de Google,3 Hadoop4 y Dryad5) están orientadas hacia la gestión y el procesamiento de
grandes cantidades de datos. Amazon ofrece incluso un servicio6 de tipo sneakernet7
(traslado de datos en medios de almacenamiento físico) para abordar el problema
de la transferencia de grandes cantidades de datos a su nube. Empresas tales como
Google, Yahoo! y Microsoft están demostrando que es posible reunir enormes canti-
dades de datos de toda la Web y almacenarlos, administrarlos e indexarlos para luego
construir alrededor de ellos experiencias de usuario participativas.
Las tecnologías actuales se enfocan principalmente en abordar sólo la primera parte
del espectro datos-información-conocimientos-sabiduría.8 Las computadoras se han
vuelto eficientes para almacenar, gestionar, indexar y operar datos (de investigación).
Incluso pueden representar y procesar parte de la información oculta detrás de los sím-
bolos utilizados para codificar esos datos. Sin embargo, todavía estamos muy lejos de
contar con sistemas informáticos que puedan descubrir, adquirir, organizar, analizar,
correlacionar, interpretar, inferir y discurrir automáticamente con la información que
está en internet, que está oculta en los discos duros de los investigadores o que sólo existe
en nuestros cerebros. Todavía no contamos con una infraestructura capaz de administrar
y procesar conocimientos a escala global, que pueda servir como fundamento para una
generación de servicios y aplicaciones basadas en los conocimientos.
Así que si el cuarto paradigma trata de datos e información, no es descabellado
prever un futuro, no muy lejano, en el que empecemos a pensar en los desafíos que
1
http://aws.amazon.com
2
www.pdl.cmu.edu/DISC
3
http://labs.google.com/papers/mapreduce.html
4
http://hadoop.apache.org
5
http://research.microsoft.com/en-us/projects/dryad
6
http://aws.amazon.com/importexport
7
http://en.wikipedia.org/wiki/Sneakernet
8
http://en.wikipedia.org/wiki/DIKW

supondrá la gestión del conocimiento, y la comprensión apoyada computacionalmen-
te, en una escala muy grande. Nosotros los investigadores seremos probablemente
los primeros en hacer frente a este desafío.
INFRAESTRUCTURAS DE INVESTIGACIÓN ORIENTADAS POR LOS CONOCIMIENTOS
El trabajo de la comunidad de la Web semántica9 ha dado lugar a una serie de tecno-

logías para ayudar con la modelación de datos, la representación de la información
y el intercambio de semánticas, siempre en el contexto de un campo de aplicación
particular. Teniendo en cuenta los fundamentos formales de algunas de estas tec-
nologías (e. g., el Web Ontology Language o owl), ha sido posible la introducción de
capacidades de razonamiento, al menos para algunos campos específicos acotados
(como BioMoby10).
En lo sucesivo, el trabajo de la comunidad de la Web semántica seguirá desem-
peñando un papel significativo en el intercambio interoperable de información y
conocimientos. Más importante aún, dado que las tecnologías de representación
tales como rdf (Resource Description Framework), owl y los microformatos go-
zan de aceptación cada vez más amplia, el enfoque evolucionará hacia las facetas
computacionales de comprensión y conocimientos semánticos. El reto al que nos
enfrentaremos es la automatización de la recopilación y la combinación de enormes
cantidades de información rica semánticamente y, de manera muy decisiva, de los
procesos mediante los cuales se genera y se analiza esa información. Hoy en día
tenemos que empezar a pensar en las tecnologías que necesitaremos para describir,
analizar y combinar semánticamente la información y los algoritmos utilizados
para producirla o consumirla, y para hacerlo a escala global. Si hoy los servicios
de computación en la nube se centran en ofrecer una plataforma de ajuste para la
informática, los servicios del mañana se construirán en torno a la administración
de los conocimientos y el razonamiento sobre ellos.
Ya estamos viendo algunos intentos por inferir conocimientos a partir de la infor-
mación que hay en el mundo. Servicios tales como OpenCyc,11 Freebase,12 Powerset,13
True Knowledge14 y Wolfram|Alpha15 demuestran cómo los hechos se pueden registrar
9
http://en.wikipedia.org/wiki/Semantic_Web
10
www.biomoby.org
11
www.opencyc.org
12
www.freebase.com
13
www.powerset.com
14
www.trueknowledge.com
15
www.wolframalpha.com

de tal manera que se pueden combinar y ofrecerse como respuestas a las pregun-
tas de determinado usuario. Wolfram|Alpha, en particular, ha recurrido a expertos
de área para codificar las cuestiones computacionales de procesamiento de datos
y de información que han reunido de toda la Web y han glosado con anotaciones.
Demuestra cómo un servicio orientado a los consumidores se puede construir en la
cima de una infraestructura computacional en combinación con el procesamiento
del lenguaje natural. Es probable que en el futuro cercano surgirán muchos servicios
similares, concentrándose inicialmente en las comunidades técnicas/académicas
especializadas, y posteriormente se expandirán a todos los campos de interés. Al
igual que con otras aplicaciones en la Web orientadas a servicios, la incorporación
de servicios de conocimientos computacionales para los científicos será un aspecto
importante de cualquier ciberinfraestructura de investigación.
Los proyectos myGrid16 y myExperiment17 demuestran los beneficios de capturar
y luego compartir, de manera semánticamente rica, las definiciones de los flujos
de trabajo en la ciencia. Estos flujos de trabajo documentan eficazmente el proceso
mediante el cual se produce información relacionada con investigación y los pasos
dados hacia el logro de (o al intento de alcanzar, sin éxito) una conclusión. Imagínen-
se las posibilidades de ampliar esta idea a todos los aspectos de nuestra interacción
con la información. Hoy, por ejemplo, cuando alguien introduce “El pib de Brasil
vs. Japón” como una consulta en Wolfram|Alpha, la máquina sabe cómo interpretar
la entrada y producir una gráfica de comparación del pib (producto interno bruto)
de los dos países. Si la consulta es “Ford”, la máquina hace una suposición sobre su
interpretación y a la vez ofrece alternativas (e.g., “persona” si el significado deseado
fuese Henry Ford, o Gerald Rudolph Ford, Jr., vs. “entidad comercial” si el signifi-
cado intencionado fuese la Ford Motor Company). El contexto en el que se ha de
interpretar información específica es importante en la determinación de qué trabajo
computacional se llevará a cabo. Las mismas ideas se podrían aplicar en el marco de
una infraestructura de investigación global, en el que Wolfram|Alpha podría ser uno
de los muchos servicios interoperables disponibles que trabajan juntos para apoyar
a los investigadores.
La comunidad de investigación efectivamente se beneficiaría en gran medida de
una infraestructura global que se enfocara en el intercambio de conocimientos y en
la que todas las aplicaciones y los servicios se construyeran, en su parte central, con
16
www.mygrid.org.uk
17
www.myexperiment.org

Descubrimiento Bioinformática
de hechos Bases de
Búsquedas Astronomía conocimientos
Redes sociales Química

Ciencias de la
Dispositivos computación
Ciencias ambientales
Almacenamiento
Escritorio/Nube Representación de
Herramientas, Herramientas y servicios
servicios, de productividad los conocimientos
aplicaciones
Bio
Nube de Amazon
General
Nube de Google
Matemáticas
Nube de Microsoft Infraestructura de
Gráficas
investigación basada Descripción de
Nube
financiada en los conocimientos algoritmo
(e. g., razonamiento, inferencia, y operaciones
correlación de hechos entre computacionales
campos, etcétera.)
FIGURA 1.
Visión de alto nivel de una infraestructura de investigación que reúne bases de conocimien-
tos y servicios computacionales.
el intercambio y el procesamiento de conocimientos. Esto no es estar sugiriendo que

todavía debe hacerse otro intento por unificar y administrar de manera centralizada
todas las representaciones de conocimientos. Los científicos siempre serán mejores
para representar y discurrir sobre su propio campo. Sin embargo, una infraestruc-
tura de investigación debiera adaptar todos los campos y proporcionar la cohesión
necesaria para que la información se reticule, correlacione y descubra mediante
procesos semánticamente ricos.
Tal infraestructura debe proporcionar el conjunto adecuado de servicios no sólo
para permitir el acceso a información semánticamente rica, sino también para ex-
poner los servicios computacionales que operan en los conocimientos que hay en el
mundo. Los investigadores podrían plantear preguntas relacionadas con su ámbito de
especialización, y de manera inmediata tendrían disponible un mar de conocimien-
tos. Los procesos de adquisición e intercambio de conocimientos se automatizarían

y las herramientas asociadas (e. g., un procesador de texto que registra el uso de un
término18 previsto por un autor) volverían aún más fácil analizar, hacer investigación
y publicar resultados. El procesamiento del lenguaje natural ayudará en la interacción
del ecosistema de información basado en el conocimiento, las herramientas y los
servicios, como se muestra en la figura 1.
Téngase en cuenta que esta infraestructura de investigación que se propone no
intentaría implementar la inteligencia artificial (ia) a pesar de que muchas de las
tecnologías de la comunidad de la computación semántica19 (desde el modelado de
datos y la representación de los conocimientos hasta el procesamiento del lenguaje
natural y el razonamiento) han surgido del trabajo en el campo de la ia en el trans-
curso de las décadas. El enfoque principal de la ciberinfraestructura propuesta es la
administración de los conocimientos automatizados y no la inteligencia.
LA MACERACIÓN DEL CONOCIMIENTO
La investigación interdisciplinaria ha ganado gran impulso, sobre todo como re-

sultado de la e-ciencia y las actividades de ciberinfraestructura. La tecnología ha
desempeñado un papel facilitador apoyando principalmente la colaboración, el inter-
cambio de información y la administración de datos en el contexto de determinado
proyecto de investigación. En el futuro, los investigadores no debieran tener que
pensar en cómo se correlacionan sus preguntas, suposiciones, teorías, experimentos
o datos con los conocimientos existentes de manera transversal entre las disciplinas
de determinado campo científico, o incluso transversalmente entre campos.
El proceso de combinar información de conocimientos científicos existentes
que diferentes investigadores han generado en diferentes periodos y en diferentes
lugares, incluyendo las metodologías específicas que se siguieron para producir con-
clusiones, debiera ser automático y apoyarse implícitamente en la infraestructura
de investigación.20 Por ejemplo, debería ser trivial para un joven investigador en
química con el grado de doctor plantear elementos de trabajo a una computadora
en la forma de enunciados de lenguaje natural como: “Localiza 100 000 moléculas
que sean similares a los inhibidores de proteasa del vih conocidos; luego calcula sus
18
http://ucsdbiolit.codeplex.com
19
Se supone una distinción entre el enfoque general de la computación basada en tecnologías semánticas (apren-
dizaje automático, redes neuronales, ontologías, inferencia, etc.) y la Web semántica como se describe en [5] y [6],
que se refiere a un ecosistema específico de tecnologías como rdf y owl. Se considera que las tecnologías de la
Web semántica son sólo algunas de las muchas herramientas a nuestra disposición en la construcción de soluciones
basadas en la semántica y basadas en el conocimiento.
20
Suponiendo que el acceso abierto a la información de la investigación se ha vuelto una realidad.

propiedades electrónicas y acóplalas en mutantes virales de escape”. Esto ilustra el
uso del procesamiento de lenguaje natural y también la necesidad de que los inves-
tigadores concuerden en vocabularios para la captura de conocimientos —algo que
ya está ocurriendo en muchos campos científicos a través del uso de las tecnologías
de Web semántica—. Por otra parte, el ejemplo ilustra la necesidad de poder captar
los aspectos computacionales de cómo se procesan los conocimientos existentes y
cómo se generan nuevos hechos.
La comunidad de investigadores científicos ya ha empezado a trabajar en reunir los
materiales de construcción existentes para lograr un futuro en el que las máquinas
puedan ayudar mucho más a los investigadores en la administración y el procesamien-
to de los conocimientos. Como ejemplo, el proyecto oreChem21 tiene como objetivo
automatizar el proceso mediante el cual se extraen y se representan en formatos
procesables por máquina los conocimientos relacionados con la química registrados
en las publicaciones, tales como el Chemistry Markup Language (cml). A través del
uso de ontologías relacionadas con la química, los investigadores podrán describir
de forma declarativa qué operaciones les gustaría llevar a cabo sobre el cuerpo de
conocimientos procesables por máquina.
Mientras que proyectos como el oreChem no intentan implementar una infraes-
tructura a gran escala para los conocimientos científicos computables, sí representan
las primeras investigaciones hacia esa visión. Continuando, los límites de los campos
se volverán menos rígidos y así las maceraciones (computacionales) de conocimientos
interdisciplinarios pueden convertirse en faceta importante de cualquier infraestruc-
tura de investigación basada en los conocimientos y semánticamente habilitada. La
facilidad tanto de referencias cruzadas como de la intercorrelación de información,
hechos, suposiciones y metodologías de diferentes campos de investigación a escala
mundial fortalecerá en gran medida a nuestros futuros investigadores.
UN LLAMADO A LA ACCIÓN
Hoy en día, las plataformas que ofrecen ejecuciones del patrón computacional
MapReduce (e. g., Hadoop y Dryad) facilitan a los desarrolladores llevar a cabo
cálculos intensivos en datos a escala. En el futuro, será muy importante desarrollar
plataformas y patrones equivalentes para apoyar acciones relacionadas con los co-
nocimientos, tales como recopilación, adquisición, inferencia, razonamiento e inter-
pretación de la información. Nuestro objetivo debe ser proporcionar a los científicos
21
http://research.microsoft.com/orechem

una ciberinfraestructura en cuya cúspide debiera ser fácil construir una aplicación a
gran escala capaz de explotar los conocimientos científicos que existen en el mundo
representados mediante computadora.
El intercambio interoperable de información, ya sea que represente hechos o
procesos, es vital para compartir conocimientos exitosamente. Las comunidades
tienen que reunirse —y muchas ya lo están haciendo— con el fin de ponerse de
acuerdo sobre vocabularios para la captura de hechos e información específica de sus
campos de competencia. Las infraestructuras de investigación del futuro crearán los
vínculos necesarios a través de estos vocabularios para que la información se pueda
interconectar como parte de una red global de hechos y procesos, según la visión de
Tim Berners-Lee para la Web semántica.
Las infraestructuras de investigación en el futuro, que estarán basadas en los
conocimientos, se parecerán más al Memex de Vannevar Bush que a las máquinas
de computación actuales basadas en datos. Como dijo Bush: “Aparecerán formas
totalmente nuevas de enciclopedias, confeccionadas con una red de rutas asociativas
a través de ellas, listas para ser introducidas en el Memex y amplificadas ahí”. [7]
Hoy no estamos lejos de esa visión.
AGRADECIMIENTOS
El autor desea agradecer a Peter Murray Rust (Universidad de Cambridge) por su

explicación del proyecto oreChem; a Evelyne Viegas (Microsoft Research) por sus
discusiones profundas y grandes ideas de los últimos años en todo lo relacionado con
la computación semántica, y a Tony Hey por su continuo apoyo, estímulo y confianza.
REFERENCIAS
[1] L. Dirks y T. Hey, “The Coming Revolution in Scholarly Communications & Cyberinfrastructure”,
CT Watch Q., vol. 3, núm. 3, 2007.
[2] National Science Foundation, “Cyberinfrastructure Vision for 21st Century Discovery”,
marzo de 2007.
[3] J. Taylor (s/f), “UK eScience Programme”, consultado en www.e-science.clrc.ac.uk.
[4] J. Gray y A. Szalay, “eScience. A Transformed Scientific Method”, Presentación ante el Computer
Science and Technology Board del National Research Council, 11 de enero de 2007, consultado
en http://research.microsoft.com/en-us/um/people/gray/talks/NRC-CSTB_eScience.ppt.
(Transcripción editada en este volumen.)
[5] T. Berners-Lee, J. A. Hendler y O. Lasilla, “The Semantic Web”, Scientific American, vol. 284,
núm. 5, pp. 35-43, mayo de 2001, www.sciam.com/article.cfm?id=the-semantic-web.
[6] N. Shadbolt, W. Hall y T. Berners-Lee, “The Semantic Web Revisited”, IEEE Intell. Syst., vol. 21,
núm. 3, pp. 96—101, 2006, doi: 10.1109/MIS.2006.62.
[7] V. Bush, “As We MayThink”, The Atlantic, julio de 1945, doi: 10.3998/3336451.0001.101.

4. COMU N ICACIÓ N ACAD É M ICA
CO M U N I C ACI Ó N AC A D É M I C A
Introducción
LEE DIRKS | Microsoft Research
M
ucha gente admiraba la pasión de jim gray por
la e-ciencia, pero pocos estaban conscientes de su
profundo deseo de aplicar la computación para incre-
mentar la productividad de los académicos y acelerar
el ritmo del descubrimiento y la innovación entre los científicos
investigadores. Varios de los autores de la Parte 4 de este libro co-
nocieron y trabajaron con Jim. Ellos y los demás no sólo comparten
su visión, sino que se esfuerzan por hacerla realidad.
A manera de introducción, Lynch expone cómo el cuarto paradig-
ma se aplica al campo de la comunicación académica. Su ensayo se
organiza en torno a una pregunta central: ¿cuáles son los efectos de
la ciencia intensiva en datos sobre el registro documental científico?
De ahí hace una revisión del registro académico —un conjunto de
datos, publicaciones y materiales de apoyo en continuo cambio y
evolución, y cuyo número es pasmoso—. En este nuevo mundo, no
sólo se beneficia el científico individual (como usuario final), sino
que gracias al cómputo intensivo en datos podemos esperar más ini-
ciativas transdisciplinarias que aceleren el descubrimiento, resalten
nuevas conexiones y sugieran vínculos imprevistos que impulsarán
el avance científico.
Ginsparg se interna en los mecanismos que promueven la rápida
transformación de las publicaciones académicas. Cita importantes
ejemplos de proyectos de vanguardia y de avances prometedores en

distintas disciplinas. Al mismo tiempo, señala la naturaleza compartimentalizada
de la ciencia y nos alienta a aprender unos de otros y adoptar mejores prácticas que
rebasen las fronteras de las disciplinas. Además, proporciona una práctica bitacora
que presenta un camino ideal hacia una visión que compartía con Jim Gray, la de
“la creación y curación comunitarias del conocimiento científico”.
Van de Sompel y Lagoze subrayan que los académicos todavía tienen que desa-
rrollar el pleno potencial de los recursos que ofrece la tecnología en beneficio de
la comunicación académica. Los autores hacen hincapié en que las barreras más
importantes son de naturaleza humana y social, lo que significa que no podrán re-
solverse fácilmente mediante la creación de nuevas aplicaciones o inyectando más
silicio. Los autores abogan por el desarrollo de estándares abiertos y protocolos de
interoperabilidad que ayuden a mitigar los problemas.
Fitzgerald, Fitzgerald y Pappalardo se ocupan de los problemas que surgen al com-
partir datos científicos a escala internacional. En ocasiones, los científicos enfrentan las
mayores restricciones en el ámbito nacional o regional, lo que les impide participar en
el esfuerzo científico global. Al recurrir a un ejemplo específico, los autores proponen
una coordinación que opere en una esfera externa a la comunidad científica y recomien-
dan, a quienes diseñan las políticas, evitar la introducción de obstáculos en el sistema.
Wilbanks puntualiza un tema recurrente a lo largo de esta sección: en muchos
aspectos, los científicos suelen ser los responsables involuntarios de frenar el avan-
ce de la ciencia. Aun cuando, como profesionales, concebimos, instrumentamos y
llevamos a cabo innovadores proyectos científicos, en realidad no siempre adopta-
mos o llevamos a su culminación los sistemas que hemos puesto en marcha. Como
grupo homogéneo de investigadores de vanguardia, vivimos crónicamente detrás
de la curva computacional. El autor señala que es esencial que la interconectivi-
dad se extienda a todas las áreas científicas y que el trabajo multidisciplinario y
la cooperación entre los diversos campos desencadene progresos revolucionarios.
Hannay cierra la sección destacando la naturaleza interconectada de nuestro mun-
do en red pese a las persistentes barreras sociales entre las distintas áreas científicas.
Muestra que la transformación gradual de la ciencia, desde una empresa artesanal
hasta una industria de gran escala, forma parte de la evolución de nuestra manera
de conducir el trabajo científico. El autor ofrece ejemplos sugerentes tomados del
extenso mundo de la investigación que pueden señalar el camino hacia el futuro
de la comunicación basada en la Web, y afirma que nos encontramos en una época
complicada, inmediatamente anterior al advenimiento de la realidad y la interco-
nectividad semánticas.
188 COMUNICACIÓN ACADÉMICA

La investigación está evolucionando desde los pequeños gremios autónomos de
académicos hacia comunidades numerosas, más preparadas e interconectadas, de
científicos que dependen cada vez más unos de otros para hacer progresos. Al acome-
ter juntos este gran proyecto —como Jim imaginó— veremos que la ciencia, apoyada
por la computación, hará mayores progresos y más rápido que nunca.

El cuarto paradigma de CLIFFOR D LYNCH

Coalition for Networked
Jim Gray y la construcción Information
del registro científico
E
n la última parte de su carrera, Jim Gray encabezó el
pensamiento de un grupo de académicos que presenciaron
el surgimiento de lo que caracterizaron como un cuarto
paradigma de la investigación científica. En este ensayo,
me enfocaré especialmente en las implicaciones de este cuarto
paradigma, al que me referiré como “ciencia intensiva en datos” [1],
para la naturaleza de la comunicación científica y el registro do-
cumental científico.
El paradigma de Gray reúne la pareja clásica de paradigmas
opuestos pero que se apoyan mutuamente: la teoría y la experimen-
tación. El tercer paradigma —el de la simulación computacional de
gran escala— surgió a mediados del siglo xx con los trabajos de John
von Neumann y otros. En cierto sentido, el cuarto paradigma de
Gray ofrece un marco integrador que permite la interacción de los
primeros tres y su mutuo fortalecimiento, de manera muy parecida
al ciclo científico tradicional, en el que la teoría ofrecía predicciones
que podían ser verificadas experimentalmente, y estos experimentos
identificaban fenómenos que requerían una explicación teórica. Si
bien fueron enormes las contribuciones de la simulación al pro-
greso científico, no lograron su cometido inicial (por ejemplo, en
la predicción del clima a largo plazo) en parte debido a la extrema
sensibilidad de los sistemas complejos ante las condiciones iniciales
y frente a los comportamientos caóticos [2]; éste es un ejemplo en

el cual la simulación, la teoría y la experimentación deben colaborar en el contexto
de cantidades masivas de datos.
Para entender los efectos de la ciencia intensiva en datos sobre el registro cientí-
fico,1 primero es necesario repasar la naturaleza de ese registro, lo que se pretende
lograr con él, y en dónde ha tenido éxito o no en satisfacer las necesidades de los
diversos paradigmas y del progreso científico.
En un primer acercamiento, podemos concebir el registro científico moderno
—que se remonta al siglo xvii y está estrechamente ligado al surgimiento de la
ciencia y de las sociedades académicas— como un conjunto de publicaciones cien-
tíficas independientes, presentaciones y actas de conferencias, además de los datos
que las sustentan y otras pruebas de los hallazgos publicados. Dicho registro está
ampliamente almacenado y en algunas partes disperso en bibliotecas, archivos y
museos de todo el mundo. Los datos y los elementos de evidencia han crecido con
el paso del tiempo: los registros escritos de observaciones demasiado voluminosos
para aparecer en publicaciones periódicas se han almacenado en archivos cientí-
ficos, y las pruebas físicas resguardadas en los museos de historia natural se acom-
pañan ahora de una gran variedad de datos digitales, bases de datos y archivos de
diversos tipos, así como de registros observacionales predigitales (como las foto-
grafías) y de nuevas colecciones de materiales biológicos. Si bien las monografías
científicas y algunos materiales especializados, como las patentes, han sido desde
hace mucho tiempo una parte limitada pero importante del registro científico, la
“literatura gris”, sobre todo los informes técnicos y las prepublicaciones, han ad-
quirido una mayor importancia en el siglo xx. En años recientes, hemos atestigua-
do cómo una plétora de sitios web, blogs, videos y otros materiales (en general
ajenos al proceso tradicional de publicación) se han convertido en parte impor-
tante de este registro, aun cuando la delimitación conceptual de esos materiales
y las dificultades propias de su identificación a largo plazo, su almacenamiento y
continua accesibilidad, su escrutinio y propiedades similares hayan sido objeto de
mucha controversia.
El registro científico tiene varias finalidades. La primera y más importante es
comunicar hallazgos, hipótesis e ideas de una persona a otra a través del espacio
y el tiempo. Tiene el propósito de organizar: establecer una nomenclatura y una
1
Por brevedad y claridad limité la discusión a la ciencia. Pero así como está claro que la e-ciencia es sólo un caso
especial de la e-investigación, y la ciencia intensiva en datos es una forma de trabajo académico intensivo en datos,
muchos de los puntos aquí señalados pueden aplicarse, con cierta adaptación, a las humanidades y a las ciencias
sociales.

terminología comunes, vincular trabajos relacionados y desarrollar las disciplinas.
Es un vehículo para construir comunidades y para ciertas formas de colaboración a
gran escala a través del espacio y el tiempo. Es un medio de documentar, conducir
y a menudo, en última instancia, dirimir controversias y desacuerdos. Puede utili-
zarse para establecer la precedencia de las ideas y resultados, y también (mediante
referencias bibliográficas y bibliometría) para ofrecer evidencia sobre la calidad y la
importancia de una obra científica. El registro científico tiene que ser confiable en
varios sentidos. En pequeña escala, y a corto plazo, se pretende que la revisión por
pares previa a la publicación, la reputación editorial y autoral, y la transparencia en
la notificación de los resultados aseguren la confianza en la precisión de los artícu
los individuales. En mayor escala, en distintos plazos y partiendo de colecciones
integradas de materiales, los hallazgos se validan y los errores o las falsificaciones
deliberadas, en especial las importantes, generalmente son identificadas y corregidas
por la comunidad mediante la discusión posterior o la crítica formal, la reproduc-
ción, la reutilización y la extensión de los resultados, así como mediante la puesta
en perspectiva de las conclusiones de una publicación particular en el contexto más
amplio del saber científico.
Una idea central, que se relaciona simultáneamente con la confiabilidad y con
las nociones de colaboración y de creación a partir de los trabajos de otros, es la de
la reproducibilidad de los resultados científicos. Aunque se trata de un ideal que ha
recibido un apoyo práctico renuente por parte de algunos científicos que pretenden
proteger lo que consideran métodos, datos y líneas de investigación con derecho de
propiedad, es lo que sin embargo distingue fundamentalmente a la ciencia de prácti-
cas como la alquimia. El registro científico —no necesariamente el artículo monográ-
fico individual, sino una colección de fuentes y datos dentro del registro global, o un
artículo y todos sus “enlaces” (en la terminología actual) implícitos o explícitos— debe
poner a disposición los datos suficientes y contener la información necesaria sobre
métodos y procedimientos para que otro investigador pueda reproducir los mismos
resultados partiendo de los mismos datos. De hecho, ese investigador debe ser capaz
de realizar trabajo adicional que ayude a poner los resultados iniciales en un mejor
contexto, replantear las presuposiciones y los métodos analíticos, y ver hacia dónde
conducen estos cambios. Vale la pena señalar que el ideal de reproducibilidad en la
ciencia experimental compleja resulta a menudo problemático en periodos más lar-
gos: reproducir el trabajo experimental podría requerir una considerable cantidad de
conocimientos tácitos que eran parte de la práctica científica común y contar con los
medios técnicos de la época en que se realizó por primera vez el experimento, cuya

reconstrucción muchas décadas después podría representar un verdadero desafío y
una gran inversión de tiempo.
¿Qué tan bien funcionó el registro científico durante el prolongado predominio
de los dos primeros paradigmas científicos? En general, pienso que bastante bien.
El registro (y las instituciones que lo creaban, mantenían y curaban) tuvo que
evolucionar como respuesta a dos importantes desafíos. El primero tenía que ver
principalmente con la ciencia experimental: conforme los experimentos se volvían
más complicados, avanzados y dependientes de tecnología, y conforme los datos se
tornaban más cuantiosos y se publicaban de manera menos exhaustiva en los textos
científicos, los vínculos entre las pruebas y los escritos se volvieron más complejos
y difíciles de precisar. En particular, conforme se aplicaban a los datos cómputos
más extensivos (sobre todo los realizados por equipos de “calculadoras humanas”
con asistencia de medios mecánicos o electromecánicos), las dificultades para la
reproducibilidad no se referían ya simplemente al acceso a los datos y la compren-
sión de los métodos. Las posibilidades que ofrecía un registro académico basado
en medios impresos y artefactos físicos mitigaban muy poco el problema; lo mejor
que se podía hacer era crear sistemas organizados de archivos y definir ciertas
expectativas en cuanto al depósito de los datos, o bien establecer la obligación de
hacer disponibles los datos.
El segundo desafío evolutivo fue la vasta escala de la empresa científica. La lite-
ratura de referencia se volvió gigantesca; las disciplinas y las subespecialidades se
ramificaron una y otra vez. Tuvieron que desarrollarse herramientas y procedimientos
para ayudar a manejar tal volumen: publicaciones periódicas especializadas, referen-
cias bibliográficas, índices, revistas y bibliografías críticas, vocabularios controlados
y taxonomías en varias áreas de la ciencia. Sin embargo, y nuevamente, dadas las
posibilidades del sistema basado en impresos, todas estas innovaciones parecían ser
muy pocas y muy tardías, y la escala seguía siendo para los científicos un problema
persistente y continuamente abrumador.
La introducción del tercer paradigma a mediados del siglo xx, junto con el creci-
miento simultáneo de las tecnologías computacionales que daban apoyo a las cien-
cias experimentales y teóricas, intensificaron la presión sobre el registro científico
tradicional. No sólo siguieron creciendo los datos subyacentes, sino que los resulta-
dos de las simulaciones y los experimentos se convirtieron en grandes y complejos
conjuntos de datos que sólo podían aparecer resumidos —y por ende documentados
de manera incompleta— en las publicaciones tradicionales. Lo peor del caso fue
que el cómputo basado en software aplicado a la simulación y a otras finalidades se

volvió parte integral de la cuestión de la reproducibilidad experimental.2 Es impor-
tante cobrar conciencia del tiempo que tomó alcanzar el punto en que el hardware
fue razonablemente confiable para realizar operaciones de punto flotante de gran
volumen.3 (Incluso en la actualidad estamos muy limitados en nuestra capacidad de
producir software de gran escala demostrablemente correcto; nos remitimos más
bien a un paulatino crecimiento de la confianza a través del uso prolongado y general
en una variedad de plataformas y entornos de hardware. La documentación de las
complejas configuraciones de software como parte de la información de proceden-
cia de los productos de la ciencia intensiva en datos sigue siendo un reto central de
investigación en la curación de datos y la estructuración del circuito de producción
científica). La buena noticia fue que las tecnologías computacionales empezaron a
asistir en el manjeno del enorme y creciente corpus de literatura científica, ya que
muchas de las herramientas organizativas migraron hacia bases de datos en línea y
sistemas de recuperación de información a partir de la década de 1970 y se volvieron
ubicuas y muy asequibles a mediados de 1990.
Con la llegada del paradigma del cómputo intensivo en datos, el registro científico
y su sistema de comunicación y publicación han alcanzado un “momento de Jano”, en
el que podemos mirar hacia atrás y hacia adelante a un mismo tiempo. Ya ha quedado
claro que los datos y el software deben ser parte integral del registro: un conjunto
de objetos de primera importancia que amerita manejo y curación sistemáticos por
derecho propio. Vemos cómo esto se refleja en el énfasis puesto en la conservación y la
reutilización de los datos en los diversos programas de ciberinfraestructura y e-ciencia
[3, 6]. Estos conjuntos de datos y otros materiales se entrelazarán en una compleja
variedad de formas [7] con los documentos científicos, que ahora por fin se crean
en forma digital y empiezan a incorporar estructuralmente las nuevas posibilidades
que abre el entorno digital, conforme dan el último largo adiós al modelo inicial de
las revistas científicas electrónicas —que aplicaban tecnologías de almacenamiento
y presentación digitales a artículos que eran esencialmente imágenes de páginas
impresas—. También veremos herramientas como grabaciones de video empleadas
2
De hecho, la capacidad de comprender y reproducir cálculos complejos se convirtió en un problema real también
para la ciencia teórica; la prueba de 1976 del teorema de los cuatro colores en la teoría de gráficas requirió un
análisis computacional exhaustivo de un gran número de casos especiales y causó mucha controversia dentro de la
comunidad matemática en cuanto a si esa prueba era en realidad completamente válida. Un ejemplo más reciente
sería la prueba propuesta de la conjetura de Kepler, realizada por Thomas Hales.
3
El estándar del ieee sobre aritmética de punto flotante se remonta apenas a 1985. Puedo recordar incidentes con
algunas grandes mainframes de las décadas de 1970 y 1980, en los cuales los equipos ya entregados tenían que
repararse en el lugar de trabajo después de que se habían descubierto errores importantes en su hardware o en su
microcódigo que podían arrojar resultados computacionales incorrectos.

para complementar las descripciones tradicionales de los métodos experimentales, y
la inclusión de diversos tipos de visualizaciones de dos o tres dimensiones. En algún
nivel, podemos imaginar esto como el perfeccionamiento del género de la publicación
tradicional de artículos científicos, con las capacidades de una moderna tecnología de
la información que cumple con las necesidades de los cuatro paradigmas. El artículo
se convierte así en una ventana no sólo para que un científico pueda comprender
activamente un resultado, sino para que lo reproduzca o lo amplíe.
Sin embargo, otros dos desarrollos se están afianzando con una escala y un al-
cance inéditos. El primero es el desarrollo de las colecciones de datos de referencia,
que a menudo son independientes de investigaciones científicas particulares, aunque
buena parte del trabajo de investigación depende de estas colecciones y muchos
artículos hacen referencia a datos que residen en ellas. Muchas de estas coleccio-
nes son creadas por instrumentos robóticos (los rastreos sinópticos del cielo, la
secuenciación en gran escala de poblaciones microbianas, la química combinatoria);
algunas también incluyen trabajo editorial y curatorial humano para representar
el mejor estado actual del conocimiento acerca de sistemas complejos (el genoma
anotado de una especie dada, una colección de rutas de transducción de señales
celulares, etc.) y pueden citar resultados documentados en la literatura científica
tradicional para justificar o sustentar afirmaciones que se encuentran en la base de
datos. Estas colecciones de referencia ya forman parte integral del registro científico,
por supuesto, aunque todavía estemos trabajando en determinar la mejor forma de
afrontar algunos problemas, como el control de versiones y la permanencia de los
recursos. Estas colecciones de datos se usan de maneras muy distintas a los artículos
tradicionales; casi siempre son procesadas más que simplemente leídas. Conforme
las colecciones de referencia se ponen al día, las actualizaciones pueden disparar
nuevos cómputos, cuyos resultados pueden conducir a resultados científicos nuevos
o reevaluados. Cada vez más, al menos algunos tipos de contribuciones a estas co-
lecciones de datos de referencia serán reconocidas como contribuciones académicas
importantes por sí mismas. Podríamos pensar en esto como un proceso en el que
los científicos van entendiendo de manera más amplia el abanico de oportunidades
y de terminología para contribuir a los registros científicos en la era de la ciencia
intensiva en datos y cómputo.
Por último, el registro científico mismo se está convirtiendo en objeto de proce-
samiento continuo y frecuente —una colección central de datos de referencia—, al
menos hasta el punto en que las barreras técnicas y de derechos de autor puedan
ser superadas para permitir esto [8]. La minería de textos y datos, los procesos de

deducción, la integración entre colecciones estructuradas de datos y artículos escritos
en lenguajes humanos (quizás aumentados con marcadores semánticos para ayudar
a identificar computacionalmente referencias a tipos particulares de objetos —como
genes, estrellas, especies, compuestos químicos o lugares, así como sus propiedades
asociadas— con un mayor grado de precisión del que sería posible con algoritmos
heurísticos de análisis textual), la recuperación, filtrado y agrupación de informa-
ción ayudan a encarar los problemas de la escala siempre creciente de los registros
científicos y la igualmente creciente escasez de la atención humana. También ayudan
a aprovechar las nuevas tecnologías de la ciencia intensiva en datos para extraer de
manera efectiva resultados e hipótesis del registro. Creo que veremos desarrollos muy
interesantes conforme los investigadores utilicen estas herramientas para observar
los registros “públicos” de la ciencia a través de la lente de diversas colecciones de
conocimiento sujetas a propiedad intelectual (resultados no publicados, información
protegida por una industria para alguna ventaja comercial o hasta información de
inteligencia gubernamental).
En la era de la computación intensiva en datos, estamos observando cómo la gente
aborda el registro científico de dos maneras. En pequeña escala, las personas leen uno
o unos cuantos artículos a la vez como lo han hecho por siglos, pero con herramientas
computacionales que les permiten ir más allá del artículo en papel para sumergirse
en la ciencia y los datos de que se trate con mucha mayor efectividad, y también para
pasar de un artículo a otro, o de un artículo a una colección de datos de referencia
con gran facilidad, precisión y flexibilidad. Además, estos encuentros se integrarán
en entornos de colaboración y con herramientas para anotación, autoría, simula-
ción y análisis. Pero ahora estamos observando a los académicos abordar el registro
científico, en gran escala, como un corpus de texto y una colección de recursos de
datos interconectados, haciendo uso de un amplio espectro de nuevas herramientas
computacionales. Este empleo del registro ayudará a identificar artículos de interés;
sugerirá hipótesis que podrían ser sometidas a prueba mediante combinaciones de
indagaciones teóricas, experimentales y por simulación o, en ocasiones, producirá
directamente nuevos datos o resultados. A medida que cambie la proporción entre
estos usos en pequeña y en gran escala (en la actualidad predominan los prime-
ros, me parece), observaremos cómo se alteran muchos aspectos de la cultura y las
prácticas editoriales científicas, lo que probablemente incluirá propuestas sobre el
acceso abierto a la literatura científica, la aplicación de diversos tipos de marcado
y la elección de herramientas de autoría para artículos científicos, además de la
definición por parte de cada disciplina de normas sobre la curación, el intercambio

y el ciclo de vida global de los datos. Por añadidura, creo que en la práctica de la
ciencia intensiva en datos, con el tiempo, un conjunto particular de datos figurará
de manera más preponderante, persistente y ubicua en la producción científica: el
propio registro documental científico.
AGRADECIMIENTOS
Agradezco a todos los que participaron en el “Friday Seminar” de Buckland-Lynch-

Larsen, del 24 de abril de 2009, sobre acceso a la información en la School of In-
formation de la Universidad de California en Berkeley, por una muy provechosa
discusión en torno al borrador de este material.
REFERENCIAS
[1] G. Bell, T. Hey y A. Szalay, “Beyond the Data Deluge”, Science, vol. 323, 6 de marzo de 2009,
pp. 1297-1298, doi: 10.1126/science.1170411.
[2] F. Dyson, “Birds and Frogs” (Conferencia Einstein 2008), Notices Am. Math. Soc., vol. 56, núm. 2,
febrero de 2009, pp. 212-224, www.ams.org/notices/200902/rtx090200212p.pdf.
[3] National Science Board, “Long-Lived Digital Data Collections: Enabling Research and Education
in the 21st Century”, NSB-05-40, National Science Foundation, 2005, www.nsf.gov/pubs/2005/
nsb0540/start.jsp.
[4] Association of Research Libraries, “To Stand the Test of Time: Long-term Stewardship of Digital
Data Sets in Science and Engineering”, Association of Research Libraries, 2006, www.arl.org/pp/
access/nsfworkshop.shtml.
[5] Diversos informes disponibles en National Science Foundation Office of Cyberinfrastructure,
www.nsf.gov/dir/index.jsp?org=OCI, entre ellos el documento Cyberinfrastructure Vision y el
Informe Atkins.
[6] L. Lyon, “Dealing with Data: Roles, Rights, Responsibilities and Relationships” (informe de aseso-
ría), UKOLN-Joint Information Systems Committee (JISC), 2006, www.jisc.ac.uk/whatwedo/
programmes/programme_digital_repositories/project_dealing_with_data.aspx.
[7] C. A. Lynch, “The Shape of the Scientific Article in the Developing Cyberinfrastructure”,
CT Watch Quarterly, vol. 3, núm. 3, agosto de 2007, pp. 5-11, www.ctwatch.org/quarterly/
articles/2007/08/the-shape-of-the-scientific-article-in-the-developing-cyberinfrastructure.
[8] C. A. Lynch, “Open Computation: Beyond Human-Reader-Centric Views of Scholarly Litera-
tures”, en Neil Jacobs (ed.), Open Access: Key Strategic, Technical and Economic Aspects, Oxford,
Chandos Publishing, 2006, pp. 185-193, www.cni.org/staff/cliffpubs//OpenComputation.pdf.

El texto en un mundo PAU L GINSPARG

Cornell University
centrado en datos
C
onocí a jim gray cuando era moderador del área te-
mática de bases de datos de arXiv, parte de la expansión
hacia las ciencias de la computación que arXiv inició en
1998. Poco tiempo después, su participación fue decisi-
va para facilitar la cosecha textual completa de arXiv por grandes
motores de búsqueda, primero de Google y después de Microsoft
y Yahoo! —todo ello posterior a la rigurosa restricción impuesta
a las búsquedas de arXiv por rastreadores robóticos en la década
de 1990 debido a que inundaban los servidores con solicitudes—.
Jim comprendió el papel cada vez más importante del texto como
un tipo de dato, y la necesidad de que los textos fueran ingeribles
y tratables como cualquier otro objeto computable. En 2005 par-
ticipaba tanto en arXiv como en PubMed Central y me expresó
su desconcierto ante el hecho de que, aunque ambos repositorios
cumplían funciones similares, parecían operar en universos para-
lelos, sin conectarse de ninguna manera sustancial. Su visión era
la de un mundo de recursos académicos —textos, bases de datos y
cualesquiera otros materiales relacionados— que fueran navegables
e interoperables sin obstáculos.
Muchas de las principales preguntas abiertas sobre la trans-
formación tecnológica de la infraestructura académica se ha-
bían planteado hacía más de una década, entre ellas, el modelo
de financiamiento de largo plazo para implementar controles de

calidad, la arquitectura del artículo del futuro y cómo se fundirían todas las piezas
en un todo interoperable. Si bien ha sido difícil dar con las respuestas, hay razones
para esperar un avance importante en el corto plazo en al menos las dos últimas
cuestiones. En [1] describí cómo apenas se empezaba a sondear el abanico de posibi-
lidades para extensos y exhaustivos agregados de información puramente textual y
presenté la base de datos de PubMed Central como modelo de un enfoque progresista.
Sus documentos xml exclusivamente textuales se han procesado sintácticamente
para permitir múltiples “vistas de materiales relacionados” para un artículo dado,
con enlaces a bases de datos genómicas, de nucleótidos, de herencia, de expresión
genética, de proteínas, químicas, taxonómicas y otras relacionadas. Esta metodología
ahora está empezando a difundirse, junto con formas más generales de mejoramiento
semántico, como facilitar el descubrimiento y el razonamiento automáticos, ofrecer
enlaces a documentos y datos relacionados, dar acceso a datos accionables dentro de
los artículos y permitir la integración de datos entre artículos.
Un ejemplo reciente de mejoramiento semántico por parte de un editor es la revista
Molecular Biosystems1 de la Royal Society of Chemistry. Su html mejorado destaca
términos en el texto que se enlistan en bases de datos de terminología química y los
enlaza con las entradas en las bases de datos externas. De manera similar, destaca
y enlaza términos que se hallan en ontologías genéticas, de secuencias y celulares.
Este marcado textual lo llevan a cabo editores con gran conocimiento de cada mate-
ria, asistidos por herramientas de minería de textos. Un ejemplo de una herramienta
totalmente automatizada para la anotación de términos científicos es el Reflect,2 del
embl en Alemania, que funciona como un servicio externo en cualquier página web
o como una extensión de navegador. Marca nombres de genes, proteínas y moléculas
pequeñas, y los elementos marcados se enlazan con las bases de datos pertinentes
de secuencias, estructura o interacciones.
En otro experimento mental, Shotton et al. [2] marcaron a mano un artículo utili-
zando tecnologías comerciales para demostrar una diversidad de mejoras semánticas
posibles: en lo esencial, un conjunto mínimo que posiblemente se vuelva común en el
futuro cercano. Además del marcado semántico de términos textuales y los enlaces
activos de identificadores doi y otros url donde fuera viable, implementaron una
lista de referencias reordenable, un resumen del documento que incluye sus estadís-
ticas, una nube de etiquetas de términos técnicos, árboles de etiquetas de entidades
1
www.rsc.org/Publishing/Journals/mb
2
http://reflect.ws, ganador del reciente Elsevier Grand Challenge (www.elseviergrandchallenge.com).

FIGURA 1.
Una imagen de pantalla de “Exemplar Semantic Enhancements”, en http://imageweb.zoo.
ox.ac.uk/pub/2008/plospaper/latest, como se describe en [2]. Están enlazadas diferentes
clases semánticas de términos y pueden destacarse optativamente utilizando los botones de
la fila superior. Al pasar el cursor sobre una cita bibliográfica o de otro tipo en el texto se
despliega un recuadro que contiene las principales frases o figuras del documento citado que
apoyan el argumento en cuestión.
marcadas y agrupadas por tipo semántico, un análisis de referencias bibliográficas

(dentro de cada artículo), un recuadro emergente de “Referencias en contexto” que
indica el tipo de la referencia (antecedentes, precedentes intelectuales, refutación,
etc.), hojas de cálculo descargables con el contenido de las tablas y las figuras, y
fusión de datos con los resultados de otros artículos de investigación y con mapas
contextuales en línea (véase figura 1). Los autores subrayaron la futura importancia
de los resúmenes (abstracts) digitales estructurados específicos por dominios; a
saber, metadatos legibles por máquina que resumen los datos y las conclusiones
fundamentales de los artículos, incluyendo una lista de entidades nombradas en el
artículo con identificadores precisos en las bases de datos, una lista de los princi-
pales resultados descritos mediante un vocabulario controlado y una descripción,
mediante códigos de evidencia estandarizados, de la metodología empleada. El uso
de vocabularios controlados en este resumen estructurado permitirá no sólo nuevas

formas de medir las relaciones entre los artículos, sino también nuevas formas de
razonamiento automatizado.
En la actualidad, la identificación de entidades nombradas (por ejemplo, nombres
de genes) en textos no estructurados es relativamente sencilla, pero la extracción
confiable de relaciones expresadas en textos convencionales es considerablemente
más difícil. La próxima generación de herramientas de extracción y procesamiento
de conocimiento automatizadas, que operen en resúmenes estructurados y texto
mejorado semánticamente, nos acercará mucho a la posibilidad de buscar y explorar
directamente “conocimiento”; es decir, por medio de conceptos sintetizados y sus
relaciones. También habrá más avances en el análisis de redes de referencias biblio-
gráficas, análisis automático de imágenes, hibridaciones (mashups) más generales de
datos, y algoritmos predeterminados o configurables que provean nuevos tipos de
lentes semánticas con las cuales poder observar textos, datos e imágenes. Todas estas
prestaciones también pueden agruparse en entornos centralizados, en los que los
usuarios puedan anotar artículos e información relacionada, descubrir asociaciones
ocultas y compartir nuevos resultados.
En el corto plazo, el mejoramiento semántico de textos se ejecutará mediante una
combinación de herramientas semisupervisadas utilizadas por autores,3 herramientas
utilizadas por editores y herramientas automatizadas aplicadas a publicaciones nuevas
o de archivo. Muchos autores ya publicados no estarán dispuestos a ocupar su tiempo
en mejorar sus documentos, en especial si se requiere mucho esfuerzo adicional. Sin
duda, muchas editoriales ofrecerán el marcado de los textos como un componente
de valor agregado del proceso de publicación, es decir, como parte de su modelo de
negocios. Los efectos favorables de este tratamiento semántico, evidentes para los
lectores, generarán presión en el sector abierto para crear herramientas igualmente
poderosas, quizá sólo después de un corto rezago conforme se desarrolla cada nueva
función. Es más conveniente incorporar la semántica desde el principio que tratar
de acomodarla después (y en cualquier caso, el pdf no será un buen formato de
transporte). Con el formato, herramientas e incentivos correctos, los autores podrán
finalmente proveer muchos de los metadatos estructurales y semánticos durante el
proceso de escritura del artículo con un esfuerzo adicional marginal.
En el plazo más largo, persiste la cuestión de dónde debería alojarse el marcado
semántico, como sucede con otros datos publicados en la Web: ¿deberán los editores
alojar los conjuntos de datos pertinentes a sus propias publicaciones o deberán existir
3
Por ejemplo, el “Article Authoring Add-in for Microsoft Office Word 2007”, de Pablo Fernicola, www.microsoft.
com/downloads/details.aspx?familyid=09c55527-0759-4d6d-ae02-51e90131997e.

repositorios de datos independientes semejantes a SourceForge? ¿Y cómo deberá alma-
cenarse el marcado: como bases de datos rdf (triplestores) internas al documento o como
adjuntos externos que especifiquen relaciones y dependencias? Conforme progrese el
conocimiento, habrá nuevos enlaces, nuevas cosas que anotar y anotaciones previas
que puedan conducir a recursos o datos modificados. ¿Debería ser posible retirar esas
capas y observar el documento en el contexto de cualquier marco temporal previo?
Para evitar una cantidad excesiva de adaptaciones aisladas, las interacciones entre
documentos y datos y la fusión de diferentes fuentes de datos requerirán una capa
semántica genérica e interoperable sobre las bases de datos. Tales estructuras harán
más accesibles los datos a los motores de búsqueda genéricos, mediante búsquedas
de palabras clave y consultas en lenguaje natural. La posiblidad de tener los datos
accesibles de esa manera alentará que más administradores de bases de datos pro-
porcionen interfaces semánticas locales, con lo que incrementarán su integración
en la red global de datos y amplificarán los beneficios comunitarios de disponer de
un acceso abierto a los textos y a los datos. Tim Berners-Lee4 ha promovido activa-
mente la noción de los datos enlazados para todos esos propósitos, no sólo por parte
de los académicos o para las bases de datos más utilizadas. Cada usuario hace una
pequeña contribución a la estructura general al enlazar un objeto con un uri, que
puede ser desreferenciado para encontrar enlaces a datos más útiles. Tal estructura
semántica articulada facilita que algoritmos más simples operen con textos y datos
de la World Wide Web, y es más viable en el plazo próximo que construir una capa
de inteligencia artificial compleja para interpretar ideas humanas abstractas usando
algún enfoque probabilístico.
Las nuevas formas de interacción con la capa de datos también forman parte de las
discusiones sobre Wolfram|Alpha,5 una nueva herramienta que emplea una cantidad
considerable de personal para curar información de miles de fuentes y recodificarla en
un formato manipulable por el motor algorítmico y de visualización de Mathematica.
Complementado por una interfaz que interpreta consultas en lenguaje seminatural,
este sistema y sus posibles competidores elevarán notablemente las expectativas de
los usuarios respecto a los nuevos tipos de información sintetizada que puede obte-
nerse directamente a través de motores de búsqueda genéricos. Estas aplicaciones se
desarrollarán mucho más rápido a partir de repositorios de datos cuya capa semántica
se filtra o cura localmente en lugar de hacerlo de manera centralizada.
4
www.w3.org/DesignIssues/LinkedData.html.
5
www.wolframalpha.com, con base en una demostración privada el 23 de abril de 2009, y una presentación pública
el 28 de abril de 2009, http://cyber.law.harvard.edu/events/2009/04/wolfram.

Buena parte de los recientes progresos en la integración de datos con texto mediante
mejoramiento semántico, como se describió anteriormente, han sido con aplicación
a la literatura de las ciencias biológicas. En principio, las herramientas de minería de
textos y de procesamiento de lenguaje natural que reconocen entidades relevantes y
las enlazan automáticamente a ontologías de dominios específicos tienen análogos
naturales en todos los campos; por ejemplo, objetos astronómicos y experimentos en
astronomía; términos matemáticos y teoremas en matemáticas; objetos físicos, termi-
nología y experimentos en física, y estructuras químicas y experimentos en química.
Si bien la ciencia intensiva en datos es ciertamente la norma en astrofísica, las piezas
de la red de datos para la astrofísica no se acoplan ni de cerca como en las ciencias
biológicas. Lo que es más paradójico es que, aunque la comunidad de la física iba a
la cabeza en muchos de estos desarrollos digitales a principios de la década de 1990
(incluyendo el desarrollo de la misma World Wide Web en el cern, un laboratorio de
física de alta energía) y en ofrecer acceso abierto a su literatura, en la actualidad no
hay un esfuerzo coordinado para desarrollar estructuras semánticas para la mayoría de
las áreas de la física. Un obstáculo es que en muchos campos distribuidos de la física,
como la física de la materia condensada, no existen laboratorios de gran influencia
con destacadas bibliotecas asociadas para establecer y mantener recursos globales.
En las ciencias biológicas es posible además que los textos disminuyan en valor
en la próxima década en comparación con los servicios semánticos, que dirigen a los
investigadores a datos de utilidad, ayudan a interpretar la información y extraen co-
nocimiento [3]. Sin embargo, en la mayor parte de los campos científicos, el resultado
de la investigación es más que un conjunto imparcial de entradas en bases de datos.
El artículo científico mantendrá su función esencial de utilizar cuidadosamente los
datos seleccionados para persuadir a los lectores de la verdad de las hipótesis de su
autor. Las entradas en la base de datos desempeñarán la función paralela de propor-
cionar acceso a conjuntos de datos completos e imparciales, tanto para indagaciones
posteriores como para la minería automática de datos. También hay importantes
diferencias entre áreas de la ciencia en el papel que representan los datos. Como me
comentó hace poco un destacado físico convertido en biólogo: “No hay principios
organizadores fundamentales en la biología”,6 lo que significaba que algunos campos
siempre pueden ser intrínsecamente más impulsados por los datos que por la teoría.
La ciencia desempeña diferentes papeles dentro de nuestra cultura popular y política
y, por ende, saca provecho de diferentes niveles de apoyo. En la genómica, por ejem-
6
Wally Gilbert, cena del 27 de abril de 2009. Su comentario pudo haber tenido una connotación más limitada que
la que se implica aquí.

plo, vimos el desarrollo temprano del GenBank, su adopción como recurso manejado
por el gobierno y el consecuente crecimiento de las bases de datos relacionadas en la
National Library of Medicine, que son utilizadas en forma intensiva.
También se ha sugerido que la minería masiva de datos, junto con su capacidad
concurrente de alentar y predecir tendencias, podría, en definitiva, reemplazar
componentes más tradicionales del método científico [4]. Sin embargo, este punto
de vista confunde las metas de la teoría básica y el modelado fenomenológico. La
ciencia se propone producir mucho más que la mera predicción mecánica de corre-
laciones; más bien, su meta es emplear las regularidades extraídas de los datos para
construir un medio unificado de comprenderlas a priori. Así, la capacidad predictiva
de una teoría es crucial principalmente como validadora de su contenido conceptual,
aunque, por supuesto, puede tener también gran utilidad práctica.
Así que no deberíamos sobreestimar el papel de los datos ni subestimar el del
texto, y todos los científicos deberían seguir la pista del mejoramiento semántico del
texto y de los desarrollos impulsados por los datos en las ciencias biológicas con gran
interés, y quizás hasta con envidia. Antes de que pase mucho tiempo podría surgir
un problema arquetípico en las ciencias físicas 7 que antes requería muchas semanas
de complejas consultas transversales en bases de datos, el tedioso control manual de
pestañas en el navegador, la confección de scripts improvisados para analizar datos
y todo lo demás que solemos hacer diariamente. Por ejemplo, un investigador del
futuro con un acceso semántico expedito a una federación de bases de datos —con
propiedades y cálculos de estructura de bandas electrónicas, mediciones de resonan-
cia magnética nuclear y de dispersión de rayos x, así como propiedades mecánicas
o de otro tipo— podría encontrar instantáneamente una pequeña modificación
en un material recientemente elaborado para convertirlo en el fotovoltaico más
eficiente jamás concebido. Las posibilidades de hacer tales progresos en el hallazgo
de nuevas fuentes de energía o en frenar el cambio climático de largo plazo podrían
estar pasando inadvertidas en nuestro actual entorno donde los textos y las bases
de datos no están integrados. Si surgen problemas de este tipo y puede encontrarse
una solución mediante herramientas automáticas que actúen directamente sobre
una capa semántica que ofrezca los canales de comunicación entre textos y bases
de datos abiertos, otras comunidades de investigación serán impulsadas al futuro,
beneficiándose de las nuevas posibilidades para la creación y curación comunitarias
del conocimiento científico encarnadas en el cuarto paradigma.
7
Como me lo subrayó John Wilbanks en una plática el 1 de mayo de 2009.

REFERENCIAS
[1] P. Ginsparg, “Next-Generation Implications of Open Access”, www.ctwatch.org/quarterly/
articles/2007/08/next-generation-implications-of-open-access (visitada en agosto de 2007).
[2] D. Shotton, K. Portwin, G. Klyne y A. Miles, “Adventures in Semantic Publishing: Exemplar Se-
mantic Enhancements of a Research Article”, PLoS Comput. Biol., vol. 5, núm. 4, 2009, e1000361,
doi: 10.1371/journal.pcbi.1000361.
[3] P. Bourne, “Will a Biological Database Be Different from a Biological Journal?”, PLoS Comput.
Biol., vol. 1, núm. 3, 2005, e34, doi: 10.1371/journal.pcbi.0010034. Éste fue un artículo delibera-
damente provocador.
[4] C. Anderson, “The End of Theory: The Data Deluge Makes the Scientific Method Obsolete”,
Wired, junio de 2008, www.wired.com/science/discoveries/magazine/16-07/pb_theory. Este
artículo también fue deliberadamente provocador.

Todos a bordo: hacia un sistema H E R BE RT

VAN DE SOM PE L
de comunicación académica Los Alamos National

Laboratory
CAR L L AGOZE
amigable con las máquinas Cornell University
“El actual sistema de comunicación académica no es otra

cosa que una copia escaneada del sistema basado en el papel.”
E
sta frase, que solíamos utilizar para causar efecto en
numerosas presentaciones en conferencias y que desarro-
llamos en detalle en un artículo de 2004 [1], todavía es
verdadera en gran medida. Si bien los editores académicos
han adoptado nuevas tecnologías que han permitido el acceso a
materiales académicos de manera más sencilla (como la Web y los
documentos pdf), estos cambios no han cumplido el pleno poten-
cial de la nueva realidad digital e interconectada. En particular, no
resuelven tres defectos del sistema actual de comunicación entre
académicos:
• Problemas sistémicos, en especial el lazo irrompible en el sis-
tema de publicación entre el acto de hacer una afirmación
académica y el proceso de revisión por pares.
• Presiones económicas, que se manifiestan en la “crisis del cos-
to de publicaciones académicas” y que representan una carga
agobiante para las bibliotecas.
• Cuestiones técnicas, que imponen barreras a una infraestruc-
tura de información interoperable.

Compartimos estas preocupaciones sobre el estado de la comunicación académica
con muchos otros en el mundo. Hace casi una década, colaboramos con miembros de
esa comunidad global para crear la Iniciativa de Archivos Abiertos (Open Archives
Initiative, oai), que tuvo importantes repercusiones en la dirección y el ritmo de
avance del movimiento de acceso abierto. El Protocolo de la oai para la Recolección
de Metadatos (oai Protocol for Metadata Harvesting, oai-pmh) y el proyecto con-
comitante Openurl reflejaron nuestra concentración inicial en los procesos de la
comunicación académica. Otros miembros de la comunidad se concentraron en el
contenido académico mismo. Por ejemplo, Peter Murray-Rust abordó la conversión
de la información estructurada y accionable por máquinas (como los datos tabulares
y los puntos de datos subyacentes a las representaciones gráficas) en texto plano
adecuado sólo para el consumo humano [2].
Una década después de nuestro trabajo inicial en esta área, nos complace observar
los rápidos cambios que están ocurriendo en diversas dimensiones de la comunica-
ción entre académicos. Abordaremos tres áreas de cambio que creemos que son lo
suficientemente significativas como para indicar un viraje fundamental.
LA EXTENSIÓN DEL REGISTRO DOCUMENTAL ACADÉMICO POR MEDIO DE UN SUSTRATO
ACCIONABLE POR MÁQUINAS
Una motivación para el desarrollo de la lectura automática es la profusión de litera

tura académica, que hace imposible que los investigadores puedan mantenerse al
día en cuanto a las investigaciones relevantes [3]. Los agentes que leen y filtran para
los académicos pueden ofrecer una solución a este problema. La necesidad de tal
mecanismo se intensifica porque los investigadores necesitan cada vez más absorber
y analizar literatura de muchas disciplinas, encontrar relaciones y combinar hallaz-
gos dispersos para llegar a nuevas ideas. Éste es un problema importante en campos
de las ciencias biológicas característicamente conformados por muchas disciplinas
interconectadas (como genética, biología molecular, bioquímica, química farmacéu-
tica y química orgánica). Por ejemplo, la falta de una estructura uniforme para los
datos provenientes de dominios biomédicos relacionados suele identificarse como
una barrera significativa para la investigación traslacional, es decir, la transferencia
de descubrimientos en la investigación médica y biológica básica a su aplicación en
la atención de pacientes en el nivel clínico [4].
Recientemente, hemos presenciado un avance significativo hacia una representa-
ción accionable por máquinas de los conocimientos contenidos en la literatura de las
ciencias biológicas, que apoya el razonamiento transdisciplinario. Se están utilizando

técnicas avanzadas de análisis de textos para extraer entidades y relaciones entre
entidades de la literatura existente, y se han introducido ontologías compartidas para
lograr la representación uniforme de conocimientos. Esta manera de proceder ya ha
conducido a nuevos descubrimientos basados en la información que se encuentra
inmersa en la literatura, que antes sólo era interpretable por seres humanos. Otras
disciplinas han emprendido actividades semejantes, y algunas iniciativas están per-
mitiendo a los académicos publicar información sobre entidades y relaciones entre
entidades en el momento de la publicación de un artículo, para evitar el procesa-
miento posterior que hoy es práctica común [5].
El lanzamiento de la comunidad internacional Concept Web Alliance, cuya meta es
ofrecer una plataforma global interdisciplinaria para analizar, diseñar y potencialmente
certificar soluciones para la interoperabilidad y la usabilidad de datos masivos, dispersos
y complejos, pone de manifiesto que tanto los investigadores como la industria de la
información académica están tomando muy en serio la tendencia hacia un sustra-
to accionable por máquinas. El establecimiento de una representación accionable
por máquinas del conocimiento académico puede ayudar al cuerpo docente y a los
estudiantes a tratar con el exceso de información, puede facilitar nuevos descubri-
mientos a partir de la reflexión sobre un corpus de conocimientos consolidados, y
puede incrementar la velocidad de los descubrimientos ayudando a los académicos
a evitar investigaciones redundantes y revelando prometedores cauces para nuevas
investigaciones.
LA INCORPORACIÓN DE LOS CONJUNTOS DE DATOS EN EL REGISTRO ACADÉMICO
Aun cuando los datos siempre han sido un ingrediente crucial en las exploraciones
científicas, hasta hace poco no se les trataba como objetos de primera clase en la
comunicación entre académicos, como sucedía con los artículos de investigación que
informaban sobre hallazgos extraídos de los datos. Esto está cambiando rápida y sus-
tancialmente. La comunidad científica está debatiendo y explorando en forma activa
la implementación de todas las funciones centrales de la comunicación académica
—registro, certificación, toma de conciencia, archivamiento y reconocimiento [1]— para
los conjuntos de datos.
Por ejemplo, la pirámide de datos propuesta en [6] claramente indica cómo el
cuidado en la confiabilidad (certificación) y la preservación digital (archivamiento) de
los conjuntos de datos se vuelve vital conforme su aplicación se extiende más allá
del uso personal y llega al ámbito de las comunidades especializadas y a la sociedad
en su conjunto. Los esfuerzos internacionales dirigidos a habilitar el intercambio de

datos de investigación [7] reflejan el reconocimiento de la necesidad de una infraes-
tructura que facilite el descubrimiento de conjuntos de datos compartidos (toma de
conciencia). Y los esfuerzos encaminados a definir un formato estándar de referencia-
ción bibliográfica para los conjuntos de datos [8] dan por sentado que son productos
académicos de primera magnitud. Estos esfuerzos se ven motivados en parte por la
creencia de que los investigadores deberían ganar crédito (reconocimiento) por los
conjuntos de datos que han compilado y compartido. Hace menos de una década,
estas funciones de la comunicación académica se aplicaban en gran parte sólo a la
bibliografía académica.
LA EXPOSICIÓN DEL PROCESO Y SU INCORPORACIÓN AL REGISTRO ACADÉMICO
Algunos aspectos del proceso de comunicación académica han sido públicos desde
hace mucho tiempo. Las citas bibliográficas en las publicaciones evidencian el uso de
conocimientos anteriores para generar nuevos. De esta manera, el grafo de referencias
académicas revela aspectos de la interacción entre investigadores y docentes, y por
ello es materia de investigación intensiva para detectar conexiones entre disciplinas
y para el análisis y la predicción de tendencias. Sin embargo, la interpretación de este
grafo a menudo es susceptible de errores debido a los métodos imperfectos de extrac-
ción manual o automática de referencias y a los desafiantes problemas que impone
lograr una atribución autoral no ambigua. Por otra parte, la cobertura del grafo de
referencias es parcial (sólo revistas muy reconocidas o sólo disciplinas específicas),
y desafortunadamente el grafo más representativo (Thomson Reuters) es privado.
El problema del grafo de referencias es indicativo de un problema más amplio: no
hay un rastro preciso, documentado y visible de la evolución de cada activo académico
a través del sistema, ni hay información acerca de la naturaleza de dicha evolución.
El problema es que las relaciones, que son conocidas en el momento en que un activo
académico avanza un paso en una cadena de valor, se pierden en el momento inme-
diatamente posterior, y en muchos casos para siempre. La dinámica real del trabajo
académico —la interacción/conexión entre activos, autores, lectores, evaluaciones
de calidad de los activos, áreas de investigación académica, etcétera— es extremada-
mente difícil de recuperar a posteriori. Por lo tanto, es necesario establecer un estrato
en que se sustente la comunicación académica —una red para la comunicación entre
académicos que registre y exponga esa dinámica, sus relaciones e interacciones—.
Está surgiendo una solución a este problema a través de varias iniciativas innova-
doras que hacen posible publicar información acerca del proceso académico hacia la
Web en formatos legibles por máquina, de preferencia en el momento en que ocurren

sucesos como los descritos anteriormente y, por tanto, cuando está disponible toda
la información requerida.
Específico del caso del grafo de referencias bibliográficas, el enfoque de referen-
ciación orientado a Web que explora el proyecto claddier presenta un mecanismo
para codificar un grafo de referencias preciso y apto para búsquedas automáticas en la
Web. Diversas iniciativas buscan introducir identificadores de autor [9] que podrían
ayudar a construir un grafo de referencias menos ambiguo. Un grafo aumentado con
semántica de referencias, como el propuesto por el proyecto Citation Typing Ontology,
también revelaría por qué se está citando un determinado recurso (una importante
pieza de información difícil de capurar hasta ahora) [10].
Más allá de los datos sobre referencias, otros esfuerzos para visibilizar o exponer
el proceso académico incluyen proyectos dirigidos a compartir los datos sobre la
utilización de recursos académicos (el proceso relacionado con la atención que se
presta a la información académica), como counter, mesur y el servicio de recomen-
dación académica bX. En conjunto, estos proyectos ilustran la gran aplicabilidad
de este tipo de información relacionada con procesos para los fines del desarrollo
de colecciones, la computación de nuevas métricas para evaluar el impacto de los
productos académicos [11], el análisis de las tendencias de investigación actuales [12]
y los sistemas de recomendación. Como resultado de este trabajo, varios proyectos
en Europa están buscando soluciones técnicas para compartir datos detallados en
la Web sobre la utilización de recursos académicos.
Otro ejemplo de captura de procesos es el exitoso esfuerzo myExperiment, que
ofrece un portal social para compartir descripciones de flujos de trabajo computacio-
nales. Iniciativas similares en la comunidad química permiten publicar y compartir
en la Web información contenida en cuadernos de notas de laboratorio [13].
Nos parecen especialmente alentadores estos esfuerzos porque nos permiten
imaginar un nuevo paso lógico, que sería compartir los datos de procedencia. La
información de procedencia revela el historial de entradas y pasos de procesamiento
implicados en la ejecución de los flujos de trabajo, y constituye un aspecto crítico
de la información científica, tanto para establecer la confianza en la veracidad de
los datos como para fomentar la reproducibilidad que requiere toda ciencia expe-
rimental. Trabajos recientes en la comunidad de la ciencia de la computación [14]
han producido sistemas capaces de preservar información de procedencia detallada
dentro de un entorno particular. Consideramos que la información de procedencia
que describe y entrelaza flujos de trabajo, conjuntos de datos y procesos es un nuevo
tipo de metadato, vinculado a procesos, que cumple un papel fundamental en la

ciencia basada en redes e intensiva en datos —semejante en importancia a los me-
tadatos descriptivos, los datos sobre utilización de recursos y los datos de referencias
en la investigación académica basada en artículos—. En consecuencia, parece lógico
que a la larga se expondrá la información de procedencia de manera que pueda ser
aprovechada por una diversidad de herramientas para el descubrimiento, el análisis
y la evaluación del impacto de algunos productos centrales de la nueva academia:
los flujos de trabajo, los conjuntos de datos y los procesos.
HACIA EL FUTURO
Como señalamos antes, el registro documental académico surgirá como resultado

del entrelazamiento de los productos académicos tradicionales y los nuevos, el de-
sarrollo de un sustrato de conocimiento accionable por máquinas y la exposición de
metainformación acerca del proceso académico. Estos medios desarollarán su pleno
potencial sólo si se fundamentan en una ciberinfraestructura apropiada e interopera-
ble que se base en la Web y sus estándares relacionados. La Web no sólo contribuirá a
la continuidad del proceso académico, sino que además integrará en forma expedita
el debate académico con el más amplio debate humano que tiene lugar en la Web.
En tiempos recientes hemos visto una mayor orientación hacia la Web en el de-
sarrollo de estrategias de interoperabilidad académica. Ello incluye la exploración o
el uso activo de identificadores uniformes de recursos (uri, por sus siglas en inglés),
y más específicamente de uri http, para la identificación de productos académicos,
conceptos, investigadores e instituciones, así como el uso de los formatos xml, rdf,
rdfs, owl, rss y Atom para sustentar la representación y la comunicación de in-
formación y conocimiento académicos. Estas tecnologías de base, cada vez más, se
ven ampliadas con especializaciones —aun compatibles con estándares— propias
de comunidades e impulsadas por comunidades. En general, empieza a perfilarse un
panorama en el cual todos los constituyentes del nuevo registro académico (inter-
pretables por seres humanos y máquinas) se publican en la Web de una manera que
satisface los estándares generales de ésta y de las especializaciones de tales estánda-
res que son específicas de comunidades. Una vez publicados en la Web, pueden ser
accesados, reunidos y explorados tanto por agentes humanos como computacionales.
Nuestro propio trabajo en las especificaciones oai Object Reuse & Exchange (oai-
ore) [15], que definen un procedimiento para identificar y describir activos de e-ciencia
que son agregados de múltiples recursos, es una muestra de este naciente enfoque de
una ciberinfraestructura centrada en la Web, la cual se construye sobre tecnologías
estándar de la Web y también se adhiere a los lineamientos de la iniciativa Linked

Data, que está surgiendo como la manifestación más generalizada de años de trabajo
de la Web semántica.
Al describir esta tendencia hacia el uso de estrategias comunes de Web para
propósitos académicos, recordamos a Jim Gray, quien durante todas las discusiones
preliminares que condujeron al trabajo de oai-ore insistió en que cualquier solución
debería hacer uso de tecnologías convencionales de redifusión, como rss o Atom.
Jim tenía razón al indicar que era necesario desarrollar muchos componentes espe-
cializados de la ciberinfraestructura para cumplir con las exigencias de la comuni-
cación académica, y al reconocer que otros ya están disponibles como resultado de
las actividades de estandarización de la Web.
Cuando contemplamos el futuro en el corto plazo, recordamos una de las citas
más conocidas de Jim Gray: “Ojalá que todos sus problemas sean técnicos”. Con este
irónico comentario, Jim estaba haciendo notar que incluso detrás de los retos téc-
nicos más difíciles hay un problema aún más fundamental: asegurar la integración
de la ciberinfraestructura con los flujos de trabajo y las prácticas humanas. Sin tal
integración, ni la mejor ciberinfraestructura podrá adpotarse de manera general. Por
fortuna, existen indicios de que hemos aprendido la lección de la experiencia a través
de los años con otros proyectos de infraestructura de gran escala, como las Digital
Libraries Initiatives. El programa Sustainable Digital Data Preservation and Access
Network Partners (DataNet), financiado por la Oficina de Ciberinfraestructura de
la National Science Foundation (nsf) de Estados Unidos, concedió recientemente
financiamiento a dos proyectos decenales que estudian la ciberinfraestructura como
un problema sociotécnico; es decir, uno que requiere tanto conocimientos de tec-
nología como una comprensión de la manera en que la tecnología se integra en las
comunidades de uso. Creemos que este enfoque más amplio será uno de los factores
más importantes para cambiar la naturaleza del trabajo académico y las maneras en
que se comunicará en la próxima década.
Estamos seguros de que la combinación de la incesante evolución de la Web,
nuevas tecnologías que aprovechen sus principios fundamentales y una compren-
sión de la forma en que la gente usa la tecnología servirá de base para un sistema
de comunicación académica esencialmente reconsiderado, que será amigable para
seres humanos y máquinas. Con la llegada de tal sistema, estaremos felices de dejar
atrás nuestra socorrida metáfora de la copia escaneada.

REFERENCIAS
[1] H. Van de Sompel, S. Payette, J. Erickson, C. Lagoze y S. Warner, “Rethinking Scholarly
Communication: Building the System that Scholars Deserve”, D-Lib Mag., vol. 10, núm. 9, 2004,
www.dlib.org/dlib/september04/vandesompel/09vandesompel.html.
[2] P. Murray-Rust y H. S. Rzepa, “The Next Big Thing: From Hypermedia to Datuments”,
J. Digit. Inf., vol. 5, núm. 1, 2004.
[3] C. L. Palmer, M. H. Cragin y T. P. Hogan, “Weak Information Work in Scientific Discovery”,
Inf. Process. Manage., vol. 43, núm. 3, 2007, pp. 808-820, doi: 10.1016/j.ipm.2006.06.003.
[4] A. Ruttenberg, T. Clark, W. Bug, M. Samwald, O. Bodenreider, H. Chen, D. Doherty, K. Forsberg,
Y. Gao, V. Kashyap, J. Kinoshita, J. Luciano, M. S. Marshall, C. Ogbuji, J. Rees, S. Stephens,
G. T. Wong, E. Wu, D. Zaccagnini, T. Hongsermeier, E. Neumann, I. Herman y K. H. Cheung,
“Advancing Translational Research with the Semantic Web”, BMC Bioinf., vol. 8, supl. 3, 2007,
p. S2, doi: 10.1186/1471-2105-8-S3-S2.
[5] D. Shotton, K. Portwin, G. Klyne y A. Miles, “Adventures in Semantic Publishing: Exemplar
Semantic Enhancements of a Research Article”, PLoS Comput. Biol., vol. 5, núm. 4, p. e1000361,
2009, doi: 10.1371/journal.pcbi.1000361.
[6] F. Berman, “Got data?: A Guide to Data Preservation in the Information Age”, Commun. ACM,
vol. 51, núm. 12, 2008, pp. 50-56, doi: 10.1145/1409360.1409376.
[7] R. Ruusalepp, “Infrastructure Planning and Data Curation: A Comparative Study of International
Approaches to Enabling the Sharing of Research Data”, JISC, 30 de noviembre de 2008,
www.dcc.ac.uk/ docs/publications/reports/Data_Sharing_Report.pdf.
[8] M. Altman y G. King, “A Proposed Standard for the Scholarly Citation of Quantitative Data”,
D-Lib Magazine, vol. 13, núm. 3/4, 2007.
[9] M. Enserink, “Science Publishing: Are You Ready to Become a Number?”, Science, vol. 323,
núm. 5922, 2009, doi: 10.1126/science.323.5922.1662.
[10] N. Kaplan, “The Norm of Citation Behavior”, Am. Documentation, vol. 16, 1965, pp. 179-184.
[11] J. Bollen, H. Van de Sompel, A. Hagberg y R. Chute, “A Principal Component Analysis of
39 Scientific Impact Measures”, PLoS ONE, vol. 4, núm. 6, 2009, p. e6022, doi: 10.1371/journal.
pone.0006022.
[12] J. Bollen, H. Van de Sompel, A. Hagberg, L. Bettencourt, R. Chute y L. Balakireva, “Click-stream
Data Yields High-Resolution Maps of Science”, PLoS ONE, vol. 4, núm. 3, 2009, p. e4803,
doi: 10.1371/journal.pone.0004803.
[13] S. J. Coles, J. G. Frey, M. B. Hursthouse, M. E. Light, A. J. Milsted, L. A. Carr, D. De Roure,
C. J. Gutteridge, H. R. Mills, K. E. Meacham, M. Surridge, E. Lyon, R. Heery, M. Duke y M. Day,
“An e-science Environment for Service Crystallography from Submission to Dissemination”,
J. Chem. Inf. Model., vol. 46, núm. 3, 2006, doi: 10.1021/ci050362w.
[14] R. Bose y J. Frew, “Lineage Retrieval for Scientific Data Processing: A Survey”, ACM Comput. Surv.
(CSUR), vol. 37, núm. 2005, 1, pp. 1-28, doi: 10.1145/1057977.1057978.
[15] H. Van de Sompel, C. Lagoze, C. E. Nelson, S. Warner, R. Sanderson y P. Johnston, “Adding
eScience Publications to the Data Web”, Proc. Linked Data on the Web 2009, Madrid.

El futuro de las AN N E FITZG E R ALD

BR IAN FITZG E R ALD
políticas de datos K YLIE PAPPAL AR DO

Queensland University
of Technology
L
os adelantos en las tecnologías de la información y
la comunicación han provocado una revolución en la in-
formación, que ha producido cambios fundamentales en
la manera en que ésta se recaba o genera, se comparte y
distribuye [1, 2]. Desde hace mucho tiempo se ha reconocido en
las colaboraciones científicas internacionales la importancia de
establecer sistemas en los cuales los hallazgos de la investigación
puedan ser rápidamente puestos a disposición y utilizados por otros
investigadores. Este reconocimiento de la necesidad de acceso e
intercambio de los datos es más evidente en los documentos marco
que apuntalan muchos de los proyectos observacionales de gran
escala que generan enormes cantidades de datos sobre el planeta
Tierra, el agua, el ambiente marino y la atmósfera.
Por más de cincuenta años, los documentos fundadores de los
proyectos más importantes de colaboración científica por lo regular
han incluido como principio básico un compromiso para asegurar la
disponibilidad abierta y libre de los productos de la investigación. Si
bien estos acuerdos se celebran a menudo en el nivel internacional
(ya sea entre gobiernos o sus representantes en las organizaciones
internacionales), los investigadores individuales y los proyectos
de investigación suelen operar en forma local, dentro de una ju-
risdicción nacional. Si los principios de acceso a datos adoptados
por las colaboraciones científicas internacionales han de llevarse

a cabo efectivamente, deben ser sustentados por las políticas y las leyes nacionales
en vigor en los países en los que operan los investigadores participantes. Si no logra
establecerse un puente entre los principios de acceso a datos declarados en el ámbito
nacional y entre las políticas y leyes nacionales, los beneficios que puedan obtenerse
del intercambio de datos corren el riesgo de ser obstaculizados por objetivos internos
de los países [3].
La necesidad de coherencia entre los principios de intercambio de datos, adoptados
por las colaboraciones científicas internacionales, y los marcos legales y de política en
vigor en las jurisdicciones nacionales en donde operan los investigadores ha quedado
de manifiesto en el Global Earth Observation System of Systems1 (geoss, Sistema
de Sistemas de Observación Global de la Tierra) iniciado en 2005 por el Group on
Earth Observations (geo, Grupo sobre Observaciones Terrestres) [1, p. 125]. geoss
trata de conectar a los productores de datos ambientales y de herramientas de apoyo
para la toma de decisiones con los usuarios finales de estos productos, con el objetivo
de subrayar la importancia que revisten las observaciones terrestres para los proble-
mas globales. El resultado final será una infraestructura pública global que generará
datos ambientales exhaustivos y casi en tiempo real, así como información y análisis
diversos para un amplio espectro de usuarios.
El geoss está pensado como un “sistema de sistemas”, construido a partir de siste-
mas observacionales ya existentes y que ha de incorporar nuevos sistemas de observa-
ción y modelado de la Tierra que se ofrecen como componentes geoss. Esta incipiente
infraestructura pública enlaza una colección diversa y creciente de instrumentos
para monitorear y pronosticar cambios en el medio ambiente global. Este sistema de
sistemas apoya a diseñadores de políticas, administradores de recursos, científicos
investigadores y muchos otros expertos y tomadores de decisiones.
POLÍTICAS INTERNACIONALES
Una de las primeras acciones del geo fue reconocer explícitamente la importancia
de compartir los datos para el logro de su visión y acordar un conjunto estratégi-
co de principios de intercambio de datos para geoss [4]:
• Habrá un intercambio pleno y abierto de datos, metadatos y productos com-

partidos dentro de geoss, que reconocerá los instrumentos internacionales
pertinentes y las políticas y legislaciones nacionales.
1
www.earthobservations.org/index.html

• Todos los datos, metadatos y productos compartidos estarán disponibles con el
mínimo retraso de tiempo y a un costo mínimo.
• Para la investigación y la educación, se promoverá que, todos los datos, metada-
tos y productos estén libres de cargos o no rebasen el costo de la reproducción.
Aunque importantes, estos principios no son estrictamente nuevos. Varias otras

declaraciones de políticas internacionales promueven la disponibilidad pública y
el intercambio abierto de datos, entre ellas los Principios de las Bermudas (1996)
y la Declaración de Berlín sobre el Acceso Abierto al Conocimiento en Ciencias y
Humanidades (2003) [5].
Los Principios de las Bermudas fueron elaborados por los científicos que participa-
ron en el International Human Genome Sequencing Consortium y sus organismos de
financiamiento, y representaron un acuerdo entre investigadores sobre la necesidad
de establecer una base para el intercambio abierto y expedito de datos sobre secuen-
cias genéticas antes de su publicación [6]. Los Principios de las Bermudas requerían
la publicación automática de montajes de secuencias de más de 1 kb y la inmediata
divulgación de secuencias finales anotadas. Se pretendía que la secuencia genética
completa quedara a disposición pública de manera gratuita para la investigación y
el desarrollo, a fin de maximizar los beneficios para la sociedad.
La Declaración de Berlín tenía el propósito de apoyar el paradigma del acceso
abierto mediante internet y de promover internet como un instrumento fundamental
para la conformación de una base global de conocimientos científicos. La Declaración
definió “contribución de acceso abierto” de manera tal que incluyera resultados, datos
brutos y metadatos de investigación científica; asimismo, requería que se depositaran
las contribuciones de acceso abierto en un repositorio en línea y que su disponibili-
dad quedara protegida por un “derecho de acceso libre, irrevocable y mundial, y con
licencia para copiar, usar, distribuir, transmitir y exhibir el trabajo públicamente, así
como crear y distribuir obras derivadas, en cualquier medio digital para cualquier
propósito responsable, sujeto a una apropiada atribución de la autoría” [7].
De hecho, los principios de geoss se acercan mucho a los principios de inter-
cambio de datos adoptados en el Tratado Antártico, firmado casi 50 años antes en
Washington, d.c., en 1959, que han sido continuamente observados en Australia,
en especial en relación con los datos de la investigación marina.2 El Artículo iii del
Tratado Antártico establece:
2
Entre otros tratados internacionales que tienen tales estipulaciones están la Convención de la onu sobre el Dere-
cho del Mar, el Protocolo sobre el Ozono, la Convención sobre la Biodiversidad y la Convención de Aarhus.

1. A fin de promover la cooperación internacional en la investigación científica en la
Antártida, como señala el Artículo II del presente Tratado, las Partes Contratantes
acuerdan que, en la mayor medida viable y practicable: … (c) las observaciones y
los resultados científicos de la Antártida se compartirán y estarán disponibles gra-
tuitamente. [8]
Los principios de intercambio de datos declarados en el Tratado Antártico, el Plan de

Implementación de 10 Años del geoss, los Principios de las Bermudas y la Declara-
ción de Berlín, entre otros, son ampliamente reconocidos no sólo por ser beneficiosos
sino determinantes para los flujos de información y la disponibilidad de los datos. Sin
embargo, surgen problemas porque, sin una clara política y un marco legislativo en el
ámbito nacional, pueden operar otras consideraciones que frustren la efectiva imple-
mentación de los objetivos de intercambio de los datos, que son fundamentales para
las colaboraciones científicas internacionales [5, 9]. La experiencia ha demostrado que
a falta de una regulación inequívoca sobre la política de acceso a los datos y un marco
legislativo de apoyo, es muy fácil que en la práctica se frustren las buenas intenciones.
MARCOS NACIONALES
La estrategia fundamental, para asegurar que las políticas internacionales que de-
mandan “pleno y abierto intercambio de datos” se apliquen efectivamente, radica
en el desarrollo de una política y un marco
Políticas
legal coherentes (véase la figura 1). El marco
internacionales Instrumentos nacional debe respaldar los principios inter-
Ej.: principios de legales
intercambio de datos internacionales nacionales para el acceso y el intercambio
del GEOSS; Tratado Ej.: recomendaciones
Antártico; Principios de la OCDE
de datos, pero también debe ser lo suficien-
de las Bermudas
temente claro y funcional para que los in-
vestigadores lo puedan seguir en el nivel del
proyecto de investigación. Mientras que las
Marcos
nacionales regulaciones nacionales para compartir datos
están bien establecidas en Estados Unidos y
Planes Europa, no puede decirse lo mismo de mu-
de manejo chas otras jurisdicciones (entre ellas Austra-
de datos
lia). Kim Finney, del Antarctic Data Centre,
FIGURA 1. ha llamado la atención sobre las dificultades
Un marco regulatorio para disposiciones para implementar el Artículo iii (1)(c) del Tra-
de intercambio de datos. tado Antártico si los signatarios del tratado

no han establecido políticas de acceso a los datos. Ella señala que poder alcanzar
la meta propuesta en el tratado exige una auténtica disposición de parte de los
científicos para poner sus datos al alcance de otros investigadores. Falta esa dispo-
sición, pese a la clara intención de que los datos científicos sobre la Antártida sean
“intercambiados y estén disponibles libremente”. Finney sostiene que es realmente
necesario contar con una política de acceso a los datos en los estados miembros de
la Antártida, porque sin esa política el nivel de conformidad con las aspiraciones
planteadas en el Tratado Antártico será muy desigual, en el mejor de los casos [10]
[1, pp. 77-78]. En Estados Unidos, la Circular A-130 de la Oficina de Administración
y Presupuesto (omb, por sus siglas en inglés) establece el marco de política para el
acceso y reutilización de datos para los departamentos del Ejecutivo y las agencias
del gobierno federal de Estados Unidos [11] [1, pp. 174‑175]. Además de reconocer
que la información gubernamental es un valioso recurso público y que la nación se
beneficia con su divulgación, la Circular A-130 de la omb exige que se eviten prácticas
inadecuadamente restrictivas. Por añadidura, la Circular A-16, titulada “Coordinación
de información geográfica y actividades relacionadas con datos espaciales”, señala
que las agencias federales estadounidenses tienen la responsabilidad de “recabar,
administrar, divulgar y preservar la información espacial de modo que los datos, la
información o los productos resultantes puedan compartirse fácilmente con otras
agencias federales y usuarios no federales, así como promover la integración de datos
entre todas las fuentes” [12] [1, pp. 181-183].
En Europa, el marco de política consiste en la Directiva sobre la Reutilización de
la Información del Sector Público (2003) (la Directiva psi, por sus siglas en inglés)
[13], que es un instrumento de amplio alcance, así como la directiva específica
que establece la Infraestructura para la Información Espacial (2007) (la Directiva
inspire) [14] y la Directiva sobre el Acceso Público a la Información Ambiental (2003)
[15], que obligan a las autoridades públicas a ofrecer oportunamente el acceso a la
información ambiental.
Al negociar la Directiva psi, el Parlamento Europeo y el Consejo de la Unión
Europea reconocieron que el sector público es el mayor productor de información
en Europa y que podían obtenerse sustanciales beneficios sociales y económicos si
esta información estaba accesible y se podía reutilizar. Sin embargo, las compañías
europeas dedicadas a compendiar recursos de información para convertirlos en
productos de información con valor agregado quedarían en desventaja competitiva
de no contar con políticas claras o prácticas uniformes que las guiaran en el tema
del acceso y la reutilización de la información del sector público. La falta de armo-

nización de políticas y prácticas sobre información del sector público era vista como
una barrera al desarrollo de productos y servicios digitales basados en información
obtenida de diferentes países [1, pp. 137-138]. En respuesta, la Directiva psi establece
un marco de reglas que rigen sobre la reutilización de documentos provenientes de
entidades del sector público de los estados miembros de la ue. Además, la Directiva
inspire establece políticas y principios que debe seguir la ue en relación con los
datos espaciales detentados por o en nombre de autoridades públicas en el ejercicio
de sus tareas.
A diferencia de Estados Unidos y Europa, sin embargo, Australia no tiene en la
actualidad un marco de política nacional que determine el acceso y la utilización
de datos. En particular, la regulación actual sobre el acceso y reutilización de la
información del sector público es fragmentaria y carece de un fundamento cohe-
rente de políticas, ya sea considerada en términos de interacciones internas o entre
los diferentes niveles de gobierno en los ámbitos local, estatal/territorial y federal,
o entre los sectores gubernamental, académico y privado.3 En 2008, el informe
“Venturous Australia” del Review of the National Innovation System recomendó
que Australia estableciera una Estrategia Nacional de Información para optimizar el
flujo de información en la economía australiana [16]. Sin embargo, sigue sin quedar
claro cómo podría establecerse dicha estrategia.
La Organización para la Cooperación y el Desarrollo Económicos (ocde) ha
proporcionado un punto de partida para países que, como Australia, todavía tienen
que establecer marcos nacionales para compartir productos de investigación. En el
Encuentro Ministerial sobre el Futuro de la Economía de Internet, celebrado en Seúl
en 2008, los ministros de la ocde respaldaron declaraciones de principios sobre el
acceso a los datos de investigación producidos como resultado del financiamiento
público, y sobre el acceso a la información del sector público. Estos documentos
establecen principios para regular la disponibilidad de datos de investigación, entre
ellos: apertura, transparencia, conformidad legal, interoperabilidad, calidad, efi-
ciencia, rendición de cuentas y sustentabilidad, similares a los principios expresados
en la declaración del geoss. El principio de apertura de la Recomendación sobre
el Acceso a los Datos de Investigación de Financiamiento Público, del Consejo de
la ocde, establece:
3
Ha habido pocos avances en Australia en cuanto a políticas sobre el acceso a información del gobierno desde el
establecimiento de la Política sobre Acceso y Tasación de los Datos Espaciales de la Office of Spatial Data Manage-
ment (Oficina de Administración de Datos Espaciales) en 2001.

A) Apertura
Apertura significa acceso en condiciones iguales para la comunidad internacio-
nal de investigación al menor costo posible, de preferencia a no más que el costo
marginal de divulgación. El acceso abierto a los datos de investigación de finan-
ciamiento público debe ser fácil, oportuno, amigable con el usuario y de prefe-
rencia basado en internet. [17]
Las recomendaciones de la ocde son instrumentos legales de esa organización que

describen normas u objetivos que se espera que implementen sus países miembros
(como Australia), aunque no son legalmente vinculantes. Sin embargo, con base en
la práctica largamente establecida entre los países miembros, se considera que una
recomendación tiene gran fuerza moral [1, p. 11]. En Australia, el Grupo de Trabajo
de Datos para la Ciencia, del Consejo para Ciencia, Ingeniería e Innovación del
Primer Ministro (pmseic, por sus siglas en inglés), en su informe de 2006, “From
Data to Wisdom: Pathways to Successful Data Management for Australian Science”,
recomendó que se tomaran en cuenta los lineamientos de la ocde en la creación de
un marco estratégico para el manejo de datos de investigación en Australia [18].
La creación de un marco nacional para el manejo de datos, basado en principios
que promuevan el acceso y el intercambio de datos (como los de la Recomendación
de la ocde), ayudaría a incorporar declaraciones y protocolos internacionales de
políticas, como el Tratado Antártico y los Principios del geoss, en la legislación
nacional. Ello conduciría a establecer lineamientos más firmes (si no es que reque-
rimientos) para que los investigadores tuvieran en cuenta y, cuando fuera factible,
incorporaran estos principios en los planes de manejo de datos de sus proyectos de
investigación [5, 9].
CONCLUSIÓN
Establecer disposiciones sobre el intercambio de datos para las complejas colabora-

ciones internacionales de e-investigación requiere marcos nacionales de políticas
legales nacionales y prácticas de manejo de datos que sean apropiados. Si bien las
colaboraciones científicas internacionales suelen expresar un compromiso con el
acceso y el intercambio de datos, si no se cuenta con el respaldo de un marco nacional
de políticas y leyes, así como buenas prácticas de manejo de datos, tales objetivos
corren el riesgo de no ser implementados. Las colaboraciones científicas de e-inves-
tigación conllevan muchas dificultades inherentes, en especial cuando participan
investigadores que operan en ubicaciones distantes. La tecnología ha vuelto irrele-

vantes las fronteras físicas, pero persisten las fronteras jurisdiccionales. Si lo que
nos proponemos es que los datos fluyan, será necesario asegurar que las políticas y
las leyes nacionales respalden los sistemas de acceso a datos, que por largo tiempo
han sido considerados centrales para las colaboraciones científicas internacionales.
En la creación de políticas, leyes y prácticas en el nivel nacional, se puede encontrar
orientación en las recomendaciones de la ocde sobre el acceso a los datos financiados
por el sector público, en la Circular A-130 de la omb y en diversos lineamientos de
la Unión Europea.
Es crucial que los países asuman la responsabilidad de promover metas de políticas
para el acceso y la reutilización de datos en los tres niveles a fin de facilitar los flujos
de información. Sólo si se mantienen en vigor los marcos apropiados podemos estar
seguros de mantenernos a flote en el diluvio de los datos.
REFERENCIAS
[1] A. Fitzgerald, “A Review of the Literature on the Legal Aspects of Open Access Policy, Practices
and Licensing in Australia and Selected Jurisdictions”, Cooperative Research Centre for Spatial
Information and Queensland University of Technology, julio de 2009, www.aupsi.org.
[2] Presentación del programa de investigación Intellectual Property: Knowledge, Culture and
Economy (ip: kce) , Queensland University of Technology, para el informe Digital Economy: Future
Directions, gobierno de Australia, preparado por B. Fitzgerald, A. Fitzgerald, J. Coates y
K. Pappalardo, 4 de marzo de 2009, p. 2, www.dbcde.gov.au/__data/assets/pdf_file/0011/112304/
Queensland_ University_of_Technology_QUT _Law_Faculty.pdf.
[3] B. Fitzgerald (ed.), Legal Framework for e-Research: Realising the Potential, Sydney University Press,
2008, http://eprints.qut.edu.au/14439.
[4] Group on Earth Observations (geo), “geoss 10-Year Implementation Plan”, adoptado el 16 de
febrero de 2005, p. 4, www.earthobservations.org/docs/10-Year%20Implementation%20Plan.pdf.
[5] A. Fitzgerald y K. Pappalardo, “Building the Infrastructure for Data Access and Reuse in
Collaborative Research: An Analysis of the Legal Context”, oak Law Project y Legal Framework
for e-Research Project, 2007, http://eprints.qut.edu.au/8865.
[6] Bermuda Principles, 1996, www.ornl.gov/sci/techresources/Human_Genome/research/bermuda.
shtml, visitado el 10 de junio de 2009.
[7] Berlin Declaration on Open Access to Knowledge in the Sciences and Humanities, 2003,
http://oa.mpg.de/openaccess-berlin/berlindeclaration.html, visitada el 10 de junio de 2009.
[8] Tratado Antártico (1959), firmado en Washington, D.C., 1 de diciembre de 1959; entró en vigor en
Australia y en general el 23 de junio de 1961, [1961] ats 12 (Australian Treaty Series, 1961, núm.
12), www.austlii.edu.au/cgi-bin/sinodisp/au/other/dfat/treaties/1961/12.html?query=antarctic,
visitado el 5 de junio de 2009.
[9] A. Fitzgerald, K. Pappalardo y A. Austin, “Practical Data Management: A Legal and Policy
Guide”, oak Law Project y Legal Framework for e-Research Project, 2008, http://eprints.qut.edu.
au/14923.
[10] Scientific Committee on Antarctic Research (scar) Data and Information Strategy 2008-2013,
Joint Committee on Antarctic Data Management (jcadm) y Standing Committee on Antarctic
Geographic Information (sc-agi), con autoría de K. Finney, Australian Antarctic Data Centre,

Australian Antarctic Division (revisado en mayo de 2008), p. 40, www.jcadm.scar.org/fileadmin/
filesystem/jcadm_group/Strategy/SCAR_DIM_StrategyV2-CSKf_final.pdf.
[11] Office of Management and Budget, Circular A-130, “Management of Federal Information Resour-
ces” (omb Circular A-130), 2000, www.whitehouse.gov/omb/circulars/a130/a130trans4.html.
[12] Office of Management and Budget, Circular A-16, “Coordination of Geographic Information and
Related Spatial Data Activities” (omb Circular A-16), publicada el 16 de enero de 1953, revisada en
1967, 1990, 2002, sec. 8, www.whitehouse.gov/omb/circulars_a016_rev/#8.
[13] Parlamento Europeo y Consejo de la Unión Europea, Directiva 2003/98/EC del Parlamento
Europeo y del Consejo del 17 de noviembre de 2003 sobre la reutilización de la información del
sector público, 2003, OJ L 345/90, http://eur-lex.europa.eu/LexUriServ/LexUriServ.
do?uri=CELEX: 32003L0098:EN:HTML.
[14] Parlamento Europeo y Consejo de la Unión Europea, Directiva 2007/2/EC del Parlamento
Europeo y del Consejo del 14 de marzo de 2007, que establece una infraestructura para la
información espacial, 2007, OJ L 108/1, 25 de abril de 2007, http://eur-lex.europa.eu/LexUriServ/
LexUriServ.do?uri= OJ:L:2007:108:0001:01:EN:HTML.
[15] Parlamento Europeo y Consejo de la Unión Europea, Directiva 2003/4/EC del Parlamento Europeo
y del Consejo del 28 de enero de 2003, sobre el acceso público a información ambiental, y
derogación de la directiva del Consejo 90/313/EEC OJL 041, del 14 de febrero de 2003, pp. 0026-
0032, http://eur-lex.europa.eu/LexUriServ/LexUriServ.do?uri=CELEX:32003L0004:EN:HTML.
[16] Cutler & Company, “Venturous Australia: Building Strength in Innovation”, Review of the National
Innovation System, 2008, p. 95, www.innovation.gov.au/innovationreview/Pages/home.aspx.
[17] ocde, “Recommendation of the Council concerning Access to Research Data from Public
Funding”, C(2006)184, 14 de diciembre de 2006, http://webdomino1.oecd.org/horizontal/
oecdacts.nsf/Display/3 A5FB1397B5ADFB7C12572980053C9D3?OpenDocument, visitado el
5 de junio de 2009. Nótese que este material también fue publicado en “oecd Principles and
Guidelines for Access to Research Data from Public Funding”, 2007.
[18] Prime Minister’s Science, Engineering and Innovation Council (pmseic) Working Group on Data
for Science, “From Data to Wisdom: Pathways to Successful Data Management for Australian
Science”, Recomendación 9, diciembre de 2006, p. 12, www.dest.gov.au/sectors/science_
innovation/publications_resources/profiles/Presentation_Data_for_Science.htm.

He visto el cambio de JOH N WILBAN KS

Creative Commons
paradigma, y somos nosotros
T
iendo a ponerme nervioso cuando escucho hablar de
cambios de paradigmas. El término mismo se ha devalua-
do por el inexacto uso popular —incluso se convirtió en
una broma en Los Simpson—; pero vale la pena revalorar
su función original en La estructura de las revoluciones científicas de
Thomas Kuhn [1] al examinar la idea de un cuarto paradigma y sus
repercusiones en la comunicación académica [2].
El modelo de Kuhn describe un mundo de la ciencia en el cual un
conjunto de ideas se vuelve dominante y se arraiga, y así se crea una
visión del mundo (el tristemente célebre “paradigma”) que adquiere
fuerza y poder. Este conjunto de ideas se vuelve poderoso porque
representa una explicación plausible de los fenómenos observados.
Así tenemos el éter luminífero, la teoría del miasma de la enferme-
dad infecciosa y la idea de que el Sol gira alrededor de la Tierra.
El conjunto de ideas, la visión del mundo, el paradigma, adquiere
fuerza por un proceso acumulativo y gradual. Cada científico indi-
vidual tiende a trabajar de una manera que agrega, poco a poco, al
paradigma. El individuo que puede hacer una gran aportación a esa
visión del mundo adquiere autoridad, contratos de investigación,
galardones y premios, así como un lugar en la junta de directores.
Todos los que participan hacen una inversión en el conjunto de
ideas que va más allá de las ideas mismas. Las industrias y los go-
biernos (y las personas que trabajan en ellos) construyen negocios

y políticas que dependen de la visión del mundo. Esto añade una línea de defensa
—una suerte de sistema inmune— que protege a la visión del mundo contra los
ataques. Los que se oponen son marginados. Las ideas nuevas quedan estancadas,
sin financiamiento y sin personal. El miedo, la incertidumbre y la duda tiñen la
percepción general de las ideas, métodos, modelos y enfoques nuevos que desafían
el paradigma establecido.
Sin embargo, las visiones del mundo se desploman y los paradigmas se resquebra-
jan cuando dejan de explicar los fenómenos observados o cuando un experimento
prueba categóricamente que determinado paradigma es incorrecto. Después de siglos
de desarrollo acumulativo, el éter fue refutado de manera concluyente, y lo mismo
pasó con el miasma y con el geocentrismo. Cuando las viejas formas de explicar las
cosas ya no pueden ajustarse a las nuevas realidades llega la hora del cambio.
Me parece que ésta es la idea detrás del argumento de Jim Gray acerca del cuarto
paradigma de los datos [3] y de la caracterización del “diluvio de datos” —que nuestra
capacidad de medir, almacenar, analizar y visualizar los datos es la nueva realidad
a la que la ciencia debe adaptarse—. Los datos están en el corazón de este nuevo
paradigma y conviven con el empirismo, la teoría y la simulación, que en conjunto
forman el continuo que para nosotros es el moderno método científico.
Pero me propongo celebrar los tres primeros paradigmas, no enterrarlos. El em-
pirismo y la teoría nos han conducido, en una larga travesía, desde una visión del
mundo que tenía al Sol girando alrededor de la Tierra hasta la física cuántica. La
simulación tiene un papel fundamental en mucha de la ciencia contemporánea, desde
las reconstrucciones antropológicas de la antigua Roma a la predicción del clima.
La precisión de las simulaciones y las predicciones constituye el centro candente de
los debates sobre políticas económicas y de cambio climático. Y es vital percatarse
de que el empirismo y la teoría son esenciales para una buena simulación. Puedo
programar una hermosa simulación en mi pantalla que no incorpore la teoría de la
gravedad, pero si intento saltar en mi carro desde un despeñadero, el empirismo me
dará de coscorrones durante la caída.
Así, no se trata realmente de un cambio de paradigma en el sentido de Kuhn. Los
datos no están barriendo la vieja realidad. Sencillamente están agregando una serie
de cargas sobre las metodologías y los hábitos sociales con los que solemos abordar y
comunicar nuestro empirismo y nuestra teoría, sobre la solidez y la complejidad de
nuestras simulaciones, y sobre la manera en que exponemos, transmitimos e inte-
gramos nuestro conocimiento.
Lo que tiene que cambiar es el paradigma de nosotros mismos como científicos,

no los viejos paradigmas del descubrimiento. Cuando empezamos a darnos cuenta
de que las cosas estaban hechas de átomos, que nosotros estábamos hechos de genes,
que la Tierra giraba alrededor del Sol, estábamos ante cambios paradigmáticos en
el sentido kuhniano. De lo que estamos hablando aquí cruza transversalmente esas
clases de cambio. La ciencia intensiva en datos, si se hace bien, significará más cam-
bios de paradigmas de las teorías científicas a un ritmo más veloz, porque podremos
contrastar rápidamente nuestra visión del mundo contra la “realidad objetiva” que
podemos medir con tanta precisión.
La estrategia para enfrentar el diluvio de datos podría nutrirse conceptualmente
más de las redes que de la dinámica del cambio kuhniano. Las redes tienen una
capacidad de escalar que resulta útil en el manejo de la sobrecarga de datos; pueden
convertir un escenario de cantidades enormes de información en algo bueno, de
modo que la información ya no es un “problema” que debe ser “resuelto”. Y hay una
enseñanza en la manera como están diseñadas las redes que puede ayudarnos a
explorar el diluvio de datos: si hemos de manejar tal volumen de datos, necesitamos
una estrategia abierta que aproveche la experiencia de las redes.
Con esto me refiero a las tecnologías de información y las redes de comunicaciones
que, “de extremo a extremo” y capa por capa, siguen un diseño constituido por no
más de un puñado de protocolos. Internet y la Web han sido construidos a partir de
documentos que proponen métodos estandarizados para transmitir información,
describir cómo presentar esa información y asignar nombres a las computadoras y
los documentos. Como todos estamos de acuerdo en utilizar esos métodos, y como
cualquiera puede hacer uso de ellos sin pedir autorización, la red emerge y escala.
Desde esta perspectiva, los datos no son un “cuarto paradigma” sino una “cuarta
capa de red” (encima de Ethernet, tcp /ip y la Web [4]) que interopera, de arriba abajo,
con las otras capas. Creo que esta visión captura la naturaleza del método científico un
poco mejor que el concepto del cambio de paradigma, con su naturaleza destructiva.
Los datos son el resultado de adelantos graduales en tecnologías que prestan ayuda
al empirismo. Proveen información a la teoría, impulsan y validan las simulaciones,
y se sirven mejor de una comunicación estandarizada y bidireccional con esas capas
de la red de conocimiento.
Para decirlo llanamente: el paradigma que debe ser demolido es la idea de que
nosotros como científicos somos individuos que operan fuera de una red. Ahora bien,
si esta metáfora es aceptable, tiene dos enseñanzas para este esfuerzo de aplicar el
diseño de red a la comunicación académica en la capa intensiva en datos.
La primera enseñanza, sintetizada perfectamente por David Isenberg, es que in-

ternet “deriva su cualidad disruptiva de una propiedad muy particular: es pública” [5].
Es pública en varios sentidos. Las especificaciones estándar que definen internet son
ellas mismas abiertas y públicas: disponibles libremente para su lectura, descarga
y copia, así como para la creación de trabajos derivados de ellas. Son abiertas en
términos de propiedad intelectual. Esas especificaciones pueden ser adoptadas por
todo aquel que quiera hacer mejoras o ampliaciones, pero su valor radica en el hecho
de que mucha gente las utiliza, no en las mejoras que puedan hacerse de manera pri-
vada. Como señala Isenberg, esto permite que ocurra una serie de “milagros”: la red
crece sin un amo, nos permite innovar sin pedir autorización, y descubre y alimenta
mercados (piénsese en el correo electrónico, los mensajes instantáneos, las redes
sociales y hasta la pornografía). Cambiar la naturaleza pública de internet amenaza
su propia existencia. Esto no es obvio para aquellos de nosotros que crecimos en un
mundo de bienes económicos en competencia y de teoría económica tradicional,
para los cuales parece imposible la existencia de Wikipedia, ya no digamos el que
haya hecho a un lado a la Enciclopedia Británica.
Pero como diría Galileo: “Y sin embargo, se mueve” [6]. Wikipedia existe, y la
red —una alucinación consensual definida por un conjunto de llanas Peticiones de
Comentarios*— transporta gratuitamente las videollamadas entre mi familia en
Brasil y yo. Es un motor para la innovación que no se parece a nada que hayamos
visto. Y de la red podemos extraer la enseñanza de que en el diseño las nuevas capas
relacionadas con datos debería estar construida la noción de carácter público —es
decir, de estándares que nos permiten colaborar abiertamente y transferir los efec-
tos de red, que conocemos tan bien a partir de la enorme colección de documentos
que es la Web, hacia las colecciones masivas de datos que tan fácilmente podemos
recopilar—.
La segunda enseñanza viene de otro mundo abierto, el del software libre. El
software construido sobre el modelo de pequeñas contribuciones dispersas, reuni-
das por medio de la estandarización técnica y legal, era otra imposibilidad teórica
sujeta a un verdadero cambio de paradigma kuhniano por la realidad de internet.
La capacidad ubicua para la comunicación, combinada con el bajo costo de adqui-
rir herramientas de programación y la aplicación visionaria de licencias públicas
de propiedad, tuvieron el efecto más extraño: crearon software que funcionaba y
podía escalar. La principal lección es que podemos aprovechar el poder de millones
* En inglés, Requests for Comments. Son memorandos técnicos que conforman la documentación estándar sobre las
tecnologías en las que se basa internet: especificaciones técnicas, protocolos de comunicación, procedimientos, etc.,
así como recomendaciones y opiniones diversas. (N. del T.)

de mentes si estandarizamos, y en muchos casos los productos así creados pueden
desempeñarse mejor que los construidos en entornos centralizados tradicionales.
(Un buen ejemplo es el servidor web Apache, que ha sido el software para servidor
más popular en internet desde 1996.)
Creative Commons aplicó estas enseñanzas a las licencias, y creó un conjunto es-
tándar de ellas para productos culturales. A su vez, éstas crecieron exponencialmente
hasta dar cobertura a cientos de millones de objetos digitales en la red. Las licencias
abiertas tienen notables beneficios: permiten que el tipo de interoperabilidad que
tiene lugar en las redes tecnológicas (y con costos de transacción cercanos a cero)
se aplique a escala masiva a los derechos asociados con objetos digitales, como las
canciones, las fotografías e incluso la información científica.
De todo esto, los incentivos son la parte más difícil de comprender para la teoría
económica tradicional. De nuevo, éste es un ámbito donde de hecho está ocurriendo
un cambio de paradigma kuhniano: la vieja teoría no podía concebir un mundo en el
que la gente trabajara gratis, pero la nueva realidad demuestra que eso ocurre. De ma-
nera provocadora, Eben Moglen escribió en 1999 que la colaboración en internet es
equiparable a la inducción eléctrica: una propiedad emergente de la red que no está
relacionada con los incentivos que pueda tener cualquier colaborador particular.
Preguntarnos por qué hay incentivos para el desarrollo colaborativo de software es
como preguntarnos qué motiva a los electrones a desplazarse en una corriente a lo
largo de un cable. Lo que más bien habría que preguntar es cuál es la resistencia en el
cable, o en la red, a la propiedad emergente. Después de diez años, siguen resonando
los corolarios metafóricos de Moglen a la ley de Faraday y a la ley de Ohm.1
Hay mucha resistencia en la red a una capa intensiva en datos. Y de hecho tiene
mucho menos que ver con cuestiones de propiedad intelectual que con software
(aunque la intensidad de campo del derecho de autor que opone resistencia a la
transformación de la literatura arbitrada es muy fuerte y está obstaculizando acti-
vamente la “revolución Web” en ese terreno de la comunicación académica). En el
caso de los datos, algunos problemas provienen de los derechos de autor,2 pero la
resistencia también tiene muchos otros orígenes: es difícil anotar y reutilizar datos,
1
“El corolario metafórico de Moglen a la ley de Faraday afirma que si uno envuelve a cada habitante del planeta en
internet y gira el planeta, el software fluye en la red. Es una propiedad emergente de mentes humanas interconecta-
das el crear cosas para el disfrute mutuo y para superar su desagradable sentimiento de soledad. La única pregunta
es: ¿cuál es la resistencia en la red? El corolario metafórico de Moglen a la ley de Ohm enuncia que la resistencia en
la red es directamente proporcional a la intensidad de campo del ‘sistema de la propiedad intelectual’ ” [7].
2
En términos de propiedad intelectual, los datos reciben tratamientos muy desiguales en distintas partes del mundo,
lo que causa confusión y hace que los esquemas de licenciamiento internacional sean muy complejos y difíciles de
entender [8].

es difícil enviar archivos muy voluminosos, es difícil combinar datos que no fueron
generados para su recombinación, etc. Así, para quienes no los generaron, los datos
tienen una vida media muy corta. Esta resistencia se origina con el paradigma del
científico que trabaja de manera individual, no con los paradigmas del empirismo,
la teoría o la simulación.
Por tanto, propongo que nuestro enfoque se inspire en Moglen y que resistamos
a la resistencia. Necesitamos inversión en la anotación y la curación, en la capacidad
de almacenar y entregar datos, y en la visualización y la analítica compartidas. Ne-
cesitamos estándares abiertos para compartir y exponer los datos. Necesitamos las
Peticiones de Comentarios de la capa de datos. Pero, sobre todo, necesitamos enseñar
a los científicos y académicos a trabajar en esta nueva capa de datos. Mientras sigamos
practicando una cultura de la enseñanza basada en gremios microespecializados,
la estructura social de la ciencia seguirá presentando una gran resistencia a la capa
de los datos.
Tenemos que pensar en nosotros como nodos conectados que deben transmitir
datos, probar teorías y utilizar las simulaciones de otros. Y dado que todas las gráficas
que registran capacidades de almacenamiento de datos están creciendo de manera
explosiva, necesitamos multiplicar nuestra capacidad de utilizar esos datos, y lo
necesitamos con urgencia. Debemos ponernos en red nosotros mismos y nuestro
conocimiento. Nada de lo que como seres humanos hemos diseñado ha mostrado la
capacidad de crecer tan rápido como una red abierta.
Como todas las metáforas, la de la red tiene sus límites. Es más difícil poner en
red el conocimiento que poner en red documentos. Es más fácil que la colaboración
emergente se dé en el ámbito del software porque las herramientas son baratas y
ubicuas, lo que no ocurre con la física de alto rendimiento o la biología molecular.
Algunas cosas que hacen grandiosa a la Web no funcionan tan bien en el caso de la
ciencia y la investigación académica, porque la idea de asignar puntuaciones con base
en la convergencia de opiniones sólo permite localizar el material que representa
un consenso anodino y no el material más interesante que se halla en la periferia.
Sin embargo, existe muy poco en términos de alternativas al enfoque de las redes.
El diluvio de datos es real, y no está perdiendo impulso. Podemos medir más, y más
rápido, que nunca antes. Podemos hacerlo de modo masivamente paralelo. Y nuestra
capacidad cerebral está fija en un cerebro por persona. Tenemos que trabajar juntos
si hemos de seguir el paso, y las redes son la mejor herramienta de colaboración que
hayamos construido como cultura. Eso significa que nuestra estrategia en cuanto a
los datos debe ser tan abierta como los protocolos que conectan a las computadoras

y los documentos. Es la única manera en que podemos alcanzar la capacidad de
crecimiento que necesitamos.
Hay otro afortunado beneficio de este enfoque abierto. Tenemos nuestras visiones
del mundo y nuestros paradigmas, nuestras opiniones y nuestros argumentos. Está
en nuestra naturaleza pensar que estamos en lo correcto. Pero podríamos estar
equivocados, y es un hecho que nunca estamos completamente en lo correcto. Codi-
ficar nuestra visión actual del mundo en un sistema abierto significaría que los que
vengan después podrán construir sobre lo hecho por nosotros, de la misma manera
en que nosotros construimos sobre el empirismo, la teoría y la simulación, mientras
que codificar esa visión en un sistema cerrado significará que lo que edifiquemos
tendrá que ser destruido para poder mejorarlo. Una capa abierta de datos sobre la
red sería un gentil obsequio para los científicos que seguirán nuestros pasos hacia el
próximo paradigma, un epílogo de buen diseño que será recordado como un cimiento
sólido para la próxima evolución del método científico.
REFERENCIAS
[1] T. S. Kuhn, The Structure of Scientific Revolutions, Chicago, University of Chicago Press, 1996.
Edición en español: La estructura de las revoluciones científicas, México, Fondo de Cultura
Económica, 2013.
[2] G. Bell, T. Hey y A. Szalay, “Beyond the Data Deluge”, Science, vol. 323, 6 de marzo de 2009,
pp. 1297-1298, doi: 10.1126/science.1170411.
[3] J. Gray y A. Szalay, “eScience: A Transformed Scientific Method”, presentación ante el Computer
Science and Technology Board del National Research Council, Mountain View, California,
11 de enero de 2007. (Transcripción editada en este volumen.)
[4] Joi Ito, presentación en ETech, San Jose, California, el 11 de marzo de 2009.
[5] D. Isenberg , “Broadband without Internet ain’t worth squat”, presentación en la Broadband
Properties Summit, http://isen.com/blog/2009/04/broadband-without-internet-ain-worth.html
(visitada el 30 de abril de 2009).
[6] Wikipedia, s.v. “An yet it moves”, http://en.wikipedia.org/wiki/E_pur_si_muove (visitada el 30 de
abril de 2009).
[7] E. Moglen, “Anarchism Triumphant: Free Software and the Death of Copyright”, First Monday,
vol. 4, núm. 8, agosto de 1999, http://emoglen.law.columbia.edu/my_pubs/nospeech.html.
[8] Protocolo del proyecto Science Commons Protocol sobre datos de acceso abierto,
http://sciencecommons.org/projects/publishing/open-access-data-protocol.

De la Web 2.0 TIMO HAN NAY

Nature Publishing Group
a la base de datos global
U
no de los más agudos analistas de la Web, Clay
Shirky, lo expresó muy bien. Durante su presentación
sobre las “Las lecciones de Napster” en el congreso
Peer-to-Peer de O’Reilly en 2001, invitó al auditorio a
considerar la tristemente célebre predicción del creador de IBM,
Thomas Watson, de que el mercado mundial de las computadoras
se estancaría en alrededor de cinco unidades [1]. Seguramente al-
gunos de los asistentes ese día llevaban consigo un número mayor
de computadoras, ya fuera sobre las rodillas, en las muñecas, en
sus bolsillos o en sus mochilas; y esto sin considerar todas las otras
computadoras que estaban en la sala: dentro del proyector, el siste-
ma de sonido, los acondicionadores de aire, etc. Pero sólo cuando
disminuyeron las risas dio su tiro de gracia: “Ahora sabemos que ese
número era incorrecto —dijo Shirky—. Watson se pasó por cuatro.”
El público estalló en carcajadas.
A lo que Shirky se refería, por supuesto, era que la característica
que define la era de la Web no es tanto la ubicuidad de los dispositivos
de cómputo (por más revolucionario que eso sea), sino su interconec-
tividad. Nos acercamos rápidamente a una época en la que cualquier
dispositivo que no esté conectado a internet difícilmente parecerá
una computadora. La red, como suele decirse, es la computadora.
Este hecho —junto con la observación relacionada de que la
plataforma computacional dominante de nuestros días no es Unix,

Windows o Mac OS, sino la Web misma— hizo que Tim O’Reilly desarrollara la vi-
sión de lo que alguna vez llamó “el sistema operativo de internet” [2], que evolucionó
hasta convertirse en un meme hoy conocido en todo el mundo como “Web 2.0” [3].
Empacadas en ese conciso (y ahora, desafortunadamente, sobreexplotado) eslo-
gan hay dos ideas importantes. Primero, la Web 2.0 sirvió para recordar que, pese
al colapso de las “punto com” de 2001, la Web estaba —y todavía está— cambiando
al mundo de forma decisiva. Segundo, incorporó una serie de temas relacionados
con mejores prácticas (o “patrones de diseño y modelos de negocios”) para capturar
y desarrollar al máximo este potencial. Esos temas incluían:
• Los efectos de red y las “arquitecturas de participación”
• “La larga cola”
• El software como servicio
• Las tecnologías de punto a punto (peer-to-peer)
• Los sistemas de confianza y los datos emergentes
• Las api abiertas y las aplicaciones de web híbridas (mashups)
• ajax
• El etiquetado y las folcsonomías*
• “Los datos como el nuevo ‘Intel Inside’ ”
De éstas, la primera ha sido ampliamente considerada como la más significativa.
La Web es más poderosa que las plataformas que la precedieron porque es una red
abierta y es particularmente apta para aplicaciones que posibilitan la colaboración.
En consecuencia, las aplicaciones más exitosas de la Web utilizan la red sobre la que
están construidas para producir sus propios efectos de red, creando en ocasiones
un impulso en apariencia imparable. Es así como puede surgir una economía com-
pletamente nueva en la forma de eBay; como el diminuto Craigslist y la Wikipedia
pueden competir con el poder de los medios dominantes y de las editoriales de obras
de referencia, y como Google puede producir excelentes resultados de búsqueda al
reclutar furtivamente a todo creador de un enlace web para su causa.
* La folcsonomía o indexación social es un sistema de clasificación y anotación de contenidos mediante la asigna-
ción colaborativa de etiquetas. El término proviene del inglés folksonomy, un acrónimo a partir de folk (‘pueblo’,
‘gente’) y taxonomy (‘taxonomía’, ‘clasificación’). La finalidad de esta práctica es incrementar los puntos de acceso a
un objeto mediante términos clave libremente elegidos para facilitar su localización. (N. del T.)

Si la visión de la Web 2.0 subraya la naturaleza global y colaborativa de este nuevo
medio, ¿cómo se está utilizando en la que es quizá la más global y colaborativa de
todas las empresas humanas: la investigación científica? Es quizá irónico, en especial
dados los orígenes de la Web en el cern [4], que los científicos hayan adoptado con
cierta lentitud los enfoques que permiten aprovechar cabalmente la Web, al menos
en sus vidas profesionales. El uso de los blogs, por ejemplo, no ha despegado entre
ellos de la misma manera que entre los tecnólogos, los analistas políticos, los econo-
mistas y hasta los matemáticos. Por añadidura, los entornos de colaboración como
OpenWetWare1 y Nature Network2 todavía están lejos de alcanzar el estatus de herra-
mientas estándar entre los investigadores. Desde hace mucho, los físicos aprendieron
a compartir entre sí sus hallazgos utilizando el servidor arXiv de prepublicaciones,3
pero sólo porque reproducía el esquema que ya seguían con el correo tradicional y el
correo electrónico. En cambio, los investigadores en ciencias biológicas y ciencias de
la Tierra han tardado más en adoptar servicios similares, como Nature Precedings.4
Esto es así porque las barreras que impiden la adopción plena de tales medios
no son sólo (o incluso principalmente) de orden técnico, sino también psicológico y
social. Es muy difícil abandonar viejos hábitos, y los sistemas de incentivos original-
mente creados para estimular el intercambio de información por medio de revistas
científicas ahora pueden tener el efecto adverso de desalentar actividades similares
por otras rutas.
Sin embargo, aun si estos nuevos enfoques se desarrollan más lentamente de lo que
algunos quisiéramos, de todos modos van en aumento. Y aunque es difícil predecir
cuándo se dará el cambio, las tendencias de largo plazo en la investigación científica
son inequívocas: mayor especialización, intercambio de información más abierto y
expedito, reducción en el tamaño de la “unidad mínima publicable”, indicadores de
productividad que miran más allá de los registros de publicación en revistas cientí-
ficas, desdibujamiento de la frontera que separa las revistas de las bases de datos, y
reinvención de las funciones de quienes publican y editan. Pero lo más importante
—y que surge de esta adopción gradual pero inevitable de la tecnología de la infor-
mación— es que veremos un incremento en la velocidad con que se hacen nuevos
descubrimientos y se llevan a la práctica. Los laboratorios del futuro, en efecto,
trabajarán al ritmo de un tipo auténticamente nuevo de ciencia, impulsada por el
cómputo, intercontectada y habilitada por la Web.
1
http://openwetware.org
2
http://network.nature.com
3
www.arxiv.org
4
http://precedings.nature.com

Consideremos, por ejemplo, la química. Ese abuelo de todos los sitios colaborativos
que es Wikipedia5 reúne actualmente una gran cantidad de información científica
de alta calidad, proporcionada en su mayoría por los mismos científicos. Esto incluye
información abundante, bien organizada y vinculada acerca de miles de compuestos
químicos. Mientras tanto, recursos más especializados surgidos de iniciativas tanto
públicas como privadas —en especial PubChem6 y ChemSpider 7— están creciendo
en contenido, contribuciones y utilización a pesar de que la química ha sido un campo
más bien restringido por la propiedad intelectual (o quizá en parte por eso mismo,
pero esto es materia de otro texto).
Y ya que se habla de propiedad intelectual, consideremos el descubrimiento de
fármacos. InnoCentive,8 una compañía derivada de Eli Lilly, ha marcado el camino
con un modelo de innovación abierto y potenciado por la Web en el que las organi-
zaciones extienden su campo de acción más allá de sus muros para superar retos de
investigación. Varias otras compañías farmacéuticas con las que he hablado en los
meses recientes también han empezado a recurrir a estrategias semejantes, no como
actos de buena voluntad en primera instancia, sino en aras de promover sus metas
corporativas, tanto científicas como comerciales.
En la industria y en la academia, una de las fuerzas que más impulsan la adop-
ción de esquemas de colaboración habilitados por la tecnología es la pura y simple
necesidad. Ya no son los tiempos en los que un investigador solitario podía hacer
una contribución significativa a la biología molecular, por ejemplo, sin tener acceso
a los datos, las destrezas o los análisis de otros. Como resultado, en las dos últimas
décadas, muchos campos de investigación, en especial en la biología, han evolucio-
nado de un modelo “artesanal” (un pequeño equipo de investigadores, en un mismo
lugar, que hace todo, desde recolectar los datos hasta escribir el artículo) a uno más
“industrial” (con equipos numerosos y dispersos de especialistas que colaboran a
través del tiempo y el espacio en pos de un fin común).
En el proceso, están recabando cantidades inmensas de datos, y cada etapa de
avance viene acompañada de incrementos de volumen que no son lineales, sino ex-
ponenciales. La secuenciación de genes, por ejemplo, dio paso hace mucho tiempo
a la de genomas completos, y ahora a la de especies [5] y ecosistemas enteros [6].
De manera similar, los datos unidimensionales sobre secuencias de proteínas han
5
http://wikipedia.org
6
http://pubchem.ncbi.nlm.nih.gov
7
www.chemspider.com
8
www.innocentive.com

cedido su sitio a los de estructuras proteínicas tridimensionales, y más recientemente
a conjuntos de datos multidimensionales sobre interacciones proteínicas.
Lo anterior conlleva cambios que no son sólo cuantitativos, sino también cuali-
tativos. Chris Anderson ha sido criticado por su artículo de Wired donde propone
que la acumulación y el análisis de esas cantidades colosales de datos significan el
fin de la ciencia como la conocemos [7], pero seguramente acierta en su afirmación
más moderada (pero de todos modos muy importante) de que llega un punto en
este proceso en el que “más es diferente”. Así como un algoritmo de recuperación
de información como el PageRank de Google [8] necesitó que la Web alcanzara una
determinada escala para poder funcionar, de la misma manera, la simple escala de
los conjuntos de datos que estamos acumulando inducirá nuevas concepciones sobre
el descubrimiento científico.
Pero materializar este valor no será fácil. Todos los implicados, comenzando por
los investigadores y los editores, deberán esforzarse para hacer más útiles los datos.
Ello implicará adoptar una gama de estrategias, desde las relativamente formales,
como la definición clara de formatos estándar para los datos y el uso de identifica-
dores y ontologías globalmente acordados, hasta las más flexibles, como el uso de
etiquetas (tags) de texto libre [9] y de microformatos html [10]. Éstas, junto con
otros procedimientos automatizados como la minería de textos [11], ayudarán a
proveer a cada elemento de información de un contexto respecto a todos los demás.
También permitirán reunir en un todo integrado dos dominios hasta ahora en gran
medida separados: el mundo textual y semiestructurado de las revistas científicas
y el mundo numérico y altamente estructurado de las bases de datos. En la medida
en que la información contenida en las revistas se vuelva más estructurada, y la que
reside en numerosas bases de datos sea más curada, y conforme estos dos dominios
establezcan lazos mutuos más fuertes, la diferencia entre ellos podría llegar a ser
tan difusa que pierda todo sentido.
Elaborar mejores estructuras de datos y anotaciones más completas implicará,
en buena medida, comenzar desde el origen: el laboratorio. En ciertos proyectos
y campos, estamos presenciando el uso de complejos sistemas de información de
laboratorio para organizar y manejar reactivos, experimentos y conjuntos de datos.
Cada vez más, veremos también que los apuntes de los investigadores pasarán del
papel a la pantalla en forma de cuadernos electrónicos de laboratorio, lo que permi-
tirá integrarlos mejor con el resto de la información que se esté generando. En áreas
de interés clínico, éstos se enlazarán con información y muestras médicas de los
pacientes. Y así, desde la mesa del laboratorio al artículo de investigación, y de ahí

a la clínica, de un hallazgo a otro, iremos uniendo los puntos conforme exploramos
terra incognita, estableciendo relaciones detalladas donde antes sólo teníamos unas
cuantas líneas toscas sobre un mapa en blanco.
El conocimiento científico —de hecho, todo el conocimiento humano— está
por definición conectado [12], y los vínculos son tan reveladores como los hechos
mismos. Por tanto, aunque la cantidad de datos crece de manera asombrosa frente
a nuestros ojos, no debemos desestimar un hecho aún más importante que exige
nuestra comprensión y apoyo: que la información misma se está volviendo más in-
terconectada. Con cada enlace, etiqueta o identificador, los datos en todo el mundo
se están reuniendo en una sola masa desbordante que producirá no sólo una única
computadora global, sino también una base de datos global. Como es propio de su
condición incipiente, será gigantesca, desordenada, inconsistente y confusa. Pero
será también de un valor incalculable, y un testimonio perdurable de nuestra especie
y de nuestro tiempo.
REFERENCIAS
[1] C. Shirky, “Lessons from Napster”, presentación en el congreso O’Reilly Peer-to-Peer, 15 de
febrero de 2001, www.openp2p.com/pub/a/p2p/2001/02/15/lessons.html.
[2] T. O’Reilly, “Inventing the Future”, 2002, www.oreillynet.com/pub/a/network/2002/04/09/
future.html.
[3] T. O’Reilly, “What Is Web 2.0”, 2005, www.oreillynet.com/pub/a/oreilly/tim/news/2005/09/30/
what-is-web-20.html.
[4] T. Berners-Lee, Weaving the Web, San Francisco, HarperOne, 1999.
[5] “International Consortium Announces the 1 000 Genomes Project”, www.genome.gov/26524516.
[6] J. C. Venter et al., “Environmental genome shotgun sequencing of the Sargasso Sea”, Science,
vol. 304, 2004, pp. 66-74, doi:10.1126/science.1093857.
[7] C. Anderson, “The End of Theory: The Data Deluge Makes the Scientific Method Obsolete”,
Wired, junio de 2008, www.wired.com/science/discoveries/magazine/16-07/pb_theory.
[8] S. Brin y L. Page, “The Anatomy of a Large-Scale Hypertextual Web Search Engine”, 1998,
http://ilpubs.stanford.edu:8090/361.
[9] http://en.wikipedia.org/wiki/Tag_(metadata)
[10] http://en.wikipedia.org/wiki/Microformat
[11] http://en.wikipedia.org/wiki/Text_mining
[12] E. O. Wilson, Consilience: The Unity of Knowledge, Nueva York: Knopf, 1998.

El camino por recorrer
CRAIG MUNDIE | Microsoft
E
l carácter multidisciplinario de los capítulos de este libro ofrece una
perspectiva única sobre el descubrimiento científico basado en datos, y brin-
da también un vistazo a un futuro prometedor. A medida que nos adentramos
en la segunda década del siglo xxi, nos enfrentamos a una extraordinaria
variedad de desafíos —asistencia sanitaria, educación, energía y medio ambiente,
acceso digital, ciberseguridad y privacidad, seguridad pública y mucho más—. Al
igual que los otros colaboradores de este libro, creo que estos desafíos pueden trans-
formarse en oportunidades con el apoyo de nuevos avances radicales en la ciencia
y la tecnología.
Como hizo notar Jim Gray, el primero, segundo y tercer paradigmas de la ciencia —el
empírico, el analítico y el de simulación, respectivamente— nos han conducido con
éxito hasta este punto en la historia. Además, no hay duda de que si continuamos traba-
jando con los paradigmas y las tecnologías existentes, seguiremos haciendo progresos
graduales. Pero si hemos de lograr avances drásticos, se requerirán nuevos enfoques.
Es necesario adherirnos al siguiente paradigma: el cuarto paradigma de la ciencia.
La visión de Jim de este paradigma exigía una nueva metodología científica enfo-
cada en el poder de la ciencia intensiva en datos. Hoy, esa visión se está convirtiendo
en realidad. Las tecnologías informáticas, con su conectividad omnipresente median-
te internet, ya apuntalan casi todos los estudios científicos. Estamos acumulando
cantidades de datos en forma digital que anteriormente eran inimaginables —datos
que contribuirán a desencadenar una profunda transformación en la investigación
y la comprensión científicas—. Al mismo tiempo, la computación está en la cúspide
de una ola de avances tecnológicos disruptivos —tales como la arquitectura multi-

núcleo, la computación de “cliente más nube”, las interfaces de usuario naturales y
la computación cuántica— que prometen revolucionar el descubrimiento científico.
La ciencia intensiva en datos promete hallazgos significativos a lo largo de un
amplio espectro. A medida que la Tierra cuente cada vez con una mayor instrumenta-
ción de sensores de banda ancha a bajo costo, alcanzaremos una mejor comprensión
de nuestro medio ambiente a través de un “macroscopio”, virtual y distribuido, del
planeta entero. Del mismo modo, el cielo nocturno se encuentra cada vez más cerca
gracias a la amplia disponibilidad de sistemas de banda ancha de visualización de
datos. Este círculo virtuoso de la tecnología informática y el acceso a datos ayudarán
a educar al público acerca de nuestro planeta y del universo en general, haciéndonos a
todos partícipes de la experiencia científica, a la vez que se crea conciencia del in-
menso beneficio que la ciencia nos aporta a todos.
En el ámbito de la asistencia sanitaria, el paso hacia la medicina basada en datos
también tendrá un efecto transformador. La capacidad para procesar computacional-
mente información genómica y proteómica será factible a escala personal, cambiando
fundamentalmente la forma en que se practica la medicina: los datos médicos estarán
fácilmente disponibles en tiempo real —monitoreados, evaluados y analizados res-
pecto a nuestras características únicas, lo que garantizará que los tratamientos sean
tan personales como nosotros somos particulares—. La analítica de datos a escala
masiva permitirá el rastreo en tiempo real de enfermedades y habilitará respuestas
específicamente dirigidas a pandemias potenciales. Nuestro “macroscopio” virtual
se puede utilizar ahora en nosotros mismos, así como en nuestro planeta. Y todos
estos avances ayudarán a la medicina a expandirse para atender las necesidades de
las más de cuatro mil millones de personas que hoy carecen incluso de la atención
más básica.
A medida que la computación se vuelva exponencialmente más poderosa, permi-
tirá interacciones más naturales con los científicos. Sistemas que sean capaces de
“comprender” y que posean mayor conciencia contextual proporcionarán un nivel
de asistencia proactiva que previamente sólo ayudantes humanos podían brindar.
Para los científicos, esto significará una mayor penetración teórica, descubrimien-
tos más fértiles y progresos más rápidos. Otro avance importante lo constituye el
surgimiento de servicios de megaescala que están alojados en la nube y que operan
en conjunción con todo tipo de máquinas cliente. Esta infraestructura permitirá la
creación de sistemas completamente nuevos de distribución de datos para los cien-
tíficos —ofreciéndoles nuevas formas de visualizar, analizar e interactuar con sus
datos, lo que a su vez facilitará la colaboración y la comunicación con los demás—.
242 EL CAMINO POR RECORRER

Esta infraestructura informática mejorada dará pie al surgimiento de la verdadera
biblioteca digital global, donde todo el ciclo de vida de la investigación académica
—desde su inicio hasta la publicación— se llevará a cabo en un ambiente electrónico
y estará disponible públicamente para todos. Durante el desarrollo de las ideas cien-
tíficas y su publicación subsecuente, los científicos podrán interactuar de manera
virtual unos con otros —compartiendo fuentes de datos, flujos de trabajo e investi-
gaciones—. Los lectores, a su vez, podrán navegar por el texto de una publicación y
ver fácilmente presentaciones relacionadas, imágenes de apoyo, video, audio, datos y
su analítica: todo en línea. La publicación científica se convertirá en una experiencia
interactiva en tiempo real en todo el mundo las 24 horas de los 7 días de la semana.
Me alienta ver a los científicos y a los informáticos trabajando conjuntamente para
abordar los grandes desafíos de nuestra época. Sus esfuerzos combinados afectarán
profunda y positivamente nuestro futuro.

El proyecto Well-formed.eigenfactor visualiza el flujo de información en la ciencia.
Surgió a partir de una colaboración entre el proyecto Eigenfactor (análisis de datos) y
Moritz Stefaner (visualización). Este diagrama muestra los vínculos bibliográficos
de la revista Nature. Puede encontrarse más información y visualizaciones en
http://well-formed.eigenfactor.org.
244
Conclusiones
TONY HEY, STEWART TANSLEY Y KRISTIN TOLLE | Microsoft Research
A
mediados de la década de 1990, Jim Gray había reconocido que los
nuevos desafíos de “grandes datos” (big data) para la tecnología de bases
de datos provendrían de la ciencia y no del comercio. También identi-
ficó los desafíos técnicos que tal ciencia intensiva en datos plantearía
a los científicos y el papel fundamental que las tecnologías de la información (ti)
y las ciencias de la computación podrían desempeñar para permitir futuros des-
cubrimientos científicos. El término “e-ciencia” fue acuñado en el año 2000 por
John Taylor, cuando era director general de los Consejos de Investigación del Reino
Unido. Taylor había reconocido el papel cada vez más importante que las ti debían
desempeñar en la investigación científica del siglo xxi, que sería intensiva en datos,
colaborativa y multidisciplinaria, y utilizó el término e-ciencia para referirse al
conjunto de herramientas y tecnologías necesarias para apoyar este tipo de inves-
tigación. En reconocimiento a la iniciativa de e-ciencia del Reino Unido, Jim Gray
bautizó a su grupo de investigación de Microsoft Research el Grupo e-ciencia, y se
dispuso a trabajar con los científicos para comprender sus problemas y determinar
qué herramientas necesitaban.
En su plática a la Comisión de Ciencias de la Computación y de Telecomunica-
ciones del Consejo Nacional de Investigación (nrc-cstb, por sus siglas en inglés) de
Estados Unidos en 2007, Jim profundizó sobre su visión de la ciencia intensiva en
datos y enumeró siete áreas clave para el trabajo de los organismos de financiamiento:
1. Fomentar el desarrollo de herramientas de software, así como el soporte para

estas herramientas.

2. Invertir en herramientas en todos los niveles de la pirámide de financiamiento.
3. Fomentar el desarrollo de sistemas de administración de información para
laboratorios (SAIL) genéricos.
4. Impulsar la investigación sobre la administración de datos científicos, el análi-
sis y visualización de datos, y los nuevos algoritmos y herramientas.
5. Crear bibliotecas digitales que asistan a otras ciencias de la misma manera en
que la National Library of Medicine lo hace con las ciencias de la vida.
6. Fomentar el desarrollo de nuevas herramientas de creación de documentos y
nuevos modelos de publicación.
7. Fomentar el desarrollo de bibliotecas digitales de datos que contengan datos cientí-
ficos (no sólo metadatos) y permitan su integración con la literatura publicada.
Creemos que estos desafíos para los organismos de financiamiento son igualmente
importantes hoy en día; por eso hemos presentado los capítulos de este libro junto
con una versión de la conferencia de Jim ante la nrc-cstb, construida a partir de una
transcripción y de las diapositivas que utilizó. Es también aleccionador ver que el
impulso y el avance de la comunidad de e-ciencia continúan desde la publicación del
informe Towards 2020 Science, publicado por nuestros colegas en Microsoft Research,
Cambridge, Reino Unido.1 Ese informe se basó en un taller llevado a cabo en julio de
2005, al que asistieron algunos de los autores de este libro, y el cual posteriormente
inspiró el número especial de Nature de marzo de 2006, “2020 Computing”.2
En el corazón de la computación científica en esta era del cuarto paradigma se
encuentra la necesidad de que los científicos e informáticos trabajen en colaboración
—no en una relación de superior-subordinado, sino de igual a igual—, de manera
que ambas comunidades estimulen, permitan y enriquezcan nuestra capacidad de
hacer descubrimientos que den lugar a cambios productivos y positivos para nuestro
mundo. En este libro hemos destacado la salud y el medio ambiente, sólo dos áreas en
las que la humanidad enfrenta algunos de sus mayores desafíos. Para lograr progresos
significativos, la comunidad de investigación debe apoyarse en una ciberinfraestruc-
tura adecuada, que comprenda no sólo el hardware de los recursos informáticos,
las centrales de datos y las redes de alta velocidad, sino también herramientas de
software y middleware. Jim también previó el surgimiento de una biblioteca digital
mundial de investigación que contuviese tanto la literatura como los datos de las
1
http://research.microsoft.com/en-us/um/cambridge/projects/towards2020science/background_overview.htm
2
Nature, vol. 440, núm. 7083, 23 de marzo de 2006, pp. 383-580.
246 CONCLUSIONES
investigaciones. No sólo estamos presenciando la maduración de la ciencia intensiva
en datos, sino que también estamos en medio de una revolución en la comunicación
académica, que viene impulsada no sólo por tecnologías como el internet, la Web
2.0 y las anotaciones semánticas, sino también por el movimiento mundial hacia el
acceso abierto y la ciencia abierta.
Este libro es realmente fruto del afecto. Todo comenzó con el deseo de Jim de
habilitar la investigación científica mediante las tecnologías de la informática —tras-
cendiendo las fronteras entre las disciplinas destacadas en esta obra y más allá—. Ve-
mos este libro como una continuación del trabajo de Jim con la comunidad científica.
De manera deliberada, solicitamos a nuestros colaboradores científicos que salieran
de sus zonas de confort profesionales y compartieran sus visiones acerca del futuro
de sus campos de investigación en un horizonte de 5 a 10 años. Les pedimos que
escribieran sus contribuciones no sólo en forma de ensayo, lo que significa a menudo
un desafío mayor que escribir un artículo de investigación puramente técnico, sino
muchas veces en colaboración con un científico de la computación. Agradecemos
a todos nuestros colaboradores haberse puesto a la altura de este reto, y esperamos
que ellos (¡y usted!) esten satisfechos con el resultado.
Hace varias décadas, el trabajo científico estaba rigurosamente segmentado en
disciplinas independientes. Actualmente, como lo evidencian los capítulos de este
libro, se están logrando avances significativos como resultado de la colaboración
multidisciplinaria, lo cual seguirá ocurriendo en el futuro. En los ensayos de este libro
se presenta una panorámica actual de algunas de las reflexiones más importantes
sobre la emocionante colaboración entre la ciencia y la informática —una revolu-
ción de datos—, lo cual hace que esta información sea oportuna y potencialmente
efímera—. Sin embargo, es nuestra ferviente esperanza y creencia que el mensaje de
fondo presentado en el conjunto de los capítulos durará muchos años.
Por último, presentamos este libro como un llamado a la acción para toda la
comunidad científica, los gobiernos, los organismos de financiamiento y el público.
Instamos a la colaboración con miras al objetivo común de una mejor vida para toda
la humanidad. Nos encontramos en una fase en la que necesitamos utilizar nuestro
conocimiento científico para lograr objetivos específicos en aras de la supervivencia
de la humanidad. Está claro que para lograr este objetivo necesitamos mucho de
expertos con profundos conocimientos científicos que trabajen en estrecha colabo-
ración con aquellos que tienen una amplia experiencia en el terreno tecnológico.
Esta situación se parece a la que prevalecía en la década de 1940, cuando los
físicos estadounidenses y europeos respondieron a un llamado urgente de los go-

biernos para colaborar en el Proyecto Manhattan. Hoy en día, los científicos deben
participar a escala global para resolver los principales problemas ambientales y de
salud que enfrenta la humanidad en una carrera que es quizás aún más urgente.
Irónicamente, es probable que la física nuclear desarrollada en el Proyecto Manhattan
proporcione parte de la respuesta al problema de abastecer al mundo con energía
libre de emisiones de carbono.
Tony Hey, Kristin Tolle y

Stewart Tansley
Microsoft External Research,
http://research.microsoft.com/
collaboration
248 CONCLUSIONES
S I G U I E N T E S PASOS
Esperamos que este libro lo inspire a actuar así como a emprender un estu-
dio más profundo. Por nuestra parte, en Microsoft Research estamos convirtiendo
nuestras palabras en acciones. Por ejemplo, hemos reformulado las metas de nuestra
organización hermana, External Research, para enfocarla en los temas presentados
en esta obra.
Estos temas incluyen investigaciones en curso en campos de estudio dinámicos,
así que es difícil seguir y predecir la futura evolución de las ideas presentadas en
este libro; sin embargo, he aquí algunas rutas sugeridas para seguir participando y
unirse a la discusión:
• Si es usted un científico, comente con un especialista en ciencias de la com-
putación sobre los retos que enfrenta, y viceversa.
• Si es un estudiante, asista a cursos tanto de ciencias como de disciplinas in-
formáticas.
• Si es usted un profesor, mentor o padre de familia, fomente entre quienes tenga
a su cuidado el estudio interdisciplinario, además de ofrecerles la oportunidad
de especializarse.
• Establezca contacto con los editores y autores de este libro mediante los canales
académicos a su alcance.
• Manténgase al día siguiendo nuestras colaboraciones sobre investigación en
e-ciencia a través del sitio http://research.microsoft.com.
• Participe activamente en la comunidad de e-ciencia. En el sitio Web Fourth
Paradigm, cuya dirección aparece en seguida, sugerimos materiales útiles.
www.fourthparadigm.org

AG R AD ECI M I E N TOS
Los editores expresan su más sincero agradecimiento a todos los colaboradores

de esta obra por compartir sus visiones sobre el cuarto paradigma. Agradecemos
también a nuestras familias y colegas por su apoyo durante el extenuante proceso
editorial. El excepcional esfuerzo del personal del proyecto —entre ellos, Ina Chang,
Marian Wachter, Celeste Ericsson y Dean Katz— cuenta asimismo con nuestro
reconocimiento y gratitud. Y, por supuesto, agradecemos a Jim Gray por inspirarnos.
COLABORADORES
Mark R. Abbott John Dickason
Oregon State University Private practice
Dennis D. Baldocchi Lee Dirks
University of California, Berkeley Microsoft Research
Roger S. Barga Jeff Dozier
Microsoft Research University of California, Santa Barbara
Mathias Bavay Dan Fay
WSL Institute for Snow and Avalanche Microsoft Research
Research SLF Craig Feied
Gordon Bell Microsoft
Microsoft Research Anne Fitzgerald
Chris Bishop Queensland University of Technology
Microsoft Research Brian Fitzgerald
José A. Blakeley Queensland University of Technology
Microsoft Peter Fox
Iain Buchan Rensselaer Polytechnic
University of Manchester Institute
Graham Cameron William B. Gail
EMBL-European Bioinformatics Institute Microsoft
Luca Cardelli Dennis Gannon
Microsoft Research Microsoft Research
Michael F. Cohen Michael Gillam
Microsoft Research Microsoft
Nicholas Dawes Paul Ginsparg
WSL Institute for Snow and Avalanche Cornell University
Research SLF Carole Goble
Del DeHart University of Manchester
Robertson Research Institute Alyssa A. Goodman
John R. Delaney Harvard University
University of Washington Daron Green
David De Roure Microsoft Research
University of Southampton
250 AGRADECIMIENTOS
Jonathan Handler Marc Parlange
Microsoft École Polytechnique Fédérale de Lausanne
Timo Hannay Valerio Pascucci
Nature Publishing Group University of Utah
Charles Hansen Hanspeter Pfister
University of Utah Harvard University
David Heckerman Catherine Plaisant
Microsoft Research University of Maryland
James Hendler Corrado Priami
Rensselaer Polytechnic Institute Microsoft Research-Centro de Biología
Eric Horvitz Computacional y de Sistemas de la Univer-
Microsoft Research sidad de Trento; Universidad de Trento
James R. Hunt Dan Reed
University of California, Berkeley, y el Microsoft Research
Berkeley Water Center R. Clay Reid
Chris R. Johnson Harvard University
University of Utah Joel Robertson
William Kristan Robertson Research Institute
University of California, San Diego Ben Shneiderman
Carl Lagoze University of Maryland
Cornell University Claudio T. Silva
James Larus University of Utah
Microsoft Research Mark Smith
Michael Lehning University of Maryland
WSL Institute for Snow and Avalanche Christopher Southan
Research SLF EMBL-European Bioinformatics Institute
Jeff W. Lichtman Alexander S. Szalay
Harvard University The Johns Hopkins University
Clifford Lynch Kristin Tolle
Coalition for Networked Information Microsoft Research
Simon Mercer Herbert Van de Sompel
Microsoft Research Los Alamos National Laboratory
Eliza Moody Catharine van Ingen
Microsoft Microsoft Research
Craig Mundie John Wilbanks
Microsoft Creative Commons
Suman Nath John Winn
Microsoft Research Microsoft Research
Kylie Pappalardo Curtis G. Wong
Queensland University of Technology Microsoft Research
Savas Parastatidis Feng Zhao
Microsoft Microsoft Research

Algunas palabras sobre Jim…
E
l doctor James Nicholas —“Jim”— Gray, ganador del premio Turing y cientí-
fico computacional estadounidense (nacido en 1944 y desaparecido en el mar el
28 de enero de 2007), fue estimado por su trabajo innovador como programador,
experto en bases de datos, ingeniero e investigador. Obtuvo su grado de doctor
de la Universidad de California, Berkeley, en 1969. Fue la primera persona en obtener
un doctorado en ciencias de la computación en esa institución. Trabajó en varias de las
principales empresas de alta tecnología, incluyendo Bell Labs, ibm Research, Tandem,
Digital Equipment Corporation y, finalmente, Microsoft Research en Silicon Valley.
Jim se unió a Microsoft en 1995 como investigador principal, convirtiéndose fi-
nalmente en miembro técnico y quedando a cargo de la administración del Bay Area
Research Center (barc). Sus principales intereses de investigación se centraron en
grandes bases de datos y sistemas de procesamiento de transacciones. Desde siempre
estuvo interesado en la computación escalable —construía superservidores y sistemas
de grupos de trabajo en red a partir de software y hardware genéricos—. Su trabajo a
partir de 2002 se enfocó en la e-ciencia: el uso de computadoras para resolver problemas
científicos intensivos en datos. Ello culminó en su visión (junto con Alex Szalay) de un
“cuarto paradigma” de la ciencia, es decir, una evolución lógica de las fases históricas
previas, dominadas por la experimentación, la teoría y la simulación respectivamente.
Jim fue pionero en la tecnología de bases de datos y uno de los primeros en desa-
rrollar la tecnología que se utiliza en las transacciones computarizadas. Su trabajo
ayudó a desarrollar el e-comercio, la venta de boletos en línea, los cajeros automá-
ticos y las bases de datos profundas, que han posibilitado el éxito de los modernos
buscadores de internet de alta calidad.

En 1998 recibió el Premio Alan Mathison Turing de la Association for Computing
Machinery (acm), el reconocimiento de mayor prestigio en ciencias de la computa-
ción, por “contribuciones fundamentales a la investigación sobre bases de datos y
procesamiento de transacciones, así como por su liderazgo técnico en implementa-
ción de sistemas”. Fue nombrado miembro del Institute of Electrical and Electronics
Engineers (ieee) en 1982, del que a su vez recibió el Premio Charles Babbage.
Su trabajo más reciente en la tecnología de bases de datos ha sido utilizado por
oceanógrafos, geólogos y astrónomos. Entre sus logros en Microsoft están el sitio
Web TerraServer, en colaboración con el Geological Survey de Estados Unidos, lo
que allanó el camino para los modernos servicios de consulta de mapas en internet,
y su trabajo sobre el Sloan Digital Sky Survey en conjunción con el Astrophysical
Research Consortium (arc) y otros. El software WorldWide Telescope de Microsoft,
basado en este último, está dedicado a Jim.
“Jim siempre extendió la mano de dos maneras: técnica y personalmente”, dice
David Vaskevitch, vicepresidente corporativo principal de Microsoft y director técnico
de la división Platform Technology & Strategy. “Técnicamente siempre estaba allí,
en primer lugar, señalando cuán diferente sería el futuro del presente”.
“Mucha gente en nuestra industria, incluyéndome, debemos muchísimo a Jim por
su intelecto, su visión y su voluntad altruista para ser maestro y mentor”, dice Mike
Olson, vicepresidente de Embedded Technologies en Oracle Corporation. Añade
Shankar Sastry, decano de la Facultad de Ingeniería de la Universidad de California
en Berkeley: “Jim fue un verdadero visionario y líder en este campo”.
“El legado de Jim se mide no sólo en sus logros técnicos, sino también en el número
de personas en todo el mundo cuyo trabajo inspiró”, dice Rick Rashid, vicepresidente
corporativo principal de Microsoft Research.
El presidente de Microsoft, Bill Gates, resume el legado de Jim de esta manera: “El
impacto de sus ideas sigue orientando a la gente a pensar de una manera nueva acerca de
la forma en que los datos y el software están redefiniendo lo que significa hacer ciencia”.
Tales opiniones se escuchan con frecuencia de la miríada de investigadores, ami-
gos y colegas que interactuaron con Jim durante los años, independientemente de la
fama y la reputación de éstos. Conocido, amado y respetado por muchos, Jim Gray no
necesita presentación; por tanto, dedicamos este libro a él y al sorprendente trabajo
que continúa en su ausencia.
Los editores
254 ALGUNAS PAL ABRAS SOBRE JIM...

G LOSAR I O
POTENCIAS DE DIEZ
exa- E 1 000 000 000 000 000 000 1018 trillón

15
peta- P 1 000 000 000 000 000 10 mil billones
12
tera- T 1 000 000 000 000 10 billón
9
giga- G 1 000 000 000 10 mil millones
6
mega- M 1 000 000 10 millón
3
kilo- k 1 000 10 mil o millar
2
hecto- h 100 10 cien o centena
1
deca- da 10 10 diez o decena
0
- - 1 10 uno
−1
deci- d 0.1 10 décimo
−2
centi- c 0.01 10 centésimo
mili- m 0.001 10−3 milésimo
micro- µ 0.000001 10−6 millonésimo
nano- n 0.000000001 10−9 milmillonésimo
pico- p 0.000000000001 10−12 billonésimo
Adaptado de http://es.wikipedia.org/wiki/Prefijos_del_Sistema_Internacional
SIGLAS Y ABREVIATURAS
API
application programming interface (interfaz de programación
de aplicaciones)
ASKAP Australian Square Kilometre Array Pathfinder
ATLUM Automatic Tape-Collecting Lathe Ultramicrotome (torno
ultramicrotómico para recolección automática en cinta)
BPEL Business Process Execution Language
CCD charge-coupled device (dispositivo de carga acoplada)
CEV Center for Environmental Visualization
CGI common gateway interface (interfaz de acceso común)
CLADDIER Citation, Location, And Deposition in Discipline and
Institutional Repositories
CML Chemistry Markup Language
CPU central processing unit (unidad central de procesamiento)
EL CUARTO PARADIGMA 255

CSTB Computer Science and Telecommunications Board
DAG directed acyclic graph (grafo acíclico dirigido)
DDBJ DNA Data Bank of Japan
DISC Data-Intensive Super Computing
DOE Department of Energy
EBI European Bioinformatics Institute
ECHO Earth Observing System Clearinghouse
EMBL European Molecular Biology Laboratory
EMBL-Bank Base de datos de secuencias de nucleótidos del European
Molecular Biology Laboratory
EOSDIS Earth Observing System Data and Information System
ET evapotranspiración
FDA Food and Drug Administration
Fluxnet Red global de torres micrometeorológicas
FTP File Transfer Protocol (protocolo de transferencia de archivos)
GCH Gran Colisionador de Hadrones
GCMD Global Change Master Directory (de la NASA)
GEOSS Global Earth Observation System of Systems
GOLD Genomes OnLine Database
GPU graphics processing unit (unidad de procesamiento gráfico)
GPGPU general-purpose graphics processing unit (unidad de
procesamiento gráfico de propósito general)
H1N1 gripe porcina
HME historial médico electrónico
INSDC International Nucleotide Sequence Database Collaboration
IRMf imagen por resonancia magnética funcional
JISC Joint Information Systems Committee (del Reino Unido)
KEGG Kyoto Encyclopedia of Genes and Genomes
KLAS Keystone Library Automation System
LEAD Linked Environments for Atmospheric Discovery
LIDAR Light Detection and Ranging (sistema de detección y alcance
de la luz)
LLNL Lawrence Livermore National Laboratory
LONI Laboratory of Neuro Imaging
256 GLOSARIO
MESUR Metrics from Scholarly Usage of Resources
MMI Marine Metadata Interoperability
MODIS Moderate Resolution Imaging Spectroradiometer
(espectrorradiómetro de imágenes de resolución moderada)
MT memoria transaccional
NASA National Aeronautics and Space Administration
NIH National Institutes of Health
NLM National Library of Medicine
NLM DTD Definición de Tipo de Documento (DTD) de la National Library
of Medicine
NOAA National Oceanic and Atmospheric Administration
NRC National Research Council
NSF National Science Foundation
OAI Open Archives Initiative (Iniciativa de Archivos Abiertos)
OAI-ORE Open Archives Initiative Object Reuse and Exchange (Protocolo
de Reutilización e Intercambio de Objetos de la OAI)
OAI-PMH Open Archives Initiative Protocol for Metadata Harvesting
(Protocolo de la OAI para la Recolección de Metadatos)
OBO Open Biomedical Ontologies
OMB Office of Management and Budget (Oficina de Administración
y Presupuesto)
OMS Organización Mundial de la Salud
OO orientado a objetos
OOI Ocean Observatories Initiative
OWL Web Ontology Language
Pan-STARRS Panoramic Survey Telescope And Rapid Response System
PMSEIC Prime Minister’s Science, Engineering and Innovation Council
PubMed Base de datos gratuita y en línea de la National Library of
Medicine, con artículos de revistas biomédicas
RDF Resource Description Framework
RDFS RDF Schema (esquema del RDF)
RSS Really Simple Syndication
SCEC Southern California Earthquake Center
TCP/IP Transmission Control Protocol/Internet Protocol
(familia de protocolos de internet)

TI tecnologías de la información
UNICEF United Nations Children’s Fund (Fondo de las Naciones Unidas
para la Infancia)
UniProt Universal Protein Resource
URI Uniform Resource Identifier (identificador uniforme de
recursos)
USGS U.S. Geological Survey
VRO vehículos remotamente operados
VSA vehículos submarinos autónomos
VT100 terminal de video fabricada por Digital Equipment Corporation
(DEC)
WATERS WATer and Environmental Research Systems Network
XML eXtensible Markup Language
258 GLOSARIO
ÍNDICE
A 64‑65, 101
ACM (Association for Computing Machinery), crisis del costo de las publicaciones académi-
xxix cas en bibliotecas, 207
activistas sanitarios sociales acreditados, 78 vs. datos científicos, xii, xxix-xxxii, 200
advección de tinte, 174 mejoramiento semántico, 200‑205
aficionados. Véase ciencia ciudadana modelo digital vs. modelo electrónico inicial,
agregación de datos, 69. Véase también compu- 195
tación en la nube transmisión instantánea, 67‑68
agua, sistemas de. Véase escorrentía de deshielo, vinculación con datos, xxix-xxx, 195, 196,
como ejemplo de las relaciones entre la 197, 200‑205, 237
ciencia básica y de aplicaciones arXiv, xxix, 199, 235
Alpes suizos, escaneo láser terrestre de la asistencia sanitaria. Véase también conocimien-
distribución de nieve, 50, 51 tos médicos; historiales médicos
Amazon.com, 178 intensiva en datos, enfoque de modelado
análisis visual de datos, 165‑176 unificado, 99‑106
Anderson, Chris, 237 paradigmas de información, 104‑105
Apache, servidor web, 229 provisión de, en países desarrollados, 71‑80
aprendizaje automático, 60, 91, 92, 93, 94, singularidad de la, 67‑70
102‑104 tecnologías semánticas en, 160
arbitraje. Véase revisión por pares, proceso de ASKAP (Australian Square Kilometre Array
archivamiento. Véase también bibliotecas de Pathfinder), xiii, 159
datos digitales; curación de datos Aster Data, base de datos, 9
como una de las funciones centrales de la astronomía, xx, 41‑47
comunicación académica, 209 ATLUM (torno ultramicrotómico para recolec-
de datos ambientales, 53 ción automática en cinta), 86
de datos oceanográficos, 33 Atom, formato, 212, 213
de datos y de literatura, xii, xxviii-xxix, xxxii Australia, necesidad de un marco de política
European Nucleotide Archive, 130‑132 nacional de intercambio de datos, 220‑222
y la historia de la ciencia, 192‑194 Australian National Data Service (ANDS), xv
Iniciativa de Archivos Abiertos, 208, 212 Australian Square Kilometre Array Pathfinder
iniciativas de infraestructura de la NSF, xii, (ASKAP), xiii, 159
xv, xxi, xxxii, 213 avatares, en la atención sanitaria, 104‑105
punto de vista de Gordon Bell, xii Axial, volcán submarino, 35
punto de vista de Jim Gray, xxviii-xxix, xxxi- Azure, plataforma, 146
xxxii
su función en las revistas arbitradas de acceso B
abierto, xxviii-xxix bases de datos
su función en los sistemas de administración aplicación de las funciones centrales de la
de información para laboratorios, xxii comunicación académica a los conjuntos
arco iris cerebral, 84 de datos, 209
Armbrust, Ginger, 39 conveniencia de mantener reunidos los datos
artículos científicos. Véase también archiva- y los documentos científicos, xiv-xv, xxix-
miento; bibliotecas de datos digitales xxx, 195, 196, 197, 200‑205, 237
cambios en las prácticas editoriales, xxix, 197 definición de Jim Gray, xxiv
como la punta del iceberg de datos, xvii escalabilidad, 11‑12, 72‑74
creación de representaciones accionables por limitaciones debidas al tamaño de los conjun-
máquina, 208‑209 tos de datos, 7‑9
crecimiento exponencial del número de, del orden de petabytes, 11‑12, 131, 174

panorama de la ciencia centrada en los datos, y manejo de sistemas de agua, 16‑17
7‑13 papel de los científicos ambientales, 49‑56
Beowulf, clústeres, xxi, xxv, 138 cambios de paradigmas, 225‑226. Véase tam-
Berners-Lee, Tim, 184, 203 bién paradigmas científicos
BGI Shenzhen, 133‑134 carbón, mercados de, 16, 17, 18, 19
bibliotecas de datos digitales. Véase también CCD (dispositivo de carga acoplada), xviii, 42
archivamiento; curación de datos celulares. Véase telefonía móvil
descripción, xxxii, 243 cerebro, 81‑89. Véase también sistema nervioso
Digital Libraries Initiative, 213 CERN, xiii, 204, 235
NCAR como ejemplo de, xiv CEV (Center for Environmental Visualization),
papel de las revistas arbitradas de acceso 31, 34, 35, 36, 39
abierto, xxix-xxx Chastain, Erick, 94, 97
papel de los científicos de datos, xii Chemistry Markup Language (CML), 183
punto de vista de Jim Gray, xxxii ChemSpider, 236
vinculación de documentos con datos, xxix- Chu, Steven, 16
xxx, 195, 196, 197, 200‑205, 237 ciberinfraestructura. Véase también tecnologías
bibliotecas, crisis del costo de las publicaciones de información (TI), infraestructura de
académicas, 207. Véase también artículos basada en la Web, 212, 213
científicos; bibliotecas de datos digitales como un problema sociotécnico, 213
Bing, xxvii para cubrir las necesidades de la comunica-
BioCatalogue, 156 ción académica, 213
bioinformática, xix. Véase también EBI ejemplo del observatorio oceánico cableado,
(European Bioinformatics Institute) 34‑38
biología. Véase ciencias biológicas; ciencias de iniciativas de la NSF, xxi, 213
la Tierra y el ambiente; ecología para la investigación basada en los conoci-
BioMart, 150 mientos, 177‑184
biometría, 78 punto de vista de Jim Gray, xxi, xxii
BioMoby, 179 repercusiones para la ciencia ecológica, 27‑28
BlenX, lenguaje, 109 cielo, navegadores del, 44
Blue Gene/L, supercomputadora, 167 ciencia. Véase astronomía; ciencia intensiva en
BOINC (Berkeley Open Infrastructure for datos; ciencias de la Tierra y el ambiente;
Network Computing), xxv oceanografía
BPEL (Business Process Execution Language), ciencia ambiental. Véase ciencia de las aplica-
152 ciones ambientales; ciencias de la Tierra y
Brahe, Tycho, xi el ambiente; ecología
Bush, Vannevar, 184 ciencia básica vs. ciencia basada en aplicacio-
bX, servicio de recomendación académica, 211 nes, 16‑21. Véase también ciencia de las
aplicaciones ambientales
C ciencia ciudadana. Véase también externaliza-
cableado electro-óptico, su función en la inves- ción colectiva
tigación oceanográfica, 32, 34, 36 como coadyuvante en observaciones focaliza-
cámaras digitales, 21, 46 das de la Tierra, 21
cambio climático grupos de, como fuentes para datos ecológi-
y análisis de datos ecológicos, 23‑28 cos, 25, 26
y la ciencia de las aplicaciones ambientales, y la recopilación de datos astronómicos,
15‑16 41‑45
como impulsor de investigación transdiscipli- ciencia de las aplicaciones ambientales, 15‑22
naria, 27‑28, 46‑47 ciencia experimental. Véase computación
y la computación intensiva en datos, 122‑127 científica
260 ÍNDICE
ciencia intensiva en datos. Véase también cuar- impacto de la inundación de datos en la
to paradigma ciencia ecológica, 23‑28
cómputo centrado en bases de datos, 7‑13 observatorios oceánicos cableados, 34‑38
descripción, xxxii, 126, 241‑242, papel del NCAR como una biblioteca de
dos maneras de abordar el registro científico, datos digitales, xiv
197‑198 redes de sensores de próxima generación,
función del texto, 199‑206 49‑56
impacto de las herramientas de flujo de registros de servicios web, 162
trabajo, 149‑158 su desarrollo hacia la ciencia de las aplicacio-
necesidad de metodologías basadas en la nes ambientales, 15‑22
semántica, 159‑164, 200‑203, 204 ciencias físicas, necesidad de un esfuerzo
problemas de financiamiento, xiii, xx, xxi, coordinado de mejoramiento semántico,
xxii, 164, 212, 217, 221, 245‑246 160‑161, 204‑205
punto de vista de Gordon Bell, xi-xv científicos. Véase ciencia ciudadana; científicos
reglas informales de Jim Gray para abordarla, especialistas; computación científica
7‑8, 10 científicos computacionales, importancia de su
relación con los cambios de paradigma, 227 colaboración y vinculación profesional con
repercusiones en el registro científico, científicos especialistas, 9‑10, 37, 49‑56,
191‑198 161, 246. Véase también ciencia intensiva en
tres actividades básicas en que consiste la, datos; computación científica
xiii científicos de área. Véase científicos especia-
visualización para la, 165‑176 listas
ciencias biológicas. Véase también ciencias científicos de datos, definición, xii. Véase tam-
de la Tierra y el ambiente; conocimientos bién ciencia intensiva en datos; computa-
médicos; ecología; oceanografía ción científica
biología computacional vs. bioinformática, científicos especialistas
xix y la exploración de los retos de análisis y
crecimiento y complejidad de las fuentes dis- visualización que comparten distintas
ponibles de datos, 100‑101, 134‑135, 149 disciplinas, 46‑47
desarrollo de la infraestructura de datos, importancia de su colaboración y vinculación
129‑136 profesional con científicos computaciona-
incremento exponencial del volumen de les, 9‑10, 37, 49‑56, 246
datos, 83, 129‑132, 236 intercambio interoperable de información,
mejoramiento semántico para la integración 184
de datos y textos, 160, 204‑205 necesidad de herramientas genéricas de
motor de búsquedas Entrez, xxxi software, xxi-xxii, xxv
representaciones accionables por máquinas y el servicio Wolfram|Alpha, 180
del conocimiento contenido en la literatu- Citation Typing Ontology, proyecto, 211
ra académica, 208‑209 CLADDIER, proyecto, 211
visualización en modelos de álgebra de pro- climatología, 20, 50, 52‑54
cesos, 107‑114 clústeres
ciencias de la atmósfera, observaciones que de computadoras, xxi, xxiii, xxv, 8, 138
impulsan la ciencia ambiental de próxima en biología, 96‑97, 104
generación, 49‑52 CMT (Herramienta de Administración de
ciencias de la Tierra y el ambiente. Véase tam- Congresos), xxix, xxx
bién oceanografía colaboración. Véase también intercambio de
colaboración entre científicos especialistas y datos
científicos computacionales, 49‑56 entre científicos ambientales y científicos

computacionales, 49‑56 retos para la programación, 139‑141
entre científicos oceanográficos y científicos computación semántica, 182
computacionales, 37 comunicación académica. Véase también
como necesidad, 216, 236 artículos científicos; bibliotecas de datos
en estudios de síntesis ecológica, 23‑28 digitales
y la exploración de los retos de análisis y amigable con las máquinas, 207‑214
visualización que son comunes a distintas capacidad de la Web para impulsar la colabo-
disciplinas, 47 ración científica, 234‑235
oportunidades en línea para las comunidades datos sobre referenciación bibliográfica, 27,
astronómicas y educativas, 45 164, 193, 201, 202, 210‑211, 244
papel de internet, 230, 234, 235 y la escala siempre creciente del registro
papel de los flujos de trabajo en la ciencia científico, 194‑195, 197
intensiva en datos, 155 funciones centrales de la, 209‑210
Community Collaborative Rain, Hail and importancia de la colaboración y vinculación
Snow Network, 26 profesional entre científicos especialistas
computación científica. Véase también ciencia y científicos computacionales, 9‑10, 37,
intensiva en datos; computación en la nube 49‑56, 162, 247
comunicación entre científicos computacio- origen de la división entre los datos experi-
nales y científicos especialistas, 9‑10, 37, mentales y la formulación de teorías, xi
49‑56, 162, 246 punto de vista de Jim Gray sobre la revolu-
modelos de álgebra de procesos de sistemas ción que se avecina en la, xxvii-xxviii, 213
biológicos, 107‑114 repercusiones de la ciencia intensiva en datos
nuevas herramientas para los neurobiólogos, en el registro científico, 191‑198
91‑97 representaciones accionables por máquinas
y el procesamiento en paralelo, 137‑141 del conocimiento contenido en la literatu-
y la sobrecarga de datos, 7‑8, 10, 11, 143‑147 ra científica, 208‑209
computación con medios genéricos o de consu- seguimiento de la evolución y dinámica de
mo, 25, 46, 124, 144, 253 los activos académicos, 201‑212
computación en la nube tendencias de largo plazo en la investigación
en astronomía, 42, 43 científica, 235‑238
datos como materiales de archivo, xii vinculación de documentos con datos, xxix-
para datos médicos de pacientes, 69 xxx, 195, 196, 197, 200‑205, 237
y los estudios de síntesis ecológica, 27‑28 comunicación entre científicos. Véase comuni-
y explotación del paralelismo, 144‑145 cación académica
en la investigación oceanográfica, 33 Concept Web Alliance, 209
su repercusión en la forma en que se aborda Condor, software, xxv
y disemina la investigación científica, conectoma, 84
28, 178 conjuntos de datos. Véase bases de datos
ventajas, 11 conocimientos médicos. Véase también asisten-
vinculación a un cubo de datos de servicios cia sanitaria
de análisis de SQL Server, 27 crecimiento exponencial, 64‑65, 101
computación fuera de núcleo, 166 y las nubes de datos de consumidor, 69
computación paralela y la plataforma NxOpinion, 74
antecedentes, 137‑138 precisión y eficiencia diagnósticas, 74
y computadoras multinúcleo, 139 y el problema de la integridad de los datos, 78
explotación en centrales de datos, en el nivel sobrecarga de información, 64‑65, 101
de los nodos individuales, 146 su transferencia a la práctica médica, 63‑70,
explotación en cómputo de nube, 145 101, 208, 242
262 ÍNDICE
Consejero de Salud de la Clínica Mayo, 69 detección a distancia. Véase sensores
Consortium for Ocean Leadership, 36 diagramas de flujo, esquema de, 172
COUNTER, proyecto, 211 Digital Curation Centre, xv
CPU. Véase procesadores multinúcleo diluvio de datos, su relación conceptual con
crawlers. Véase rastreadores las redes, 226‑231. Véase también ciencia
Creative Commons, 229 intensiva en datos
cuarto paradigma. Véase también ciencia inten- Directiva sobre la Reutilización de la
siva en datos Información del Sector Público, 219
definición, 177, 178 DISC (Data-Intensive Super Computing), 178
ejemplo relacionado con la información dispositivo de carga acoplada (CCD), xviii, 42
sanitaria, 104 DNA Data Bank of Japan (DDBJ), 129
ejemplo relacionado con la oceanografía, documentos. Véase artículos científicos
32‑33 Dryad, 145, 178, 183
punto de vista de Jim Gray, xiii, xiv, xix, DryadLINQ. Véase LINQ (Language Integrated
xxxii, 177, 191, 226, 241, 245 Query)
relación con la cuarta capa de red, 227
repercusiones en el registro científico, E
191‑198 e-ciencia, definición, xviii, 159, 245, 253. Véase
curación de datos, xiii-xv, xvii, xx, xxviii, 188, también ciencia intensiva en datos
195, 197. Véase también archivamiento; e-investigación
procedencia de datos definición, 177, 192
CyberShake, proyecto del SCEC (Southern marcos de políticas para la colaboración
California Earthquake Center), 153, 156 internacional, 215‑223
Earth Observing System Clearinghouse
D (ECHO), 162
DAGMan, sistema de flujo de trabajo, 153 Earth Observing System Data and Information
datos. Véase también bases de datos; ciencia System (EOSDIS), 122, 123, 124, 126
intensiva en datos EBI (European Bioinformatics Institute),
análisis, xiv, xvii, xxiv 130‑136
como una cuarta capa de red, 227, 230 ECHO (Earth Observing System
crecimiento exponencial en volumen, 12, Clearinghouse), 162
41‑42, 83, 129‑133, 137, 236 ecología. Véase también ciencias de la Tierra y
curación, xiii, xiv-xv, xvii, xx, xxviii el ambiente
espaciotemporales, 92 computacional vs. ecoinformática, xix
filtrado, 9, 126, 175, 197, 208 y computación en la nube, 26‑27
interconectividad, 233, 238 definición, 23
necesidad de sistemas que vayan de la ejemplo relacionado con las cuencas, 24‑25
recolección hasta la publicación en Web, grandes estudios de síntesis, 23‑28
xxii-xxiii, xxx tecnologías semánticas en, 160, 203, 204
obtención o captura, xiii, xvii Eigenfactor, proyecto, 244
políticas de acceso e intercambio dentro de Eli Lilly, 236
los países y entre ellos, 215‑223 ELIXIR, proyecto, 135‑136
datos de referencia, colecciones de, 196 EMBL (European Molecular Biology
dbMotion, 69 Laboratory), 130, 200
Declaración de Berlín sobre el Acceso EMBL-Bank (base de datos de secuencias
Abierto al Conocimiento en Ciencias y de nucleótidos del European Molecular
Humanidades, 217, 218 Biology Laboratory), 129‑131
derechos de autor. Véase propiedad intelectual Ensembl, sitio web, 133

Entrez, motor de búsquedas, xxxi, 150 datos, 149‑158
EOSDIS (Earth Observing System Data and y procedencia de datos, 168‑169, 211‑212
Information System), 122, 123, 126 representación visual de sus modificaciones,
escalabilidad 169‑171
como una capacidad de las redes, 227, 230 su función en los proyectos myGrid y myEx-
del procesamiento en relación con los datos, periment, 180
156, 166 flujos, visualización de, 171‑174
en sistemas de historiales médicos, 72‑74 Fluxnet, 27
escorbuto, 63‑64, 66 Food and Drug Administration (FDA), 67
escorrentía de deshielo, como ejemplo de las Freebase, servicio, 179
relaciones entre la ciencia básica y de apli- FreeBSD, Unix, xxv
caciones, 16‑21
espectrorradiómetro de imágenes de resolu- G
ción moderada (MODIS), 20 Galaxy Zoo, herramienta, 43, 45
esquema, archivos de, xiii-xiv, xxiv, xxxi Gama, Vasco da, 63
estacionarios, procesos, 16 GenBank, xxxi, 129, 205
European Bioinformatics Institute (EBI), genes
130‑136 identificación mediante el flujo de trabajo
European Nucleotide Archive, 130‑131 Taverna, 150, 151
evapotranspiración (ET), 17, 24, 25, 27 secuenciación de, xiii, 9, 39, 149, 199, 217
Excel, software, xviii, xxii, xxv genomas, 100, 103, 111, 132‑133
expertos científicos. Véase científicos especia- Genomes Online Database (GOLD), 133
listas GEO (Group on Earth Observations), 216
exploración de datos, 166‑170 geología. Véase Juan de Fuca, Placa de
externalización colectiva. Véase también cien- GEOSS (Global Earth Observation System of
cia ciudadana Systems)
en estudios astronómicos sobre galaxias, como centro de información sobre registros
42‑43 de servicio web, 162
en estudios sobre medicamentos, posteriores principios de intercambio de datos, 216‑217
a su comercialización, 68 Gilbert, Wally, 204
Global Change Master Directory (GCMD), 162
F GOLD (Genomes OnLine Database), 133
FASTQ, formato, 132 Google
FDA. Véase Food and Drug Administration herramienta MapReduce, 145, 178
(FDA) herramienta PageRank, 127, 237
Fernicola, Pablo, 202 motor de búsquedas, xxvii, 234
fibra óptica. Véase observatorios oceánicos Google Health, 69
cableados Google Sky, 45
financiamiento, xiii, xx, xxi, xxiv, xxv, 164, GPGPU (unidad de procesamiento gráfico de
213, 217, 220, 245‑246 propósito general), 140, 146‑147
Finney, Kim, 218 GPU. Véase unidades de procesamiento gráfico
física solar-terrestre, 160, 161 (GPU)
flujos de datos, 92, 145, 166 GPUFLIC, algoritmo, 173, 174
flujos de trabajo grafos acíclicos dirigidos (DAG), 145‑146
como una actividad habilitada computacio- Gran Colisionador de Hadrones (GCH), xiii,
nalmente en apoyo de la oceanografía, 34 xx, xxi, xxii, 159
definición, 150 Gran Telescopio para Rastreos Sinópticos, 42
impacto en la investigación centrada en Gray, Jim
264 ÍNDICE
áreas de acción sugeridas para los organis- flotante, 195
mos de financiamiento, 245‑246 imagen, tecnologías de. Véase también visua-
y la comunicación académica, xxi-xxx, 213 lización
y el cuarto paradigma, xiii, xiv, xviii, xix, en el desarrollo de un microscopio compu-
xxxii, 177, 191, 226, 241, 245 tacional para los neurobiólogos, 92, 93,
fotografías, xvi, 252 94‑97
leyes de Gray, 7‑12 para el seguimiento de los circuitos neurona-
presentación ante la Comisión de Ciencias de les del cerebro, 81‑89
la Computación y de Telecomunicaciones, su función en la investigación oceanográfica,
xiii, xvii-xxxii, 245‑246 33‑34
reglas informales para abordar la ciencia imágenes por resonancia magnética funcional
intensiva en datos, 7‑8, 10 (IRMf), 82‑83
semblanza, 253‑254 información médica, sobrecarga de, 64‑65,
su influencia en el observatorio oceánico 101. Véase también datos: crecimiento expo-
cableado, 38, 40 nencial en volumen
su papel en arXiv, 199 Iniciativa de Archivos Abiertos (OAI), 208,
Group on Earth Observations (GEO), 216 212, 213
inmunización, en países en vías de desarrollo,
H 71‑72
H1N1, pandemia, 130 InnoCentive, 236
Hadoop, 145, 178, 183 INSDC (International Nucleotide Sequence
Hales, Thomas, 195 Database Collaboration), 129
HDF (Hierarchical Data Format), xxiv INSPIRE, Directiva, 219
HealthVault, 69 inteligencia artificial (IA), 77, 160, 182‑183,
Herramienta de Administración de Congresos 203
(CMT), xxix, xxx intercambio de datos, 71, 76‑78, 140, 216‑218.
hibridaciones o mezclas, xxxii, 24, 183 Véase también colaboración
Hipócrates, 104 Intercity-Express (ICE), tren alemán, 173
Hirudo (sanguijuela medicinal europea), 94‑95, International Human Genome Sequencing
96‑97 Consortium, 217
historiales médicos internet. Véase también World Wide Web
electrónicos (HME), 99‑100, 102 y la diseminación veloz de la información
identificación de los pacientes, 78 ambiental, 21, 53
necesidad de sistemas escalables, 72‑74 interconectividad de las computadoras, 233
paradigmas de la información sanitaria, y la investigación astronómica, 42‑46
104‑105 su naturaleza pública, 228
preservación del anonimato de los pacientes, su papel en los estudios de síntesis ecológica,
71, 73, 76, 78, 79 25
problemas en los países en vías de desarrollo, su papel en los observatorios oceánicos
71‑76, 78‑79 cableados, 37, 38, 40
en sistemas de asistencia sanitaria intensiva unificación de los datos con la literatura,
en datos, 100 xxvi-xxvii
Hubble, telescopio espacial, 43 INTERNIST-1, sistema experto, 73
inundaciones, control de, 16‑17
I invertebrados, sistemas nerviosos de los, 94‑95
IEEE (Institute of Electrical and Electronics investigación interdisciplinaria, 28, 46‑47, 182
Engineers), xxix investigación, revisión de las estructuras de la,
IEEE, estándar sobre aritmética de punto 121‑127

Isenberg, David, 227 proyecto, 160
MATLAB, xxii, xxv, 27
J Maxwell, ecuaciones de, xix
JISC (Joint Information Systems Committee), medicamentos
xv control de calidad mediante externalización
Juan de Fuca, Placa de, 35 colectiva, 68
innovación habilitada por la Web, 236
K Medicity, 69
Kapoor, Ashish, 94, 97 MEDSEEK, 69
Karman, conjunto de datos, 173‑174 memoria transaccional (MT), 140‑141
KEGG (Kyoto Encyclopedia of Genes and MESUR, proyecto, 211
Genomes), 150 meteorología. Véase climatología
Kepler, conjetura de, 195 microscopía electrónica, 83‑86
Kepler, Johannes, xi microscopio electrónico de barrido, 86. Véase
Kepler, leyes de, xix también microscopía electrónica
Kepler, sistema de flujo de trabajo, 152 microscopios computacionales, 92, 95‑97.
Kuhn, Thomas, 225 Véase también “macroscopio”; microscopía
Kurzweil, Ray, 67 electrónica
Microsoft
L y agregación de datos, 178
LabVIEW, xxv Article Authoring Add-In, para Word, 202
Lancaster, James, 63 Bing, xxvii
Language Integrated Query (LINQ), 146 Dryad, 145, 146, 178, 183
Lawrence Livermore National Laboratory DryadLINQ, 145, 146
(LLNL), 166 HealthVault, 69
LEAD, flujos de trabajo, 154 Herramienta de Administración de Congre-
lenguaje natural, procesamiento de, 180, 182, sos, xxix, xxx
183, 203, 204 plataforma Azure, 146
lenguajes de programación funcional, 141 proyecto SenseWeb, 52, 54
licencias abiertas, 229 sistema Amalga, 69
Life Under Your Feet, programa, 25, 52 SQL Server, 11, 27, 52
Lind, James, 63 su herramienta tipo map-reduce, 145, 146
LINQ (Language Integrated Query), 146 Trident Scientific Workflow Workbench, 153
Linux, xxv WorldWide Telescope, 43‑45, 46, 47
LONI Pipeline, sistema de flujo de trabajo, 152 minería de datos, 53, 55, 71, 78, 130, 134, 140,
154, 196. Véase también texto: herramientas
M para minería de
“macroscopio”, 242 MMI (Marine Metadata Interoperability),
mapas. Véase también SensorMap; visualiza- proyecto, 160
ción modelado
de los circuitos del cerebro, 82‑83 enfoque unificado para la asistencia sanitaria
escaneo láser terrestre de la distribución de intensiva en datos, 99‑106
nieve en los Alpes suizos, 51 enfoques basados en lenguajes para los siste-
y la Ocean Observatory Initiative (OOI), mas biológicos, 107‑114
35‑36 para la predicción de fenómenos ambientales
MapReduce, 9, 13, 147, 178, 183 a partir de datos, 53
marcado, 162, 183, 197, 200, 202‑203 modelos computacionales, 60‑61, 101
Marine Metadata Interoperability (MMI), modelos gráficos probabilísticos, 95, 102
266 ÍNDICE
MODIS (espectrorradiómetro de imágenes de xxviii, xxix, xxxi, 205, 246
resolución moderada), 20 North American Carbon Program, 28
Moglen, Eben, 229‑230 nowcasting. Véase predicción inmediata, en
montañas, variación de superficie, 49, 50‑51 meteorología
Moore, ley de, 65, 138 Noyes, Henry, 65
MSR, Microscopio Computacional, 91, 92 NSF (National Science Foundation), xii, xv,
Murray-Rust, Peter, 208 xxi, xxii, 34, 121, 213
Murray, Christopher, 71 nubes de datos. Véase computación en la nube
myExperiment, proyecto, 155‑158, 180, 211 nucleótidos, secuenciación de, 129‑133
myGrid, proyecto, 180 Nurse, Paul, 107
NxOpinion Knowledge Manager (NxKM),
N 72‑77
NASA (National Aeronautics and Space
Administration) O
Earth Observing System Data and Informa- O’Reilly, Tim, 234
tion System, 122, 123 OAI (Iniciativa de Archivos Abiertos), 208,
espectrorradiómetro de imágenes de resolu- 212, 213
ción moderada, 20 Objetivos de Desarrollo del Milenio, de la
Global Change Master Directory, 162 ONU, 72
y la inminente inundación de datos ecológi- observatorios oceánicos cableados, 34‑37
cos, 25 observatorios virtuales, 45, 161. Véase también
National Center for Atmospheric Research telescopios; WorldWide Telescope (WWT)
(NCAR), xii, xiv Ocean Observatories Initiative (OOI), 34‑37
National Center for Biotechnology oceanografía, 29‑40, 160
Information, xxxi, 131 Oficina de Administración y Presupuesto
National Climatic Data Center, 24 (OMB), 219
National Ecological Observatory Network, 25 ontologías, definición, 160. Véase también
National Human Genome Research Institute, semántica
131 ONU, Objetivos de Desarrollo del Milenio, 72
National Institutes of Health (NIH), xxvi OOI (Ocean Observatories Initiative), 34‑37
National Library of Medicine (NLM), xxvi, Open Geospatial Consortium, 26
xxviii, xxix, xxxi, 205, 246 OpenCyc, 179
National Science Foundation (NSF), xii, xv, OpenURL, 208
xxi, xxii, 34, 121, 213 OpenWetWare, 235
Nature Network, 235 oreChem, proyecto, 183
NCAR (National Center for Atmospheric Oregon State University, 36
Research), xii, xiv Organización para la Cooperación y el
NEPTUNE, Programa, xxi, 31, 35, 36, 40 Desarrollo Económicos (OCDE), 220‑221
NetCDF (Network Common Data Form), xxiv OWL (Web Ontology Language), 179, 182, 212
neumonía, en países en vías de desarrollo, 72
neurobiólogos, nuevas herramientas para los, P
91‑97 PageRank, algoritmo de Google, 126, 237
neuronas, 82‑88. Véase también sistema países en vías de desarrollo, provisión de servi-
nervioso cios de salud en, 71‑80
NeuroTrace, 87 Pan-STARRS, proyecto, xiii, 12, 42, 153
Newton, leyes del movimiento de, xix paradigmas, cambios de, 225‑226
NIH (National Institutes of Health), xxvi paradigmas científicos. Véase también cuarto
Nijmegen, Centro Médico (Países Bajos), 153 paradigma
NLM (National Library of Medicine), xxvi, cuarto, e-ciencia, xix, xx, 104, 241

en la información relacionada con la asisten- reconocimiento, como una de las funciones
cia sanitaria, 105 centrales de la comunicación académica,
primero, empírico, xix, 104, 241 209
punto de vista de Jim Gray, xviii-xix reconocimiento facial, 46, 78
segundo, teórico, xix, 104, 241 red, efectos de, 228, 234
tercero, computacional, xix-xx, 104, 191, 194, redes de similitudes probabilísticas, 74
241 redes, y el diluvio de datos, 226‑231. Véase
parametrización, de superficies, 172 también internet
ParaView, 170‑171 referenciación bibliográfica, en la comunica-
PDF, archivos, 202, 207 ción académica, 27‑28, 164, 193, 200‑202,
Pegasus, sistema de flujo de trabajo, 152 210‑211, 244. Véase también procedencia
pensamiento computacional, xix, 100 de datos
Pipeline Pilot, sistema de flujo de trabajo, Reflect, herramienta (EMBL Alemania), 200
152‑153 registro, como una de las funciones centrales
poder de cómputo, 44. Véase también computa- de la comunicación académica, 209
ción paralela registro documental científico, 191‑198
políticas, para el acceso e intercambio de datos revisión por pares, proceso de
dentro de los países y entre ellos, 215‑223 comparado con los wikis, xxx
potencias de diez, 255 futuro, xxx, 125
Powerset, servicio, 179 punto de vista de Jim Gray, xvii, xxvii-xxx
predicción inmediata, en meteorología, 53‑54 ventajas y desventajas, xxx, 101, 121, 193, 207
primer paradigma, xviii-xix, 105, 241 revistas arbitradas de acceso abierto, xxviii-
Principios de las Bermudas, 217, 218 xxix
procedencia de datos, xii, xxx, 168, 169, 170, revistas científicas. Véase artículos científicos
211‑212. Véase también referenciación bi- riesgos naturales alpinos, predicción de, 53‑54
bliográfica, en la comunicación académica Robertson Research Institute, 72
procesadores multinúcleo, 138‑139, 140, 141 robótica, en la investigación oceanográfica,
procesos, cálculo de, 107‑108 33, 35
programación paralela en datos, 139‑140. Véase rofecoxib (Vioxx), 67
también computación paralela Royal Society of Chemistry, 200
propiedad intelectual, xxvii, 196, 197, 228, RSS, formato, 212, 213
229, 236
PubChem, xxxi, 236 S
publicaciones. Véase artículos científicos salud pública, 72, 76. Véase también asistencia
público. Véase ciencia ciudadana sanitaria
PubMed Central, xxvi, xxvii, xxviii, xxix, xxxi, San Diego Supercomputer Center (SDSC), xiv
199, 200 Sanger Institute, 130, 132, 133
punto flotante, operaciones de, 195 satélites
química en las aplicaciones ambientales, 15, 19, 20,
como una ciencia interconectada y habilitada 50, 161‑162
por la web, 235‑237 en los estudios de síntesis ecológica, 25, 26
proyecto oreChem, 183‑184 en las investigaciones astronómicas, 45
en la oceanografía, 30, 34
R School Health Annual Report Programme
rastreadores, 11, 199 (SHARP), 75
rastreo de datos, 11 SciScope, 26
RDF (Resource Description Framework), 179, Scripps Institution of Oceanography, 36
212 secuenciación genética. Véase genes
268 ÍNDICE
Sedna, sistema de flujo de trabajo, 152 Suber, Peter, xxvi
SEEK (Science Environment for Ecological Sustainable Digital Data Preservation and
Knowledge), 160 Access Network Partners (DataNet), pro-
segundo paradigma, xix, 104, 241 grama, 213
semántica. Véase también Web semántica Swiss Experiment, proyecto, 52, 53
aplicación a la e-ciencia de herramientas de Szalay, Alex, 253
, 159‑164
e interoperabilidad, 162‑163, 179, 180, 203, T
212 Taverna, flujos de trabajo, 150, 151, 152, 153,
mejoramiento del texto para incluir enlaces a 154
datos, 200‑205 Taylor, John, 245
SenseWeb, proyecto, 52, 54 tecnologías de información (TI), infraestructu-
sensores ra de. Véase también ciberinfraestructura;
en la ciencia ambiental, 49‑56, 153, 242 ciencia intensiva en datos; computación
en los estudios de síntesis ecológica, 25‑27 científica
en la investigación oceanográfica, 37‑38 y e-ciencia, xviii, 245
SensorMap, 53, 54 estado actual, 123‑124
SensorScope, 53 historia reciente, 122‑123
SETI@Home, proyecto, xxv nuevas herramientas para un mundo intensi-
Shirky, Clay, 233 vo en datos, 126
Short Read Archive, 131 repercusiones para la comunidad científica,
Shotton, D., 200 124‑125
simulación computacional tectónica de placas. Véase Juan de Fuca, Placa
comparación con el cuarto paradigma, de
191‑192, 194, 226 telefonía móvil
modelos de álgebra de procesos de sistemas aplicaciones en las ciencias de la Tierra y el
biológicos, 107‑114 ambiente, 21
necesidad de nuevas técnicas de análisis, como vehículo de provisión de servicios
174‑175 sanitarios en países en vías de desarrollo,
singularidad de la asistencia sanitaria, 67‑70 75‑76
síntesis ecológica, estudios de, 23‑28 telescopios, xiii, xx, 41, 42, 43, 44. Véase tam-
sistema nervioso, 91‑97. Véase también cerebro bién WorldWide Telescope (WWT)
sistemas de administración de información teorema de los cuatro colores, 195
para laboratorios (SAIL), xxii-xxiii, 246 Teradata, base de datos, 9
Sloan Digital Sky Survey (SDSS), xx, 43 tercer paradigma, xix-xx, 104, 191, 194, 241
sneakernet, 178 texto. Véase también artículos científicos
sociedades profesionales, xxix-xxx, 164 herramientas para minería de, 153, 197, 200,
software de código abierto, 145, 152, 168, 228 203, 237
software, necesidad de más herramientas en mejoramiento semántico, 200‑205
las disciplinas científicas, xxi, xxii, xxv. su función como un tipo de dato, 199‑206
Véase también ciencia intensiva en datos; TI. Véase tecnologías de información (TI),
computación científica; flujos de trabajo infraestructura de
SourceForge, 203 torno ultramicrotómico para recolección auto-
Southern California Earthquake Center mática en cinta (ATLUM), 86
(SCEC), proyecto CyberShake, 153, 156 trabajadores de extensión sanitaria (TES), 74,
SQL Server, 27, 52 75, 78
Stefaner, Moritz, 244 Trace Archive, 130‑131
Stoermer, Mark, 31, 39 Trace Assembly Archive, 131

Tratado Antártico, 217, 218 Web Ontology Language (OWL), 179, 182, 212
Triana, sistema de flujo de trabajo, 152 Web semántica, 163, 179, 183, 184, 213
True Knowledge, servicio, 179 Wellcome Trust, xxvi, 130
Wikipedia, 228, 234, 236
U wikis, comparados con la revisión por pares,
UFAC, algoritmo, 173 xxx
unidades de procesamiento gráfico (GPU) Wilbanks, John, 205
de propósito general, 140, 146‑147 Wing, Jeannette, xix
en la investigación sobre visualización de Wolfram|Alpha, servicio, 179, 180, 203
flujos, 172‑173 Woods Hole Oceanographic Institution, 36
Unión Europea, 219, 222 World Wide Web
UniProt, 150 antecedentes, 147
Universidad de California, San Diego, xiv, 36 como la plataforma computacional dominan-
URI (uniform resource identifier), 203, 212 te, 234
USA National Phenology Network, 26 impacto en la investigación científica, 147,
U.S. Geological Survey (USGS), 24 178
y las infraestructuras de investigación orien-
V tadas por los conocimientos, 179‑182
Van Arkel, Hanny, 43 WorldWide Telescope (WWT), 4, 43‑45, 46, 47
Vertica, base de datos, 9
Very Large Array (VLA), radiotelescopio, 43 X
virtualización. Véase computación en la nube X PRIZE for Genomics, xiii
VisTrails, 168, 169, 170 XML (eXtensible Markup Language), 135, 162,
visualización. Véase también imagen, tecnolo- 200, 212
gías de
de datos en estudios de síntesis ecológica, 28 Y
en modelos de álgebra de procesos de siste- Yahoo!, 145, 178, 199
mas biológicos, 107‑114
microscopio computacional para los neuro-
biólogos, 91‑97
necesidad y oportunidades en la ciencia
intensiva en datos, 165‑176
retos comunes en diversos campos científi-
cos, 46
SensorMap como ejemplo de visualización
de factores ambientales históricos y en
tiempo real, 53, 54
ViSUS, 166‑167
VLA (Very Large Array), radiotelescopio, 43
vocabularios controlados, xxxi, 194
von Neumann, John, 191
VSTO (Virtual Solar-Terrestrial Observatory),
161
W
Wagenaar, Daniel, 94, 97
WATERS, Red, 25
Watson, Thomas, 233
Web 2.0, 234‑235. Véase también World Wide
Web
270 ÍNDICE
CRÉDITOS DE IMÁGENES Y FOTOGRAFÍAS
página x : Galileo calcula el aumento página 240 : Dos estrellas en órbita mutua
de su telescopio. Mary Evans/Photo ubicadas en el corazón de la gran nebulosa
Researchers, Inc. Derechos reservados. de emisión NGC 6357 en la constelación de
Escorpio, a unos 8 000 años luz de la Tierra.
página x v i :Jim Gray hablando en el congreso NASA, ESA y Jesús Maíz Apellániz
Computing in the 21st Century en Beijing, octubre (Instituto de Astrofísica de Andalucía,
de 2006. Microsoft Research. España). Dominio público.
página 2 : Imagen de USGS/NASA de la página 244 : Visualización que muestra
cordillera Bogda en China. U. S. Geological los vínculos bibliográficos de la revista Nature.
Survey. Dominio público. Imagen cortesía de Moritz Stefaner y Carl
Bergstrom, http://well-formed.eigenfactor.org.
página 58 : Imagen a color por resonancia
magnética de una mujer. Simon Fraser/Photo
página 248 : Tony Hey, Kristin Tolle y
Researchers, Inc. Derechos reservados.
Stewart Tansley, de Microsoft External Research.
página 116 : Una oblea que contiene el
Vetala Hawkins/Microsoft Corporation.
Teraflops Research Chip de Intel. © Intel
página 252 : Jim Gray en el Tenacious,
Corporation. Derechos reservados.
enero de 2006. Fotografía de Tony Hey.
página 186 : Biblioteca Central, Seattle
(arquitecto principal: Rem Koolhaas).
Vetala Hawkins/Filmateria Digital.
Derechos reservados.
nota : Las direcciones URL pueden caducar por varias razones, sea de manera temporal o
permanente. No todas las direcciones electrónicas en este libro estaban vigentes en el momento
de su publicación, pero hemos podido ingresar a esas páginas mediante distintos servicios, como
Wayback Machine, del Internet Archive, www.archive.org/web/web.php.
Diseño de libro: Katz Communications Group, www.katzcommunications.com.

El cuarto paradigma. Descubrimiento científico intensivo en datos
se terminó de imprimir en el mes de mayo de 2014
en Impresos Trece, S. de R.L. de C.V.
Mar Mediterráneo núm. 30, Colonia Tacuba,
Del. Miguel Hidalgo, 11410, México, D.F.
En su composición se utilizaron los tipos Agenda y Whitman.

La edición consta de 1 000 ejemplares impresos sobre papel couché de 150 g.

4toparadigma PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

4toparadigma PDF

Cargado por

Copyright:

Formatos disponibles

El c UA RT O pA R A DIGM A

COORDINADOR GENERAL DE DIFUSIÓN

DIRECTOR DE PUBLICACIONES Y PROMOCIÓN EDITORIAL

SUBDIRECTOR DE DISTRIBUCIÓN Y PROMOCIÓN EDITORIAL

Copyright © 2009 Microsoft Corporation

Segunda impresión, versión 1.1, octubre 2009.

Microsoft, Amalga, Bing, Excel, HealthVault, Microsoft Surface, SQL Server,

La información, hallazgos, perspectivas y opiniones contenidas en esta publi-

D.R. © 2014, Universidad Autónoma Metropolitana

Esta publicación no puede ser reproducida, total ni parcialmente, ni registrada en un sistema

ISBN de la obra: 978-607-28-0151-6

Impreso en México/Printed in Mexico

xi prólogo Gordon Bell

1 . TIE R R A Y ME DIO AMBIE NTE

2 . SALUD Y BIE N ESTAR

159 la e- ciencia semántica: la codificación de significado en la

4. COMUNICACIÓN ACADÉ MICA

199 el texto en un mundo centrado en datos Paul Ginsparg

241 el camino por recorrer Craig Mundie

GORDON BELL | Microsoft Research

El interés de los científicos de datos —expertos de la información y la com-

En su última conferencia para la Comisión de Ciencias de la Computación y de

EL CUARTO PARADIGM A xiii

BIBLIOTECAS DIGITALES PARA DATOS Y DOCUMENTOS: EQUIPARABLES A LAS MODERNAS

La comunicación científica, incluyendo sus procesos de arbitraje, también expe-

EL CUARTO PARADIGM A xvii

la que visualizo como está cambiando, y lo que la Comisión de Ciencias de la Com-

La e-ciencia es “donde las tecnologías de información y los científicos convergen”.

xviii JIM GRAY SOBRE LA E- CIENCIA

En todas las disciplinas presenciamos la evolución de dos ramas, como se muestra

EL CUARTO PARADIGM A xix

Los problemas genéricos

ENTRE UNA CUARTA PARTE Y LA MITAD DE LOS PRESUPUESTOS PARA EXPERIMENTACIÓN

xx JIM GRAY SOBRE LA E- CIENCIA

En esta sección hago simplemente una observación acerca de la manera en que la

EL CUARTO PARADIGM A xxi

xxii JIM GRAY SOBRE LA E- CIENCIA

EL CUARTO PARADIGM A xxiii

xxiv JIM GRAY SOBRE LA E- CIENCIA

EL CUARTO PARADIGM A xxv

He llegado al final de la primera parte de mi conferencia, que trató sobre la necesidad

xxvi JIM GRAY SOBRE LA E- CIENCIA

EL CUARTO PARADIGM A xxvii

xxviii JIM GRAY SOBRE LA E- CIENCIA

EL CUARTO PARADIGM A xxix

Es mejor que me apresure y comente rápidamente la publicación de datos. He ha-

xxx JIM GRAY SOBRE LA E- CIENCIA

EL CUARTO PARADIGM A xxxi

La transcripción completa y las diapositivas en PowerPoint de la conferencia de Jim

xxxii JIM GRAY SOBRE LA E- CIENCIA

EL CUARTO PARADIGM A xxxiii

DAN FAY | Microsoft Research

4 TIERRA Y MEDIO AMBIENTE

Las leyes de Gray: ALE XAN DE R S.

cómputo científico centrado The Johns Hopkins

Jim Gray formuló una serie de lineamientos o leyes informales que

Es importante notar que el análisis de los conjuntos de datos provenientes de obser-

8 TIERRA Y MEDIO AMBIENTE

Muchos análisis de datos científicos se realizan en una serie jerárquica de pasos. En

10 TIERRA Y MEDIO AMBIENTE

La ciencia experimental está generando grandes volúmenes de datos. El proyecto

12 TIERRA Y MEDIO AMBIENTE

La nueva ciencia de JE FF DOZIE R