Documentos de Académico
Documentos de Profesional
Documentos de Cultura
RECTOR GENERAL
Salvador Vega y León
SECRETARIO GENERAL
Norberto Manjarrez Álvarez
SUBDIRECTORA DE PUBLICACIONES
Laura González Durán
EDITADO POR
TONY HEY, STEWART TANSLEY
Y KRISTIN TOLLE
TRADUCCIÓN DE
JOSÉ LUIS ACOSTA,
RODRIGO CAMBRAY-NÚÑEZ Y
ABDIEL MACÍAS ARVIZU
Título original en inglés The Fourth Paradigm, Microsoft Research, 2009.
Edited by Tony Hey, Stewart Tansley and Kristin Tolle.
ISBN 978-0-9825442-0-4
Microsoft Research
http://research.microsoft.com
Traducción al español: José Luis Acosta, Rodrigo Cambray-Núñez y Abdiel Macías Arvizu
Revisión técnica: Manuel López Michelone
E
ste libro propone un novedoso cuarto paradigma para la ciencia basado
en la computación intensiva en datos. Esta investigación se encuentra en un
momento parecido al de la invención de la imprenta de tipos móviles, que tardó
un milenio en desarrollarse y evolucionar hasta sus múltiples manifestaciones
actuales. El uso de computadoras para obtener conocimientos a partir de los datos creados
y respaldados en nuestros depósitos electrónicos tomará décadas o, quizá, menos. Los
coautores de esta obra han hecho un trabajo extraordinario que ayuda a la comprensión
más precisa de este nuevo paradigma desde diversos puntos de vista especializados.
En varios aspectos, la ciencia va atrás del mundo comercial en cuanto a inferir un
significado a partir de los datos y actuar con base en él. Sin embargo, en los negocios las
cosas son comparativamente sencillas: los objetos que pueden describirse con un nom-
bre o con unos cuantos números se manufacturan para ser comprados y vendidos. Las
disciplinas científicas no pueden encapsularse en unos pocos nombres y números de fácil
comprensión, y muchos datos científicos carecen de un valor económico suficientemente
elevado capaz de propiciar un progreso más intenso de los descubrimientos científicos.
El asistente de Tycho Brahe, Johannes Kepler, al estudiar el catálogo sistemático de
las observaciones astronómicas de Brahe, descubrió las leyes del movimiento planetario.
Con ello se establece la división entre la exploración y el análisis de datos experimen-
tales cuidadosamente registrados y la formulación de teorías. Tal división es un rasgo
propio del cuarto paradigma.
En el siglo xx, los datos que fundamentaban las teorías científicas se hallaban con
frecuencia sepultados en libretas o, para algunos aspectos relacionados con la “alta cien-
cia”, almacenados en medios magnéticos que terminaron siendo ilegibles. En especial
EL CUARTO PARADIGM A xi
los personales y los de pequeños laboratorios, son inaccesibles; en su mayoría, se
desechan cuando el investigador se retira o, acaso, se conservan en una biblioteca
institucional antes de eliminarlos. El registro a largo plazo del origen de los datos, o
el común acceso comunitario a los datos distribuidos, son sólo algunos de los retos.
Afortunadamente, algunos “centros de datos”, como el National Center for At-
mospheric Research1 (ncar), se prestan para recibir investigadores de ciencias de la
Tierra que buscan analizar los datos curados procedentes de mediciones y modelos
computacionales. Con ello, en una sola institución tenemos la cadena de obtención,
curaduría y análisis de datos para toda una disciplina.
En el siglo xxi es muy factible que la mayor parte del vasto y continuo volumen
de datos capturados por nuevos instrumentos de manera ininterrumpida, junto con
la información generada en los mundos artificiales de los modelos computarizados,
residan de manera permanente en una forma viva, de amplio acceso público y curada
para efectos de su continuo análisis. Éste conducirá al desarrollo de nuevas teorías.
Pronto atestiguaremos que los datos se conservan a perpetuidad como materiales de
archivo —como sucede con el registro en papel— y serán accesibles a todos, humanos
y máquinas, en la nube. Es reciente imaginar tal permanencia para los datos como lo
pensamos para los objetos de bibliotecas y museos nacionales. Ese grado de duración
era inverosímil, hasta que notamos que la captura del origen de los datos —incluso los
registros de los investigadores, y a veces toda la información sobre ellos— es lo que
piden y —han deseado— las bibliotecas. La “nube” de polarizaciones magnéticas que
codifica datos y documentos en la biblioteca digital se convertirá en el equivalente
de los kilómetros de estantes de bibliotecas que almacenan papel y tinta.
En 2005, el Consejo Nacional de Ciencia de la National Science Foundation publicó
el informe “Long-Lived Digital Data Collections: Enabling Research and Education in
the 21st Century”, que inicia un diálogo sobre el interés de la preservación de los datos y
la importancia de su cuidado y soporte con un nuevo equipo: los “científicos de datos”:
1
www.ncar.ucar.edu
xii PROLOGO
EL CUARTO PARADIGMA: UN ÉNFASIS EN LOS SISTEMAS INTENSIVOS DE DATOS
Y LA COMUNICACIÓN CIENTÍFICA
7
http://datacentral.sdsc.edu/index.html
xiv PROLOGO
públicas como privadas y para colecciones de datos que dan servicio a una extensa
gama de instituciones científicas, incluyendo laboratorios, bibliotecas y museos.
El Australian National Data Service8 (ands) ofrece servicios como el Register
My Data, una especie de “fichero catalográfico” que registra la identidad, estruc-
tura, nombre y ubicación (dirección ip) de las diversas bases de datos, incluso las
de particulares. El solo hecho de levantar tal registro es un gran paso hacia el
almacenamiento a largo plazo. ands busca influir en la política nacional de su país
en lo tocante al manejo de los datos, e ilustrar sobre las mejores prácticas para la
curación de datos, con lo que las distintas y divergentes colecciones de datos de
investigación se transformarían en un conjunto coherente de recursos de investi-
gación. En el Reino Unido, el Comité Conjunto de Sistemas de Información (jisc,
por sus siglas en inglés) ha financiado la creación del Digital Curation Centre9 para
estudiar estas cuestiones. Se espera que con el tiempo surjan muchos otros centros
de datos como éste. La Dirección de Ciencia e Ingeniería de Computación y de
Información, de la National Science Foundation, lanzó ya una convocatoria para
la solicitudes de becas a largo plazo para investigadores en cómputo intensivo en
datos y en almacenamiento de larga duración.
Esta obra considera en sus capítulos las múltiples oportunidades y desafíos que
entraña la ciencia intensiva en datos, incluídas la cooperación y el entrenamiento
interdisciplinarios, el intercambio de información entre organizaciones para crear
“hibridaciones” (mashups) de datos científicos, la instauración de nuevos procesos y
rutas de trabajo, así como una agenda de investigación que explote las oportunidades
y sostenga la vanguardia de la avalancha de datos. Estos retos exigirán una vasta
inversión económica y operacional. El sueño de erigir una infraestructura de datos
con “sensores ubicuos” que apoye nuevas modalidades de investigación científica
requerirá de una extraordinaria cooperación entre organismos de financiamiento,
científicos e ingenieros. Un sueño que vale la pena alentar y financiar activamente.
REFERENCIAS
[1] National Science Board, Long-Lived Digital Data Collections: Enabling Research and Education in the
21st Century, Technical Report NSB-05-40, National Science Foundation, septiembre de 2005,
www.nsf.gov/pubs/2005/nsb0540/nsb0540.pdf.
[2] Conferencia de Jim Gray al NRC-CSTB en Mountain View, California, el 11 de enero de 2007,
http://research.microsoft.com/en-us/um/people/gray/JimGrayTalks.htm. (Transcripción editada
también en esta obra.)
8
www.ands.org.au
9
www.dcc.ac.uk
EL CUARTO PARADIGM A xv
Jim Gray sobre la e-ciencia:
un método científico transformado
Basado en la transcripción de una conferencia impartida por Jim Gray ante
la Comisión de Ciencias de la Computación y de Telecomunicaciones del
Consejo Nacional de Investigación (nrc-cstb) 1 en Mountain View,
California, el 11 de enero de 2007 2
EDITADO POR TONY HEY, STEWART TANSLEY Y KRISTIN TOLLE | Microsoft Research
T
enemos que mejorar en la producción de herramientas para apo-
yar todo el ciclo de la investigación —desde la captura de los datos y su
curación hasta su análisis y visualización—.1Hoy en día, las herramien-
tas para la captura de datos, tanto a megaescala como a miliescala, son
simplemente terribles. Después de que se han capturado los datos, es necesario
curarlos antes de que se pueda empezar a hacer cualquier tipo de análisis con ellos,
y carecemos de herramientas adecuadas para dicha2curación y análisis. Luego sigue
la publicación de los resultados de la investigación, y la literatura publicada es sólo la
punta del iceberg de datos. Con esto quiero decir que las personas reúnen una gran
cantidad de datos que luego reducen a una determinada cantidad de pulgadas de
columna en Science o en Nature —o a diez páginas si quien escribe es un especialista
en ciencias de la computación—. A lo que me refiero con “iceberg de datos” es que
hay una gran cantidad de ellos que se recopilan, pero que no se curan ni se publican
de manera sistemática. Hay algunas excepciones, y creo que éstas son instancias en
las que debemos basarnos para determinar mejores prácticas. Voy a hablar de cómo
todo el proceso de revisión por pares tiene que cambiar, así como de la manera en
1
National Research Council (NRC), http://sites.nationalacademies.org/NRC/index.htm; Computer Science and
Telecommunications Board (CSTB), http://sites.nationalacademies.org/cstb/index.htm.
2
Esta presentación es, emotivamente, la última publicada en la página web de Jim en Microsoft Research antes
de desaparecer en el mar el 28 de enero de 2007, http://research.microsoft.com/en-us/um/people/gray/talks/
NRCCSTB_eScience.ppt
FIGURA 1.
Muestro esta diapositiva (véase la figura 1) cada vez que imparto alguna conferencia.
Creo que es justo decir que esta idea se me ocurrió en un estudio de la cstb sobre
el futuro de la computación. Decíamos: “Mira, la ciencia computacional es una
FIGURA 2.
tiene que representarse de manera algorítmica. Para conseguir esto necesitamos una
representación estándar de lo que es un gen o de lo que es una galaxia o de lo que es
una medición de temperatura.
Durante los últimos 10 años he estado tratando con astrónomos y tengo la opor-
tunidad de ir a algunas de sus estaciones de base. Quedo maravillado al ver sus
telescopios, es algo simplemente increíble. Se trata de equipo que representa
básicamente una inversión de 15 a 20 millones de dólares, el cual es operado
por unas 20 a 50 personas. Entonces uno entiende que hay literalmente miles
de personas escribiendo código para hacer frente al volumen de información
que genera este instrumento, y de que se necesitan millones de líneas de código
para analizar toda esa información. En realidad, ¡el costo del software domina el
gasto de capital! Esto es cierto en el caso del Sloan Digital Sky Survey (sdss), y
seguirá siendo cierto para proyectos de exploración celeste de mayores dimensio-
nes, y para muchos experimentos a gran escala. No estoy seguro de que el costo
de software sea también dominante en el caso de la comunidad de la física de
partículas y su Gran Colisionador de Hadrones (gch), pero sin duda lo es en los
experimentos del gch.
Para resumir lo que he estado diciendo sobre software, lo que efectivamente nece-
sitamos son “sistemas de administración de información para laboratorios”. Tales
sistemas de software ofrecen una ruta desde los datos que se obtienen mediante el
instrumento o la simulación hasta un archivo o depósito de datos, y es algo que es-
tamos a punto de lograr en varios casos modelo sobre los que he estado trabajando.
Básicamente, colocamos los datos de un grupo de instrumentos en una secuencia
que los calibra y los “limpia”, e inclusive llena los huecos según sea necesario. En
seguida, volvemos a “cuadrar” 5 (re‑grid) la información y finalmente la guardamos en
una base de datos, la cual podríamos “publicar” en internet y de esa manera permitir
que la gente tenga acceso a nuestra información.
3
www.mathworks.com
4
http://office.microsoft.com/en-us/excel/default.aspx
5
Esto significa “regularizar” la organización de los datos de manera que quede una variable de datos por fila, lo cual
es análogo a la normalización en las bases de datos relacionales.
He aquí una situación típica. La gente está reuniendo datos ya sea a partir de
instrumentos o de sensores, o corriendo simulaciones. Muy pronto se ven con
millones de archivos, y no hay una manera fácil de administrar o analizar sus
datos. He ido de puerta en puerta y he visto lo que los científicos han hecho. En
general, hacen una de dos cosas: o bien están buscando agujas en pajares o están
buscando los pajares mismos. Las consultas del tipo “aguja en el pajar” son en
realidad muy fáciles: uno busca anomalías específicas en los datos, y generalmente
se tiene una idea del tipo de señal que se está buscando. Los físicos de partículas
están buscando la partícula de Higgs en el gch, y tienen una buena idea de cómo
se verá en sus detectores el decaimiento de tal partícula pesada. Los arreglos de
clústeres compartidos de computadoras son ideales para consultas del tipo “aguja
en el pajar”, pero son pésimos en el análisis de tendencias, el agrupamiento esta-
dístico y el descubrimiento de patrones globales en los datos.
En realidad necesitamos algoritmos mucho mejores para efectuar operaciones de
agrupamiento y para lo que es esencialmente minería de datos. Desafortunadamente,
los algoritmos de agrupamiento no son de orden N o N log N, sino que típicamente
son cúbicos en N, de modo que cuando N se vuelve demasiado grande este método
no funciona. De esta manera, nos vemos obligados a inventar nuevos algoritmos, y
uno tiene que vivir con respuestas que son sólo aproximadas. Por ejemplo, resulta
La otra cuestión clave es que a medida que los conjuntos de datos se hacen más gran-
des, ya no es posible simplemente transferirlos por ftp o efectuar en ellos búsquedas
mediante expresiones regulares. ¡Es muy difícil transferir por ftp un petabyte de
datos! Así que en algún punto se necesitan índices y acceso en paralelo a éstos, y es
aquí donde las bases de datos pueden ayudar. Para su análisis, una posibilidad es
llevarlos hasta usted, pero la otra es trasladar su consulta hasta los datos. Así que se
6
www.hdfgroup.org
7
www.unidata.ucar.edu/software/netcdf
Lo que he estado sugiriendo hasta ahora es que actualmente tenemos pésimas herra-
mientas para la administración de datos en la mayoría de las disciplinas científicas.
Las organizaciones comerciales como Walmart pueden permitirse el lujo de construir
su propio software de administración de datos, pero en la ciencia no podemos darnos
ese lujo. En la actualidad, difícilmente contamos con herramientas de visualización y
análisis de datos. Algunas comunidades de investigación utilizan matlab, por ejem-
plo, pero los organismos de financiamiento en Estados Unidos y en otras partes tienen
que hacer mucho más para promover la construcción de herramientas que permitan
a los científicos ser más productivos. Es verdaderamente pavoroso ir y ver lo que los
científicos están haciendo día tras día en términos de análisis de datos. Y sospecho
que muchos de ustedes están en la misma situación en la que me encuentro: ¡Esen-
cialmente las únicas herramientas que tengo a mi disposición son matlab y Excel!
Sí contamos con algunas buenas herramientas, como los clústeres Beowulf,8
que nos ofrecen cómputo rentable de alto rendimiento mediante la combinación de
muchas computadoras de bajo costo. Tenemos un software llamado Condor,9 el cual
permite recolectar ciclos de procesamiento de máquinas departamentales. Asimis-
mo, tenemos el boinc10 (Berkeley Open Infrastructure for Network Computing),
que es un software que permite la recolección de ciclos de pc como en el proyecto
seti@Home. Y tenemos algunos productos comerciales como el matlab. Todas estas
herramientas surgieron de la comunidad de investigación, y no puedo entender por
qué éstas en particular tuvieron éxito.
También tenemos el Linux y el Unix Freebsd. El Freebsd antecedió a Linux, pero de
alguna manera Linux despegó y Freebsd no. Creo que estas cuestiones tienen mucho
que ver con la comunidad, las personalidades y el momento. Así que mi sugerencia
es, simplemente, que debiéramos tener muchas cosas. Tenemos herramientas co-
merciales como Labview,11 por ejemplo, pero debiéramos crear otros tantos sistemas
similares. Y sólo necesitamos esperar que algunos de éstos despeguen. No debiera
ser muy caro sembrar un gran número de proyectos.
8
www.beowulf.org
9
www.cs.wisc.edu/condor
10
http://boinc.berkeley.edu
11
www.ni.com/labview
12
Véase el Open Access Newsletter de Peter Suber para un resumen de la situación actual: www.earlham.edu/~peters
/fos/newsletter/01-02-08.htm.
FIGURA 3.
Regresa usted un año después y se repite la historia. Tres años más tarde, el médico
lo llama y le dice: “Andy, ¡descubrimos que usted tiene X!” Pregunta usted: “¿Qué
es X?”, y él responde: “No tengo idea, es una enfermedad rara, pero hay un tipo en
Nueva York que sabe todo acerca de ella”. Así que entra a Google13 y escribe todos sus
síntomas. En la primera página de los resultados aparece X. Selecciona el enlace y es
dirigido a PubMed Central y al resumen del artículo “Todo acerca de X”. Selecciona
eso y llega al sitio de la New England Journal of Medicine, donde se le pide: “Páguenos
por favor 100 dólares y le permitiremos leer acerca de X”. Busca y encuentra que
el autor trabaja para los nih, que funciona gracias al dinero de sus impuestos. Por
lo anterior, Lieberman14 y otros han manifestado: “Esto es un asco. La información
científica pasa ahora por un filtro de revisión de expertos y se coloca en el dominio
público, pero sólo en el sentido de que cualquiera puede leerla si paga por ello. ¿De
qué se trata entonces? Ya hemos pagado por ello”.
Los editores académicos ofrecen el servicio de organizar la revisión por pares,
imprimir la revista y distribuir la información a las bibliotecas. Sin embargo, internet
es ahora nuestro distribuidor, y es más o menos gratuito. Todo esto está relacionado
con el momento de reflexión por el que está pasando la sociedad acerca de dónde
inicia y dónde termina la propiedad intelectual. La literatura científica, y en par-
13
O como Jim podría haber sugerido hoy: Bing.
14
Ley Federal de Acceso Público a la Investigación (Federal Research Public Access Act), de 2006, por Cornyn y
Lieberman.
¿Cómo funciona la nueva biblioteca? Bueno, es gratis porque es muy fácil publicar
una página o un artículo en internet. Cada uno de ustedes puede darse el lujo de
publicar en PubMed Central. Sólo le costaría unos pocos miles de dólares obtener
una computadora —¡aunque no sé qué cantidad de accesos tendría!—. Sin embargo,
la curaduría no es barata. Colocar la información en la computadora, interindexarla
y todo ese tipo de cuestiones implican para la nlm un costo de curaduría de alre-
dedor de 100 dólares por artículo presentado. Si recibe un millón de artículos al
año, que es aproximadamente lo que espera obtener, sólo la curación del material
va a costar 100 millones de dólares anuales. Por eso es necesario automatizar todo
el proceso de curación.
Lo que está sucediendo ahora es que PubMed Central, el brazo digital de la nlm, se
ha vuelto portátil. Hay versiones de PubMed Central en funcionamiento en el Reino
Unido, en Italia, en Sudáfrica, en Japón y en China. La del Reino Unido se puso en línea
apenas la semana pasada. Podrán entender ustedes, por ejemplo, que los franceses no
quieren que su biblioteca nacional de medicina se encuentre en Bethesda, Maryland,
o en inglés. Y los ingleses no quieren que el texto esté en inglés estadounidense, por
lo que la versión del Reino Unido probablemente utilizará, para lo que aparezca en
su interfaz Web, la ortografía del inglés británico. Pero fundamentalmente, se puede
colocar un documento en cualquiera de estos archivos y éste se reproducirá en el resto.
Es bastante barato administrar alguno de estos archivos, pero los grandes desafíos
radican en cómo hacer la curación y el arbitraje o revisión por pares.
REVISTAS ARBITRADAS DE ACCESO ABIERTO
Así es como pienso que podría funcionar, para lo cual me baso en el concepto de
las revistas arbitradas de acceso abierto (overlay journals). La idea es que tenemos
Esto no es una cuestión que les haya preocupado a ustedes, pero mucha gente dice:
“¿Por qué es absolutamente necesaria la revisión por pares? ¿Por qué no sólo tenemos
una wiki?” Y pienso que la respuesta es que la revisión por pares es diferente. Está
muy estructurada, se modera y hay determinado grado de confidencialidad sobre
lo que dice la gente. Una wiki es mucho más igualitaria. Creo que las wikis tienen
mucho sentido si se trata de reunir comentarios acerca de la literatura después de que
se ha publicado determinado artículo. Se necesita alguna estructura para el proceso
de revisión por pares, como la que provee la cmt.
LA PUBLICACIÓN DE DATOS
Estamos tratando de hacer objetivos los conocimientos. Podemos ayudar con cues-
tiones básicas como las unidades, lo que es una medición, quién tomó esa medición
y cuándo la tomó. Éstas son cuestiones genéricas que se aplican en todos los campos.
Aquí [en Microsoft Research] hacemos ciencia de la computación. ¿Qué queremos
decir con planeta, estrella y galaxia?; eso es astronomía. ¿Qué es un gen?; eso es
15
www.ncbi.nlm.nih.gov/Genbank
16
www.ncbi.nlm.nih.gov/Entrez
He querido exponer que casi todo lo relacionado con la ciencia está cambiando
gracias al impacto de la tecnología de la información. Las ciencias experimentales,
las teóricas y las computacionales todas están siendo afectadas por la avalancha de
datos, y está surgiendo un cuarto paradigma de la ciencia: la ciencia intensiva
en datos. La meta es tener un mundo en el que toda la literatura científica esté en
línea, todos los datos científicos estén en línea, y que interactúen. Se necesitan mu-
chas herramientas nuevas para que esto suceda.
NOTA DE LOS EDITORES
17
www.fourthparadigm.org
Introducción
E
l cambio es inevitable: el universo se expande, la na-
turaleza se adapta y evoluciona, y así deben hacerlo las
herramientas científicas y las tecnologías que empleamos
para alimentar nuestra búsqueda implacable de mayores
conocimientos en las ciencias del espacio, de la Tierra y del medio
ambiente. Las oportunidades y los desafíos son muchos. Las nuevas
tecnologías computacionales, tales como la computación en la nube
y los procesadores multinúcleo, no pueden proporcionarnos la solu-
ción completa en sus formas genéricas, pero la aplicación efectiva y
oportuna de tales tecnologías nos puede ayudar a avanzar de manera
significativa en nuestra comprensión del mundo, incluyendo sus
desafíos ambientales y cómo podríamos abordarlos.
Con la ciencia en proceso de volverse computacional y basada
en datos, los principales retos tecnológicos incluyen la necesidad
de capturar, analizar, modelar y visualizar información científica
de mejor manera. El objetivo final es ayudar a los científicos, a los
investigadores, a los responsables de políticas y al público en general
en la toma de decisiones informadas. Conforme la sociedad exige
acción y capacidad de respuesta a los crecientes problemas ambien-
tales, los nuevos tipos de aplicaciones basadas en la investigación
científica tendrán que pasar del descubrimiento puro y la obten-
ción de datos básicos que conducen al conocimiento, a informar
la toma de decisiones prácticas. Problemas apremiantes como el
EL CUARTO PARADIGM A 3
cambio climático no esperarán hasta que los científicos reúnan todos los datos para
llenar sus vacíos de conocimiento.
Como se desprende de los capítulos de esta parte del libro, los científicos en
realidad están buscando activamente el saber científico mediante el uso de nuevas
tecnologías computacionales. Szalay y Blakeley describen las reglas informales de
Jim Gray para el desarrollo centrado en datos, y la forma en que sirven como modelo
para lograr que conjuntos de datos a gran escala sean accesibles mediante el uso de
bases de datos, aprovechando tanto los sistemas de administración de datos como
el procesamiento en paralelo incorporados a los servidores sql.
Con el fin de facilitar la toma informada de decisiones con base en evidencias
científicas confiables, Dozier y Gail exploran cómo el uso aplicado de la tecnología y
de los conocimientos científicos actuales son clave para proporcionar herramientas
a los responsables de las políticas y de la toma de decisiones. Hunt, Baldocchi y Van
Ingen describen los cambios en curso en las ciencias ecológicas, que están pasando
de la “ciencia en lo pequeño” a las grandes colaboraciones basadas en la síntesis de da-
tos. Estos conjuntos agregados de datos exponen la necesidad de herramientas
de colaboración en la nube, así como de herramientas de visualización y de análi-
sis fáciles de usar. A continuación, Delaney y Barga proporcionan perspicaces in-
tuiciones convincentes sobre la necesidad de monitorear en tiempo real la compleja
dinámica en el mar mediante la creación de un laboratorio marino interactivo. Esta
novedosa ciberinfraestructura permitirá nuevos descubrimientos y conocimientos
a través de mejores modelos oceánicos.
Goodman y Wong destacan la necesidad de nuevas tecnologías de exploración
científica. Para impulsar la vinculación entre los recursos existentes, los astróno-
mos pueden usar una nueva clase de herramientas de visualización, tales como el
WorldWide Telescope (wwt). Esta nueva clase de herramienta ofrece acceso a datos e
información no sólo a los científicos profesionales, sino también al público en general,
tanto para la educación como para posiblemente permitir nuevos descubrimientos
por parte de cualquier persona que tenga acceso a Internet. Por último, Lehning y sus
colaboradores proporcionan detalles acerca del uso de sensores en tiempo real den-
samente desplegados en combinación con recursos de visualización para una mayor
comprensión de la dinámica del ambiente —como un telescopio virtual que mira hacia
la Tierra—. Estas aplicaciones ilustran cómo los científicos y los tecnólogos tienen la
oportunidad de implicar y hacer participar a científicos ciudadanos en sus esfuerzos.
En la Parte 1, y en todo el libro, veremos cómo es que nuevos sensores e infraes-
tructuras permiten el acceso en tiempo real a potencialmente enormes cantidades de
EL CUARTO PARADIGM A 5
TIERR A Y MEDIO AMBIENTE
E
l crecimiento explosivo de los datos científicos plantea
un desafío importante a la investigación de frontera. Ante
conjuntos de datos que rebasan las decenas de terabytes,
los científicos no cuentan con herramientas comerciales
prediseñadas que puedan aplicar en el manejo y análisis de la in-
formación [1]. Los proyectos exitosos a la fecha han recurrido a
distintas combinaciones de archivos planos y bases de datos [2]; sin
embargo, muchas de estas soluciones han sido creadas a la medida
de proyectos específicos y su generalización o escalamiento para la
próxima generación de experimentos no parece una tarea sencilla.
Por otro lado, las modernas arquitecturas computacionales pre-
sentan un creciente desequilibrio; la brecha de latencia entre los
cpu multinúcleo y los discos duros mecánicos aumenta cada año,
lo que dificulta aún más remontar los retos que supone el cómputo
intensivo en datos [3]. Es necesario un enfoque sistemático general
respecto a estos problemas, aunado al diseño de arquitecturas con
capacidad de escalamiento futuro.
LAS LEYES DE GRAY
EL CUARTO PARADIGM A 7
1. El cómputo científico se está volviendo cada vez más intensivo en datos.
2. La solución radica en una arquitectura con “escalabilidad horizontal”.
3. Llevar los cálculos a los datos, más que los datos a los cálculos.
4. Empezar el diseño con las “20 preguntas”.
5. Avanzar de “funcional a funcional”.
Uno de los problemas más desafiantes al diseñar bases de datos científicas es esta-
blecer una comunicación efectiva entre el autor de la base de datos y los científicos
del área interesados en el análisis. Casi todos los proyectos cometen el error de tratar
de ser “todo para todos”; es claro que algunas funciones son más importantes que
EL CUARTO PARADIGM A 9
otras y que es necesario hacer algunas concesiones en el diseño, lo que conlleva
concesiones de desempeño.
Jim Gray creó la regla heurística de las “20 preguntas”. En cada proyecto en el
que participaba solicitaba a los investigadores una lista de las 20 preguntas más
importantes que querían que respondiera el sistema de datos. Él sostenía que cinco
preguntas no son suficientes para ver un patrón más amplio y que 100 preguntas
producirían una pérdida de enfoque. Como casi toda elección que incluye decisiones
humanas sigue una distribución de “larga cola” —la llamada distribución 1/f—, es
claro que la información relativa en las preguntas ordenadas por importancia es
logarítmica; por lo tanto, la ganancia obtenida al pasar de unas 20 (24.5) preguntas
a 100 (26.5) es muy pequeña [14].
La regla de las “20 preguntas” es sólo un rótulo para designar una etapa en el
diseño donde el científico del área y el ingeniero de bases de datos entablan una con-
versación que ayuda a superar la brecha semántica entre los sustantivos y los verbos
que se emplean en el campo científico en cuestión y las entidades y relaciones que se
almacenan en la base de datos. Las preguntas definen así el conjunto específico de
consultas, en términos de entidades y relaciones, que los científicos del área esperan
hacerle a la base de datos. Al final de un ciclo completo de este ejercicio, el científico
y la base de datos hablan el mismo idioma.
Esta estrategia ha sido muy exitosa para mantener el proceso de diseño enfocado
en las funciones más importantes que el sistema debe proveer y, al mismo tiempo,
ayudar a los científicos del área a entender mejor las limitaciones del sistema de base
de datos, reduciendo así la “sobrecarga de funciones”.
Otra regla de diseño es avanzar de versión funcional en versión funcional. Gray
era plenamente consciente de la rapidez con que cambia la arquitectura del cómputo
basado en datos, especialmente si esos datos son distribuidos. Nuevos paradigmas de
cómputo distribuido nacen y mueren cada año, haciendo sumamente difícil emprender
un ciclo descendente (top-down) de diseño e implementación que abarque un periodo
de varios años, ya que para cuando tal proyecto se concluye las premisas iniciales han
quedado obsoletas. Si construimos un sistema que comience a funcionar únicamente
cuando todos sus componentes funcionen de manera correcta, nunca terminaremos.
En un contexto así, la única manera de sobrevivir y progresar es construir sistemas
modulares en los que cada componente individual pueda ser reemplazado cuando la
tecnología en la cual está basado evolucione. Las actuales arquitecturas orientadas
a servicios son un buen ejemplo de esto; los servicios Web han pasado ya por varias
etapas evolutivas y el fin de este proceso aún no se vislumbra.
Hemos abordado de manera exitosa varios proyectos del rango de unos cuantos
terabytes (tb) a decenas de terabytes utilizando Microsoft sql Server [15-17]. La
implementación de bases de datos que pronto excederán los 100 tb aparenta ser
también un proceso directo [18]; pero no es del todo claro cómo es que la ciencia
podrá cruzar la barrera de los petabytes. En la medida en que las bases de datos
sigan creciendo, tendrán que recurrir a arquitecturas cada vez más escalables ho-
rizontalmente. Los datos estarán fuertemente segmentados, provocando que las
consultas distribuidas no locales y las combinaciones distribuidas (distributed joins)
sean cada vez más difíciles.
Para casi todos los problemas que actualmente alcanzan la escala de los petabytes
se ha aplicado con éxito una estrategia simple de rastreo sobre particiones de datos
masivamente escaladas horizontalmente y que no tienen elementos en común (Map-
Reduce, Hadoop, etc.). Sin embargo, es claro que este diseño está muy por debajo
de lo óptimo, ya que un buen índice podría mejorar el desempeño en varios órdenes
de magnitud. Las combinaciones entre tablas de muy diferentes cardinalidades son
particularmente difíciles de usar con los rastreadores (crawlers).
Las bases de datos tienen mucho que ofrecernos en términos de planes más
eficientes. También tenemos que repensar la utilidad de esperar un conjunto mo-
nolítico de resultados. Podemos imaginar rastreadores trabajando sobre bases de
datos altamente segmentadas, implementando una estructura que pueda generar
resultados un bloque a la vez, lo que facilitaría el control punto a punto y la recu-
peración en medio de una consulta extensa. Esta estrategia también es útil para
funciones agregadas con una cláusula que detendría la búsqueda cuando se estime
que el resultado se acerca, digamos, a un 99% de exactitud. Estas sencillas mejoras
serían de gran ayuda para evitar enormes consultas monolíticas, dividiéndolas en
consultas pequeñas y más manejables.
La computación en la nube es otro paradigma que ha surgido recientemente. Ofre-
ce ventajas evidentes como la ubicación concurrente de los datos con los cómputos
y una economía de escala en el alojamiento Web de los servicios. Si bien es evidente
que estas plataformas desempeñan muy bien las tareas para las que están pensadas
en los motores de búsqueda o en los sistemas de alojamiento flexible de sitios Web
comerciales, su papel en la informática científica está todavía por definirse. En algu-
nos escenarios de análisis científico, los datos tienen que estar cerca del experimento;
en otros casos, los nodos tienen que estar estrechamente integrados con una latencia
muy baja, y en otros casos más se requiere un gran ancho de banda de e/s. Ninguna
EL CUARTO PARADIGM A 11
de estas estrategias de análisis daría resultados óptimos en los actuales ambientes de
virtualización. Ciertamente, se espera que nubes de datos más especializadas surjan
pronto. En los próximos años veremos si la computación científica se traslada de las
universidades a los proveedores comerciales de servicios o si es necesario que los
grandes almacenes de datos científicos se fusionen en uno solo.
CONCLUSIONES
REFERENCIAS
[1] A. S. Szalay y J. Gray, “Science in an Exponential World”, Nature, vol. 440, 2006, pp. 23-24, doi:
10.1038/440413a.
[2] J. Becla y D. Wang, “Lessons Learned from Managing a Petabyte”, ponencia presentada en CIDR
2005, Asilomar, CA, 2005, doi: 10.2172/839755.
EL CUARTO PARADIGM A 13
TIERR A Y MEDIO AMBIENTE
L
as ciencias de la tierra y del medio ambiente han tran-
sitado por dos fases y están entrando a una tercera. En la
primera fase, que terminó hace dos décadas, las ciencias de
la Tierra y el medio ambiente estaban, sobre todo, estruc-
turadas por disciplinas y se dedicaban a desarrollar conocimientos
en geología, química atmosférica, ecosistemas y otros aspectos del
sistema Tierra. En la década de los ochenta, la comunidad científica
reconoció la cercanía entre estas disciplinas y empezó a estudiar-
las como elementos de un mismo sistema que interactúan entre
sí. Durante esta segunda fase surgió como paradigma la ciencia
del sistema Tierra. Con ello se desarrolló la capacidad de entender
algunos fenómenos complejos de naturaleza sistémica, como el
cambio climático, por ejemplo, que vincula conceptos de ciencias de
la atmósfera, biología y comportamiento humano. Era esencial para
el estudio de los sistemas interactuantes de la Tierra la capacidad de
adquirir, administrar y hacer accesibles los datos de observaciones
satelitales; en paralelo, se desarrollaron nuevos modelos para ex-
presar nuestro creciente entendimiento de los procesos complejos
en el dinámico sistema terrestre [1].
En la naciente tercera fase, el conocimiento, desarrollado princi-
palmente con el propósito de la comprensión científica, se comple-
menta con conocimiento orientado específicamente a la toma de de-
cisiones prácticas y a la acción. Este nuevo impulso del conocimiento
EL CUARTO PARADIGM A 15
puede denominarse ciencia de las aplicaciones ambientales. El cambio climático provee
el ejemplo más prominente de la importancia de esta transformación. Hasta ahora,
la comunidad de la ciencia del clima se ha enfocado en preguntas fundamentales que
involucran conocimiento básico, desde medir la magnitud del cambio hasta deter-
minar las causas. Con las nociones básicas establecidas, está surgiendo la demanda
de conocimiento sobre aplicaciones del clima. ¿Cómo cuantificar y monitorear la
biomasa total de un bosque para que los mercados de carbón puedan definir sus
reservas? ¿Qué implicaciones pueden tener los cambios regionales de los recursos
hídricos en las tendencias demográficas, el rendimiento agrícola y la producción
energética? ¿Hasta qué punto los diques y otras adaptaciones a los crecientes niveles
marinos repercutirán en las costas?
Estas preguntas son contestadas por la ciencia básica, pero plantean otras cues-
tiones que únicamente pueden ser abordadas por una nueva disciplina científica,
enfocada específicamente en aplicaciones, que integre procesos físicos, biogeoquí-
micos, humanos y de ingeniería. Sus temas primordiales reflejan una curiosidad
fundamental acerca de la naturaleza del mundo en el que vivimos, matizada por el
hecho de que la importancia de una pregunta pesa tanto como su relevancia para un
imperativo social. El ganador del Premio Nobel y Secretario de Energía de Estados
Unidos, Steven Chu, dijo: “Buscamos soluciones, no buscamos más —¿me atreveré
a decirlo así?— artículos científicos” [2].
Para ilustrar las relaciones entre ciencia básica y de aplicaciones, consideremos
el papel que juega la escorrentía del deshielo en las reservas de agua. En el mundo,
mil millones de personas dependen del deshielo de nieve o glaciar para cubrir sus
necesidades de agua [3]. Tradicionalmente, el diseño y la operación de sistemas de
agua se han apoyado en mediciones históricas en el contexto de un clima estaciona-
rio, así como en relaciones empíricas y modelos. Como los climas y el uso del suelo
cambian, las poblaciones crecen y emigran y los sistemas que construimos envejecen y
decaen, estos métodos empíricos para manejar nuestras aguas se tornan inexactos; un
dilema que puede resumirse con la frase “lo estacionario ha muerto” [4]. El deshielo
normalmente provee agua para necesidades en competencia: suministro urbano y
agrícola, energía hidroeléctrica, esparcimiento y ecosistemas. En muchas áreas se
presentan tanto lluvias como nevadas, lo que suscita la preocupación de que un futuro
clima más cálido provocará que un mayor porcentaje de la precipitación sea en forma
de lluvia, con lo que el agua llegará meses antes de los picos de demanda agrícola
y cuya mayor escorrentía generará más inundaciones. En estos sistemas mixtos de
nieve y lluvia la necesidad social es la siguiente: ¿Cómo mantenemos el control de
EL CUARTO PARADIGM A 17
sobre la cuantificación total de carbón de un bosque. Será dictada por decisiones
políticas y económicas. La construcción y reparación de la infraestructura urba-
na de agua no esperará a una comprensión de los patrones evolutivos de precipi-
tación. La ciencia de las aplicaciones debe estar preparada para informar sobre
acciones sujetas a estos intereses externos, y no a plazos académicos basados en
cuándo y cómo puede obtenerse el conocimiento más pertinente.
• Consecuencias y recursividad. Acciones basadas en nuestro conocimiento de
la Tierra frecuentemente la modifican, generando la necesidad de un nuevo co-
nocimiento sobre aquello que hemos cambiado. Por ejemplo, mientras más
conocimiento tuvimos acerca de la ubicación de poblaciones de peces, más han
sido estas poblaciones sobreexplotadas; nuestro conocimiento inicial sobre ellas
se volvió rápidamente obsoleto a causa de nuestras acciones. La ciencia de las
aplicaciones busca entender no sólo los aspectos de la Tierra involucrados en
un plan de uso particular, sino también las consecuencias y externalidades que
resultan de ese escenario. Un ejemplo reciente es el cambio en el uso de suelo
para agricultura a siembra de maíz para producción de etanol, un esfuerzo para
reducir el cambio climático que más bien ha resultado ser una carga significativa
en los escasos recursos hídricos.
• Útil aun antes de ser terminado. El ejemplo de la capa de nieve muestra que
frecuentemente es necesario emprender acciones aun con datos incompletos o
un conocimiento parcial. La dificultad de tener confianza en la calidad de nues-
tro conocimiento es particularmente desconcertante dada la pérdida de estabi-
lidad generada por el cambio climático. Nuevos medios de hacer uso efectivo de
conocimiento parcial deben ser desarrollados, incluyendo máquinas de inferen-
cia robusta e interpretación estadística.
• Escalable. El conocimiento de la ciencia básica no siempre puede ser escalado
para cubrir las necesidades de las aplicaciones. El ejemplo del comercio del car-
bón deja claro el punto. La ciencia básica nos dice cómo relacionar el contenido
del carbón con las mediciones de tipo y densidad de vegetación, pero no nos da
las herramientas para conseguir un inventario global. Nuevas herramientas de
conocimiento deben ser generadas para crear y actualizar con exactitud este in-
ventario por medio de una teledetección rentable u otros medios.
• Robusto. Los tomadores de decisiones que utilizan conocimiento de aplicacio-
nes normalmente tienen una comprensión limitada de cómo fue desarrollado el
EL CUARTO PARADIGM A 19
Elevation,
Elevación,km
km MODIS,
MODIS,19 enero
19 Jan 2008
2008 Fractional
Área snow-covered
fraccional area
cubierta de nieve
Bandas
Bands2,2,4,3
3, 4 (RGB)
(RGB)
0 1 2 3 4 0 0.25 0.5 0.75 1.0
41N
40N
39N
38N
37N
36N
35N
122W 120W 118W 122W 120W 118W 122W 120W 118W
FIGURA 1.
Esta imagen es una muestra del tipo de datos que son útiles al hacer un análisis de la cubier-
ta de nieve. El panel izquierdo muestra las elevaciones de la Sierra Nevada y el Valle Central
de California, así como una porción del noroeste de Nevada. El panel central muestra los
datos satelitales sin procesar en tres bandas espectrales (0.841-0.876, 0.545-0.565 y 0.459-
0.479 μm) del espectrorradiómetro de imágenes de resolución moderada (modis, por sus
siglas en inglés) de la nasa, que genera datos globales diariamente a una resolución de 250 a
1 000 m en 36 bandas espectrales. Desde siete bandas “terrestres” a una resolución de 500 m
obtenemos el área fraccional de cobertura de nieve; es decir, el porcentaje cubierto por nieve
de cada celda de de 500 m de la cuadrícula, como se muestra en el panel derecho [10].
REFERENCIAS
[1] National Research Council, Earth Observations from Space: The First 50 Years of Scientific Achieve-
ment, Washington, D.C., National Academies Press, 2007.
[2] R. DelVecchio, “UC Berkeley: Panel Looks at Control of Emissions”, S.F. Chronicle, 22 de marzo de 2007.
[3] T. P. Barnett, J. C. Adam y D. P. Lettenmaier, “Potential Impacts of a Warming Climate on Water
Availability in Snow-Dominated Regions”, Nature, vol. 438, 2005, pp. 303-309, doi: 10.1038/
nature04141.
[4] P. C. D. Milly, J. Betancourt, M. Falkenmark, R. M. Hirsch, Z. W. Kundzewicz, D. P. Lettenmaier
y R. J. Stouffer, “Stationarity is Dead: Whither Water Management?”, Science, vol. 319, 2008,
pp. 573-574, doi: 10.1126/science.1151915.
[5] R. C. Bales, N. P. Molotch, T. H. Painter, M. D. Dettinger, R. Rice y J. Dozier, “Mountain
Hydrology of the Western United States”, Water Resour. Res., vol. 42, 2006, W08432, doi:
10.1029/2005WR004387.
EL CUARTO PARADIGM A 21
[6] J. D. Lundquist y M. D. Dettinger, “How Snowpack Heterogeneity Affects Diurnal Streamflow
Timing”, Water Resour. Res., vol. 41, 2005, W05007, doi: 10.1029/2004WR003649.
[7] D. W. Cline, R. C. Bales y J. Dozier, “Estimating the Spatial Distribution of Snow in Mountain
Basins Using Remote Sensing and Energy Balance Modeling”, Water Resour. Res., vol. 34, 1998,
pp. 1275-1285, doi: 10.1029/97WR03755.
[8] N. P. Molotch y R. C. Bales, “Scaling Snow Observations from the Point to the Grid Element:
Implications for Observation Network Design”, Water Resour. Res., vol. 41, 2005, W11421, doi:
10.1029/2005WR004229.
[9] C. L. Tague y L. E. Band, “RHESSys: Regional Hydro-Ecologic Simulation System—An
Object-Oriented Approach to Spatially Distributed Modeling of Carbon, Water, and Nutrient
Cycling”, Earth Int., vol. 8, núm. 19, 2004, pp. 1-42.
[10] T. H. Painter, K. Rittger, C. McKenzie, R. E. Davis y J. Dozier, “Retrieval of Subpixel Snow-
Covered Area, Grain Size, and Albedo from MODIS”, Remote Sens. Environ., vol. 113, pp. 868-879,
2009, doi: 10.1016/j.rse.2009.01.001.
L
a ecología es el estudio de la vida y sus interacciones con
el entorno físico. El cambio climático exige adaptación rápida,
por tanto, son esenciales nuevas herramientas de análisis de
datos para cuantificar esos cambios en un medio natural de
gran variabilidad. La ecología es una ciencia en la que los estudios se
han realizado principalmente por pequeños grupos de personas, con
datos registrados y almacenados en cuadernos de notas. Actualmente
se llevan a cabo grandes estudios de síntesis mediante esfuerzos de
colaboración que involucran a cientos de científicos. Estos esfuerzos
mayores son esenciales a la luz de dos procesos de cambio: uno de
ellos en la forma en que se hace la ciencia y otro que afecta el tipo de
preguntas que hacemos respecto al manejo de los recursos. Aunque
los estudios de síntesis colaborativos son todavía incipientes su cre-
ciente importancia es clara. El apoyo computacional es parte integral
de estas colaboraciones y un punto clave para el proceso científico.
CÓMO LOS CAMBIOS GLOBALES ESTÁN CAMBIANDO LA CIENCIA ECOLÓGICA
EL CUARTO PARADIGM A 23
extremos como las sequías, afectan el intercambio neto de carbono entre vegetación
y atmósfera. Esta pregunta abarca muchas disciplinas de las ciencias de la Tierra con
sus respectivos datos, modelos y suposiciones.
Estos cambios requieren un nuevo enfoque para resolver preguntas sobre gestión
de recursos. En las próximas décadas los ecosistemas no podrán ser restaurados a
su estado original. Por ejemplo, con un calentamiento climático en la costa oeste de
Estados Unidos, ¿podrían utilizarse los datos históricos de las cuencas costeras del sur
de California para predecir el hábitat de los peces en las cuencas costeras del norte de
California? Del mismo modo, ¿qué información podemos obtener sobre deforestación
por medio de detección a distancia? Para afrontar estos desafíos son necesarias síntesis
de datos y modelos que abarquen escalas que vayan de lo local (piscinas fluviales) a lo
global (circulaciones oceánicas) y escalas
temporales desde unas decenas de mili-
segundos hasta siglos. En milímetros
500
UN EJEMPLO DE SÍNTESIS ECOLÓGICA
3
www.fluxdata.org:8080/SitePages/siteInfo.aspx?US-Ton
4
www.watersnet.org
5
www.lifeunderyourfeet.org
EL CUARTO PARADIGM A 25
incluso grupos de ciudadanos científicos como Community Collaborative Rain, Hail
and Snow Network6 y el usa National Phenology Network.7
Si bien el grueso de los datos son digitales al comienzo, originados en un sensor
de campo, radar o satélite, los datos históricos y de campo, que son fundamentales
para la ciencia, están en proceso de digitalización. Estos últimos datos no siempre son
series de tiempo uniformemente espaciadas; pueden incluir la fecha en que comienza
el brote de las hojas o imágenes aéreas en diferentes resoluciones y longitudes de
onda, para calcular cantidades en la cuenca como humedad del suelo, vegetación y
uso de suelo. Derivar variables de ciencia de la detección a distancia sigue siendo un
área activa en la investigación; por lo que arduas mediciones de campo frecuente-
mente son la verdad básica necesaria para desarrollar algoritmos de conversión. Las
observaciones científicas de campo que hacen los ciudadanos, tales como la especie
de planta, el crecimiento de plantas (fechas de brote, crecimiento de anillos de árbol,
entre otros) y el conteo de peces y pájaros, son cada vez más importantes. Es un reto
creciente para el análisis científico lograr la integración de información tan diversa.
NAVEGANDO EN LA INUNDACIÓN DE DATOS ECOLÓGICOS
6
w ww.cocorahs.org
7
www.usanpn.org
8
w ww.sciscope.org
9
www.opengeospatial.org
Los grandes conjuntos de datos de síntesis están iniciando una migración desde las
computadoras de escritorio hacia la nube. La mayor parte de los conjuntos de datos de
la ciencia ecológica provienen de colecciones de archivos. Un ejemplo es el conjunto
de datos de síntesis Fluxnet LaThuile, que contiene 966 años de datos en registros
acumulados provenientes de sensores en 253 sitios alrededor del mundo. Los datos
de cada registro anual acumulado son publicados como un archivo separado por
comas o como un archivo listo para su utilización en matlab, en agregados ya sea
diarios o de cada media hora. La mayor parte de los científicos descarga algunos o
todos los archivos y los analiza localmente. Otros científicos utilizan la alternativa
de un servicio de nube que vincula el matlab de la computadora de escritorio a un
cubo de datos de los servicios de análisis de sql Server en la nube. Los datos parecen
locales, pero los científicos no necesitan preocuparse por el manejo de cada archi-
vo. La descarga y manipulación locales de los datos de la detección a distancia que
complementarían esos datos de sensores no son prácticos para muchos científicos.
Actualmente un análisis de nube en progreso, que utilice tanto los datos de detección
a distancia, como los datos de sensor para calcular cambios en la evapotranspiración
en Estados Unidos en los últimos 10 años, descargará 3 terabytes de imágenes y
usará 4 000 horas de procesamiento para generar menos de 100 mb de resultados.
No hacer el análisis en una computadora de escritorio aprovecha el ancho de banda,
así como la gran capacidad de almacenamiento temporal y la capacidad de cómputo
disponible en la nube.
Los estudios de síntesis también generan la necesidad de herramientas de colabo-
ración en la nube. Los datos científicos tienen valor para sus propietarios, ya que ge-
neran publicaciones, apoyos, reputación y estudiantes. Compartir datos con los otros
debería aumentar más que disminuir ese valor. Determinar un sistema apropiado de
citas, reconocimientos o políticas de coautoría para artículos de síntesis se mantiene
como un área de discusión activa en colaboraciones más grandes como Fluxnet10 y el
10
www.fluxdata.org
EL CUARTO PARADIGM A 27
North American Carbon Program.11 Las limitaciones de espacio y autoría en revistas
especializadas son puntos importantes en estas discusiones. Abordar el aspecto ético
de qué significa ser un coautor es fundamental: ¿Es suficiente contribuir con datos
cuya obtención requirió un esfuerzo físico e intelectual significativo? Una vez que
sean acordados los lineamientos, herramientas sencillas de colaboración en la nube
pueden reducir de manera importante las logísticas requeridas para publicar un
artículo, proveer un espacio para encontrar autores con quien colaborar y permitir
a los investigadores mantenerse al corriente de cómo sus datos son utilizados.
CÓMO LA CIBERINFRAESTRUCTURA ESTÁ CAMBIANDO LA CIENCIA ECOLÓGICA
11
www.nacarbon.org/nacp
E
l océano global es la última frontera física en la Tie-
rra. Cubre 70% de la superficie del planeta, es el bioma
más grande y complejo que conocemos. El océano es un
enorme depósito móvil de calor y masa química. Por ello,
es el “motor” que impulsa a los sistemas meteorológicos y climáticos
por medio de las cuencas oceánicas y los continentes, incidiendo
directamente en la producción de alimento, las sequías y las inun-
daciones en la tierra. El agua es, en la práctica, opaca a la radiación
electromagnética, por lo que el fondo marino no ha sido tan bien
cartografiado como las superficies de Marte y Venus, y aunque las
relaciones espaciales dentro de las cuencas oceánicas se conocen
bien en un primer nivel, las variaciones temporales a corto y largo
plazos y las complejidades de las dinámicas oceánicas son poco
comprendidas.
Por ser el mayor depósito de desechos generados por el ser hu-
mano, el océano ha absorbido prácticamente la mitad del carbono
fósil emitido desde 1800. Las cuencas oceánicas son una fuente de
riesgo: terremotos, tsunamis y tormentas gigantes. Estos eventos
son esporádicos, potentes y a menudo altamente móviles, además de
ser frecuentemente impredecibles. Dado que las cuencas oceánicas
son una vasta, aunque finita, reserva de recursos vivos y no vivos,
los usamos para obtener energía y muchos de los minerales nece-
sarios para mantener una amplia gama de estilos de vida. Muchos
EL CUARTO PARADIGM A 29
científicos creen que los volcanes submarinos fueron el crisol en que se fraguaron
los orígenes de la vida en la Tierra y tal vez en otros planetas. Los océanos conectan
a todos los continentes; no son propiedad de nadie y, sin embargo, nos pertenecen a
todos en virtud de su naturaleza móvil. Los océanos pueden ser vistos como un pa-
trimonio de la humanidad; la responsabilidad y el sustento de vida de todos nosotros.
COMPLEJIDAD OCEÁNICA
Nuestro reto es optimizar los beneficios y mitigar los riesgos de vivir en un planeta
en el que predominan dos grandes fuentes de energía: la energía solar, que propulsa
la atmósfera y gran parte de las capas superiores del océano; y el calor interno, que
propulsa a las capas tectónicas y zonas inferiores del océano. Por más de 4 000 mi-
llones de años el océano global ha respondido e integrado los impactos de estas dos
poderosas fuerzas, mientras que la Tierra, los océanos, la atmósfera y la vida han
coevolucionado. Como resultado, nuestros océanos han tenido una larga y compli-
cada historia, generando la inmensa complejidad del sistema actual, en el que miles
de procesos físicos, químicos y biológicos interactúan de manera continua en varias
escalas de tiempo y espacio, mientras los océanos mantienen nuestro ecosistema en
una “zona de confort” de escala planetaria.
La figura 1 muestra una pequeña fracción de esta complejidad, la cual es constan-
temente propulsada por energía desde arriba y desde abajo. Una comprensión más
profunda de este “sistema de soporte vital global” requiere enfoques de investigación
completamente frescos que permitan que los procesos oceánicos de amplio espectro
y de naturaleza interactiva sean estudiados de manera simultánea e interactiva por
muchos científicos, enfoques que permitan una revisión continua in situ de los víncu-
los entre muchos procesos en un marco temporal y espacial coherente. El desarrollo
de estos nuevos y poderosos enfoques es tanto el reto como la visión de la siguiente
generación de la ciencia oceanográfica.
PERSPECTIVA HISTÓRICA
Durante miles de años, los humanos se han hecho a la mar en barcos para escapar,
conquistar, comercializar y explorar. Entre octubre de 1957 y enero de 1960, lanza-
mos el primer satélite a órbita terrestre y nos sumergimos en la parte más profunda
del océano. En los últimos 50 años, barcos, satélites y submarinos han sido las piezas
clave de la investigación y exploración oceanográfica, que ha estado fundamental-
mente enfocada a lo espacial. Estamos ahora en el umbral de un avance tecnológico
que impulsará el descubrimiento oceánico; esta vez la exploración se enfocará en el
EL CUARTO PARADIGM A 31
ámbito temporal y en procesos interactuantes. Esta nueva era se alimentará de nuevas
tecnologías que están evolucionando rápidamente. Estos cambios definen el escenario
de lo que Marcel Proust llamó “el verdadero viaje de descubrimiento, [que] no consiste
en buscar nuevos paisajes, sino en aprender a verlos con nuevos ojos”.
En muchos sentidos, esta “visión” de la siguiente generación de investigación y
educación oceanográfica exige el uso de un amplio espectro de tecnologías innovado-
ras, para simultánea y continuamente “ver”, o detectar, muchos procesos diferentes
que operan a través de volúmenes enteros del océano desde una perspectiva interna
al océano. Algunas de estas mismas capacidades permitirán la detección in situ a
distancia de cambios críticos que suceden dentro de volúmenes seleccionados del
océano. La reconfiguración rápida de matrices prioritarias de sensores conectadas
a internet vía cables electro-ópticos submarinos nos permitirá capturar, visualizar,
documentar y medir fenómenos energéticos y otros fenómenos antes inaccesibles
como volcanes en erupción, patrones de migraciones importantes, grandes depre-
siones submarinas, enormes terremotos, tormentas gigantes y una multitud de otros
fenómenos complejos, que en gran medida han sido inaccesibles al estudio científico.
EL CUARTO PARADIGMA
EL CUARTO PARADIGM A 33
de maneras novedosas, complejas operaciones marinas a distancia por medio de la
combinación de tecnologías innovadoras en sistemas apropiados de investigación o
experimentación.
Por ejemplo, actividades de apoyo habilitadas por computadora deben incluir sis-
temas de almacenamiento masivo de datos, computación en la nube, flujo de trabajo
científico, visualización avanzada y supercomputación portátil. En lugar de usar
baterías y satélites para operar instalaciones remotas, serán usados energía eléctrica
y el gran ancho de banda de la fibra óptica para transformar los tipos de activida-
des científicas y educativas que pueden ser realizadas en el océano. La adaptación
de cables electro-ópticos con estándares industriales para uso en la investigación
oceanográfica puede cambiar fundamentalmente la naturaleza de la telepresencia
humana en la totalidad del volumen de los océanos al introducir por primera vez
la energía y ancho de banda cotidianamente disponibles al “espacio oceánico”. La
óptica de alta resolución y la detección acústica serán parte de la tecnología ampliada
de “los sistemas de imagen oceánica”. Estos enfoques incluirán el uso rutinario de
video de alta definición, en estéreo de ser necesario, así como sonar de alta resolu-
ción, lentes acústicos, imagenología láser y muestreo volumétrico. Las tecnologías
avanzadas de sensores incluirán detección química, móvil y a distancia, usando
espectrómetros de masa, cromatógrafos de gas, análisis eco-genómico y técnicas de
muestreo adaptativas.
UN ENFOQUE INTEGRAL
1
w ww.interactiveoceans.ocean.washington.edu
gama de experimentos innovadores a largo plazo dentro del volumen oceánico, uti-
lizando control en tiempo real sobre todo el sistema de “laboratorio”. Extender sin
precedentes el poder y ancho de banda a una gran variedad de sensores interactivos,
instrumentos y robots diseminados a lo largo de las aguas oceánicas, en la interfaz
aire-mar, sobre el fondo marino y en perforaciones debajo del lecho marino impul-
sará una nueva etapa en la creatividad y exploración del dominio temporal entre
un amplio espectro de investigadores. La Universidad de Washington conduce el
componente cableado de la iniciativa nsf, conocido como los Nodos Regionales de
Escala (anteriormente conocido, y financiado, como neptune); la Universidad de
Victoria está a cargo del proyecto en Canadá, bajo el nombre de neptune Canadá.
EL CUARTO PARADIGM A 35
FIGURA 3.
La próxima generación de científicos o ciudadanos. Esta imagen virtual muestra un pulpo del
océano profundo, conocido como Grimpoteuthis, y una parte del sistema hidrotermal submarino
de la dorsal de Juan de Fuca. Tales representaciones en tiempo real de video de alta definición en
tercera dimensión serán rutinarias dentro de cinco años.
Diseño gráfico realizado por Mark Stoermer y creado por cev para neptune en 2005.
Los dos enfoques fueron concebidos conjuntamente en el año 2000 como una cola-
boración entre Estados Unidos y Canadá. El Consortium for Ocean Leadership, en
Washington, D.C., administra e integra todo el sistema ooi para la nsf. La Woods
Hole Oceanographic Institution y la Universidad de California, en San Diego, son
responsables de supervisar las secciones Costera-Global y Ciberinfraestructura del
programa, respectivamente. La Oregon State University y la Scripps Institution of
Oceanography son participantes en la sección Costera-Global de la ooi.
El enfoque del observatorio oceánico cableado revolucionará la oceanografía al
proporcionar acceso interactivo a los datos e instrumentos oceánicos 24 horas al
día los 365 días del año en un plazo de dos a tres décadas. Más de 1200 km de cable
electro-óptico submarino proporcionarán muchas decenas de kilowatts de poder a
los nodos en el fondo marino, donde instrumentos que podrían distribuirse en un
radio de más de 50 km para cada nodo estarán conectados de manera directa o a
EL CUARTO PARADIGM A 37
¿HASTA DÓNDE SE PUEDE LLEGAR?
EL CUARTO PARADIGM A 39
AGRADECIMIENTOS
REFERENCIAS
[1] Microsoft Research, “Project Trident: A Scientific Workflow Workbench Brings Clarity to Data”,
http://research.microsoft.com/en-us/collaboration/focus/e3/workflowtool.aspx.
[2] Dos direcciones electrónicas referentes al taller de la NSF sobre los retos de los flujos de trabajo
científicos: http://grids.ucs.indiana.edu/ptliupages/publications/IEEEComputer-gil.pdf;
http://vtcpc.isi.edu/wiki/index.php/Main_Page.
[3] National Research Council of the National Academies, Enabling Ocean Research in the 21st
Century: Implementation of a Network of Ocean Observatories, Washington, D.C., The National
Academies Press, 2003, p. 220.
[4] “Ocean Observatories Initiative (OOI) Scientific Objectives and Network Design: A Closer Look”,
2007, http://ooi.ocean.washington.edu/cruise/cruiseFile/show/40. Sitio Web del Consortium for
Ocean Leadership para la Ocean Observatories Initiative: www.oceanleadership.org/
programs-and-partnerships/ocean-observing/ooi.
[5] J. R. Delaney, F. N. Spiess, S. C. Solomon, R. Hessler, J. L. Karsten, J. A. Baross, R. T. Holcomb,
D. Norton, R. E. McDuff, F. L. Sayles, J. Whitehead, D. Abbott y L. Olson, “Scientific Rationale
for Establishing Long-Term Ocean Bottom Observatory/Laboratory Systems”, en P. G. Teleki,
M. R. Dobson, J. R. Moore y U. von Stackelberg (comps.), Marine Minerals: Resource Assessment
Strategies, Dordrecht, D. Reidel Publishing Company, 1987, pp. 389-411.
[6] J. R. Delaney, G. R. Heath, A. D. Chave, B. M. Howe y H. Kirkham, “NEPTUNE: Real-Time
Ocean and Earth Sciences at the Scale of a Tectonic Plate”, Oceanography, vol. 13, pp. 71-79, 2000,
http://dx.doi.org/10.5670/oceanog.2000.37.
[7] A. D. Chave, B. St. Arnaud, M. Abbott, J. R. Delaney, R. Johnson, E. Lazowska, A. R. Maffei, J.
A. Orcutt y L. Smarr, “A Management Concept for Ocean Observatories Based on Web Services”,
en Proc. Oceans ’04/Techno-Ocean ’04, Kobe, Japan, Nov. 2004, vol. 4, pp. 2187-2193, doi: 10.1109/
OCEANS.2004.1406486.
A
lo largo de la historia, los astrónomos han estado
acostumbrados a que los datos les caigan del cielo. Sin
embargo, nuestra relativamente reciente capacidad
de almacenar los datos celestes en “nubes” nos ofrece
nuevas y fascinantes formas de acceso, distribución, uso y análisis
de datos, tanto en el ámbito de la investigación como en el educa-
tivo. Consideremos tres preguntas relacionadas entre sí: (1) ¿Qué
tendencias se han visto, y pronto se verán, en el crecimiento de
la recopilación de datos e imágenes provenientes de telescopios?
(2) ¿Cómo se podría enfrentar el creciente desafío de encontrar la
proverbial aguja en este pajar de datos para facilitar el conocimiento
científico? (3) ¿Qué oportunidades de visualización y análisis nos
depara el futuro?
TENDENCIAS EN EL CRECIMIENTO DE LOS DATOS
EL CUARTO PARADIGM A 41
humano (ca. 1940) dieron lugar a cambios cualitativos en la naturaleza de las inves-
tigaciones astronómicas; aumentaron muy poco el volumen de los datos recopilados,
en comparación con lo que produjo el advenimiento de la era digital.
Los dispositivos de acoplamiento de carga (ccd, por sus siglas en inglés), cuyo
uso se generalizó en la década de 1980, y los detectores equivalentes en longitudes
de onda no ópticas se volvieron mucho más eficientes que los tradicionales medios
analógicos (por ejemplo, placas fotográficas). Esto produjo un incremento en la tasa
de recolección de fotones que se vio reflejado en el aumento progresivo (y con el
potencial de perpetua aceleración) de datos disponibles para los astrónomos. El au-
mento de las capacidades y la caída del precio de los dispositivos digitales utilizados
en el procesamiento de señales, análisis de datos y almacenamiento de datos, junto
con la expansión de la World Wide Web, transformó la astronomía de una ciencia
observacional a una ciencia digital y computacional.
Por ejemplo, el Gran Telescopio para Rastreos Sinópticos (Large Synoptic Sur-
vey Telescope, lsst) que se construirá en esta década producirá, por un margen
significativo, más datos en su primer año de funcionamiento —1.28 petabytes—
que cualquier otro telescopio en la historia. El lsst logrará esta proeza utilizando
ccd muy sensibles con un gran número de pixeles, en un telescopio relativamente
grande, de óptica muy veloz (f/1.234) y con un amplio campo de visión (9.6 grados
cuadrados), que capture una gran cantidad de exposiciones cortas (en lugar de las
tradicionales exposiciones largas) que pueden ser utilizadas para el estudio del com-
portamiento temporal de fuentes astronómicas. Y si bien el lsst, el Pan-starrs y
otros megaproyectos astronómicos venideros —muchos de longitudes de onda no
ópticas— producirán enormes conjuntos de datos que abarcarán todo el cielo, otros
grupos e individuos continuarán agregando sus conjuntos de datos, más pequeños,
pero potencialmente más específicos.
En el resto de este capítulo daremos por supuesto que el desafío de administrar este
crecimiento explosivo de datos será resuelto (probablemente a través de la utilización
inteligente de almacenamiento en “la nube” y estructuras novedosas de datos); en
cambio, nos centraremos en cómo ofrecer mejores herramientas y novedosos análisis
técnicos y sociales, que nos permitirán conocer más acerca de nuestro universo.
Una serie de nuevas tendencias nos puede ayudar a encontrar las “agujas en los
pajares” de los datos disponibles a través de internet, incluyendo la “externalización
colectiva” (crowdsourcing), la democratización del acceso mediante nuevas tecnologías
de navegación y el creciente poder de cómputo.
El tiempo necesario para adquirir datos sobre cualquier objeto astronómico aumenta
por lo menos tan rápidamente como el cuadrado de la distancia al objeto, por lo que
cualquier servicio que pueda acumular conjuntos específicos de imágenes y datos ya
capturados, efectivamente nos acerca el cielo nocturno. El uso de datos archivados
en línea almacenados en una “nube de datos” se ha facilitado con las nuevas herra-
mientas de software, tales como el World Wide Telescope (wwt) de Microsoft, que
permite un acceso intuitivo a las imágenes del cielo nocturno, cuya adquisición les
ha tomado a los astrónomos miles y miles de horas de uso de telescopio.
Al utilizar el wwt (como se muestra en la figura 1) cualquier persona puede des-
plazarse por el cielo y acercarse a cualquier parte que desee en longitudes de onda
desde rayos x hasta radiofrecuencia, y también puede navegar por medio de un
modelo tridimensional del universo construido a partir de observaciones reales, sólo
para ver lo que está ahí. Cualquiera puede observar una correspondencia inusual
EL CUARTO PARADIGM A 43
FIGURA 1.
La vista del World Wide Telescope de la región 30 Doradus cerca de la Gran Nube de Magallanes
Imagen cortesía de National Optical Astronomy Observatory/
National Science Foundation
entre rasgos característicos a diferentes longitudes de onda en una posición del cielo,
y a continuación, con sólo un clic, tener acceso a todos los artículos científicos que
hacen referencia a esa posición. Cualquier persona puede conectar un telescopio
a una computadora donde esté corriendo el wwt y superponer nuevas imágenes
en vivo sobre las imágenes en línea de cualquier zona del cielo, en prácticamente
cualquier longitud de onda. Cualquier persona puede ser guiada en sus exploracio-
nes mediante “recorridos” narrados y generados por usuarios del wwt. Entre más
recorridos se produzcan, más el wwt se convertirá en un verdadero “navegador del
cielo”, donde el cielo sea el sustrato para conversaciones acerca del universo. Los
exploradores navegarán por senderos que se cruzan en objetos de interés común,
vinculando ideas y personas. Brincar de un recorrido a otro será como navegar de
una página Web a otra hoy en día.
Pero el poder del wwt va mucho más allá de su capacidad de funcionar como
un programa independiente. Es, y continuará siendo, parte de un ecosistema de
EL CUARTO PARADIGM A 45
visión artificial ya empiezan a aparecer en cámaras digitales comerciales que cuentan
con funciones de detección y reconocimiento facial como características comunes.
Una mayor potencia de cómputo nos permitirá clasificar y potencialmente iden-
tificar casos atípicos de objetos, eventos y datos que, tan pronto sean detectados,
serán dirigidos a redes ciudadano-científicas para confirmación. La participación de
científicos ciudadanos en la red de alerta en esta “etapa final” de detección puede
ser optimizada mediante interfaces mejor diseñadas que transformarán el trabajo en
juego. Las interfaces podrían, potencialmente, conectar la confirmación humana de
objetos con redes globales de juegos y simulaciones donde datos en tiempo real son
ampliamente distribuidos e integrados a juegos multijugador masivos, que integren
continuamente la correcta identificación de los objetos en la métrica de éxito de los
juegos. Juegos de este tipo podrían darle a los jóvenes una oportunidad de elevar su
prestigio social entre sus jugadores pares, al mismo tiempo que hacen una contri-
bución significativa a la ciencia.
VISUALIZACIÓN Y ANÁLISIS PARA EL FUTURO
La pregunta que vincula los tres temas que hemos discutido aquí es: ¿Cómo podemos
diseñar nuevas herramientas para enriquecer el descubrimiento frente a la avalancha
de datos que se avecina en astronomía? La respuesta parece centrarse en mejorar la
vinculación entre los recursos existentes, incluyendo ciudadanos científicos dispuestos
a ayudar en el análisis de datos; navegadores de imágenes accesibles como el wwt;
y más herramientas personalizadas de visualización que son compiladas a partir de
componentes comunes. Este enfoque, que busca conectar (y reutilizar) de manera
continua componentes diversos, será probablemente usado en muchas áreas de la
ciencias —no sólo en astronomía— en la década venidera.
EL CUARTO PARADIGM A 47
TIERR A Y MEDIO AMBIENTE
SUMAN NATH
FE NG ZHAO
L
Microsoft Research
os crecientes desafíos ambientales a escala mundial y
una mayor conciencia del cambio climático global seña-
lan la necesidad urgente de que los científicos ambientales
desarrollen la ciencia de una nueva y mejor manera. Los
sistemas actuales de monitoreo ambiental de gran escala, con su
baja resolución espacio-temporal, no sólo son caros sino también
incapaces de revelar las complejas interacciones entre los compo-
nentes atmosféricos y los de la superficie terrestre con la suficiente
precisión para generar modelos exactos del sistema ambiental.
Ésta es especialmente la situación en las regiones montañosas con
superficies de gran complejidad —la fuente de gran parte del agua
dulce del mundo y de los patrones climáticos—. Las cantidades de
datos necesarios para comprender y modelar estas interacciones son
tan masivas (se cuentan en terabytes, y siguen en aumento) que no
hay soluciones prefabricadas que permitan a los científicos admi-
nistrar y analizar fácilmente dichos datos. Lo anterior ha conducido
a un rápido crecimiento de la colaboración global entre científicos
ambientales y computacionales para abordar estos problemas de
manera sistemática y para desarrollar tecnologías de sensores y
de bases de datos que permitirán a los científicos ambientales llevar
a cabo sus experimentos de nueva generación.
EL CUARTO PARADIGM A 49
LA CIENCIA AMBIENTAL DE PRÓXIMA
GENERACIÓN
Nieve y hielo
186750
186500
186250
186000
Snow DepthdeinlaMillimeters
Profundidad 4/26/2008
nieve en milímetros, 4/26/2008
No nieve
Sin Snow 600-800 1400-1600
0-200 800-1000 >1600
200-400 1000-1200
185750 400-600 1200-1400
Cartography
Cartografía and Design:
y diseño: Grünewald
Grünewald T. T.
Base de
Mapa Map: Landeskarte
base: Landeskarteder
derSchweiz
SchweizNr.
Nr.1197
1197,1:25000
1 : 25 000
FIGURA 2.
Escaneo mediante láser terrestre de la distribución de nieve en los Alpes
suizos que muestra la capa de nieve irregular típica.
EL CUARTO PARADIGM A 51
detección, cómputo y comunicación debe ser extremadamente eficiente en energía
para que los sensores puedan permanecer en funcionamiento durante un periodo
prolongado utilizando baterías pequeñas, paneles solares u otro tipo de energía
ambiental. En segundo lugar, los sensores y sus enlaces de comunicación deben
ser bastante robustos para asegurar la adquisición confiable de datos en entornos
exteriores hostiles. En tercer lugar, los datos inválidos de sensores a causa de fa-
llos en el sistema o impactos ambientales se deben identificar y ser tratados según
corresponda (por ejemplo, marcados o incluso filtrados de la colección de datos).
Aunque investigaciones recientes —incluyendo el Swiss Experiment y Life Under
Your Feet— abordan parcialmente estas cuestiones, se necesita más investigación
para abordarlos en muchos sistemas de producción.
LA ADMINISTRACIÓN Y LA EXPLORACIÓN DE VOLÚMENES MASIVOS DE DATOS DE SENSORES
1
ww.swiss-experiment.ch
w
2
www.swiss-experiment.ch/index.php/SensorScope:Home
EL CUARTO PARADIGM A 53
detección remota en el área de destino, y así establecer modelos de riesgo de alta
resolución. A largo plazo, se desarrollarán modelos especializados de predicción
meteorológica para permitir simulación local de mucha mayor precisión.
Para aumentar la conciencia ambiental de los ciudadanos y apoyar a los respon-
sables de la toma de decisiones y de la política, los hallazgos útiles de los experi-
mentos científicos se deben presentar y difundir de manera práctica. Por ejemplo, el
SenseWeb proporciona una aplicación basada en Web llamada SensorMap,3 la cual
presenta factores ambientales históricos y en tiempo real en una interfaz visual fácil
de entender. Superpone visualizaciones espaciales (tales como iconos que muestran
la contaminación actual del aire en determinada ubicación, o imágenes que mues-
tran la distribución de nevadas) en un mapa geográfico navegable; reproduce las
visualizaciones de colecciones seleccionadas de datos ambientales como una película
sobre un mapa geográfico, y muestra tendencias importantes en datos ambientales
históricos así como resúmenes útiles de datos ambientales en tiempo real (véase la
figura 3). En la actualidad, este tipo de plataformas admiten sólo un conjunto limitado
de visualizaciones, y quedan por resolverse muchos desafíos para dar soporte a las
visualizaciones más avanzadas requeridas por diversas audiencias.
EL MONITOREO AMBIENTAL GLOBAL
3
www.sensormap.org
EL CUARTO PARADIGM A 55
REFERENCIAS
[1] M. Bavay, M. Lehning, T. Jonas y H. Löwe, “Simulations of Future Snow Cover and Discharge
in Alpine Headwater Catchments”, Hydrol. Processes, vol. 22, 2009, pp. 95-108, doi: 10.1002/
hyp.7195.
[2] M. Lehning, H. Löwe, M. Ryser y N. Raderschall, “Inhomogeneous Precipitation
Distribution and Snow Transport in Steep Terrain”, Water Resour. Res., vol. 44, 2008, doi:
10.1029/2007WR006545.
[3] N. Raderschall, M. Lehning y C. Schär, “Fine Scale Modelling of the Boundary Layer Wind Field
over Steep Topography”, Water Resour. Res., vol. 44, 2008, doi: 10.1029/2007WR006544.
[4] N. Dawes, A. K. Kumar, S. Michel, K. Aberer y M. Lehning, “Sensor Metadata Management and
Its Application in Collaborative Environmental Research”, ponencia presentada en la 4th IEEE
International Conference on e-Science, 2008.
[5] A. Kansal, S. Nath, J. Liu y F. Zhao, “SenseWeb: An Infrastructure for Shared Sensing”, IEEE
MultiMedia, vol. 14, núm. 4, octubre de 2007, pp. 8-13, doi: 10.1109/MMUL.2007.82.
[6] Y. Ahmad y S. Nath, “COLR-Tree: Communication Efficient Spatio-Temporal Index for a Sensor
Data Web Portal”, ponencia presentada en la 24th IEEE International Conference on Data Engi-
neering, 2008, doi: 10.1.1.65.6941.
[7] A. Deshpande, S. Nath, P. B. Gibbons y S. Seshan, “Cache-and-Query for Wide Area Sensor
Databases”, Proc. 22nd ACM SIGMOD Int. Conf. Management of Data, 2003, pp. 503-514, doi:
10.1145/872757.872818.
[8] M. Lehning y C. Wilhelm, “Integral Risk Management and Physical Modelling for Mountainous
Natural Hazards”, en S. Albeverio, V. Jentsch y H. Kantz (eds.), Extreme Events in Nature and
Society, Springer, 2005.
[9] G. Reeves, J. Liu, S. Nath y F. Zhao, “Managing Massive Time Series Streams with MultiScale
Compressed Trickles”, Proc. 35th Int. Conf. Very Large Data Bases, vol. 2, núm. 1, 2009, pp. 97-108.
[10] S. Nath, J. Liu y F. Zhao, “Challenges in Building a Portal for Sensors World-Wide”, ponencia
presentada en el First Workshop on World-Sensor-Web, 2006, doi: 10.1109/MPRV.2007.27.
Introducción
L
a parte 2 de este libro explora los notables progresos
y desafíos que estamos observando en la más íntima y
personal de nuestras ciencias, la que tiene repercusiones
más inmediatas sobre todos nosotros en todo el planeta:
la ciencia de la salud y la medicina.
El primer artículo plantea el escenario. Gillam et al. describen
los avances de la ciencia médica a lo largo de la historia humana
y presentan sólidos argumentos en favor de la convergencia de
tecnologías que cambiarán el rostro de la asistencia sanitaria en
el curso de nuestra vida. Los artículos restantes arrojan luz so-
bre las líneas convergentes que conforman esta imagen global, al
enfocarse en determinados desafíos que encara la ciencia médica
y en las tecnologías que se están desarrollando para superarlos.
Cualquier afirmación de que la inminente revolución en la
asistencia sanitaria será universal es creíble sólo si podemos
mostrar cómo puede cruzar las brechas económicas y sociales
del mundo moderno. Robertson y sus colaboradores muestran
que una combinación de la tecnología del teléfono celular, que
se extiende a todo el planeta, y la técnica computacional de las
redes bayesianas posibilitaría la recopilación de historiales médi-
cos computarizados en regiones donde los servicios médicos son
escasos, y también pueden ofrecer diagnósticos automatizados
y precisos.
EL CUARTO PARADIGM A 59
Comprender el cerebro humano es uno de los mayores desafíos de la medicina.
Lichtman et al. describen su modo de abordar el problema de la generación de
los inmensos conjuntos de datos necesarios para entender esta intrincadísima
estructura biológica. Incluso la creación de imágenes del cerebro humano en el
nivel subcelular, con sus 160 billones de conexiones sinápticas calculadas, es un
reto que pondrá a prueba los límites del almacenamiento de datos, y éste es tan
sólo el primer paso en la deducción de la función a partir de la forma.
Un enfoque que ilustra una nueva comprensión de nuestros procesos de pen-
samiento es el que presentan Horvitz y Kristan, quienes describen técnicas para
registrar secuencias de actividad neuronal y correlacionarlas con la conducta en
los organismos más simples. Este trabajo conducirá a una nueva generación de
herramientas de software y propiciará, con la ayuda de tecnologías de aprendizaje
automático (machine learning) e inteligencia artificial, nuevas formas de compren-
der y manejar los datos médicos.
Si bien los conjuntos de datos que constituyen un historial médico personal son
varios órdenes de magnitud menores que los que describen la arquitectura del ce-
rebro, las actuales tendencias hacia los registros médicos electrónicos universales
indican que una amplia proporción de la población mundial pronto tendrá historia-
les de su salud disponibles en forma digital. Esto constituirá, en suma, un conjunto
de datos de un tamaño y una complejidad que rivalizará con los de la neurociencia,
y aquí encontraremos desafíos y oportunidades paralelos. Buchan, Winn y Bishop
aplican novedosas técnicas de aprendizaje computacional en este inmenso cuerpo
de datos médicos para automatizar la selección de terapias que rindan los mejores
resultados. Esta clase de tecnologías serán necesarias si queremos llegar al mundo
de la “singularidad de la asistencia sanitaria”, en el que la experiencia colectiva en
el cuidado de la salud humana se aprovechará para suministrar información a las
mejores prácticas clínicas a velocidades computacionales.
Aun cuando la nueva era de los historiales médicos computarizados abre la
puerta a datos médicos más accesibles y detallados, la utilidad de esta informa-
ción requerirá la adopción de criterios uniformes de codificación que permitan
establecer inferencias a partir de distintos conjuntos de datos. Cardelli y Priami
contemplan un futuro en el cual los datos médicos puedan ser transmitidos a mo-
delos ejecutables que codifiquen la lógica en que se basan los sistemas biológicos,
no sólo para ilustrar la conducta de un organismo, sino también para predecir su
condición futura o su reacción a un estímulo. En el caso de la neurociencia, esos
modelos pueden ayudarnos a entender cómo pensamos; en el caso de los historiales
60 SALUD Y BIENESTAR
médicos, pueden ayudarnos a entender los mecanismos de la enfermedad y de los
tratamientos. Si bien la creación de modelos computacionales de los fenómenos
biológicos está en sus albores, de todos modos proporciona el más fascinante
acercamiento a la naciente relación complementaria y sinérgica entre los sistemas
computacionales y los seres vivos.
EL CUARTO PARADIGM A 61
SA LU D Y B I E N E S TA R
E
for Innovation
n 1499, cuando el explor ador portugués Vasco da
JOH N DICK ASON
Gama regresó a casa después de realizar el primer viaje Profesional independiente
marítimo de Europa a la India, conservaba menos de la
mitad de la tripulación original; el escorbuto había cobra-
do las vidas de 100 de los 160 hombres. A lo largo de la Era de los
Descubrimientos,1 el escorbuto fue la causa principal de muerte
entre los marineros. Los capitanes de los navíos solían contar con
que perderían hasta la mitad de su tripulación durante sus prolon-
gados viajes. Se sospechaba que había una causa relacionada con
la alimentación, pero nadie lo había demostrado. Más de un siglo
después, en una travesía de Inglaterra a la India en 1601, el capitán
James Lancaster ordenó que la tripulación de uno de sus cuatro
barcos siguiera un régimen de tres cucharaditas de jugo de limón
al día. Hacia la mitad de la expedición, casi 40% de los hombres
(110 de 278) en tres de las naves había muerto, mientras que en el
barco provisto con limones todos habían sobrevivido [1]. La armada
británica atendió este descubrimiento con la repetición del experi-
mento… 146 años después.
En 1747 un médico de la armada británica, de nombre James
Lind, trató a marineros que padecían de escorbuto con base en
seis enfoques aleatorios y demostró que los cítricos revertían los
1
Siglos del xv al xvii.
EL CUARTO PARADIGM A 63
síntomas. La armada británica respondió, 48 años después, estableciendo nuevas
pautas de régimen alimentario que ordenaran el consumo de cítricos, lo que erradicó
virtualmente el escorbuto de la flota británica de la noche a la mañana. El Ministerio
de Comercio británico adoptó prácticas dietéticas similares para la marina mercante
en 1865, otros 70 años más tarde. El lapso total desde la demostración definitiva
de Lancaster de cómo prevenir el escorbuto hasta la adopción en todo el imperio
británico fue de 264 años [2].
Por fortuna, el tránsito del descubrimiento médico a la práctica ha mejorado
sustancialmente. Pero un informe de 2003 del Institute of Medicine encontró que el
rezago entre un descubrimiento importante y la adopción de medidas de atención a
la salud de los pacientes todavía promedia los 17 años [3, 4]. Esta dilatada transición
del conocimiento a los cuidados clínicos tiene efectos negativos tanto en los costos
como en la calidad de la atención al paciente. Un examen a escala nacional de 439
indicadores de calidad arrojó el resultado de que sólo la mitad de los adultos reciben
la atención de salud recomendada por las normas nacionales de Estados Unidos [5].
EL IMPACTO DE LA EXPLOSIÓN DE LA INFORMACIÓN EN LA MEDICINA
Pese a que la tasa de adopción del conocimiento médico está mejorando significa-
tivamente, enfrentamos un nuevo desafío que se debe al incremento exponencial
en los descubrimientos en el conocimiento médico. En la actualidad, más de 18
millones de artículos están catalogados en la literatura biomédica, incluyendo más
de 800 000 agregados en 2008. Cada 20 años se ha duplicado la tasa de ingresos a
esta bibliografía, y se espera que el número de artículos por año sobrepase el millón
en 2012, como se muestra en la figura 1.
Llevar todo este conocimiento médico que va surgiendo a la práctica es un desafío
arduo y muy complejo. Hace 500 años Leonardo da Vinci pudo ser pintor, ingeniero,
músico y científico. Hace cien años se decía que un médico podía esperar, razona-
blemente, conocer todo en el campo de la medicina.2 Hoy un médico general o de
primera atención debe estar al corriente de unas 10 000 enfermedades y síndromes,
3 000 tratamientos médicos y 1 100 pruebas de laboratorio [6]. Bibliotecarios dedi-
cados a la investigación estiman que un especialista en una sola disciplina, como la
epidemiología, necesita 21 horas de estudio al día sólo para mantenerse al corriente
[7]. Ante este flujo de información médica, los clínicos suelen quedarse a la zaga,
con todo y la especialización y la subespecialización [8].
2
www.medinfo.cam.ac.uk/miu/papers/Hanka/THIM/default.htm
64 SALUD Y BIENESTAR
La sensación de sobrecarga de información en la medicina ha estado presente por
muchos años. En 1865, el doctor Henry Noyes dio una conferencia para la Sociedad
Oftalmológica de Estados Unidos que fue reveladora. Decía que “los médicos se
esfuerzan con valentía en mantener al día sus conocimientos sobre los avances en el
mundo de la medicina, pero con mucha frecuencia son los primeros en acusarse de
ser incapaces de satisfacer los deberes de su llamado diario”. Luego agregó: “El trabajo
preparatorio en el estudio de medicina es tan grande, si se hace adecuadamente, que
sólo unos pocos pueden tener tiempo para su ejecución cabal” [9].
EL CUARTO PARADIGM A 65
Difusión de los descubrimientos médicos
a la práctica clínica: los últimos 2 500 años
Angina
de pecho
Artemisina
Años para alcanzar la práctica médica
Autopsias
Cuarentena
Ligaduras Anestesia
Escorbuto Inoculación
Fiebre puerperal
Helicobacter
Año
Año
FIGURA 2.
Mientras que pasaron 2 300 años entre la identificación de la angina de pecho como una dolencia
y su incorporación a los programas de enseñanza médica, los modernos descubrimientos se difun-
den a una tasa cada vez más rápida. Si nos concentramos en los últimos 150 años, la tendencia
parece seguir siendo lineal, y se aproxima al eje alrededor del año 2025.
66 SALUD Y BIENESTAR
crecimiento en las arquitecturas de cómputo en paralelo y distribuidas, Ray Kurzweil,
en The Singularity Is Near, predice que 2045 será el año de la singularidad, cuando
las computadoras alcancen o excedan la capacidad computacional humana y cuando
su capacidad para mejorarse recursivamente pueda llevar a una “explosión de inteli-
gencia” que afectará definitivamente todos los aspectos de la cultura y la tecnología
humanas [10]. En matemáticas se define una “singularidad” como un punto en el
cual un objeto cambia su naturaleza para adquirir propiedades que ya no pertenecen
a las normas esperadas de esa clase de objeto. En la actualidad, la vía de difusión
de la información médica es compleja y multifacética, pues abarca anuncios comer-
ciales, conferencias, folletos, colegas y publicaciones periódicas. En un mundo con
transmisión de conocimiento casi instantánea, las vías de diseminación se volverían
digitales y directas casi por entero.
Aunque las ideas en torno a la singularidad tecnológica siguen siendo objeto de
debate,3 los autores se refieren a este momento de umbral, cuando el conocimiento
médico se vuelve “líquido” y su flujo de la investigación a la práctica (“del laboratorio
a la cama del paciente”) pierde fricción y se vuelve inmediato, como la “singularidad
de la asistencia sanitaria”.
LAS PROMESAS DE UN MUNDO POSTERIOR A LA SINGULARIDAD DE LA ASISTENCIA SANITARIA
3
http://en.wikipedia.org/wiki/Technological_singularity
4
http://en.wikipedia.org/wiki/Rofecoxib
EL CUARTO PARADIGM A 67
instantánea, los artículos en las publicaciones periódicas no sólo constarán de pa-
labras, sino también de bits. El texto irá mezclado con código, y los artículos sólo se
considerarán completos si incluyen los algoritmos.
Con esta automatización del conocimiento cada nuevo medicamento fluirá por una
cascada de estudios posteriores a su comercialización, los cuales serán producidos y
analizados de manera independiente por destacados especialistas en todo el mundo
(consiguiéndose así una externalización colectiva —crowdsourcing— del control de
calidad). Los productos sospechosos serán etiquetados en tiempo real y, cuando se
alcance la certeza, los fármacos no seguros desaparecerán en cadena de los sistemas
de prescripción médica de las empresas y las clínicas. Finalmente, la explosión de la
información biomédica se contendrá y aprovechará al máximo.
Otros escenarios de difusión de conocimiento serán igualmente fluidos: los resi-
dentes médicos podrán abandonar los manuales que tradicionalmente presentaban la
lista de medicamentos de elección para las enfermedades, y en su lugar optarán por
sistemas clínicos que personalicen la atención a la salud y regionalicen geográfica-
mente los tratamientos con base en las sensibilidades a los medicamentos obtenidas
en tiempo real del laboratorio de microbiología del hospital local y correlacionadas
con el perfil genómico del paciente.
También se potenciará el descubrimiento de conocimientos. Los médicos tendrán
acceso a muy precisas bases de datos de alto desempeño que contendrán los histo-
riales de los pacientes, lo que les permitirá impulsar la atención médica preventiva,
descubrir patrones de tratamiento exitosos [12, 13] y reducir los errores médicos. Los
médicos clínicos podrán generar hipótesis de causa-efecto, realizar pruebas clínicas
virtuales para ofrecer planes de tratamiento personalizados, y simular intervenciones
que puedan evitar pandemias.
Si miramos más adelante, el flujo instantáneo de conocimiento desde los cen-
tros de investigación a los frentes del cuidado clínico acelerará el tratamiento y la
prevención de enfermedades de nueva aparición. Para cuando los laboratorios de
investigación hayan identificado los epítopos que han de ser enfocados como blancos
para encarar un nuevo brote de enfermedad, los sintetizadores de proteínas/adn/arn/
lípidos ubicados en los grandes hospitales de todo el mundo recibirán instrucciones,
transmitidas remotamente desde una autoridad central, que dirigirán la síntesis
de vacunas in situ o incluso de terapias específicas con anticuerpos para su rápida
administración a los pacientes.
68 SALUD Y BIENESTAR
AVANCES HACIA LA SINGULARIDAD DE LA ASISTENCIA SANITARIA
5
www.klasresearch.com/Klas/Site/News/PressReleases/2009/Aggregation.aspx
6
http://chilmarkresearch.com/2009/04/06/healthvault-ny-presbyterian-closing-the-loop-on-care
7
www.microsoft.com/presspass/press/2009/apr09/04-21MSMayoConsumerSolutionPR.mspx
EL CUARTO PARADIGM A 69
red semánticamente interoperable de pacientes, proveedores e investigadores. Estos
tipos de esfuerzos de conectividad son los que sostienen la promesa de una difusión
efectivamente instantánea del conocimiento médico por todo el sistema de asistencia
sanitaria. La singularidad de la asistencia sanitaria podría ser el acontecimiento que
dará paso a una nueva era de la medicina semántica.
La transmisión instantánea de conocimiento en la medicina no es sólo algo de
una importancia inmensa, muy deseable, valioso y alcanzable en el lapso de nuestra
vida actual, sino quizás incluso algo inevitable.
REFERENCIAS
[1] F. Mosteller, “Innovation and Evaluation”, Science, vol. 211, 1981, pp. 881-886, doi: 10.1126/
science.6781066.
[2] J. Lind, A Treatise of the Scurvy, Edimburgo, University Press, 1753. Reimpreso en 1953.
[3] E. A. Balas, “Information Systems can Prevent Errors and Improve Quality”, J. Am. Med. Inform.
Assoc., vol. 8, núm. 4, 2001, pp. 398-399, PMID: 11418547.
[4] A. C. Greiner y E. Knebel (eds.), Health Professions Education: A Bridge to Quality, Washington,
D.C., National Academies Press, 2003.
[5] E. A. McGlynn, S. M. Asch, J. Adams, J. Keesey, J. Hicks, A. DeCristofaro et al., “The Quality of
Healthcare Delivered to Adults in the United States”, N. Engl. J. Med., vol. 348, 2003, pp. 2635-
2645, PMID: 12826639.
[6] T. H. Davenport y J. Glaser, “Just-in-time Delivery Comes to Knowledge Management”, Harv. Bus.
Rev., vol. 80, núm. 7, julio de 2002, pp. 107-111, 126, doi: 10.1225/R0207H.
[7] B. S. Alper, J. A. Hand, S. G. Elliott, S. Kinkade, M. J. Hauan, D. K. Onion y B. M. Sklar, “How
Much Effort is Needed to Keep up with the Literature Relevant for Primary Care?”, J. Med. Libr.
Assoc., vol. 92, núm. 4, octubre de 2004, pp. 429-437.
[8] C. Lenfant, “Clinical Research to Clinical Practice—Lost in Translation?”, N. Engl. J. Med.,
vol. 349, 2003, pp. 868-874, PMID: 12944573.
[9] H. D. Noyes, “Specialties in Medicine”, Trans. Am. Ophthalmol. Soc., vol. 1, núm 2, junio de 1865,
pp. 57-74.
[10] R. Kurzweil, The Singularity Is Near: When Humans Transcend Biology, Nueva York, Penguin
Group, 2005, p. 136.
[11] D. J. Graham, D. Campen, R. Hui, M. Spence, C. Cheetham, G. Levy, S. Shoor y W. A. Ray,
“Risk of Acute Myocardial Infarction and Sudden Cardiac Death in Patients Treated with
Cyclooxygenase 2 Selective and Non-selective Non-steroidal Anti-inflammatory Drugs: Nested
Case-control Study”, Lancet, vol. 365, núm. 9458, febrero de 2005, pp. 475-481.
[12] C. Plaisant, S. Lam, B. Shneiderman, M. S. Smith, D. Roseman, G. Marchand, M. Gillam,
C. Feied, J. Handler y H. Rappaport, “Searching Electronic Health Records for Temporal Patterns
in Patient Histories: A Case Study with Microsoft Amalga”, Proc. Am. Med. Inform. Assoc.,
Washington, D. C., noviembre de 2008.
[13] T. Wang, C. Plaisant, A. Quinn, R. Stanchak, B. Shneiderman y S. Murphy, “Aligning Temporal
Data by Sentinel Events: Discovering Patterns in Electronic Health Records”, Proc. ACM CHI2008
Human Factors in Computing Systems Conference, ACM, Nueva York, abril de 2008, pp. 457-466,
doi: 10.1145/1357054.1357129.
70 SALUD Y BIENESTAR
SA LU D Y B I E N E S TA R
L
a utilización de sistemas de información inteligentes
de asistencia sanitaria para enfrentar el doble problema de
reducir los costos de los servicios de salud y de mejorar su
calidad y sus resultados es un desafío incluso en países con
una infraestructura tecnológica razonablemente desarrollada. Gran
parte de la información y el conocimiento médicos se encuentra
todavía en forma impresa, y aun aquellos materiales que ya se han
digitalizado residen por lo general en conjuntos de datos o reposito-
rios dispersos, incluso en distintos formatos. El intercambio de datos
se da rara vez y se ve frecuentemente entorpecido por la carencia
de mecanismos seguros de anonimato para proteger la intimidad
de los pacientes. Todos estos problemas generan condiciones poco
propicias para el análisis y la minería de datos, los que harían posible
una mejor medicina predictiva y preventiva.
Los países en vías de desarrollo encaran estos mismos problemas,
además de los efectos combinados de limitaciones económicas y
geopolíticas, barreras de transportación y geográficas, un personal
clínico mucho más limitado y retos infraestructurales a la hora
de ofrecer sus servicios. Los insuficientes sistemas de supervisión
y notificación entorpecen la procuración de servicios simples y
de alto impacto, como la inmunización universal de la infancia
y la atención maternoinfantil. En un artículo reciente de Lancet,
el grupo de Christopher Murray concluyó que “la cobertura de
EL CUARTO PARADIGM A 71
inmunización ha ido mejorando más len-
tamente y no con el nivel recomendado
por los informes oficiales para los países
con base en las estimaciones de la oms y
la unicef. Hay una urgente necesidad de
monitoreos, independientes y contrasta-
bles, de los indicadores de salud en esta
era de iniciativas globales orientadas por
objetivos y que financian con base en de
sempeño”. [1]
Por añadidura, el informe más reciente
sobre los Objetivos de Desarrollo del Mi-
Trabajadores de extensión sanitaria de la India lenio, de las Naciones Unidas, señala que
utilizando la plataforma de salud NxOpinion. “la neumonía mata más niños que cual-
quier otra enfermedad; sin embargo, en
los países en vías de desarrollo, la proporción de niños menores de cinco años con
posibles cuadros de neumonía que llegan a ser atendidos por trabajadores de la salud
calificados sigue siendo baja”. [2] La provisión de sistemas confiables de acopio de
datos y de apoyo diagnóstico donde se necesite, y por parte de los individuos mejor
capacitados en materia de salud, es el objetivo de los esfuerzos de la salud pública,
pero las herramientas para lograrlo han sido costosas, insostenibles e inaccesibles.
A continuación profundizaremos sobre los desafíos que encaran los servicios de
asistencia sanitaria en los países en vías de desarrollo y describiremos la tecnología,
basada en computadoras y teléfonos celulares, que hemos creado para afrontar estos
retos. La médula de esta tecnología es el NxOpinion Knowledge Manager (nxkm),1
que se ha estado desarrollando en el Robertson Research Institute desde 2002. Esta
plataforma para la salud consta de tres elementos: una base de conocimientos médicos
alimentada por un numeroso equipo de expertos de Estados Unidos y de países en vías
de desarrollo, un motor diagnóstico basado en redes bayesianas y equipo de telefonía
celular para los usuarios finales.
ESCALABILIDAD VERTICAL, HORIZONTAL E INTERNA
Uno de los más claros límites para el despliegue de un sistema de apoyo a la toma
de decisiones o de organización de historiales médicos electrónicos es la capacidad
1
www.nxopinion.com/product/knowledgemng
72 SALUD Y BIENESTAR
de escalar. El término “escalabilidad vertical” se refiere a la capacidad de un sistema
de manejar una gran base de usuarios, normalmente cientos de miles o millones. La
mayor parte de los sistemas se evalúan dentro de un rango más estrecho de usuarios.
La “escalabilidad horizontal” se refiere a la capacidad de un sistema para funcionar
en muchos países y regiones, así como a la capacidad de trabajar con diversos tipos de
enfermedades. Muchos sistemas sólo funcionan para una enfermedad determinada
y no pueden ser regionalizados fácilmente en virtud, por ejemplo, de los idiomas, las
regulaciones y los procesos locales. La “escalabilidad interna” se refiere a la capacidad
de un sistema para capturar la información de un solo individuo y cotejarla con un
valor de referencia. La mayor parte de los sistemas suponen un paciente genérico
y no logran capturar características particulares que puedan ser de utilidad en un
tratamiento individualizado.
Con respecto a la escalabilidad vertical, el nxkm ha sido puesto a prueba en India,
Congo, Ghana, Irak y República Dominicana. También ha sido evaluado en una comu-
nidad citadina con pocos servicios de salud en Estados Unidos. Con base en consultas
a expertos en escalabilidad de bases de datos, la arquitectura se ha diseñado para
combinar múltiples bases de datos individuales con una base central anonimizada
(de-identified), para así permitir, en principio, opciones de escalabilidad ilimitadas.
En cuanto a la escalabilidad horizontal, para manejar muchos tipos de enferme-
dades, y la interna, para ofrecer diagnósticos individuales precisos, la cantidad de
conocimiento requerida es enorme. Por ejemplo, internist-1, un sistema experto para
diagnósticos en medicina interna, contiene aproximadamente 250 000 relaciones
entre unas 600 enfermedades y 4 000 signos y síntomas [3]. Partiendo de un trabajo
anterior de uno de nosotros (Heckerman), quien estableció métodos eficientes para
evaluar y representar conocimientos médicos complejos mediante una red bayesiana
[4], reunimos bibliografía médica, información de libros de texto y recomendaciones
de paneles de expertos para construir una creciente base de conocimientos para
nxkm, que en la actualidad contiene más de 1 000 enfermedades y más de 6 000
signos y síntomas individuales. El sistema también escala hacia adentro al permitir
la captura de datos con gran detalle. Es posible rastrear y examinar cada uno de los
signos y síntomas registrados en un historial clínico o caso diagnóstico particular.
Este nivel de detalle permite una gran flexibilidad a la hora de determinar factores
relacionados con los resultados y la precisión del diagnóstico.
Con respecto al escalamiento horizontal para cubrir toda una región, un desafío
común en los países en vías de desarrollo es la naturaleza excepcionalmente diversa,
y específica por región, de los padecimientos médicos. Por ejemplo, una enfermedad
EL CUARTO PARADIGM A 73
que es común en un país o región puede ser rara en otro. Mientras que los sistemas
expertos basados en reglas deben someterse a una completa reingeniería en cada
región, la naturaleza modular de la base de conocimientos nxkm, que está basada
en redes de similitudes probabilísticas [4], permite una rápida adaptación a cada
región. La actual encarnación de nxkm utiliza la prevalencia específica por región,
tomada de estimaciones de expertos. También puede actualizar la prevalencia en
cada región conforme se usa en el campo. El nxkm incorpora asimismo un sistema
modular que facilita la adaptación a la terminología, tratamientos e idiomas espe-
cíficos de cada región. Cuando no se conoce o no está disponible la información
específica por región, se utiliza un módulo por omisión hasta que pueden obtenerse
o identificarse dichos datos.
PRECISIÓN Y EFICIENCIA DIAGNÓSTICAS
Hay estudios que indican que incluso médicos con una excelente preparación so-
brestiman su precisión diagnóstica. En fechas recientes, el Institute of Medicine de
Estados Unidos estimó que cada año ocurren de 44 000 a 98 000 muertes prevenibles
debido a errores médicos, muchas debidas a diagnósticos equivocados [5]. En los
países en vías de desarrollo, la problemática combinada de diagnósticos equivocados
y carencia de datos no sólo reducen la calidad de los servicios médicos para la gente,
sino que también impiden la detección de brotes de enfermedades y ocasionan que
la evaluación y planificación de la salud para la población sea defectuosa.
De nuevo, construyendo sobre la metodología diagnóstica a partir de las redes de
similitudes probabilísticas [4], el nxkm emplea un motor de razonamiento bayesiano
que produce diagnósticos precisos. Un importante componente de este sistema que
provee una mayor precisión es la capacidad de hacer al usuario preguntas adicionales
que probablemente estrecharán el abanico de diagnósticos posibles. El nxkm tiene la
capacidad de solicitar al usuario signos y síntomas adicionales con base en cálculos
sobre el valor de la información (como una función de costo) [4]. También importante
para el uso clínico es la capacidad de determinar la confianza en el diagnóstico (es
decir, la probabilidad del diagnóstico más probable). Esta determinación es de especial
utilidad para los usuarios del sistema con menos formación, y es importante para
perfeccionar y supervisar los cuidados ofrecidos por los trabajadores de extensión
sanitaria (tes) en los países en vías de desarrollo, donde son escasos los conocimientos
médicos especializados.
74 SALUD Y BIENESTAR
LLEVAR LOS SERVICIOS DE SALUD A DONDE SON NECESARIOS: LA ÚLTIMA FRONTERA
Otro desafío básico es llevar los diagnósticos a donde son más necesarios. Debido a
su gran difusión en los países en vías de desarrollo, los teléfonos celulares son una
opción natural para ser un vehículo de servicio. De hecho, se piensa que en muchas
de esas áreas el acceso a los teléfonos celulares es mayor que al agua potable. Por
ejemplo, de acuerdo con la base de datos mercadotécnica Wireless Intelligence,2 80%
de la población mundial en 2008 se encontraba en el radio de cobertura de una red
celular. Y hay cifras de la International Telecommunication Union3 que muestran
que, para finales de 2006, 68% de las suscripciones a servicios de telefonía móvil en
el mundo eran de países en vías de desarrollo. Datos más recientes de la International
Telecommunication Union muestran que entre 2002 y 2007, la telefonía celular era
el área en telecomunicación de más alto crecimiento en el mundo, y que el mayor
incremento per cápita estaba en los países en vías de desarrollo.4
En consecuencia, hemos desarrollado un sistema en el cual se utilizan teléfonos
celulares para ingresar a una base de conocimientos y a un motor diagnóstico nxkm
implementado en una pc en una ubicación central. Hoy en día estamos poniendo
a prueba el uso de este sistema con tes en la India rural. Además de proporcionar
recomendaciones sobre cuidados médicos a los tes, puede emplearse la solución
teléfono/ pc central para crear registros personales de salud portátiles. Una de nues-
tras organizaciones amigas, el School Health Annual Report Programme (sharp),
lo utilizará para examinar en 2009 a más de 10 millones de escolares básicos de la
India, creando un historial clínico personal virtual de cada niño.
Otra ventaja de esta manera de proceder es que pueden utilizarse los datos re-
colectados por este sistema para perfeccionar la base de conocimientos nxkm. Por
ejemplo, como antes se mencionó, la información sobre la prevalencia de enferme-
dades específicas por región es importante para el diagnóstico preciso. Es de especial
importancia que la información sobre el brote de una enfermedad en una ubicación
determinada se obtenga a tiempo. Al usar la aplicación clínica, los casos de enfer-
medad confirmados, incluyendo los correspondientes a un nuevo brote, quedan a
disposición inmediata de nxkm. Además, los diagnósticos individuales pueden ser
monitoreados desde la central. Si se encuentra que los signos y síntomas de un pa-
ciente individual conducen a un diagnóstico poco confiable, se puede identificar al
paciente para su seguimiento.
2
www.wirelessintelligence.com
3
www.itu.int
4
www.itu.int/ITU-D/ict/papers/2009/7.1%20teltscher_IDI%20India%202009.pdf
EL CUARTO PARADIGM A 75
LA INTERFAZ DE USUARIO
Más allá incluso de los silos de datos ya tradicionales (como epic y cerner) [5], todavía
existen barreras al intercambio de datos críticos sobre salud pública, entre ellas las
preocupaciones acerca de la privacidad y la soberanía. Asimismo, la disponibilidad
de los datos puede ser restringida regionalmente (por ejemplo, en India y África del
Sur), por organizaciones (por ejemplo, la Organización Mundial de la Salud, World
Vision o compañías farmacéuticas) o por los proveedores (por ejemplo, compañías
aseguradoras y grupos de servicios médicos). En cada uno de estos conjuntos de datos
reside un significativo valor en cuanto a la salud pública, y deberían hacerse esfuer-
zos por superar las barreras al acopio de datos para lograr construir bases de datos
globales, anonimizadas y compartidas. Tales conjuntos públicos de datos, aunque
son útiles per se, también agregan un importante valor a los conjuntos privados de
datos, al ofrecer un valioso contexto genérico a la información privada.
El nxkm importa, administra y exporta datos a través de paquetes de divulgación
(publish sets). Estos procesos permiten que diversos grupos de interés (gobiernos,
instituciones de salud pública, médicos generales, pequeños hospitales, servicios
de laboratorio y de especialidad, y aseguradoras) compartan la misma base de
76 SALUD Y BIENESTAR
El innovador método de NxOpinion presenta los datos cuando se requieren, como se
requieren y donde se requieren mediante inteligencia artificial.
EL CUARTO PARADIGM A 77
datos global, interactiva y anonimizada (que resguarda la identidad), a la vez que
mantienen el control de los datos privados y protegidos.
UNA MIRADA AL FUTURO
Quedan otros desafíos por vencer. Si bien los tes más preparados son capaces de
valerse fácilmente de estas herramientas de acopio de datos y de asesoría para las
decisiones diagnósticas, otros tes como los activistas sanitarios sociales acreditados
y otros trabajadores que laboran en el primer frente en las comunidades, a menudo
son analfabetas o hablan sólo la lengua local. Estamos explorando dos soluciones
potenciales: una se vale de la tecnología del reconocimiento de voz, y la otra permite
que un usuario responda preguntas de opción múltiple a través del teclado numé-
rico de un teléfono celular. La tecnología del reconocimiento de voz provee mayor
flexibilidad en la entrada de datos, pero —al menos hasta ahora— requiere que el
reconocedor de voz sea entrenado por cada usuario.
Otro desafío es la identificación única y reproducible del paciente —la verificación
de que el sujeto que recibe el tratamiento es realmente el paciente correcto— cuando
no hay un sistema estándar de identificación para la mayoría de las poblaciones que
reciben menos servicios de salud. El reconocimiento de voz, en combinación con el
reconocimiento de rostros y nuevos métodos biométricos, junto con una confirma-
ción de la ubicación por gps, pueden ayudar a asegurar que el paciente que necesita
la atención sea realmente el que recibe el tratamiento.
Otro problema es la integridad de los datos. Por ejemplo, muchos pobladores
rurales presentarán diagnósticos que no han sido verificados por personal médico
calificado y que podrían ser erróneos. Hemos tratado de mitigar este problema
mediante un motor de inferencias que permite dar un menor peso a los datos no
comprobados.
Implementar sistemas que funcionen en cualquier punto del planeta puede con-
ducir a la creación de una enorme cantidad de información sobre los pacientes.
Almacenar, conciliar y luego tener acceso a esa información in situ, a la vez que
se atiende la seguridad y se resguarda la privacidad adecuadamente, presenta un
excepcional desafío cuando el número de pacientes llega a millones (en vez de de-
cenas de miles, como sucede con la mayoría de los actuales sistemas de historiales
médicos electrónicos). Por añadidura, sigue siendo difícil ingresar datos verificados
en tal magnitud al sistema para mejorar su capacidad de predicción y conservar a la
vez la posibilidad de analizar y recuperar segmentos específicos (minería de datos).
Un escollo final, quizás el mayor, es el de la cooperación. Si las organizaciones,
78 SALUD Y BIENESTAR
los gobiernos y las compañías estuvieran dispuestos a compartir una base de datos
global anonimizada, mientras pudieran proteger y conservar sus propias bases de
datos, los servicios de asistencia sanitaria y la ciencia médica podrían beneficiarse
enormemente. Una base de datos unificada que permita la integración entre muchas
bases de datos y sistemas de monitoreo y evaluación ayudaría a identificar, rápida y
eficientemente, resistencias a fármacos o brotes de enfermedades y a supervisar la
efectividad de los tratamientos y de las intervenciones sanitarias. La base de datos
global deberá permitir consultas que resguarden la identidad de los individuos,
pero aun así proporcionen la información suficiente para los análisis y la validación
estadísticos. Ya está empezando a aparecer esta tecnología (por ejemplo, [6]), pero
persiste el abrumador problema de encontrar un sistema de recompensas que aliente
ese tipo de cooperación.
RESUMEN
EL CUARTO PARADIGM A 79
fracción del tiempo que se necesita hoy. El potencial de dotar de tantas capacidades
al personal sanitario en los países en vías de desarrollo mediante un sistema global
diagnóstico y de bases de datos es enorme.
REFERENCIAS
[1] S. S. Lim, D. B. Stein, A. Charrow y C. J. L. Murray, “Tracking progress towards universal
childhood immunisation and the impact of global initiatives: A systematic analysis of three-dose
diphtheria, tetanus, and pertussis immunisation coverage”, Lancet, vol. 372, 2008, pp. 2031-2046,
doi: 10.1016/S0140-6736(08)61869-3.
[2] Organización de las Naciones Unidas, The Millennium Development Goals Report, onu, 2008.
[3] R. A. Miller, M. A. McNeil, S. M. Challinor, F. E. Masarie Jr. y J. D. Myers, “The Internist-1/
Quick Medical Reference Project-Status Report”, West. J. Med., vol. 145, 1986, pp. 816-822.
[4] D. Heckerman, Probabilistic Similarity Networks, Cambridge, MA, MIT Press, 1991.
[5] L. Kohn, J. Corrigan y M. Donaldson (eds.), To Err Is Human: Building a Safer Health System,
Washington, D. C., National Academies Press, 2000.
[6] C. Dwork y K. Nissim, “Privacy-Preserving Datamining on Vertically Partitioned Databases”,
Proc. CRYPTO, 2004, doi: 10.1.1.86.8559.
80 SALUD Y BIENESTAR
SA LU D Y B I E N E S TA R
E
l cerebro, el asiento de nuestras capacidades cognosciti-
vas, es quizás el enigma más complejo en toda la biología.
Cada segundo en el cerebro humano miles de millones de
células nerviosas corticales transmiten miles de millones
de mensajes y ejecutan cálculos extraordinariamente complejos.
El funcionamiento del cerebro —cómo su función deriva de su
estructura— sigue siendo un misterio.
El inmenso número de células nerviosas cerebrales se interco
nectan mediante sinapsis, conformando circuitos de inimaginable
complejidad. Se considera, en gran medida, que la especificidad de
estas conexiones se halla en la base de nuestra capacidad de percibir
y clasificar objetos, de nuestras conductas aprendidas (como tocar
el piano) e intrínsecas (como caminar) y de nuestros recuerdos, por
no mencionar el control de las funciones básicas, como mantener
la postura y hasta respirar. En el nivel superior, nuestras emocio-
nes, nuestro sentido de identidad y nuestra propia conciencia son,
en su totalidad, el resultado de actividades en el sistema nervioso.
En un nivel macroscópico, el cerebro humano se ha cartografiado
en regiones que pueden asociarse aproximadamente con tipos espe-
cíficos de actividades. Sin embargo, incluso este enfoque modular
está colmado de complejidad porque a menudo muchas partes del
cerebro intervienen en la ejecución de una tarea. Esta complejidad
surge, en particular, porque muchos comportamientos comienzan
EL CUARTO PARADIGM A 81
con el ingreso de información sensorial, seguido de análisis, toma de decisiones y,
finalmente, de una respuesta o acción motoras.
En el nivel microscópico, el cerebro comprende miles de millones de neuronas, cada
una de las cuales está conectada con otras neuronas por varios miles de conexiones
sinápticas. Aunque se ha reconocido la existencia de estos circuitos sinápticos por más
de un siglo, carecemos de diagramas detallados de los circuitos de los cerebros huma-
nos o de cualquier otro mamífero. De hecho, sólo una vez se ha intentado establecer
un mapa de tales circuitos, y eso fue hace dos décadas en un pequeño gusano con
sólo 300 células nerviosas. El obstáculo principal ha sido la enorme dificultad técnica
relacionada con el proceso. Los recientes adelantos tecnológicos en creación de imáge-
nes, ciencia computacional y biología molecular permiten hacer un replanteamiento
de este problema. Sin embargo, aun si tuviéramos un esquema de las conexiones,
necesitaríamos conocer qué mensajes están transmitiendo las neuronas en el circuito,
algo semejante a escuchar las señales en un chip de computadora. Esto representa el
segundo impedimento para la comprensión: los métodos fisiológicos tradicionales sólo
nos permiten escuchar una fracción diminuta de los nervios en el circuito.
Para tener una idea de la escala del problema, consideremos la corteza del cerebro
humano, que contiene más de 160 billones de conexiones sinápticas, las cuales se
originan a partir de miles de millones de neuronas. Cada neurona recibe conexio-
nes sinápticas de cientos y hasta de miles de neuronas diferentes, y cada una envía
información a través de las sinapsis a un número similar de neuronas de destino.
Este enorme volumen de puntos de entrada y salida es posible porque cada neurona
tiene una geometría compleja, y posee muchas prolongaciones receptoras (dendritas)
y una prolongación de salida con muchas ramas (un axón) que pueden extenderse
por distancias relativamente largas.
Sería ideal que fuera posible hacer ingeniería inversa a los circuitos del cerebro;
en otras palabras, si pudiéramos desenredar las neuronas individuales y ver cuál
está conectada con cuál y con qué fuerza, tendríamos por lo menos las herramientas
para comenzar a descifrar el funcionamiento de un circuito determinado. Las cifras
colosales y las formas celulares complejas no son los únicos aspectos desalentadores
del problema. Los circuitos que conectan a las células nerviosas son de escala na-
noscópica. La densidad de las sinapsis en la corteza cerebral es aproximadamente
de 300 millones por milímetro cúbico.
Las imágenes por resonancia magnética funcional (irmf) han proporcionado
indicios sobre las operaciones tridimensionales del cerebro a escala macroscópica.
Sin embargo, la resolución máxima de las irmf es aproximadamente de 1 milímetro
82 SALUD Y BIENESTAR
cúbico por voxel: el mismo milímetro cúbico que puede contener 300 millones de
sinapsis. Así que hay una enorme cantidad de circuitos incluso en las imágenes
funcionales de resolución más fina del cerebro humano; además, el tamaño de estas
sinapsis es menor a la resolución límite por difracción de las tecnologías ópticas de
imagen tradicionales.
La construcción del mapa de circuitos podría apoyarse en análisis basados en
el marcado cromático de prolongaciones neuronales [1] o en el uso de técnicas que
superen el límite de difracción [2]. En la actualidad, el estándar de referencia para
el análisis de las conexiones sinápticas es el uso de la microscopía electrónica (me),
cuya resolución en nanómetros (nm) es más que suficiente para indagar los detalles
más finos de las conexiones nerviosas. Pero para determinar las conexiones de los
circuitos, es necesario superar un obstáculo técnico: la me suele muestrear gráfica-
mente secciones muy delgadas (decenas de nanómetros de grosor), así que reconstruir
un volumen requiere una “reconstrucción en serie” en la que la información gráfica
proveniente de rebanadas continuas del mismo volumen se recompone en un conjunto
de datos volumétrico. Existen distintas maneras de generar tales datos volumétricos
(véanse, por ejemplo, [3-5]), pero todas tienen el potencial de generar vastísimas
bibliotecas de datos de imágenes digitales, como se describe a continuación.
ALGUNAS CIFRAS
Dado lo desalentador de esta tarea, uno estaría tentado a renunciar y buscar un problema
más simple. Sin embargo, las nuevas técnicas y tecnologías ofrecen destellos de espe-
EL CUARTO PARADIGM A 83
ranza. Estamos valiéndonos de éstas con el objetivo último de crear un “conectoma”: un
diagrama completo de los circuitos del cerebro. Cumplir este objetivo requerirá la cola-
boración intensa y a gran escala de biólogos, ingenieros y científicos de la computación.
Hace tres años, los laboratorios de Reid y de Lichtman empezaron a trabajar en
mecanismos para automatizar y acelerar la me de seccionamiento en serie de gran
escala. Enfocándose particularmente en grandes volúmenes corticales en alta reso-
lución, el grupo de Reid se ha concentrado también en procesos de muy alto rendi-
miento y altamente automatizados. Hasta la fecha, su trabajo sólo se ha publicado en
forma de síntesis [3], pero confían en que pronto tendrán los primeros 10 terabytes
de datos volumétricos de anatomía cerebral de microescala. En la actualidad, existen
experimentos fisiológicos que pueden mostrar la función de prácticamente todas las
neuronas en un cubo de 300 µm. Los nuevos datos de me tienen la resolución para
mostrar prácticamente cualquier axón, dendrita y sinapsis: las conexiones físicas de
las que depende la función neuronal.
Persiste el problema de separar y seguir la pista de las neuronas individuales dentro
del volumen. No obstante, ya se han obtenido algunos resultados utilizando medios
novedosos. El laboratorio de Lichtman encontró una manera de expresar diversas
combinaciones de proteínas fluorescentes rojas, verdes y azules en ratones modifica-
dos genéticamente. Estas combinaciones aleatorias producen por ahora 90 colores o
combinaciones de colores [1]. Con este método, es posible seguir la pista de neuronas
individuales conforme se ramifican a sus sucesivas conexiones sinápticas con otras
neuronas o con los órganos de destino en los músculos. Los nervios marcados con
FIGURA 1.
Imágenes de arco iris cerebral que muestran la fluorescencia de neuronas individuales en diferentes
colores. Si seguimos la pista de las neuronas a través de bloques de rebanadas, podemos seguir la
estructura de ramificación compleja de cada neurona para crear las estructuras arborescentes en la
imagen de la derecha.
84 SALUD Y BIENESTAR
FIGURA 2.
Neuronas en una corteza visual teñidas in vivo con un colorante sensible al calcio. Izquierda:
reconstrucción tridimensional de miles de neuronas en la corteza visual de una rata, obtenida de
un bloque de imágenes (300 µm por lado). Las neuronas están codificadas cromáticamente según
la orientación del estímulo visual que más las excitó. Centro: imagen bidimensional del plano del
corte que se muestra en el panel izquierdo. Las neuronas que reaccionaron a diferentes orientaciones
del estímulo (colores diferentes) se acomodan de manera aparentemente aleatoria en la corteza.
Recuadro: Códigos de color para cada orientación del estímulo. Derecha: en comparación, la corteza
visual del gato es sumamente ordenada. Las neuronas que reaccionaron con preferencia a diferentes
orientaciones del estímulo están segregadas con una extraordinaria precisión. Esta imagen repre-
senta un mapa funcional completo en tres dimensiones de más de 1 000 neuronas en un volumen de
300 × 300 × 200 µm en la corteza visual [6, 7].
múltiples colores (el llamado “arco iris cerebral” o brainbow), como se muestra en la
figura 1, evocan el cableado en arco iris de las computadoras y sirven para el mismo
propósito: ayudar a diferenciar cables que se extienden grandes distancias.
Como estos marcadores cromáticos están presentes en el ratón vivo, es posible
monitorear los cambios en las conexiones sinápticas manteniendo en observación
las mismas regiones varias veces a lo largo de minutos, días o incluso meses
El laboratorio de Reid ha podido teñir neuronas de las cortezas visuales de ratas
y gatos de tal manera que “se encienden” cuando son activadas. Al estimular al
gato con líneas de distinas orientaciones, han sido capaces de ver literalmente qué
neuronas se activan dependiendo del estímulo visual específico. Al comparar la
organización de la corteza visual de la rata con la del gato, encontraron que, mien-
tras que las neuronas de una rata parecen distribuirse aleatoriamente a partir de
la orientación del estímulo visual, las neuronas de un gato presentan una notable
estructura. (Véase la figura 2).
EL CUARTO PARADIGM A 85
Esta banda de tejido es recogida por
una correa transportadora sumergida
El tejido rota
El cuchillo FIGURA 3.
avanza El nivel de agua del
cuchillo se regula por El torno ultramicrotómico
medio de este tubo con acopio automático de
Estos movimientos sincronizados producen un de alimentación
corte en espiral a través del bloque de tejido, cinta (atlum) permite la
suministrando una banda continua de tejido al obtención eficiente de imágenes
depósito de agua del cuchillo en nanoescala de grandes
volúmenes de tejidos.
86 SALUD Y BIENESTAR
FIGURA 4.
hd View permite explorar interactivamente esta imagen de
2.5 gigapixeles. Izquierda: rebanada de tejido nervioso. El
elemento gris de mayor tamaño en el centro es el núcleo de
una neurona. Centro: primer plano de un capilar y un axón
mielinizado. Derecha: primer plano de capas de mielina que
rodean el corte transversal de un axón. Abajo: acercamiento
que muestra las diminutas vesículas que rodean a una conexión
sináptica entre estructuras muy finas.
FIGURA 5.
NeuroTrace permite a los neurocientíficos explorar y segmentar en forma interactiva prolongacio-
nes nerviosas en datos de me de alta resolución.
EL CUARTO PARADIGM A 87
volúmenes. En Microsoft Research se ha hecho el trabajo de unir y luego observar
interactivamente imágenes que contienen miles de millones de pixeles.1 Una vez
que estas imágenes con dimensiones que alcanzan los gigapixeles se organizan
en una pirámide jerárquica, la aplicación hd View puede difundir en tiempo real
por la Web las imágenes para ser observadas por quien las requiera.2 Esto permite
la exploración de elementos de gran escala y de muy pequeña escala. La figura 4
muestra un recorrido por el resultado.
Una vez que las imágenes son capturadas y empalmadas, es necesario apilar múl-
tiples rebanadas de una muestra para ensamblarlas en un volumen coherente. Quizás
la tarea más difícil en ese punto sea la extracción de hebras individuales de neuronas.
En Harvard se está trabajando para proveer herramientas interactivas que ayuden
a delinear las “prolongaciones” celulares individuales y seguirlas entre rebanada y
rebanada para extraer cada fibra dendrítica y axonal [8, 9] (véase la figura 5). Es
posible que sea aún más arduo encontrar automáticamente las interfaces sinápticas;
sin embargo, los adelantos en las interfaces de usuario y las técnicas de visión articial
alimentan la esperanza de que el proceso completo pueda ser manejable.
Descifrar el conectoma completo del cerebro humano es uno de los grandes de-
safíos del siglo xxi. Los adelantos en el nivel biológico y en el técnico conducirán
con toda seguridad a nuevos logros y descubrimientos, y es de esperar que ayuden a
responder preguntas fundamentales sobre cómo nuestro cerebro realiza el milagro
del pensamiento.
REFERENCIAS
[1] J. Livet, T. A. Weissman, H. Kang, R. W. Draft, J. Lu, R. A. Bennis, J. R. Sanes y J. W. Lichtman,
“Transgenic Strategies for Combinatorial Expression of Fluorescent Proteins in the Nervous
System”, Nature, vol. 450, 2007, pp. 56-62, doi: 10.1038/nature06293.
[2] S. Hell, “Microscopy and its Focal Switch”, Nature Methods, vol. 6, 2009, pp. 24-32, doi: 10.1038/
NMeth.1291.
[3] D. Bock, W. C. Lee, A. Kerlin, M. L. Andermann, E. Soucy, S. Yurgenson y R. C. Reid, “High-
throughput Serial Section Electron Microscopy in Mouse Primary Visual Cortex Following in
vivo Two-photon Calcium Imaging”, Soc. Neurosci. Abstr., vol. 769, núm. 12, 2008.
[4] W. Denk y H. Horstmann, “Serial Block-face Scanning Electron Microscopy to Reconstruct
Three-dimensional Tissue Nanostructure”, PLoS Biol., vol. 2, e329, 2004, doi: 10.1017/
S1431927606066268.
[5] K. J. Hayworth, N. Kasthuri, R. Schalek y J. W. Lichtman, “Automating the Collection of
Ultrathin Serial Sections for Large Volume TEM Reconstructions”, Microsc. Microanal., vol. 12,
2006, pp. 86-87.
1
http://research.microsoft.com/en-us/um/redmond/groups/ivm/ICE
2
http://research.microsoft.com/en-us/um/redmond/groups/ivm/HDView
88 SALUD Y BIENESTAR
[6] K. Ohki, S. Chung, Y. H. Ch’ng, P. Kara y R. C. Reid, “Functional Imaging With Cellular
Resolution Reveals Precise Microarchitecture in Visual Cortex”, Nature, vol. 433, 2005,
pp. 597‑603, doi:10.1038/nature03274.
[7] K. Ohki, S. Chung, P. Kara, M. Hübener, T. Bonhoeffer y R. C. Reid, “Highly Ordered
Arrangement of Single Neurons in Orientation Pinwheels”, Nature, vol. 442, 2006, pp. 925-928,
doi:10.1038/nature05019.
[8] W. Jeong, J. Beyer, M. Hadwiger, A. Vazquez, H. Pfister y R. Whitaker, “Scalable and Interactive
Segmentation and Visualization of Neural Processes in EM Datasets”, IEEE Trans. Visual. Comput.
Graphics, octubre de 2009.
[9] A. Vazquez, E. Miller y H. Pfister, “Multiphase Geometric Couplings for the Segmentation of
Neural Processes”, Proceedings of the IEEE Conference on Computer Vision Pattern Recognition
(CVPR), junio de 2009.
EL CUARTO PARADIGM A 89
SA LU D Y B I E N E S TA R
S
i bien se han dado grandes avances en neurobiología,
todavía no comprendemos cómo la sinfonía de la comu
nicación entre las neuronas conduce a las complejas y
competentes conductas en los animales. ¿Cómo se rela-
cionan las interacciones locales entre las neuronas con la dinámica
conductual de los sistemas nerviosos, lo que da a los animales sus
impresionantes capacidades para sentir, aprender, decidir y actuar
en el mundo? Muchos detalles permanecen envueltos en el misterio.
Nos entusiasman las promisorias posibilidades de obtener nuevos
conocimientos mediante la aplicación de métodos computacionales,
en especial los procedimientos de aprendizaje e inferencia automá-
ticos, para producir modelos explicativos a partir de los datos acerca
de las actividades de poblaciones de neuronas.
NUEVAS HERRAMIENTAS PARA LOS NEUROBIÓLOGOS
EL CUARTO PARADIGM A 91
individuales, con la esperanza de que éstas funcionen como normalmente lo hacen
dentro de conjuntos mayores. Este tipo de procedimiento ha proporcionado datos
sobre los voltajes de membrana y los potenciales de acción de una célula individual
o de unas cuantas células.
No obstante, está cambiando la relación entre los neurobiólogos y los datos referen-
tes a los sistemas nerviosos. Nuevos dispositivos para la toma de registros permiten
disponer de datos sobre la actividad de grandes poblaciones de neuronas. Esos datos
hacen que los procedimientos computacionales sean cada vez más necesarios como
herramientas experimentales para permitir una nueva comprensión de las conexio-
nes, la arquitectura y la maquinaria general de los sistemas nerviosos.
La aparición de rápidos métodos ópticos de generación de imágenes abre nuevas
posibilidades para la experimentación y el modelado en una escala más amplia. Con
este método, se usan colorantes y fotomultiplicadores para determinar los niveles de
calcio y los potenciales de membrana de las neuronas, y ello con una alta resolución
espacial y temporal. Estos registros ópticos de alta fidelidad permiten a los neuro-
biólogos examinar la actividad simultánea de poblaciones de decenas a miles de
neuronas. En un tiempo relativamente corto, los datos disponibles sobre la actividad
de las neuronas han dejado de ser exiguos trozos de información, obtenida mediante
el muestreo de unas cuantas neuronas, para convertirse en observaciones de gran
escala de la actividad neuronal.
Los conjuntos de datos espaciotemporales sobre las conductas de las poblaciones
de neuronas plantean impresionantes desafíos inferenciales, tanto como oportu-
nidades. Probablemente la próxima oleada de nociones sobre la base neurofisiológica
de la cognición provendrá de la aplicación de nuevos tipos de lentes computacionales
que dirigirán una “óptica” teórico-informática hacia corrientes de datos espaciotem-
porales relativos a poblaciones neuronales.
Prevemos que algún día los neurobiólogos que estudian poblaciones de neuronas
requerirán de herramientas que sirvan como microscopios computacionales: sistemas
que aprovecharán tecnologías de aprendizaje, razonamiento y visualización automá-
ticos para ayudar a los neurocientíficos a formular y poner a prueba hipótesis a partir
de los datos. Incluso, las inferencias derivadas del flujo de datos espaciotemporales
extraídos de una preparación pueden superponerse a las exploraciones ópticas tradi-
cionales durante los experimentos, ampliándolas con anotaciones que pueden ayudar
en la conducción de la investigación.
Los análisis computacionales intensivos servirán de base para el modelado y la
visualización de datos de poblaciones de dimensiones intrínsecamente altas, donde
92 SALUD Y BIENESTAR
múltiples unidades neuronales interactúan y contribuyen a la actividad de otras
neuronas o conjuntos de ellas, y donde las interacciones son potencialmente depen-
dientes del contexto (los circuitos y los flujos pueden ser dinámicos, momentáneos
y hasta simultáneos en el mismo sustrato neuronal).
COMPUTACIÓN Y COMPLEJIDAD
EL CUARTO PARADIGM A 93
Más allá del estudio de sistemas animales específicos, es muy probable que las
herramientas computacionales para analizar datos de poblaciones neuronales sean
muy valiosas en los estudios de la construcción de los sistemas nerviosos durante la
embriogénesis, así como en la comparación de los sistemas nerviosos en diferentes
especies de animales. Tales estudios pueden revelar los cambios en los circuitos y en
la función durante el desarrollo y a través de las presiones de la adaptación evolutiva.
ESPECTRO DE COMPLEJIDAD
94 SALUD Y BIENESTAR
FIGURA 1.
Imágenes de una secuencia de neuronas de Hirudo
antes de su decisión de nadar o arrastrarse.
EL CUARTO PARADIGM A 95
FIGURA 2.
Posibles conexiones y
grupos que se infieren
de datos de poblaciones
neuronales durante la
toma de imágenes de
Hirudo.
FIGURA 3.
Relaciones de información
inferidas entre neuronas
en un ganglio segmentado
de Hirudo. Las medidas
de similaridad de la
dinámica de la actividad
neuronal se representan
con arcos y grupos en
racimo.
96 SALUD Y BIENESTAR
que permiten cambios muy graduales en los umbrales de admisión de conexiones
entre las neuronas y de evaluación de la fuerza de las relaciones y la pertenencia a
los módulos. Nos encantaría ver un mundo en el que esas herramientas pudieran
ser compartidas ampliamente entre los neurocientíficos y se ampliaran mediante
componentes de aprendizaje, inferencia y visualización desarrollados por la comu-
nidad de la neurociencia.
La figura 2 muestra una pantalla de la herramienta prototipo que llamamos
Microscopio Computacional msr, que fue desarrollado por Ashish Kapoor, Erick
Chastain y Eric Horvitz en Microsoft Research como parte de una colaboración
más amplia con William Kristan, de la Universidad de California en San Diego, y
Daniel Wagenaar, del California Institute of Technology. La herramienta permite
a los usuarios visualizar la actividad neuronal durante un periodo determinado y
luego explorar las inferencias sobre relaciones entre las neuronas de manera inte-
ractiva. Los usuarios pueden escoger entre varios métodos de inferencia y especifi-
car las suposiciones de modelado. También pueden marcar neuronas específicas y
subconjuntos neuronales como puntos focales de análisis. La imagen en la figura 2
muestra un análisis de la actividad de las neuronas en los ganglios segmentados de
Hirudo. Las relaciones de información inferidas entre las células se muestran con
un resaltado de las neuronas y mediante la generación de arcos entre las neuronas.
Tales inferencias pueden ayudar a dirigir la exploración y la confirmación de las
conexiones físicas entre las neuronas.
La figura 3 muestra otro análisis de información que agrupa espacialmente células
que se comportan de manera similar en los ganglios de Hirudo en una serie de ensa-
yos. Este análisis ofrece una primera visión de la forma en que algún día los análisis
basados en teoría de información podrían ayudar a los neurobiólogos a descubrir y
evaluar las interacciones dentro de los subsistemas neuronales y entre ellos.
Apenas estamos en el inicio de esta prometedora dirección de investigación, pero
esperamos ver un florecimiento de análisis, herramientas y una subdisciplina más
amplia que se concentre en la neuroinformática de las poblaciones de neuronas.
Creemos que los métodos computacionales nos permitirán crear representaciones y
lenguajes efectivos para comprender los sistemas neuronales y que éstos se conver-
tirán en herramientas esenciales para que los neurobiólogos puedan acercarse a la
solución de la miríada de misterios en torno al sentir, aprender y tomar decisiones
que realizan los sistemas nerviosos.
REFERENCIAS
[1] K. L. Briggman, H. D. I. Abarbanel y W. B. Kristan Jr., “Optical Imaging of Neuronal Populations
During Decision-making”, Science, vol. 307, 2005, pp. 896-901, doi: 10.1126/science.110.
EL CUARTO PARADIGM A 97
SA LU D Y B I E N E S TA R
L
a cantidad de datos disponibles sobre la asistencia sani-
taria está creciendo con gran rapidez, y excede por mucho
la capacidad para ofrecer beneficios para la salud personal
o pública a partir del análisis de estos datos [1]. Los tres
factores clave que determinan ese crecimiento son los historiales
médicos electrónicos (hme), las biotecnologías y la productividad
científica. A continuación examinamos cada uno de ellos, para
después plantear nuestra propuesta de un enfoque de modelado
unificado que puede aprovechar al máximo un entorno intensivo
en datos.
HISTORIALES MÉDICOS ELECTRÓNICOS
EL CUARTO PARADIGM A 99
tivos para que los médicos generales atiendan determinadas enfermedades puede
provocar fluctuaciones en la cantidad de códigos ingresados para nuevos casos de esos
padecimientos [2]. Por otra parte, el abatimiento del costo de los dispositivos para la
supervisión remota y la aplicación de exámenes clínicos en el punto de atención al
paciente conduce a un mayor registro de mediciones objetivas en los hme, cosa que
puede arrojar señales menos sesgadas pero puede crear la ilusión de un incremento
en la prevalencia de enfermedades, sencillamente porque se dispone de más datos.
Algunos pacientes están empezando a tener acceso y suplementar sus propios
historiales médico o a editar un historial paralelo en línea [3]. La administración de
los futuros historiales médicos podría correr a cargo de los individuos (pacientes,
ciudadanos, consumidores) y las comunidades (familias, poblaciones locales, etc.) más
que de las instituciones de atención médica. En resumen, el uso de los hme está pro-
piciando el surgimiento de más escenarios de asistencia sanitaria intensiva en datos,
en los cuales se captura y se transfiere en forma digital una cantidad mucho mayor
de información. Sin embargo, el pensamiento computacional y los modelos de asis-
tencia sanitaria aplicables a esta profusión de datos se han desarrollado escasamente.
BIOTECNOLOGÍAS
EPOC
Conocimiento Pruebas estadísticas
Hipótesis Conclusión
independiente
Datos Depuración de hipótesis
ECV
Conocimiento Pruebas estadísticas
Hipótesis Conclusión
independiente
Datos Depuración de hipótesis
Cáncer pulmonar
Conocimiento Pruebas estadísticas
Hipótesis Conclusión
independiente
Datos Depuración de hipótesis
FIGURA 1.
Los enfoques convencionales basados en la comprobación estadística de hipótesis descomponen
artificialmente el dominio de la atención médica en numerosos subproblemas. De tal manera,
pierden una importante oportunidad de “compartir fuerza” estadística. La enfermedad pulmonar
obstructiva crónica (epoc), la enfermedad cardiovascular (ecv) y el cáncer pulmonar pueden
considerarse en conjunto como “los tres grandes” [6].
Datos Atención
Datos
FIGURA 2.
Proponemos un enfoque unificado para modelar la asistencia sanitaria, que aproveche los
crecientes recursos estadísticos de los registros electrónicos de salud, además de los datos
recopilados para estudios específicos.
Está claro que los modelos unificados tienen el potencial de influir en las decisiones
personales de salud, en el ejercicio clínico y en la salud pública. ¿Es por ello éste un
paradigma para el futuro?
El primer paradigma de la información sanitaria podría resumirse en el historial
de caso más el médico experto, formalizado por Hipócrates hace más de 2 000 años
y que sigue siendo parte importante del ejercicion clínico. En el segundo paradigma,
un equipo de médicos clínicos comparten un historial de salud, cada uno concen-
trando su conocimiento especializado en la condición del paciente en turno. El tercer
paradigma consiste en la asistencia sanitaria basada en evidencias que enlaza una
red de profesionales de la salud conocedores con registros de pacientes en forma
oportuna. Este tercer paradigma todavía no alcanza su culminación, sobre todo en
REFERENCIAS
[1] J. Powell y I. Buchan, “Electronic Health Records Should Support Clinical Research”, J. Med.
Internet Res., vol. 7, núm. 1, 14 de marzo de 2005, p. e4, doi: 10.2196/jmir.7.1.e4.
[2] S. de Lusignan, N. Hague, J. van Vlymen y P. Kumarapeli, “Routinely-collected General Practice
Data are Complex, but with Systematic Processing can be Used for Quality Improvement and
Research”, Prim. Care. Inform., vol. 14, núm. 1, 2006, pp. 59-66.
[3] L. Bos y B. Blobel (eds.), Medical and Care Compunetics 4, Amsterdam, IOS Press (Studies in
Health Technology and Informatics, vol. 127), 2007, pp. 311-315.
[4] B. G. Druss y S. C. Marcus, “Growth and Decentralization of the Medical Literature:
Implications for Evidence-based Medicine”, J. Med. Libr. Assoc., vol. 93, núm. 4, octubre de 2005,
pp. 499‑501. PMID: PMC1250328.
[5] A. Mina, R. Ramlogan, G. Tampubolon y J. Metcalfe, “Mapping Evolutionary Trajectories:
Applications to the Growth and Transformation of Medical Knowledge”, Res. Policy, vol. 36,
núm. 5, 2007, pp. 789-806, doi: 10.1016/j.respol.2006.12.007.
[6] M. Gerhardsson de Verdier, “The Big Three Concept—A Way to Tackle the Health Care Crisis?”,
Proc. Am. Thorac. Soc., vol. 5, 2008, pp. 800-805.
[7] M. Fortin, J. Dionne, G. Pinho, J. Gignac, J. Almirall y L. Lapointe, “Randomized Controlled
Trials: Do They Have External Validity for Patients with Multiple Comorbidities?”, Ann. Fam.
Med., vol. 4, núm. 2, marzo-abril de 2006, pp. 104-108, doi: 10.1370/afm.516.
[8] C. Bishop, Pattern Recognition and Machine Learning, Springer, 2006.
[9] J. Winn y C. Bishop, “Variational Message Passing”, J. Mach. Learn. Res., vol. 6, 2005, pp. 661-694.
[10] T. Minka, J. Winn, J. Guiver y A. Kannan, Infer.NET, Microsoft Research Cambridge,
http://research.microsoft.com/infernet.
E
n un artículo reciente, paul nurse, galardonado con el
Premio Nobel, propone buscar una mejor comprensión
de los organismos vivos mediante “el desarrollo de los
lenguajes apropiados para describir el procesamiento de
información en sistemas biológicos y la generación de métodos
más efectivos para traducir las descripciones bioquímicas en el
funcionamiento de los circuitos lógicos que sostienen los fenó-
menos biológicos” [1].
El lenguaje que Nurse quisiera ver es un lenguaje formal que
pueda ser traducido automáticamente a código ejecutable de má-
quina y que posibilite el desarrollo de técnicas de simulación y
análisis para probar propiedades de sistemas biológicos. Aunque
hay muchos enfoques para el modelado de sistemas vivos, sólo unos
cuantos ofrecen descripciones ejecutables que resaltan los pasos
mecánicos que hacen que un sistema cambie de un estado a otro [2].
Casi todas las técnicas relacionadas con el modelado matemático
hacen abstracción de estos pasos individuales para representar el
comportamiento global, normalmente promediado en el tiempo.
La ciencia de la computación ofrece los elementos fundamen-
tales para describir pasos mecánicos: algoritmos y lenguajes de
programación [3]. Siguiendo la metáfora de las moléculas como
procesos presentada en [4], los cálculos o álgebras de procesos han
sido identificados como una herramienta promisoria para modelar
FIGURA 2.
Los recuadros verdes con la letra S representan las entidades que pueblan el sistema biológico bajo
estudio. Los rectángulos en azul claro unidos a los recuadros verdes representan las interfaces/
dominios activos disponibles para el acoplamiento y desacoplamieno de complejos. El diagrama
muestra cómo la simulación de la especificación BlenX formó un complejo en anillo y ofrece la
posición y las conexiones entre los recuadros para su inspección.
La biología es una ciencia intensiva en datos. Los sistemas biológicos son coleccio-
nes enormes de componentes que interactúan recíprocamente. Las investigaciones
durante la década pasada contribuyeron a la identificación y clasificación de esos
Introducción
para la ciencia?
L
os retos científicos del siglo x xi pondrán a prueba las
alianzas que el gobierno, la industria y la academia han
forjado y consolidado en el transcurso de poco más o menos
un siglo. Por ejemplo, en los Estados Unidos, a partir de la
creación de la National Science Foundation en 1950, ha prosperado
el sistema nacional de investigación universitaria y actualmente do-
mina el sector de la investigación básica. (La investigación aplicada,
de mucho mayor tamaño, obtiene financiamiento y se desarrolla
principalmente en el sector privado.)
Nadie podría negar los logros de este sistema, pero también es
cierto que con el tiempo se ha organizado en buena medida alrede-
dor de disciplinas científicas particulares y recompensa el trabajo
científico individual mediante publicaciones y el proceso de ascenso
y titularidad académica. Más aún, la constante búsqueda de ideas
frescas y nuevos financiamientos por parte de los investigadores
[1, 2] es lo que da a este sistema su característico aire de eterna “agi-
tación”. Una consecuencia imprevista de este modelo es la creciente
disociación entre la oferta de conocimientos científicos y su deman-
da por parte de los sectores público y privado [3, 4]. La estructura
interna de estímulos en las universidades, así como el sistema de
revisión por los pares, favorece los proyectos de investigación que
interesan de manera inherente a la comunidad científica, pero no
necesariamente a quienes son ajenos a ella.
Es tiempo de revisar las estructuras básicas que sustentan nuestra empresa de inves-
tigación. Por ejemplo, ante la necesidad cada vez más apremiante de abordar desde
perspectivas renovadas la investigación sobre el clima y la energía en el contexto
amplio de la sustentabilidad, la investigación básica sobre el sistema climático global
seguirá siendo necesaria; sin embargo, los empresarios y los responsables de las polí-
ticas buscan respuestas a preguntas de un carácter más interdisciplinario que en el
pasado. Este nuevo enfoque guarda mayor afinidad con la elaboración de escenarios
que faciliten la evaluación y gestión de los riesgos que con la resolución tradicional
de problemas y la búsqueda desinteresada del conocimiento.
En el ámbito de la climatología, la demanda de información se concentra en las
interacciones entre el cambio climático y los procesos socioeconómicos, los fenó-
nemos inusuales (pero de alta repercusión) y el diseño de políticas correctivas o de
protocolos administrativos. La oferta científica, por su parte, da preferencia a los
estudios sobre aspectos físicos y biológicos del sistema climático a escala continental
o global y se esfuerza por abatir la incertidumbre (cf. [5]). Este desajuste entre oferta
y demanda socava la capacidad social para responder con eficacia y oportunidad a
un clima cambiante.
HISTORIA RECIENTE
FIGURA 1.
El Earth Observing System Data and Information System (eosdis) de la nasa, según se
proyectó en 1989.
EL PRESENTE
1
PageRank es el algoritmo central del motor de búsquedas de Google.
REFERENCIAS
[1] D. S. Greenberg, Science, Money, and Politics: Political Triumph and Ethical Erosion, Chicago,
University of Chicago Press, 2001.
[2] National Research Council, Assessing the Impacts of Changes in the Information Technology R&D
Ecosystem: Retaining Leadership in an Increasingly Global Environment, Washington, D. C., National
Academies Press, 2009.
[3] D. Sarewitz y R. A. Pielke, Jr., “The Neglected Heart of Science Policy: Reconciling Supply of and
Demand for Science”, Environ. Sci. Policy, vol. 10, 2007, pp. 5-16, doi: 10.1016/
j.envsci.2006.10.001.
[4] L. Dilling, “Towards Science in Support of Decision Making: Characterizing the Supply of
Carbon Cycle Science”, Environ. Sci. Policy, vol. 10, 2007, pp. 48-61, doi: 10.1016/j.envsci.
2006.10.008.
[5] Intergovernmental Panel on Climate Change, Climate Change 2007: The Physical Science Basis,
Nueva York, Cambridge University Press, 2007.
[6] C. Anderson, “The End of Theory”, Wired, vol. 16, núm. 7, 2008, pp. 108-109.
N
o es fácil cuantificar una revolución científica,
pero la velocidad con la que se producen los datos en
la ciencia se ha incrementado en forma tan vertiginosa
que la simple inspección de un área particular de las
ciencias biológicas nos permite apreciar los efectos de ese cambio
en todo el campo. La figura 1 registra el aumento extraordinario en
el número de nucleótidos individuales (bases) que la comunidad in-
ternacional de investigación experimental ha remitido al repositorio
embl-Bank1 (European Molecular Biology Laboratory Nucleotide
Sequence Database). Actualmente, el volumen de dichos registros
crece a razón de 200% al año.
La información está al cuidado del International Nucleotide
Sequence Database Collaboration (insdc), un proyecto colectivo
conformado por los repositorios dna Data Bank of Japan (ddbj),
GenBank de los Estados Unidos y embl-Bank del Reino Unido,
los cuales intercambian información nueva día con día. En mayo
de 2009, estos bancos sumaban un total aproximado de 250 000
millones de bases, repartidas en 160 millones de entradas.
Una entrega reciente al embl-Bank, con número de registro
FJ982430, puede dar testimonio de la rapidez con que se producen
los datos y la eficacia con que la infraestructura bioinformática
1
www.ebi.ac.uk/embl
2009
2005
1985
1995
19 82
2006
2009
2007
2008
2005
2002
1998
1999
2004
1997
2003
Aun antes de publicada la versión preliminar del genoma humano en 2001, las
bases de datos biológicos habían pasado de ocupar una posición marginal a una
central en la investigación moderna en ciencias biológicas, lo que trajo consigo el
problema de que nuestra capacidad para analizar los datos va ahora a la zaga de
nuestra habilidad para generarlos. A consecuencia de lo anterior, existe la necesidad
apremiante de hallar nuevos métodos que permitan aprovechar no sólo los datos
genómicos disponibles, sino también otros conjuntos de resultados generados por
dispositivos de alto rendimiento que residen en bases de datos. Por otra parte, la
producción de dichos conjuntos es cada vez más neutral en cuanto a hipótesis, en
comparación con los resultados de los experimentos convencionales, de propósito
y tamaño más restringido. Los registros de uso de los servicios del ebi, según se
ilustra en la figura 4, revelan que los biólogos, con apoyo de colegas versados en
bioinformática, acceden cada vez en mayor número a estos recursos.
Actualmente, las páginas vinculadas con las 63 bases de datos que hospeda el ebi
reciben unos 3.5 millones de accesos al día, lo que representa más de medio millón
de usuarios individuales por mes. Si bien este volumen no va a la par del incremento
en las tasas de acopio de datos, se ha visto un aumento importante en la actividad de
minería de datos, como lo evidencian los índices que miden la cantidad de accesos
mediante api a los servicios de red, los cuales registran cerca de un millón de tareas
por mes. Para alentar una mayor exploración de los datos, el ebi ha desarrollado, con
herramientas de acceso libre, el sistema de búsquedas eb-eye, con el que ofrece una
REFERENCIAS
[1] G. Cochrane et al., “Petabyte-Scale Innovations at the European Nucleotide Archive”, Nucleic
Acids Res., vol. 37, enero de 2009, pp. D19-D25, doi: 10.1093/nar/gkn765.
[2] E. R. Mardis, “The Impact of Next-Generation Sequencing Technology on Genetics”, Trends
Genet., vol. 24, núm. 3, marzo de 2008, pp. 133-141, doi: 10.1016/j.tig.2007.12.007.
[3] N. Blow, “DNA Sequencing: Generation Next-Next”, Nat. Methods, vol. 5, 2008, pp. 267-274, doi:
10.1038/nmeth0308-267.
[4] Bovine Genome Sequencing and Analysis Consortium, “The Genome Sequence of Taurine Cattle:
A Window to Ruminant Biology and Evolution”, Science, vol. 324, núm. 5926, 24 de abril de 2009,
pp. 522-528, doi: 10.1126/science.1169588.
[5] G. Bell, T. Hey y A. Szalay, “Beyond the Data Deluge,” Science, vol. 323, núm. 5919, 6 de marzo de
2009, pp. 1297-1298, doi: 10.1126/science.1170411.
E
n el último medio siglo, las computadoras paralelas, el
procesamiento en paralelo y la investigación científica han
evolucionado de manera conjunta. La insaciable necesidad
de los científicos e investigadores por efectuar cálculos
más complejos y en mayor cuantía excedió hace mucho tiempo la
capacidad de las computadoras convencionales. La única estrategia
a la altura de esta necesidad ha sido la del paralelismo, es decir, la
ejecución simultánea de más de una operación. En un primer nivel,
el paralelismo es una idea sencilla y fácil de llevar a la práctica.
Construir una computadora paralela duplicando componentes ope-
rativos básicos, como unidades aritméticas o, incluso, procesadores
completos, no presenta mayor dificultad; pero fabricar una máquina
estable, no entorpecida por cuellos de botella internos, constituye
un gran reto. En última instancia, el problema principal ha sido el
software, no el hardware: los programas paralelos son más difíciles
de diseñar, escribir, depurar y perfeccionar que sus contrapartes
secuenciales, las cuales no pueden considerarse todavía productos
totalmente desarrollados y reproducibles.
LA EVOLUCIÓN DE LA COMPUTACIÓN PARALELA
REFERENCIAS
[1] D. Gannon y D. Reed, “El paralelismo y la nube”, en este volumen, pp.143-147.
A
lo largo de la década pasada, la investigación en
ingeniería y ciencias apoyada en la computación se ha
erigido como el tercer pilar del proceso científico, com-
plementando a la teoría y a la experimentación. Diver-
sos estudios nacionales han destacado la importancia de la ciencia
computacional como un habilitador crucial del descubrimiento cien-
tífico y la competitividad nacional en las ciencias físicas y biológicas,
la medicina, la atención a la salud, el diseño y la manufactura [1-3].
Como su nombre lo indica, la ciencia computacional se ha cen-
trado históricamente en la computación: la creación y ejecución de
modelos matemáticos de procesos naturales y artificiales. Impul-
sada por la oportunidad y la necesidad, la ciencia computacional
está expandiendo su campo para abarcar tanto a la computación
como al análisis de datos. Actualmente, un creciente tsunami de
información amenaza con abrumarnos con su solo volumen y di-
versidad. Alimentado por sensores de bajo costo y aparentemente
ubicuos, redes de banda ancha y sistemas de almacenamiento de
alta capacidad, el tsunami incluye datos provenientes de sensores
que monitorean nuestro planeta desde las profundidades oceáni-
cas, instrumentos terrestres y sistemas de producción de imágenes
ubicados en el espacio; también incluye mediciones ambientales
y datos relacionados con el cuidado de la salud que cuantifican
procesos biológicos y los efectos de las condiciones circundantes.
REFERENCIAS
[1] President’s Information Technology Advisory Committee, Computational Science: Ensuring Ameri-
ca’s Competitiveness, junio de 2005, www.nitrd.gov/pitac/
reports/20050609_computational/computational.pdf.
[2] D. A. Reed (ed.), Workshop on The Roadmap for the Revitalization of High-End Computing, junio de
2003, http://archive.cra.org/reports/supercomputing.pdf.
[3] S. L. Graham, M. Snir y C. A. Patterson (eds.), Getting Up to Speed: The Future of Supercomputing,
Washington, D. C., National Academies Press, 2004, www.nap.edu/openbook.php?record_
id=11148.
[4] J. Dean and S. Ghemawat, “MapReduce: Simplified Data Processing on Large Clusters”, OSDI
’04: Sixth Symposium on Operating Systems Design and Implementation, San Francisco, diciem-
bre de 2004, doi: 10.1145/1327452.1327492.
[5] Y. Yu., M. Isard, D. Fetterly, M. Budiu, Ú. Erlingsson, P. Kumar Gunda, and
J. Currey, “DryadLINQ: A System for General-Purpose Distributed Data-Parallel Computing
Using a High-Level Language”, OSDI ’08: Eighth Symposium on
Operating Systems Design and Implementation, San Diego, diciembre de 2008,
http://research.microsoft.com/pubs/70861/DryadLINQ-osdi.pdf.
centrada en datos
N
os encontramos en la época de la investigación cien-
tífica centrada en datos, en la cual las hipótesis no sólo
se ponen a prueba mediante la recolección y el análi-
sis dirigidos de datos, sino que también son generadas
mediante la combinación y la exploración de la reserva de datos ya
disponible [1-3]. El paisaje de datos científicos al que recurrimos
se está expandiendo rápidamente en escala y en diversidad. Si se
toma a las ciencias biológicas como ejemplo, las plataformas de alto
rendimiento de secuenciación de genes pueden generar terabytes
de datos en un solo experimento, y los volúmenes de datos están
destinados a aumentar aún más con la automatización a escala
industrial. De 2001 a 2009, el número de bases de datos referidas
en Nucleic Acids Research saltó de 218 a 1 170 [4]. Las colecciones de
datos no sólo están aumentando en tamaño y en número, sino que
además están coordinadas de manera parcial y con frecuencia son
incompatibles [5], lo que significa que las tareas de descubrimien-
to y de integración constituyen desafíos significativos. Al mismo
tiempo, estamos recurriendo a una serie más amplia de fuentes
de datos: la biología moderna obtiene conocimiento a partir de la
combinación de diferentes tipos de datos “ómicos” (proteómicos,
metabolómicos, transcriptómicos, genómicos), así como de datos
de otras disciplinas tales como la química, la medicina clínica y la
sanidad, mientras que la biología de sistemas enlaza datos de escala
genes_in_qtl
mmusculus_gene_ensembl
REMOVE_NULLS_2 remove_Nulls
add_uniprot_to_string add_ncbi_to_string
Kegg_gene_ids Kegg_gene_ids_2
concat_kegg_genes
split_for_duplicates
remove_duplicate_kegg_genes
Get_pathways
Entradas
regex gene_ids
split_by_regex
lister
get_pathways_by_genes1
Merge_pathways
concat_ids
concat_gene_pathway_ids pathway_desc
Merge_gene_pathways Merge_pathway_desc
Workflow Outputs
Resultados Entradas
FIGURA 1.
Un flujo de trabajo Taverna que enlaza varios conjuntos de datos distribuidos a escala inter-
nacional para identificar genes prospectos implicados en la resistencia a la tripanosomiasis
africana [11].
1
www.taverna.org.uk
2
http://kepler-project.org
3
http://pegasus.isi.edu
4
www.trianacode.org
5
http://pipeline.loni.ucla.edu
6
http://accelrys.com/products/scitegic
Los flujos de trabajo liberan a los científicos de la monotonía del procesamiento ru-
tinario de datos de modo que puedan concentrarse en el descubrimiento científico.
Ayudan a sobrellevar la carga de las tareas rutinarias, representan los protocolos
computacionales necesarios para acometer la ciencia centrada en datos, y ponen al
alcance de un grupo mucho más amplio de científicos y desarrolladores de aplica-
ciones científicas el uso de procesos y de recursos de datos.
Los flujos de trabajo son ideales para ejecutar procedimientos de rutina de ma-
nera precisa, repetida y sistemática: el control de la captura de datos de sensores o
instrumentos; la limpieza, normalización y validación de datos; el traslado y alma-
cenamiento de datos de manera segura y eficiente; la comparación de datos a través
de múltiples ejecuciones, y la puesta al día con regularidad de los depósitos de datos.
Por ejemplo, el programa de exploración astronómica Pan-starrs9 utiliza los flujos de
trabajo de Microsoft Trident Scientific Workflow Workbench10 para cargar y validar
las detecciones de telescopio que se ejecutan a aproximadamente 30 tb por año. Los
flujos de trabajo también han resultado útiles para el mantenimiento y la actualiza-
ción de colecciones y depósitos de datos al reaccionar ante cambios en las colecciones
de datos subyacentes. Por ejemplo, el Centro Médico Nijmegen reconstruyó la base
de datos tgrap de receptores mutantes acoplados a proteínas G con ayuda de una
suite de flujos de trabajo Taverna para minería de textos.
En un nivel superior, un flujo de trabajo es una expresión modular explícita y
precisa de un protocolo experimental in silico o de “laboratorio seco”. Los flujos
de trabajo son ideales para recopilar y reunir datos a partir de conjuntos dispersos
7
www.cs.wisc.edu/condor/dagman
8
http://epicenter.usc.edu/cmeportal/CyberShake.html
9
http://pan-starrs.ifa.hawaii.edu
10
http://research.microsoft.com/en-us/collaboration/tools/trident.aspx
Los flujos de trabajo ofrecen técnicas para apoyar el nuevo paradigma de la ciencia
centrada en datos, ya que se pueden reproducir y repetir. Los resultados y los datos
secundarios pueden calcularse según sea necesario utilizando las fuentes más re-
cientes, generando depósitos de datos virtuales (o bajo demanda) al proporcionar
un procesamiento efectivo de consultas distribuidas. Las repeticiones inteligentes de
11
http://portal.leadproject.org
12
www.myexperiment.org
13
www.biocatalogue.org
REFERENCIAS
[1] D. B. Kell y S. G. Oliver, “Here Is the Evidence, Now What Is the Hypothesis? The Complemen-
tary Roles of Inductive and Hypothesis-Driven Science in the Post-genomic Era”, BioEssays, vol.
26, núm. 1, 2004, pp. 99-105, doi: 10.1002/bies.10385.
[2] A. Halevy, P. Norvig y F. Pereira, “The Unreasonable Effectiveness of Data”, IEEE Intell. Syst., vol.
24, núm. 2, 2009, pp. 8-12, doi: 10.1109/MIS.2009.36.
[3] C. Anderson, “The End of Theory: The Data Deluge Makes the Scientific Method Obsolete”, Wired,
vol. 16, núm. 7, 23 de junio de 2008, www.wired.com/science/discoveries/magazine/16-07/pb_theory.
[4] M. Y. Galperin y G. R. Cochrane, “Nucleic Acids Research Annual Database Issue and the NAR
Online Molecular Biology Database Collection in 2009”, Nucl. Acids Res., vol. 37 (Database issue),
pp. D1-D4, doi: 10.1093/nar/gkn942.
[5] C. Goble y R. Stevens, “The State of the Nation in Data Integration in Bioinformatics”, J. Biomed.
Inform., vol. 41, núm. 5, 2008, pp. 687-693.
[6] I. J. Taylor, E. Deelman, D. B. Gannon y M. Shields (eds.), Workflows for e-Science: Scientific Work-
flows for Grids, Londres, Springer, 2007.
[7] P. Romano, “Automation of In-Silico Data Analysis Processes through Workflow Management
Systems”, Brief Bioinform, vol. 9, núm. 1, enero de 2008, pp. 57-68, doi: 10.1093/bib/bbm056.
[8] T. Oinn, M. Greenwood, M. Addis, N. Alpdemir, J. Ferris, K. Glover, C. Goble, A. Goderis,
D. Hull, D. Marvin, P. Li, P. Lord, M. Pocock, M. Senger, R. Stevens, A. Wipat y C. Wroe, “Taverna:
Lessons in Creating a Workflow Environment for the Life Sciences”, Concurrency and Computa-
tion: Practice and Experience, vol. 18, núm. 10, 2006, pp. 1067-1100, doi: 10.1002/cpe.v18:10.
[9] E. Deelman, D. Gannon, M. Shields e I. Taylor, “Workflows and e-Science: An Overview of Work-
flow System Features and Capabilities”, Future Gen. Comput. Syst., vol. 25, núm. 5, mayo de 2009,
pp. 528-540, doi: 10.1016/j.future.2008.06.012.
L
a ciencia se está volviendo cada vez más dependiente
de datos. Sin embargo, las tecnologías tradicionales de
datos no se diseñaron para afrontar la escala ni la hete-
rogeneidad de los datos en el mundo moderno. Proyectos
tales como el Gran Colisionador de Hadrones (gch) y el Australian
Square Kilometre Array Pathfinder (askap) generarán petabytes
de datos que deben ser analizados por centenas de científicos que
trabajan en diversos países y que hablan muchos idiomas diferentes.
La facilitación digital o electrónica de la ciencia, o e-ciencia [1], ahora
es esencial y se está extendiendo.
Desde luego que la ciencia intensiva en datos, uno de los com-
ponentes de la e-ciencia, debe ir más allá de los depósitos de datos
y de los sistemas cerrados, buscando más bien permitir el acceso
a los datos a quienes no sean parte de los equipos principales del
proyecto, así como una mayor integración de fuentes, y proporcionar
interfaces a quienes son científicos expertos pero que no lo son en
la administración de datos ni en computación. Conforme florece la
e-ciencia y las barreras para liberar y abrir el acceso a los datos se
reducen, están surgiendo otras preguntas, que son más difíciles,
como las siguientes: “¿Cómo puedo utilizar estos datos que yo no
generé?”, o “¿Cómo puedo utilizar este tipo de datos, que nunca he
visto, con los datos que uso todos los días?”, o “¿Qué debo hacer si
realmente necesito datos de otra disciplina, pero cuyos términos
Aunque los primeros esfuerzos se están realizando en las cuatro áreas, se debe hacer
mucho más. La naturaleza misma de hacer frente a la creciente complejidad de la
ciencia moderna lo demanda.
REFERENCIAS
[1] T. Hey y A. E. Trefethen, “Cyberinfrastructure for e-Science,” Science, vol. 308, no. 5723, mayo de
2005, pp. 817—821, doi: 10.1126/science.1110410.
[2] J. Madin, S. Bowers, M. Schildhauer, S. Krivov, D. Pennington y F. Villa, “An Ontology for
Describing and Synthesizing Ecological Observation Data,” Ecol. Inf., vol. 2, no. 3, 2007, pp.
279—296, doi: 10.1016/j.ecoinf.2007.05.004.
[3] E. Neumann, “A Life Science Semantic Web: Are We There Yet?” Sci. STKE, 2005, p. 22, doi:
10.1126/stke.2832005pe22.
[4] P. Fox, D. McGuinness, L. Cinquini, P. West, J. Garcia y J. Benedict, “Ontology-Supported Scienti-
fic Data Frameworks: The Virtual Solar-Terrestrial Observatory Experience,” Comput. Geosci.,
vol. 35, no. 4, 2009, pp. 724—738, doi:10.1.1.141.1827.
[5] D. McGuinness, P. Fox, L. Cinquini, P. West, J. Garcia, J. L. Benedict y D. Middleton, “The
Virtual Solar-Terrestrial Observatory: A Deployed Semantic Web Application Case Study for
Scientific Research,” AI Mag., vol. 29, no. 1, 2007, pp. 65—76, doi: 10.1145/1317353.1317355.
D
esde la llegada de la computación, el mundo ha
experimentado un “big bang” de información: una
explosión de datos. La cantidad de información que
se produce está aumentando a un ritmo exponencial.
Desde 2003, la información digital ha sido responsable de 90 por
ciento de toda la información producida [1], muy superior a la
cantidad de información en papel y en filme. Uno de los mayores
desafíos científicos y de ingeniería del siglo xxi consistirá en com-
prender y usar eficazmente este creciente cuerpo de información.
El análisis visual de datos, facilitado por interfaces interactivas,
permite la detección y la validación de resultados esperados y a la
vez descubrimientos inesperados en la ciencia; permite la valida-
ción de nuevos modelos teóricos y ofrece una comparación entre
modelos y conjuntos de datos; permite la consulta cuantitativa
y cualitativa, mejora la interpretación de datos y facilita la toma
de decisiones. Los científicos pueden utilizar sistemas de análisis
visuales de datos para explorar escenarios del estilo “qué pasaría
si”, definir hipótesis y analizar datos utilizando múltiples perspec-
tivas y suposiciones. Pueden identificar conexiones entre grandes
cantidades de atributos y evaluar cuantitativamente la fiabilidad de
hipótesis. En esencia, el análisis visual de datos es parte integral del
descubrimiento científico y está lejos de ser un problema resuelto.
Siguen abiertas muchas líneas para futuras investigaciones. En este
fluido ligero
FIGURA 1.
Visualización interactiva de cuatro etapas de la simulación 11523 de una inestabilidad de Raylei-
gh-Taylor. La gravedad impulsa la mezcla de un fluido pesado encima de uno más ligero. Dos
superficies envolventes captan la región de mezcla.
En los años recientes, los científicos computacionales con acceso a las supercompu-
tadoras más grandes del mundo han simulado con éxito una serie de fenómenos,
tanto naturales como originados por el ser humano, con niveles de detalle sin pre-
cedentes. Tales simulaciones habitualmente producen cantidades masivas de datos.
Por ejemplo, las simulaciones de inestabilidad hidrodinámica realizadas a principios
de 2002 en el Lawrence Livermore National Laboratory (llnl) produjeron varias
decenas de terabytes de datos, como se muestra en la figura 1. Estos datos deben
visualizarse y analizarse para verificar y validar el modelo subyacente, entender el
fenómeno detalladamente, y desarrollar nuevas ideas sobre su física fundamental.
Por lo tanto, la visualización y los algoritmos de análisis de datos requieren nuevos
diseños avanzados que permitan un alto rendimiento cuando se trabaje con grandes
cantidades de datos.
Las técnicas de streaming (flujo continuo) de datos y la computación fuera
de núcleo abordan específicamente los temas de rediseño de algoritmos y la
restructuración de la disposición de datos, que son necesarios para permitir el
procesamiento escalable de grandes cantidades de datos. Por ejemplo, las curvas
que llenan el plano se han utilizado para desarrollar un esquema de indexación
estática llamado v isus,1 que produce una disposición de datos que permite el
recorrido jerárquico de mallas regulares n-dimensionales. Tres características
hacen que este enfoque sea particularmente atractivo: (1) el orden de los datos es
independiente de los parámetros del hardware físico (un enfoque ajeno al caché),
(2) la conversión del orden Z utilizado en los modelos clásicos de bases de datos se
consigue mediante una sencilla secuencia de manipulaciones de cadena de bits, y
(3) no introduce duplicación alguna de datos. Este enfoque ha sido utilizado para
el streaming directo y el monitoreo en tiempo real de simulaciones a gran escala
durante la ejecución [4].
En la figura 2 se muestra la infraestructura del streaming de visus transmitiendo
códigos de simulación llnl y visualizándolos en tiempo real en la instalación Blue
Gene/L en la exposición de Supercómputo 2004 (donde se introdujo la Blue Gene /L
como la nueva super computadora más rápida en el mundo). La escalabilidad extrema
de este enfoque permite el uso de la misma base de código para un gran conjun-
to de aplicaciones, mientras se explota una amplia gama de dispositivos, desde las
grandes pantallas (powerwall) a las estaciones de trabajo, computadoras portátiles y
dispositivos de mano tales como el iPhone.
1
www.pascucci.org/visus
2
http://vistrails.sci.utah.edu
3
www.paraview.org
* “Advección es la variación de un escalar en un punto dado por efecto de un campo vectorial”. Tomado de
http://es.wikipedia.org/wiki/Advecci%B3n (N. del E.)
gpuflic. Los patrones generados por el método de advección de textura son confu-
sos a causa de la difusión numérica y de la pérdida de masa. En un método de nivel
establecido, estructuras intricadas se pierden a causa del umbral binario de tinte/
fondo. Gracias a la formulación de base física [10], la visualización puede transmitir
con precisión estructuras detalladas que no se muestran usando el método tradicional
de la advección de textura.
DESAFÍOS FUTUROS DE LA VISUALIZACIÓN INTENSIVA EN DATOS
La publicación de este capítulo se basa, en parte, en trabajo apoyado por doe: vacet,
doe sdm, doe c- safe Alliance Center, the National Science Foundation (subven-
REFERENCIAS
[1] C. R. Johnson, R. Moorhead, T. Munzner, H. Pfister, P. Rheingans y T. S. Yoo (eds.), nih-nsf
Visualization Research Challenges Report, ieee Press, ISBN 0-7695-2733-7, 2006,
http://vgtc.org/wpmu/techcom/national-initiatives/nihnsf-visualization-research-challenges-
report-january-2006, doi: 10.1109/MCG.2006.44.
[2] nsf Blue Ribbon Panel Report on Simulation-Based Engineering Science (J. T. Oden, T.
Belytschko, J. Fish, T. Hughes, C. R. Johnson, D. Keyes, A. Laub, L. Petzold, D. Srolovitz y S. Yip),
“Simulation-Based Engineering Science”, 2006, www.nd.edu/~dddas/References/SBES_
Final_Report.pdf.
[3] nih-nsf Visualization Research Challenges, http://erie.nlm.nih.gov/evc/meetings/vrc2004.
[4] V. Pascucci, D. E. Laney, R. J. Frank, F. Gygi, G. Scorzelli, L. Linsen y B. Hamann, “Real-Time
Monitoring of Large Scientific Simulations”, sac, 2003, pp. 194—198, acm, doi: 10.1.1.66.9717.
[5] S. B. Davidson y J. Freire, “Provenance and Scientific Workflows: Challenges and Opportunities”,
Proc. acm sigmod, 2008, pp. 1345—1350, doi: 10.1.1.140.3264.
[6] J. Freire, D. Koop, E. Santos y C. Silva, “Provenance for Computational Tasks: A Survey”, Comput.
Sci. Eng., vol. 10, núm. 3, pp. 11—21, 2008, doi: 10.1109/MCSE.2008.79.
[7] J. Freire, C. T. Silva, S. P. Callahan, E. Santos, C. E. Scheidegger y H. T. Vo, “Managing
Rapidly-Evolving Scientific Workflows”, International Provenance and Annotation Workshop
(ipaw), lncs 4145, 2006, pp. 10—18, doi:10.1.1.117.5530.
[8] C. Silva, J. Freire y S. P. Callahan, “Provenance for Visualizations: Reproducibility and Beyond,”
ieee Comput. Sci. Eng., 2007, doi: 10.1109/MCSE.2007.106.
[9] G.-S. Li, X. Tricoche, D. Weiskopf y C. Hansen, “Flow Charts: Visualization of Vector Fields on
Arbitrarysurfaces”, ieee Trans. Visual. Comput. Graphics, vol. 14, núm. 5, 2008, pp. 1067—1080,
doi: 10.1109/TVCG.2008.58.
[10] G.-S. Li, C. Hansen y X. Tricoche, “Physically-Based Dye Advection for Flow Visualiza-
tion”, Comp. Graphics Forum J., vol. 27, núm. 3, 2008, pp. 727—735, doi: 10.1111/j.1467-
8659.2008.01201.x.
[11] “Visualization and Knowledge Discovery: Report from the doe/ascr Workshop on Visual
Analysis and Data Exploration at Extreme Scale”, C. R. Johnson, R. Ross, S. Ahern, J. Ahrens,
W. Bethel, K. L. Ma, M. Papka, J. van Rosendale, H. W. Shen y J. Thomas, www.sci.utah.edu/
vaw2007/doe-Visualization-Report-2007.pdf, 2007.
infraestructura de investigación
basada en los conocimientos
L
os sistemas informáticos se han convertido en parte
vital del entorno de la investigación moderna, apoyando
todas las facetas del ciclo de vida de la investigación [1]. La
comunidad utiliza los términos “e-ciencia” y “e-investiga-
ción” para poner de relieve el importante papel de la tecnología de
la computación en las maneras en que abordamos la investigación,
colaboramos, compartimos datos y documentos, presentamos so-
licitudes de financiamiento, usamos dispositivos para recolectar
datos de los experimentos automáticamente y con precisión, imple-
mentamos nuevas generaciones de microscopios y telescopios para
aumentar la calidad de las imágenes adquiridas, y archivamos todo
a lo largo del camino para tener la información de su procedencia
y conservarlo a largo plazo [2, 3].
Sin embargo, los mismos avances tecnológicos en la captura, la
generación y el intercambio de datos, así como la automatización
que las computadoras permiten han dado como resultado una ex-
plosión sin precedentes en datos —esta situación no sólo prevalece
en la investigación sino en todas las facetas de nuestras vidas digi-
tales—. Este diluvio de datos, especialmente en el ámbito científico,
ha traído nuevos desafíos para la infraestructura de investigación,
según lo han destacado Jim Gray y Alex Szalay [4]. Las demandas de
procesamiento, transferencia de datos y almacenamiento son hoy
mucho mayores que hace apenas unos pocos años. No es de extrañar
1
http://aws.amazon.com
2
www.pdl.cmu.edu/DISC
3
http://labs.google.com/papers/mapreduce.html
4
http://hadoop.apache.org
5
http://research.microsoft.com/en-us/projects/dryad
6
http://aws.amazon.com/importexport
7
http://en.wikipedia.org/wiki/Sneakernet
8
http://en.wikipedia.org/wiki/DIKW
9
http://en.wikipedia.org/wiki/Semantic_Web
10
www.biomoby.org
11
www.opencyc.org
12
www.freebase.com
13
www.powerset.com
14
www.trueknowledge.com
15
www.wolframalpha.com
16
www.mygrid.org.uk
17
www.myexperiment.org
FIGURA 1.
Visión de alto nivel de una infraestructura de investigación que reúne bases de conocimien-
tos y servicios computacionales.
18
http://ucsdbiolit.codeplex.com
19
Se supone una distinción entre el enfoque general de la computación basada en tecnologías semánticas (apren-
dizaje automático, redes neuronales, ontologías, inferencia, etc.) y la Web semántica como se describe en [5] y [6],
que se refiere a un ecosistema específico de tecnologías como rdf y owl. Se considera que las tecnologías de la
Web semántica son sólo algunas de las muchas herramientas a nuestra disposición en la construcción de soluciones
basadas en la semántica y basadas en el conocimiento.
20
Suponiendo que el acceso abierto a la información de la investigación se ha vuelto una realidad.
Hoy en día, las plataformas que ofrecen ejecuciones del patrón computacional
MapReduce (e. g., Hadoop y Dryad) facilitan a los desarrolladores llevar a cabo
cálculos intensivos en datos a escala. En el futuro, será muy importante desarrollar
plataformas y patrones equivalentes para apoyar acciones relacionadas con los co-
nocimientos, tales como recopilación, adquisición, inferencia, razonamiento e inter-
pretación de la información. Nuestro objetivo debe ser proporcionar a los científicos
21
http://research.microsoft.com/orechem
REFERENCIAS
[1] L. Dirks y T. Hey, “The Coming Revolution in Scholarly Communications & Cyberinfrastructure”,
CT Watch Q., vol. 3, núm. 3, 2007.
[2] National Science Foundation, “Cyberinfrastructure Vision for 21st Century Discovery”,
marzo de 2007.
[3] J. Taylor (s/f), “UK eScience Programme”, consultado en www.e-science.clrc.ac.uk.
[4] J. Gray y A. Szalay, “eScience. A Transformed Scientific Method”, Presentación ante el Computer
Science and Technology Board del National Research Council, 11 de enero de 2007, consultado
en http://research.microsoft.com/en-us/um/people/gray/talks/NRC-CSTB_eScience.ppt.
(Transcripción editada en este volumen.)
[5] T. Berners-Lee, J. A. Hendler y O. Lasilla, “The Semantic Web”, Scientific American, vol. 284,
núm. 5, pp. 35-43, mayo de 2001, www.sciam.com/article.cfm?id=the-semantic-web.
[6] N. Shadbolt, W. Hall y T. Berners-Lee, “The Semantic Web Revisited”, IEEE Intell. Syst., vol. 21,
núm. 3, pp. 96—101, 2006, doi: 10.1109/MIS.2006.62.
[7] V. Bush, “As We MayThink”, The Atlantic, julio de 1945, doi: 10.3998/3336451.0001.101.
Introducción
M
ucha gente admiraba la pasión de jim gray por
la e-ciencia, pero pocos estaban conscientes de su
profundo deseo de aplicar la computación para incre-
mentar la productividad de los académicos y acelerar
el ritmo del descubrimiento y la innovación entre los científicos
investigadores. Varios de los autores de la Parte 4 de este libro co-
nocieron y trabajaron con Jim. Ellos y los demás no sólo comparten
su visión, sino que se esfuerzan por hacerla realidad.
A manera de introducción, Lynch expone cómo el cuarto paradig-
ma se aplica al campo de la comunicación académica. Su ensayo se
organiza en torno a una pregunta central: ¿cuáles son los efectos de
la ciencia intensiva en datos sobre el registro documental científico?
De ahí hace una revisión del registro académico —un conjunto de
datos, publicaciones y materiales de apoyo en continuo cambio y
evolución, y cuyo número es pasmoso—. En este nuevo mundo, no
sólo se beneficia el científico individual (como usuario final), sino
que gracias al cómputo intensivo en datos podemos esperar más ini-
ciativas transdisciplinarias que aceleren el descubrimiento, resalten
nuevas conexiones y sugieran vínculos imprevistos que impulsarán
el avance científico.
Ginsparg se interna en los mecanismos que promueven la rápida
transformación de las publicaciones académicas. Cita importantes
ejemplos de proyectos de vanguardia y de avances prometedores en
E
n la última parte de su carrera, Jim Gray encabezó el
pensamiento de un grupo de académicos que presenciaron
el surgimiento de lo que caracterizaron como un cuarto
paradigma de la investigación científica. En este ensayo,
me enfocaré especialmente en las implicaciones de este cuarto
paradigma, al que me referiré como “ciencia intensiva en datos” [1],
para la naturaleza de la comunicación científica y el registro do-
cumental científico.
El paradigma de Gray reúne la pareja clásica de paradigmas
opuestos pero que se apoyan mutuamente: la teoría y la experimen-
tación. El tercer paradigma —el de la simulación computacional de
gran escala— surgió a mediados del siglo xx con los trabajos de John
von Neumann y otros. En cierto sentido, el cuarto paradigma de
Gray ofrece un marco integrador que permite la interacción de los
primeros tres y su mutuo fortalecimiento, de manera muy parecida
al ciclo científico tradicional, en el que la teoría ofrecía predicciones
que podían ser verificadas experimentalmente, y estos experimentos
identificaban fenómenos que requerían una explicación teórica. Si
bien fueron enormes las contribuciones de la simulación al pro-
greso científico, no lograron su cometido inicial (por ejemplo, en
la predicción del clima a largo plazo) en parte debido a la extrema
sensibilidad de los sistemas complejos ante las condiciones iniciales
y frente a los comportamientos caóticos [2]; éste es un ejemplo en
1
Por brevedad y claridad limité la discusión a la ciencia. Pero así como está claro que la e-ciencia es sólo un caso
especial de la e-investigación, y la ciencia intensiva en datos es una forma de trabajo académico intensivo en datos,
muchos de los puntos aquí señalados pueden aplicarse, con cierta adaptación, a las humanidades y a las ciencias
sociales.
2
De hecho, la capacidad de comprender y reproducir cálculos complejos se convirtió en un problema real también
para la ciencia teórica; la prueba de 1976 del teorema de los cuatro colores en la teoría de gráficas requirió un
análisis computacional exhaustivo de un gran número de casos especiales y causó mucha controversia dentro de la
comunidad matemática en cuanto a si esa prueba era en realidad completamente válida. Un ejemplo más reciente
sería la prueba propuesta de la conjetura de Kepler, realizada por Thomas Hales.
3
El estándar del ieee sobre aritmética de punto flotante se remonta apenas a 1985. Puedo recordar incidentes con
algunas grandes mainframes de las décadas de 1970 y 1980, en los cuales los equipos ya entregados tenían que
repararse en el lugar de trabajo después de que se habían descubierto errores importantes en su hardware o en su
microcódigo que podían arrojar resultados computacionales incorrectos.
REFERENCIAS
[1] G. Bell, T. Hey y A. Szalay, “Beyond the Data Deluge”, Science, vol. 323, 6 de marzo de 2009,
pp. 1297-1298, doi: 10.1126/science.1170411.
[2] F. Dyson, “Birds and Frogs” (Conferencia Einstein 2008), Notices Am. Math. Soc., vol. 56, núm. 2,
febrero de 2009, pp. 212-224, www.ams.org/notices/200902/rtx090200212p.pdf.
[3] National Science Board, “Long-Lived Digital Data Collections: Enabling Research and Education
in the 21st Century”, NSB-05-40, National Science Foundation, 2005, www.nsf.gov/pubs/2005/
nsb0540/start.jsp.
[4] Association of Research Libraries, “To Stand the Test of Time: Long-term Stewardship of Digital
Data Sets in Science and Engineering”, Association of Research Libraries, 2006, www.arl.org/pp/
access/nsfworkshop.shtml.
[5] Diversos informes disponibles en National Science Foundation Office of Cyberinfrastructure,
www.nsf.gov/dir/index.jsp?org=OCI, entre ellos el documento Cyberinfrastructure Vision y el
Informe Atkins.
[6] L. Lyon, “Dealing with Data: Roles, Rights, Responsibilities and Relationships” (informe de aseso-
ría), UKOLN-Joint Information Systems Committee (JISC), 2006, www.jisc.ac.uk/whatwedo/
programmes/programme_digital_repositories/project_dealing_with_data.aspx.
[7] C. A. Lynch, “The Shape of the Scientific Article in the Developing Cyberinfrastructure”,
CT Watch Quarterly, vol. 3, núm. 3, agosto de 2007, pp. 5-11, www.ctwatch.org/quarterly/
articles/2007/08/the-shape-of-the-scientific-article-in-the-developing-cyberinfrastructure.
[8] C. A. Lynch, “Open Computation: Beyond Human-Reader-Centric Views of Scholarly Litera-
tures”, en Neil Jacobs (ed.), Open Access: Key Strategic, Technical and Economic Aspects, Oxford,
Chandos Publishing, 2006, pp. 185-193, www.cni.org/staff/cliffpubs//OpenComputation.pdf.
centrado en datos
C
onocí a jim gray cuando era moderador del área te-
mática de bases de datos de arXiv, parte de la expansión
hacia las ciencias de la computación que arXiv inició en
1998. Poco tiempo después, su participación fue decisi-
va para facilitar la cosecha textual completa de arXiv por grandes
motores de búsqueda, primero de Google y después de Microsoft
y Yahoo! —todo ello posterior a la rigurosa restricción impuesta
a las búsquedas de arXiv por rastreadores robóticos en la década
de 1990 debido a que inundaban los servidores con solicitudes—.
Jim comprendió el papel cada vez más importante del texto como
un tipo de dato, y la necesidad de que los textos fueran ingeribles
y tratables como cualquier otro objeto computable. En 2005 par-
ticipaba tanto en arXiv como en PubMed Central y me expresó
su desconcierto ante el hecho de que, aunque ambos repositorios
cumplían funciones similares, parecían operar en universos para-
lelos, sin conectarse de ninguna manera sustancial. Su visión era
la de un mundo de recursos académicos —textos, bases de datos y
cualesquiera otros materiales relacionados— que fueran navegables
e interoperables sin obstáculos.
Muchas de las principales preguntas abiertas sobre la trans-
formación tecnológica de la infraestructura académica se ha-
bían planteado hacía más de una década, entre ellas, el modelo
de financiamiento de largo plazo para implementar controles de
1
www.rsc.org/Publishing/Journals/mb
2
http://reflect.ws, ganador del reciente Elsevier Grand Challenge (www.elseviergrandchallenge.com).
4
www.w3.org/DesignIssues/LinkedData.html.
5
www.wolframalpha.com, con base en una demostración privada el 23 de abril de 2009, y una presentación pública
el 28 de abril de 2009, http://cyber.law.harvard.edu/events/2009/04/wolfram.
7
Como me lo subrayó John Wilbanks en una plática el 1 de mayo de 2009.
E
sta frase, que solíamos utilizar para causar efecto en
numerosas presentaciones en conferencias y que desarro-
llamos en detalle en un artículo de 2004 [1], todavía es
verdadera en gran medida. Si bien los editores académicos
han adoptado nuevas tecnologías que han permitido el acceso a
materiales académicos de manera más sencilla (como la Web y los
documentos pdf), estos cambios no han cumplido el pleno poten-
cial de la nueva realidad digital e interconectada. En particular, no
resuelven tres defectos del sistema actual de comunicación entre
académicos:
• Problemas sistémicos, en especial el lazo irrompible en el sis-
tema de publicación entre el acto de hacer una afirmación
académica y el proceso de revisión por pares.
• Presiones económicas, que se manifiestan en la “crisis del cos-
to de publicaciones académicas” y que representan una carga
agobiante para las bibliotecas.
• Cuestiones técnicas, que imponen barreras a una infraestruc-
tura de información interoperable.
Aun cuando los datos siempre han sido un ingrediente crucial en las exploraciones
científicas, hasta hace poco no se les trataba como objetos de primera clase en la
comunicación entre académicos, como sucedía con los artículos de investigación que
informaban sobre hallazgos extraídos de los datos. Esto está cambiando rápida y sus-
tancialmente. La comunidad científica está debatiendo y explorando en forma activa
la implementación de todas las funciones centrales de la comunicación académica
—registro, certificación, toma de conciencia, archivamiento y reconocimiento [1]— para
los conjuntos de datos.
Por ejemplo, la pirámide de datos propuesta en [6] claramente indica cómo el
cuidado en la confiabilidad (certificación) y la preservación digital (archivamiento) de
los conjuntos de datos se vuelve vital conforme su aplicación se extiende más allá
del uso personal y llega al ámbito de las comunidades especializadas y a la sociedad
en su conjunto. Los esfuerzos internacionales dirigidos a habilitar el intercambio de
Algunos aspectos del proceso de comunicación académica han sido públicos desde
hace mucho tiempo. Las citas bibliográficas en las publicaciones evidencian el uso de
conocimientos anteriores para generar nuevos. De esta manera, el grafo de referencias
académicas revela aspectos de la interacción entre investigadores y docentes, y por
ello es materia de investigación intensiva para detectar conexiones entre disciplinas
y para el análisis y la predicción de tendencias. Sin embargo, la interpretación de este
grafo a menudo es susceptible de errores debido a los métodos imperfectos de extrac-
ción manual o automática de referencias y a los desafiantes problemas que impone
lograr una atribución autoral no ambigua. Por otra parte, la cobertura del grafo de
referencias es parcial (sólo revistas muy reconocidas o sólo disciplinas específicas),
y desafortunadamente el grafo más representativo (Thomson Reuters) es privado.
El problema del grafo de referencias es indicativo de un problema más amplio: no
hay un rastro preciso, documentado y visible de la evolución de cada activo académico
a través del sistema, ni hay información acerca de la naturaleza de dicha evolución.
El problema es que las relaciones, que son conocidas en el momento en que un activo
académico avanza un paso en una cadena de valor, se pierden en el momento inme-
diatamente posterior, y en muchos casos para siempre. La dinámica real del trabajo
académico —la interacción/conexión entre activos, autores, lectores, evaluaciones
de calidad de los activos, áreas de investigación académica, etcétera— es extremada-
mente difícil de recuperar a posteriori. Por lo tanto, es necesario establecer un estrato
en que se sustente la comunicación académica —una red para la comunicación entre
académicos que registre y exponga esa dinámica, sus relaciones e interacciones—.
Está surgiendo una solución a este problema a través de varias iniciativas innova-
doras que hacen posible publicar información acerca del proceso académico hacia la
Web en formatos legibles por máquina, de preferencia en el momento en que ocurren
L
os adelantos en las tecnologías de la información y
la comunicación han provocado una revolución en la in-
formación, que ha producido cambios fundamentales en
la manera en que ésta se recaba o genera, se comparte y
distribuye [1, 2]. Desde hace mucho tiempo se ha reconocido en
las colaboraciones científicas internacionales la importancia de
establecer sistemas en los cuales los hallazgos de la investigación
puedan ser rápidamente puestos a disposición y utilizados por otros
investigadores. Este reconocimiento de la necesidad de acceso e
intercambio de los datos es más evidente en los documentos marco
que apuntalan muchos de los proyectos observacionales de gran
escala que generan enormes cantidades de datos sobre el planeta
Tierra, el agua, el ambiente marino y la atmósfera.
Por más de cincuenta años, los documentos fundadores de los
proyectos más importantes de colaboración científica por lo regular
han incluido como principio básico un compromiso para asegurar la
disponibilidad abierta y libre de los productos de la investigación. Si
bien estos acuerdos se celebran a menudo en el nivel internacional
(ya sea entre gobiernos o sus representantes en las organizaciones
internacionales), los investigadores individuales y los proyectos
de investigación suelen operar en forma local, dentro de una ju-
risdicción nacional. Si los principios de acceso a datos adoptados
por las colaboraciones científicas internacionales han de llevarse
Una de las primeras acciones del geo fue reconocer explícitamente la importancia
de compartir los datos para el logro de su visión y acordar un conjunto estratégi-
co de principios de intercambio de datos para geoss [4]:
1
www.earthobservations.org/index.html
La estrategia fundamental, para asegurar que las políticas internacionales que de-
mandan “pleno y abierto intercambio de datos” se apliquen efectivamente, radica
en el desarrollo de una política y un marco
Políticas
legal coherentes (véase la figura 1). El marco
internacionales Instrumentos nacional debe respaldar los principios inter-
Ej.: principios de legales
intercambio de datos internacionales nacionales para el acceso y el intercambio
del GEOSS; Tratado Ej.: recomendaciones
Antártico; Principios de la OCDE
de datos, pero también debe ser lo suficien-
de las Bermudas
temente claro y funcional para que los in-
vestigadores lo puedan seguir en el nivel del
proyecto de investigación. Mientras que las
Marcos
nacionales regulaciones nacionales para compartir datos
están bien establecidas en Estados Unidos y
Planes Europa, no puede decirse lo mismo de mu-
de manejo chas otras jurisdicciones (entre ellas Austra-
de datos
lia). Kim Finney, del Antarctic Data Centre,
FIGURA 1. ha llamado la atención sobre las dificultades
Un marco regulatorio para disposiciones para implementar el Artículo iii (1)(c) del Tra-
de intercambio de datos. tado Antártico si los signatarios del tratado
3
Ha habido pocos avances en Australia en cuanto a políticas sobre el acceso a información del gobierno desde el
establecimiento de la Política sobre Acceso y Tasación de los Datos Espaciales de la Office of Spatial Data Manage-
ment (Oficina de Administración de Datos Espaciales) en 2001.
REFERENCIAS
[1] A. Fitzgerald, “A Review of the Literature on the Legal Aspects of Open Access Policy, Practices
and Licensing in Australia and Selected Jurisdictions”, Cooperative Research Centre for Spatial
Information and Queensland University of Technology, julio de 2009, www.aupsi.org.
[2] Presentación del programa de investigación Intellectual Property: Knowledge, Culture and
Economy (ip: kce) , Queensland University of Technology, para el informe Digital Economy: Future
Directions, gobierno de Australia, preparado por B. Fitzgerald, A. Fitzgerald, J. Coates y
K. Pappalardo, 4 de marzo de 2009, p. 2, www.dbcde.gov.au/__data/assets/pdf_file/0011/112304/
Queensland_ University_of_Technology_QUT _Law_Faculty.pdf.
[3] B. Fitzgerald (ed.), Legal Framework for e-Research: Realising the Potential, Sydney University Press,
2008, http://eprints.qut.edu.au/14439.
[4] Group on Earth Observations (geo), “geoss 10-Year Implementation Plan”, adoptado el 16 de
febrero de 2005, p. 4, www.earthobservations.org/docs/10-Year%20Implementation%20Plan.pdf.
[5] A. Fitzgerald y K. Pappalardo, “Building the Infrastructure for Data Access and Reuse in
Collaborative Research: An Analysis of the Legal Context”, oak Law Project y Legal Framework
for e-Research Project, 2007, http://eprints.qut.edu.au/8865.
[6] Bermuda Principles, 1996, www.ornl.gov/sci/techresources/Human_Genome/research/bermuda.
shtml, visitado el 10 de junio de 2009.
[7] Berlin Declaration on Open Access to Knowledge in the Sciences and Humanities, 2003,
http://oa.mpg.de/openaccess-berlin/berlindeclaration.html, visitada el 10 de junio de 2009.
[8] Tratado Antártico (1959), firmado en Washington, D.C., 1 de diciembre de 1959; entró en vigor en
Australia y en general el 23 de junio de 1961, [1961] ats 12 (Australian Treaty Series, 1961, núm.
12), www.austlii.edu.au/cgi-bin/sinodisp/au/other/dfat/treaties/1961/12.html?query=antarctic,
visitado el 5 de junio de 2009.
[9] A. Fitzgerald, K. Pappalardo y A. Austin, “Practical Data Management: A Legal and Policy
Guide”, oak Law Project y Legal Framework for e-Research Project, 2008, http://eprints.qut.edu.
au/14923.
[10] Scientific Committee on Antarctic Research (scar) Data and Information Strategy 2008-2013,
Joint Committee on Antarctic Data Management (jcadm) y Standing Committee on Antarctic
Geographic Information (sc-agi), con autoría de K. Finney, Australian Antarctic Data Centre,
T
iendo a ponerme nervioso cuando escucho hablar de
cambios de paradigmas. El término mismo se ha devalua-
do por el inexacto uso popular —incluso se convirtió en
una broma en Los Simpson—; pero vale la pena revalorar
su función original en La estructura de las revoluciones científicas de
Thomas Kuhn [1] al examinar la idea de un cuarto paradigma y sus
repercusiones en la comunicación académica [2].
El modelo de Kuhn describe un mundo de la ciencia en el cual un
conjunto de ideas se vuelve dominante y se arraiga, y así se crea una
visión del mundo (el tristemente célebre “paradigma”) que adquiere
fuerza y poder. Este conjunto de ideas se vuelve poderoso porque
representa una explicación plausible de los fenómenos observados.
Así tenemos el éter luminífero, la teoría del miasma de la enferme-
dad infecciosa y la idea de que el Sol gira alrededor de la Tierra.
El conjunto de ideas, la visión del mundo, el paradigma, adquiere
fuerza por un proceso acumulativo y gradual. Cada científico indi-
vidual tiende a trabajar de una manera que agrega, poco a poco, al
paradigma. El individuo que puede hacer una gran aportación a esa
visión del mundo adquiere autoridad, contratos de investigación,
galardones y premios, así como un lugar en la junta de directores.
Todos los que participan hacen una inversión en el conjunto de
ideas que va más allá de las ideas mismas. Las industrias y los go-
biernos (y las personas que trabajan en ellos) construyen negocios
* En inglés, Requests for Comments. Son memorandos técnicos que conforman la documentación estándar sobre las
tecnologías en las que se basa internet: especificaciones técnicas, protocolos de comunicación, procedimientos, etc.,
así como recomendaciones y opiniones diversas. (N. del T.)
1
“El corolario metafórico de Moglen a la ley de Faraday afirma que si uno envuelve a cada habitante del planeta en
internet y gira el planeta, el software fluye en la red. Es una propiedad emergente de mentes humanas interconecta-
das el crear cosas para el disfrute mutuo y para superar su desagradable sentimiento de soledad. La única pregunta
es: ¿cuál es la resistencia en la red? El corolario metafórico de Moglen a la ley de Ohm enuncia que la resistencia en
la red es directamente proporcional a la intensidad de campo del ‘sistema de la propiedad intelectual’ ” [7].
2
En términos de propiedad intelectual, los datos reciben tratamientos muy desiguales en distintas partes del mundo,
lo que causa confusión y hace que los esquemas de licenciamiento internacional sean muy complejos y difíciles de
entender [8].
REFERENCIAS
[1] T. S. Kuhn, The Structure of Scientific Revolutions, Chicago, University of Chicago Press, 1996.
Edición en español: La estructura de las revoluciones científicas, México, Fondo de Cultura
Económica, 2013.
[2] G. Bell, T. Hey y A. Szalay, “Beyond the Data Deluge”, Science, vol. 323, 6 de marzo de 2009,
pp. 1297-1298, doi: 10.1126/science.1170411.
[3] J. Gray y A. Szalay, “eScience: A Transformed Scientific Method”, presentación ante el Computer
Science and Technology Board del National Research Council, Mountain View, California,
11 de enero de 2007. (Transcripción editada en este volumen.)
[4] Joi Ito, presentación en ETech, San Jose, California, el 11 de marzo de 2009.
[5] D. Isenberg , “Broadband without Internet ain’t worth squat”, presentación en la Broadband
Properties Summit, http://isen.com/blog/2009/04/broadband-without-internet-ain-worth.html
(visitada el 30 de abril de 2009).
[6] Wikipedia, s.v. “An yet it moves”, http://en.wikipedia.org/wiki/E_pur_si_muove (visitada el 30 de
abril de 2009).
[7] E. Moglen, “Anarchism Triumphant: Free Software and the Death of Copyright”, First Monday,
vol. 4, núm. 8, agosto de 1999, http://emoglen.law.columbia.edu/my_pubs/nospeech.html.
[8] Protocolo del proyecto Science Commons Protocol sobre datos de acceso abierto,
http://sciencecommons.org/projects/publishing/open-access-data-protocol.
U
no de los más agudos analistas de la Web, Clay
Shirky, lo expresó muy bien. Durante su presentación
sobre las “Las lecciones de Napster” en el congreso
Peer-to-Peer de O’Reilly en 2001, invitó al auditorio a
considerar la tristemente célebre predicción del creador de IBM,
Thomas Watson, de que el mercado mundial de las computadoras
se estancaría en alrededor de cinco unidades [1]. Seguramente al-
gunos de los asistentes ese día llevaban consigo un número mayor
de computadoras, ya fuera sobre las rodillas, en las muñecas, en
sus bolsillos o en sus mochilas; y esto sin considerar todas las otras
computadoras que estaban en la sala: dentro del proyector, el siste-
ma de sonido, los acondicionadores de aire, etc. Pero sólo cuando
disminuyeron las risas dio su tiro de gracia: “Ahora sabemos que ese
número era incorrecto —dijo Shirky—. Watson se pasó por cuatro.”
El público estalló en carcajadas.
A lo que Shirky se refería, por supuesto, era que la característica
que define la era de la Web no es tanto la ubicuidad de los dispositivos
de cómputo (por más revolucionario que eso sea), sino su interconec-
tividad. Nos acercamos rápidamente a una época en la que cualquier
dispositivo que no esté conectado a internet difícilmente parecerá
una computadora. La red, como suele decirse, es la computadora.
Este hecho —junto con la observación relacionada de que la
plataforma computacional dominante de nuestros días no es Unix,
5
http://wikipedia.org
6
http://pubchem.ncbi.nlm.nih.gov
7
www.chemspider.com
8
www.innocentive.com
REFERENCIAS
[1] C. Shirky, “Lessons from Napster”, presentación en el congreso O’Reilly Peer-to-Peer, 15 de
febrero de 2001, www.openp2p.com/pub/a/p2p/2001/02/15/lessons.html.
[2] T. O’Reilly, “Inventing the Future”, 2002, www.oreillynet.com/pub/a/network/2002/04/09/
future.html.
[3] T. O’Reilly, “What Is Web 2.0”, 2005, www.oreillynet.com/pub/a/oreilly/tim/news/2005/09/30/
what-is-web-20.html.
[4] T. Berners-Lee, Weaving the Web, San Francisco, HarperOne, 1999.
[5] “International Consortium Announces the 1 000 Genomes Project”, www.genome.gov/26524516.
[6] J. C. Venter et al., “Environmental genome shotgun sequencing of the Sargasso Sea”, Science,
vol. 304, 2004, pp. 66-74, doi:10.1126/science.1093857.
[7] C. Anderson, “The End of Theory: The Data Deluge Makes the Scientific Method Obsolete”,
Wired, junio de 2008, www.wired.com/science/discoveries/magazine/16-07/pb_theory.
[8] S. Brin y L. Page, “The Anatomy of a Large-Scale Hypertextual Web Search Engine”, 1998,
http://ilpubs.stanford.edu:8090/361.
[9] http://en.wikipedia.org/wiki/Tag_(metadata)
[10] http://en.wikipedia.org/wiki/Microformat
[11] http://en.wikipedia.org/wiki/Text_mining
[12] E. O. Wilson, Consilience: The Unity of Knowledge, Nueva York: Knopf, 1998.
E
l carácter multidisciplinario de los capítulos de este libro ofrece una
perspectiva única sobre el descubrimiento científico basado en datos, y brin-
da también un vistazo a un futuro prometedor. A medida que nos adentramos
en la segunda década del siglo xxi, nos enfrentamos a una extraordinaria
variedad de desafíos —asistencia sanitaria, educación, energía y medio ambiente,
acceso digital, ciberseguridad y privacidad, seguridad pública y mucho más—. Al
igual que los otros colaboradores de este libro, creo que estos desafíos pueden trans-
formarse en oportunidades con el apoyo de nuevos avances radicales en la ciencia
y la tecnología.
Como hizo notar Jim Gray, el primero, segundo y tercer paradigmas de la ciencia —el
empírico, el analítico y el de simulación, respectivamente— nos han conducido con
éxito hasta este punto en la historia. Además, no hay duda de que si continuamos traba-
jando con los paradigmas y las tecnologías existentes, seguiremos haciendo progresos
graduales. Pero si hemos de lograr avances drásticos, se requerirán nuevos enfoques.
Es necesario adherirnos al siguiente paradigma: el cuarto paradigma de la ciencia.
La visión de Jim de este paradigma exigía una nueva metodología científica enfo-
cada en el poder de la ciencia intensiva en datos. Hoy, esa visión se está convirtiendo
en realidad. Las tecnologías informáticas, con su conectividad omnipresente median-
te internet, ya apuntalan casi todos los estudios científicos. Estamos acumulando
cantidades de datos en forma digital que anteriormente eran inimaginables —datos
que contribuirán a desencadenar una profunda transformación en la investigación
y la comprensión científicas—. Al mismo tiempo, la computación está en la cúspide
de una ola de avances tecnológicos disruptivos —tales como la arquitectura multi-
244
Conclusiones
A
mediados de la década de 1990, Jim Gray había reconocido que los
nuevos desafíos de “grandes datos” (big data) para la tecnología de bases
de datos provendrían de la ciencia y no del comercio. También identi-
ficó los desafíos técnicos que tal ciencia intensiva en datos plantearía
a los científicos y el papel fundamental que las tecnologías de la información (ti)
y las ciencias de la computación podrían desempeñar para permitir futuros des-
cubrimientos científicos. El término “e-ciencia” fue acuñado en el año 2000 por
John Taylor, cuando era director general de los Consejos de Investigación del Reino
Unido. Taylor había reconocido el papel cada vez más importante que las ti debían
desempeñar en la investigación científica del siglo xxi, que sería intensiva en datos,
colaborativa y multidisciplinaria, y utilizó el término e-ciencia para referirse al
conjunto de herramientas y tecnologías necesarias para apoyar este tipo de inves-
tigación. En reconocimiento a la iniciativa de e-ciencia del Reino Unido, Jim Gray
bautizó a su grupo de investigación de Microsoft Research el Grupo e-ciencia, y se
dispuso a trabajar con los científicos para comprender sus problemas y determinar
qué herramientas necesitaban.
En su plática a la Comisión de Ciencias de la Computación y de Telecomunica-
ciones del Consejo Nacional de Investigación (nrc-cstb, por sus siglas en inglés) de
Estados Unidos en 2007, Jim profundizó sobre su visión de la ciencia intensiva en
datos y enumeró siete áreas clave para el trabajo de los organismos de financiamiento:
Creemos que estos desafíos para los organismos de financiamiento son igualmente
importantes hoy en día; por eso hemos presentado los capítulos de este libro junto
con una versión de la conferencia de Jim ante la nrc-cstb, construida a partir de una
transcripción y de las diapositivas que utilizó. Es también aleccionador ver que el
impulso y el avance de la comunidad de e-ciencia continúan desde la publicación del
informe Towards 2020 Science, publicado por nuestros colegas en Microsoft Research,
Cambridge, Reino Unido.1 Ese informe se basó en un taller llevado a cabo en julio de
2005, al que asistieron algunos de los autores de este libro, y el cual posteriormente
inspiró el número especial de Nature de marzo de 2006, “2020 Computing”.2
En el corazón de la computación científica en esta era del cuarto paradigma se
encuentra la necesidad de que los científicos e informáticos trabajen en colaboración
—no en una relación de superior-subordinado, sino de igual a igual—, de manera
que ambas comunidades estimulen, permitan y enriquezcan nuestra capacidad de
hacer descubrimientos que den lugar a cambios productivos y positivos para nuestro
mundo. En este libro hemos destacado la salud y el medio ambiente, sólo dos áreas en
las que la humanidad enfrenta algunos de sus mayores desafíos. Para lograr progresos
significativos, la comunidad de investigación debe apoyarse en una ciberinfraestruc-
tura adecuada, que comprenda no sólo el hardware de los recursos informáticos,
las centrales de datos y las redes de alta velocidad, sino también herramientas de
software y middleware. Jim también previó el surgimiento de una biblioteca digital
mundial de investigación que contuviese tanto la literatura como los datos de las
1
http://research.microsoft.com/en-us/um/cambridge/projects/towards2020science/background_overview.htm
2
Nature, vol. 440, núm. 7083, 23 de marzo de 2006, pp. 383-580.
246 CONCLUSIONES
investigaciones. No sólo estamos presenciando la maduración de la ciencia intensiva
en datos, sino que también estamos en medio de una revolución en la comunicación
académica, que viene impulsada no sólo por tecnologías como el internet, la Web
2.0 y las anotaciones semánticas, sino también por el movimiento mundial hacia el
acceso abierto y la ciencia abierta.
Este libro es realmente fruto del afecto. Todo comenzó con el deseo de Jim de
habilitar la investigación científica mediante las tecnologías de la informática —tras-
cendiendo las fronteras entre las disciplinas destacadas en esta obra y más allá—. Ve-
mos este libro como una continuación del trabajo de Jim con la comunidad científica.
De manera deliberada, solicitamos a nuestros colaboradores científicos que salieran
de sus zonas de confort profesionales y compartieran sus visiones acerca del futuro
de sus campos de investigación en un horizonte de 5 a 10 años. Les pedimos que
escribieran sus contribuciones no sólo en forma de ensayo, lo que significa a menudo
un desafío mayor que escribir un artículo de investigación puramente técnico, sino
muchas veces en colaboración con un científico de la computación. Agradecemos
a todos nuestros colaboradores haberse puesto a la altura de este reto, y esperamos
que ellos (¡y usted!) esten satisfechos con el resultado.
Hace varias décadas, el trabajo científico estaba rigurosamente segmentado en
disciplinas independientes. Actualmente, como lo evidencian los capítulos de este
libro, se están logrando avances significativos como resultado de la colaboración
multidisciplinaria, lo cual seguirá ocurriendo en el futuro. En los ensayos de este libro
se presenta una panorámica actual de algunas de las reflexiones más importantes
sobre la emocionante colaboración entre la ciencia y la informática —una revolu-
ción de datos—, lo cual hace que esta información sea oportuna y potencialmente
efímera—. Sin embargo, es nuestra ferviente esperanza y creencia que el mensaje de
fondo presentado en el conjunto de los capítulos durará muchos años.
Por último, presentamos este libro como un llamado a la acción para toda la
comunidad científica, los gobiernos, los organismos de financiamiento y el público.
Instamos a la colaboración con miras al objetivo común de una mejor vida para toda
la humanidad. Nos encontramos en una fase en la que necesitamos utilizar nuestro
conocimiento científico para lograr objetivos específicos en aras de la supervivencia
de la humanidad. Está claro que para lograr este objetivo necesitamos mucho de
expertos con profundos conocimientos científicos que trabajen en estrecha colabo-
ración con aquellos que tienen una amplia experiencia en el terreno tecnológico.
Esta situación se parece a la que prevalecía en la década de 1940, cuando los
físicos estadounidenses y europeos respondieron a un llamado urgente de los go-
248 CONCLUSIONES
S I G U I E N T E S PASOS
Esperamos que este libro lo inspire a actuar así como a emprender un estu-
dio más profundo. Por nuestra parte, en Microsoft Research estamos convirtiendo
nuestras palabras en acciones. Por ejemplo, hemos reformulado las metas de nuestra
organización hermana, External Research, para enfocarla en los temas presentados
en esta obra.
Estos temas incluyen investigaciones en curso en campos de estudio dinámicos,
así que es difícil seguir y predecir la futura evolución de las ideas presentadas en
este libro; sin embargo, he aquí algunas rutas sugeridas para seguir participando y
unirse a la discusión:
• Si es usted un científico, comente con un especialista en ciencias de la com-
putación sobre los retos que enfrenta, y viceversa.
• Si es un estudiante, asista a cursos tanto de ciencias como de disciplinas in-
formáticas.
• Si es usted un profesor, mentor o padre de familia, fomente entre quienes tenga
a su cuidado el estudio interdisciplinario, además de ofrecerles la oportunidad
de especializarse.
• Establezca contacto con los editores y autores de este libro mediante los canales
académicos a su alcance.
• Manténgase al día siguiendo nuestras colaboraciones sobre investigación en
e-ciencia a través del sitio http://research.microsoft.com.
• Participe activamente en la comunidad de e-ciencia. En el sitio Web Fourth
Paradigm, cuya dirección aparece en seguida, sugerimos materiales útiles.
www.fourthparadigm.org
COLABORADORES
Mark R. Abbott John Dickason
Oregon State University Private practice
Dennis D. Baldocchi Lee Dirks
University of California, Berkeley Microsoft Research
Roger S. Barga Jeff Dozier
Microsoft Research University of California, Santa Barbara
Mathias Bavay Dan Fay
WSL Institute for Snow and Avalanche Microsoft Research
Research SLF Craig Feied
Gordon Bell Microsoft
Microsoft Research Anne Fitzgerald
Chris Bishop Queensland University of Technology
Microsoft Research Brian Fitzgerald
José A. Blakeley Queensland University of Technology
Microsoft Peter Fox
Iain Buchan Rensselaer Polytechnic
University of Manchester Institute
Graham Cameron William B. Gail
EMBL-European Bioinformatics Institute Microsoft
Luca Cardelli Dennis Gannon
Microsoft Research Microsoft Research
Michael F. Cohen Michael Gillam
Microsoft Research Microsoft
Nicholas Dawes Paul Ginsparg
WSL Institute for Snow and Avalanche Cornell University
Research SLF Carole Goble
Del DeHart University of Manchester
Robertson Research Institute Alyssa A. Goodman
John R. Delaney Harvard University
University of Washington Daron Green
David De Roure Microsoft Research
University of Southampton
250 AGRADECIMIENTOS
Jonathan Handler Marc Parlange
Microsoft École Polytechnique Fédérale de Lausanne
Timo Hannay Valerio Pascucci
Nature Publishing Group University of Utah
Charles Hansen Hanspeter Pfister
University of Utah Harvard University
David Heckerman Catherine Plaisant
Microsoft Research University of Maryland
James Hendler Corrado Priami
Rensselaer Polytechnic Institute Microsoft Research-Centro de Biología
Eric Horvitz Computacional y de Sistemas de la Univer-
Microsoft Research sidad de Trento; Universidad de Trento
James R. Hunt Dan Reed
University of California, Berkeley, y el Microsoft Research
Berkeley Water Center R. Clay Reid
Chris R. Johnson Harvard University
University of Utah Joel Robertson
William Kristan Robertson Research Institute
University of California, San Diego Ben Shneiderman
Carl Lagoze University of Maryland
Cornell University Claudio T. Silva
James Larus University of Utah
Microsoft Research Mark Smith
Michael Lehning University of Maryland
WSL Institute for Snow and Avalanche Christopher Southan
Research SLF EMBL-European Bioinformatics Institute
Jeff W. Lichtman Alexander S. Szalay
Harvard University The Johns Hopkins University
Clifford Lynch Kristin Tolle
Coalition for Networked Information Microsoft Research
Simon Mercer Herbert Van de Sompel
Microsoft Research Los Alamos National Laboratory
Eliza Moody Catharine van Ingen
Microsoft Microsoft Research
Craig Mundie John Wilbanks
Microsoft Creative Commons
Suman Nath John Winn
Microsoft Research Microsoft Research
Kylie Pappalardo Curtis G. Wong
Queensland University of Technology Microsoft Research
Savas Parastatidis Feng Zhao
Microsoft Microsoft Research
E
l doctor James Nicholas —“Jim”— Gray, ganador del premio Turing y cientí-
fico computacional estadounidense (nacido en 1944 y desaparecido en el mar el
28 de enero de 2007), fue estimado por su trabajo innovador como programador,
experto en bases de datos, ingeniero e investigador. Obtuvo su grado de doctor
de la Universidad de California, Berkeley, en 1969. Fue la primera persona en obtener
un doctorado en ciencias de la computación en esa institución. Trabajó en varias de las
principales empresas de alta tecnología, incluyendo Bell Labs, ibm Research, Tandem,
Digital Equipment Corporation y, finalmente, Microsoft Research en Silicon Valley.
Jim se unió a Microsoft en 1995 como investigador principal, convirtiéndose fi-
nalmente en miembro técnico y quedando a cargo de la administración del Bay Area
Research Center (barc). Sus principales intereses de investigación se centraron en
grandes bases de datos y sistemas de procesamiento de transacciones. Desde siempre
estuvo interesado en la computación escalable —construía superservidores y sistemas
de grupos de trabajo en red a partir de software y hardware genéricos—. Su trabajo a
partir de 2002 se enfocó en la e-ciencia: el uso de computadoras para resolver problemas
científicos intensivos en datos. Ello culminó en su visión (junto con Alex Szalay) de un
“cuarto paradigma” de la ciencia, es decir, una evolución lógica de las fases históricas
previas, dominadas por la experimentación, la teoría y la simulación respectivamente.
Jim fue pionero en la tecnología de bases de datos y uno de los primeros en desa-
rrollar la tecnología que se utiliza en las transacciones computarizadas. Su trabajo
ayudó a desarrollar el e-comercio, la venta de boletos en línea, los cajeros automá-
ticos y las bases de datos profundas, que han posibilitado el éxito de los modernos
buscadores de internet de alta calidad.
Los editores
POTENCIAS DE DIEZ
SIGLAS Y ABREVIATURAS
API
application programming interface (interfaz de programación
de aplicaciones)
ASKAP Australian Square Kilometre Array Pathfinder
ATLUM Automatic Tape-Collecting Lathe Ultramicrotome (torno
ultramicrotómico para recolección automática en cinta)
BPEL Business Process Execution Language
CCD charge-coupled device (dispositivo de carga acoplada)
CEV Center for Environmental Visualization
CGI common gateway interface (interfaz de acceso común)
CLADDIER Citation, Location, And Deposition in Discipline and
Institutional Repositories
CML Chemistry Markup Language
CPU central processing unit (unidad central de procesamiento)
256 GLOSARIO
MESUR Metrics from Scholarly Usage of Resources
MMI Marine Metadata Interoperability
MODIS Moderate Resolution Imaging Spectroradiometer
(espectrorradiómetro de imágenes de resolución moderada)
MT memoria transaccional
NASA National Aeronautics and Space Administration
NIH National Institutes of Health
NLM National Library of Medicine
NLM DTD Definición de Tipo de Documento (DTD) de la National Library
of Medicine
NOAA National Oceanic and Atmospheric Administration
NRC National Research Council
NSF National Science Foundation
OAI Open Archives Initiative (Iniciativa de Archivos Abiertos)
OAI-ORE Open Archives Initiative Object Reuse and Exchange (Protocolo
de Reutilización e Intercambio de Objetos de la OAI)
OAI-PMH Open Archives Initiative Protocol for Metadata Harvesting
(Protocolo de la OAI para la Recolección de Metadatos)
OBO Open Biomedical Ontologies
OMB Office of Management and Budget (Oficina de Administración
y Presupuesto)
OMS Organización Mundial de la Salud
OO orientado a objetos
OOI Ocean Observatories Initiative
OWL Web Ontology Language
Pan-STARRS Panoramic Survey Telescope And Rapid Response System
PMSEIC Prime Minister’s Science, Engineering and Innovation Council
PubMed Base de datos gratuita y en línea de la National Library of
Medicine, con artículos de revistas biomédicas
RDF Resource Description Framework
RDFS RDF Schema (esquema del RDF)
RSS Really Simple Syndication
SCEC Southern California Earthquake Center
TCP/IP Transmission Control Protocol/Internet Protocol
(familia de protocolos de internet)
258 GLOSARIO
ÍNDICE
A 64‑65, 101
ACM (Association for Computing Machinery), crisis del costo de las publicaciones académi-
xxix cas en bibliotecas, 207
activistas sanitarios sociales acreditados, 78 vs. datos científicos, xii, xxix-xxxii, 200
advección de tinte, 174 mejoramiento semántico, 200‑205
aficionados. Véase ciencia ciudadana modelo digital vs. modelo electrónico inicial,
agregación de datos, 69. Véase también compu- 195
tación en la nube transmisión instantánea, 67‑68
agua, sistemas de. Véase escorrentía de deshielo, vinculación con datos, xxix-xxx, 195, 196,
como ejemplo de las relaciones entre la 197, 200‑205, 237
ciencia básica y de aplicaciones arXiv, xxix, 199, 235
Alpes suizos, escaneo láser terrestre de la asistencia sanitaria. Véase también conocimien-
distribución de nieve, 50, 51 tos médicos; historiales médicos
Amazon.com, 178 intensiva en datos, enfoque de modelado
análisis visual de datos, 165‑176 unificado, 99‑106
Anderson, Chris, 237 paradigmas de información, 104‑105
Apache, servidor web, 229 provisión de, en países desarrollados, 71‑80
aprendizaje automático, 60, 91, 92, 93, 94, singularidad de la, 67‑70
102‑104 tecnologías semánticas en, 160
arbitraje. Véase revisión por pares, proceso de ASKAP (Australian Square Kilometre Array
archivamiento. Véase también bibliotecas de Pathfinder), xiii, 159
datos digitales; curación de datos Aster Data, base de datos, 9
como una de las funciones centrales de la astronomía, xx, 41‑47
comunicación académica, 209 ATLUM (torno ultramicrotómico para recolec-
de datos ambientales, 53 ción automática en cinta), 86
de datos oceanográficos, 33 Atom, formato, 212, 213
de datos y de literatura, xii, xxviii-xxix, xxxii Australia, necesidad de un marco de política
European Nucleotide Archive, 130‑132 nacional de intercambio de datos, 220‑222
y la historia de la ciencia, 192‑194 Australian National Data Service (ANDS), xv
Iniciativa de Archivos Abiertos, 208, 212 Australian Square Kilometre Array Pathfinder
iniciativas de infraestructura de la NSF, xii, (ASKAP), xiii, 159
xv, xxi, xxxii, 213 avatares, en la atención sanitaria, 104‑105
punto de vista de Gordon Bell, xii Axial, volcán submarino, 35
punto de vista de Jim Gray, xxviii-xxix, xxxi- Azure, plataforma, 146
xxxii
su función en las revistas arbitradas de acceso B
abierto, xxviii-xxix bases de datos
su función en los sistemas de administración aplicación de las funciones centrales de la
de información para laboratorios, xxii comunicación académica a los conjuntos
arco iris cerebral, 84 de datos, 209
Armbrust, Ginger, 39 conveniencia de mantener reunidos los datos
artículos científicos. Véase también archiva- y los documentos científicos, xiv-xv, xxix-
miento; bibliotecas de datos digitales xxx, 195, 196, 197, 200‑205, 237
cambios en las prácticas editoriales, xxix, 197 definición de Jim Gray, xxiv
como la punta del iceberg de datos, xvii escalabilidad, 11‑12, 72‑74
creación de representaciones accionables por limitaciones debidas al tamaño de los conjun-
máquina, 208‑209 tos de datos, 7‑9
crecimiento exponencial del número de, del orden de petabytes, 11‑12, 131, 174
260 ÍNDICE
ciencia intensiva en datos. Véase también cuar- impacto de la inundación de datos en la
to paradigma ciencia ecológica, 23‑28
cómputo centrado en bases de datos, 7‑13 observatorios oceánicos cableados, 34‑38
descripción, xxxii, 126, 241‑242, papel del NCAR como una biblioteca de
dos maneras de abordar el registro científico, datos digitales, xiv
197‑198 redes de sensores de próxima generación,
función del texto, 199‑206 49‑56
impacto de las herramientas de flujo de registros de servicios web, 162
trabajo, 149‑158 su desarrollo hacia la ciencia de las aplicacio-
necesidad de metodologías basadas en la nes ambientales, 15‑22
semántica, 159‑164, 200‑203, 204 ciencias físicas, necesidad de un esfuerzo
problemas de financiamiento, xiii, xx, xxi, coordinado de mejoramiento semántico,
xxii, 164, 212, 217, 221, 245‑246 160‑161, 204‑205
punto de vista de Gordon Bell, xi-xv científicos. Véase ciencia ciudadana; científicos
reglas informales de Jim Gray para abordarla, especialistas; computación científica
7‑8, 10 científicos computacionales, importancia de su
relación con los cambios de paradigma, 227 colaboración y vinculación profesional con
repercusiones en el registro científico, científicos especialistas, 9‑10, 37, 49‑56,
191‑198 161, 246. Véase también ciencia intensiva en
tres actividades básicas en que consiste la, datos; computación científica
xiii científicos de área. Véase científicos especia-
visualización para la, 165‑176 listas
ciencias biológicas. Véase también ciencias científicos de datos, definición, xii. Véase tam-
de la Tierra y el ambiente; conocimientos bién ciencia intensiva en datos; computa-
médicos; ecología; oceanografía ción científica
biología computacional vs. bioinformática, científicos especialistas
xix y la exploración de los retos de análisis y
crecimiento y complejidad de las fuentes dis- visualización que comparten distintas
ponibles de datos, 100‑101, 134‑135, 149 disciplinas, 46‑47
desarrollo de la infraestructura de datos, importancia de su colaboración y vinculación
129‑136 profesional con científicos computaciona-
incremento exponencial del volumen de les, 9‑10, 37, 49‑56, 246
datos, 83, 129‑132, 236 intercambio interoperable de información,
mejoramiento semántico para la integración 184
de datos y textos, 160, 204‑205 necesidad de herramientas genéricas de
motor de búsquedas Entrez, xxxi software, xxi-xxii, xxv
representaciones accionables por máquinas y el servicio Wolfram|Alpha, 180
del conocimiento contenido en la literatu- Citation Typing Ontology, proyecto, 211
ra académica, 208‑209 CLADDIER, proyecto, 211
visualización en modelos de álgebra de pro- climatología, 20, 50, 52‑54
cesos, 107‑114 clústeres
ciencias de la atmósfera, observaciones que de computadoras, xxi, xxiii, xxv, 8, 138
impulsan la ciencia ambiental de próxima en biología, 96‑97, 104
generación, 49‑52 CMT (Herramienta de Administración de
ciencias de la Tierra y el ambiente. Véase tam- Congresos), xxix, xxx
bién oceanografía colaboración. Véase también intercambio de
colaboración entre científicos especialistas y datos
científicos computacionales, 49‑56 entre científicos ambientales y científicos
262 ÍNDICE
Consejero de Salud de la Clínica Mayo, 69 detección a distancia. Véase sensores
Consortium for Ocean Leadership, 36 diagramas de flujo, esquema de, 172
COUNTER, proyecto, 211 Digital Curation Centre, xv
CPU. Véase procesadores multinúcleo diluvio de datos, su relación conceptual con
crawlers. Véase rastreadores las redes, 226‑231. Véase también ciencia
Creative Commons, 229 intensiva en datos
cuarto paradigma. Véase también ciencia inten- Directiva sobre la Reutilización de la
siva en datos Información del Sector Público, 219
definición, 177, 178 DISC (Data-Intensive Super Computing), 178
ejemplo relacionado con la información dispositivo de carga acoplada (CCD), xviii, 42
sanitaria, 104 DNA Data Bank of Japan (DDBJ), 129
ejemplo relacionado con la oceanografía, documentos. Véase artículos científicos
32‑33 Dryad, 145, 178, 183
punto de vista de Jim Gray, xiii, xiv, xix, DryadLINQ. Véase LINQ (Language Integrated
xxxii, 177, 191, 226, 241, 245 Query)
relación con la cuarta capa de red, 227
repercusiones en el registro científico, E
191‑198 e-ciencia, definición, xviii, 159, 245, 253. Véase
curación de datos, xiii-xv, xvii, xx, xxviii, 188, también ciencia intensiva en datos
195, 197. Véase también archivamiento; e-investigación
procedencia de datos definición, 177, 192
CyberShake, proyecto del SCEC (Southern marcos de políticas para la colaboración
California Earthquake Center), 153, 156 internacional, 215‑223
Earth Observing System Clearinghouse
D (ECHO), 162
DAGMan, sistema de flujo de trabajo, 153 Earth Observing System Data and Information
datos. Véase también bases de datos; ciencia System (EOSDIS), 122, 123, 124, 126
intensiva en datos EBI (European Bioinformatics Institute),
análisis, xiv, xvii, xxiv 130‑136
como una cuarta capa de red, 227, 230 ECHO (Earth Observing System
crecimiento exponencial en volumen, 12, Clearinghouse), 162
41‑42, 83, 129‑133, 137, 236 ecología. Véase también ciencias de la Tierra y
curación, xiii, xiv-xv, xvii, xx, xxviii el ambiente
espaciotemporales, 92 computacional vs. ecoinformática, xix
filtrado, 9, 126, 175, 197, 208 y computación en la nube, 26‑27
interconectividad, 233, 238 definición, 23
necesidad de sistemas que vayan de la ejemplo relacionado con las cuencas, 24‑25
recolección hasta la publicación en Web, grandes estudios de síntesis, 23‑28
xxii-xxiii, xxx tecnologías semánticas en, 160, 203, 204
obtención o captura, xiii, xvii Eigenfactor, proyecto, 244
políticas de acceso e intercambio dentro de Eli Lilly, 236
los países y entre ellos, 215‑223 ELIXIR, proyecto, 135‑136
datos de referencia, colecciones de, 196 EMBL (European Molecular Biology
dbMotion, 69 Laboratory), 130, 200
Declaración de Berlín sobre el Acceso EMBL-Bank (base de datos de secuencias
Abierto al Conocimiento en Ciencias y de nucleótidos del European Molecular
Humanidades, 217, 218 Biology Laboratory), 129‑131
derechos de autor. Véase propiedad intelectual Ensembl, sitio web, 133
264 ÍNDICE
áreas de acción sugeridas para los organis- flotante, 195
mos de financiamiento, 245‑246 imagen, tecnologías de. Véase también visua-
y la comunicación académica, xxi-xxx, 213 lización
y el cuarto paradigma, xiii, xiv, xviii, xix, en el desarrollo de un microscopio compu-
xxxii, 177, 191, 226, 241, 245 tacional para los neurobiólogos, 92, 93,
fotografías, xvi, 252 94‑97
leyes de Gray, 7‑12 para el seguimiento de los circuitos neurona-
presentación ante la Comisión de Ciencias de les del cerebro, 81‑89
la Computación y de Telecomunicaciones, su función en la investigación oceanográfica,
xiii, xvii-xxxii, 245‑246 33‑34
reglas informales para abordar la ciencia imágenes por resonancia magnética funcional
intensiva en datos, 7‑8, 10 (IRMf), 82‑83
semblanza, 253‑254 información médica, sobrecarga de, 64‑65,
su influencia en el observatorio oceánico 101. Véase también datos: crecimiento expo-
cableado, 38, 40 nencial en volumen
su papel en arXiv, 199 Iniciativa de Archivos Abiertos (OAI), 208,
Group on Earth Observations (GEO), 216 212, 213
inmunización, en países en vías de desarrollo,
H 71‑72
H1N1, pandemia, 130 InnoCentive, 236
Hadoop, 145, 178, 183 INSDC (International Nucleotide Sequence
Hales, Thomas, 195 Database Collaboration), 129
HDF (Hierarchical Data Format), xxiv INSPIRE, Directiva, 219
HealthVault, 69 inteligencia artificial (IA), 77, 160, 182‑183,
Herramienta de Administración de Congresos 203
(CMT), xxix, xxx intercambio de datos, 71, 76‑78, 140, 216‑218.
hibridaciones o mezclas, xxxii, 24, 183 Véase también colaboración
Hipócrates, 104 Intercity-Express (ICE), tren alemán, 173
Hirudo (sanguijuela medicinal europea), 94‑95, International Human Genome Sequencing
96‑97 Consortium, 217
historiales médicos internet. Véase también World Wide Web
electrónicos (HME), 99‑100, 102 y la diseminación veloz de la información
identificación de los pacientes, 78 ambiental, 21, 53
necesidad de sistemas escalables, 72‑74 interconectividad de las computadoras, 233
paradigmas de la información sanitaria, y la investigación astronómica, 42‑46
104‑105 su naturaleza pública, 228
preservación del anonimato de los pacientes, su papel en los estudios de síntesis ecológica,
71, 73, 76, 78, 79 25
problemas en los países en vías de desarrollo, su papel en los observatorios oceánicos
71‑76, 78‑79 cableados, 37, 38, 40
en sistemas de asistencia sanitaria intensiva unificación de los datos con la literatura,
en datos, 100 xxvi-xxvii
Hubble, telescopio espacial, 43 INTERNIST-1, sistema experto, 73
inundaciones, control de, 16‑17
I invertebrados, sistemas nerviosos de los, 94‑95
IEEE (Institute of Electrical and Electronics investigación interdisciplinaria, 28, 46‑47, 182
Engineers), xxix investigación, revisión de las estructuras de la,
IEEE, estándar sobre aritmética de punto 121‑127
266 ÍNDICE
MODIS (espectrorradiómetro de imágenes de xxviii, xxix, xxxi, 205, 246
resolución moderada), 20 North American Carbon Program, 28
Moglen, Eben, 229‑230 nowcasting. Véase predicción inmediata, en
montañas, variación de superficie, 49, 50‑51 meteorología
Moore, ley de, 65, 138 Noyes, Henry, 65
MSR, Microscopio Computacional, 91, 92 NSF (National Science Foundation), xii, xv,
Murray-Rust, Peter, 208 xxi, xxii, 34, 121, 213
Murray, Christopher, 71 nubes de datos. Véase computación en la nube
myExperiment, proyecto, 155‑158, 180, 211 nucleótidos, secuenciación de, 129‑133
myGrid, proyecto, 180 Nurse, Paul, 107
NxOpinion Knowledge Manager (NxKM),
N 72‑77
NASA (National Aeronautics and Space
Administration) O
Earth Observing System Data and Informa- O’Reilly, Tim, 234
tion System, 122, 123 OAI (Iniciativa de Archivos Abiertos), 208,
espectrorradiómetro de imágenes de resolu- 212, 213
ción moderada, 20 Objetivos de Desarrollo del Milenio, de la
Global Change Master Directory, 162 ONU, 72
y la inminente inundación de datos ecológi- observatorios oceánicos cableados, 34‑37
cos, 25 observatorios virtuales, 45, 161. Véase también
National Center for Atmospheric Research telescopios; WorldWide Telescope (WWT)
(NCAR), xii, xiv Ocean Observatories Initiative (OOI), 34‑37
National Center for Biotechnology oceanografía, 29‑40, 160
Information, xxxi, 131 Oficina de Administración y Presupuesto
National Climatic Data Center, 24 (OMB), 219
National Ecological Observatory Network, 25 ontologías, definición, 160. Véase también
National Human Genome Research Institute, semántica
131 ONU, Objetivos de Desarrollo del Milenio, 72
National Institutes of Health (NIH), xxvi OOI (Ocean Observatories Initiative), 34‑37
National Library of Medicine (NLM), xxvi, Open Geospatial Consortium, 26
xxviii, xxix, xxxi, 205, 246 OpenCyc, 179
National Science Foundation (NSF), xii, xv, OpenURL, 208
xxi, xxii, 34, 121, 213 OpenWetWare, 235
Nature Network, 235 oreChem, proyecto, 183
NCAR (National Center for Atmospheric Oregon State University, 36
Research), xii, xiv Organización para la Cooperación y el
NEPTUNE, Programa, xxi, 31, 35, 36, 40 Desarrollo Económicos (OCDE), 220‑221
NetCDF (Network Common Data Form), xxiv OWL (Web Ontology Language), 179, 182, 212
neumonía, en países en vías de desarrollo, 72
neurobiólogos, nuevas herramientas para los, P
91‑97 PageRank, algoritmo de Google, 126, 237
neuronas, 82‑88. Véase también sistema países en vías de desarrollo, provisión de servi-
nervioso cios de salud en, 71‑80
NeuroTrace, 87 Pan-STARRS, proyecto, xiii, 12, 42, 153
Newton, leyes del movimiento de, xix paradigmas, cambios de, 225‑226
NIH (National Institutes of Health), xxvi paradigmas científicos. Véase también cuarto
Nijmegen, Centro Médico (Países Bajos), 153 paradigma
NLM (National Library of Medicine), xxvi, cuarto, e-ciencia, xix, xx, 104, 241
268 ÍNDICE
Sedna, sistema de flujo de trabajo, 152 Suber, Peter, xxvi
SEEK (Science Environment for Ecological Sustainable Digital Data Preservation and
Knowledge), 160 Access Network Partners (DataNet), pro-
segundo paradigma, xix, 104, 241 grama, 213
semántica. Véase también Web semántica Swiss Experiment, proyecto, 52, 53
aplicación a la e-ciencia de herramientas de Szalay, Alex, 253
, 159‑164
e interoperabilidad, 162‑163, 179, 180, 203, T
212 Taverna, flujos de trabajo, 150, 151, 152, 153,
mejoramiento del texto para incluir enlaces a 154
datos, 200‑205 Taylor, John, 245
SenseWeb, proyecto, 52, 54 tecnologías de información (TI), infraestructu-
sensores ra de. Véase también ciberinfraestructura;
en la ciencia ambiental, 49‑56, 153, 242 ciencia intensiva en datos; computación
en los estudios de síntesis ecológica, 25‑27 científica
en la investigación oceanográfica, 37‑38 y e-ciencia, xviii, 245
SensorMap, 53, 54 estado actual, 123‑124
SensorScope, 53 historia reciente, 122‑123
SETI@Home, proyecto, xxv nuevas herramientas para un mundo intensi-
Shirky, Clay, 233 vo en datos, 126
Short Read Archive, 131 repercusiones para la comunidad científica,
Shotton, D., 200 124‑125
simulación computacional tectónica de placas. Véase Juan de Fuca, Placa
comparación con el cuarto paradigma, de
191‑192, 194, 226 telefonía móvil
modelos de álgebra de procesos de sistemas aplicaciones en las ciencias de la Tierra y el
biológicos, 107‑114 ambiente, 21
necesidad de nuevas técnicas de análisis, como vehículo de provisión de servicios
174‑175 sanitarios en países en vías de desarrollo,
singularidad de la asistencia sanitaria, 67‑70 75‑76
síntesis ecológica, estudios de, 23‑28 telescopios, xiii, xx, 41, 42, 43, 44. Véase tam-
sistema nervioso, 91‑97. Véase también cerebro bién WorldWide Telescope (WWT)
sistemas de administración de información teorema de los cuatro colores, 195
para laboratorios (SAIL), xxii-xxiii, 246 Teradata, base de datos, 9
Sloan Digital Sky Survey (SDSS), xx, 43 tercer paradigma, xix-xx, 104, 191, 194, 241
sneakernet, 178 texto. Véase también artículos científicos
sociedades profesionales, xxix-xxx, 164 herramientas para minería de, 153, 197, 200,
software de código abierto, 145, 152, 168, 228 203, 237
software, necesidad de más herramientas en mejoramiento semántico, 200‑205
las disciplinas científicas, xxi, xxii, xxv. su función como un tipo de dato, 199‑206
Véase también ciencia intensiva en datos; TI. Véase tecnologías de información (TI),
computación científica; flujos de trabajo infraestructura de
SourceForge, 203 torno ultramicrotómico para recolección auto-
Southern California Earthquake Center mática en cinta (ATLUM), 86
(SCEC), proyecto CyberShake, 153, 156 trabajadores de extensión sanitaria (TES), 74,
SQL Server, 27, 52 75, 78
Stefaner, Moritz, 244 Trace Archive, 130‑131
Stoermer, Mark, 31, 39 Trace Assembly Archive, 131
W
Wagenaar, Daniel, 94, 97
WATERS, Red, 25
Watson, Thomas, 233
Web 2.0, 234‑235. Véase también World Wide
Web
270 ÍNDICE
CRÉDITOS DE IMÁGENES Y FOTOGRAFÍAS
página x : Galileo calcula el aumento página 240 : Dos estrellas en órbita mutua
de su telescopio. Mary Evans/Photo ubicadas en el corazón de la gran nebulosa
Researchers, Inc. Derechos reservados. de emisión NGC 6357 en la constelación de
Escorpio, a unos 8 000 años luz de la Tierra.
página x v i :Jim Gray hablando en el congreso NASA, ESA y Jesús Maíz Apellániz
Computing in the 21st Century en Beijing, octubre (Instituto de Astrofísica de Andalucía,
de 2006. Microsoft Research. España). Dominio público.
página 2 : Imagen de USGS/NASA de la página 244 : Visualización que muestra
cordillera Bogda en China. U. S. Geological los vínculos bibliográficos de la revista Nature.
Survey. Dominio público. Imagen cortesía de Moritz Stefaner y Carl
Bergstrom, http://well-formed.eigenfactor.org.
página 58 : Imagen a color por resonancia
magnética de una mujer. Simon Fraser/Photo
página 248 : Tony Hey, Kristin Tolle y
Researchers, Inc. Derechos reservados.
Stewart Tansley, de Microsoft External Research.
página 116 : Una oblea que contiene el
Vetala Hawkins/Microsoft Corporation.
Teraflops Research Chip de Intel. © Intel
página 252 : Jim Gray en el Tenacious,
Corporation. Derechos reservados.
enero de 2006. Fotografía de Tony Hey.
página 186 : Biblioteca Central, Seattle
(arquitecto principal: Rem Koolhaas).
Vetala Hawkins/Filmateria Digital.
Derechos reservados.
nota : Las direcciones URL pueden caducar por varias razones, sea de manera temporal o
permanente. No todas las direcciones electrónicas en este libro estaban vigentes en el momento
de su publicación, pero hemos podido ingresar a esas páginas mediante distintos servicios, como
Wayback Machine, del Internet Archive, www.archive.org/web/web.php.