El Fin de La Teoría

1EL FIN DE LA TEORÍA : El diluvio
de datos ¿hará obsoleto el método

científico? Por Chris Anderson,
editor jefe de Wired.
escrito por 3.0
Compartir
Edge (30-6-08) Traducción: Verónica Puertollano
«Todos los modelos son erróneos, pero algunos son útiles».
Dijo el proclamado estadístico George Box hace treinta años, y llevaba

razón. Pero ¿qué opción teníamos? Sólo los modelos, desde las ecuaciones
cosmológicas a las teorías de la conducta humana, parecían ser capaces de

explicar de forma coherente, si bien imperfecta, el mundo que nos rodea. Hasta ahora. Hoy, las
empresas como Google que han crecido en una era de masiva abundancia de datos, no tienen que
conformarse con modelos erróneos. De hecho, no tienen que conformarse con modelos en general.
Hace sesenta años los ordenadores hicieron la información legible. Hace veinte, internet la hizo
alcanzable. Hace diez, los primeros robots araña1 la hicieron una base de datos sencilla. Ahora
Google y compañías similares escudriñan la época más medida de la historia, tratando este corpus
masivo como un laboratorio de la condición humana. Son hijos de la Era del Petabyte.
La Era del Petabyte es diferente porque más es diferente. Los kilobytes se almacenaban en
disquetes. Los megabytes, en discos duros. Los terabytes, en sistemas disk array2. Los petabytes se
almacenan en clústeres3. De igual modo que avanzamos en esa progresión, y fuimos de la analogía
de la carpeta a la del archivador y de ahí a la de la biblioteca, al llegar al petabyte nos quedamos sin
analogías organizativas.
En la escala del petabyte, la información no es sólo una cuestión tridimensional ?y
tetradimensional? de simple taxonomía y orden sino de estadísticas dimensionalmente agnósticas.

Esto exige un enfoque completamente distinto, que nos haga desprendernos de la red de datos como
algo que pueda ser visualizado en su totalidad. Nos fuerza a ver los datos matemáticamente primero
y establecer un contexto después. Por ejemplo, Google conquistó el mundo de la publicidad con
nada más que matemáticas aplicadas. No pretende saber nada sobre la cultura y los
convencionalismos de la publicidad ?simplemente supuso que unos mejores datos, con mejores
herramientas de análisis, triunfarían. Y Google estaba en lo cierto.

La filosofía fundacional de Google es que no sabemos por qué esta página es mejor que esa otra: si
las estadísticas de los links entrantes lo dicen, es suficientemente buena. No se requiere un análisis
semántico o causal. Por eso es por lo que Google puede traducir idiomas sin «saberlos» realmente
(dados idénticos cuerpos de datos, Google puede traducir del klingon4 al persa con la misma
facilidad con que traduce del francés al alemán). Y por qué puede casar los anuncios con los
contenidos sin ningún conocimiento o presunción sobre el anuncio o los contenidos.

Hablando en la Conferencia O’Reilly de Tecnologías Emergentes el pasado marzo, Peter Norving,
director de investigación de Google, aportó una actualización de la máxima de George Box: «Todos
los modelos son erróneos, y se puede cada vez más triunfar con ellos”.
Este es un mundo en el que las cantidades masivas de datos y las matemáticas aplicadas reemplazan
a cualquier otra herramienta que pudiera ser utilizada. Fuera con cada teoría del comportamiento
humano. Olvide la taxonomía, la ontología y la psicología. ¿Quién sabe por qué las personas hacen
lo que hacen? La cuestión es que lo hacen, y podemos seguir su pista y medirlo con una fidelidad
sin precedentes. Con suficientes datos, los números hablan por sí mismos.
No obstante, el gran objetivo aquí no es la publicidad. El método científico está construido sobre
hipótesis comprobables. Estos modelos, en su mayoría, son sistemas visualizados en la mente de los
científicos. Los modelos son entonces probados, y los experimentos confirman o falsan los modelos
teoréticos de cómo funciona el mundo. Esta es la manera en que la ciencia ha trabajado durante
cientos de años.
Los científicos están preparados para reconocer que la correlación no implica causalidad, que
ninguna conclusión debería apoyarse sólo en la base de la correlación entre X e Y (podría ser sólo
una coincidencia). En su lugar, se deben comprender los mecanismos subyacentes que conectan a
las dos. Una vez que se tiene un modelo, se puede unificar el conjunto de datos con seguridad. Los
datos sin un modelo son sólo ruido.

Pero en contraste con los datos masivos, este planteamiento de la ciencia ?elaboración de hipótesis,
modelo, prueba? está volviéndose obsoleto. Considérese la física: los modelos newtonianos fueron
rudas aproximaciones a la verdad (equivocadas al nivel atómico, pero aún útiles). Hace cien años,
la mecánica cuántica fundada estadísticamente ofreció un mejor retrato ?pero aún la mecánica
cuántica es otro modelo, y como tal, también es defectuosa, sin duda la caricatura de una realidad
profunda más compleja. La razón por la que la física se ha deslizado hacia la especulación teorética
sobre los modelos n-dimensionales unificados globalmente durente las últimas décadas (etapa de
«bonita historia» de una disciplina privada de datos) es que no sabemos cómo ejecutar los
experimentos que falsarían las hipótesis ?las energías son demasiado altas y los aceleradores
demasiado caros, y así.

Ahora la biología apunta a la misma dirección. Los modelos que tomamos en la escuela sobre los
genes «dominantes» y «recesivos» regidos por un proceso estrictamente mendeliano han resultado
ser una simplificación de la realidad aún mayor que las leyes de Newton. El descubrimiento de las
interacciones del gen proteína y otros aspectos de la epigenética han cuestionado la visión del ADN
como destino e incluso ha aportado indicios de que el ambiente puede influir en rasgos no
heredables, algo que fue una vez considerado genéticamente imposible.

En resumen, cuanto más aprendemos sobre biología, más lejos nos encontramos de un modelo que
pueda explicarla.
Ahora hay un método mejor. Los petabytes nos permiten decir: «la correlación es suficiente».
Podemos dejar de buscar modelos. Podemos analizar los datos sin hipótesis sobre qué podrían
mostrar. Podemos arrojar los números hacia los clústeres de computación más grandes que el
mundo haya visto y dejar que los algoritmos estadísticos encuentren patrones que la ciencia no
puede.
El mejor ejemplo práctico de esto es la secuenciación aleatoria del genoma por J. Craig Venter.
Gracias a secuenciadores de alta velocidad y superordenadores que analizan estadísticamente los
datos que producen, Venter pasó de secuenciar organismos individuales a secuenciar ecosistemas
enteros. En 2003, comenzó a secuenciar gran parte del océano, recorriendo el viaje del Capitán
Cook. Y en 2005 empezó a secuenciar el aire. En el proceso, descubrió miles de especies de

bacteria antes desconocidas y otras formas de vida.
Si las palabras «descubrir nuevas especies» le recuerdan a Darwin y a los dibujos de pinzones,
probablemente esté situado en el modo viejo de hacer ciencia. Venter no puede decirle casi nada de
las especies que él encuentra. No conoce su apariencia, ni cómo viven, ni mucho más sobre su
morfología. No puede incluso teniendo su genoma entero. Todo lo que tiene es una variación
estadística ?una secuencia única que, siendo distinta a cualquier otra secuencia de la base de datos,
debe representar una nueva especie.
Esta secuencia puede correlacionarse con otras secuencias que se parecen a aquellas de especies
más conocidas. En ese caso, Venter puede hacer algunas conjeturas sobre los animales ?que
convierten la luz del sol en energía de una determinada manera, o que descienden de un ancestro
común. Pero al margen de eso, no tiene mejores modelos de estas especies de los que tiene Google
de su página MySpace. Son sólo datos. Sin embargo, analizándolos con los recursos informáticos
avanzados de Google, Venter ha modernizado la biología mucho más que cualquiera de su
generación.
Esta forma de pensar está lista para ser la corriente dominante. En febrero, la Fundación Nacional
de la Ciencia anunció el Cluster Exploratory [CluE] un programa de fondos para la investigación

diseñado para ser ejecutado en una plataforma de computación distribuida a gran escala,
desarrollada por IBM y Google en conjunto con seis universidades piloto. El cluster consistirá en
1.600 procesadores, varios terabytes de memoria y cientos de almacenaje, junto al software, que
incluye el Tivoli de IBM y versiones open source de Google File System [GFS] y Google
MapReduce. Los primeros proyectos CluE incluirán simulaciones del cerebro y del sistema
nervioso y otras investigaciones biológicas que se sitúan entre el wetware y el software.

Aprender a usar un «ordenador» de estas proporciones puede ser un reto. Pero la oportunidad es
grande: la nueva disponibilidad de enormes cantidades de datos, junto a las herramientas

estadísticas que hagan los cálculos, ofrece toda una nueva forma de entender el mundo. La
correlación sustituye a la causalidad, y la ciencia puede avanzar aun sin modelos coherentes, teorías
unificadas o ciertamente cualquier otra explicación mecanística. No hay razones para aferrarnos a
nuestros viejos usos. Es hora de preguntar: ¿Qué puede aprender la ciencia de Google?
Sobre El fin de la teoría de Chris Anderson.
George Dyson
Durante mucho tiempo he estado obcecado en la idea de que el
cerebro contiene de alguna forma un «modelo» de la realidad, y que
la Inteligencia Artificial se hará realidad cuando entendamos ese
modelo inserto en una máquina. ¿Qué es un modelo? Podemos plantear
dos condiciones: a/ algo que funcione y b/ algo que entendamos. Se
puede tener a sin b. Nuestras grandes creaciones distribuidas a
escala petabyte están empezando a captar la realidad de un modo
que funciona bien, pero que no necesariamente entendemos. Pero
cuando podamos finalmente apartar el cerebro, neurona por neurona,
sin encontrar nunca el modelo, podremos descubrir que la verdadera
IA vino a la existencia sin que nadie desarrollara nunca un modelo
coherente de realidad o una teoría inequívoca de la inteligencia.
La realidad, con sus ambigüedades, funciona. Puede que nuestro
verdadero destino como especie sea construir una inteligencia de
probado gran éxito, entendamos o no cómo funcione. La memoria
colectiva asociativa distribuida masivamente que constituye la
«supramente» (o el Ordenador Único de Kevin) ya está formando
asociaciones, detectando patrones y haciendo predicciones –aunque
esto no signifique pensar en el modo en que lo hacemos o en una
escala que podamos comprender. El repentino aluvión de grandes
bases de datos y la apertura de un territorio científico
completamente nuevo promete una vuelta a la emoción del nacimiento
de la ciencia (moderna) en el siglo XVII, cuando era, como Newton,
Boyle, Hooke, Petty y el resto vieron, «el negocio de la Filosofía
Natural» el que averiguaba las cosas. Lo que Chris Anderson da a
entender es que la ciencia irá perteneciendo cada vez más a una
nueva generación de filósofos naturales que no sólo están leyendo
la naturaleza, sino que están empezando a leer la «supramente».
¿Hará esto que el método científico quede obsoleto? No. Aún
estamos muy cerca de los comienzos del método científico para
hablar de su fin. Como Sir Robert Southwell escribió a William
Petty el 28 de septiembre de 1687, poco antes de ser elegido
presidente de la Royal Society, «La intuición de la verdad no
resulta tan sabrosa como la Verdad ya cazada».
Kevin Kelly
Existe la incipiente sensación de que las bases de datos
extremadamente grandes, a partir del nivel petabyte, podrían
cambiar el modo en que aprendemos las cosas. El modo tradicional
de hacer ciencia implica construir una hipótesis que coincida con
los datos observados o solicitar otros nuevos. Dado un grupo de
observaciones ¿qué teoría explica cuántos datos son suficientes
para poder predecir la siguiente observación? Puede resultar que
volúmenes de datos tremendamente grandes sean suficientes para
saltarse la teoría y hacer una observación predictiva. Google fue
uno de los primeros en darse cuenta de esto. Pongamos el ejemplo
del corrector ortográfico de Google. Cuando, googleando, escribes
una palabra mal, Google surgiere la forma correcta. ¿Cómo lo sabe?
¿Cómo predice la palabra correcta? No es porque tenga una teoría
sobre la ortografía, ni porque haya llegado a dominar las reglas
ortográficas. De hecho, Google no sabe nada en absoluto sobre
ortografía. En su lugar, Google opera con un gran conjunto de
datos de observaciones que muestran que para cualquier palabra
escrita hay x personas que dicen «sí» cuando se les pregunta si
querían decir la palabra «y». El motor ortográfico de Google
consiste enteramente en estos puntos de referencia, más que en
cualquier otra noción sobre la correcta escritura del inglés. Por
eso, el mismo sistema puede corregir la ortografía de cualquier
idioma. Lo cierto es que Google emplea la misma filosofía de
aprendizaje mediante datos masivos para sus programas de
traducción. Pueden traducir del inglés al francés, o del alemán al
chino, haciendo correlaciones entre inmensos conjuntos de datos a
partir del material traducido por el hombre. Por ejemplo, Google
entrena su motor de traducción francés-inglés surtiéndolo de
documentos canadienses que han sido publicados de manera frecuente
tanto en inglés como en francés. Los de Google no conocen la
teoría del idioma, especialmente del francés, tampoco un traductor
con inteligencia artificial. Y las traducciones son bastante
buenas. No al nivel de experto, pero lo suficiente para entender
lo esencial. Puedes coger una web china y al menos captar el
sentido de lo que significa en inglés. Pero como Peter Norving,
director de investigación de Google, presumía ante mí, «ni una
sola persona que trabajara en el traductor de chino hablaba
chino». No hay teoría de chino, ni comprensión. Sólo datos. (Si
alguien ha querido alguna vez una refutación del enigma de Searle
de la Sala China, aquí la tiene).
Si se puede saber cómo se escribe una palabra sin saber nada sobre
ortografía o gramática, y si se puede saber cómo traducir idiomas
sin tener ninguna teoría o concepto sobre la gramática de esos
idiomas que estás traduciendo, entonces ¿qué más se puede saber
sin la teoría? Chris Anderson está explorando la idea de que quizá
se pueda hacer ciencia sin tener teorías.
Este es un mundo en el que las cantidades masivas de datos y las

matemáticas aplicadas reemplazan a cualquier otra herramienta que
pudiera ser utilizada. Fuera con cada teoría del comportamiento
humano. Olvide la taxonomía, la ontología y la psicología. ¿Quién
sabe por qué las personas hacen lo que hacen? La cuestión es que
lo hacen, y podemos seguir su pista y medirlo con una fidelidad
sin precedentes. Con suficientes datos, los números hablan por sí
mismos.
Quizá haya algo respecto a esta observación. Muchas ciencias como

la astronomía, la física, la genómica, la lingüística y la
geología están generando hoy conjuntos de datos extremadamente
grandes y constantes flujos de datos a nivel petabyte. En una
década habrán alcanzado el nivel exabyte [mil millones de Gb].
Usando «máquinas de aprendizaje» pasadas de moda, los ordenadores
pueden extraer patrones en este océano de datos que ningún humano
podría detectar posiblemente nunca. Estos patrones son
correlaciones. Pueden ser o no causales, pero podemos aprender
nuevas cosas. Por tanto, logran lo que la ciencia hace, aunque no
de la manera tradicional. Lo que Anderson está planteando es que a
veces basta con las suficientes correlaciones. Hay un buen
paralelismo en la salud. Un montón de trabajos médicos en el
enfoque correlativo. El doctor puede no encontrar nunca la causa
real de una dolencia, pero puede predecir correctamente su curso y
tratar los síntomas. ¿Pero es esto verdadera ciencia? Se pueden
tener resultados, pero si no se tiene un modelo ¿es algo en lo que
otros puedan basarse? No lo sabemos todavía. El término técnico
para este enfoque científico es Data Intensive Scalable
Computation (DiSC). Otros términos son «Grid Datafarm
Architecture» o «Petascale Data Intensive Computing ». Estas
técnicas hacen más hincapié en la naturaleza de los datos
intensivos que en los propios clusters de computación. La
industria online llama a esta forma de investigación una especie
de «analytics». Empresas de cloud computing como Google, IBM y
Yahoo, y algunas universidades han hecho talleres sobre el tema.
En esencia, estos pioneros están intentando explotar el cloud
computing, o la Máquina Única, para la ciencia a gran escala. Las
herramientas actuales incluyen masivas plataformas software como
MapReduce (Ver: A Cloudbook For The Cloud), almacenaje barato, y
gigantescos clusters de centros de datos. Hasta la fecha, muy
pocos científicos, al margen de la genómica, están empleando estas
nuevas herramientas. La intención del NSF’s Cluster Exploratory
program es reunir a científicos que posean grandes cantidades de
datos basados en las observaciones con los científicos
informáticos que tienen contacto y pericia con el cluster/cloud
computing.
Mi impresión es que este método naciente será una herramienta

adicional en la evolución del método científico. No reemplazará a
ninguno de los métodos vigentes (¡lo siento, la ciencia no se
acaba!) pero complementará la teoría establecida por la ciencia.
Llamemos a este enfoque de datos intensivos, para solucionar el
problema, Correlative Analytics. Creo que Chris Anderson
desaprovecha una oportunidad única titulando su tesis «El fin de
la teoría», porque eso es una negación, la ausencia de algo. Es
más bien el comienzo de algo, y ahora es cuando se tiene la
posibilidad de acelerar ese nacimiento dándole un nombre positivo.
Un nombre no negativo también ayudará a clarificar la tesis. Estoy
sugiriendo Correlative Analytics en lugar de No Teoría porque no
estoy completamente seguro de que estos sistemas correlativos
carezcan de modelo. Creo que hay un incipiente e inconsciente
modelo implícito incrustado en el sistema que genera las
respuestas. Si ninguno de los que trabajan en la Sala China de
Google que habla inglés conoce la teoría del chino, podemos seguir
pensando en la Sala como una forma de teoría. El modelo puede
estar más allá de la percepción y la comprensión de los creadores
del sistema, y ya que funciona, no merece la pena intentar
descubrirlo. Pero puede seguir estando ahí. Simplemente opera a un
nivel al que no tenemos acceso.
Pero no importa la invisibilidad de los modelos, porque funcionan.

No es el fin de las teorías, sino el fin de las teorías que
entendemos. George Dyson dice esto mucho mejor en su respuesta a
Chris Anderson. Lo que George Dyson sugiere es que este nuevo
método de hacer ciencia –reunir zillones de puntos de referencia y
después hacer que la Máquina Única calcule una respuesta
correlativa– puede ser también pensado como método de comunicación
con un nuevo tipo de científico, uno que puede crear modelos a
niveles de abstracción (en el mundo de los zillones) más alla de
nuestras propias facultades. Hasta ahora Correlative Analytics, o
el modo Google de hacer ciencia, han sido principalmente
utilizados en áreas sociológicas, como la traducción de idiomas, o
el marketing. Ahí es donde los zillones de datos han estado. Todos
esos zillones de puntos generados por nuestra vida colectiva
online. Pero a medida que nuestras observaciones y medidas de la
naturaleza sean captadas durante 24 horas, 7 días a la semana, con
una variedad creciente de pruebas y sensores, la ciencia también
entrará en el campo de los zillones y será procesada fácilmente
por las nuevas herramientas de Correlative Analytics. En esta
parte de la ciencia, podemos obtener respuetas que funcionan, pero
que no entendemos. ¿Es esto una comprensión parcial? ¿O una nueva
forma de comprensión? Quizá la comprensión y las respuestas están
sobrevaloradas. «El problema de los ordenadores», se rumorea que
dijo Pablo Picasso, «es que sólo te dan respuestas». Estos
inmensos sistemas correlativos basados en datos nos darán montones
de respuestas –de buenas repuestas– pero es todo lo que nos darán.
Eso es lo hace al Ordenador Único –darnos buenas respuestas. En el
nuevo mundo del cloud computing las buenas respuestas se
convertirán perfectamente en una mercancía. El valor real del
resto de la ciencia se convierte entonces en hacer buenas
preguntas. [Ver The Google Way of Science en el blog de Kevin
Kelly].
Stewart Brand
La humanidad digital ha pasado aparentemente de un hito a otro
durante los últimos pocos años. Ahora nos damos cuenta. Darse
cuenta suele ser de ayuda. Coincidiremos en uno o dos nombres para
el nuevo hito y observaremos lo que la inducción nos diga sobre
cómo funciona o para qué sirve.
W. Daniel Hills
Soy un gran fan de Google, y me encanta buscar patrones
matemáticos en los datos, pero el artículo de Chris Anderson, El
fin de la teoría, establece una falsa distinción. Afirma que
usando una gran colección de datos para «ver los datos
matemáticamente primero y establecer un contexto después» es en
cierto modo distinto de «la manera en que la ciencia ha trabajado
durante cientos de años». No estoy de acuerdo.
La ciencia siempre comienza buscando patrones en los datos, y los

primeros modelos simples eran siempre meras extrapolaciones de lo
que habíamos visto antes. Los astrónomos eran capaces de predecir
con precisión los movimientos de los planetas mucho antes de las
teorías de Newton. Lo hicieron reuniendo montones de datos y
buscando patrones matemáticos.
El «nuevo» método que Chris Anderson describe ha estado siempre en

el punto de partida: reunir una cantidad de datos y asumir que es
representativa de otras situaciones. Esto funciona bien mientras
no intentemos extrapolarlo demasiado a partir de lo que hemos
observado. Es un tipo de modelo muy sencillo, un modelo que dice
«lo que vamos a ver a continuación será mucho más de lo que hemos
visto hasta ahora». Suele ser una buena conjetura. Los datos
existentes siempre nos dan nuestra primera hipótesis. Los humanos
y otros animales están probablemente preparados para ese tipo de
extrapolación. Las herramientas matemáticas como las ecuaciones
diferenciales y la estadística fueron desarrolladas para ayudarnos
a hacer un mejor uso de ellas. Estas herramientas científicas han
sido usadas durante siglos y los ordenadores nos han dejado
aplicarlas a mayores conjuntos de datos. También nos han permitido
reunir más datos que extrapolar. Los métodos basados en datos que
aplicamos a los petabytes son los métodos que siempre hemos
probado en primer lugar.
El método experimental (hipótesis, modelo, prueba) es lo que

permite a la ciencia ir más allá de lo que puede ser extrapolado a
partir de los datos existentes. Las hipótesis son más interesantes
cuando predicen algo que es diferente de lo que hemos visto hasta
ahora. Por ejemplo, el modelo de Newton pudo predecir las
trayectorias de planetas no descubiertos, mientras que los
obsoletos modelos basados en datos, no. El modelo de Einstein, a
su vez, predijo métodos que habrían sorprendido a Newton. Los
modelos son interesantes precisamente porque pueden llevarnos más
allá de los datos.
Chris Anderson dice que «este planteamiento de la ciencia –

hipótesis, modelo, prueba– se está volviendo obsoleto». No dudo
que la frase pretende ser provocadora, pero no veo ni siquiera una
pizca de verdad en ella. Comparto su entusiasmo por las
posibilidades creadas por los conjuntos de datos de petabytes y la
computación paralela, pero no veo por qué grandes las grandes
cantidades de datos vayan a minar el método científico.
Empezaremos, como siempre, por buscar patrones sencillos en lo que
hemos observado y los usaremos para hacer una hipótesis sobre lo
que es cierto en otra parte. Cuando nuestras extrapolaciones
funcionen, creeremos en ellas, y cuando no, crearemos nuevos
modelos y probaremos sus consecuencias. Extrapolaremos a partir de
los datos primero y los estableceremos en un contexto después.
Esta es la forma de hacer ciencia que ha funcionado durante
cientos de años.
Chris Anderson acierta en su intuición de que hay algo diferente

sobre estas nuevas y grandes bases de datos, pero no ha
identificado bien lo que es. Lo que es interesante es que por
primera vez tenemos datos significativamente cuantitativos sobre
las variaciones de los individuos: su comportamiento, su
interacción e incluso sus genes. Estos nuevas bases de datos
inmensas nos dan una medida de la riqueza de la condición humana.
Ahora podemos vernos a nosotros mismos con las herramientas que
hemos desarrollado para estudiar las estrellas.
Sean Carroll
¿Qué es una buena teoría?
A principios del siglo XVII, Johannes Kepler propuso sus Tres
Leyes del Movimiento Planetario: los planetas se mueven en
elipses, barren áreas iguales en tiempos iguales y sus periodos
son proporcionales al cubo de la distancia media desde el Sol.
Esto fue un gran avance en el aspecto astronómico de la cultura,
descubriendo un conjunto de relaciones simples en los voluminosos
datos sobre los movimientos de los planetas que habían sido
reunidos por su mentor Tycho Brahe. Más tarde, en el mismo siglo,
Sir Isaac Newton propuso su teoría de la mecánica, que incluía sus
Leyes del Movimiento y su Ley de la Gravitación Universal (la
fuerza ejercida por la gravedad inversamente proporcional al
cuadrado de la distancia). En el sistema de Newton, se podían
derivar las leyes de Kepler –en vez de oponerlas– y muchas otras
cosas. Esto era generalmente considerado como un importante paso
al frente. No sólo teníamos reglas de una aplicabilidad mucho más
amplia, sino que podíamos afirmar con sensatez que entendíamos lo
que estaba pasando. Entender es algo bueno, y es en cierto sentido
el primer objetivo de la ciencia.
Chris Anderson parece querer que lo deshagamos. Comienza con un

verdaderamente importante y emocionante desarrollo –las nuevas
bases de datos gigantes de petabytes que resisten modos ordinarios
de análisis, pero que podemos usar para descubrir patrones
inesperados hasta ahora indagando en los torrentes de información–
de que la era de la teoría ha terminado. Él imagina un mundo en el
cual los científicos escudriñan las pilas gigantes de números,
buscando cosas frescas, y que no se molestan en entender lo que
todo eso significa en términos de los sencillos principios que
subyacen.
Ahora hay un método mejor. Los petabytes nos permiten decir: «la
correlación es suficiente». Podemos dejar de buscar modelos.
Podemos analizar los datos sin hipótesis sobre qué podrían
mostrar.
Bien, podemos hacer eso. Pero, como le gustaba decir a Richard
Nixon, sería incorrecto. A veces será duro, o imposible, descubrir
modelos sencillos que expliquen las inmensas colecciones de datos
enmarañados tomados de los fenómenos ruidosos y no lineales. Pero
eso no significa que no debamos intentarlo. Las hipótesis no son
sólo herramientas útiles en algunas visiones de la ciencia
potencialmente obsoletas; lo son todo. La teoría es comprender, y
comprender nuestro mundo es de lo que trata totalmente la ciencia.
Jaron Lanier
El objetivo de la teoría científica no es que un ángel vaya a
apreciarla. Su propósito es la comprensión humana. La ciencia sin
una búsqueda de teorías significa una ciencia sin humanos. Los
científicos están mundialmente contentos con los nuevos grandes
recursos relacionados con la computación. Soy consciente de que
nadie discute ese punto. La única idea en el texto de Chris
Anderson que se sale de esa feliz zona de consenso es que no
deberíamos querer entender nuestro propio trabajo cuando usamos
los nuevos recursos. Encuentra emocionante que podamos hacer algo
que funciona sin comprender el porqué. Esto es precisamente lo que
no debería ser emocionante. Algunos remedios caseros funcionan y
no sabemos por qué. La ciencia va de entender. La comprensión es
mucho más excitante que los remedios caseros. Anderson parece
decir que es inútil ser humano. Las máquinas deberían ser ahora
las que piensen, y ser las heroínas del descubrimiento. Digo
«parece» porque no me creo que esté siendo sincero. Creo que es
una treta para lograr cierto tipo de atención. Escuchar la
retórica antihumana produce la misma punzada que la trama de una
película sobre un asesino en serie. Alguna parte profunda y moral
de todos nosotros está tan ofendida que no podemos desviar nuestra
atención.
Joseph Traub
Estoy de acuerdo con Danny Hills en que las grandes cantidades de
datos no socavarán el método científico. De hecho, las leyes
científicas codifican una inmensa cantidad de datos. Pienso en el
ejemplo de las ecuaciones de Maxwell o en las leyes de Kepler.
¿Por qué piensa Chris Anderson que con más datos aún, las leyes
(lo que él llama teoría) se volverá menos importante?
John Horgan
Mi primera reacción al ensayo de Chris Anderson fue, no, otra
Gran-Profecía-del-Fin-de-Algo. Anderson, además, recicla la
retórica del caos, la complejidad y la Inteligencia Artificial.
¡Ordenadores aún más poderosos van a encontrar patrones ocultos en
bases de datos cada vez mayores y van a revolucionar la ciencia!
No necesitas ser un ordenador para trazar los ciclos de auge y
caída de estas afirmaciones. Pero la idea de que los ordenadores
obviarán la teoría y la comprensión inspira unos pocos
pensamientos:
Montones de grupos que ya trabajan en soluciones a los problemas

sin comprenderlas. Los economistas emplean métodos puramente
numéricos para predecir los mercados, y los matemáticos construyen
«pruebas computacionales» basadas en cálculos masivos en lugar de
la lógica comprensible. Esto es menos ciencia que ingeniería. La
ingeniería no busca la verdad. Buscan una solución al problema. Lo
que funciona, funciona. Se podría decir que desde la aparición de
la mecánica cuántica, la física moderna ha dado la predicción sin
comprensión. La teoría cuántica tiene un éxito estupendo, casi
demasiado para el que la conviene, prediciendo los resultados de
los experimentos del acelerador. Pero como Niels Bohr solía decir,
cualquiera que diga que entiende la teoría cuántica no sabe lo
primero que hay que saber sobre ella.
Pero dudo de que computadoras procesadoras de cálculo vayan a

reemplazar por completo a los expertos humanos, como da a entender
Anderson. Los físicos del Gran Colisionador de Hadrones tienen que
hacer programas que ayuden a sus ordenadores a averiguar entre la
avalancha de datos eventos potencialmente importantes. El
procesador de cálculo masivo de IBM permitió a Deep Blue vencer a
Gary Kasparov. Pero los expertos humanos de ajedrez también
incorporaron sus conocimientos al software de Deep Blue para
hacerlo más eficiente y encontrar las jugadas óptimas. Apuesto a
que el traductor de Google incorpora mucha habilidad humana.
Chris Anderson parece creer que los ordenadores reducirán la
ciencia a la pura inducción, prediciendo el futuro basado en el
presente. Este método no puede naturalmente predecir cisnes
negros, anomalías y sucesos verdaderamente originales. La carga
teórica de los expertos humanos no puede prever cisnes negros,
pero para el futuro previsible, los expertos humanos sabrán cómo
manejar mejor a los cisnes negros cuando aparezcan.
Bruce Sterling
La ciencia ficción inmediatamente obsoleta por la «petabyte
ficción»
Estoy tan impresionado por los prefijos «peta» y «exa» como el que
más. También me inclino a pensar que los motores de búsqueda son
más grandes y mejores que la Inteligencia Artificial (incluso
aunque la IA se las hubiera arreglado alguna vez para existir
fuera de la ciencia ficción). También me encanta la idea de
grandes, nubladas [cloudy] y sin embargo profundas relaciones
entre fenómenos aparentemente inconexos –en literatura, llamamos a
esos gadgets «metáforas». ¡Son geniales!
Pero he de preguntarme por qué Chris Anderson quiere que Google –

después de que haya echado inmediatamente por tierra la
publicidad– aborde la teoría científica. La publicidad no tiene
nada que ver con la teoría científica. La publicidad ha sido
siempre una completa paparruchada de hechiceros. Despues de que
soplara esa casa de paja, Google puede querer seguir con las de
ladrillo (eso es una metáfora). Seguramente hay otros frutos de
fácil alcance que los petabytes podrían recoger fructíferamente
antes de aspirar a las remotas, frágiles y altísimas ramas de la
ciencia. (Otra metáfora –aquí me enrollo).
Por ejemplo: la ideología política. Todo el mundo sabe que la
ideología es muy similar a la publicidad. Así que ¿por qué no
hacemos que los zillones establezcan nuestras creencias políticas,
basadas en algunas grandes escalas y asociaciones con otros
fenómenos estadísticamente verificables como, digamos, el color de
nuestra piel o el lugar donde nacimos? La abogacía. ¿Por qué
argumentar los casos con lógica, intentando determinar los hechos,
la culpa o la inocencia? Echemos toda la carga legal de todos los
casos conocidos en la tolva de petabytes, y dejemos que los
algoritmos seleccionen el resultado del juicio. Después podemos
«colgar a todos los abogados», como dijo Shakespeare (no es una
metáfora). El amor y el matrimonio. No puedo entender por qué la
gente sigue insistiendo en casarse con sus amiguitas de la
infancia cuando una búsqueda petabyte de miles de millones de
potenciales compañeras de todo el mundo resulta demostrablemente
más barato y más efectivo. Las inversiones. Hacer cálculos en el
mercado de valores tiene que ser trabajo de tecnología petabyte.
Ningún humano sabe cómo oscila el mercado –es todo la hora del
«triple embrujo», es pura, baja y sucia superstición. Pero
seguramente los propietarios petabyte pueden deducir mecánicamente
el (sólo aparente) caos de los mercados, convirtiéndose en súper-
ultramagnates. Entonces compran toda la ciencia y hacen lo que les
parezca con ella. Los escépticos no se reirán entonces. El diseño
gráfico. Éste se mata fácilmente. Se compara el conjunto total de
pixels de un proyecto de página para Wired con el conjunto de
todos los píxeles de todas las páginas de papel que haya escaneado
Google. Se pone el creatímetro en marcha y se genera la imagen
gráfica definitiva. Ah, y lo mismo para toda la música
digitalizada en tu iPod, nada más y nada menos. ¿Por qué mezclar
las canciones en random [aleatoriamente] cuando puedes reducir las
canciones a puras longitudes de onda en un alucinante mashup
petabyte? Así puedes patentarlo en vez de poner copyright.
Finalmente –aquí llegaré a una pequeña meta–, el último número de
Edge. En lugar de esos dolorosos comentarios que Edge publica como
respuesta a acreditados científicos y sus parásitos culturetas, la
Tercera Cultura conquistará la Tierra cuando todos los comentarios
de internet de cualquier tipo sean analizados para las posibles
repuestas Edgy, del modo en que Google puede traducir estonio a
klingon ¡en un solo paso! ¡El resultado es la última tesis
cultural crítico-científica! No es una «Gran Teoría Unificada» –
(así de acabada está la teoría, ya que nunca podrás estampar los
datos bancarios de Google en una camiseta). Siguiendo con las
metáforas –aquí quédate conmigo–, visualizo este Edge petabyte
como una especie de infinito cantoriano, de debate intelectual
posthumano, una cibercultura autogeneradora que muerde
delicadamente su cola de dragón como un ouroboros chino,
masticando la naturaleza de la verdad remota con una poética
claridad cristalina, girando y precesando en su propio eje de
escamas, en una nube de internet del tamaño de California.
Douglas Rushkoff
Sí, pero.
Tengo mis sospechas en unos pocos puntos:
Lo primero: no creo que Google haya sido probado «correcto». Sólo
efectivo, por el momento. Una vez que la propia publicicidad se
revele como un modelo de negocio temporal, la habilidad de Google
de explotar correctamente la trayectoria de una industria en
descenso podrá entonces ser tenida en cuenta. Sin un contexto más
amplio, el éxito de Google es en realidad una mera táctica. No es
una extensión de una agencia humana (o incluso de una agencia
corporativa), sino una puñalada estratégica basada en la lógica
del momento. No es un esfuerzo guiado, sino una respuesta pasiva.
¿Funciona? De momento. ¿Va a la cabeza? En absoluto. Asimismo,
para determinar la elección humana, o hacer política u obtener
ciencia a partir de la nube [cloud] niega a todos estos campos la
presunción de significado. Vi cómo, durante las elecciones de
2004, las firmas de investigación de mercado procesaban los datos
de esta forma para las campañas de Bush y Kerry. Usarían la
información no relacionada con la política para identificar
hogares que parecieran contener a más votantes indecisos. El
modelo predictivo usaría puntos de referencia tales como si los
votantes tenían un perro o un gato, un coche de dos o cuatro
puertas, a qué distancia les quedaba el trabajo y cuánto debían en
sus hipotecas para determinar qué tipo de votantes había dentro.
Estas técnicas no tenían lógica para ellos. La lógica era vista
como una distracción. Todo lo que importaba eran las correlaciones
que eran determinadas por ordenadores que estudiaban
minuciosamente los datos. Si resultaba que quienes tenían un gato
y un coche con dos puertas parecían más votar en un cierto sentido
o favorecer cierta causa, entonces las compañías de encuestas
podían indicar a los que encuestadores a qué teléfono tenían que
llamar para hacérselas. Chicos con reproductores de DVD que
contenían anuncios personalizados para ciertos hogares se dejarían
ver en las esquinas de las casas, pondrían la canción por
ordenador, dejarían un folleto y se dirigirían a la siguiente.
Algo, durante ese proceso, me hizo cínico respecto a ese campo que
emergía de forma no piramidal, contraria a la taxonomía. Estoy
totalmente a favor de una buena «folksonomía», como cuando los
chicos etiquetan sus vídeos favoritos o los post de los blogs. Es
así como sabemos qué vídeo de YouTube ver; hacemos una búsqueda
general y luego del hit que ha sido visto más veces. Pero los
números más certeros no hablan por sí mismos. Al olvidar la
taxonomía, la ontología y la psicología, olvidamos por qué estamos
aquí en primera instancia. Quizá el consumidor de vídeos puede
olvidar esas disciplinas, ¿pero y el que hace los vídeos?
Cuando leí los sumamente astutos argumentos de Anderson sobre la

dirección de la ciencia, me sentí preocupado por que la ciencia
pudiera muy bien seguir el mismo curso en la política o en los
negocios. Las técnicas del petabyte sin cerebro favorecen a la
industria sobre la reflexión, al consumo sobre la creación, y –me
atrevo a decir– al fascismo descerebrado sobre el reflexivo
autogobierno. Son compatibles con los objetivos ético-agnósticos
de las grandes empresas mucho más de lo que lo son las ciencias
más intencionalmente aplicadas a una comunidad o civilización.
Aunque para los propios agnósticos, estas técnicas no son
imparciales. Mientras que su tendencia puede ser menos obvia de lo
que les han enseñado a los científicos humanos en las
instituciones de élite, su tendencia no está sin embargo implícita
en el aparente pero falsamente postmecanicista y absolutamente
abierto enfoque de los datos y sus implicaciones. No son en
realidad más abiertas que la apertura de mercados, y en definitiva
están inclinadas a su favor. Sólo porque eliminemos los límites y
las distorsiones de la narratividad humana de la ciencia, no
significa que otras distorsiones se apresuren a llenar el vacío.
Oliver Morton
Las provocaciones de Chris Anderson despiertan muchos pensamientos
–me limitaré a dos específicos y dos generales. El primero
específico es que Anderson hace una caracterización equivocada de
la física de partículas. El problema con la física de partículas
no es la pobreza de datos –es la complejidad teórica. El Tevatron,
y el LEP antes, habían producido cantidades inmensas de datos para
sus épocas –datos que son un rico suministro. El problema es que
el modelo estándar lo explique todo. El paso que va más allá del
modelo estándar no es una reflexión sobre la pobreza de datos,
sino teoría que se nutre de teoría porque los datos están bien
servidos. Esto no significa que no haya un ángulo Googlesco que se
pueda usar aquí –hay un equipo observando los datos de Fermilab en
lo que entiendo que es una efectiva forma de «teoría agnóstica»
(ver Particle physicists hunt for the unexpected de mi colega de
Nature Sarah Tomlin)– pero no es algo de vital importancia. (Y
añado brevemente: una teoría como la de Newton, que permite a los
profesionales predecir con precisión las posiciones de los
pequeños trozos de roca que vuelan velozmente, con décadas de
antelación, en un sistema solar 10[25] más grande que las rocas en
cuestión pude ser incompleta pero, «en bruto», no lo es.
La segunda caracterización errónea es de la biología. Sugerir que

ver el fenotipo como una interacción del genoma y el entorno es en
cierto modo un nuevo conocimiento, o teóricamente confuso,
simplemente no es así. Pero es a lo que equivale en realidad todo
eso que dice de la epigenética y las interacciones de los genes y
las proteínas. No me queda realmente claro en qué sentido serio la
biología forma hoy un modelo «más allá» del que había hace
cincuenta años. Ahora hay nuevos modelos de biología que explican
más de lo que entonces era explicable, y no hay un modelo para
todos. En cuanto a los puntos generales, no creo que el discurso
alejado de las normas de Feyerabend del método científico –«vale
todo»– sea la última palabra en este asunto. Pero está más cerca
de la verdad que decir que la ciencia siempre avanza por los
modelos, o por cualquier otra estrategia. La ciencia como proceso
de descubrimiento es mucho más interesante que las herramientas
que usa en cualquier momento o en cualquier área disciplinaria.
Y supongo que mi otro punto es «petabytes-¡bah!». Sin duda, un
petabyte es algo grande –pero el número de formas en que uno puede
hacer preguntas es mucho más grande. No soy matemático, y con
mucho gusto aceptaré que me corrijan en esto, pero según lo veo
yo, una forma de entender un kilobit es la de un recurso que puede
agotarse –o quizá un espacio que pueda colapsarse– con diez
pregutnas de sí o no: eso es lo que es 2 [10]. Para un kilobyte el
número sube a 13. Para un petabyte, a 53. Hoy, en muchos casos, 53
es un montón de preguntas. Pero en las redes de miles de genes, no
son en verdad tantas. Para entender la biología, necesitas pensar
mucho más grande. Es posible que yo describiera los comienzos del
camino a seguir en «A Machine With a Mind of Its Own», un artículo
que escribí para Wired sobre la científica de robótica de la
universidad de Aberystwyth, y tuve el gusto de escuchar hace poco
que ese programa ha comenzado haciendo verdaderos descubrimientos
nada triviales. Pero quizá, para hacerle justicia real a estas
cosas necesitas un millón de millardos de experimentos elegidos
por tales algoritmos –datos que generan datos, en lugar de datos
que generan conocimiento; la clase de futuro retratada en Rainbows
End de Vernor Vinge, con sus indescriptiblemente grandes
laboratorios subterráneos automatizados en San Diego.
Ps. Cualquiera que no aprecie la ironía en el «no, otra Gran-
Profecía-del-Fin-de-Algo» de John Horgan, debería.
Daniel Everett
El ensayo de Chris Anderson hace que me pregunte sobre la
lingüística en la era de los petabytes. En la primera hora de la
teoría lingüística en Estados Unidos, los lingüistas estuvieron,
como todos los científicos, preocupados con el descubrimiento de
las regularidades. La antropóloga Ruth Benedict primero, llamó
«patrones en la cultura» a las regularidades en los modos de los
humanos de dar significado al mundo. Más tarde, Edward Sapir,
Kenneth Pike y otros buscaron patrones en el lenguaje,
especialmente en las lenguas indias americanas que se convirtieron
en el centro de la lingüística americana diferenciándose así de
los incipientes estudios lingüísticos de los investigadores
europeos. Habiendo acabado de terminar una guía de investigación
de campo, mi propio énfasis pedagógico para los nuevos
investigadores es en gran parte el mismo que el de los primeros
estudios de las lenguas indígenas de las Américas –entrar en una
comunidad que habla un idioma no estudiado y seguir procedimientos
inductivos estándar para encontrar regularidades y patrones. Una
vez que los patrones han sido descubiertos, articularlos como
normas, anotar las excepciones y ahí lo tienes: una gramática.
Pero hay dos aspectos en los que los lingüistas están empezando a
estar descontentos con esta metodología, como el resultado de unas
cuestiones que conectan con las tesis de Chris Anderson. El
primero, que los lingüistas han comenzado a cuestionar la
relevancia de distinguir las reglas de las listas. Segundo, que
han comenzado a preguntarse si el niño procede de facto como un
pequeño lingüista en el aprendizaje de su lengua con
procedimientos de inducción y deducción construidos en él
genéticamente, o si el aprendizaje del niño del idioma tiene lugar
de forma muy distinta del modo en que los lingüistas estudian en
campo nuevas lenguas. La diferencia entre las reglas y las listas
y los enunciados extensionales vs. intencionales es la
confrontación de que la ley rige contra el desorden. Así, los
humanos estamos motivados por nuestra evolución a clasificar.
Estamos profundamente insatisfechos con los recuentos de datos que
parecen más listas y «meras estadísticas» que generalizaciones
basadas en la detección de un comportamiento estructurado por
leyes. Y sin embargo, como muchos han empezado a señalar, algunos
de los hechos más interesantes sobre las lenguas, especialmente
los hechos cruciales que distinguen una lengua de otra, son con
frecuencia listas, más que reglas (o esquemas). La gente tiene que
aprender listas en cualquier lenguaje. Ya que tienen que hacerlo,
¿hay alguna razón para proponerles un segundo tipo de aprendizaje,
o de adquisición en forma de reglas, estén las propuestas
motivadas genéticamente o no? Más curiosamente ¿adquieren el
lenguaje los niños basándose en un conjunto de hipótesis limitado
genéticamente, o tratan el lenguaje como internet y funcionan como
calculadoras estadísticas, como pequeños «Googlers»? Los
psicólogos conexionistas de Carnegie Mellon, Stanford y otras
universidades han impulsado hipótesis relacionadas con nosotros
durante años, aunque los lingüistas han tardado en abrazarlas.
La lingüística tiene mucho que hacer durante los próximos años

para restituirse a sí misma en la era de los petabytes. Las
generalizaciones estadísticas sobre grandes cantidades de datos
pueden ser más útiles en algunos aspectos, al menos si las usamos
como herramientas paralelas, que la reflexión superficial sobre
pequeños montones de datos que caracteriza a los primeros modelos
de las ciencias humanas. Puede muy bien ser, de hecho a muchos de
nosotros nos parece más probable, que los modelos previos basados
principalmente en la inducción o en los genes eran incapaces de
explicar qué es lo fundamental qué queremos explicar –cómo los
niños aprenden las lenguas y cómo las lenguas pueden diferir de
interesantes formas mientras comparten profundas similitudes.
Gloria Origgi
Estoy de acuerdo con Daniel Hills en que lo que dice Chris
Anderson: aunque provocador y oportuno, no es exactamente una
nueva noticia. La ciencia se ha valido siempre de las
correlaciones con el fin de ganar fuerza predictiva. La ciencia
social más que otras ciencias: tenemos pocos mecanismos causales
sólidos que expliquen por qué la gente se comporta de un modo o de
otro, o por qué estallan las guerras, pero un montón de
correlaciones sólidas –para las que no tenemos fundamentos– que es
mejor tener en cuenta si queremos entender mejor un fenómeno. Si
el aumento de la tasas de mortalidad infantil resulta estar
correlacionado con la caída del Imperio soviético (como se ha
señalado), es en efecto información relevante, aunque carezcamos
de una explicación causal para ello. De modo que buscamos un
posible mecanismo causal que sustente esta correlación. La buena
ciencia social encuentra mecanismos causales que no son
completamente ad hoc y que sustentan las generalizaciones en otros
casos. La mala ciencia social se atasca en las interpretaciones
que suelen confirmar los prejuicios ideológicos del científico. La
ciencia describe, predice y explica el mundo: las correlaciones
ayudan a predecir, y también pueden describir el mundo de una
nueva forma, como un enredado conjunto de petabytes, pero no
explican nada si no son sustentadas por un mecanismo causal. La
función explicativa de la ciencia, esto es, responder los porqués,
puede ser sólo un pequeño elemento de la empresa en su totalidad:
y de hecho, coincido plenamente con Anderson en que las técnicas y
los métodos de recopilación de datos pueden ser transformados
completamente por la densidad de la información disponible y la
existencia de algoritmos estadísticos que filtren esta información
con una tremenda capacidad de computación.
Así que nada de nostalgia por los buenos viejos métodos si las
nuevas técnicas de compilación de datos son más eficientes para
predecir eventos. Ni nada de nostalgia por los «malos» modelos si
las nuevas técnicas son lo suficientemente buenas como para
proporcionarnos comprensión (la Inteligencia Artificial frente a
los motores de búsqueda, por ejemplo). De modo que, pensemos en la
era de los petabytes como una era en la que «el contexto del
descubrimiento», por usar el viejo estribillo de la filosofía de
la ciencia, es masivamente mecanizado por el tratamiento
algorítmico de enormes cantidades de datos, mientras que el
«contexto del descubrimiento» sigue perteneciendo a la ambición
humana de dar sentido al mundo que nos rodea.
Esto deja sitio para los porqués, es decir, ¿por qué algunas de
las correlaciones estadísticas extraídas por los algoritmos son
tan condenadamente buenas? Sabemos que son buenas porque tenemos
la intuición de que funcionan y de que nos dan la respuesta
correcta, pero este «equilibrio reflexivo» entre las respuestas
clasificadas de Google a nuestras peticiones y nuestra intuición
de que la clasificación es satisfactoria sigue necesitando ser
explicado. En el caso de PageRank, me parece que el algoritmo
incorpora un modelo de la web como una red social estructurada en
la que cada link de un nodo a otro es interpretado como un «voto»
de ese nodo al otro. Esto me suena a «teoría», a método de
extracción de información que, aunque sea realizado por máquinas,
se realiza en la base de una conceptualización de la realidad con
el fin de obtenerla correctamente.
Puede surgir una nueva ciencia en la era Petabyte, esto es, una
ciencia que intenta responder las preguntas a cómo los procesos de
la inteligencia colectiva hicieron posible, mediante las nuevas y
enormes cantidades de datos que pueden combinarse fácilmente por
potentes algoritmos de forma fiable. Quizá sea una ciencia «más
suave», totalmente nueva, liberada al fin de la carga del rigor de
los «métodos cuantitativos» que hacen a los documentos científicos
tan aburridos de leer, que deja esta carga para los algoritmos y
deja que las mentes se muevan libremente entre los datos en el más
creativo sentido. La ciencia puede convertirse en un juego más
barato desde el punto de vista de las inversiones para descubrir
nuevos hechos: pero, como filósofa, no creo que estos juegos
intelectuales baratos sean un desafío menor o que merezcan menos
jugarse.
Lee Smolin
Para saber qué pensar sobre la hipótesis de Anderson de que el
almacenamiento y procesamiento informáticos de cantidades masivas
de datos reemplazarán la necesidad de formular hipótesis y
teorías, se puede ver si tiene alguna relevancia en la forma en
que las supercomputadoras están siendo actualmente usadas en la
física contemporánea. Un ejemplo que me viene a la mente es el de
la astronomía de ondas gravitacionales, en la que una señal amplia
al receptor hace imposible observar las ondas gravitacionales a
partir de lo que producen los detectores. En vez de eso, los
flujos de datos masivos creados por la LIGO, VIRGO y otras antenas
de ondas gravitacionales son escaneados por ordenadores sobre
plantillas con formas de onda creadas por los teóricos que modelan
las posibles fuentes. Estas fuentes, como la rotación espiral y la
fusión de los agujeros negros y las estrellas de neutrones,
precisan por sí mismas una simulación en superordenadores para
producir las plantillas necesarias.
¿Cuál ha sido la experiencia tras varias décadas de trabajo?

Mientras que las ondas gravitacionales no han sido hasta ahora
identificadas, los detectores están activos y en funcionamiento,
como los programas que generan las plantillas con las formas de
las ondas a partir de las fuentes simuladas por el superordenador.
Alcanzar este estadio ha requerido una gran cantidad de cómputos,
pero que han sido guiados en cada fase por los conocimientos
teóricos y los enfoques analíticos. Las cuestiones claves que
asomaban fueron resueltas por teóricos que lograron comprender lo
que estaba yendo bien y mal en sus simulaciones, porque eran
capaces de formular hipótesis y probarlas con cálculos analíticos.
Aunque no trabajo en este campo, he tenido claro todos estos años
en que he estado observando su desarrollo que el progreso era
gracias a los buenos físicos que hacían lo que los buenos físicos
hacen siempre, construir historias y dibujos intuitivos en sus
mentes que les conducen a hipótesis probables. El hecho de que las
hipótesis se basaran en lo que estaba sucediendo en sus
simulaciones informáticas, y no en los datos que provenían de las
observaciones, no quita que se utilizase la misma clase de
creatividad y pensamiento intuitivo, como es tradicional en la
ciencia no computacional.
Algo parecido sucede en la cosmología, en la que las simulaciones

por ordenador de la formación de la estructura son parte de un
arsenal de herramientas, algunas computacionales, otras analíticas
y otras intuitivas, que siempre son puestas a prueba y comprobadas
unas con otras. Y también se da algo parecido en los estudios
numéricos de la física de hadrones, en la que hay una interacción
de resultados e ideas entre las simulaciones del superordenador y
los enfoques analíticos. También, los obstáculos claves que
surgieron tuvieron que ver con cuestiones de principios físicos;
hasta qué punto las simetrías en la teoría están rotas en los
modelos númericos. Ha llevado mucho trabajo creativo y de
pensamiento físico intuitivo, para superar estos obstáculos, que
nos ha llevado recientemente a conciliar teoría y experimento.
Del resultado de observar el desarrollo de estos y otros campos
numéricamente intensivos, tengo claro que mientras la simulación
numérica y la computación son unas herramientas muy útiles, sólo
son de ayuda cuando son utilizadas por los buenos científicos para
mejorar sus poderes de razonamiento creativo. Rara vez se logra
algo «volcando un problema a un ordenador», sino que a una
simulación le lleva años e incluso décadas de cuidadoso
mantenimiento y desarrollo hasta llega al punto en que cede a la
ayuda externa, y siempre que se ha hecho así ha sido por el
trabajo de teoría creativa y fundamentada, como la que ha estado
tradicionalmente en el núcleo del progreso científico.
Joel Garreau
Quizá las cosas son diferentes en la física y la biología. Pero
por mi experiencia al estudiar la cultura, los valores y la
sociedad, los datos demoran la realidad por definición –son un
pantallazo del pasado. Y cuando la realidad humana no se alínea
convenientemente con los modos establecidos de pensar, los datos
pueden retrasarse durante años, si no décadas.
Los datos son un artefacto de selección, lo que significa que

reflejan una hipótesis subyacente, ya que si no, no habrían sido
recogidos. Por ejemplo, en mi trabajo descubrí que no tenía datos
a tiempo para «probar» mi hipótesis de que Norteamérica estaba
actuando como si consistiera en nueve civilizaciones o economías
separadas que rara vez son ligadas por las jurisdicciones
políticas de los países, estados o condados. Era igualmente
problemático sacarme datos para probar que lugares como Silicon
Valley se estaban convirtiendo en una versión moderna de la
«ciudad», aunque sus millones de metros cuadrados de grandes
edificios estuvieran justo ante nuestros ojos. Hasta que aquellos
modelos de las «nueve naciones» o la «ciudad en las afueras» no
empezaron a ser considerados útiles por otros, la gente no comenzó
a pasar por el gran problema de verificarlos reuniendo datos de
una forma que no conocía los límites anteriores. La vida no está
obligada a seguir los datos, y no es algo que haga con frecuencia.
Ahora los pensadores producen hipótesis con las que se puede

trazar un mapa del cambio cultural y social sobre la Ley de Moore.
Será interesante ver el momento en que los datos demuestren apoyar
sus predicciones. Ray Kurzweil y los de la Singularidad ven una
curva exponencial que conduce finalmente a la perfección de la
humanidad análoga a la versión cristiana del «cielo». Los
pesimistas como Billy Joy, Francis Fukuyama, Susan Greenfield y
Martin Rees ven una curva gemela que conduce rápidamente a algo
parecido al «infierno». Ambas hipótesis son creíbles. Pero los
datos se retrasan. Es difícil encontrar «pruebas» de que estemos
llegando a lo uno o a lo otro, aunque se basen en las bellas y
tersas curvas tecnodeterministas, de esas que rara vez han sido –
si es que lo han sido– un objeto importante en la historia de la
humanidad. Sabe Dios cómo se podría demostrar, a través de los
datos, la llegada de la hipotesis «predominante» descrita por
Jaron Lanier y otros. Esa hipótesis se basa en la idea de que un
aspecto importante de la futura historia es que estamos cubriendo
el incremento de nuestros retos mediante las respuestas
imaginativas, tercas, maledicentes y colectivas nutridas desde
abajo por los hombres, desviando los acontecimientos en
direcciones impredecibles. En una gráfica, el resultado –como
mucha de la materia prima de la historia– se mostraría
probablemente tan organizado como un plato de espaguetis. Me
encantaría pensar que la ausencia de datos tras las hipótesis –
mucho menos la realidad– está a punto de cambiar. (¡Al fin! ¡Una
bola de cristal!) Pero espero impaciente una demostración.

El Fin de La Teoría

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

El Fin de La Teoría

Cargado por

Copyright:

Formatos disponibles

1EL FIN DE LA TEORÍA : El diluvio

de datos ¿hará obsoleto el método

«Todos los modelos son erróneos, pero algunos son útiles».

Dijo el proclamado estadístico George Box hace treinta años, y llevaba

cosmológicas a las teorías de la conducta humana, parecían ser capaces de

tetradimensional? de simple taxonomía y orden sino de estadísticas dimensionalmente agnósticas.

herramientas de análisis, triunfarían. Y Google estaba en lo cierto.

contenidos sin ningún conocimiento o presunción sobre el anuncio o los contenidos.

datos sin un modelo son sólo ruido.

demasiado caros, y así.

heredables, algo que fue una vez considerado genéticamente imposible.

Cook. Y en 2005 empezó a secuenciar el aire. En el proceso, descubrió miles de especies de

de la Ciencia anunció el Cluster Exploratory [CluE] un programa de fondos para la investigación

nervioso y otras investigaciones biológicas que se sitúan entre el wetware y el software.

grande: la nueva disponibilidad de enormes cantidades de datos, junto a las herramientas

Sobre El fin de la teoría de Chris Anderson.

Este es un mundo en el que las cantidades masivas de datos y las

Quizá haya algo respecto a esta observación. Muchas ciencias como

Mi impresión es que este método naciente será una herramienta

Pero no importa la invisibilidad de los modelos, porque funcionan.

La ciencia siempre comienza buscando patrones en los datos, y los

El «nuevo» método que Chris Anderson describe ha estado siempre en

El método experimental (hipótesis, modelo, prueba) es lo que

Chris Anderson dice que «este planteamiento de la ciencia –

Chris Anderson acierta en su intuición de que hay algo diferente

Chris Anderson parece querer que lo deshagamos. Comienza con un

Montones de grupos que ya trabajan en soluciones a los problemas

Pero dudo de que computadoras procesadoras de cálculo vayan a

Pero he de preguntarme por qué Chris Anderson quiere que Google –

Cuando leí los sumamente astutos argumentos de Anderson sobre la

La segunda caracterización errónea es de la biología. Sugerir que

La lingüística tiene mucho que hacer durante los próximos años

¿Cuál ha sido la experiencia tras varias décadas de trabajo?

Algo parecido sucede en la cosmología, en la que las simulaciones

Los datos son un artefacto de selección, lo que significa que

Ahora los pensadores producen hipótesis con las que se puede

También podría gustarte