Documentos de Académico
Documentos de Profesional
Documentos de Cultura
El Fin de La Teoría
El Fin de La Teoría
empresas como Google que han crecido en una era de masiva abundancia de datos, no tienen que
conformarse con modelos erróneos. De hecho, no tienen que conformarse con modelos en general.
Hace sesenta años los ordenadores hicieron la información legible. Hace veinte, internet la hizo
alcanzable. Hace diez, los primeros robots araña1 la hicieron una base de datos sencilla. Ahora
Google y compañías similares escudriñan la época más medida de la historia, tratando este corpus
masivo como un laboratorio de la condición humana. Son hijos de la Era del Petabyte.
La Era del Petabyte es diferente porque más es diferente. Los kilobytes se almacenaban en
disquetes. Los megabytes, en discos duros. Los terabytes, en sistemas disk array2. Los petabytes se
almacenan en clústeres3. De igual modo que avanzamos en esa progresión, y fuimos de la analogía
de la carpeta a la del archivador y de ahí a la de la biblioteca, al llegar al petabyte nos quedamos sin
analogías organizativas.
En la escala del petabyte, la información no es sólo una cuestión tridimensional ?y
algo que pueda ser visualizado en su totalidad. Nos fuerza a ver los datos matemáticamente primero
y establecer un contexto después. Por ejemplo, Google conquistó el mundo de la publicidad con
nada más que matemáticas aplicadas. No pretende saber nada sobre la cultura y los
convencionalismos de la publicidad ?simplemente supuso que unos mejores datos, con mejores
las estadísticas de los links entrantes lo dicen, es suficientemente buena. No se requiere un análisis
semántico o causal. Por eso es por lo que Google puede traducir idiomas sin «saberlos» realmente
(dados idénticos cuerpos de datos, Google puede traducir del klingon4 al persa con la misma
facilidad con que traduce del francés al alemán). Y por qué puede casar los anuncios con los
director de investigación de Google, aportó una actualización de la máxima de George Box: «Todos
los modelos son erróneos, y se puede cada vez más triunfar con ellos”.
Este es un mundo en el que las cantidades masivas de datos y las matemáticas aplicadas reemplazan
a cualquier otra herramienta que pudiera ser utilizada. Fuera con cada teoría del comportamiento
humano. Olvide la taxonomía, la ontología y la psicología. ¿Quién sabe por qué las personas hacen
lo que hacen? La cuestión es que lo hacen, y podemos seguir su pista y medirlo con una fidelidad
sin precedentes. Con suficientes datos, los números hablan por sí mismos.
No obstante, el gran objetivo aquí no es la publicidad. El método científico está construido sobre
hipótesis comprobables. Estos modelos, en su mayoría, son sistemas visualizados en la mente de los
científicos. Los modelos son entonces probados, y los experimentos confirman o falsan los modelos
teoréticos de cómo funciona el mundo. Esta es la manera en que la ciencia ha trabajado durante
cientos de años.
Los científicos están preparados para reconocer que la correlación no implica causalidad, que
ninguna conclusión debería apoyarse sólo en la base de la correlación entre X e Y (podría ser sólo
una coincidencia). En su lugar, se deben comprender los mecanismos subyacentes que conectan a
las dos. Una vez que se tiene un modelo, se puede unificar el conjunto de datos con seguridad. Los
modelo, prueba? está volviéndose obsoleto. Considérese la física: los modelos newtonianos fueron
rudas aproximaciones a la verdad (equivocadas al nivel atómico, pero aún útiles). Hace cien años,
la mecánica cuántica fundada estadísticamente ofreció un mejor retrato ?pero aún la mecánica
cuántica es otro modelo, y como tal, también es defectuosa, sin duda la caricatura de una realidad
profunda más compleja. La razón por la que la física se ha deslizado hacia la especulación teorética
sobre los modelos n-dimensionales unificados globalmente durente las últimas décadas (etapa de
«bonita historia» de una disciplina privada de datos) es que no sabemos cómo ejecutar los
experimentos que falsarían las hipótesis ?las energías son demasiado altas y los aceleradores
genes «dominantes» y «recesivos» regidos por un proceso estrictamente mendeliano han resultado
ser una simplificación de la realidad aún mayor que las leyes de Newton. El descubrimiento de las
interacciones del gen proteína y otros aspectos de la epigenética han cuestionado la visión del ADN
como destino e incluso ha aportado indicios de que el ambiente puede influir en rasgos no
pueda explicarla.
Ahora hay un método mejor. Los petabytes nos permiten decir: «la correlación es suficiente».
Podemos dejar de buscar modelos. Podemos analizar los datos sin hipótesis sobre qué podrían
mostrar. Podemos arrojar los números hacia los clústeres de computación más grandes que el
mundo haya visto y dejar que los algoritmos estadísticos encuentren patrones que la ciencia no
puede.
El mejor ejemplo práctico de esto es la secuenciación aleatoria del genoma por J. Craig Venter.
Gracias a secuenciadores de alta velocidad y superordenadores que analizan estadísticamente los
datos que producen, Venter pasó de secuenciar organismos individuales a secuenciar ecosistemas
enteros. En 2003, comenzó a secuenciar gran parte del océano, recorriendo el viaje del Capitán
Si las palabras «descubrir nuevas especies» le recuerdan a Darwin y a los dibujos de pinzones,
probablemente esté situado en el modo viejo de hacer ciencia. Venter no puede decirle casi nada de
las especies que él encuentra. No conoce su apariencia, ni cómo viven, ni mucho más sobre su
morfología. No puede incluso teniendo su genoma entero. Todo lo que tiene es una variación
estadística ?una secuencia única que, siendo distinta a cualquier otra secuencia de la base de datos,
debe representar una nueva especie.
Esta secuencia puede correlacionarse con otras secuencias que se parecen a aquellas de especies
más conocidas. En ese caso, Venter puede hacer algunas conjeturas sobre los animales ?que
convierten la luz del sol en energía de una determinada manera, o que descienden de un ancestro
común. Pero al margen de eso, no tiene mejores modelos de estas especies de los que tiene Google
de su página MySpace. Son sólo datos. Sin embargo, analizándolos con los recursos informáticos
avanzados de Google, Venter ha modernizado la biología mucho más que cualquiera de su
generación.
Esta forma de pensar está lista para ser la corriente dominante. En febrero, la Fundación Nacional
desarrollada por IBM y Google en conjunto con seis universidades piloto. El cluster consistirá en
1.600 procesadores, varios terabytes de memoria y cientos de almacenaje, junto al software, que
incluye el Tivoli de IBM y versiones open source de Google File System [GFS] y Google
MapReduce. Los primeros proyectos CluE incluirán simulaciones del cerebro y del sistema
correlación sustituye a la causalidad, y la ciencia puede avanzar aun sin modelos coherentes, teorías
unificadas o ciertamente cualquier otra explicación mecanística. No hay razones para aferrarnos a
nuestros viejos usos. Es hora de preguntar: ¿Qué puede aprender la ciencia de Google?
George Dyson
Durante mucho tiempo he estado obcecado en la idea de que el
cerebro contiene de alguna forma un «modelo» de la realidad, y que
la Inteligencia Artificial se hará realidad cuando entendamos ese
modelo inserto en una máquina. ¿Qué es un modelo? Podemos plantear
dos condiciones: a/ algo que funcione y b/ algo que entendamos. Se
puede tener a sin b. Nuestras grandes creaciones distribuidas a
escala petabyte están empezando a captar la realidad de un modo
que funciona bien, pero que no necesariamente entendemos. Pero
cuando podamos finalmente apartar el cerebro, neurona por neurona,
sin encontrar nunca el modelo, podremos descubrir que la verdadera
IA vino a la existencia sin que nadie desarrollara nunca un modelo
coherente de realidad o una teoría inequívoca de la inteligencia.
La realidad, con sus ambigüedades, funciona. Puede que nuestro
verdadero destino como especie sea construir una inteligencia de
probado gran éxito, entendamos o no cómo funcione. La memoria
colectiva asociativa distribuida masivamente que constituye la
«supramente» (o el Ordenador Único de Kevin) ya está formando
asociaciones, detectando patrones y haciendo predicciones –aunque
esto no signifique pensar en el modo en que lo hacemos o en una
escala que podamos comprender. El repentino aluvión de grandes
bases de datos y la apertura de un territorio científico
completamente nuevo promete una vuelta a la emoción del nacimiento
de la ciencia (moderna) en el siglo XVII, cuando era, como Newton,
Boyle, Hooke, Petty y el resto vieron, «el negocio de la Filosofía
Natural» el que averiguaba las cosas. Lo que Chris Anderson da a
entender es que la ciencia irá perteneciendo cada vez más a una
nueva generación de filósofos naturales que no sólo están leyendo
la naturaleza, sino que están empezando a leer la «supramente».
¿Hará esto que el método científico quede obsoleto? No. Aún
estamos muy cerca de los comienzos del método científico para
hablar de su fin. Como Sir Robert Southwell escribió a William
Petty el 28 de septiembre de 1687, poco antes de ser elegido
presidente de la Royal Society, «La intuición de la verdad no
resulta tan sabrosa como la Verdad ya cazada».
Kevin Kelly
Existe la incipiente sensación de que las bases de datos
extremadamente grandes, a partir del nivel petabyte, podrían
cambiar el modo en que aprendemos las cosas. El modo tradicional
de hacer ciencia implica construir una hipótesis que coincida con
los datos observados o solicitar otros nuevos. Dado un grupo de
observaciones ¿qué teoría explica cuántos datos son suficientes
para poder predecir la siguiente observación? Puede resultar que
volúmenes de datos tremendamente grandes sean suficientes para
saltarse la teoría y hacer una observación predictiva. Google fue
uno de los primeros en darse cuenta de esto. Pongamos el ejemplo
del corrector ortográfico de Google. Cuando, googleando, escribes
una palabra mal, Google surgiere la forma correcta. ¿Cómo lo sabe?
¿Cómo predice la palabra correcta? No es porque tenga una teoría
sobre la ortografía, ni porque haya llegado a dominar las reglas
ortográficas. De hecho, Google no sabe nada en absoluto sobre
ortografía. En su lugar, Google opera con un gran conjunto de
datos de observaciones que muestran que para cualquier palabra
escrita hay x personas que dicen «sí» cuando se les pregunta si
querían decir la palabra «y». El motor ortográfico de Google
consiste enteramente en estos puntos de referencia, más que en
cualquier otra noción sobre la correcta escritura del inglés. Por
eso, el mismo sistema puede corregir la ortografía de cualquier
idioma. Lo cierto es que Google emplea la misma filosofía de
aprendizaje mediante datos masivos para sus programas de
traducción. Pueden traducir del inglés al francés, o del alemán al
chino, haciendo correlaciones entre inmensos conjuntos de datos a
partir del material traducido por el hombre. Por ejemplo, Google
entrena su motor de traducción francés-inglés surtiéndolo de
documentos canadienses que han sido publicados de manera frecuente
tanto en inglés como en francés. Los de Google no conocen la
teoría del idioma, especialmente del francés, tampoco un traductor
con inteligencia artificial. Y las traducciones son bastante
buenas. No al nivel de experto, pero lo suficiente para entender
lo esencial. Puedes coger una web china y al menos captar el
sentido de lo que significa en inglés. Pero como Peter Norving,
director de investigación de Google, presumía ante mí, «ni una
sola persona que trabajara en el traductor de chino hablaba
chino». No hay teoría de chino, ni comprensión. Sólo datos. (Si
alguien ha querido alguna vez una refutación del enigma de Searle
de la Sala China, aquí la tiene).
Si se puede saber cómo se escribe una palabra sin saber nada sobre
ortografía o gramática, y si se puede saber cómo traducir idiomas
sin tener ninguna teoría o concepto sobre la gramática de esos
idiomas que estás traduciendo, entonces ¿qué más se puede saber
sin la teoría? Chris Anderson está explorando la idea de que quizá
se pueda hacer ciencia sin tener teorías.
Stewart Brand
La humanidad digital ha pasado aparentemente de un hito a otro
durante los últimos pocos años. Ahora nos damos cuenta. Darse
cuenta suele ser de ayuda. Coincidiremos en uno o dos nombres para
el nuevo hito y observaremos lo que la inducción nos diga sobre
cómo funciona o para qué sirve.
W. Daniel Hills
Soy un gran fan de Google, y me encanta buscar patrones
matemáticos en los datos, pero el artículo de Chris Anderson, El
fin de la teoría, establece una falsa distinción. Afirma que
usando una gran colección de datos para «ver los datos
matemáticamente primero y establecer un contexto después» es en
cierto modo distinto de «la manera en que la ciencia ha trabajado
durante cientos de años». No estoy de acuerdo.
Sean Carroll
¿Qué es una buena teoría?
A principios del siglo XVII, Johannes Kepler propuso sus Tres
Leyes del Movimiento Planetario: los planetas se mueven en
elipses, barren áreas iguales en tiempos iguales y sus periodos
son proporcionales al cubo de la distancia media desde el Sol.
Esto fue un gran avance en el aspecto astronómico de la cultura,
descubriendo un conjunto de relaciones simples en los voluminosos
datos sobre los movimientos de los planetas que habían sido
reunidos por su mentor Tycho Brahe. Más tarde, en el mismo siglo,
Sir Isaac Newton propuso su teoría de la mecánica, que incluía sus
Leyes del Movimiento y su Ley de la Gravitación Universal (la
fuerza ejercida por la gravedad inversamente proporcional al
cuadrado de la distancia). En el sistema de Newton, se podían
derivar las leyes de Kepler –en vez de oponerlas– y muchas otras
cosas. Esto era generalmente considerado como un importante paso
al frente. No sólo teníamos reglas de una aplicabilidad mucho más
amplia, sino que podíamos afirmar con sensatez que entendíamos lo
que estaba pasando. Entender es algo bueno, y es en cierto sentido
el primer objetivo de la ciencia.
Jaron Lanier
El objetivo de la teoría científica no es que un ángel vaya a
apreciarla. Su propósito es la comprensión humana. La ciencia sin
una búsqueda de teorías significa una ciencia sin humanos. Los
científicos están mundialmente contentos con los nuevos grandes
recursos relacionados con la computación. Soy consciente de que
nadie discute ese punto. La única idea en el texto de Chris
Anderson que se sale de esa feliz zona de consenso es que no
deberíamos querer entender nuestro propio trabajo cuando usamos
los nuevos recursos. Encuentra emocionante que podamos hacer algo
que funciona sin comprender el porqué. Esto es precisamente lo que
no debería ser emocionante. Algunos remedios caseros funcionan y
no sabemos por qué. La ciencia va de entender. La comprensión es
mucho más excitante que los remedios caseros. Anderson parece
decir que es inútil ser humano. Las máquinas deberían ser ahora
las que piensen, y ser las heroínas del descubrimiento. Digo
«parece» porque no me creo que esté siendo sincero. Creo que es
una treta para lograr cierto tipo de atención. Escuchar la
retórica antihumana produce la misma punzada que la trama de una
película sobre un asesino en serie. Alguna parte profunda y moral
de todos nosotros está tan ofendida que no podemos desviar nuestra
atención.
Joseph Traub
Estoy de acuerdo con Danny Hills en que las grandes cantidades de
datos no socavarán el método científico. De hecho, las leyes
científicas codifican una inmensa cantidad de datos. Pienso en el
ejemplo de las ecuaciones de Maxwell o en las leyes de Kepler.
¿Por qué piensa Chris Anderson que con más datos aún, las leyes
(lo que él llama teoría) se volverá menos importante?
John Horgan
Mi primera reacción al ensayo de Chris Anderson fue, no, otra
Gran-Profecía-del-Fin-de-Algo. Anderson, además, recicla la
retórica del caos, la complejidad y la Inteligencia Artificial.
¡Ordenadores aún más poderosos van a encontrar patrones ocultos en
bases de datos cada vez mayores y van a revolucionar la ciencia!
No necesitas ser un ordenador para trazar los ciclos de auge y
caída de estas afirmaciones. Pero la idea de que los ordenadores
obviarán la teoría y la comprensión inspira unos pocos
pensamientos:
Bruce Sterling
La ciencia ficción inmediatamente obsoleta por la «petabyte
ficción»
Estoy tan impresionado por los prefijos «peta» y «exa» como el que
más. También me inclino a pensar que los motores de búsqueda son
más grandes y mejores que la Inteligencia Artificial (incluso
aunque la IA se las hubiera arreglado alguna vez para existir
fuera de la ciencia ficción). También me encanta la idea de
grandes, nubladas [cloudy] y sin embargo profundas relaciones
entre fenómenos aparentemente inconexos –en literatura, llamamos a
esos gadgets «metáforas». ¡Son geniales!
Douglas Rushkoff
Sí, pero.
Tengo mis sospechas en unos pocos puntos:
Lo primero: no creo que Google haya sido probado «correcto». Sólo
efectivo, por el momento. Una vez que la propia publicicidad se
revele como un modelo de negocio temporal, la habilidad de Google
de explotar correctamente la trayectoria de una industria en
descenso podrá entonces ser tenida en cuenta. Sin un contexto más
amplio, el éxito de Google es en realidad una mera táctica. No es
una extensión de una agencia humana (o incluso de una agencia
corporativa), sino una puñalada estratégica basada en la lógica
del momento. No es un esfuerzo guiado, sino una respuesta pasiva.
¿Funciona? De momento. ¿Va a la cabeza? En absoluto. Asimismo,
para determinar la elección humana, o hacer política u obtener
ciencia a partir de la nube [cloud] niega a todos estos campos la
presunción de significado. Vi cómo, durante las elecciones de
2004, las firmas de investigación de mercado procesaban los datos
de esta forma para las campañas de Bush y Kerry. Usarían la
información no relacionada con la política para identificar
hogares que parecieran contener a más votantes indecisos. El
modelo predictivo usaría puntos de referencia tales como si los
votantes tenían un perro o un gato, un coche de dos o cuatro
puertas, a qué distancia les quedaba el trabajo y cuánto debían en
sus hipotecas para determinar qué tipo de votantes había dentro.
Estas técnicas no tenían lógica para ellos. La lógica era vista
como una distracción. Todo lo que importaba eran las correlaciones
que eran determinadas por ordenadores que estudiaban
minuciosamente los datos. Si resultaba que quienes tenían un gato
y un coche con dos puertas parecían más votar en un cierto sentido
o favorecer cierta causa, entonces las compañías de encuestas
podían indicar a los que encuestadores a qué teléfono tenían que
llamar para hacérselas. Chicos con reproductores de DVD que
contenían anuncios personalizados para ciertos hogares se dejarían
ver en las esquinas de las casas, pondrían la canción por
ordenador, dejarían un folleto y se dirigirían a la siguiente.
Algo, durante ese proceso, me hizo cínico respecto a ese campo que
emergía de forma no piramidal, contraria a la taxonomía. Estoy
totalmente a favor de una buena «folksonomía», como cuando los
chicos etiquetan sus vídeos favoritos o los post de los blogs. Es
así como sabemos qué vídeo de YouTube ver; hacemos una búsqueda
general y luego del hit que ha sido visto más veces. Pero los
números más certeros no hablan por sí mismos. Al olvidar la
taxonomía, la ontología y la psicología, olvidamos por qué estamos
aquí en primera instancia. Quizá el consumidor de vídeos puede
olvidar esas disciplinas, ¿pero y el que hace los vídeos?
Oliver Morton
Las provocaciones de Chris Anderson despiertan muchos pensamientos
–me limitaré a dos específicos y dos generales. El primero
específico es que Anderson hace una caracterización equivocada de
la física de partículas. El problema con la física de partículas
no es la pobreza de datos –es la complejidad teórica. El Tevatron,
y el LEP antes, habían producido cantidades inmensas de datos para
sus épocas –datos que son un rico suministro. El problema es que
el modelo estándar lo explique todo. El paso que va más allá del
modelo estándar no es una reflexión sobre la pobreza de datos,
sino teoría que se nutre de teoría porque los datos están bien
servidos. Esto no significa que no haya un ángulo Googlesco que se
pueda usar aquí –hay un equipo observando los datos de Fermilab en
lo que entiendo que es una efectiva forma de «teoría agnóstica»
(ver Particle physicists hunt for the unexpected de mi colega de
Nature Sarah Tomlin)– pero no es algo de vital importancia. (Y
añado brevemente: una teoría como la de Newton, que permite a los
profesionales predecir con precisión las posiciones de los
pequeños trozos de roca que vuelan velozmente, con décadas de
antelación, en un sistema solar 10[25] más grande que las rocas en
cuestión pude ser incompleta pero, «en bruto», no lo es.
Daniel Everett
El ensayo de Chris Anderson hace que me pregunte sobre la
lingüística en la era de los petabytes. En la primera hora de la
teoría lingüística en Estados Unidos, los lingüistas estuvieron,
como todos los científicos, preocupados con el descubrimiento de
las regularidades. La antropóloga Ruth Benedict primero, llamó
«patrones en la cultura» a las regularidades en los modos de los
humanos de dar significado al mundo. Más tarde, Edward Sapir,
Kenneth Pike y otros buscaron patrones en el lenguaje,
especialmente en las lenguas indias americanas que se convirtieron
en el centro de la lingüística americana diferenciándose así de
los incipientes estudios lingüísticos de los investigadores
europeos. Habiendo acabado de terminar una guía de investigación
de campo, mi propio énfasis pedagógico para los nuevos
investigadores es en gran parte el mismo que el de los primeros
estudios de las lenguas indígenas de las Américas –entrar en una
comunidad que habla un idioma no estudiado y seguir procedimientos
inductivos estándar para encontrar regularidades y patrones. Una
vez que los patrones han sido descubiertos, articularlos como
normas, anotar las excepciones y ahí lo tienes: una gramática.
Pero hay dos aspectos en los que los lingüistas están empezando a
estar descontentos con esta metodología, como el resultado de unas
cuestiones que conectan con las tesis de Chris Anderson. El
primero, que los lingüistas han comenzado a cuestionar la
relevancia de distinguir las reglas de las listas. Segundo, que
han comenzado a preguntarse si el niño procede de facto como un
pequeño lingüista en el aprendizaje de su lengua con
procedimientos de inducción y deducción construidos en él
genéticamente, o si el aprendizaje del niño del idioma tiene lugar
de forma muy distinta del modo en que los lingüistas estudian en
campo nuevas lenguas. La diferencia entre las reglas y las listas
y los enunciados extensionales vs. intencionales es la
confrontación de que la ley rige contra el desorden. Así, los
humanos estamos motivados por nuestra evolución a clasificar.
Estamos profundamente insatisfechos con los recuentos de datos que
parecen más listas y «meras estadísticas» que generalizaciones
basadas en la detección de un comportamiento estructurado por
leyes. Y sin embargo, como muchos han empezado a señalar, algunos
de los hechos más interesantes sobre las lenguas, especialmente
los hechos cruciales que distinguen una lengua de otra, son con
frecuencia listas, más que reglas (o esquemas). La gente tiene que
aprender listas en cualquier lenguaje. Ya que tienen que hacerlo,
¿hay alguna razón para proponerles un segundo tipo de aprendizaje,
o de adquisición en forma de reglas, estén las propuestas
motivadas genéticamente o no? Más curiosamente ¿adquieren el
lenguaje los niños basándose en un conjunto de hipótesis limitado
genéticamente, o tratan el lenguaje como internet y funcionan como
calculadoras estadísticas, como pequeños «Googlers»? Los
psicólogos conexionistas de Carnegie Mellon, Stanford y otras
universidades han impulsado hipótesis relacionadas con nosotros
durante años, aunque los lingüistas han tardado en abrazarlas.
Gloria Origgi
Estoy de acuerdo con Daniel Hills en que lo que dice Chris
Anderson: aunque provocador y oportuno, no es exactamente una
nueva noticia. La ciencia se ha valido siempre de las
correlaciones con el fin de ganar fuerza predictiva. La ciencia
social más que otras ciencias: tenemos pocos mecanismos causales
sólidos que expliquen por qué la gente se comporta de un modo o de
otro, o por qué estallan las guerras, pero un montón de
correlaciones sólidas –para las que no tenemos fundamentos– que es
mejor tener en cuenta si queremos entender mejor un fenómeno. Si
el aumento de la tasas de mortalidad infantil resulta estar
correlacionado con la caída del Imperio soviético (como se ha
señalado), es en efecto información relevante, aunque carezcamos
de una explicación causal para ello. De modo que buscamos un
posible mecanismo causal que sustente esta correlación. La buena
ciencia social encuentra mecanismos causales que no son
completamente ad hoc y que sustentan las generalizaciones en otros
casos. La mala ciencia social se atasca en las interpretaciones
que suelen confirmar los prejuicios ideológicos del científico. La
ciencia describe, predice y explica el mundo: las correlaciones
ayudan a predecir, y también pueden describir el mundo de una
nueva forma, como un enredado conjunto de petabytes, pero no
explican nada si no son sustentadas por un mecanismo causal. La
función explicativa de la ciencia, esto es, responder los porqués,
puede ser sólo un pequeño elemento de la empresa en su totalidad:
y de hecho, coincido plenamente con Anderson en que las técnicas y
los métodos de recopilación de datos pueden ser transformados
completamente por la densidad de la información disponible y la
existencia de algoritmos estadísticos que filtren esta información
con una tremenda capacidad de computación.
Así que nada de nostalgia por los buenos viejos métodos si las
nuevas técnicas de compilación de datos son más eficientes para
predecir eventos. Ni nada de nostalgia por los «malos» modelos si
las nuevas técnicas son lo suficientemente buenas como para
proporcionarnos comprensión (la Inteligencia Artificial frente a
los motores de búsqueda, por ejemplo). De modo que, pensemos en la
era de los petabytes como una era en la que «el contexto del
descubrimiento», por usar el viejo estribillo de la filosofía de
la ciencia, es masivamente mecanizado por el tratamiento
algorítmico de enormes cantidades de datos, mientras que el
«contexto del descubrimiento» sigue perteneciendo a la ambición
humana de dar sentido al mundo que nos rodea.
Esto deja sitio para los porqués, es decir, ¿por qué algunas de
las correlaciones estadísticas extraídas por los algoritmos son
tan condenadamente buenas? Sabemos que son buenas porque tenemos
la intuición de que funcionan y de que nos dan la respuesta
correcta, pero este «equilibrio reflexivo» entre las respuestas
clasificadas de Google a nuestras peticiones y nuestra intuición
de que la clasificación es satisfactoria sigue necesitando ser
explicado. En el caso de PageRank, me parece que el algoritmo
incorpora un modelo de la web como una red social estructurada en
la que cada link de un nodo a otro es interpretado como un «voto»
de ese nodo al otro. Esto me suena a «teoría», a método de
extracción de información que, aunque sea realizado por máquinas,
se realiza en la base de una conceptualización de la realidad con
el fin de obtenerla correctamente.
Puede surgir una nueva ciencia en la era Petabyte, esto es, una
ciencia que intenta responder las preguntas a cómo los procesos de
la inteligencia colectiva hicieron posible, mediante las nuevas y
enormes cantidades de datos que pueden combinarse fácilmente por
potentes algoritmos de forma fiable. Quizá sea una ciencia «más
suave», totalmente nueva, liberada al fin de la carga del rigor de
los «métodos cuantitativos» que hacen a los documentos científicos
tan aburridos de leer, que deja esta carga para los algoritmos y
deja que las mentes se muevan libremente entre los datos en el más
creativo sentido. La ciencia puede convertirse en un juego más
barato desde el punto de vista de las inversiones para descubrir
nuevos hechos: pero, como filósofa, no creo que estos juegos
intelectuales baratos sean un desafío menor o que merezcan menos
jugarse.
Lee Smolin
Para saber qué pensar sobre la hipótesis de Anderson de que el
almacenamiento y procesamiento informáticos de cantidades masivas
de datos reemplazarán la necesidad de formular hipótesis y
teorías, se puede ver si tiene alguna relevancia en la forma en
que las supercomputadoras están siendo actualmente usadas en la
física contemporánea. Un ejemplo que me viene a la mente es el de
la astronomía de ondas gravitacionales, en la que una señal amplia
al receptor hace imposible observar las ondas gravitacionales a
partir de lo que producen los detectores. En vez de eso, los
flujos de datos masivos creados por la LIGO, VIRGO y otras antenas
de ondas gravitacionales son escaneados por ordenadores sobre
plantillas con formas de onda creadas por los teóricos que modelan
las posibles fuentes. Estas fuentes, como la rotación espiral y la
fusión de los agujeros negros y las estrellas de neutrones,
precisan por sí mismas una simulación en superordenadores para
producir las plantillas necesarias.
Joel Garreau
Quizá las cosas son diferentes en la física y la biología. Pero
por mi experiencia al estudiar la cultura, los valores y la
sociedad, los datos demoran la realidad por definición –son un
pantallazo del pasado. Y cuando la realidad humana no se alínea
convenientemente con los modos establecidos de pensar, los datos
pueden retrasarse durante años, si no décadas.