Está en la página 1de 33

El gran despertar de la IA

Cómo Google usó la inteligencia artificial para transformar Google Translate, uno de sus servicios
más populares - y cómo el aprendizaje de máquina está a punto de reinventar la computación en
sí.

POR GIDEON LEWIS-KRAUS

DIC. 14, 2016

Prólogo: Eres lo que has leído

A finales de un viernes por la noche a principios de noviembre, Jun Rekimoto, un distinguido


profesor de interacción hombre-computadora en la Universidad de Tokio, estaba en línea
preparándose para una conferencia cuando empezó a notar algunos mensajes peculiares rodando
en las redes sociales. Al parecer, Google Translate, el popular servicio de traducción automática de
la empresa, había mejorado repentinamente y casi infinitamente. Rekimoto visitó Google
Translate y comenzó a experimentar con él. Estaba asombrado. Tuvo que ir a dormir, pero Google
Translate se negó a relajar su control sobre su imaginación.

Rekimoto escribió sus hallazgos iniciales en un blog. En primer lugar, comparó algunas frases de
dos versiones publicadas de "The Great Gatsby", la traducción de 1957 de Takashi Nozaki y la
iteración más reciente de Haruki Murakami, con lo que este nuevo Google Translate fue capaz de
producir. La traducción de Murakami está escrita "en japonés muy pulido", me explicó Rekimoto
más tarde vía correo electrónico, pero la prosa es distintivamente "estilo Murakami". Por el
contrario, la traducción de Google -a pesar de algo "poco natural" - le lee como "más
transparente . "

En la segunda mitad del proceso, Rekimoto examinó el servicio en la otra dirección, del japonés al
inglés. Se desprendió de su propia interpretación japonesa de la apertura a "Las nieves del
Kilimanjaro" de Hemingway, y luego corrió ese pasaje a través de Google en inglés. Publicó esta
versión junto con el original de Hemingway, y procedió a invitar a sus lectores a adivinar cuál era el
trabajo de una máquina.

NO. 1
El Kilimanjaro es una montaña nevada de 19.710 pies de altura, y se dice que es la montaña más
alta de África. Su cumbre occidental se llama Masai "Ngaje Ngai", la Casa de Dios. Cerca de la
cumbre occidental hay la carcasa seca y congelada de un leopardo. Nadie ha explicado lo que el
leopardo estaba buscando en esa altitud.

NO. 2

El Kilimanjaro es una montaña de 19.710 pies cubiertos de nieve y se dice que es la montaña más
alta de África. La cumbre del oeste se llama "Ngaje Ngai" en Masai, la casa de Dios. Cerca de la
parte superior del oeste hay un cuerpo seco y congelado de leopardo. Nadie ha explicado nunca
qué leopardo quería en esa altitud.

Incluso para un hablante nativo de inglés, el artículo faltante sobre el leopardo es el único regalo
real que el Nº 2 fue la salida de un autómata. Su cercanía era una fuente de asombro para
Rekimoto, que conocía bien las capacidades del servicio anterior. Sólo 24 horas antes, Google
habría traducido el mismo pasaje japonés de la siguiente manera:

El Kilimanjaro es 19.710 pies de la montaña cubierta de nieve, y se dice que la montaña más alta
de África. La parte superior del oeste, "Ngaje Ngai" en la lengua de Maasai, se ha referido como la
casa de dios. La parte superior se cierra al oeste, hay una carcasa seca y congelada de un leopardo.
Si el leopardo tenía lo que la demanda a esa altitud, no hay nadie que nadie explicó.

Rekimoto promovió su descubrimiento a sus cientos de miles de seguidores en Twitter, y durante


las próximas horas miles de personas transmitieron sus propios experimentos con el servicio de
traducción automática. Algunos fueron exitosos, otros significaron principalmente un efecto
cómico. A medida que el amanecer se rompió en Tokio, Google Translate fue la tendencia número
uno en Twitter japonés, justo por encima de algunas series de culto de anime y el tan esperado
nuevo single de un supergrupo de ídolo de niñas. Todo el mundo se preguntó: ¿Cómo Google
Translate se convirtió de pronto en algo tan increíblemente ingenioso?

Cuatro días más tarde, un par de cientos de periodistas, empresarios y publicistas de todo el
mundo se reunieron en la oficina de ingeniería de Google en Londres para un anuncio especial. Los
invitados fueron recibidos con galletas de fortuna con la marca Tranlate. Sus papeles tenían una
frase extranjera de un lado - la mía estaba en noruego - y por otro, una invitación a descargar la
aplicación Traducir. Las mesas estaban decoradas con bandejas de donas y batidos, cada una
marcada con un letrero que anunciaba su sabor en alemán (zitrone), portugués (baunilha) o
español (manzana). Después de un tiempo, todo el mundo fue introducido en un teatro oscuro.

Sadiq Khan, el alcalde de Londres, se puso de pie para hacer algunos comentarios de apertura. Un
amigo, comenzó, le había dicho recientemente que le recordaba a Google. -¿Por qué, porque sé
todas las respuestas? -preguntó el alcalde. -No -respondió el amigo-, porque siempre estás
tratando de terminar mis frases. Khan concluyó presentando al presidente ejecutivo de Google,
Sundar Pichai, quien subió al escenario.

Pichai estuvo en Londres en parte para inaugurar el nuevo edificio de Google, la piedra angular de
un nuevo "cuarto de conocimiento" en construcción en King's Cross, y en parte para desvelar la
finalización de la fase inicial de una transformación de la compañía anunciada el año pasado. El
Google del futuro, Pichai había dicho en varias ocasiones, iba a ser "AI primero". Lo que eso
significaba en teoría era complicado y había dado la bienvenida a muchas especulaciones. Lo que
significaba en la práctica, con cierta suerte, era que pronto los productos de la empresa ya no
representarían los frutos de la programación de computadoras tradicionales, exactamente, sino el
"aprendizaje automático".

Un departamento enrarecido dentro de la compañía, Google Brain, fue fundado hace cinco años
sobre este mismo principio: que las "redes neuronales" artificiales que se familiarizan con el
mundo a través de la prueba y el error, como los niños pequeños, podrían desarrollar algo como la
flexibilidad humana. Esta noción no es nueva -una versión de ella data de las primeras etapas de la
informática moderna, en la década de 1940-, pero durante gran parte de su historia la mayoría de
los científicos de la computación lo consideraron vagamente deshonroso, incluso místico. Sin
embargo, desde 2011, Google Brain ha demostrado que este enfoque de la inteligencia artificial
podría resolver muchos problemas que confundieron décadas de esfuerzos convencionales. El
reconocimiento del habla no funcionó muy bien hasta que Brain emprendió un esfuerzo para
renovarlo; La aplicación de la máquina de aprendizaje hizo su rendimiento en la plataforma móvil
de Google, Android, casi tan bueno como la transcripción humana. Lo mismo ocurrió con el
reconocimiento de imágenes. Menos de un año atrás, Brain por primera vez comenzó con la
renovación intestinal de un producto de consumo completo, y sus resultados trascendentales se
celebra esta noche.

Translate hizo su debut en 2006 y desde entonces se ha convertido en uno de los activos más
fiables y populares de Google; Sirve a más de 500 millones de usuarios mensuales que necesitan
140 mil millones de palabras por día en un idioma diferente. Existe no sólo como su propia
aplicación independiente sino también como una característica integrada dentro de Gmail,
Chrome y muchas otras ofertas de Google, donde lo tomamos como un pulsador dado - una parte
sin fricción y natural de nuestro comercio digital. Fue sólo con la crisis de los refugiados, explicó
Pichai desde el atril, que la compañía llegó a contar con la importancia geopolítica de Translate: En
la pantalla detrás de él apareció un gráfico cuya curva pronunciada indicaba un aumento reciente
de cinco veces en las traducciones entre árabe y alemán. (También estaba cerca del corazón de
Pichai, creció en la India, una tierra dividida por decenas de lenguas). El equipo había ido
agregando nuevos idiomas y características, pero las ganancias de calidad en los últimos cuatro
años se habían desacelerado considerablemente.

Hasta hoy. A partir del fin de semana anterior, Translate había sido convertido a un sistema
basado en AI para gran parte de su tráfico, no sólo en los Estados Unidos, sino también en Europa
y Asia: El despliegue incluía traducciones entre inglés y español, francés, portugués, alemán ,
Chino, japonés, coreano y turco. El resto de los cientos de idiomas de Translate iban a venir, con el
objetivo de ocho por mes, a finales del próximo año. La nueva encarnación, para la agradable
sorpresa de los propios ingenieros de Google, se había completado en sólo nueve meses. El
sistema AI había demostrado mejoras durante la noche aproximadamente iguales a las ganancias
totales que la antigua había acumulado durante toda su vida.

Pichai tiene un afecto por la oscura referencia literaria; Él me dijo un mes antes, en su oficina en
Mountain View, California, que en parte existe porque no todo el mundo puede ser como el físico
Robert Oppenheimer, que aprendió sánscrito para leer el Bhagavad Gita en el original. En Londres,
la diapositiva de los monitores detrás de él se dirigió a una cita de Borges: "Uno no es lo que es por
lo que escribe, sino por lo que ha leído."

Sonriendo, Pichai leyó en voz alta una incómoda versión en inglés de la frase que había sido
traducida por el viejo sistema de Translate: "Uno no es lo que es para lo que escribe sino para lo
que ha leído".

A la derecha de aquélla había una nueva versión de AI: "No eres lo que escribes, sino lo que has
leído".

Era un comentario apropiado: el nuevo Google Translate se ejecutaba en las primeras máquinas
que, en cierto sentido, habían aprendido a leer cualquier cosa.

La decisión de Google de reorganizarse en torno a la IA fue la primera manifestación importante


de lo que se ha convertido en un delirio de aprendizaje en la industria. En los últimos cuatro años,
seis empresas en particular -Google, Facebook, Apple, Amazon, Microsoft y la firma china Baidu-
han iniciado una carrera armamentista para el talento de la IA, particularmente dentro de las
universidades. Las promesas corporativas de recursos y libertad han adelgazado a los mejores
departamentos académicos. Se ha dado a conocer ampliamente en Silicon Valley que Mark
Zuckerberg, director ejecutivo de Facebook, supervisa personalmente, con llamadas telefónicas y
blandishments de video-chat, las propuestas de su compañía a los estudiantes de posgrado más
deseables. Salarios iniciales de siete cifras no son inauditos. La asistencia a la conferencia
académica más importante del campo casi se ha cuadruplicado. Lo que está en juego no es sólo
una innovación más fragmentaria, sino que el control sobre lo que podría representar una
plataforma computacional totalmente nueva: la inteligencia penetrante y ambiental.

La frase "inteligencia artificial" es invocada como si su significado fuera evidente por sí mismo,
pero siempre ha sido una fuente de confusión y controversia. Imagínese que regresa a la década
de 1970, detiene a alguien en la calle, saca un teléfono inteligente y le muestra su Google Maps.
Una vez que lograste convencerla de que no eras un mago extrañamente vestido, y que lo que te
sacaste de tu bolsillo no era un amuleto de artes negras, sino simplemente un diminuto ordenador
más poderoso que el que guió misiones de Apolo, Google Maps casi Ciertamente le parecen un
ejemplo persuasivo de "inteligencia artificial". En un sentido muy real, lo es. Puede hacer cosas
que cualquier humano alfabetizado en el mapa puede manejar, como llegar desde su hotel al
aeropuerto, aunque puede hacerlo mucho más rápido y confiablemente. También puede hacer
cosas que los humanos sencillamente y obviamente no pueden: pueden evaluar el tráfico,
planificar la mejor ruta y reorientarse cuando toman la salida equivocada.

Prácticamente nadie hoy, sin embargo, otorgaría a Google Maps el honorífico "AI", tan
sentimental y ahorradores estamos en el uso de la palabra "inteligencia". La inteligencia artificial,
creemos, debe ser algo que distingue a HAL de lo que sea un Telar o carretilla puede hacer. En el
minuto en que podemos automatizar una tarea, degradamos la habilidad relevante involucrada a
una de mero mecanismo. Hoy en día Google Maps parece, en el sentido peyorativo del término,
robótico: Simplemente acepta una demanda explícita (la necesidad de ir de un lugar a otro) y trata
de satisfacer esa demanda lo más eficientemente posible. Por lo tanto, los puestos de meta de
"inteligencia artificial" retroceden constantemente.

Cuando tiene la oportunidad de hacer distinciones cuidadosas, Pichai diferencia entre las
aplicaciones actuales de la IA y el objetivo final de la "inteligencia general artificial". La inteligencia
general artificial no implicará obediencia obediente a instrucciones explícitas, sino que demostrará
una facilidad con la implícita , El interpretativo. Será una herramienta general, diseñada para
propósitos generales en un contexto general. Pichai cree que el futuro de su compañía depende
de algo como esto. Imagínese si pudiera decirle a Google Maps: "Me gustaría ir al aeropuerto,
pero necesito parar en el camino para comprar un regalo para mi sobrino". Una versión más
inteligente de ese servicio - un asistente ubicuo, De la clase que Scarlett Johansson
memorablemente encarnó hace tres años en la película de Spike Jonze "Her" - sabría todo tipo de
cosas que, digamos, un amigo cercano o un interno puede saber: la edad de su sobrino, y lo que
normalmente te gusta Para gastar en regalos para los niños, y donde encontrar una tienda abierta.
Pero un Maps verdaderamente inteligente también podría concebir todo tipo de cosas que un
amigo íntimo no haría, como lo que recientemente ha entrado en moda entre los preescolares de
la escuela de su sobrino, o lo que es más importante, lo que sus usuarios realmente quieren. Si
una máquina inteligente pudiera discernir alguna intrincada o oscura regularidad en los datos
sobre lo que hemos hecho en el pasado, podría extrapolar sobre nuestros deseos posteriores,
aunque no los conozcamos por completo.

La nueva ola de asistentes mejorados de AI, como Siri de Apple, M de Facebook, Echo de Amazon,
son todas criaturas de aprendizaje automático, construidas con intenciones similares. Los sueños
corporativos para el aprendizaje de máquina, sin embargo, no se agotan con el objetivo de la
clarividencia del consumidor. Una filial de imágenes médicas de Samsung anunció este año que
sus nuevos dispositivos de ultrasonido podrían detectar el cáncer de mama. Consultores de
gestión están cayendo por todas partes a los ejecutivos de preparación para la ampliación de las
aplicaciones industriales de las computadoras que se programan. DeepMind, una adquisición de
Google de 2014, derrotó al gran maestro humano reinante del antiguo juego de mesa Go, a pesar
de las predicciones de que tal logro llevaría otros 10 años.

En un famoso ensayo de 1950, Alan Turing propuso una prueba para una inteligencia general
artificial: una computadora que podría, en el transcurso de cinco minutos de intercambio de texto,
engañar con éxito a un verdadero interlocutor humano. Una vez que una máquina puede traducir
fluidamente entre dos lenguajes naturales, la fundación ha sido puesta para una máquina que un
día podría "entender" el lenguaje humano lo suficientemente bien como para entablar una
conversación plausible. Los miembros de Google Brain, que impulsaron y ayudaron a supervisar el
proyecto Translate, creen que una máquina de este tipo estaría en camino de servir como un
asistente digital personal general inteligente que abarca todo.

Lo que sigue aquí es la historia de cómo un equipo de investigadores e ingenieros de Google -


primero uno o dos, luego tres o cuatro, y finalmente más de cien - avanzaron considerablemente
en esa dirección. Es una historia poco común en muchos sentidos, no menos importante porque
desafía muchos de los estereotipos del Valle del Silicio a los que nos hemos acostumbrado. No
cuenta con personas que piensan que todo será irreconociblemente diferente mañana o al día
siguiente debido a algún inquieto tocador en su garaje. No es ni una historia sobre personas que
piensan que la tecnología resolverá todos nuestros problemas, ni tampoco una sobre personas
que piensan que la tecnología está ineludiblemente obligada a crear nuevas apocalípticas. No se
trata de la interrupción, al menos no en la forma en que la palabra tiende a ser utilizada.

De hecho, son tres historias superpuestas que convergen en la metamorfosis exitosa de Google
Translate para AI: una historia técnica, una historia institucional y una historia sobre la evolución
de las ideas. La historia técnica es sobre un equipo en un producto en una empresa y el proceso
por el cual refinaron, probaron e introdujeron una versión completamente nueva de un producto
viejo en sólo una cuarta parte del tiempo que cualquiera, ellos mismos incluidos, podría
razonablemente tener esperado. La historia institucional trata sobre los empleados de un pequeño
pero influyente grupo de inteligencia artificial dentro de esa compañía y el proceso por el cual su
fe intuitiva en algunas nociones antiguas, no probadas y ampliamente desagradables sobre la
informática, alteró a todas las demás compañías dentro de un gran radio. La historia de las ideas
es sobre los científicos cognitivos, los psicólogos y los ingenieros rebeldes que trabajaron largo
tiempo en la oscuridad, y el proceso por el cual sus convicciones ostensiblemente irracionales
finalmente inspiraron un cambio de paradigma en nuestro entendimiento no sólo de la tecnología
sino también, .

La primera historia, la historia de Google Translate, se lleva a cabo en Mountain View durante
nueve meses, y explica la transformación de la traducción automática. La segunda historia, la
historia de Google Brain y sus muchos competidores, tiene lugar en Silicon Valley durante cinco
años, y explica la transformación de toda esa comunidad. La tercera historia, la historia del
aprendizaje profundo, tiene lugar en una variedad de laboratorios lejanos - en Escocia, Suiza,
Japón y sobre todo Canadá - durante siete décadas, y podría muy bien contribuir a la revisión de
nuestra auto- Imagen como primer y principal seres que piensan.

Los tres son historias sobre inteligencia artificial. La historia de siete décadas es acerca de lo que
podríamos esperar o desear de ella. La historia de cinco años es acerca de lo que podría hacer en
un futuro próximo. La historia de nueve meses es acerca de lo que puede hacer en este momento.
Estas tres historias son en sí mismas una prueba de concepto. Todo esto es sólo el comienzo.

Parte I: Máquina de aprendizaje

1. El nacimiento del cerebro

Jeff Dean, aunque su título es compañero principal, es el jefe de facto de Google Brain. Dean es un
hombre vigoroso y energético, con una cara larga y estrecha, ojos profundos y un entusiasmo
sincero, con un derbi. Hijo de un antropólogo médico y epidemiólogo de salud pública, Dean creció
en todo el mundo -Minnesota, Hawái, Boston, Arkansas, Ginebra, Uganda, Somalia, Atlanta- y,
mientras estudiaba en la secundaria y en la universidad, la Organización Mundial de la Salud. Él ha
estado con Google desde 1999, como empleado 25ish, y ha tenido una mano en los sistemas de
software básicos debajo de casi cada empresa significativa desde entonces. Un artefacto amado de
la cultura de la empresa es Jeff Dean Facts, escrito en el estilo de Chuck Norris Facts meme: "El PIN
de Jeff Dean es los últimos cuatro dígitos de pi." "Cuando Alexander Graham Bell inventó el
teléfono, vio una llamada perdida de Jeff Dean "." Jeff Dean fue ascendido al nivel 11 en un
sistema donde el nivel máximo es 10. "(Este último es, de hecho, cierto.)

Un día a principios de 2011, Dean entró en una de las "microquinas" del campus de Google -la
palabra "Googley" para los espacios de descanso compartidos en la mayoría de los pisos de los
edificios del complejo Mountain View- y se encontró con Andrew Ng, un joven informático de
Stanford Profesor que trabajaba para la empresa como consultor. Ng le contó sobre el Proyecto
Marvin, un esfuerzo interno (que lleva el nombre del célebre pionero de la inteligencia armada
Marvin Minsky) que recientemente había ayudado a establecer para experimentar con "redes
neuronales", redes flexibles basadas en la arquitectura del cerebro. Dean mismo había trabajado
en una versión primitiva de la tecnología como un estudiante en la Universidad de Minnesota en
1990, durante una de las breves ventanas del método de la aceptabilidad principal. Ahora, en los
últimos cinco años, el número de académicos que trabajan en redes neuronales había comenzado
a crecer de nuevo, de un puñado a unas pocas docenas. Ng le dijo a Dean que Project Marvin, que
estaba siendo firmado por el secreto laboratorio X de Google, ya había logrado algunos resultados
prometedores.

Dean estaba intrigado lo suficiente como para prestar su "20 por ciento" - la porción de horas de
trabajo de cada empleado de Google se espera que contribuya a los programas fuera de su trabajo
principal - para el proyecto. Muy pronto, le sugirió a Ng que trajeran a otro colega con un fondo de
neurociencia, Greg Corrado. (En la escuela de posgrado, Corrado fue enseñado brevemente sobre
la tecnología, pero estrictamente como una curiosidad histórica. "Fue bueno que estaba prestando
atención en clase ese día", me bromeó.) A finales de primavera trajeron uno de los mejores de Ng
Estudiantes de posgrado, Quoc Le, como primer pasante del proyecto. Para entonces, un número
de los ingenieros de Google había tomado para referirse al Proyecto Marvin por otro nombre:
Google Brain.

Desde que el término "inteligencia artificial" fue acuñado por primera vez, en una especie de
convención constitucional de la mente en Dartmouth en el verano de 1956, la mayoría de los
investigadores han pensado que el mejor enfoque para crear AI sería escribir un muy grande,
Programa que establecía tanto las reglas del razonamiento lógico como el conocimiento suficiente
del mundo. Si quisieras traducir del inglés al japonés, por ejemplo, programarías en el ordenador
todas las reglas gramaticales del inglés y luego la totalidad de las definiciones contenidas en el
Oxford English Dictionary y luego todas las reglas gramaticales del japonés, Así como todas las
palabras del diccionario japonés, y sólo después de todo eso se le da una oración en un idioma de
origen y se le pide que tabule una oración correspondiente en el idioma de destino. Le daría a la
máquina un mapa de idiomas que era, como habría tenido Borges, el tamaño del territorio. Esta
perspectiva se denomina generalmente "AI simbólica" - porque su definición de la cognición se
basa en la lógica simbólica - o, despectivamente, "buena AI a la antigua"

Hay dos problemas principales con el enfoque pasado de moda. La primera es que lleva mucho
tiempo en el extremo humano. La segunda es que sólo funciona realmente en dominios donde las
reglas y definiciones son muy claras: en matemáticas, por ejemplo, o ajedrez. La traducción, sin
embargo, es un ejemplo de un campo donde este enfoque falla horriblemente, porque las
palabras no se pueden reducir a sus definiciones de diccionario, y porque las lenguas tienden a
tener tantas excepciones como ellas tienen reglas. A menudo, para las matemáticas y el ajedrez
funcionó grandemente, y los defensores de la AI simbólica dieron por sentado que ninguna
actividad señalaba " Inteligencia general "mejor que las matemáticas y el ajedrez.
Sin embargo, había límites a lo que este sistema podría hacer. En la década de 1980, un
investigador de robótica en Carnegie Mellon señaló que era fácil conseguir que las computadoras
hicieran cosas adultas, pero casi imposible hacerlas hacer cosas que un niño de 1 año podía hacer,
como agarrar una pelota o identificar un gato. En los años 90, a pesar de castigar los avances en el
ajedrez de la computadora, todavía no estábamos cerca de la inteligencia artificial general.

Siempre ha habido otra visión para AI - una opinión disidente - en la cual las computadoras
aprenderían de la base (de datos) en lugar de hacerlo de arriba abajo (de reglas). Esta noción data
de principios de la década de 1940, cuando se dio a entender a los investigadores que el mejor
modelo para la inteligencia automatizada y flexible era el propio cerebro. Un cerebro, después de
todo, es sólo un puñado de aparatos, llamados neuronas, que pasan a lo largo de una carga
eléctrica a sus vecinos o no. Lo importante son menos las neuronas individuales que las múltiples
conexiones entre ellas. Esta estructura, en su sencillez, ha proporcionado al cerebro una gran
cantidad de ventajas adaptativas. El cerebro puede operar en circunstancias en las que la
información es pobre o falta; Puede soportar daños significativos sin pérdida total de control;
Puede almacenar una cantidad enorme de conocimiento de una manera muy eficiente; Puede
aislar patrones distintos pero conservar el desorden necesario para manejar la ambigüedad.

No había ninguna razón por la que no pudiera tratar de imitar esta estructura en forma
electrónica, y en 1943 se demostró que los arreglos de neuronas artificiales simples podían llevar a
cabo funciones lógicas básicas. También podrían, al menos en teoría, aprender la forma en que lo
hacemos. Con la experiencia de vida, dependiendo de los juicios y errores de una persona en
particular, las conexiones sinápticas entre pares de neuronas se hacen más fuertes o más débiles.
Una red neuronal artificial podría hacer algo similar, alterando gradualmente, sobre una base
guiada de prueba y error, las relaciones numéricas entre las neuronas artificiales. No necesitaría
ser preprogramado con reglas fijas. En cambio, se volvería a conectar para reflejar patrones en los
datos que absorbió.

Esta actitud hacia la inteligencia artificial era evolutiva más que creacionista. Si querías un
mecanismo flexible, querías uno que pudiera adaptarse a su entorno. Si quería algo que pudiera
adaptarse, no quería comenzar con el adoctrinamiento de las reglas del ajedrez. Usted quería
comenzar con habilidades muy básicas - percepción sensorial y control motor - con la esperanza
de que las habilidades avanzadas surgieran orgánicamente. Los seres humanos no aprenden a
entender el idioma memorizando diccionarios y libros de gramática, así que ¿por qué deberíamos
esperar que nuestras computadoras lo hagan?

Google Brain fue la primera institución comercial importante en invertir en las posibilidades que
encarnan esta forma de pensar sobre AI Dean, Corrado y Ng comenzaron su trabajo como un
experimento colaborativo a tiempo parcial, pero hicieron un progreso inmediato. Tomaron la
inspiración arquitectónica para sus modelos de los bosquejos teóricos recientes - así como las
ideas que habían estado en el estante desde los años 80 y los años 90 - y extrajeron las reservas
sin igual de la compañía de datos y de su infraestructura computacional masiva. Instruyeron a las
redes en enormes bancos de datos "etiquetados" - archivos de voz con transcripciones correctas,
por ejemplo - y los ordenadores mejoraron sus respuestas para adaptarse mejor a la realidad.

"La parte de la evolución en la que los animales desarrollaron ojos fue un gran desarrollo", me dijo
Dean un día, con la subestimación habitual. Estábamos sentados, como de costumbre, en una sala
de reuniones de pizarra, en la que había dibujado una cronología llena de gente y de su relación
con puntos de inflexión en la historia reciente de las redes neuronales. "Ahora las computadoras
tienen ojos. Podemos construirlas alrededor de las capacidades que ahora existen para entender
las fotos. Los robots se transformarán drásticamente. Podrán operar en un ambiente desconocido,
en problemas muy diferentes ". Estas capacidades que estaban construyendo pudieron haber
parecido primitivas, pero sus implicaciones eran profundas.

2. El improbable interno

En su primer año de existencia, los experimentos de Brain en el desarrollo de una máquina con el
talento de un niño de 1 año de edad, como dijo Dean, funcionaron con gran efecto. Su equipo de
reconocimiento de voz intercambió parte de su antiguo sistema por una red neuronal y encontró,
en casi un solo golpe, las mejoras de calidad que nadie había visto en 20 años. Las habilidades de
reconocimiento de objetos de su sistema mejoraron en un orden de magnitud. Esto no fue porque
el personal de Brain había generado un montón de nuevas ideas escandalosas en tan sólo un año.
Fue porque Google finalmente había dedicado los recursos - en las computadoras y, cada vez más,
en el personal - para rellenar esquemas que habían estado alrededor por mucho tiempo.

Una gran preponderancia de estas nociones existentes y descuidadas había sido propuesta o
refinada por un polígrafo inglés peripatético llamado Geoffrey Hinton. En el segundo año de
existencia de Brain, Hinton fue reclutado a Brain cuando Andrew Ng se fue. (Ng ahora lidera el
equipo de 1.300 personas en Baidu.) Hinton quiso dejar su puesto en la Universidad de Toronto
por sólo tres meses, por lo que por razones arcanas contractuales tuvo que ser contratado como
interno. En el entrenamiento interno, el líder de orientación diría algo así como "Escriba su LDAP" -
una entrada de usuario - y señalaría a un ayudante para preguntar, "¿Qué es un LDAP?" Todos los
elegantes de 25 años de edad que asisten, Sólo había conocido el aprendizaje profundo como la
condición sine qua non de la inteligencia artificial, rió: "¿Quién es ese viejo? ¿Por qué no lo
consigue?

"A la hora del almuerzo", dijo Hinton, "alguien en la cola gritó:" ¡Profesor Hinton! Tomé tu curso
¿Qué estás haciendo aquí?' Después de eso, todo estaba bien.
Unos meses más tarde, Hinton y dos de sus estudiantes demostraron ganancias verdaderamente
asombrosas en un gran concurso de reconocimiento de imágenes, dirigido por un colectivo de
código abierto llamado ImageNet, que pide a los ordenadores no sólo identificar un mono sino
también distinguir entre los monos araña y Monos aulladores, y entre Dios sabe cuántas diferentes
razas de gato. Google pronto se acercó a Hinton y sus estudiantes con una oferta. Ellos aceptaron.
"Pensé que estaban interesados en nuestro IP", dijo. Resulta que estaban interesados en nosotros.

Hinton proviene de una de esas viejas familias británicas con los ángulos excéntricos en todo el
paisaje intelectual, donde, independientemente de la preocupación titular, se espera que una
persona haga aportaciones secundarias a problemas menores en astronomía o dinámica de
fluidos. Su tatarabuelo era George Boole, cuyo trabajo fundacional en la lógica simbólica subyace a
la computadora; Otro bisabuelo era un célebre cirujano, su padre un aventurero entomólogo, el
primo de su padre, un investigador de Los Alamos; la lista continua. Se entrenó en Cambridge y
Edimburgo, luego enseñó en Carnegie Mellon antes de terminar en Toronto, donde todavía pasa la
mitad de su tiempo. (Su trabajo ha sido apoyado por la generosidad del gobierno canadiense.) Le
visité en su oficina en Google allí. Él ha revuelto el pelo de peltre amarillento peinado hacia
adelante en un estilo maduro de Noel Gallagher y llevaba una camisa de vestir a rayas ancha que
persistió en venir untucked, y anteojos ovales que se deslizó hasta la punta de una nariz
prominente. Habla con un ingenio de conducción, si es cínico, y dice cosas como, "Las
computadoras entenderán el sarcasmo antes que los estadounidenses".

Hinton había estado trabajando en redes neuronales desde sus días de pregrado en Cambridge a
finales de los años 1960, y es visto como el primogenitor intelectual del campo contemporáneo.
Durante la mayor parte de ese tiempo, cada vez que hablaba de aprendizaje mecánico, la gente lo
miraba como si estuviera hablando de las esferas de Ptolomeo o de las sanguijuelas con
sanguijuelas. Las redes neuronales fueron tomadas como una locura refutada, en gran parte sobre
la base de un proyecto exagerado: el Perceptron, una red neuronal artificial que Frank Rosenblatt,
un psicólogo de Cornell, se desarrolló a finales de los años cincuenta. El New York Times informó
que el patrocinador de la máquina, la Marina de los Estados Unidos, esperaba que "sería capaz de
caminar, hablar, ver, escribir, reproducirse y ser consciente de su existencia". Pasó
aproximadamente a ninguna de esas cosas . Marvin Minsky, el decano de la inteligencia artificial
en América, había trabajado en redes neuronales para su tesis de Princeton de 1954, pero desde
entonces se había cansado de las afirmaciones infladas que Rosenblatt -que era contemporáneo
en Bronx Science- hizo para el paradigma neural. Junto con un colega del MIT, Minsky publicó un
libro que probó que había problemas dolorosamente sencillos que el Perceptron nunca podría
resolver.

La crítica de Minsky al Perceptron se extendió sólo a redes de una "capa", es decir, una capa de
neuronas artificiales entre lo que se alimenta a la máquina y lo que se espera de ella -y más
adelante en la vida, expuso ideas muy similares al aprendizaje profundo contemporáneo. Pero
Hinton ya sabía en ese momento que tareas complejas podrían llevarse a cabo si tuvieras que
recurrir a múltiples capas. La descripción más simple de una red neuronal es que es una máquina
que hace clasificaciones o predicciones basadas en su capacidad de descubrir patrones en los
datos. Con una capa, usted podría encontrar solamente patrones simples; Con más de uno, podría
buscar patrones de patrones. Tomemos el caso del reconocimiento de la imagen, que tiende a
confiar en un artefacto llamado "red neuronal convolucional". (Estos fueron elaborados en un
documento seminal de 1998 cuyo autor principal, un francés llamado Yann LeCun, hizo su
investigación postdoctoral en Toronto bajo Hinton y Ahora dirige un gran esfuerzo de AI en
Facebook). La primera capa de la red aprende a identificar el tropo visual muy básico de un
"borde", que significa nada (un fuera de píxel) seguido de algo (un píxel) o viceversa. Cada capa
sucesiva de la red busca un patrón en la capa anterior. Un patrón de bordes puede ser un círculo o
un rectángulo. Un patrón de círculos o rectángulos podría ser una cara. Y así. Esto más o menos
paralelos a la forma en que la información se compone de manera cada vez más abstracta a
medida que viaja desde los fotorreceptores en la retina hacia atrás y hacia arriba a través de la
corteza visual. En cada paso conceptual, el detalle que no es inmediatamente relevante es
desechado. Si varios bordes y círculos se unen para hacer una cara, no le importa exactamente
dónde se encuentra la cara en el campo visual; Sólo te importa que sea una cara.

El problema con las redes neuronales multicapas, "profundas" fue que la parte de prueba y error
se complicó extraordinariamente. En una sola capa, es fácil. Imagina que estás jugando con un
niño. Dígale al niño: "Tome la pelota verde y colóquela en el Recuadro A." El niño recoge una bola
verde y la pone en el Recuadro B. Usted dice, "Intente de nuevo poner la bola verde en el
Recuadro A." Niño intenta Caja A. Bravo.

Ahora imagina que le dices al niño: "Toma una bola verde, pasa por la puerta marcada con 3 y
coloca la bola verde en la Caja A." El niño toma una pelota roja, pasa por la puerta marcada con 2 y
coloca la pelota roja en la Caja B. ¿Cómo empiezas a corregir al niño? Usted no puede repetir sus
instrucciones iniciales, porque el niño no sabe en qué punto se equivocó. En la vida real, podrías
comenzar sosteniendo la pelota roja y la bola verde y diciendo: "Pelota roja, bola verde". Todo el
punto del aprendizaje de máquina, sin embargo, es evitar ese tipo de tutoría explícita. Hinton y
algunos otros inventaron una solución (o mejor dicho, reinventaron una más antigua) a este
problema de error en capas, sobre el curso de detención de finales de los setenta y los ochenta, y
el interés entre los científicos informáticos en las redes neuronales se revivió brevemente. "La
gente se entusiasmó mucho por ello", dijo. Los científicos informáticos volvieron rápidamente a
pensar que la gente como Hinton era rara y mística.

Sin embargo, estas ideas seguían siendo populares entre los filósofos y los psicólogos, que lo
llamaban "conexionismo" o "procesamiento distribuido en paralelo". "Esta idea," me dijo Hinton,
"de algunas personas que mantienen encendida una antorcha, es un mito bonito. Era cierto dentro
de la inteligencia artificial. Pero dentro de la psicología muchas personas creían en el enfoque,
pero simplemente no podían hacerlo. "Ni Hinton podía, a pesar de la generosidad del gobierno
canadiense. "Simplemente no había suficiente potencia de la computadora o suficientes datos. La
gente de nuestro lado seguía diciendo: 'Sí, pero si tuviera una muy grande, funcionaría'. No fue un
argumento muy persuasivo ".

3. Una profunda explicación del aprendizaje profundo

Cuando Pichai dijo que Google sería en lo sucesivo "AI primero", no sólo estaba haciendo una
reclamación sobre la estrategia de negocios de su empresa; Él estaba lanzando el lote de su
compañía con esta idea larga e imposible. La asignación de recursos de Pichai aseguró que
personas como Dean pudieran asegurarse de que personas como Hinton tendrían, al fin,
suficientes computadoras y datos suficientes para hacer un argumento persuasivo. Un cerebro
promedio tiene algo del orden de 100 mil millones de neuronas. Cada neurona está conectada a
hasta 10.000 neuronas, lo que significa que el número de sinapsis está entre 100 billones y 1.000
billones. Para una simple red neuronal artificial del tipo propuesto en los años cuarenta, el intento
de incluso intentar replicar esto era inimaginable. Todavía estamos lejos de la construcción de una
red de ese tamaño, pero la inversión de Google Brain permitió la creación de redes neuronales
artificiales comparables a los cerebros de ratones.

Para entender por qué la escala es tan importante, sin embargo, usted tiene que comenzar a
entender algunos de los detalles más técnicos de lo que, exactamente, las inteligencias de la
máquina están haciendo con los datos que consumen. Muchos de nuestros miedos ambientales
sobre AI descansan en la idea de que están aspirando el conocimiento como un prodigio sociópata
en una biblioteca y que una inteligencia artificial construida para hacer clips de papel algún día
podría decidir tratar a los humanos como hormigas o lechugas. Esto simplemente no es cómo
funcionan. Todo lo que están haciendo es arrastrar la información en busca de puntos en común-
patrones básicos, primero, y luego más complejos- y por el momento, al menos, el mayor peligro
es que la información que les estamos alimentando esté sesgada en primer lugar.

Si esta breve explicación parece suficientemente tranquilizadora, se invita al lector no técnico a


pasar a la siguiente sección, que trata de los gatos. Si no, entonces sigue leyendo. (Esta sección
también es, por suerte, acerca de los gatos.)

Imagínese que desea programar un cat-recognizer en el antiguo modelo simbólico-AI. Usted


permanece durante días precargando la máquina con una definición exhaustiva y explícita de
"gato". Usted le dice que un gato tiene cuatro patas y orejas puntiagudas y bigotes y una cola, y así
sucesivamente. Toda esta información se almacena en un lugar especial en la memoria llamado
Cat. Ahora muestra una imagen. En primer lugar, la máquina tiene que separar los distintos
elementos distintos de la imagen. Entonces tiene que tomar estos elementos y aplicar las reglas
almacenadas en su memoria. Si (piernas = 4) y si (orejas = puntiagudo) y si (bigotes = sí) y si (cola =
sí) y si (expresión = Pero, ¿qué pasaría si mostraste a este gato-reconocible un Scottish Fold, una
raza desgarradora con un preciado defecto genético que conduce a las dobladas orejas? Nuestra
AI simbólica llega a (orejas = puntiagudas) y sacude su cabeza solemnemente, "No gato." Es
hiperliteral, o "frágil". Incluso el niño más grueso muestra una agudeza inferencial mucho mayor.

Ahora imagine que en lugar de cablear la máquina con un conjunto de reglas para la clasificación
almacenada en una ubicación de la memoria del ordenador, intente lo mismo en una red
neuronal. No hay ningún lugar especial que pueda contener la definición de "gato". Sólo hay una
gigantesca cantidad de interruptores interconectados, como bifurcaciones en un camino. En un
lado de la burbuja, se presentan las entradas (las imágenes); En el otro lado, se presentan las
salidas correspondientes (las etiquetas). A continuación, simplemente dígale que se resuelva por sí
mismo, a través de la calibración individual de todos estos interruptores interconectados,
cualquier ruta que los datos deben tomar para que las entradas se asignen a las salidas correctas.
El entrenamiento es el proceso mediante el cual una serie laberíntica de túneles elaborados se
excavan a través de la gota, túneles que conectan cualquier entrada dada a su salida apropiada.
Cuantos más datos de entrenamiento tenga, mayor será el número y la complejidad de los túneles
que se pueden excavar. Una vez que el entrenamiento está completo, el centro de la gota tiene
suficientes túneles que puede hacer predicciones confiables sobre cómo manejar datos que nunca
ha visto antes. Esto se llama "aprendizaje supervisado".

La razón por la que la red requiere tantas neuronas y tantos datos es que funciona, en cierto
modo, como una especie de gigante máquina de la democracia. Imagine que desea entrenar una
computadora para diferenciar entre cinco elementos diferentes. Su red está formada por millones
y millones de "votantes" neuronales, cada uno de los cuales ha recibido cinco cartas diferentes:
una para el gato, otra para el perro, otra para el mono araña, una para la cuchara y otra para el
desfibrilador. Usted muestra a su electorado una foto y pregunta: "¿Es esto un gato, un perro, un
mono araña, una cuchara o un desfibrilador?" Todas las neuronas que votaron de la misma
manera se reúnen en grupos y el capataz de la red mira desde arriba y Identifica la clasificación
mayoritaria: "¿Un perro?"

Usted dice: "No, maestro, es un gato. Inténtalo de nuevo."

Ahora el capataz de la red se remonta a identificar qué votantes arrojaron su peso detrás de
"gato" y que no lo hicieron. Los que tienen "gato" derecho obtener sus votos contados doble la
próxima vez - al menos cuando están votando por "gato." Tienen que demostrar
independientemente si también son buenos en la selección de perros y desfibriladores, pero una
cosa que Hace que una red neuronal sea tan flexible que cada unidad individual puede contribuir
de manera diferente a los diferentes resultados deseados. Lo importante no es el voto individual,
exactamente, sino el patrón de votos. Si Joe, Frank y Mary votan juntos, es un perro; Pero si Joe,
Kate y Jessica votan juntos, es un gato; Y si Kate, Jessica y Frank votan juntos, es un desfibrilador.
La red neuronal sólo tiene que registrar suficiente de una señal regularmente discernible en algún
lugar para decir: "Las probabilidades son, este arreglo particular de píxeles representa algo que
estos humanos siguen llamando" gatos ". "Cuantos más" votantes "tengas, y cuanto más veces
hagas que voten, más intensamente la red puede registrar señales incluso muy débiles. Si solo
tienes a Joe, Frank y Mary, quizá puedas usarlos sólo para diferenciar entre un gato, un perro y un
desfibrilador. Si tiene millones de votantes diferentes que pueden asociarse en miles de millones
de maneras diferentes, puede aprender a clasificar los datos con granularidad increíble. Su
asamblea de votantes capacitados podrá ver una imagen sin etiquetar e identificarla con más o
menos precisión.

Parte de la razón por la que hubo tanta resistencia a estas ideas en los departamentos de
informática es que debido a que la salida es sólo una predicción basada en patrones de patrones,
no va a ser perfecta, y la máquina nunca será capaz de definir para usted Lo que, exactamente, es
un gato. Sólo los conoce cuando los ve. Este wooliness, sin embargo, es el punto. Los "votantes"
neuronales reconocerán a un gato feliz durmiendo al sol y un gato enfadado mirando hacia fuera
de las sombras de una caja de arena desordenada, siempre y cuando hayan estado expuestos a
millones de escenas de gato diversas. Sólo necesitas muchos y muchos votantes, para asegurarte
de que una parte de tu red se acumule en regularidades muy débiles, en Scottish Folds con orejas
caídas, por ejemplo, y suficientes datos etiquetados para asegurarte de que tu red ha visto La
variación más amplia posible de los fenómenos.

Sin embargo, es importante señalar que el hecho de que las redes neuronales sean de naturaleza
probabilística significa que no son adecuadas para todas las tareas. No es una gran tragedia si se
equivocan el 1 por ciento de los gatos como perros, o enviar a la película equivocada de vez en
cuando, pero en algo así como un auto-conducción coche que todos deseamos mayores garantías.
Esta no es la única advertencia. El aprendizaje supervisado es un proceso de prueba y error basado
en datos etiquetados. Las máquinas pueden estar haciendo el aprendizaje, pero sigue habiendo un
fuerte elemento humano en la categorización inicial de los insumos. Si sus datos tenían una foto
de un hombre y una mujer con trajes que alguien había etiquetado como "mujer con su jefe", esa
relación sería codificada en todo reconocimiento de patrones futuro. Los datos etiquetados son,
por tanto, falibles de la forma en que los etiquetadores humanos son falibles. Si a una máquina se
le pidió que identificara a candidatos solventes para préstamos, podría usar datos como
convicciones de delitos graves, pero si las condenas por delito grave eran injustas en primer lugar -
si se basaban en, digamos, leyes de drogas discriminatorias - Ser falible

Las redes de reconocimiento de imágenes como nuestro cat-identifier son sólo una de muchas
variedades de aprendizaje profundo, pero son invocadas desproporcionadamente como ejemplos
de enseñanza porque cada capa hace algo por lo menos vagamente reconocible para los seres
humanos - escogiendo los bordes primero, luego los círculos y luego las caras. Esto significa que
hay una salvaguarda contra el error. Por ejemplo, una rareza temprana en el software de
reconocimiento de imagen de Google significaba que no siempre podía identificar una barra
aisladamente, a pesar de que el equipo la había entrenado en un conjunto de imágenes que
incluía muchas categorías de ejercicios. Una herramienta de visualización les mostró que la
máquina había aprendido no el concepto de "mancuernas", sino el concepto de "mancuernas +
brazo", porque todas las pesas del conjunto de entrenamiento estaban unidas a los brazos. Tiraron
en la mezcla de entrenamiento algunas fotos de barbells solos. El problema fue resuelto. No todo
es tan fácil.

4. El papel del gato

A lo largo de su primer año o dos, los esfuerzos de Brain para cultivar en máquinas las habilidades
de un niño de 1 año fueron lo suficientemente auspiciosos como para que el equipo fuera
graduado del laboratorio X y dentro de la organización de investigación más amplia. (El jefe de
Google X señaló una vez que Brain había pagado la totalidad de los costos de X.) Todavía tenían
menos de 10 personas y sólo un vago sentido de lo que podría llegar en última instancia, de todo.
Pero incluso entonces pensaban en lo que debía suceder después. Primero una mente humana
aprende a reconocer una pelota y descansa fácilmente con la realización por un momento, pero
tarde o temprano, quiere pedir la pelota. Y luego vadea en el lenguaje.

El primer paso en esa dirección fue el papel de gato, que hizo famoso a Brain.

Lo que el papel del gato demostró fue que una red neuronal con más de mil millones de
conexiones "sinápticas" - cien veces más grande que cualquier red neuronal publicitada hasta ese
punto, pero todavía muchos órdenes de magnitud más pequeña que nuestro cerebro - podía
observar datos crudos y no etiquetados Y elegir por sí mismo un concepto humano de alto orden.
Los investigadores del Cerebro habían mostrado a la red millones de imágenes fijas de los vídeos
de YouTube y, de la confusión del sensorismo puro, la red había aislado un patrón estable que
cualquier niño o ardilla reconocería sin dudarlo como la cara de un gato. La máquina no había sido
programada con el presciencia de un gato; Llegó directamente al mundo y tomó la idea por sí
misma. (Los investigadores descubrieron esto con el equivalente en redes neuronales de algo
como una resonancia magnética, que les mostró que una cara de gato fantasmal causó que las
neuronas artificiales "votaran" con el mayor entusiasmo colectivo.) La mayoría del aprendizaje
mecánico hasta ese punto había sido limitado por Las cantidades de datos etiquetados. El papel
del gato mostró que las máquinas también podrían tratar con datos crudos no etiquetados, quizás
incluso datos de los cuales los humanos no tenían conocimiento previo establecido. Esto parecía
un gran avance no sólo en los estudios de reconocimiento de gatos sino también en la inteligencia
artificial general.

El autor principal en el papel del gato era Quoc Le. Le es corto y cariñoso y de voz suave, con una
sonrisa rápida y enigmática y mocasines negros brillantes. Él creció fuera de Hue, Vietnam. Sus
padres eran granjeros del arroz, y él no tenía electricidad en el país. Sus habilidades matemáticas
eran obvias desde temprana edad, y fue enviado a estudiar en una escuela magnética para la
ciencia. A finales de los años noventa, mientras todavía estaba en la escuela, trató de construir un
chatbot con el que hablar. Pensó: ¿Cuán difícil podría ser esto?

"Pero en realidad," me dijo en un murmullo inexpresivo, "es muy difícil".

Dejó los arrozales en una beca a una universidad en Canberra, Australia, donde trabajó en tareas
de IA como la visión por computadora. El método dominante de la época, que implicaba alimentar
las definiciones de la máquina para cosas como bordes, le pareció como hacer trampa. Le no sabía
entonces, o sabía apenas vaga, que había por lo menos unas pocas docenas de científicos de
computación en otras partes del mundo que no podían evitar imaginarse, como él, que las
máquinas podían aprender desde cero. En 2006, Le tomó una posición en el instituto de Max
Planck para la cibernética biológica en la ciudad alemana medieval de la universidad de Tübingen.
En un grupo de lectura allí, encontró dos nuevos papeles de Geoffrey Hinton. Las personas que
entraron en la disciplina durante la larga diáspora tienen historias de conversión, y cuando Le leyó
esos papeles, sintió que las escamas se le caían de los ojos.

"Hubo un gran debate", me dijo. "Un debate muy grande". Estábamos en una pequeña sala de
conferencias interior, un espacio estrecho y de techo alto equipado con sólo una mesa pequeña y
dos pizarras blancas. Miró a la curva que había dibujado en la pizarra detrás de él y de nuevo, y
luego confesó suavemente: -Nunca he visto un debate tan grande.

Recuerda que se puso de pie ante el grupo de lectura y dijo: "Este es el futuro". Fue, dijo, una
"decisión impopular en ese momento". Un ex asesor de Australia, con quien se había mantenido
cerca, Entender la decisión de Le. "¿Por qué estás haciendo esto?" Le preguntó Le en un correo
electrónico.

"No tenía una buena respuesta en ese entonces", dijo Le. "Sólo tenía curiosidad. Había un
paradigma exitoso, pero para ser honesto sólo tenía curiosidad por el nuevo paradigma. En 2006,
hubo muy poca actividad. "Fue a unirse a Ng en Stanford y comenzó a perseguir las ideas de
Hinton. "A finales de 2010, estaba bastante convencido de que algo iba a suceder."

Lo que sucedió, poco después, fue que Le fue a Brain como su primer pasante, donde continuó con
su trabajo de disertación - una extensión de la que finalmente se convirtió en el papel de gato. En
un nivel simple, Le quería ver si la computadora podía ser entrenada para identificar por sí misma
la información que era absolutamente esencial para una imagen dada. Alimentó la red neuronal
que aún había tomado de YouTube. A continuación, le dijo a la red neuronal que tirara parte de la
información contenida en la imagen, aunque no especificó qué debería o no debe tirar. La
máquina tiró parte de la información, inicialmente al azar. Luego dijo: "¡Sólo bromeo! Ahora
vuelve a crear la imagen inicial que se te mostró basándose sólo en la información que
conservaste ". Era como si estuviera pidiendo a la máquina que encontrara una forma de" resumir
"la imagen y, a continuación, expandir de nuevo al original del resumen. Si el resumen se basaba
en datos irrelevantes -como el color del cielo en lugar de la presencia de bigotes- la máquina no
podía realizar una reconstrucción competente. Su reacción sería similar a la de un antepasado
lejano que, tras su breve exposición a los tigres de dientes de sable, se desprendió de que hicieron
un sonido relajante cuando se movieron. La red neuronal de Le, a diferencia de ese antepasado,
tuvo que intentar de nuevo, y una y otra vez y otra vez. Cada vez que matemáticamente "eligió"
para dar prioridad a diferentes piezas de información y realizada de forma incremental mejor. Una
red neuronal, sin embargo, era una caja negra. Adivinaba patrones, pero los patrones que
identificaba no siempre hacían sentido intuitivo a un observador humano. La misma red que
afectó a nuestro concepto de gato también se entusiasmó con un patrón que parecía una especie
de compuesto de muebles y animales, como un cruce entre una otomana y una cabra.

Le no se veía a sí mismo en esos años de gato embriagador como un chico de la lengua, pero
sentía un impulso de conectar los puntos a su chatbot temprano. Después de que el papel de gato,
se dio cuenta de que si usted podría pedir a una red para resumir una foto, tal vez también podría
pedir que para resumir una frase. Este problema preocupó a Le, junto con un colega de Brain
llamado Tomas Mikolov, durante los próximos dos años.

En ese tiempo, el equipo de Brain superó varias oficinas a su alrededor. Durante un tiempo
estuvieron en un piso que compartieron con ejecutivos. Recibieron un correo electrónico en un
momento del administrador pidiéndoles que dejaran de permitir que la gente durmiera en el sofá
frente a Larry Page y la suite de Sergey Brin. Se desató a los VIPs entrantes. A ellos se les asignó
parte de un edificio de investigación al otro lado de la calle, donde sus intercambios en la
micrococina no se desperdiciaron en charla cortés con los trajes. Ese interino también vio intentos
dedicados por parte de los competidores de Google de ponerse al día. (Cuando Le me habló de su
estrecha colaboración con Tomas Mikolov, repetía el nombre de Mikolov una y otra vez, de una
manera incan- tante que sonaba muy conmovedora, Le nunca había parecido tan solemne, por fin
no pude evitarlo y empecé a preguntar: ¿Está ...? "Le asintió con la cabeza." En Facebook,
"respondió.)

Ellos pasaron este período tratando de crear arquitecturas de redes neuronales que pudieran
acomodar no sólo simples clasificaciones de fotos, que eran estáticas, sino también estructuras
complejas que se desarrollaban con el tiempo, como el lenguaje o la música. Muchas de ellas se
propusieron por primera vez en los años noventa, y Le y sus colegas volvieron a esas
contribuciones desde hacía mucho tiempo ignoradas para ver qué podían recoger. Sabían que una
vez que usted estableció una facilidad con la predicción lingüística básica, usted podría entonces
pasar a hacer todas las clases de otras cosas inteligentes - como predecir una respuesta
conveniente a un email, por ejemplo, o predecir el flujo de una conversación sensata. Podrías
acercarte al tipo de proezas que, al menos desde el exterior, se parecen mucho a pensar.
Parte II: Máquina de lenguaje

5. El giro lingüístico

La centena de miembros actuales de Cerebro - a menudo se siente menos como un departamento


dentro de una jerarquía corporativa colosal de lo que hace un club o una sociedad escolar o una
cantina intergaláctica - llegó en los años intermedios para contar entre los empleados más libres y
más admirados En toda la organización de Google. Ahora están acantonadas en un edificio de dos
pisos con cáscaras de huevo, con grandes ventanales tintados de un amenazante gris carbón, en la
frondosa franja noroeste del principal campus de Mountain View de la compañía. Su microkitchen
tiene una mesa de futbolín que nunca vi utilizado; Una configuración de Rock Band que nunca vi
usada; Y un kit de Go que vi utilizado en algunas ocasiones. (Una vez vi a un joven investigador de
Cerebro presentando a sus colegas a la fruta madura, tallando el enorme orbe espigado como un
pavo.)

Cuando empecé a pasar el tiempo en las oficinas de Brain, en junio, había algunas filas de
escritorios vacíos, pero la mayoría de ellos estaban etiquetados con Post-it notas que decían cosas
como "Jesse, 6 / 27." Ahora todos están ocupados. Cuando visité por primera vez, el aparcamiento
no era un problema. Los espacios más cercanos eran los reservados para las mujeres embarazadas
o Teslas, pero había mucho espacio en el resto del lote. En octubre, si me presenté después de las
9:30, tuve que encontrar un lugar al otro lado de la calle.

El crecimiento del cerebro hizo a Dean ligeramente nervioso sobre cómo la compañía iba a
manejar la demanda. Quería evitar lo que en Google se conoce como un "desastre de éxito" - una
situación en la que las capacidades de la compañía en teoría superó su capacidad de implementar
un producto en la práctica. En un cierto punto él hizo algunos cálculos de la parte posterior-del-
sobre, que él presentó a los ejecutivos un día en una presentación two-slide.

"Si cada uno en el futuro habla con su teléfono Android durante tres minutos al día", les dijo,
"estas son las máquinas que necesitamos". Tendrían que duplicar o triplicar su huella
computacional global.

"Eso", observó con un pequeño trago teatral y los ojos ensanchados, "sonó aterrador. Tendrías
que ... -hablaba imaginar las consecuencias- construir edificios nuevos.
Hubo, sin embargo, otra opción: simplemente diseñar, producir masivamente e instalar en centros
de datos dispersos un nuevo tipo de chip para hacer todo más rápido. Estos chips se llaman TPU, o
"unidades de procesamiento de tensor", y su propuesta de valor - contraria a la intuición - es que
son deliberadamente menos preciso que los chips normales. En vez de calcular 12.246 veces
54.392, darán la respuesta superficial a 12 veces 54. A nivel matemático, en lugar de metafórico,
una red neuronal es sólo una serie estructurada de cientos o miles o decenas de miles de
multiplicaciones matriciales llevadas En sucesión, y es mucho más importante que estos procesos
sean rápidos que sean exactos. "Normalmente," dijo Dean, "el hardware de propósito especial es
una mala idea. Por lo general, trabaja para acelerar una cosa. Pero debido a la generalidad de las
redes neuronales, puede aprovechar este hardware de propósito especial para muchas otras cosas
".

Al igual que el proceso de diseño de chips estaba casi completo, Le y dos colegas finalmente
demostraron que las redes neuronales podrían configurarse para manejar la estructura del
lenguaje. Se basó en una idea, llamada "palabra embeddings", que había existido por más de 10
años. Al resumir las imágenes, se puede divinar una imagen de lo que cada etapa del resumen se
ve - un borde, un círculo, etc Cuando se resume el lenguaje de una manera similar, que
esencialmente producir mapas multidimensionales de las distancias, sobre la base de uso común ,
Entre una palabra y cada otra palabra en el idioma. La máquina no está "analizando" los datos de
la manera que podríamos, con reglas lingüísticas que identifican a algunos de ellos como
sustantivos y otros como verbos. En cambio, está cambiando y torciendo y deformando las
palabras en el mapa. En dos dimensiones, no puede hacer este mapa útil. Usted quiere, por
ejemplo, "gato" estar cerca de "perro", pero también quiere que "gato" esté cerca de "cola" y
cerca de "supercilioso" y cerca de "meme", porque quiere intentar Capturar todas las diferentes
relaciones - tanto fuertes como débiles - que la palabra "gato" tiene con otras palabras. Puede
relacionarse con todas estas otras palabras simultáneamente sólo si está relacionada con cada una
de ellas en una dimensión diferente. No se puede hacer fácilmente un mapa a 160.000, pero
resulta que se puede representar un lenguaje bastante bien en un millón de dimensiones, es decir,
un universo en el que cada palabra está designada por una lista de mil números . Le me dio un
buen rato para mis continuas solicitudes de una imagen mental de estos mapas. "Gideon", diría,
con la contundente y regularidad de Bartleby, "en general no me gusta tratar de visualizar
vectores mil-dimensionales en el espacio tridimensional".

Sin embargo, ciertas dimensiones en el espacio, resultó, parecían representar categorías humanas
legibles, como el género o el tamaño relativo. Si tomaste los mil números que significaban "rey" y,
literalmente, sólo restaba los miles de números que significaban "reina", obtuviste el mismo
resultado numérico como si hubieras substraído los números de "mujer" de los números de
"hombre". Usted tomó todo el espacio de la lengua inglesa y todo el espacio del francés, podría, al
menos en teoría, formar una red para aprender a tomar una oración en un espacio y proponer un
equivalente en el otro. Usted sólo tenía que darle millones y millones de frases en inglés como
entradas de un lado y sus salidas francesas deseadas en el otro, y con el tiempo reconocería los
patrones relevantes en palabras de la misma manera que un clasificador de imágenes reconoció
los patrones relevantes en píxeles. Podría entonces darle una oración en inglés y pedirle que
predija el mejor análogo francés.

La principal diferencia entre palabras y píxeles, sin embargo, es que todos los píxeles de una
imagen están allí al mismo tiempo, mientras que las palabras aparecen en una progresión en el
tiempo. Necesitabas un camino para que la red tuviera "en cuenta" la progresión de una secuencia
cronológica: el camino completo desde la primera palabra hasta la última. En un período de
alrededor de una semana, en septiembre de 2014, se publicaron tres artículos, uno de Le y otros
dos de académicos de Canadá y Alemania, que finalmente proporcionó todas las herramientas
teóricas necesarias para hacer este tipo de cosas. Esa investigación permitió proyectos abiertos
como Brain's Magenta, una investigación sobre cómo las máquinas podrían generar arte y música.
También despejó el camino hacia una tarea instrumental como la traducción automática. Hinton
me dijo que pensaba en ese momento que este trabajo de seguimiento llevaría al menos cinco
años más.

6. La emboscada

El trabajo de Le mostró que la traducción neural era plausible, pero sólo había usado un conjunto
de datos públicos relativamente pequeño. (Pequeño para Google, es decir, era el mayor conjunto
de datos públicos del mundo.) Una década del antiguo Translate había reunido datos de
producción que estaban entre cien y mil veces más grandes.) Más importante, el modelo de Le no
Funcionan muy bien para frases de más de siete palabras.

Mike Schuster, que era entonces un científico de la investigación del personal en el cerebro, cogió
el bastón. Él sabía que si Google no encontró una manera de escalar estos conocimientos teóricos
hasta un nivel de producción, alguien lo haría. El proyecto le llevó los próximos dos años. "Usted
piensa", dice Schuster, "para traducir algo, usted acaba de obtener los datos, ejecutar los
experimentos y está listo, pero no funciona así".

Schuster es un ser tenso, centrado, sin edad, con una cabeza bronceada, con forma de pistón,
hombros estrechos, pantalones cortos largos de camuflaje atados bajo la rodilla y Nike Flyknits de
neón verde. Parece que se despertó en la posición de loto, buscó sus pequeños vasos elípticos sin
rim, aceptó calorías en forma de una modesta porción de bellota preservada y completó un
decatlón relajado en el camino hacia la oficina; En realidad, me dijo, es sólo un paseo en bicicleta
de 18 millas en cada dirección. Schuster creció en Duisburg, en el antiguo distrito de alto horno de
Alemania Occidental, y estudió ingeniería eléctrica antes de trasladarse a Kioto para trabajar en las
primeras redes neuronales. En la década de 1990, realizó experimentos con una máquina de redes
neuronales tan grande como una sala de conferencias; Costó millones de dólares y tuvo que ser
entrenado durante semanas para hacer algo que ahora podría hacer en su escritorio en menos de
una hora. Publicó un artículo en 1997 que apenas fue citado durante una década y media; Este año
se ha citado alrededor de 150 veces. Él no es sin humor, pero a menudo lleva una expresión de
cierta aspereza, que tomé como su combinación de firma de restricción alemana y la moderación
japonesa.

Los asuntos con los que Schuster tenía que lidiar estaban enredados. Por un lado, el código de Le
estaba escrito a medida, y no era compatible con la nueva plataforma de aprendizaje de código
abierto que Google estaba desarrollando, TensorFlow. Dean dirigió a Schuster otros dos
ingenieros, Yonghui Wu y Zhifeng Chen, en el otoño de 2015. Le tomó dos meses sólo para replicar
los resultados de Le en el nuevo sistema. Le estaba alrededor, pero incluso él no podía siempre
hacer cabezas o colas de lo que habían hecho.

Como dijo Schuster: "Algunas de las cosas no se hicieron en plena conciencia. No sabían por qué
trabajaban.

En febrero, la organización de investigación de Google - la división de la compañía,


aproximadamente mil empleados en total, dedicada a los adelantados y los inclasificables -
convocó a sus clientes potenciales en un retiro fuera de sitio en el Westin St. Francis, en Union
Square, Hotel de lujo ligeramente menos espléndido que el propio San Francisco de Google tienda
una milla o así al este. La mañana estaba reservada para rondas de "conversaciones relámpago",
actualizaciones rápidas para cubrir el frente de investigación, y la tarde estaba inactiva en
"discusiones facilitadas" interdepartamentales. La esperanza era que el retiro pudiera
proporcionar una ocasión para lo impredecible, oblicuo , Bell Labs-ish intercambios que mantuvo
una empresa madura prolífico.

A la hora del almuerzo, Corrado y Dean se emparejaron en busca de Macduff Hughes, director de
Google Translate. Hughes estaba comiendo solo, y los dos miembros del Cerebro tomaron
posiciones a ambos lados. Como dijo Corrado: "Lo hemos emboscado".

"Está bien," Corrado dijo a Hughes cauteloso, conteniendo su respiración para efecto. Tenemos
algo que decirte.

Le dijeron a Hughes que 2016 parecía un buen momento para considerar una revisión de Google
Translate - el código de cientos de ingenieros en 10 años - con una red neuronal. El viejo sistema
funcionó de la manera que toda la traducción automática ha trabajado por cerca de 30 años:
Secuestró cada fragmento sucesivo de la frase, miró para arriba esas palabras en una tabla extensa
derivada estadísticamente del vocabulario, después aplicó una batería de reglas de
postprocesamiento para fijar terminaciones apropiadas y reorganizar Todo tiene sentido. El
enfoque se denomina "traducción automática estadística basada en frases", porque en el
momento en que el sistema llega a la siguiente frase, no sabe cuál fue la última. Esta es la razón
por la que la producción de Translate a veces parecía una bolsa sacudida de imanes de nevera. El
reemplazo del cerebro, si se uniera, leería y renderizaría frases completas en un borrador.
Capturaría el contexto - y algo similar al significado.

Las apuestas pueden haber parecido bajas: Traducción genera ingresos mínimos, y probablemente
lo hará siempre. Para la mayoría de los usuarios anglófonos, incluso una mejora radical en el
desempeño del servicio difícilmente sería aclamada como algo más que un aumento incremental
esperado. Pero hay un caso que se debe hacer que la traducción automática de calidad humana no
es sólo una necesidad a corto plazo, sino también un desarrollo muy probable que, a largo plazo,
resulte transformador. En el futuro inmediato, es vital para la estrategia empresarial de la
empresa. Google estima que el 50 por ciento de Internet es en inglés, lo que quizás 20 por ciento
de la población mundial habla. Si Google fuera a competir en China - donde la mayoría de la cuota
de mercado en el tráfico de motores de búsqueda pertenecía a su competidor Baidu - o la India, la
traducción automática decente sería una parte indispensable de la infraestructura. Baidu mismo
había publicado un documento sobre la posibilidad de la traducción automática neural en julio de
2015.

"Crees que para traducir algo, sólo tienes que obtener los datos, ejecutar los experimentos y ya
está, pero no funciona así".

Y en el futuro especulativo más lejano, la traducción automática fue tal vez el primer paso hacia
una facilidad computacional general con lenguaje humano. Esto representaría un punto de
inflexión importante - tal vez el punto de inflexión más importante - en el desarrollo de algo que se
sentía como verdadera inteligencia artificial.

La mayoría de las personas en Silicon Valley estaban conscientes de que el aprendizaje automático
era un horizonte de rápido acercamiento, por lo que Hughes había visto venir esta emboscada. Se
mantuvo escéptico. Hughes es un ingeniero de línea clásico, un tipo de artesano que no estaría
fuera de lugar en una mesa de dibujo de los años 70 de Boeing. Sus bolsillos de jeans a menudo se
ven cargados de curiosas herramientas de dimensión desgarbada, como si estuviera portando
alrededor de cintas métricas o termopares, ya diferencia de muchos de los más jóvenes que
trabajan para él, tiene un armario sin importancia en el equipo de la empresa. Él sabía que varias
personas en varios lugares de Google y en otros lugares habían estado tratando de hacer el
trabajo de traducción neural - no en un laboratorio, sino a escala de producción - durante años, a
poco.

Hughes escuchó su caso y, al final, dijo con cautela que le sonaba como si tal vez podrían hacerlo
en tres años.
Dean pensó lo contrario. "Podemos hacerlo para el final del año, si nos ponemos nuestras mentes
a él." Una razón que la gente gustaba y admiraba Dean tanto era que él tenía un expediente largo
de con éxito poner su mente a ella. Otra era que no estaba en absoluto avergonzado de decir
cosas sinceras como "si ponemos nuestras mentes en ello".

Hughes estaba seguro de que la conversión no iba a suceder en el corto plazo, pero no se
preocupaba personalmente de ser la razón. "Vamos a prepararnos para 2016", regresó y se lo dijo
a su equipo. "No voy a ser el que diga que Jeff Dean no puede dar velocidad".

Un mes más tarde, finalmente fueron capaces de ejecutar un experimento lado a lado para
comparar el nuevo sistema de Schuster con el antiguo de Hughes. Schuster quería dirigirla para el
inglés-francés, pero Hughes le aconsejó que probara algo más. "El inglés-francés", dijo, "es tan
bueno que la mejora no será obvia".

Fue un desafío al que Schuster no pudo resistir. La métrica de referencia para evaluar la traducción
automática se denomina puntuación BLEU, que compara una traducción automática con un
promedio de muchas traducciones humanas confiables. En ese momento, las mejores
puntuaciones de BLEU para Inglés-Francés estaban en los 20 puntos. Una mejora de un punto se
consideró muy buena; Una mejora de dos fue considerada excepcional.

El sistema neural, en el par inglés-francés, mostró una mejora sobre el antiguo sistema de siete
puntos.

Hughes dijo al equipo de Schuster que no habían tenido ni la mitad de una mejora tan fuerte en su
propio sistema en los últimos cuatro años.

Para asegurarse de que no se trataba de una casualidad en la métrica, también se dirigieron a su


grupo de contratistas humanos para hacer una comparación lado a lado. Las puntuaciones de
percepción del usuario, en las que las frases de muestra se clasificaron de cero a seis, mostraron
una mejora media de 0,4 - aproximadamente equivalente a las ganancias agregadas del sistema
antiguo durante toda su vida de desarrollo.

7. La teoría se convierte en producto


Hasta entonces, el equipo de traducción neural había sido sólo de tres personas - Schuster, Wu y
Chen - pero con el apoyo de Hughes, el equipo más amplio comenzó a unirse. Se reunieron bajo el
mando de Schuster los miércoles a las 2 pm en una habitación de esquina del edificio del Cerebro
llamado Lago Cuarzo. La reunión fue generalmente atendida por un elenco rotatorio de más de
una docena de personas. Cuando Hughes o Corrado estaban allí, solían ser los únicos nativos de
habla inglesa. Los ingenieros hablaban chino, vietnamita, polaco, ruso, árabe, alemán y japonés,
aunque hablaban en su propio pidgin eficiente y en matemáticas. No siempre está totalmente
claro, en Google, quién está dirigiendo una reunión, pero en el caso de Schuster no había
ambigüedad.

Los pasos que necesitaban tomar, incluso entonces, no estaban del todo claros. "Esta historia es
mucho acerca de la incertidumbre - la incertidumbre a lo largo de todo el proceso", me dijo
Schuster en un momento dado. "El software, los datos, el hardware, la gente. Era como ...
-extendió sus largos y gráciles brazos, ligeramente doblados a los codos, desde sus estrechos
hombros-, nadando en un gran mar de barro, y sólo se puede ver hasta aquí. Frente a su pecho.
"Hay un objetivo en algún lugar, y tal vez está ahí."

La mayoría de las salas de conferencias de Google cuentan con monitores de videochat, los cuales,
cuando están inactivos, visualizan imágenes publicadas en Google+ de muy alta resolución sobre
las imágenes públicas de un paisaje de sueños silvestres o las auroras boreales o el Reichstag.
Schuster hizo un gesto hacia uno de los paneles, que mostraban un cristalino todavía del
Monumento a Washington por la noche.

"La vista desde fuera es que cada uno tiene binoculares y puede ver adelante hasta ahora".

El trabajo teórico para llegar a este punto ya había sido minucioso y prolongado, pero el intento de
convertirlo en un producto viable -la parte que los científicos académicos podrían descartar como
"mera" ingeniería- no fue menos difícil. Para empezar, necesitaban asegurarse de que estaban
entrenando en buenos datos. Los miles de millones de palabras de Google de entrenamiento de
"lectura" se componían en su mayoría de oraciones completas de moderada complejidad, como el
tipo de cosas que podría encontrar en Hemingway. Parte de esto está en el dominio público: La
piedra original de Rosetta de la traducción automática estadística era millones de páginas de los
expedientes bilingües completos del parlamento canadiense. Gran parte de ella, sin embargo, fue
eliminada de 10 años de datos recolectados, incluyendo traducciones humanas que fueron
crowdsourced de entusiastas entusiastas. El equipo tenía en su almacén cerca de 97 millones de
"palabras" únicas en inglés. Pero una vez que eliminaron los emoticones, y los errores ortográficos,
y las redundancias, tenían un vocabulario de trabajo de sólo alrededor de 160.000.
Entonces tuvieron que reenfocar en lo que los usuarios realmente querían traducir, que con
frecuencia tenía muy poco que ver con el lenguaje razonable como se emplea. Muchas personas,
encontró Google, no buscan al servicio traducir frases completas y complejas; Traducen extraños
fragmentos de lenguaje. Si quería que la red pudiera manejar el flujo de consultas de usuario,
tenía que estar seguro de orientarlo en esa dirección. La red era muy sensible a los datos en los
que fue entrenada. Como Hughes me lo dijo en un momento: "El sistema de traducción neural
está aprendiendo todo lo que puede. Es como un niño pequeño. -¡Oh, papá dice esa palabra
cuando está loco! " Él rió. "Tienes que tener cuidado."

Pero más que nada, necesitaban asegurarse de que todo fuera lo suficientemente rápido y
confiable como para que sus usuarios no se dieran cuenta. En febrero, la traducción de una
oración de 10 palabras tardó 10 segundos. Nunca podrían introducir nada tan lento. El equipo
Traducir comenzó a realizar experimentos de latencia en un pequeño porcentaje de usuarios, en
forma de falsos retrasos, para identificar la tolerancia. Encontraron que una traducción que tomó
el doble de tiempo, o incluso cinco veces más largo, no se registraría. Una desaceleración octava lo
haría. No necesitaban asegurarse de que esto fuera cierto en todos los idiomas. En el caso de un
lenguaje de alto tráfico, como el francés o el chino, no podían tolerar prácticamente ninguna
desaceleración. Para algo más oscuro, sabían que los usuarios no estarían tan asustados por un
ligero retraso si estaban obteniendo una mejor calidad. Sólo querían evitar que la gente se rindiera
y pasara a un servicio de algún competidor.

Schuster, por su parte, admitió que no sabía si podían hacerlo lo suficientemente rápido. Recuerda
una conversación en la micrococina durante la cual se volvió hacia Chen y dijo: "Debe haber algo
que no sepamos hacer lo suficientemente rápido, pero no sé qué podría ser".

Él sabía, sin embargo, que necesitaban más computadoras - "GPUs", procesadores gráficos
reconfigurados para redes neuronales - para entrenamiento.

Hughes se dirigió a Schuster para preguntarle qué pensaba. "¿Debemos pedir mil GPUs?"

Schuster dijo, "¿Por qué no dos mil?"

En el futuro especulativo más distante, la traducción automática fue tal vez el primer paso hacia
una instalación computacional general con lenguaje humano.

Diez días después, tenían los 2.000 procesadores adicionales.


En abril, la alineación original de tres se había convertido en más de 30 personas - algunos de ellos,
como Le, en el lado del cerebro, y muchos de Traducir. En mayo, Hughes asignó una especie de
propietario provisional a cada par de idiomas, y todos ellos verificaron sus resultados en una gran
hoja de cálculo compartida de evaluaciones de desempeño. En un momento dado, por lo menos
20 personas estaban ejecutando sus propios experimentos independientes de una semana y
tratando con cualquier problema inesperado surgió. Un día, un modelo, sin razón aparente,
comenzó a tomar todos los números que encontró en una frase y descartarlos. Había meses en los
que todo estaba en contacto. "La gente estaba casi gritando", dijo Schuster.

A finales de la primavera, las diversas piezas se reunían. El equipo presentó algo llamado un
"modelo de pieza de palabra", una "pena de cobertura", "normalización de la longitud". Cada
parte mejoró los resultados, quizá unos pocos puntos porcentuales, pero en conjunto tuvieron
efectos significativos. Una vez que el modelo fue estandarizado, sería sólo un único modelo
multilingüe que mejoraría con el tiempo, en lugar de los 150 modelos diferentes que Translate
actualmente utilizado. Aún así, la paradoja de que una herramienta construida para generalizar
más a través de las máquinas de aprendizaje el proceso de automatización requería una cantidad
tan extraordinaria de ingenio humano y esfuerzo combinados no se perdía en ellos. Tanto de lo
que hicieron fue sólo intestino. ¿Cuántas neuronas por capa usaste? 1,024 o 512? ¿Cuántas capas?
¿Cuántas frases pasó a través de una vez? ¿Cuánto tiempo te entrenaste?

"Hicimos cientos de experimentos", me dijo Schuster, "hasta que supimos que podríamos detener
el entrenamiento después de una semana. Siempre estás diciendo: ¿Cuándo pararemos? ¿Cómo
sé que he terminado? Nunca sabes que has terminado. El mecanismo de aprendizaje automático
nunca es perfecto. Tienes que entrenar, y en algún momento tienes que parar. Esa es la naturaleza
muy dolorosa de todo este sistema. Es difícil para algunas personas. Es un poco un arte - donde
usted pone su cepillo para hacerlo agradable. Se trata de hacerlo. Algunas personas son mejores,
otras peores.

Para mayo, el equipo de Brain entendía que la única forma en que iban a hacer que el sistema
fuera lo suficientemente rápido para implementarlo como un producto era si pudieran ejecutarlo
en TPUs, los chips especiales que Dean había pedido. Como dijo Chen: "Ni siquiera sabíamos si el
código funcionaría. Pero sí sabíamos que sin TPU, definitivamente no iba a funcionar. "Recuerda ir
a Dean uno a uno para alegar," Por favor, reserva algo para nosotros. "Dean los había reservado.
Los TPU, sin embargo, no funcionaron desde el primer momento. Wu pasó dos meses sentado
junto a alguien del equipo de hardware en un intento de averiguar por qué. No sólo estaban
depurando el modelo; Estaban depurando el chip. El proyecto de traducción neural sería una
prueba de concepto para toda la inversión en infraestructura.
Un miércoles de junio, la reunión en el lago Quartz comenzó con murmullos sobre un artículo de
Baidu que había aparecido recientemente en el foro en línea principal de la disciplina. Schuster
llevó la habitación a la orden. "Sí, Baidu salió con un papel. Se siente como alguien que mira a
través de nuestro hombro - arquitectura similar, resultados similares. "Las cuentas de BLEU de la
compañía eran esencialmente qué Google logró en sus pruebas internas en febrero y marzo. Le no
parecía irritado; Su conclusión parecía ser que era una señal de que Google estaba en el buen
camino. "Es muy similar a nuestro sistema", dijo con una aprobación tranquila.

El equipo de Google sabía que podrían haber publicado sus resultados antes y tal vez golpeado a
sus competidores, pero como dijo Schuster: "El lanzamiento es más importante que la publicación.
La gente dice: 'Oh, hice algo primero', pero ¿a quién le importa, al final? "

Esto, sin embargo, hacen imperativo que consigan su propio servicio primero y mejor. Hughes
tenía una fantasía de que ni siquiera informarían a sus usuarios sobre el cambio. Simplemente
esperarían y verían si los medios sociales se iluminaban con sospechas sobre las grandes mejoras.

"No queremos decir que es un nuevo sistema todavía", me dijo a las 5:36 pm dos días después del
Día del Trabajo, un minuto antes de que lanzaran chino a inglés a 10 por ciento de sus usuarios, sin
decirle a nadie . "Queremos asegurarnos de que funciona. Lo ideal es que está explotando en
Twitter: '¿Has visto lo impresionante que Google Traductor consiguió?' "

8. Una Celebración

Las únicas dos medidas fiables del tiempo en el Silicon Valley sin estación son las rotaciones de
frutas de temporada en las microcasinas -desde los pluots de verano a las peras asiáticas y los
caquis Fuyu de principios del otoño- y el zigzag del progreso tecnológico. En un casi incómodo
cálido lunes por la tarde a finales de septiembre, el papel del equipo fue puesto en libertad al final.
Tenía un casi cómico 31 autores. Al día siguiente, los miembros de Brain y Translate se reunieron
para lanzarse una pequeña recepción de celebración en la micrococina Translate. Las habitaciones
en el edificio del Cerebro, tal vez en homenaje a los largos inviernos de su diáspora, tienen el
nombre de locales de Alaska; El tema del edificio Traducir es hawaiano.

La micrococina hawaiana tiene una fotografía de playa ligeramente granulada en una pared, un
pequeño mostrador de servicio con techo de paja con guirnaldas de lei, con un loro lleno en el
centro y los accesorios de techo instalados para parecerse a las linternas de papel. Dos
histogramas escasos de postes de bambú alinean los lados, como los postes de una fortaleza
tropical mal defendida. Más allá de los postes de bambú, las paredes de vidrio y las puertas se
abren en filas de idénticos escritorios de color gris a cada lado. Esa mañana había visto la llegada
de nuevas sudaderas con capucha para honrar a 10 años de Translate, y muchos miembros del
equipo se acercaron a la fiesta desde sus escritorios con su nuevo equipo. Estaban en parte
celebrando el hecho de que su década de trabajo colectivo fue, a partir de ese día, en camino a la
jubilación. En otra institución, estas nuevas sudaderas podrían haberse convertido en un traje de
duelo, pero los ingenieros y los informáticos de ambos equipos parecían contentos.

La traducción neuronal de Google estaba funcionando. En el momento de la fiesta, la empresa


chino-Inglés prueba ya había procesado 18 millones de consultas. Un ingeniero del equipo de
Translate estaba corriendo con su teléfono, tratando de traducir frases completas del chino al
inglés usando la alternativa de Baidu. Cantó con alegría a cualquiera que quisiera escuchar. "Si
usted pone en más de dos caracteres a la vez, se agota!" (Baidu dice que este problema nunca ha
sido reportado por los usuarios).

Cuando la palabra comenzó a extenderse, durante las semanas siguientes, que Google había
introducido la traducción neural para el chino al inglés, algunas personas especularon que era
porque era el par único del idioma para el cual la compañía tenía resultados decentes. Todos en la
fiesta sabían que la realidad de su logro sería clara en noviembre. Para entonces, sin embargo,
muchos de ellos estarían en otros proyectos.

Hughes se aclaró la garganta y se acercó al bar tiki. Llevaba un polo verde desgastado con un
cuello arrugado, ligeramente modelado a través de la sección media con bandas oscuras de sudor
seco. Había habido problemas de último minuto, y luego problemas de último minuto, incluyendo
un error de medición muy grande en el papel y un extraño error de puntuación en el sistema. Pero
todo estaba resuelto, o por lo menos suficientemente resuelto por el momento. Los invitados se
tranquilizaron. Hughes hacía reuniones eficientes y productivas, con una baja tolerancia a las
conversaciones o conversaciones paralelas, pero le daba una pausa por la gravedad de la ocasión.
Reconoció que tal vez estaba estirando una metáfora, pero era importante para él subrayar el
hecho de que el proyecto de traducción neural en sí representaba una "colaboración entre grupos
que hablaban diferentes idiomas".

Su proyecto de traducción neural, continuó, representaba una "función escalonada hacia


adelante", es decir, un avance discontinuo, un salto vertical en lugar de una curva suave. La
traducción pertinente no se había hecho sólo entre los dos equipos, sino desde la teoría hasta la
realidad. Levantó una semi-flauta de champán de aspecto caro.

-¡A la comunicación! -dijo-, ¡y la cooperación!


Los ingenieros reunidos se miraron unos a otros y se entregaron a gritos y aplausos circunspectos.

Jeff Dean estaba cerca del centro de la micrococina, las manos en los bolsillos, los hombros
encorvados ligeramente hacia adentro, con Corrado y Schuster. Dean vio que había alguna
preferencia difusa que él contribuía a la observancia de la ocasión, y lo hizo de una manera
característicamente subestimada, con un complemento ligero, rápido y conciso.

Lo que ellos habían mostrado, decía Dean, era que podían hacer dos cosas importantes a la vez:
"Hagan la investigación y la obtengan delante, no sé, medio billón de personas".

Todo el mundo se rió, no porque fuera una exageración, sino porque no lo era.

Epílogo: Las máquinas sin fantasmas

Tal vez la más famosa crítica histórica de la inteligencia artificial, o las afirmaciones hechas en su
nombre, implica la cuestión de la traducción. El argumento Chinese Room fue propuesto en 1980
por el filósofo de Berkeley John Searle. En el experimento de Searle, un monolingüe inglés se
sienta solo en una celda. Un carcelero no lo ve pasar, a través de una ranura en la puerta, trozos
de papel marcados con caracteres chinos. El prisionero ha recibido un conjunto de tablas y reglas
en inglés para la composición de las respuestas. Se vuelve tan hábil con estas instrucciones que sus
respuestas son pronto "absolutamente indistinguibles de las de los hablantes chinos". ¿Debería
decirse que el desafortunado prisionero "entiende" chino? Searle pensó que la respuesta era
obviamente no. Esta metáfora de una computadora, escribió más tarde Searle, explotó la
afirmación de que "la computadora digital apropiadamente programada con las entradas y salidas
correctas tendría una mente en el sentido de que los seres humanos tienen mentes".

Para el equipo de Google Brain, sin embargo, o para casi todos los demás que trabajan en
aprendizaje de máquinas en Silicon Valley, esa visión es totalmente ajena al punto. Esto no
significa que están ignorando la cuestión filosófica. Significa que tienen una visión
fundamentalmente diferente de la mente. A diferencia de Searle, no asumen que la "conciencia"
es un atributo mental especial, numinamente brillante - lo que el filósofo Gilbert Ryle llamó el
"fantasma en la máquina". Simplemente creen que la compleja variedad de habilidades que
llamamos "conciencia" Ha surgido aleatoriamente de la actividad coordinada de muchos
mecanismos simples diferentes. La implicación es que nuestra facilidad con lo que consideramos
los registros más altos del pensamiento no son diferentes en clase de lo que estamos tentados a
percibir como los registros inferiores. El razonamiento lógico, por esta razón, es visto como una
adaptación afortunada; Por lo que es la capacidad de lanzar y atrapar una pelota. La inteligencia
artificial no se trata de construir una mente; Se trata de mejorar las herramientas para resolver
problemas. Como Corrado me dijo en mi primer día en Google, "No se trata de lo que una
máquina" sabe "o" entiende ", sino de lo que" hace "y, lo que es más importante, lo que no hace
todavía.

Donde usted viene abajo en "saber" contra "hacer" tiene implicaciones culturales y sociales
verdaderas. En la fiesta, Schuster se acercó a mí para expresar su frustración con la recepción
mediática del periódico. "¿Viste la primera prensa?", Me preguntó. Parafraseó un titular de esa
mañana, bloqueándolo palabra por palabra con su mano mientras la recitaba: GOOGLE DICE QUE
LA TRADUCCIÓN AI ES INDISTINGUIBLE DE LOS HUMANOS. Durante las últimas semanas de la
composición del periódico, el equipo había luchado con esto; Schuster repetía a menudo que el
mensaje del periódico era: "Es mucho mejor de lo que era antes, pero no tan bueno como los
humanos". Esperaba que sus esfuerzos no fueran sobre reemplazar a la gente sino ayudarlos.

Y sin embargo, el surgimiento del aprendizaje automático hace que sea más difícil para nosotros
crear un lugar especial para nosotros. Si crees, con Searle, que hay algo especial acerca de la
"intuición" humana, puedes dibujar una línea clara que separa lo humano de lo automatizado. Si
estás de acuerdo con los antagonistas de Searle, no puedes. Es comprensible por qué tantas
personas se aferran rápidamente a la vista anterior. En una conferencia del MIT de 2015 sobre las
raíces de la inteligencia artificial, a Noam Chomsky se le preguntó qué pensaba del aprendizaje
automático. El pooh-poohed toda la empresa como mera predicción estadística, un pronóstico del
tiempo glorificado. Incluso si la traducción neuronal alcanzara perfecta funcionalidad, no revelaría
nada profundo sobre la naturaleza subyacente del lenguaje. Nunca podría decirte si un pronombre
tomó el dativo o el caso acusativo. Este tipo de predicción hace que una buena herramienta para
lograr nuestros fines, pero no tiene éxito por los estándares de promover nuestra comprensión de
por qué las cosas suceden de la manera que lo hacen. Una máquina ya puede detectar los tumores
en los escáneres médicos mejor que los radiólogos humanos, pero la máquina no puede decirle lo
que está causando el cáncer.

Entonces, ¿puede el radiólogo?

El diagnóstico médico es un campo más inmediato, y tal vez impredecible, amenazado por el
aprendizaje automático. Los radiólogos son ampliamente entrenados y muy bien pagados, y
pensamos en su habilidad como una de perspicacia profesional - el registro más alto de
pensamiento. En el último año, los investigadores han demostrado no sólo que las redes
neuronales pueden encontrar tumores en las imágenes médicas mucho antes que sus homólogos
humanos, sino también que las máquinas pueden incluso hacer tales diagnósticos de los textos de
los informes de patología. Lo que los radiólogos resultan ser algo mucho más cercano a la
predicción de la comparación de patrones que el análisis lógico. No le dicen lo que causó el cáncer;
Sólo te dicen que está ahí.
Una vez que hayas construido un robusto aparato de adaptación de patrones para un propósito,
puede ser ajustado al servicio de los demás. Un ingeniero de Translate tomó una red que montó
para juzgar obras de arte y lo utilizó para conducir un automóvil autónomo controlado por radio.
Una red construida para reconocer un gato se puede dar la vuelta y entrenado en tomografías
computarizadas - y en infinitamente más ejemplos que incluso el mejor médico podría revisar. Una
red neural construida para traducir podría funcionar a través de millones de páginas de
documentos de descubrimiento legal en la menor fracción del tiempo que tomaría el abogado con
mayor credibilidad. Los tipos de trabajos que toman los autómatas ya no serán sólo tareas
repetitivas que antes eran - injustamente, debería enfatizarse - asociadas con la supuesta
inteligencia inferior de las clases no instruidas. No sólo estamos hablando de tres millones y medio
de camioneros que pronto podrían carecer de carreras. Estamos hablando de gerentes de
inventario, economistas, asesores financieros, agentes de bienes raíces. Lo que Brain hizo durante
nueve meses es sólo un ejemplo de la rapidez con la que un pequeño grupo de una gran empresa
puede automatizar una tarea que nadie jamás se habría asociado con las máquinas.

Lo más importante que pasa en Silicon Valley en este momento no es la interrupción. Más bien, es
el fortalecimiento institucional y la consolidación del poder en una escala y un ritmo que son
probablemente sin precedentes en la historia humana. El cerebro tiene internos; Tiene residentes;
Tiene "ninja" clases para entrenar a la gente en otros departamentos. En todas partes hay
contenedores de cascos de bicicleta gratis y paraguas verdes gratis para los dos días al año que
llueve, y pequeñas ensaladas de frutas y vainas de siesta, y mesas de correr compartidas, sillas de
masaje y cartones aleatorios de pasteles de alta gama. Lugares para donaciones de ropa para
bebés y paredes de escalada de dos pisos con instructores programados, grupos de lectura y
charlas políticas y redes de apoyo variadas. Los destinatarios de estas grandes inversiones en el
cultivo humano -porque son mucho más que beneficios para los proles en algunas minas de sal
digitales- tienen a la mano el poder de servidores complejamente coordinados distribuidos en 13
centros de datos en cuatro continentes, centros de datos que extraen suficiente electricidad Para
iluminar las grandes ciudades.

Pero incluso enormes instituciones como Google estarán sujetas a esta ola de automatización; Una
vez que las máquinas pueden aprender del habla humana, incluso el trabajo cómodo del
programador se ve amenazado. Cuando la fiesta en el bar tiki se estaba acabando, un ingeniero de
Translate trajo su computadora portátil para mostrar algo a Hughes. La pantalla giraba y palpitaba
con una viva animación caleidoscópica de esferas de colores brillantes en largas órbitas de bucle
que periódicamente se derrumbaban en nebulosas antes de dispersarse una vez más.

Hughes reconoció lo que era de inmediato, pero tuvo que mirar de cerca antes de ver todos los
nombres - de personas y archivos. Fue una animación de la historia de 10 años de cambios en la
base de código Traducir, cada aportación de zumbido y florecimiento por cada miembro del último
equipo. Hughes se acercó suavemente para saltar hacia adelante, desde 2006 hasta 2008 hasta
2015, deteniéndose de vez en cuando para hacer una pausa y recordar alguna campaña distante,
algún triunfo o catástrofe antiguo que ahora se apresuraba a ser absorbido en otro lugar o
explotar por sí mismo. Hughes señaló cuán a menudo el nombre de Jeff Dean se expandió aquí y
allá en esferas brillantes.

Hughes llamó a Corrado y se quedaron paralizados. Para romper el hechizo de la nostalgia


melancólica, Corrado, mirando un poco herido, levantó la vista y dijo: -¿Entonces cuándo lo
eliminamos?

"No te preocupes por eso", dijo Hughes. "La nueva base de código va a crecer. Todo crece.

Corrección: 22 de diciembre de 2016

Una versión anterior de este artículo se refiere incorrectamente a un equipo utilizado en viajes
espaciales. Se usó una computadora para guiar las misiones de Apolo - no el "servicio de
transporte de Apolo." (No había tal lanzadera.)

Gideon Lewis-Kraus es un escritor en general para la revista y un compañero en New America. Él


escribió por último sobre las contradicciones de la fotografía del recorrido.

También podría gustarte