Las Neuronas Se Recuperan, La Invención de Las Máquinas Inductivas y La Controversia de La Inteligencia Artificial

Traducido del inglés al español - www.onlinedoctranslator.
com
Vea discusiones, estadísticas y perfiles de autores para esta publicación en: https://www.researchgate.net/publication/334599559
Las neuronas se recuperan: la invención de las máquinas inductivas y la controversia de

la inteligencia artificial
Artículo en Réseaux · enero de 2018
CITACIONES LEE
19 753
3 autores:
Dominique Cardon Jean-Philippe Cointet

Laboratorios Orange Sciences Po París
56 PUBLICACIONES 975 CITACIONES 111 PUBLICACIONES 1,163 CITACIONES
VER EL PERFIL VER EL PERFIL
Antoine Mazieres
Centro Marc Bloch
15 PUBLICACIONES 117 CITACIONES
VER EL PERFIL
Algunos de los autores de esta publicación también están trabajando en estos proyectos relacionados:
Mapeo de la literatura sobre servicios ecosistémicos y agricultura Ver Proyecto
RePortCancer / CancerRePort: Investigando la dinámica y el posicionamiento internacional de la comunidad médica oncológica portuguesa Ver Proyecto
Todo el contenido que sigue a esta página fue subido por Antoine Mazieres el 21 de julio de 2019.
El usuario ha solicitado una mejora del archivo descargado.

LAS NEURONAS SPIKE BACK
La invención de las máquinas inductivas y

la controversia de la inteligencia artificial
Dominique CARDON
Jean-Philippe COINTET
Antoine MAZIÈRES
La Découverte | «Réseaux»
2018/5 n ° 211 | págs. 173-220
ISSN 0751-7971
ISBN 9782348040689
Para citar este artículo:

Dominique Cardon, Jean-Philippe Cointet y Antoine Mazières, «Las neuronas se recuperan. La
invención de las máquinas inductivas y la controversia de la inteligencia artificial », Réseaux 2018/5 (n
° 211), pp. 173-220.
DOI 10.3917 / res.211.0173
Las neuronas se recuperanRéseaux n ° 211/2018
Abstracto
Desde 2010, las técnicas predictivas basadas en el aprendizaje automático, y más
específicamente las redes neuronales de aprendizaje profundo, han logrado desempeños
espectaculares en los campos del reconocimiento de imágenes o la traducción automática,
bajo el término general de “Inteligencia Artificial”. Pero su filiación a este campo de
investigación no es sencilla. En la tumultuosa historia de la IA, las técnicas de aprendizaje
que utilizan las llamadas redes neuronales "conexionistas" han sido durante mucho tiempo
objeto de burlas y el ostracismo por parte del movimiento "simbólico". Este artículo recorre
la historia de la inteligencia artificial a través de la lente de la tensión entre los enfoques
simbólico y conexionista. Desde una perspectiva de historia social de la ciencia y la
tecnología, busca resaltar cómo los investigadores,
Palabras clave
Redes neuronales, Inteligencia artificial, Conexionismo, Sistemas expertos, Aprendizaje profundo
Las cifras principales están disponibles en inglés aquí:https://neurovenge.antonomase.fr/
Reanudar
Depuis 2010, les Techniques prédictives basées sur l'apprentissage artificiel (aprendizaje
automático), et plus spécifiquement des réseaux de neurones (aprendizaje profundo),
réalisent des prouesses spectaculaires dans les domaines de la reconnaissance d'image o
de la traduction automatique, sous l'égide du terme d '“Intelligence artificielle”. O
l'appartenance de ces técnicas à ce domaine de recherche n'a pas toujours été de soi. Dans
l'histoire tumultueuse de l'IA, las técnicas de aprendizaje utilisant des réseaux de neurones
- que l'on qualifie de "connexionnistes" - ont même longtemps été moquées et ostracisées
par le courant dit "symbolique". Este artículo propone de retracer l'histoire de l'Intelligence
artificielle au prisme de la tension entre ces deux Approches, symbolique et
connexionniste. En una perspectiva de la historia social de las ciencias y las técnicas, il
s'attache à mettre en évidence la manière dont les chercheurs,
Mots-clés
Réseaux de neurones, Intelligence artificielle, Connexionnisme, Système expert, Deep
learning
- 1-
T
El episodio se ha vuelto legendario en la historia de la informática. En octubre de
2012 la conferencia ECCV reunió a investigadores especializados en visión artificial1.
«Entonces, ¿adivinen quién se presentó en el concurso de 2012? Hinton [el "padre" del
renacimiento de las redes neuronales] y eso realmente sacudió las cosas. No sabía nada
sobre el campo de la visión por computadora, ¡así que se llevó a dos jóvenes para
cambiarlo todo! Uno de ellos [Alex Krizhevsky] lo encerró en una habitación y le dijo: "¡No
puedes salir hasta que funcione!" Consiguió que funcionaran máquinas enormes,
máquinas que tenían GPU que en ese momento no eran geniales, pero logró que se
comunicaran entre sí para impulsarlas. Fue una locura informática. De lo contrario, no
habría funcionado; Conocimiento geek totalmente increíble, programación. En ese
momento, la gente de visión por computadora había estado entusiasmada con ImageNet
durante tres años [una base de datos de 1.2 millones de imágenes etiquetadas con 1,000
categorías utilizadas como punto de referencia para comparar los resultados de
clasificación de diferentes competidores]. El número 1 tuvo una tasa de error del 27,03%,
el número 2 tuvo un 27,18% y el número 3 tuvo un 27,68%. Hinton envió a este tipo de la
nada: "¡Tenemos uno realmente grande y profundo para trabajar, obtuvimos el 17%!" ¡Se
ganó a todos por 10 puntos! Entonces ese joven geek lo hizo, y anunció el resultado
frente a la sala abarrotada. No entendía nada en absoluto, ¡como si tuviera 17 años! No
sabía por qué esas cosas estaban allí. Lo habían encerrado en su oficina y no sabía nada
sobre el campo. Y luego, de repente, estaba frente a Fei-Fei, con LeCun sentado al fondo
de la habitación y levantándose para responder preguntas [Li Fei-Fei, profesor de
informática y director de SAIL, el Laboratorio de Inteligencia Artificial de Stanford; Yann
LeCun, hoy director de FAIR, Facebook AI Research, y uno de los actores centrales en la
renovación de las redes neuronales]. Y todos los grandes pelos de la visión por
computadora estaban tratando de reaccionar: “Pero eso no es posible. Eso no funcionará
para reconocer un objeto cuando lo necesitas… ”Todos quedaron anonadados, al ver que
básicamente diez años de inteligencia, ajuste fino y sofisticación habían sido más o
menos tirados por la ventana.
No eran exactamente personas de lógica formal, pero eran personas que

tenían la idea de que hay que entender, que hay que saber explicar por qué
pones las ramas así, por qué sigues ese razonamiento, por qué estás
1 Este estudio se llevó a cabo en el marco del proyecto ALGODIV (ANR-15-CE38-0001). Los autores desean agradecer a Telmo Menezes por sus
consejos. Como parte de esta investigación, utilizamos tres entrevistas realizadas con investigadores franceses en ciencias de la computación que
participaron en el resurgimiento de las redes neuronales. Para mantener la crudeza de sus declaraciones, se han anonimizado.
- 2-
progresando así; y que necesita tener toda esta comprensión de las

características que lo acompañan y que lo ayudan a poder decir que comprende
perfectamente lo que está haciendo y por qué es así. Y luego llega este tipo, con
una gran caja negra de aprendizaje profundo con 100 millones de parámetros
que había entrenado, y trastornó por completo todo el campo. "¿Tus modelos
son invariables si la imagen se mueve?" ¡El tipo ni siquiera entendió la pregunta!
Entonces LeCun respondió: "Bueno, estos modelos son invariables porque ..."
Estaba realmente complacido, porque Fei-Fei le preguntó: "Pero Yann, ¿estos
modelos son realmente fundamentalmente tan diferentes de los modelos que
inventaste en la década de 1980?" A lo que Yann respondió: "¡No, son
exactamente iguales y ganamos todas las competencias con ellos!"2. »
Este colorido relato del anuncio del rendimiento de clasificación de imágenes de una técnica de
aprendizaje profundo (Krizhevsky, Sutskever y Hinton, 2012) da testimonio de los efectos que el
repentino éxito de un paradigma heterodoxo marginado durante mucho tiempo tiene en una
comunidad científica3: sorpresa, ante el resultado; cuestionamiento de la validez epistémica del
nuevo enfoque; preocupación por el futuro del paradigma ortodoxo; burla ante el desconocimiento
de los recién llegados de las preocupaciones teóricas del campo, vértigo ante el inminente vuelco del
paradigma. A partir de 2010, en un campo tras otro, las redes neuronales profundas han estado
causando la misma interrupción en las comunidades de ciencias de la computación que se ocupan
de las señales, la voz, el habla o el texto. Un método de aprendizaje automático que propone el
procesamiento de entradas "más crudo" posible, elimina cualquier modelado explícito de
características de datos y optimiza la predicción basada en enormes conjuntos de ejemplos ha
producido resultados espectaculares. Una forma sencilla de pensar en este trastorno es describirlo
como la transición de máquinas hipotético-deductivas a máquinas inductivas (Figura 1).
Figura 1. Máquinas hipotético-deductivas (1) y máquinas inductivas (2)
Lo que antes se pensaba como el componente "humano" en la creación de calculadoras,

programas, reglas o el modelo, ya no era la entrada al sistema, sino su resultado. La perspectiva
de las ciencias sociales sobre este cambio inductivo a menudo consiste en deconstruir la ilusión
naturalista de los datos "brutos" y la ingenuidad del cálculo sin teoría (Gitelman,
2013). Si bien esta precaución es ciertamente necesaria para poner en perspectiva ciertos discursos
descuidados que afirman que "los datos hablan por sí mismos", no hace justicia al trabajo decidido e
intensamente artificial realizado por los defensores de las técnicas de aprendizaje profundo para
imponer la segundo tipo de arquitectura de cálculo. En este artículo los llamaremosmaquinas
inductivas y, más concretamente,máquinas conexionistas, para que brille la luz
2 Entrevista V, investigadora de visión artificial, 12 de marzo de 2018.

3 Y.
LeCun dio su versión del mismo evento en un video (comenzando en el minuto 20): “Heroes of Deep Learning: Andrew Ng entrevistas
Yann LeCun”, YouTube, 7 de abril de 2018.
- 3-
sobre el tipo específico de inducción que afirman utilizar. La creación de artefactos capaces de
producir un cálculo inductivo sobre grandes conjuntos de datos es el resultado de una historia
conflictiva y una serie de construcciones muy ingeniosas. La inducción era algo hacia lo que las
máquinas tenían que ser dirigidas constantemente, y que tenía que defenderse de los oponentes,
producirse mediante cálculos específicos, desplegarse en arquitecturas específicas y calibrarse con
los datos adecuados. Los diseñadores de este tipo de máquinas no fueron los naturalistas ingeniosos
que a menudo les gusta describir a las ciencias sociales constructivistas. La idea de confiar la
producción de predicciones relevantes a las máquinas, permitiéndoles aprender de los datos:es decir
cálculo inductivo - era una empresa, una teoría y, sobre todo, un dispositivo con una historia
turbulenta. Para ser implementado y producir sus efectos, requirió un trabajo paciente para
reconfigurar la arquitectura de las máquinas “inteligentes”, que será el tema de este artículo.
Simbólico versus conexionista

El método de red neuronal que vimos recientemente triunfar en el ECCV'12 no es nada nuevo. Aprovechando el aumento de la capacidad
de cálculo de las computadoras y la accesibilidad de bases de datos gigantes, hoy se cumple la promesa que hizo al comienzo de la
cibernética. Sorprendentemente, el término adoptado recientemente para describir estas notables hazañas de cálculo esinteligencia
artificial (AI). El regreso de este término, acuñado por John McCarthy en 1956, al escenario principal es un enigma interesante en la
historia de la ciencia y la tecnología. Específicamente, la mayoría de los observadores cercanos afirman que solo en el campo de los
métodos de aprendizaje automático, y en particular en el aprendizaje profundo, se está produciendo un progreso observable en la
predicción calculada. Sin embargo, no siempre se ha considerado que estas técnicas se incluyan en la IA. En la turbulenta historia de este
campo de investigación, las técnicas de aprendizaje automático que utilizan redes neuronales, que llamaremos técnicas "conexionistas",
fueron durante mucho tiempo burladas y condenadas al ostracismo por la escuela de pensamiento "simbólica". Esta tensión entre estos
dos enfoques surgió con la aparición de la inteligencia artificial, que era claramente distinta de la cibernética temprana. El enfoque
simbólico que constituyó el marco de referencia inicial para la IA se identificó con el cognitivismo ortodoxo, en términos del cual el
pensamiento consiste en calcular símbolos que tienen tanto una realidad material como un valor de representación semántica. Por el
contrario, el paradigma conexionista considera que el pensamiento es similar a un cálculo paralelo masivo de funciones elementales
-funciones que se distribuirán a través de una red neuronal- cuyo comportamiento significativo solo aparece a nivel colectivo como un
efecto emergente de las interacciones producidas por estas operaciones elementales (Andler, 1992). Esta distinción entre dos formas de
concebir y programar el funcionamiento "inteligente" de una máquina es la base de una tensión que ha estructurado de manera
consistente y muy profunda las orientaciones de la investigación, las carreras científicas, y el diseño de infraestructura de cálculo.
Asistimos, por tanto, a uno de los cambios situacionales típicos de la historia de la ciencia y la tecnología: una estrategia de investigación
marginada por las personas que contribuyeron a establecer los marcos conceptuales de las inteligencias artificiales vuelve a cobrar
protagonismo, y ahora se encuentra en fase de desarrollo. una posición para redefinir profundamente el campo del que había sido
excluido. Como dijo irónicamente Michael Jordan (2018), “en un interesante cambio, es la agenda intelectual de Wiener la que ha llegado
a dominar en la era actual, bajo la bandera de la terminología de McCarthy”. una estrategia de investigación marginada por las personas
que contribuyeron a establecer los marcos conceptuales de las inteligencias artificiales vuelve a cobrar protagonismo y ahora está en
condiciones de redefinir muy profundamente el campo del que había sido excluida. Como dijo irónicamente Michael Jordan (2018), “en
un interesante cambio, es la agenda intelectual de Wiener la que ha llegado a dominar en la era actual, bajo la bandera de la
terminología de McCarthy”. una estrategia de investigación marginada por las personas que contribuyeron a establecer los marcos
conceptuales de las inteligencias artificiales vuelve a cobrar protagonismo y ahora está en condiciones de redefinir muy profundamente
el campo del que había sido excluida. Como dijo irónicamente Michael Jordan (2018), “en un interesante cambio, es la agenda intelectual
de Wiener la que ha llegado a dominar en la era actual, bajo la bandera de la terminología de McCarthy”.
- 4-
Figura 2. Red de co-citas de los 100 autores más citados en publicaciones científicas
mencionando "Inteligencia Artificial"4
Para contar la historia del ida y vuelta entre estas dos escuelas, primero debemos esbozar
la cronología basada en publicaciones científicas recuperadas deWeb de la Ciencia (WoS).
La red de co-citas de los autores más citados en los artículos que mencionan la
“Inteligencia Artificial” muestra claramente la división entre los investigadores que siguen
los enfoques simbólicos o conexionistas. Por ejemplo, la Figura 2 muestra los nombres de
los principales actores discutidos en este artículo, claramente distribuidos según su
comunidad. En el corazón de los "conexionistas", Rumelhart, LeCun y Hinton representan el
núcleo fundador del aprendizaje profundo y están junto a los investigadores (Holland,
Hopfield) que promovieron este movimiento en diferentes momentos, así como los
principales contribuyentes a múltiples métodos de aprendizaje automático. , como
Breiman, Mitchell y Vapnik. En el "lado simbólico" está el núcleo fundador de la IA
(McCarthy, Minsky, Simon y Newell), establecido de una manera que refleja sus
proximidades y divergencias,
4 Elcorpus de "Inteligencia artificial" contiene 27.656 publicaciones recuperadas de Web of Science en febrero de 2018 mediante la
consulta TS = ("inteligencia artificial"). El tamaño de los nodos depende de la frecuencia de aparición del autor. Los autores que se citan
regularmente en las mismas publicaciones están vinculados en la red. Un algoritmo de detección de comunidades revela la bi-partición
de la red en dos comunidades cohesivas.
- 5-
Sin embargo, la polémica entre las dos comunidades de IA es aún más clara al observar la
cronología del impacto académico de las publicaciones científicas en el ámbito simbólico.5 y
conexionista6 movimientos desde 1935 hasta 2005. La cronología en la Figura 3 muestra la
emergencia del paradigma conexionista junto con la cibernética temprana. Luego, a partir de principios de la
década de 1960, el paradigma simbólico prevaleció gradualmente y definió las principales características de la IA.
No fue hasta mediados de la década de 1990, después del segundo invierno de la IA, que el paradigma
conexionista volvió a ser claramente dominante en las publicaciones científicas, bajo la bandera del aprendizaje
profundo.
Para repasar esta historia, presentamos un marco analítico muy simple que, dentro de un amplio
abanico de tecnologías heterogéneas con un nivel de complejidad muy alto, aísla una serie de
puntos de referencia que nos permiten dar cuenta simultáneamente de la transformación de las
infraestructuras de cálculo, y de diferentes formas. de analizar críticamente su desempeño. Para
mirar el diseño de sistemas técnicos y su objetivo epistémico, juntos, postulamos que una máquina
"inteligente" debe articular unmundo, uncalculadoray unobjetivo, basado en diferentes
configuraciones. Estas nociones se refieren al marco funcional dentro del cual se suele desglosar el
diseño de artefactos inteligentes, basándose en terminologías variadas: "entorno" / "insumos" /
"datos" / "base de conocimientos" (mundo), "Cálculo" / "programa" / "modelo" / "agente"
(calculadora) y "objetivos" / "resultados" / "productos" (objetivo). Por tanto, se puede decir que las
máquinas predictivas establecen una calculadora en el mundo al otorgarle un objetivo. Los dispositivos
diseñados a lo largo de la historia de la IA equipan elmundo, elcalculadora, y elobjetivo con entidades
variadas y cambiantes. Por tanto, proponen formas radicalmente diferentes de interrelacionar la
arquitectura de estos conjuntos. El cambio en la investigación de la IA demáquinas simbólicas hacia
máquinas conexionistas es, por tanto, el resultado no de un cambio en la historia de las ideas o de la
validez de un modelo científico sobre otro, sino de una controversia que llevó a los actores a
cambiar, transformar y redefinir profundamente la forma dada a sus artefactos. El proceso al que
este modelo analítico nos permite estar atentos es una larga reconfiguración histórica de alianzas y
paradigmas entre comunidades científicas en competencia. Esto afecta a las técnicas de cálculo, pero
también y sobre todo a la forma que se les da a estas máquinas, sus objetivos, los datos que
procesan y las cuestiones que abordan (Latour, 1987). Para decirlo de una manera que quedará más
clara a lo largo del artículo: mientras los diseñadores de máquinas simbólicas buscaban insertar en
la calculadora tanto el mundo como el objetivo, el éxito actual de las máquinas conexionistas está
relacionado con el hecho de que,calculadora para que elmundo puede adoptar su propioobjetivo.
5El corpus "Simbólico" contiene 65.522 publicaciones recuperadas de Web of Science en febrero de 2018 mediante la consulta TS =
("representación del conocimiento *" O "sistema experto *" O "sistema basado en el conocimiento *" O "motor de inferencia *" O "árbol
de búsqueda * ”O“ minimax ”O“ búsqueda de árbol ”O“ Programación lógica ”O“ demostrador de teoremas * ”O (“ planificación ”Y“ lógica
”) O“ programación lógica ”O“ lisp ”O“ prólogo ”O“ base de datos deductiva * ”O“ razonamiento no monótono * ”).
6 Elcorpus "Connectionist" contiene 106,278 publicaciones recuperadas de Web of Science en febrero de 2018 mediante la
solicitud TS = ("red neuronal artificial *" O "Aprendizaje profundo" O "perceptrón *" O "Backprop *" O "Red neuronal profunda
*" O “Red neuronal convolucional *” O (“CNN” Y “red neuronal *”) O (“LSTM” Y “red neuronal *”) O (“red neuronal recurrente *” O
(“RNN *” Y “red neuronal * ”)) O“ máquina de Boltzmann * ”O“ red hopfield * ”O“ Autoencoder * ”O“ Red de creencias profundas
* ”O“ red neuronal recurrente * ”).
- 6-
Figura 3. Evolución de la influencia académica del conexionista y simbólico

enfoques
El gráfico principal (arriba) muestra los cambios en la relación entre el número de publicaciones citadas en el corpus
conexionista (naranja) y el número correspondiente en el corpus simbólico (azul), ambos ajustados por el número total
de publicaciones enWoS. Los gráficos adicionales (abajo) representan el número de publicaciones citadas durante un
período determinado para cada corpus.
- 7-
LA CIBERNÉTICA Y LOS INICIOS DEL CONECCIONISMO

Los orígenes de las redes neuronales se encuentran en la historia pionera de la informática y la cibernética
temprana. Aunque el término se acuñó más tarde, la cibernética puede considerarse efectivamente
"conexionista"7 y todavía se refiere al objetivo de modelar matemáticamente una red neuronal, establecido
por el neurofisiólogo Warren McCulloch y el lógico Walter Pitts en 1943. Hasta el día de hoy, ese artículo
fundamental continúa siendo citado como el punto de partida del viaje conexionista, incluso en citas
actuales en artículos de aprendizaje profundo. La cronología de la actividad científica en IA (Figura 3)
demuestra claramente la preeminencia del enfoque conexionista durante el período cibernético
temprano. El primer artículo de McCulloch y Pitt propuso un modelo formal (Figura 4) en el que las
neuronas usan variables como entradas y las ponderan para producir una suma que desencadena la
activación de la neurona si excede un cierto umbral.
Figura 4. Modelo formal de una neurona de umbral binario artificial
Esta proposición no se formuló como perteneciente a la inteligencia artificial -el término no

existía- sino como una herramienta de experimentación neurofisiológica que era consistente
con el conocimiento biológico de la época sobre los procesos neuronales del cerebro. Se asoció
rápidamente con la idea de aprender a través del trabajo del neuropsicólogo Donald O. Hebb
(1949), que muestra que la activación repetida de una neurona por otra a través de una sinapsis
determinada aumenta su conductividad y puede considerarse aprendizaje. De inspiración biológica, el
modelo neuronal formal constituyó uno de los principales puntos de reflexión para los cibernéticos de la
época, y se convertiría en la piedra angular de la calculadora de las primeras máquinas
“inteligentes” (Dupuy, 2005).
7 El primer uso del término "conexionismo" fue por D. Hebb en 1949. Luego fue retomado por F. Rosenblatt en 1958 (Andler,
1992).
- 8-
El estrecho acoplamiento entre el mundo y la calculadora
El rasgo característico de la arquitectura de estas máquinas es que su acoplamiento con el

entorno (lamundo) es tan orgánico que no es necesario otorgar elcalculadora su propia
agentividad. El objetivo de la cibernética es crear nada más que una caja negra de aprendizaje y
asociación, cuyo objetivo se regula midiendo la desviación (es decir el error) entre el mundo y el
comportamiento de la máquina. Esta representación de las máquinas inteligentes se basó
inicialmente en una concepción materialista de la información que difería de la concepción
simbólica que imperaba en el momento del surgimiento de la inteligencia artificial (Triclot,
2008). Como forma de orden opuesta a la entropía, la información es una señal más que un
código. Con la teoría de la información desarrollada por Shannon (1948), la información no
tenía que estar asociada con un significado dado; se concibió como una forma pura,
independiente de todas las demás consideraciones, limitada a “expresar la magnitud del orden
o estructura en una agenda material” (Triclot, 2008).
Las máquinas cibernéticas definieron elobjetivo de su cálculo basado sólo en una comparación de
entradas y salidas hacia elmundo. El dispositivo predictivo de Norbert Wiener (1948) aplicado para
guiar misiles antiaéreos se basó en actualizar continuamente su trayectoria, comparando la
trayectoria real del objetivo con estimaciones anteriores. El dispositivo tenía que converger hacia la
mejor solución sobre la base de los datos disponibles; estos datos informaron, corrigieron y
orientaron la calculadora. Retroalimentación negativa -es decir incorporar la medición del error de
salida como una nueva entrada en un sistema adaptativo - constituiría así el axioma principal de la
cibernética. Permitió considerar los sistemas técnicos en una forma estrictamente conductista,
haciéndose eco de la psicología conductista de la época (Skinner, 1971). Al igual que para los
organismos vivos, las máquinas se adaptaron inductivamente a las señales del entorno con un
acoplamiento tan estrecho que no requirió representaciones o intenciones internas; en resumen,
una "inteligencia" específica para ellos. Cuando Arturo Rosenblueth, Norbert Wiener y Julian Bigelow
(1943) formularon los principios fundacionales de la cibernética, imaginaron una máquina
autocorregible capaz, a través de operadores probabilísticos, de modificar o adoptar metas finales
que no eran "internas" sino que se producían adaptando su comportamiento de acuerdo con sus
propios errores. Rigurosamente “eliminativista”, el diseño de máquinas cibernéticas podría acabar
con las nociones de intención, planes o razonamiento (Galison, 1994). Teorizando el funcionamiento
de una de las más famosas de estas máquinas, el Homeostat, Ross Ashby (1956:
110) describió la parte de cálculo del entorno / sistema de la máquina como una "caja negra"8. La
configuración de las máquinas de predicción cibernética acopló tan estrechamente lamundo y el
calculadora que suobjetivo era optimizar el funcionamiento adaptativo del sistema que formaron juntos. Las
máquinas cibernéticas de la década de 1950 (Homeostat, Adaline, etc.) no eran más que artefactos de
laboratorio con objetivos y capacidad muy limitados; por el contrario, las calculadoras de aprendizaje profundo
eventualmente y de manera mucho más eficiente llegarían a ofrecer una caja negra alrededor de un mundo de
datos, convirtiendo los resultados en entradas.
8 Sobre el homeostato, véanse Pickering (2010) y Rid (2016).
- 9-
El Perceptron y las máquinas conexionistas
Particularmente en el campo del reconocimiento visual, las redes neuronales de McCulloch y

Pitts proporcionaron una solución muy adecuada para equipar la calculadora de las primeras
máquinas adaptativas. A finales de la década de 1950, estas máquinas experimentaron un
importante desarrollo que contribuyó a la primera ola de interés público por las máquinas
cerebrales.9. El enfoque conexionista inspiró el trabajo de Bernard Widrow (Adaline), Charles
Rosen en Stanford (Shakey) o incluso el Pandemonium, el dispositivo híbrido de Oliver Selfridge
(1960). Sin embargo, fue la iniciativa Perceptron (1957-1961) de Frank Rosenblatt, psicólogo e
informático de la Universidad de Cornell, la que encarnó la primera verdadera máquina
conexionista y se convirtió en el emblema de otra forma de habilitar un artefacto de cálculo con
comportamiento inteligente. Este dispositivo, diseñado con el propósito de reconocimiento de
imágenes, recibió mucha atención y obtuvo una gran cantidad de financiamiento de la Marina
de los Estados Unidos (ONR). La máquina de Frank Rosenblatt se inspiró en las redes
neuronales formales de McCulloch y Pitts, pero agregó un mecanismo adicional de aprendizaje
automático. En las capas superpuestas del Perceptron, las neuronas de entrada estimularon la
actividad de la retina y las neuronas de salida clasificaron las "características" reconocidas por el
sistema; sólo las capas intermedias ocultas eran capaces de aprender. Contrariamente a la
organización lógica y "de arriba hacia abajo" de McCulloch y Pitts, Frank Rosenblatt defendió un
enfoque "de abajo hacia arriba" que permitiera que el mecanismo de aprendizaje organizara
estadísticamente la estructura de la red. Tras una implementación inicial basada en software,
Frank Rosenblatt emprendió la construcción de la única versión de hardware del Perceptron: el
Mark I, que constaba de 400 células fotoeléctricas conectadas a neuronas. Los pesos sinápticos
se codificaron en potenciómetros y los cambios de peso durante el aprendizaje se realizaron
mediante motores eléctricos. Sin embargo, la implementación concreta de estas máquinas de
aprendizaje siguió siendo muy rara debido a las limitaciones técnicas de la época,
IA SIMBÓLICA
Cuando los principales proponentes de la reunión de fundación de Dartmouth, John McCarthy y Marvin
Minsky, acuñaron el término "inteligencia artificial" (IA) en 1956, su intención era oponerse al
conexionismo de la cibernética temprana (Dupuy, 2005).10. Querían muy explícitamente dar a las máquinas
un objetivo distinto al de ajustar de forma adaptativa las entradas y salidas. El propósito de "simbólico"11
La IA debía implementar reglas en las computadoras a través de programas, de modo que las
representaciones de alto nivel pudieran manipularse. El surgimiento de la IA constituyó así un verdadero
movimiento “anti-inductivo” en el que la lógica tuvo que contrarrestar la “quimera” del enfoque
conexionista, acusado de negarse a definir el procesamiento de datos independiente de los procesos
físicos y de proponer una teoría de la mente. (Minsky, 1986)12. Como muestra la cronología
9 Tenga en cuenta que a principios de la década de 1960, el trabajo en redes neuronales se consideraba una vía potencial para la IA. Muy
rápidamente se convirtió en un campo minoritario, antes de quedar completamente marginado dentro del campo emergente, pero las grandes
conferencias a principios de la década de 1960 aún reunieron a investigadores de las escuelas de pensamiento simbólica y conexionista (Anderson
y Rosenfeld, 1988).
10 Sobre
la historia de los inicios de la IA, véanse Crevier (1997), McCorduck (1979) y Nilsson (2010).
11 Tambiénllamado LGAI para IA basada en lógica, AGI (inteligencia artificial general), "fuerte" o "IA completa", y hoy, "buena IA pasada
de moda" (Haugeland, 1985).
12Las expresiones citadas están extraídas de la transcripción de los archivos del taller: http: // raysolomonoff.com/dartmouth/,
recuperado el 05/10/2018. Con respecto al deseo de romper con la cibernética, nadie es más explícito que John McCarthy
- 10-
(Figura 3), el enfoque simbólico prevaleció en la producción científica en el campo de la IA desde mediados de la década
de 1960 hasta principios de la de 1990.
Inicialmente se basó en el trabajo de Herbert Simon, realizado junto a Alan Newell en RAND en la década
de 1950. En 1956 escribieron el primer programa destinado a simular la toma de decisiones de las
máquinas, The Logic Theorist (1956), con el anuncio, que se convertiría en un hábito típico entre los
investigadores de inteligencia artificial, que "en Navidad, Allen Newell y yo inventamos una máquina
pensante". (McCorduck, 2004: 168). El razonamiento modelado fue la característica central de esta primera
ola de IA, que abarcó el período desde 1956 hasta principios de la década de 1970. Este campo de
investigación pronto consistió en un pequeño grupo del MIT (Minsky, Papert), Carnegie Mellon (Simon,
Newell) y la Universidad de Stanford (McCarthy). A pesar de las diferencias internas, este círculo cerrado
estableció un monopolio sobre la definición de los problemas de IA y obtuvo la mayoría de los fondos
(grandes) y el acceso a enormes sistemas informáticos. De 1964 a 1974 recibieron el 75% de la financiación
para la investigación de la IA concedida por la ARPA y la Fuerza Aérea (Fleck, 1982: 181), y se beneficiaron
de las escasas capacidades de cálculo necesarias para sus proyectos. En la ARPA, contaron con el apoyo
inquebrantable de Joseph Licklider, quien financió proyectos simbólicos mientras los justificaba en
términos de sus hipotéticas aplicaciones militares.
Esta toma del poder por parte de la escuela simbólica sobre la entonces difusa y muy abierta definición de máquinas inteligentes tomó la forma de una excomunión, pronunciada en el libro que Marvin Minsky y
Seymour Papert (1969) dedicaron a demostrar la ineficacia de las redes neuronales. A principios de la década de 1960, los enfoques conexionistas heredados de la cibernética temprana experimentaron un cierto
grado de entusiasmo, impulsados por el éxito mediático del Perceptron de Frank Rosenblatt. Aunque, como estudiante, el propio Marvin Minsky desarrolló redes neuronales (Snarc, 1951), deseaba confirmar la
preeminencia matemática de la IA simbólica sobre la naturaleza "mística" "rodeada de una atmósfera romántica" de lo autoorganizado y sistemas distribuidos de conexionistas (Minsky y Papert, 1969, nota 13).
Apuntando a una versión limitada y simplificada de una sola capa del Perceptron, él y Seymour Papert demostraron que las redes neuronales eran incapaces de calcular la función XOR (el OR exclusivo) y, por lo
tanto, no tenían futuro. Como muestra Mikel Olazaran (1996), la estrategia de Minsky y Papert fue escribir la preeminencia de la escuela simbólica en la definición de inteligencia artificial. Aunque los efectos del
libro probablemente fueron más allá de las intenciones de sus autores, sus consecuencias serían definitivas. Tras la muerte prematura de Frank Rosenblatt en 1971, se abandonaron las redes neuronales, se recortó
su financiación y el trabajo que iba a perpetuar su esencia se llevaría a cabo fuera del campo de la IA. él y Seymour Papert demostraron que las redes neuronales eran incapaces de calcular la función XOR (el OR
exclusivo) y, por lo tanto, no tenían futuro. Como muestra Mikel Olazaran (1996), la estrategia de Minsky y Papert fue escribir la preeminencia de la escuela simbólica en la definición de inteligencia artificial. Aunque
los efectos del libro probablemente fueron más allá de las intenciones de sus autores, sus consecuencias serían definitivas. Tras la muerte prematura de Frank Rosenblatt en 1971, se abandonaron las redes
neuronales, se recortó su financiación y el trabajo que iba a perpetuar su esencia se llevaría a cabo fuera del campo de la IA. él y Seymour Papert demostraron que las redes neuronales eran incapaces de calcular la
función XOR (el OR exclusivo) y, por lo tanto, no tenían futuro. Como muestra Mikel Olazaran (1996), la estrategia de Minsky y Papert fue escribir la preeminencia de la escuela simbólica en la definición de
inteligencia artificial. Aunque los efectos del libro probablemente fueron más allá de las intenciones de sus autores, sus consecuencias serían definitivas. Tras la muerte prematura de Frank Rosenblatt en 1971, se
abandonaron las redes neuronales, se recortó su financiación y el trabajo que iba a perpetuar su esencia se llevaría a cabo fuera del campo de la IA. Aunque los efectos del libro probablemente fueron más allá de
las intenciones de sus autores, sus consecuencias serían definitivas. Tras la muerte prematura de Frank Rosenblatt en 1971, se abandonaron las redes neuronales, se recortó su financiación y el trabajo que iba a
perpetuar su esencia se llevaría a cabo fuera del campo de la IA. Aunque los efectos del libro probablemente fueron más allá de las intenciones de sus autores, sus consecuencias serían definitivas. Tras la muerte
prematura de Frank Rosenblatt en 1971, se abandonaron las redes neuronales, se recortó su financiación y el trabajo que iba a perpetuar su esencia se llevaría a cabo fuera del campo de la IA.
Un espacio para manipular símbolos
La característica principal de la arquitectura de las máquinas simbólicas es que rompen los lazos con el
mundo y abren un espacio de razonamiento independiente dentro de sucalculadora. La llamada
configuración “von Neumann” de las nuevas computadoras implementadas en la década de 1950
estableció este mismo espacio. Mientras que el ENIAC (1946) fue diseñado para calcular tablas balísticas
mediante la "programación" de la máquina en el hardware, el proyecto EDVAC (1952) separó el
(1988): “En cuanto a mí, una de las razones por las que inventé el término“ inteligencia artificial ”fue alejarme de la asociación con la“
cibernética ”. Este enfoque en la retroalimentación me parecía incorrecto y quería evitar tener que aceptar a Norbert Wiener como un
gurú o tener que hablar con él ”.
- 11-
operaciones lógicas realizadas sobre los símbolos (software) de la estructura física de las máquinas
(hardware) (von Neumann, 1945). De esta manera, el programa obtuvo su propio espacio
independiente del funcionamiento físico de la computadora. Se convirtió en una
“computadora automática universal con un programa centralizado” (Goldstine, 1972:
198-199) y la programación, independiente de los procesos de hardware, pudo liberarse
para hacerse “en papel”, como expresó Alan Turing (2004: 21). eso. Paul Edwards (1996)
muestra cómo, con la aparición de sofisticados lenguajes de programación similares a los
lenguajes humanos, y posteriormente compilados en lenguaje máquina representado por
0 y 1, la máquina física podría separarse de la máquina simbólica. Por tanto, la inteligencia
artificial podría considerarse como la ciencia de la mente en la máquina. Una de las
primeras contribuciones de la IA a la informática estuvo relacionada precisamente con el
diseño de lenguajes de programación, el más famoso de los cuales fue LISP,13.
Tan pronto como se creó en la calculadora, este espacio de programación estuvo disponible para
manipular símbolos. La IA nació el mismo año que la ciencia cognitiva (1956), y juntos los dos campos
darían forma a los esfuerzos para dar a las computadoras una capacidad de razonamiento (Gardiner,
1985). Al contrario de la psicología conductista, que inspiró las "cajas negras" adaptativas de la cibernética,
el objetivo de la ciencia cognitiva era otorgar capacidades lógicas y abstractas a las máquinas. Y a
diferencia del conexionismo, estos campos no mostraron interés en la fisiología y el comportamiento
humanos, prestando atención solo al razonamiento. La teoría computacional de la mente estableció una
dualidad, postulando que los estados mentales podrían describirse tanto en forma física como un
conjunto de instancias físicas de procesamiento de información, como en forma simbólica como
operaciones mecánicamente ejecutables de comparar, clasificar o inferir significado ( Andler,
2016). Esta hipótesis de los "sistemas de símbolos físicos" establece que la mente no accede
directamente al mundo, sino que consiste en representaciones internas del mundo que pueden
describirse y organizarse en forma de símbolos insertados en programas.
Un mundo de "juguetes"
Los fundadores de la IA hicieron todo lo posible para separar los datos del mundo sensorial y el
comportamiento humano.14. El mundo de las máquinas simbólicas era un escenario teatral creado
por la máquina para proyectar en él la sintaxis de sus reglas lógicas: ajedrez o juegos de damas
(Arthur Samuel), teoremas de geometría (con Geometry Theorem Prover de Herbert Gelertner),
fondos de videojuegos. Los proyectos emblemáticos de esta primera ola de IA se caracterizaron por
la invención de espacios simplificados de formas que deben ser reconocidas y movidas, como los
MicroWorlds (MAC) de Marvin Minsky o el famoso lenguaje SHLURDU de Terry Winograd. Al igual que
el espacio limitado con algunas habitaciones y objetos en los que se supone que se mueve el robot
Shakey, es un "juguete" ficticio15 espacio en el que los objetos pueden ser fácilmente
13 Otra contribución de J. McCarthy al desarrollo de la IA fue la invención del tiempo compartido, que permitió a los
programadores interactuar directamente con la máquina y sus resultados, comunicarse con ella, probarla y hacerla
"inteligente" al hacerlo. (Edwards, 1996).
14 Como subraya J. Markoff (2015), toda la historia de la informática se sustenta en la oposición entre personas que promueven
la inteligencia en las máquinas (inteligencia artificial - IA), encarnada por SAIL, el laboratorio de John McCarthy en Stanford, y
personificada por la obsesión por la robótica. ; y personas que buscan distribuir inteligencia entre humanos e interfaces de
máquina (amplificación de inteligencia - IA), de las cuales el laboratorio vecino de D. Engelbard sería un baluarte muy
productivo, y que daría lugar a la escuela de interacción humano-computadora (HCI). Véase también Grudin (2009).
15 Minsky y Papert describieron MicroWorlds como “un país de hadas en el que las cosas están tan simplificadas que cualquier declaración sobre
ellas sería literalmente falsa si se afirma en el mundo real” (Minski y Papert, 1970: 36). La hipótesis que sustenta esta reducción
- 12-
asociado con la sintaxis de las reglas, que se calculan para producir el comportamiento relevante del
sistema.
Si elcalculadora proyectos propiosmundo, esto también se debe a que su objetivo es contener su propioobjetivo.
Es así como esta IA ha podido afirmar que es “fuerte”, porque los objetivos que se le dan al sistema le
son específicos y pueden deducirse de una especie de razonamiento incorporado a las inferencias
lógicas que hacen los modelos. Los lenguajes sumamente ingeniosos inventados para dar forma a la
sintaxis de estos sistemas son todos inferenciales. Organizan en etapas las operaciones elementales
de procesamiento que transforman entidades, cada una de las cuales es una inferencia de un cálculo
correcto (Andler, 1990: 100): un árbol de decisiones, cadena intermedia de razonamiento, desglose
de metas y subobjetivos, y medios-fines. análisis. El objetivo racional del cálculo se incluye en la
sintaxis del programa. La máquina debe resolver el problema, encontrar la solución verdadera o
correcta y tomar la decisión correcta.dieciséis. Por tanto, no era necesario darle la respuesta correcta (ya
que laejemplos de técnicas de aprendizaje sería suficiente), porque las reglas tienen que llevarlo a
esto, siguiendo las inferencias de la calculadora. Debido a que la sintaxis del razonamiento y la
semántica de los objetos manipulados se construyeron dentro de la calculadora, fue posible
confundirlos entre sí en razonamientos correctos y más o menos deterministas, pero a expensas de
un diseño artificial en el que el " mundo inteligente ”fue el implementado por el diseñador; un
mundo regulado, preciso y explícito, para que el razonamiento sea su objetivo. Si bien estas
máquinas eran capaces de lograr ciertos rendimientos en un entorno cerrado, rápidamente
demostraron ser ciegas y estúpidas tan pronto como se enfrentaron a un mundo externo.
El primer invierno de IA
A principios de la década de 1970, la IA entró en su primer invierno, que congeló tanto los proyectos
simbólicos como los conexionistas. Las dos corrientes habían hecho muchas promesas y los resultados
estaban lejos de cumplir con las expectativas. En el lado conexionista, Perceptron de Frank Rosenblatt se
había visto perjudicado por la exposición mediática en la que había participado liberalmente su
proponente, con la complicidad de la Marina de los Estados Unidos. Entre una plétora de titulares de los
medios de comunicación entusiastas por la inminente llegada de las máquinas inteligentes,New York
Times anunció: “La semana pasada, la Marina demostró el embrión de una computadora electrónica
llamada Perceptron que, cuando se complete en aproximadamente un año, se espera que sea el primer
mecanismo no vivo capaz de 'percibir, reconocer e identificar su entorno sin entrenamiento humano o
control'"17. Sin embargo, fue especialmente dentro de la IA simbólica, con Herbert Simon y Marvin Minsky
a la cabeza, donde las profecías y anuncios exagerados fueron rápidamente decepcionantes. Aturdidos
con las promesas de los investigadores, el ejército y la DARPA habían pensado que pronto tendrían
máquinas para traducir textos en ruso, robots para infiltrarse en las líneas enemigas o sistemas de
comando de voz para pilotos de tanques y aviones, pero descubrieron que los sistemas "inteligentes"
anunciaban son solo juegos artificiales que se juegan en entornos sintéticos. En 1966, el Consejo Nacional
de Investigación recortó los fondos para la traducción automática, una decisión premonitoria que
desencadenaría una cascada de desinversiones por parte de los partidarios financieros y académicos de AI.
era que una representación en red de conceptos abstractos dentro de MicroWorlds podría luego generalizarse a un mundo más
completo y detallado. Los conexionistas debían utilizar el razonamiento opuesto: es la descripción de la información en el nivel más
elemental lo que posteriormente permite que la red generalice.
dieciséis Por ejemplo, este es el punto de vista implementado con el análisis de fines / medios del General Problem Solver de Newell y Simon
(1963).
17 “Electronic 'Brain' Teaches Itself”, New York Times, 13 de julio de 1958.
- 13-
A principios de la década de 1970, el proyecto MicroWorlds de Minsky y Papert en el MIT

experimentó dificultades y perdió su apoyo. En Stanford, el robot Shakey ya no recibió financiación
militar y el programa de reconocimiento de voz DARPA SUR que beneficiaba a Carnegie Mellon se
cerró abruptamente. En Inglaterra, los muy críticosInforme Lighthill en 1973 también contribuiría a
detener la financiación pública de la IA (Crevier, 1997: 133-143).
Con la crisis de financiación, comenzaron a dirigirse críticas cada vez más visibles contra la empresa
misma de modelar lógicamente el razonamiento. En 1965, la RAND ordenó a Hubert Dreyfus que
escribiera un informe sobre IA, que tituló “Alquimia e inteligencia artificial”, y que utilizó un argumento
vigoroso que luego desarrolló en la primera edición de su exitoso libro.Lo que las computadoras no
pueden hacer (Dreyfus, 1972). Amarga e intensa, la controversia entre el establishment de la IA y Hubert
Dreyfus socavó considerablemente la idea de que las reglas racionales podían hacer que las máquinas
fueran "inteligentes". La definición explícita de reglas lógicas estaba completamente desprovista de las
formas corporales, situadas, implícitas, encarnadas, colectivas y contextuales de la percepción, orientación
y decisiones de los comportamientos humanos.18. También criticó la primera generación de “renegados”,
quienes se convirtieron en importantes opositores a las esperanzas que ellos mismos habían expresado;
por ejemplo, Joseph Weizenbaum (1976), el fundador de ELIZA, y Terry Winograd, el diseñador
decepcionado de SHRDLU (Winograd y Flores, 1986). Las máquinas "inteligentes" razonaban de acuerdo
con elegantes reglas de lógica, una sintaxis determinista y objetivos racionales, pero su mundo no existía.
LA SEGUNDA ONDA DE IA: UN MUNDO DE EXPERTOS

Sin embargo, la IA experimentó una segunda primavera durante la década de 1980, cuando propuso una
modificación significativa a la arquitectura de las máquinas simbólicas bajo el nombre de "sistemas
expertos".19. Este renacimiento fue posible gracias al acceso a calculadoras más potentes que permitían
ingresar volúmenes de datos mucho mayores en la memoria de la computadora. Por tanto, los mundos de
los "juguetes" podrían sustituirse por un repertorio de "conocimientos especializados" extraídos del
conocimiento de los expertos.20. Los artefactos de la IA de segunda generación interactuaron con un
mundo externo que no había sido diseñado y moldeado por programadores. Ahora estaba compuesto por
conocimientos que tenían que ser obtenidos de especialistas en diferentes campos, transformados en un
conjunto de proposiciones declarativas y formulados en un lenguaje lo más natural posible (Winograd,
1972) para que los usuarios pudieran interactuar con ellos preguntando preguntas (Goldstein y Papert,
1977). Esta externalidad de lamundo calcular llevó a una modificación en la estructura de las máquinas
simbólicas, separando el "motor de inferencia" en lo que posteriormente constituiría la calculadora y una
serie de posiblesmundos denominados “sistemas de producción”, según la terminología propuesta por
Edward Feigenbaum para DENDRAL, el primer sistema experto que pudo identificar los componentes
químicos de los materiales. Los datos que proporcionaron estas bases de conocimiento consistieron en
listas largas, fácilmente modificables y revisables de reglas del tipo “SI… ENTONCES” (por ejemplo: “SI
FIEBRE, ENTONCES [BUSCAR
18 Siguiendo el libro de H Dreyfus, y a menudo en contacto con las ciencias sociales y las humanidades, se desarrolló una escuela muy productiva de
crítica de la IA en torno a la crítica Wittgensteiniana de las reglas. Resultó en un trabajo sobre la distribución de la inteligencia dentro del espacio
(Collins), la forma colectiva de cognición (Brooks) o la mente encarnada (Varela).
19 Los otros nombres para las máquinas inteligentes durante la segunda ola de IA son: "sistemas inteligentes basados en el conocimiento",
"ingeniería del conocimiento", "automatización de oficinas" o "sistemas multiagente".
20 En1967, durante una conferencia en Carnegie ante A. Newell y H. Simon, E. Feigenbaum desafió a sus antiguos profesores: “Ustedes
están trabajando en problemas de juguetes. El ajedrez y la lógica son problemas de juguete. Si los resuelve, habrá resuelto el problema
de un juguete. Y eso es todo lo que habrás hecho. Sal al mundo real y resuelve problemas del mundo real ”(Feigenbaum y McCorduck,
1983: 63).
- 14-
INFECCIÓN] ”), que se disociaron del mecanismo permitiendo decidir cuándo y cómo aplicar la regla
(motor de inferencia). MYCIN, la primera implementación de una base de conocimiento de 600 reglas
destinadas al diagnóstico de enfermedades infecciosas de la sangre, fue el punto de partida, en la
década de 1980, del desarrollo de la ingeniería del conocimiento que se aplicaría esencialmente a
contextos científicos e industriales: XCON (1980) ayudó los clientes de las computadoras DEC los
configuran; DELTA (1984) identificó averías de locomotoras; El PROSPECTOR detectó depósitos
geológicos, etc. (Crevier, 1997, a partir de la p. 233). Las industrias a gran escala desarrollaron
equipos de IA como parte de su organización; los investigadores se iniciaron en la aventura
industrial; los inversores se apresuraron hacia este nuevo mercado; empresas crecieron a un ritmo
excepcional (Teknowledge, Intellicorp, Inferencia) - siempre con el fiel apoyo de ARPA (Roland y
Shiman, 2002) -; y los medios de comunicación se apoderaron del fenómeno, anunciando una vez
más la inminente llegada de las “máquinas inteligentes” (Waldrop, 1987).
Los santuarios de las reglas
Frente a las críticas al rígido computacionalismo de la primera era que inventó un universo abstracto
sin vínculos realistas con el mundo, la investigación de la IA emprendió un proceso de arriba hacia
abajo para completar, intelectualizar y abstraer los sistemas conceptuales destinados a manipular las
entidades de estos nuevos conocimientos. bases. El movimiento simbólico fortaleció así su objetivo
de racionalización al poner un énfasis excesivo en el modelado para abarcar una variedad de
contextos, imperfecciones en el razonamiento y la multiplicidad de heurísticas, acercándose así al
mundo del usuario a través de la intermediación de expertos. Esta dedicación a la programación de
la calculadora se caracterizó por una mayor flexibilidad de los operadores lógicos (sintaxis) y la
densificación de las redes conceptuales utilizadas para representar el conocimiento (semántica). El
movimiento observado en la investigación de la IA buscó desunificar el mecanismo central, genérico
y determinista del razonamiento computacional para multiplicar, descentralizar y probabilizar las
operaciones realizadas sobre el conocimiento. Partiendo de discusiones en torno a la modularidad
de la mente en particular (Fodor, 1983), los sistemas implementados en las calculadoras dividieron el
proceso de razonamiento en bloques elementales de "agentes" interactuantes que
independientemente podrían tener diferentes formas de movilizar el conocimiento e inferir
consecuencias de él.21. Así, fue dentro de la organización semántica de los significados de las
heurísticas tomados de las bases del conocimiento donde se diseñaron las principales innovaciones
de la segunda ola de IA simbólica. Utilizaron lenguajes (PROLOG, MICROPLANNER, CYCL) y
construcciones intelectuales con un grado raro de sofisticación, por ejemplo el principio de listas; la
noción de “dependencia conceptual” detallada por Robert Schank; Las redes semánticas de Ross
Quillian, etc. La obra maestra inconclusa de estas múltiples iniciativas fue Cyc de Douglas Lenat, una
ontología general del conocimiento de sentido común basada en una arquitectura de "predicados
fundamentales", "funciones de verdad" y "micro-teorías", que todos en la comunidad de IA
admiraban pero nadie usó.
El creciente volumen de conocimiento entrante y la complejización de las redes de conceptos

destinados a manipularlo fueron la causa de otro cambio a gran escala: las reglas lógicas se
volvieron condicionales y podrían “probabilizarse”. Con respecto al enfoque racional y lógico
representado por John McCarthy, desde la década de 1970 Marvin Minsky y Seymour
21 Lateoría de los "marcos" de M. Minsky (1975) fue muy influyente en este proceso y condujo a una teoría que lo abarca todo en The
Society of Mind (1986).
- 15-
Papert defendió la idea de que “la dicotomía correcto / incorrecto es demasiado rígida. Al tratar con
heurística en lugar de lógica, la categoría verdadero / falso es menos importante que fructífera / estéril.
Naturalmente, el objetivo final debe ser encontrar una verdadera conclusión. Pero, les guste o no a los
lógicos y puristas, el camino hacia la verdad pasa principalmente por aproximaciones, simplificaciones y
corazonadas plausibles que en realidad son falsas cuando se toman literalmente ”(Minsky y Papert, 1970:
41). Entre las miles de reglas formuladas por los expertos, es posible, en base a una premisa fija
(SI…), establecer una probabilidad de si la segunda proposición (ENTONCES…) tiene la
posibilidad de ser cierta. La probabilización de las reglas del conocimiento significó que la forma
determinista del razonamiento inferencial que había experimentado su momento de gloria
durante la primera era de la IA podía relajarse. Al volverse más realista, diverso y contradictorio,
el conocimiento que ingresa a las máquinas de predicción también les introdujo probabilidad
(Nilsson, 2010: 475). Cuando el par "fructífero / estéril" reemplazó al par "verdadero / falso", el
objetivo proporcionar el objetivo de la calculadora parecía ser menos una verdad lógica que una
estimación de la exactitud, relevancia o verosimilitud de las respuestas proporcionadas por el
sistema. Sin embargo, esta estimación ya no podía ser atendida esencialmente por las reglas de la
calculadora; tenía que externalizarse hacia un mundo compuesto por expertos, que se movilizaron
para proporcionar ejemplos y contraejemplos de mecanismos de aprendizaje automático22.
Con la probabilización de inferencias, estas técnicas penetraron más profundamente en el campo de la IA para
completar tareas que se habían vuelto imposibles de completar para los programadores "a mano" (Carbonnellet
al., 1983). Siguiendo el trabajo de Tom Mitchell (1977), los métodos de aprendizaje podrían describirse como una
solución estática para encontrar el mejor modelo dentro de unespacio de hipótesis -
o "versiones" - generadas automáticamente por la calculadora. Con los sistemas expertos, este espacio de
hipótesis estaba altamente estructurado por la naturaleza de los datos de entrada,es decir, el
conocimiento". El mecanismo de aprendizaje “explora” las múltiples versiones de modelos producidos por
la calculadora para buscar una hipótesis consistente, haciendo uso de inferencias lógicas para construir
razonamientos (generalización de conceptos, subsunción, deducción inversa). Los métodos estadísticos
para eliminar hipótesis potenciales también maduraron y desarrollaron, produciendo razonamientos
basados en inferencias como árboles de decisión (que posteriormente dieron lugar a bosques aleatorios,
técnicas de “divide y vencerás” o redes bayesianas que sirvieron para ordenar dependencias entre
variables con formalismo causalista (Domingos, 2015)). Incluso cuando estaba automatizado, el
descubrimiento automático de una función objetivo conservó la idea de que los modelos son hipótesis y
que, aunque las máquinas ya no aplicaban cierto tipo de razonamiento deductivo, eligieron el mejor
razonamiento posible entre un conjunto de posibles razonamientos. Sin embargo, a principios de la
década de 1990, un cambio en la naturaleza de los datos que constituyen el mundo de entrada de la
calculadora condujo a un cambio en el campo del aprendizaje automático. Había más datos, ya no estaba
organizado en forma de variables etiquetadas o conceptos interdependientes, y pronto perdió su
inteligibilidad al convertirse en vectores numéricos (infra) . Al dejar de poseer una estructura, los datos
solo podían recopilarse en forma de proximidad estadística. En consecuencia, hubo un cambio en el
campo del aprendizaje automático de métodos "basados en la exploración" a métodos "basados en la
optimización" (Cornuéjolset al., 2018, pág. 22), que derribaría los santuarios de las reglas en beneficio de
cálculos estadísticos masivos.
22Para los discípulos de la lógica como A. Newell, tal posición era una herejía: “tienes a todos estos expertos trabajando para ti y cuando
tienes un problema, decides a qué experto llamar para resolver el problema” (McCorduck, 1979: 267) .
- dieciséis-
Al expandir cada vez más el volumen y el realismo de los datos a calcular, el mecanismo
inductivo cambió de dirección dentro de la calculadora. Si los datos ya no proporcionaban
información sobre las relaciones entre sí (categorías, dependencias entre variables, redes
conceptuales), entonces, para identificar la función objetivo, el mecanismo inductivo tenía
que depender de los criterios de optimización finales para llevar a cabo la distribución
correcta (Cornuéjolset al., 2018: 22). La transformación en la composición del mundo para
aprender llevó a los investigadores a modificar el método inductivo implementado y, al
hacerlo, a proponer una arquitectura completamente diferente para las máquinas
predictivas. Este cambio se aceleró con las redes neuronales (infra), pero ya se había
preparado el turno dentro del mundo del aprendizaje automático. Dado que los datos eran
cada vez menos “simbólicos”, el mecanismo inductivo ya no buscaba el modelo en la
estructura de los datos iniciales, sino en el factor de optimización (Mazières, 2016). El
objetivo de cálculo ya no era interno de la calculadora, sino más bien un valor que el
mundo le asignaba desde el exterior, y que muy a menudo era "humano", como lo
demuestra todo el trabajo manual para etiquetar datos: ¿esta imagen contiene un
rinoceronte? (o no)? ¿Este usuario hizo clic en este enlace (o no)? La respuesta (el criterio de
optimización) debe ingresarse en la calculadora junto con los datos para que el primero
pueda descubrir un “modelo” adecuado. Los nuevos métodos de aprendizaje automático
(SVM,
Los magníficos santuarios erigidos por los constructores de sistemas expertos no cumplieron sus promesas. Pronto
demostraron ser extremadamente complejos y muy limitados en su desempeño. El mercado altamente dinámico que se
había desarrollado a mediados de la década de 1980 colapsó repentinamente y las prometedoras empresas de
inteligencia artificial quebraron, en particular porque para vender sistemas expertos, también tenían que vender
estaciones de trabajo especializadas llamadas "máquinas LISP" a precios exorbitantes, en un momento en que el El
mercado de PC estaba en aumento (Markoff, 2015: 138 en adelante). La disminución del costo y el aumento de la
capacidad de cálculo durante la década de 1980 hicieron que las calculadoras poderosas fueran accesibles a las
escuelas de pensamiento heterodoxas y desviadas que habían sido excluidas de la financiación de grandes proyectos de
informática como resultado del monopolio de la escuela simbólica (Fleck, 1987:
153). El control del pequeño círculo de universidades influyentes sobre la definición “simbólica” de IA
se debilitó, dado que los sistemas expertos produjeron resultados muy limitados en los campos de
síntesis de voz, reconocimiento de formas y otros sectores. La IA simbólica era tan débil a principios
de la década de 1990 que el término casi desapareció del léxico de la investigación. La creación de
depósitos infinitos de reglas explícitas para transmitir las miles de sutilezas de la percepción, el
lenguaje y el razonamiento humano se vio cada vez más como una tarea imposible, irrazonable e
ineficaz (Collins, 1992; Dreyfus, 2007).
LAS REPRESENTACIONES DISTRIBUIDAS DEL APRENDIZAJE PROFUNDO
Fue en este contexto y en el final de la fase depresiva que había comenzado a finales de la década de
1960, cuando los enfoques conexionistas experimentaron un resurgimiento en las décadas de 1980 y
1990, con una inmensa cantidad de creatividad teórica y algorítmica. Tras una reunión en junio de
1979 en La Jolla (California), organizada por Geoff Hinton y James Anderson, un grupo de
investigación interdisciplinario compuesto por biólogos, físicos e informáticos propuso una vez más
volver su atención a la naturaleza paralela y distribuida masivamente de mental
- 17-
procesos para encontrar una alternativa al cognitivismo clásico. Este grupo adquirió una visibilidad
real en 1986 con la publicación de dos volúmenes de investigación bajo el nombreProcesamiento
distribuido en paralelo (PDP), término elegido para evitar la reputación negativa de
"conexionismo" (Rumelhartet al., 1986b). A diferencia de los enfoques secuenciales del razonamiento
informático y simbólico, el PDP exploró las microestructuras de la cognición, una vez más utilizando
la metáfora de las neuronas para diseñar un contramodelo con propiedades originales: las unidades
elementales se unieron mediante una vasta red de conexiones; el conocimiento no se almacena
estáticamente, sino que reside en la fuerza de las conexiones entre unidades; estas unidades se
comunicaban entre sí a través de un mecanismo de activación binario (“la moneda de nuestro
sistema no son los símbolos, sino la excitación y la inhibición”, p. 132); estas activaciones ocurrieron
todo el tiempo, en paralelo, y no siguiendo las etapas de un proceso; no había un control central
sobre los flujos; una subrutina no desencadenaba el comportamiento de otra, sino que los
subsistemas modulaban el comportamiento de otros subsistemas produciendo restricciones que se
incluían en los cálculos; y las operaciones realizadas por la máquina eran similares a un sistema de
relajación en el que el cálculo procedía iterativamente a realizar aproximaciones para satisfacer un
gran número de restricciones débiles (“el sistema debería pensarse máscomo asentarse en una
solución quecalculador una solución ”, pág. 135). El dispositivo de los conexionistas creó
representaciones internas, y estas representaciones podían ser de alto nivel, pero eran "sub-
simbólicas", estadísticas y distribuidas (Smolensky, 1988). Como transmite este breve resumen, el
enfoque conexionista no fue un método simple sino más bien una construcción intelectual muy
ambiciosa destinada a revertir totalmente el cognitivismo computacional:
«Creo que en los primeros días, allá por los años 50, personas como von Neumann y Turing no creían en la IA
simbólica. Estaban mucho más inspirados por el cerebro. Desafortunadamente, ambos murieron demasiado
jóvenes y no se escuchó su voz. En los primeros días de la IA, la gente estaba completamente convencida de que
las representaciones que necesitabas para la inteligencia eran expresiones simbólicas de algún tipo, una especie
de lógica limpia en la que puedes hacer cosas no monótonas, y no del todo lógicas, sino como la lógica, y que la
esencia de la inteligencia era el razonamiento. Lo que ha sucedido ahora es que hay una visión completamente
diferente, que es que lo que es un pensamiento, es solo un gran vector de actividad neuronal. Entonces, contrasta
eso con un pensamiento que es una expresión simbólica. Creo que las personas que pensaban que los
pensamientos eran expresiones simbólicas cometieron un gran error. Lo que entra es una cadena de palabras y lo
que sale es una cadena de palabras, y por eso, las cadenas de palabras son la forma obvia de representar las cosas.
Entonces, pensaron que lo que debía haber en el medio era una cadena de palabras, o algo así como una cadena
de palabras. Y creo que lo que hay en el medio no se parece en nada a una cadena de palabras. […] Los
pensamientos son solo estos grandes vectores y estos grandes vectores tienen poderes causales; causan otros
vectores grandes, y eso es completamente diferente a la vista estándar de IA […] Los pensamientos son solo estos
grandes vectores y estos grandes vectores tienen poderes causales; causan otros vectores grandes, y eso es
completamente diferente a la vista estándar de IA […] Los pensamientos son solo estos grandes vectores y estos
grandes vectores tienen poderes causales; causan otros vectores grandes, y eso es completamente diferente a la
vista estándar de IA23. »
Si bien estas referencias epistémicas han perdido su ventaja para los nuevos usuarios pragmáticos de las
redes neuronales de hoy, que nunca experimentaron la exclusión y la burla a las que fueron sometidos sus
predecesores, fueron un impulsor constante de la búsqueda incesante de la realidad.
23 Hinton G., "Héroes del aprendizaje profundo: Andrew Ng entrevistas a Geoffrey Hinton", YouTube, 8 de agosto de 2017 (a partir de 37'20).
- 18-
proyecto conexionista. Lo que había que insertar entre las cadenas de palabras que entraban y las
que salían no era un modelo programado por la mente de un lógico, sino una red de entidades
elementales que adaptaba sus coeficientes a entradas y salidas. En la medida de lo posible, era
necesario que "hiciera esto por sí mismo", y eso requirió muchos artefactos.
Reconfigurando el conexionismo a partir de algoritmos
A principios de la década de 1980, en línea con el trabajo de John Hopfield, quien propuso una
versión revisada del modelo Perceptron que le daba a cada neurona la posibilidad de actualizar
sus valores de forma independiente, el físico Terry Sejnowski y el psicólogo inglés Geoff Hinton
desarrollaron nuevos arquitecturas para redes neuronales (llamadas máquinas de Boltzmann).
También diseñaron Nettalk, un sistema con tres capas de neuronas y 18.000 sinapsis que logró
transformar textos en frases habladas. Sin embargo, el verdadero punto de inflexión en este
resurgimiento fue la creación de un algoritmo llamado retropropagación de gradiente
estocástico ("backprop" para abreviar), que permitió calcular los pesos de los coeficientes
(Rumelhartet al., 1986a). Contradecir las críticas de Minsky y Papert
(1969), los autores demostraron que cuando las redes tienen múltiples capas, se pueden
entrenar fácilmente, ya que las capas adicionales de neuronas les permiten aprender funciones
no lineales. El algoritmo funciona tomando la derivada de la función de pérdida de red y
"propaga" su error para corregir los coeficientes en los niveles inferiores de la red.24. De manera
similar a las máquinas cibernéticas, el error de salida se “propaga” hacia las entradas (Figura 5).
Figura 5. Operación de una red neuronal simple
Con la existencia de un algoritmo de propósito general que sirvió para optimizar cualquier tipo de
red neuronal, las décadas de 1980 y 1990 fueron un período notable de inventiva que fuertemente
24 Existe
un debate en torno a la anterioridad del algoritmo "backprop". Este método había sido formulado y utilizado en múltiples
ocasiones antes de la publicación de este artículo, en particular por Linnainmaa en 1970, Werbos en 1974 y LeCun en 1985.
- 19-
Influyó en el resurgimiento del conexionismo. Uno de los primeros éxitos fue su aplicación
por parte de Yann LeCun al reconocimiento de códigos postales realizado en AT&T Bell
Labs (Lecunet al., 1989), que "inventó" la técnica de convolución. Utilizando la base de datos
del Servicio Postal de EE. UU., Tuvo éxito en la formación de una red de múltiples capas
para reconocer los números de código postal escritos en los paquetes. Su enfoque exitoso
se convirtió en una de las primeras aplicaciones comerciales generalizadas de las redes
neuronales, primero en los sectores bancario (verificación de los montos de los cheques) y
postal. A esto le siguió una serie de propuestas para integrar un mayor número de capas
ocultas, para complejizar el mapa de conexiones (codificadores), para diversificar las
funciones de optimización (ReLU), para integrar la memoria en capas de red (redes
recurrentes y LSTM), para hacer aprendizaje no supervisado y supervisado dependiente de
la parte de la red (red de creencias), etc. (Kurenkov, 2015). De una forma muy creativa,
"¡Puede que no sean convexos, pero son más efectivos!"
A pesar de que estos algoritmos sentaron las bases de la mayoría de los enfoques que ahora se conocen
como aprendizaje profundo, su invención no fue coronada de inmediato por el éxito. De 1995 a 2007, el
apoyo institucional se volvió muy escaso, los trabajos fueron rechazados en las conferencias y los
resultados obtenidos siguieron siendo limitados. "Pasaron por un invierno colosal" ,
dice un investigador de visión por computadora. "TLa verdad es que, en ese momento, nadie podía conseguir esas máquinas.
trabajar. Había cinco laboratorios en el mundo que sabían cómo, pero no logramos capacitarlos"25.
Los investigadores que mantenían estas técnicas en torno a Geoff Hinton, Yann LeCun y Yoshua
Bengio eran un grupo pequeño y aislado, pero cohesionado, cuyo apoyo exclusivo provenía del
Instituto Canadiense de Investigación Avanzada (CIFAR). Su situación se volvió aún más difícil en
1992 ante el surgimiento de una técnica de aprendizaje original: las máquinas de vectores de
soporte, también llamadas "métodos de kernel", que demostraron ser muy efectivas en pequeños
conjuntos de datos. Ya exiliados de la comunidad de inteligencia artificial, los conexionistas se
encontraron una vez más al margen de la comunidad de aprendizaje automático.
«En ese momento, si dijiste que estabas creando una red neuronal, no
podías publicar un artículo. Así fue hasta 2010, un campo que ha sido.
Recuerdo que una vez, LeCun estaba en nuestro laboratorio como profesor
invitado y tuvimos que hacer el esfuerzo de comer con él. Nadie quería ir.
Fue mala suerte, lo juro. Lloraba, sus publicaciones eran rechazadas en la
CVPR, sus métodos no estaban de moda, no era sexy. Entonces la gente
gravitó hacia lo que era popular. Gravitaron hacia los granos, las máquinas
SVM. Y LeCun diría: "Tengo una red neuronal de 10 capas y hace lo mismo".
Entonces diríamos: “¿Estás seguro? ¿Qué hay de nuevo?" Porque una vez que
tienes una red neuronal, aunque esta vez tenga 10 capas, no funciona mejor
que la última. ¡Apestaba! Luego decía: "¡Sí, pero no hay tantos datos!"26. »
25 Entrevista V, investigadora de visión artificial, 12 de marzo de 2018.

26 Ibídem.
- 20-
Un argumento aparece constantemente en las críticas dirigidas a los escasos defensores de las redes
neuronales:
«Ellos [Proponentes de SVM] siempre diría, "ellos [Redes neuronales] no son

convexos, son solo un atajo ”. Eso es todo lo que salió de sus bocas. Enviábamos
artículos y decían: "¡no son convexos!" Magos de las matemáticas, obsesionados
con la optimización, ¡que nunca habían visto nada más en su vida! Fue así
durante años. Pero nos importaba un carajo.27 »
Por su naturaleza no lineal28, las redes neuronales no podían garantizar que se hubiera encontrado el mínimo general durante la fase de
optimización de la función de pérdida; también podría converger hacia un mínimo o meseta local29. De 2005 a 2008, el pequeño grupo de
"conspiradores neuronales" (Markoff, 2015: 150) inició una verdadera política de reconquista que se propuso convencer a la comunidad
de aprendizaje automático de que había sido víctima de una epidemia de "convexitis". (LeCun, 2007). Cuando sus trabajos fueron
rechazados en el NIPS en 2007, organizaron una conferencia secundaria, transportando a los participantes al Hotel Hyatt en Vancouver
en un vehículo para defender un enfoque que los defensores de las SVM dominantes en ese momento consideraban arcaico y alquimista.
Yann LeCun abrió el camino con el título de su artículo: "¿Quién teme a las funciones de pérdida no convexas?" Después de presentar
múltiples resultados que muestran que las redes neuronales eran más efectivas que las SVM, Argumentó que un apego excesivo a los
requisitos teóricos resultante de los modelos linealizados estaba obstaculizando la creación de arquitecturas de cálculo innovadoras y la
capacidad de considerar otros métodos de optimización. La técnica muy simple de descenso de gradiente estocástico no podría
garantizar la convergencia hacia un mínimo global, sin embargo, “cuando la evidencia empírica sugiere un hecho para el cual no tienes
garantías teóricas, eso significa precisamente que la teoría está mal adaptada […], si eso significa que tienes que tirar la convexidad por
la ventana, ¡entonces está bien! " (LeCun, 2017, 11'19). sin embargo, "cuando la evidencia empírica sugiere un hecho para el cual no
tienes garantías teóricas, eso significa precisamente que la teoría está mal adaptada [...], si eso significa que tienes que tirar la
convexidad por la ventana, ¡entonces está bien!" (LeCun, 2017, 11'19). sin embargo, "cuando la evidencia empírica sugiere un hecho para
el cual no tienes garantías teóricas, eso significa precisamente que la teoría está mal adaptada [...], si eso significa que tienes que tirar la
convexidad por la ventana, ¡entonces está bien!" (LeCun, 2017, 11'19).
«Las personas creativas siempre están locas. Al principio, ese grupo, la gente
creativa, era muy tumultuoso. Después de eso, llegaron personas de campos
distintos a la IA, provenientes de las matemáticas y descartando el descenso de
gradientes para contarte sus métodos: “mi teorema es más elegante que el
tuyo”. En optimización, la gente pasó unos diez años buscando un método
convexo más eficaz y haciendo cosas muy sofisticadas pero muy costosas [en
términos de capacidad de cálculo] . Eso tiene sus ventajas, pero había sido
desangrado, con miles de papeles, y cuando llegó la gran ola de datos, de
repente, ninguna de sus máquinas funcionó.30! »
Transformando el mundo en vectores
De esta manera, los conexionistas trasladaron la controversia científica en torno a la convexidad, exigiendo que
los nuevos flujos de datos que llamen a las puertas de los laboratorios contengan la elección de los mejores.
27 Entrevista F., investigadora en ciencias de la computación, una de las pioneras del aprendizaje profundo en Francia, 20 de julio de 2018.
28 La singularidad de las redes neuronales radica en el hecho de que la función de activación neuronal crea discontinuidades que producen
transformaciones no lineales; una salida no puede reproducirse mediante una combinación lineal de entradas.
La propiedad que aseguraba la reputación de las SVM era que ofrecían un sistema lineal que podía estandarizarse para
29
garantizar la convexidad (Boseret al., 1992).

30 Entrevista F., uno de los pioneros del aprendizaje profundo en Francia, 20 de julio de 2018.
- 21-
método de cálculo. La arquitectura de las máquinas predictivas se transformó para adaptarse a

los macrodatos. No mostró ningún parecido con los conjuntos de datos pequeños, calibrados y
altamente artificiales de las competencias tradicionales entre investigadores. Esto se debe a que
durante este debate, la informatización de la sociedad y el desarrollo de los servicios web
desencadenaron la aparición de nuevos problemas de ingeniería basados en grandes
volúmenes de datos, como la detección de spam, las técnicas de filtrado colaborativo para
hacer recomendaciones, la predicción de inventarios, las búsquedas de información o la análisis
de redes sociales. En el contexto industrial, los métodos estadísticos del nuevo campo de la
ciencia de datos tomaron prestados y desarrollaron técnicas de aprendizaje automático
(métodos bayesianos, árboles de decisión, bosques aleatorios, etc.
2017). Por otro lado, estaba claro que ante el volumen y la heterogeneidad de las características
de los datos, a diferencia de las técnicas “confirmatorias”, era necesario utilizar métodos más
“exploratorios” e inductivos (Tuckey, 1962). También fue en contacto con los actores de la
industria (AT&T originalmente, seguido de Google, Facebook y Baidu) que los conspiradores de
la red neuronal abordaron problemas, capacidades de cálculo y conjuntos de datos que les
permitieron demostrar el potencial de sus máquinas y afirmar su punto de vista en el
controversia científica. Trajeron un nuevo árbitro: la efectividad de las predicciones, en este
caso cuando se aplica al mundo "real".
Los neo-conexionistas primero impusieron sus propios términos en el debate. Según ellos, era necesario
distinguir el "ancho" de la arquitectura "superficial" de las SVM de la "profundidad" (el término
"aprendizaje profundo" fue acuñado por Geoff Hinton en 2006) de las arquitecturas basadas en capas de
neuronas. Al hacerlo, pudieron demostrar que la profundidad es preferible al ancho: solo la primera es
calculable cuando los datos y las dimensiones aumentan, y es capaz de capturar la diversidad de
características de los datos. Por muy convexas que sean las SVM, no dan buenos resultados en grandes
conjuntos de datos: las dimensiones aumentan demasiado rápido y se vuelven incalculables; los malos
ejemplos provocan perturbaciones considerables en las predicciones; y la solución consistente en
linealizar un método no lineal priva al sistema de su capacidad para aprender representaciones complejas
(Bengio y LeCun, 2007). Los cruzados del conexionismo lograron así convencer a la gente de que era
preferible sacrificar la inteligibilidad de la calculadora y la optimización rigurosamente controlada para
una mejor percepción de la complejidad de las dimensiones presentes en esta nueva forma de datos.
Cuando el volumen de datos de entrenamiento aumenta considerablemente, existen muchos mínimos
locales, pero hay suficientes redundancias y simetrías para que las representaciones aprendidas por la red
sean robustas y tolerantes a errores en los datos de aprendizaje. En el centro del debate con la comunidad
de aprendizaje automático, una cosa era evidente: solo los laboratorios usaban modelos lineales; el
mundo, el "mundo real" donde los datos se producen mediante la digitalización de imágenes, sonidos,
habla y texto, no es lineal. Es ruidosa; la información contenida en él es redundante; los flujos de datos no
se categorizan de acuerdo con los atributos de variables homogéneas, claras y construidas de manera
inteligible; los ejemplos a veces son falsos. Como Yoshua Bengioet al. escribió, "una IA debe comprender
fundamentalmente el mundo que nos rodea, y argumentamos que esto solo se puede lograr si puede
aprender a identificar y desenredar los factores explicativos subyacentes ocultos en el medio observado
de datos sensoriales de bajo nivel" (2014, p. .1). Es por eso que una arquitectura “profunda” tiene más
poder de cálculo y es más “expresiva” que una arquitectura “superficial” (LeCun y Benigo, 2007). Al
disminuir la inteligibilidad de la calculadora para aumentar su capacidad de captar la complejidad del
mundo, esta controversia en torno a la convexidad, demuestra claramente que, a diferencia de ser un
- 22-
Ejemplo de empirismo ingenuo, la producción de máquinas inductivas fue el resultado de un intenso

trabajo para convencer a la gente de la necesidad de reformular fundamentalmente la relación entre la
calculadora y el mundo.
Por lo tanto, para que los datos cambien el debate científico, fue necesario aumentar radicalmente el
volumen de conjuntos de datos de investigación. En un artículo de 1988 sobre el reconocimiento de
caracteres, Yann LeCun utilizó una base de datos de 9.298 números de códigos postales escritos a mano.
La base de datos utilizada para el reconocimiento de caracteres desde 2012 (MNIST) contenía 60.000 datos
etiquetados en imágenes en blanco y negro de 28 píxeles de ancho. Sirvió para demostrar la eficacia de las
redes neuronales, pero no superó el soporte de otras técnicas como las SVM. Además, las comunidades
científicas aprovecharon Internet para producir conjuntos de datos mucho más voluminosos y
explícitamente para construirlos para tareas de aprendizaje automático mediante la creación de pares de
entrada / salida. Esta recopilación sistemática de los datos digitales más amplios y elementales posibles
permitió darle más significado a la afirmación de Hubert Dreyfus de que “el mejor modelo del mundo es el
mundo mismo” (Dreyfus, 2007: 1140). Como habían sostenido durante mucho tiempo los enfoques
heterodoxos críticos de la IA representacional, las representaciones se encuentran en datos del mundo, en
lugar de ser internas a la calculadora (Brooks, 1988). La creación de ImageNet, el conjunto de datos
utilizado durante el desafío presentado al comienzo de este artículo, que fue iniciado por Li Fei-Fei (Denget
al., 2009), es un ejemplo de esto. En la actualidad, esta base de datos contiene 14 millones de imágenes,
cuyos elementos se anotaron manualmente en 21.841 categorías utilizando la estructura jerárquica de
otra base de datos clásica en el procesamiento del lenguaje natural, Wordnet (Miller, 1995). Para tener
éxito en esta inmensa tarea de calificar elementos identificados por cuadrados dibujados a mano en
imágenes, fue necesario crowdsourcing de las tareas a miles de anotadores a través de Mechanical Turk
(Suet al., 2012; Jaton, 2017). De 9.298 piezas de datos a 14 millones, un cambio tan masivo en el volumen
de conjuntos de datos y, por lo tanto, en las dimensiones de los datos.
- se volvió significativo solo cuando fue acompañado por un crecimiento exponencial en el poder de las
calculadoras, ofrecido por la computación paralela y el desarrollo de GPUs (Figura 6). En 2009, se
implementó "backprop" en tarjetas gráficas que permitieron entrenar una red neuronal hasta 70 veces
más rápido (Rainaet al., 2009). Hoy en día, se considera una buena práctica aprender una categoría en una
tarea de clasificación con 5.000 ejemplos por categoría, lo que rápidamente lleva a los conjuntos de datos
a contener varios millones de ejemplos. El crecimiento exponencial de los conjuntos de datos acompañó a
un cambio paralelo en las arquitecturas de las calculadoras: el número de neuronas en una red se duplica
cada 2,4 años (Goodfellowet al., 2016: 27).
Sin embargo, los conexionistas también iniciaron otra transformación en los datos, esta vez para
granularizar los datos y transformarlos en un formato calculable mediante operaciones de "incrustación".
Una red neuronal requiere que las entradas de la calculadora adopten la forma de un vector. Por lo tanto,
el mundo debe codificarse de antemano en forma de una representación vectorial puramente digital. Si
bien ciertos objetos, como las imágenes, se descomponen de forma natural en vectores, otros objetos
deben estar "incrustados" dentro de un espacio vectorial antes de que sea posible calcularlos o
clasificarlos con redes neuronales. Este es el caso del texto, que es el ejemplo prototípico. Para ingresar
una palabra en una red neuronal, elWord2vec La técnica la "incrusta" en un espacio vectorial que mide su
distancia de las otras palabras en el corpus (Mikolovet al.,
2013). Las palabras heredan así una posición dentro de un espacio con varios centenares de
dimensiones. La ventaja de tal representación reside en las numerosas operaciones que ofrece tal
transformación. Dos términos cuyas posiciones inferidas están próximas entre sí en este espacio son
- 23-
igualmente similar semánticamente; se dice que estas representaciones están distribuidas: el vector
del concepto "apartamento" [-0.2, 0.3, -4.2, 5.1 ...] será similar al de "casa" [-0.2, 0.3, -4.0,
5.1 ...]. La proximidad semántica no se deduce de una categorización simbólica sino que se induce a partir
de la proximidad estadística entre todos los términos del corpus. De este modo, los vectores pueden
reemplazar ventajosamente las palabras que representan para resolver tareas complejas, como la
clasificación, traducción o resumen automático de documentos. Los diseñadores de máquinas
conexionistas llevaron a cabo operaciones altamente artificiales para transformar los datos en otro
sistema de representación y “rawificarlos” (Denis y Goëta, 2017). Si bien el procesamiento del lenguaje
natural fue pionero en “incrustar” palabras en un espacio vectorial, hoy asistimos a una generalización del
proceso de incrustación que se extiende progresivamente a todos los campos de aplicación: las redes se
están convirtiendo en simples puntos en un espacio vectorial congraph2vec, mensajes de texto con
párrafo2vec, películas conmovie2vec, significados de las palabras con
sens2vec, estructuras moleculares conmol2vec, etc. Según Yann LeCun, el objetivo de los
diseñadores de máquinas conexionistas es poner el mundo en un vector (world2vec) . En lugar de
transformar las entradas en símbolos interrelacionados a través de un tejido de conceptos
interdependientes, esta vectorización crea proximidades de vecindad entre las propiedades internas
de los elementos en el corpus de aprendizaje.31.
Figura 6. Crecimiento en el número de observaciones en conjuntos de datos de investigación desde 1990
a 2015 (arriba) y en el número de neuronas en arquitecturas de cálculo

implementado desde 1960 hasta 2015
31 Fieles al modelo cognitivo del conexionismo, los tres principales defensores del aprendizaje profundo, Y. LeCun, G. Hinton e Y. Bengio, lo traducen
en términos calculadores: “El tema de la representación se encuentra en el centro del debate entre la lógica -inspirados y los paradigmas de la
cognición inspirados en redes neuronales. En el paradigma inspirado en la lógica, una instancia de un símbolo es algo para lo cual la única
propiedad es que es idéntica o no idéntica a otras instancias de símbolos. No tiene una estructura interna que sea relevante para su uso; y para
razonar con símbolos, deben estar vinculados a las variables en reglas de inferencia elegidas juiciosamente. Por el contrario, las redes neuronales
solo usan grandes vectores de actividad, matrices de gran peso y no linealidades escalares para realizar el tipo de inferencia "intuitiva" rápida que
sustenta el razonamiento de sentido común sin esfuerzo ”(LeCunet al., 2015: 436).
- 24-
Estos datos fueron tomados parcialmente de Goodfellowet al. (2016: 21 y 24) y se completaron basándose en el artículo de Wikipedia
"Lista de conjuntos de datos para la investigación del aprendizaje automático".
Del modelado a la arquitectura
A través de un cambio real, lo que ofrecía la variedad y el volumen de datos tuvo que ser
eliminado de la calculadora. Por lo tanto, los diseñadores de arquitecturas basadas en neuronas
procedieron a eliminar sistemática y estrictamente todas las reglas explícitas integradas
"intencionalmente" en las calculadoras con el fin de identificar, describir o agregar datos de
antemano. Un investigador en el campo explicó:
«Había una fuerza detrás de eso. Hubo una ola, la ola de datos, una especie de
ola de fondo gigante que lo arrastró todo. Y eso eliminó por completo las
escuelas de pensamiento que se habían basado en modelos humanos, modelos
explícitos. Trabajé en varios campos de aplicación, incluidos el habla, la
escritura, el texto, los datos sociales, y siempre vi lo mismo. Durante un tiempo,
la gente pensó en poner conocimiento en su sistema, pero eso fue barrido.
¡Sistemáticamente! Y se ha estado desmoronando durante treinta años desde
entonces, campo tras campo. Así son las cosas. Es algo gracioso, sabes. Es como
cuando la gente pasa toda su vida creyendo en un régimen socialista y luego se
derrumba frente a ellos ... Es el mismo tipo de cosas32. »
Desde finales de la década de 2000, la sensación desestabilizadora que surgió al ver cómo
una técnica sin teoría reemplazaba años de esfuerzos para modelar pacientemente el
comportamiento, se extendió por las comunidades de señales, voz, imágenes y traducción
automática, una por una. Campo tras campo, los cálculos de redes neuronales se volvieron
más eficientes, transfiriendo las operaciones que anteriormente habían sido el principal
foco de atención de la actividad científica (ingeniería de características y reconocimiento de
patrones) a la distribución del peso en la red. Estas técnicas consistieron en algoritmos de
“elaboración manual” para identificar las características de los datos iniciales, un proceso
de extracción que facilitó el aprendizaje al simplificar la relación entre las características y
el objetivo del problema.supra) 33. Sin embargo, las redes neuronales llevaron este cambio
a un grado radical, esta vez eliminando cualquier proceso de extracción de características
en beneficio del procesamiento "de extremo a extremo": pasando de la pieza "sin procesar"
de datos digitales al ejemplo "etiquetado" sin explícitamente con el objetivo de producir
representaciones intermedias de datos que orienten los cálculos hacia el objetivo.
Un ejemplo de este cambio es el principio de convolución utilizado en la ilustración inicial de este artículo.
La comunidad de visión por computadora desarrolló métodos de extracción extremadamente sutiles para
identificar los bordes, esquinas, transiciones en contraste y puntos específicos de interés en las imágenes
para asociarlos con bolsas de palabras utilizadas como características para la tarea encomendada a la
calculadora. Estas operaciones se convirtieron en la responsabilidad implícita de la estructura específica
dada a las redes convolucionales: dividir la imagen en pequeños mosaicos de píxeles confiados
33 “Muchos desarrolladores de sistemas de IA ahora reconocen que, para muchas aplicaciones, puede ser mucho más fácil entrenar un sistema mostrándole
ejemplos del comportamiento deseado de entrada-salida que programarlo manualmente anticipando la respuesta deseada para todas las entradas
posibles” (Jordan y Mitchell, 2015: 255).
- 25-
para separar segmentos de neuronas para volver a ensamblarlos en otra capa de red. En
lugar de modelar un rinoceronte, o las características de los bloques de píxeles que
gobiernan la forma del rinoceronte, varios miles de fotos de rinocerontes moviéndose
dentro de la imagen, una parte del cuerpo del cual está truncado, visto desde varios
ángulos y posiciones, hará una mucho mejor trabajo para imprimir el concepto de forma
de “rinoceronte” en el peso de las neuronas que un procedimiento de preprocesamiento de
características que no sabe cómo tratar los problemas relacionados con la invariancia de la
escala, la transformación o la rotación. La relación entre el dato y su característica no se
busca, sino que se obtiene. Las redes neuronales extraen características: los bordes a
menudo son "vistos" por la primera capa de neuronas, las esquinas por otra, los elementos
de forma más complejos por otra -,
El preprocesamiento de los "parámetros" de cálculo se transformó así en la definición de los "hiperparámetros" de la calculadora. Cuanto más disminuía el componente
humano del modelado, más compleja se volvía la especificación de la arquitectura de las máquinas inductivas. Una red neuronal completamente conectada no produce nada;
es necesario esculpirlo para adaptar su arquitectura a la tarea de machine learning que se le ha encomendado: número de capas ocultas, número de neuronas por capa,
mapa de conexiones, elección de la función de activación, tipo de optimización, coeficientes al inicio del aprendizaje, elección de la función objetivo, número de veces que el
conjunto de datos de aprendizaje se mostrará al modelo, etc. Estas configuraciones se ajustan mediante prueba / error. La técnica de poda, por ejemplo, consiste en eliminar
neuronas para ver si esto cambia el rendimiento de la red. La técnica de abandono sugiere, durante la fase de aprendizaje, no enviar señales hacia ciertas neuronas en la capa
de entrada o capas ocultas al azar, para evitar un ajuste excesivo cuando la red tiene que generalizar hacia datos nuevos. Estas recetas, buenas prácticas y estándares de la
industria son en gran medida el tema de las discusiones en la comunidad y todavía son de naturaleza hágalo usted mismo (Domingos, 2012). Frente al refinamiento
matemático de la extracción de características, la creación de redes neuronales puede parecer, por tanto, tarea de un hacker, una actividad para programadores dotados
dotados de una especie de magia negra. no enviar señales hacia ciertas neuronas en la capa de entrada o capas ocultas de forma aleatoria, para evitar un ajuste excesivo
cuando la red tiene que generalizar hacia datos nuevos. Estas recetas, buenas prácticas y estándares de la industria son en gran medida el tema de las discusiones en la
comunidad y todavía son de naturaleza hágalo usted mismo (Domingos, 2012). Frente al refinamiento matemático de la extracción de características, la creación de redes
neuronales puede parecer, por tanto, tarea de un hacker, una actividad para programadores dotados dotados de una especie de magia negra. no enviar señales hacia ciertas
neuronas en la capa de entrada o capas ocultas de forma aleatoria, para evitar un ajuste excesivo cuando la red tiene que generalizar hacia datos nuevos. Estas recetas,
buenas prácticas y estándares de la industria son en gran medida el tema de las discusiones en la comunidad y todavía son de naturaleza hágalo usted mismo (Domingos,
2012). Frente al refinamiento matemático de la extracción de características, la creación de redes neuronales puede parecer, por tanto, tarea de un hacker, una actividad para
programadores dotados dotados de una especie de magia negra.
«Lo que hicieron para eliminar toda extracción de características para

adoptar la imagen en bruto, los tipos que hicieron eso con Hinton, estaban
locos, porque una cosa es reproducir algo, ¡pero hacerlo así explorando!
Crearon sistemas de complejidad inimaginable y pudieron hacerlos
funcionar. Si tomas un documento de una de esas personas y lo miras, dirás,
da miedo, ¡soy demasiado mayor para esto! Esos tipos casi incluso te hablan
como si estuvieran programando. No crean una descripción con tres
ecuaciones que tengan sentido para mí. Pero en 5 líneas, pueden describir
algo que es hipercomplejo. Entonces, en otras palabras, creó una
arquitectura en la que colocó 100 elementos vinculados entre sí, y para
vincularlos, para cada uno, tienes diez opciones posibles. Jugó con eso y
logró que funcionara. Eso es un hacker;34 ! »
- 26-
Los hiperparámetros fueron, por tanto, el lugar al que se trasladaron los nuevos requisitos de explicabilidad para las redes neuronales. Los datos
solo “hablan por sí mismos” cuando se envían a una arquitectura que no se puede aprender de los datos y que, y desde ese momento, fue el foco
de una gran parte de la investigación de la IA. En la conferencia de NIPS, un artículo digno de mención fue un artículo que proponía una nueva
arquitectura, a la que, al igual que a los planetas, los investigadores proporcionaron nombres sistemáticamente, estableciendo así un extraño tipo
de bestiario (Figura 7). Al pasar del modelado a la arquitectura, que era el lugar donde se podía expresar la inventiva de los investigadores, también
se transformaron las habilidades y cualidades requeridas por su diseño. Esto permitió a una nueva población de científicos de datos, aficionados al
bricolaje, y programadores para entrar en el campo previamente muy cerrado de los productores de IA, particularmente debido a la disponibilidad
de herramientas abiertas y fáciles de usar. Al transformar la arquitectura de las máquinas predictivas, los conexionistas contribuyeron a cambiar los
mundos sociales de la IA: primero, porque los datos "reales", y en particular los datos de las industrias digitales, reemplazaron (parcialmente) los
conjuntos de datos de "juguete" de los laboratorios académicos; y segundo, porque los conocimientos técnicos necesarios para crear máquinas
conexionistas requerían habilidades de desarrollo informático distintas de las de las generaciones anteriores de IA. (parcialmente) reemplazó los
conjuntos de datos de "juguetes" de los laboratorios académicos; y segundo, porque los conocimientos técnicos necesarios para crear máquinas
conexionistas requerían habilidades de desarrollo informático distintas de las de las generaciones anteriores de IA. (parcialmente) reemplazó los
conjuntos de datos de "juguetes" de los laboratorios académicos; y segundo, porque los conocimientos técnicos necesarios para crear máquinas
conexionistas requerían habilidades de desarrollo informático distintas de las de las generaciones anteriores de IA.
EL TRABAJO DE INDUCCIÓN
El camino de las máquinas inteligentes, cuya historia acabamos de resumir en cuatro
configuraciones sucesivas, muestra la profunda transformación de su arquitectura (Tabla 1 a
continuación). Elmundo, elcalculadoray elobjetivo de estos dispositivos se han reorganizado
profundamente, y las interrelaciones entre estos componentes dan forma a dispositivos que ofrecen
definiciones marcadamente diferentes de inteligencia, razonamiento y predicción.
Tabla 1. Las cuatro edades de las máquinas predictivas
Máquina Mundo Calculadora Objetivo
Cibernética Medio ambiente "Caja negra" Retroalimentación negativa
(conexionista)
IA simbólica Mundo de "juguete" Razonamiento logico Resolución de problemas
(simbólico)
Sistemas expertos Mundo de expertos Selección de hipótesis Ejemplos /

(simbólico) conocimiento contraejemplos
Aprendizaje profundo El mundo como vector Red neuronal profunda Error basado en objetivos
(conexionista) de big data mejoramiento
Sin embargo, aparece una dinámica global en esta historia cambiante. La empresa materialista de
representar la mente computacionalmente ha adoptado hoy un enfoque decididamente conexionista.
Pero el éxito actual de las máquinas inductivas ciertamente no significa que se haya encontrado un punto
final o una "solución". A pesar de su destreza, las técnicas de aprendizaje profundo están muy lejos de
satisfacer las necesidades del programa general de inteligencia artificial, fuente de críticas constantes por
parte de los "simbolistas" que, aferrados al acantilado, afirman que los dos enfoques
- 27-
necesita ser hibridado35. Sin embargo, lo que queda claro de la historia que hemos seguido en
este artículo es que esta reorganización inductiva del cálculo predictivo no podría haberse
realizado sin esfuerzos considerables y ambiciosos para modificar el equilibrio entre el mundo
de los datos y la forma de cálculo.
Figura 7. Ejemplos de tres arquitecturas de redes neuronales victoriosas en el ILSVRC

desafío de 2012 a 2015
35 Verel debate entre Y. LeCun y G. Markus (2017). Markus pidió una hibridación de los enfoques simbólico y conexionista
porque este último tenía numerosas debilidades que estaban creando nuevas preocupaciones de investigación en el campo:
permitía interpolar entre dos ejemplos conocidos, pero era malo para extrapolar en situaciones que no habían sido el tema. de
aprendizaje; sus modelos consumían una cantidad considerable de datos etiquetados que a menudo no siempre eran
accesibles; no fue capaz de establecer una jerarquía de razonamientos aislando reglas y abstracciones; no fue capaz de integrar
conocimientos preexistentes en relación con los datos calculados; carecía de transparencia y explicabilidad; predijo en un
mundo estable y estático sin estar preparado para elementos inesperados;
- 28-
En primer lugar, como entrada para la calculadora, la composición del mundo ha experimentado un
cambio profundo en términos de atomización y granularización. Mientras que los mundos de
"juguete" y conocimiento experto de las máquinas simbólicas consistían en mundos pequeños y
limitados que habían sido limpiados y domesticados a través de un marco de características
inteligibles e interdependientes, las máquinas conexionistas operan en un mundo en el que los datos
no solo deben venir en grandes cantidades. volúmenes, pero también debe estar lo más atomizado
posible para privarlo de cualquier estructura explícita. Incluso si los datos contienen regularidades,
relaciones compositivas, estilos globales, etc., estos elementos deben ser resaltados por la
calculadora y no por el programador. Por lo tanto, el primer componente para lograr la inducción
tenía que consistir en ingresar datos en el sistema de la manera más elemental posible: píxeles en
lugar de formas, frecuencias en lugar de fonemas, letras en lugar de palabras, clics en lugar de
declaraciones de los usuarios de Internet, comportamientos en lugar de categorías, etc. (Cardon,
2017). El hecho de que los datos puedan ser heterogéneos, redundantes y, a menudo, incorrectos ya
no es un problema; cada señal puede agregarse en forma de una nueva columna en la matriz de
entrada que forma el mundo de las máquinas conexionistas. Por tanto, los datos no se ponen a
disposición de la percepción de las calculadoras en forma “bruta” e “inmediata”, sino que están
sujetos a atomización y disociación para transformarlos en los signos digitales estandarizados más
elementales posibles. Para crear estos insumos, una nueva metrología de sensores, grabaciones y
bases de datos constituye una infraestructura esencial para transformar imágenes, sonidos,
movimientos, clics,
La segunda característica de este cambio en su conjunto es la desaparición dela priori

Movilización de las actividades de la calculadora (un fenómeno a menudo denominado "fin de la
teoría" (Anderson, 2008)) en beneficio de la probabilización de modelos dentro de un espacio de
hipótesis cada vez más amplio, seguido de una dispersión más radical en los modelos. cuando
se tienen en cuenta las diversas dimensiones de los datos a lo largo de múltiples capas de las
redes neuronales. La inmensa empresa intelectual de modelar el razonamiento, típica de las
primeras edades de la IA, se ha derrumbado, allanando el camino para importantes
contribuciones a la investigación en ciencias de la computación. Las máquinas conexionistas
han cambiado las preocupaciones de la IA de resolver los problemas abstractos que eran el foco
de la ciencia cognitiva ortodoxa, a la percepción de características dentro de enormes
volúmenes de señales sensoriales. La segunda característica de la empresa para lograr la
inducción fue probablemente lograr con éxito las condiciones que anularían el dispositivo de
cálculo de la IA para hacer que los programas sean salidas y no entradas. Sin embargo, las
redes neuronales de ninguna manera eliminan la "teoría"; en cambio, lo desplazan hacia los
hiperparámetros de la arquitectura de la calculadora, dando a la palabra "teoría" un significado
menos "simbolizable". Este tema hace que las cuestiones relacionadas con la comprensión y la
interoperabilidad de los procesos que implementan al hacer sus predicciones sean
particularmente delicadas (Burrel, 2016; Cardon, 2015). Como instan el PDP de la década de
1980 y muchas investigaciones sobre sistemas complejos, es muy posible que tengamos que
aprender a convertir formas de modelado que ya no tienen las propiedades a las que
estábamos acostumbrados (linealidad, legibilidad, integridad, parsimonia, etc.
El tercer turno está relacionado con el objetivo dado a la calculadora. Mientras que las máquinas inteligentes
ideadas por la IA simbólica se asignaron a sí mismas el objetivo de las expectativas racionales de la lógica, una
racionalidad interna a los cálculos que permitió a los defensores de la IA afirmar que estas máquinas
- 29-
eran “autónomos” -, en el modelo conexionista el objetivo de cálculo no pertenece a la calculadora

sino al mundo que le ha dado ejemplos “etiquetados”. Las salidas, producidas, simbolizadas y
sesgadas por los humanos, constituyen hoy una de las entradas más importantes de las máquinas
conexionistas. El tercer rasgo del emprendimiento para lograr la inducción consistió en basar el
desempeño de la predicción en el mundo mismo, renovando las promesas adaptativas delmáquinas
de reflexión de la cibernética: formar un sistema con el entorno a calcular para implementar un
nuevo tipo de bucle de retroalimentación. Por lo tanto, es algo paradójico que al perpetuar una
concepción "simbólica" de la inteligencia de la máquina, gran parte del debate crítico en torno a los
sesgos de las nuevas formas de cálculo se dirigiera a las intenciones estratégicas de los
programadores, mientras que estos últimos buscaban constantemente eliminar todo rastro de
problemas previos. Intervención “humana” (libre de conocimiento) en las operaciones de la
calculadora. Es cierto que conviene estar muy atentos a los objetivos estratégicos que las empresas
de economía digital buscan deslizar en sus cálculos. Sin embargo, para ser más relevante y eficiente,
la crítica también debe adaptarse a la revolución "inductiva" de las máquinas predictivas, porque si
bien las predicciones calculadas no son el reflejo "natural" de los datos, La supervisión del
aprendizaje a la que es necesario prestar atención se ha centrado cada vez más en la composición de
los datos de entrada, la arquitectura retenida por los diferentes sistemas y los objetivos. Ya sean
apologéticas o críticas, las representaciones de la inteligencia artificial informadas por un género de
ciencia ficción que extraen su cosmovisión de la IA simbólica: Marvin Minsky fue el asesor científico
de2001: una odisea espacial - parecen ser altamente inapropiados, obsoletos y, sobre todo, poco
imaginativos frente a la realidad mucho más intrigante y única de estas nuevas máquinas.
- 30-
_____________________________ REFERENCIAS ______________________________
ANDERSON C. (2008),El fin de la teoría: ¿el diluvio de datos hará que el método científico
obsoleto?, 23 de junio,http://www.wired.com/science/discoveries/magazine/16-07/pb_theory.
ANDERSON JA, ROSENFELD E. (eds.) (1988),Neurocomputación: fundamentos de la investigación,

Cambridge, The MIT Press.
ANDLER D. (1990), «Connexionnisme et cognition. À la recherche des bonnes questions »,

Revue de synthèse, n ° 1-2, págs. 95-127.
ANDLER D. (1992), «Del paleo al neoconectivismo», en G. VAN DER VIJVER (ed.),

Perspectivas sobre la cibernética, Dordrecht, Kluwer, págs. 125-146.
ANDLER D. (2016),La silueta de l'humain. Quelle place pour le naturalisme dans le monde
d'aujourd'hui?, París, Gallimard.
ASHBY R. (1956),Introducción a la cibernética, Londres, Chapman & Hall.
BENGIO Y., COURVILLE A., VINCENT P. (2013), «Aprendizaje de representación: una revisión y nuevas
perspectivas»,Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas, vol. 35, n °
8.
BENGIO Y., LECUN Y. (2007), «Escalando algoritmos de aprendizaje hacia la IA», en L. BOTTOU,
O. CHAPELLE, D. DECOSTE, J. WESTON,Máquinas de granos a gran escala, Cambridge, MIT Press.
BOSER BE, GUYON IM, VAPNIK VN (1992), «Un algoritmo de entrenamiento para clasificadores de
márgenes óptimos»,Quinto Taller Anual de Teoría del Aprendizaje Computacional, Pittsburgh, págs.
144-152.
BREIMAN L. (2001), «Modelización estadística: las dos culturas»,Ciencia estadística, vol. 16, n °
3, págs. 199-215.
BROOKS RA (1988), «Inteligencia sin representación»,Diseño Mental, en J. HAUGELAND (ed.),

Diseño Mental, Cambridge MA, The MIT Press.
BURRELL J. (2016), «Cómo 'piensa' la máquina: comprensión de la opacidad en algoritmos de aprendizaje

automático»,Big Data y sociedad, Enero-junio, págs. 1-12.
CARBONELL JG, MICHALSKI RS, MITCHELL T. (1983), «Aprendizaje automático: un análisis

histórico y metodológico»,Revista AI, vol. 4, n ° 3, págs. 69-79.
CARDON D. (2015),À quoi rêvent les algoritmos. Promesses et limites, París, Seuil, coll.
«République des idées».
- 31-
CARDON D. (2017), «Infrastructures numériques et production d'environnements personnalisés», en

K. CHATZISI, G. JEANNOT, V. NOVIEMBRE, P. UGHETTO (dir.),Les métamorphoses des infrastructures,
entre béton et numérique, Bruselas, Peter Lang, págs. 351-368.
COLLINS HM (1992),Expertos artificiels. Máquinas intelectuales et savoir social, París, Seuil.
CORNUÉJOLS A., MICLET L., BARRA V. (2018),Aprendizaje artificial. Concepto y algoritmos,

París, Eyrolles (3e éd.).
CREVIER D. (1997),À la recherche de l'intelligence artificielle, París, Champs / Flammarion [1re

éd. américaine 1993].
DAGIRAL É., PARASIE S. (2017), «La“ science des données ”à la conquête des mondes sociaux. Ce
que le “Big Data” doit aux épistémologies locales », en P.-M. MENGER, S. PAYE (dir.),Big data et
traçabilité numérique. Las ciencias sociales se enfrentan a la cuantificación masiva del individuo,
París, Collège de France.
DENG J., DONG W., SOCHER R., LI LJ, LI K., FEI-FEI L. (2009). «Imagenet: una base de datos de imágenes
jerárquica a gran escala. En Visión por Computador y Reconocimiento de Patrones »,CVPR 2009, págs.
248-255.
DENIS J., GOËTA S. (2017), «Les facettes de l'Open Data: émergence, fondements et travail en
coulisses», en P.-M. MENGER, S. PAYE (dir.),Big data et traçabilité numérique. Las ciencias sociales se
enfrentan a la cuantificación masiva del individuo, París, Collège de France.
DOMINGOS P. (2012), «Algunas cosas útiles para saber sobre el aprendizaje automático»,
Comunicación del ACM, vol. 55, n ° 10, págs. 78-87.
DOMINGOS P. (2015),El algoritmo maestro. Cómo la pregunta por la máquina definitiva rehacerá nuestro
mundo, Londres, Penguin Random House Reino Unido.
DREYFUS H. (1972),Lo que las computadoras no pueden hacer: los límites de la inteligencia artificial, Nueva York,
Harper y Row.
DREYFUS H. (2007), «Por qué falló la IA heideggeriana y cómo arreglarla requeriría hacerla más
heideggeriana»,Inteligencia artificial, n ° 171, págs. 1137-1160.
DUPUY J.-P. (2005),Aux origines des sciences cognitives, París, La Découverte.
EDWARDS PN (1996),El mundo cerrado. Las computadoras y la política de los discursos en los Estados Unidos de
la Guerra Fría, Cambridge MA, The MIT Press.
FEIGENBAUM EA, McCORDUCK P. (1983),La quinta generación: la inteligencia artificial y el

desafío informático de Japón al mundo, Lectura, Addison Wesley.
FLECK J. (1982), «Desarrollo y establecimiento de la inteligencia artificial», en N.ELIAS,

H.MARTINS, R.WHITLEY (eds.),Establecimientos científicos y jerarquías, Anuario de Sociología de
las Ciencias, vol. 6, Dordrecht, Reidel, págs. 169-217.
- 32-
FLECK J. (1987), «Posdata: La comercialización de la inteligencia artificial», en B. BLOMFIELD

(ed.),La cuestión de la IA, Londres, Croom-Helm, págs. 149-64.
FODOR JA (1983). Modularidad de la mente: un ensayo sobre psicología de la facultad, Cambridge MA, MIT Press.
GALISON P. (1994), «La ontología del enemigo: Norbert Wiener y la visión cibernética»,
Investigación crítica, vol. 21, n ° 1, págs. 228-266.
GARDNER H. (1985),La nueva ciencia de la mente. Una historia de revolución cognitiva, Nueva York,
Basic Books.
GITELMAN L. (ed.) (2013),Los datos brutos son un oxímoron, Cambridge MA, MIT Press.
GOLDSTEIN I., PAPERTO S. (1977), «Inteligencia artificial. Lenguaje y estudio del

conocimiento »,Ciencia cognitiva, vol. 1, n ° 1.
GOLDSTINE H. (1972),La computadora de Pascal a Von Neumann, Princeton, Princeton

University Press.
GOODFELLOW I., BENGIO Y., COURVILLE A. (2016),Aprendizaje profundo, Cambridge MA, MIT Press.
GRUDIN J. (2009), «AI y HCI: dos campos divididos por un enfoque común»,Revista AI, vol.
30, n ° 4, págs. 48-57.
HAUGELAND J. (1985),Inteligencia artificial: la idea misma, Cambridge MA, MIT Press.
HEBB DO (1949),La organización del comportamiento, Nueva York, Wiley.
HOPFIELD JJ (1982), «Redes neuronales y sistemas físicos con habilidades computacionales colectivas
emergentes»,Proc. Natl. Acad. Carolina del Sur. USA, vol. 79.
JATON F. (2017), «Obtenemos los algoritmos de nuestras verdades fundamentales: Diseño de bases de datos
referenciales en Procesamiento Digital de Imágenes»,Estudios sociales de la ciencia, vol. 47, n ° 6, págs. 811-840.
JORDAN M. (2018), «Inteligencia artificial: la revolución aún no ha sucedido»,Medio, 19 de

abril.
JORDAN M. I, MITCHELL TM (2015), «Aprendizaje automático: tendencias, perspectivas y

perspectivas»,La ciencia, vol. 349, n ° 6245, págs. 255-260.
KRIZHEVSKY A., SUTSKEVER I., HINTON G. (2012), «Clasificación de ImageNet con redes neuronales
convolucionales profundas»,NIPS 2012, Lake Tahoe, 3-6 de diciembre.
KURENKOV A. (2015), «Una 'breve' historia de las redes neuronales y el aprendizaje profundo»,
andreykurenkov.com, 24 de diciembre.
LATOUR B. (1987),Ciencia en acción: cómo seguir a científicos e ingenieros a través de la sociedad,

Cambridge MA, Harvard University Press.
- 33-
LECUN Y. (2007), «¿Quién teme a las funciones de pérdida no convexas? »,Taller de NIPS de 2007 sobre
aprendizaje eficiente, Vancouver, 7 de diciembre.
LECUN Y., BENGIO Y., HINTON G. (2015), «Aprendizaje profundo»,Naturaleza, vol. 521, n ° 7553.
LECUN Y., BOSER B., DENKER J., HENDERSON D., HOWARD R., HUBBARD W.JACKEL
L. (1989), «Backpropagation Applied to Handwritten Zip Code Recognition»,Computación
neuronal, vol. 1, n ° 4, págs. 541-551.
LECUN Y., MARKUS G. (2017), «Debate:" ¿Necesita la IA más maquinaria innata? " »,
YouTube, 20 de octubre.
MARKOFF J. (2015),Máquinas de amorosa gracia. Entre humanos y robots, Editores

HarperCollins, 2015.
MACKENZIE A. (2017),Aprendices de máquina. Arqueología de una práctica de datos, Cambridge MA, The
MIT Press.
MARKUS G. (2018), «Aprendizaje profundo: una valoración crítica»,arXiv: 1801.00631, 2 de enero.
MAZIÈRES, A. (2016). Cartographie de l'apprentissage artificiel et de ses algoritmos. Manuscrit de

thèse, Université Paris Diderot.
McCARTHY J. (1988), «[Revisión de] Bloomfield Brian ed. La cuestión de la inteligencia artificial ...
»,Anales de la historia de la informática, vol. 10, n ° 3, págs. 221-233.
McCORDUCK P. (1979),Máquinas que piensan. Una investigación personal sobre la historia y las perspectivas de
la inteligencia artificial, Natick, AK Peters.
MIKOLOV T., SUTSKEVER I., CHEN K., CORRADO GS, DEAN J. (2013), «Representaciones
distribuidas de palabras y frases y su composicionalidad»,Actas de la 26a Conferencia
Internacional sobre Sistemas de Procesamiento de Información Neural, págs. 3111-3119.
MILLER GA (1995), «WordNet: A Lexical Database for English»,Comunicaciones de la ACM,

vol. 38, n ° 11, págs. 39-41.
MINSKY M. (1975), «Un marco para representar el conocimiento», en P. WINSTON (ed.),

La psicología de la visión por computadora, Nueva York, McGraw-Hill.
MINSKY M. (1986),La sociedad de la mente, Nueva York, Simon & Schuster.
MINSKY M., DOCUMENTO S. (1969),Perceptrones: una introducción a la geometría computacional,

Cambridge MA, The MIT Press.
MINSKY M., PAPERT S. (1970), «Borrador de una propuesta a ARPA para la investigación en inteligencia artificial
en el MIT, 1970-1971»,Publicación del laboratorio de inteligencia artificial, MIT.
MITCHELL T. (1977), «Espacios de versión: un enfoque de eliminación de candidatos para el

aprendizaje de reglas»,Actas de la Quinta Conferencia Conjunta Internacional sobre Inteligencia
Artificial, Cambridge, agosto, págs. 305-310.
- 34-
NEWELL A., SIMON H., SHAW JC (1956), «La máquina de la teoría lógica»,Transacciones IRE sobre
teoría de la información, vol. IT-2, n ° 3.
NEWELL A., SIMON HA (1963), «GPS: un programa que simula el pensamiento humano», en
EA FEIGENBAUM, J. FELDMAN (eds.),Computadoras y pensamiento, Nueva York, McGraw-Hill, págs.
279-283.
NILSSON Nueva Jersey (2010),La búsqueda de la inteligencia artificial. Una historia de ideas y logros.,
Cambridge, Cambridge University Press.
OLAZARAN M. (1996), «Un estudio sociológico de la historia oficial de la controversia del perceptrón»,
Estudios sociales de la ciencia, vol. 26, n ° 3, págs. 611-659.
RECOGIDA A. (2010),El cerebro cibernético. Bocetos de otro futuro, Chicago, IL, The Chicago
University Press.
RAINA R., MADHAVAN A., NG AY (2009). Aprendizaje profundo no supervisado a gran escala
mediante procesadores gráficos. EnActas de la 26a conferencia internacional anual sobre
aprendizaje automático, ACM, págs. 873-880.
RID T. (2016),Rises of the Machines. La historia perdida de la cibernética, Londres, Publicaciones Scribe.
ROLAND A., SHIMAN P. (2002),Computación estratégica. DARPA y la búsqueda de inteligencia

artificial, 1893-1993, Londres, The MIT Press.
ROSENBLUETH A., WIENER N., BIGELOW J., (1943), «Comportamiento, finalidad y teleología»,
Filosofía de la Ciencia, vol. 10, n ° 1, págs. 18-24.
RUMELHART DE, HINTON G., WILLIAMS RJ (1986a), «Aprendizaje de representaciones mediante errores de
retropropagación»,Naturaleza, n ° 323, págs. 533-536.
RUMELHART DE, McCLELLAND JL (1986b), «Modelos de PDP y cuestiones generales en ciencia

cognitiva», en GRUPO DE INVESTIGACIÓN DE PDP (1986),Procesamiento distribuido en paralelo.
Exploraciones en la microestructura de la cognición, Cambridge MA, MIT Press.
SHANNON C. (1948), «Una teoría matemática de la comunicación»,Revista técnica de Bell System

, n ° 27, págs. 379-423.
BF DESOLLADOR (1971),Más allá de la libertad y la dignidad, Nueva York, Bantam.
SMOLENSKY P. (1988), «El tratamiento adecuado del conexionismo»,Las ciencias del comportamiento y el cerebro
, vol. 11, págs. 1-74.
SU H., DENG J., FEI-FEI L. (2012), «Anotación de crowdsourcing para la detección de objetos visuales»,
Talleres AAAI, Toronto.
TRICLOT M. (2008),Le moment cybernétique. La constitución de la noción de información, París,

Champ Vallon.
- 35-
oIt aCIl Btupag
st at s norte IV
wmi
TUKEY JW (1962), «El futuro del análisis de datos»,Los anales de la estadística matemática, vol.
33, n ° 1, págs. 1-67.
TURING A. (2004), «Propuesta de desarrollo en las matemáticas de un motor informático

automático (ACE)», en J. COPELAND (ed.),El Turing esencial: escritos fundamentales en
informática, lógica, filosofía, inteligencia artificial y vida artificial más El secreto del enigma,
Nueva York, Oxford University Press.
VON NEUMANN J. (1945), «Primer borrador de un informe sobre EDVAC»,Contrato n ° W-670-

ORD-4926 entre el Departamento de Artillería del Ejército de los Estados Unidos y la Universidad de
Pennsylvania, Escuela Moore de Ingeniería Eléctrica.
WALDROP M. (1987),Mentes artificiales: la promesa de la inteligencia artificial, Nueva York,

Walker.
WEIZENBAUM J. (1976),Computadora y razón humana, San Francisco, Freeman.
WIENER N. (1948),Cibernética, o control y comunicación en el animal y la máquina,

Cambridge, Cambridge University Press.
WINOGRAD T. (1972),Comprensión del lenguaje natural, Edimburgo, Editorial de la Universidad de

Edimburgo.
WINOGRAD T., FLORES F. (1986),Comprensión de las computadoras y la cognición: una nueva base para el
diseño, Norwood, Ablex Publishing Corporation.
- 36-

Las Neuronas Se Recuperan, La Invención de Las Máquinas Inductivas y La Controversia de La Inteligencia Artificial

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Las Neuronas Se Recuperan, La Invención de Las Máquinas Inductivas y La Controversia de La Inteligencia Artificial

Cargado por

Copyright:

Formatos disponibles

Traducido del inglés al español - www.onlinedoctranslator.

Las neuronas se recuperan: la invención de las máquinas inductivas y la controversia de

Artículo en Réseaux · enero de 2018

Dominique Cardon Jean-Philippe Cointet

56 PUBLICACIONES 975 CITACIONES 111 PUBLICACIONES 1,163 CITACIONES

VER EL PERFIL VER EL PERFIL

15 PUBLICACIONES 117 CITACIONES

Mapeo de la literatura sobre servicios ecosistémicos y agricultura Ver Proyecto

El usuario ha solicitado una mejora del archivo descargado.

La invención de las máquinas inductivas y

Para citar este artículo:

Redes neuronales, Inteligencia artificial, Conexionismo, Sistemas expertos, Aprendizaje profundo

Las cifras principales están disponibles en inglés aquí:https://neurovenge.antonomase.fr/

No eran exactamente personas de lógica formal, pero eran personas que

progresando así; y que necesita tener toda esta comprensión de las

Figura 1. Máquinas hipotético-deductivas (1) y máquinas inductivas (2)

Lo que antes se pensaba como el componente "humano" en la creación de calculadoras,

2 Entrevista V, investigadora de visión artificial, 12 de marzo de 2018.

Simbólico versus conexionista

Figura 3. Evolución de la influencia académica del conexionista y simbólico

LA CIBERNÉTICA Y LOS INICIOS DEL CONECCIONISMO

Figura 4. Modelo formal de una neurona de umbral binario artificial

Esta proposición no se formuló como perteneciente a la inteligencia artificial -el término no

El estrecho acoplamiento entre el mundo y la calculadora

El rasgo característico de la arquitectura de estas máquinas es que su acoplamiento con el

8 Sobre el homeostato, véanse Pickering (2010) y Rid (2016).

El Perceptron y las máquinas conexionistas

Particularmente en el campo del reconocimiento visual, las redes neuronales de McCulloch y

Un espacio para manipular símbolos

A principios de la década de 1970, el proyecto MicroWorlds de Minsky y Papert en el MIT

LA SEGUNDA ONDA DE IA: UN MUNDO DE EXPERTOS

Los santuarios de las reglas

El creciente volumen de conocimiento entrante y la complejización de las redes de conceptos

LAS REPRESENTACIONES DISTRIBUIDAS DEL APRENDIZAJE PROFUNDO

vista estándar de IA23. »

Reconfigurando el conexionismo a partir de algoritmos

Figura 5. Operación de una red neuronal simple

"¡Puede que no sean convexos, pero son más efectivos!"

25 Entrevista V, investigadora de visión artificial, 12 de marzo de 2018.

«Ellos [Proponentes de SVM] siempre diría, "ellos [Redes neuronales] no son

convexidad por la ventana, ¡entonces está bien!" (LeCun, 2017, 11'19).

Transformando el mundo en vectores

garantizar la convexidad (Boseret al., 1992).

método de cálculo. La arquitectura de las máquinas predictivas se transformó para adaptarse a

Ejemplo de empirismo ingenuo, la producción de máquinas inductivas fue el resultado de un intenso

Figura 6. Crecimiento en el número de observaciones en conjuntos de datos de investigación desde 1990

a 2015 (arriba) y en el número de neuronas en arquitecturas de cálculo

Del modelado a la arquitectura

programadores dotados dotados de una especie de magia negra.

«Lo que hicieron para eliminar toda extracción de características para

Tabla 1. Las cuatro edades de las máquinas predictivas

Máquina Mundo Calculadora Objetivo

Cibernética Medio ambiente "Caja negra" Retroalimentación negativa

IA simbólica Mundo de "juguete" Razonamiento logico Resolución de problemas

Sistemas expertos Mundo de expertos Selección de hipótesis Ejemplos /

Figura 7. Ejemplos de tres arquitecturas de redes neuronales victoriosas en el ILSVRC

La segunda característica de este cambio en su conjunto es la desaparición dela priori

eran “autónomos” -, en el modelo conexionista el objetivo de cálculo no pertenece a la calculadora

_____________________________ REFERENCIAS ______________________________

ANDERSON JA, ROSENFELD E. (eds.) (1988),Neurocomputación: fundamentos de la investigación,

ANDLER D. (1990), «Connexionnisme et cognition. À la recherche des bonnes questions »,

ANDLER D. (1992), «Del paleo al neoconectivismo», en G. VAN DER VIJVER (ed.),

_ REFERENCIAS __