Está en la página 1de 35

Traducido del inglés al español - www.onlinedoctranslator.

com

CAPÍTULO
1
INTRODUCCIÓN
En el que tratamos de explicar por qué consideramos que la inteligencia artificial es un tema más digno
de estudio, y en el que tratamos de decidir qué es exactamente, siendo esto algo bueno para decidir
antes de emprender.

nos llamamos a nosotros mismosHomo sapiens—hombre el sabio—porque nuestrointeligenciaes tan importante Inteligencia

para nosotros. Durante miles de años, hemos tratado de entendercomo pensamos y actuamos—es decir, cómo
nuestro cerebro, un mero puñado de materia, puede percibir, comprender, predecir y manipular un mundo mucho
más grande y complicado que él mismo. El campo deinteligencia artificial,o AI, se preocupa no solo de comprender Inteligencia artificial
sino tambiénedificioentidades inteligentes: máquinas que pueden calcular cómo actuar de manera efectiva y
segura en una amplia variedad de situaciones novedosas.
Las encuestas clasifican regularmente a la IA como uno de los campos más interesantes y de más rápido
crecimiento, y ya genera más de un billón de dólares al año en ingresos. El experto en inteligencia artificial Kai-Fu
Lee predice que su impacto será “más que nada en la historia de la humanidad”. Además, las fronteras
intelectuales de la IA están abiertas de par en par. Mientras que un estudiante de una ciencia más antigua como la
física puede sentir que las mejores ideas ya las han descubierto Galileo, Newton, Curie, Einstein y el resto, la IA
todavía tiene muchas vacantes para los autores intelectuales de tiempo completo.
Actualmente, la IA abarca una gran variedad de subcampos, que van desde lo general (aprendizaje,
razonamiento, percepción, etc.) hasta lo específico, como jugar al ajedrez, demostrar teoremas matemáticos,
escribir poesía, conducir un automóvil o diagnosticar enfermedades. La IA es relevante para cualquier tarea
intelectual; es verdaderamente un campo universal.

1.1 ¿Qué es la IA?

Hemos afirmado que la IA es interesante, pero no hemos dicho qué es.es. Históricamente, los
investigadores han buscado varias versiones diferentes de IA. Algunos han definido la inteligencia en
términos de fidelidad ahumanodesempeño, mientras que otros prefieren una definición abstracta y formal
de inteligencia llamadaracionalidad-hablando en términos generales, haciendo lo “correcto”. El tema en sí Racionalidad

también varía: algunos consideran que la inteligencia es una propiedad delprocesos de pensamiento y
razonamiento, mientras que otros se centran en inteligentecomportamiento, una caracterización externa.1
De estas dos dimensiones—humano vs. racional2y pensamiento versus comportamiento: hay
cuatro combinaciones posibles, y ha habido adherentes y programas de investigación para todos

1A la vista del público, a veces hay confusión entre los términos "inteligencia artificial" y "aprendizaje automático". El aprendizaje
automático es un subcampo de la IA que estudia la capacidad de mejorar el rendimiento en función de la experiencia. Algunos
sistemas de IA utilizan métodos de aprendizaje automático para lograr la competencia, pero otros no.
2No estamos sugiriendo que los humanos sean "irracionales" en el sentido del diccionario de "privados de una claridad mental normal".
Simplemente estamos admitiendo que las decisiones humanas no siempre son matemáticamente perfectas.
20 Capítulo 1 Introducción

cuatro Los métodos utilizados son necesariamente diferentes: la búsqueda de una inteligencia similar a la
humana debe ser en parte una ciencia empírica relacionada con la psicología, que implica observaciones e
hipótesis sobre el comportamiento humano real y los procesos de pensamiento; un enfoque racionalista,
por otro lado, implica una combinación de matemáticas e ingeniería, y se conecta con la estadística, la
teoría del control y la economía. Los diversos grupos se han menospreciado y ayudado mutuamente.
Veamos los cuatro enfoques con más detalle.

1.1.1 Actuar humanamente: el enfoque de la prueba de Turing

prueba de Turing losPrueba de Turing,propuesto por Alan Turing (1950), fue diseñado como un experimento mental que
eludiría la vaguedad filosófica de la pregunta "¿Puede pensar una máquina?" Una computadora pasa la
prueba si un interrogador humano, después de plantear algunas preguntas escritas, no puede saber si las
respuestas escritas provienen de una persona o de una computadora. El Capítulo 28 analiza los detalles de
la prueba y si una computadora sería realmente inteligente si la pasara. Por ahora, notamos que programar
una computadora para pasar una prueba rigurosamente aplicada proporciona mucho trabajo. La
computadora necesitaría las siguientes capacidades:
Lenguaje natural
Procesando
• procesamiento natural del lenguajecomunicarse con éxito en un lenguaje humano;
Conocimiento
representación
• representación del conocimientoalmacenar lo que sabe o escucha;
automatizado • razonamiento automatizadoresponder preguntas y sacar nuevas conclusiones;
razonamiento

Aprendizaje automático
• aprendizaje automáticoadaptarse a nuevas circunstancias y detectar y extrapolar patrones.

Turing vio elfísicosimulación de una persona como innecesaria para demostrar inteligencia. Sin embargo,
Prueba de Turing total otros investigadores han propuesto unaprueba de turing total,que requiere interacción con objetos y
personas en el mundo real. Para pasar la prueba de Turing total, un robot necesitará

Visión por computador • visión por computadory reconocimiento de voz para percibir el mundo;
robótica • robóticapara manipular objetos y moverse.
Estas seis disciplinas componen la mayor parte de la IA. Sin embargo, los investigadores de IA han dedicado poco
esfuerzo a pasar la prueba de Turing, creyendo que es más importante estudiar los principios subyacentes de la
inteligencia. La búsqueda del "vuelo artificial" tuvo éxito cuando los ingenieros e inventores dejaron de imitar a las
aves y comenzaron a usar túneles de viento y a aprender sobre aerodinámica. Los textos de ingeniería aeronáutica
no definen el objetivo de su campo como hacer "máquinas que vuelen tan exactamente como las palomas que
puedan engañar incluso a otras palomas".

1.1.2 Pensar humanamente: el enfoque de modelado cognitivo


Para decir que un programa piensa como un humano, debemos saber cómo piensan los humanos. Podemos aprender
sobre el pensamiento humano de tres maneras:

Introspección • introspección-tratando de atrapar nuestros propios pensamientos a medida que pasan;


Psicológico
experimento
• experimentos psicológicos—observar a una persona en acción;
Imagen mental • imagen mental-observar el cerebro en acción.
Una vez que tenemos una teoría de la mente lo suficientemente precisa, es posible expresar la teoría como un programa
de computadora. Si el comportamiento de entrada-salida del programa coincide con el comportamiento humano
correspondiente, eso es evidencia de que algunos de los mecanismos del programa también podrían estar operando en
humanos.
Por ejemplo, Allen Newell y Herbert Simon, quienes desarrollaron el GPS, el “Solucionador general de
problemas” (Newell y Simon, 1961), no se contentaron simplemente con que su programa resolviera problemas.
Sección 1.1 ¿Qué es la IA? 21

problemas correctamente. Estaban más preocupados por comparar la secuencia y el momento de


sus pasos de razonamiento con los de los sujetos humanos que resuelven los mismos problemas. El
campo interdisciplinario deCiencia cognitivareúne modelos informáticos de IA y técnicas Ciencia cognitiva
experimentales de la psicología para construir teorías precisas y comprobables de la mente humana.
La ciencia cognitiva es un campo fascinante en sí mismo, digno de varios libros de texto y al menos una
enciclopedia (Wilson y Keil, 1999). De vez en cuando comentaremos las similitudes o diferencias entre las
técnicas de IA y la cognición humana. Sin embargo, la verdadera ciencia cognitiva se basa necesariamente
en la investigación experimental de seres humanos o animales reales. Dejaremos eso para otros libros, ya
que asumimos que el lector solo tiene una computadora para experimentar.
En los primeros días de la IA, a menudo había confusión entre los enfoques. Un autor argumentaría
que un algoritmo se desempeña bien en una tarea y que espor lo tantoun buen modelo de desempeño
humano, o viceversa. Los autores modernos separan los dos tipos de afirmaciones; esta distinción ha
permitido que tanto la IA como la ciencia cognitiva se desarrollen más rápidamente. Los dos campos se
fertilizan mutuamente, sobre todo en la visión por computadora, que incorpora evidencia neurofisiológica
en modelos computacionales. Recientemente, la combinación de métodos de neuroimagen combinados
con técnicas de aprendizaje automático para analizar dichos datos ha llevado al comienzo de una capacidad
para "leer la mente", es decir, para determinar el contenido semántico de los pensamientos internos de una
persona. Esta capacidad podría, a su vez, arrojar más luz sobre cómo funciona la cognición humana.

1.1.3 Pensar racionalmente: el enfoque de las “leyes del pensamiento”

El filósofo griego Aristóteles fue uno de los primeros en intentar codificar el "pensamiento correcto", es
decir, los procesos de razonamiento irrefutables. Susilogismosproporcionó patrones para estructuras de Silogismo

argumentos que siempre arrojaban conclusiones correctas cuando se les daban premisas correctas. El
ejemplo canónico comienza conSócrates es un hombreytodos los hombres son mortalesy concluye que
Sócrates es mortal. (Este ejemplo probablemente se deba a Sextus Empiricus más que a Aristóteles.) Se
suponía que estas leyes del pensamiento gobernaban el funcionamiento de la mente; su estudio inició el
campo llamadológica.
Los lógicos del siglo XIX desarrollaron una notación precisa para declaraciones sobre objetos en el
mundo y las relaciones entre ellos. (Contrástese con la notación aritmética ordinaria, que proporciona solo
enunciados sobrenúmeros.) Para 1965, los programas podrían, en principio, resolverningúnproblema
solucionable descrito en notación lógica. La llamadalogicistala tradición dentro de la inteligencia artificial logicista

espera aprovechar tales programas para crear sistemas inteligentes.


La lógica, tal como se la entiende convencionalmente, requiere el conocimiento del mundo que es
cierto— una condición que, en realidad, rara vez se logra. Simplemente no conocemos las reglas de,
digamos, la política o la guerra de la misma manera que conocemos las reglas del ajedrez o la aritmética. la
teoria deprobabilidad fiLlena este vacío, permitiendo un razonamiento riguroso con información incierta. Probabilidad

En principio, permite la construcción de un modelo integral de pensamiento racional, que va desde la


información perceptiva en bruto hasta la comprensión de cómo funciona el mundo y las predicciones sobre
el futuro. Lo que no hace, es generar inteligentecomportamiento. Para eso, necesitamos una teoría de la
acción racional. El pensamiento racional, por sí mismo, no es suficiente.

1.1.4 Actuar racionalmente: el enfoque del agente racional


Unagentees solo algo que actúa (agenteviene del latínagere, que hacer). Por supuesto, todos los programas Agente

informáticos hacen algo, pero se espera que los agentes informáticos hagan más: operar de forma
autónoma, percibir su entorno, persistir durante un período de tiempo prolongado, adaptarse a
22 Capítulo 1 Introducción

agente racional cambiar, y crear y perseguir metas. Aagente racionales aquel que actúa para lograr el mejor
resultado o, cuando hay incertidumbre, el mejor resultado esperado.
En el enfoque de las "leyes del pensamiento" de la IA, el énfasis estaba en las inferencias correctas. Hacer
inferencias correctas a veces espartede ser un agente racional, porque una forma de actuar racionalmente es
deducir que una determinada acción es la mejor y luego actuar sobre esa conclusión. Por otro lado, hay formas de
actuar racionalmente de las que no se puede decir que impliquen inferencia. Por ejemplo, retroceder ante una
estufa caliente es una acción refleja que generalmente tiene más éxito que una acción más lenta realizada después
de una cuidadosa deliberación.
Todas las habilidades necesarias para la prueba de Turing también permiten que un agente actúe racionalmente. La
representación del conocimiento y el razonamiento permiten a los agentes tomar buenas decisiones. Necesitamos ser
capaces de generar oraciones comprensibles en lenguaje natural para desenvolvernos en una sociedad compleja.
Necesitamos aprender no solo por erudición, sino también porque mejora nuestra capacidad de generar comportamientos
efectivos, especialmente en circunstancias que son nuevas.
El enfoque de agente racional para la IA tiene dos ventajas sobre los otros enfoques. Primero, es más general
que el enfoque de las “leyes del pensamiento” porque la inferencia correcta es solo uno de varios mecanismos
posibles para lograr la racionalidad. En segundo lugar, es más susceptible al desarrollo científico. El estándar de
racionalidad está matemáticamente bien definido y es completamente general. A menudo podemos trabajar a
partir de esta especificación para derivar diseños de agentes que probablemente lo logren, algo que es en gran
medida imposible si el objetivo es imitar el comportamiento humano o los procesos de pensamiento.

Por estas razones, el enfoque de agente racional de la IA ha prevalecido durante la mayor parte de la historia
del campo. En las primeras décadas, los agentes racionales se construyeron sobre bases lógicas y formaron planes
definidos para lograr objetivos específicos. Más tarde, los métodos basados en la teoría de la probabilidad y el

yo
aprendizaje automático permitieron la creación de agentes que podían tomar decisiones bajo incertidumbre para
lograr el mejor resultado esperado. En una palabra,La IA se ha centrado en el estudio y construcción de agentes
Hacer lo correcto quehacer lo correcto.Lo que cuenta como lo correcto se define por el objetivo que proporcionamos al agente. Este
paradigma general es tan omnipresente que podríamos llamarlo elmodelo estandar.Prevalece no solo en IA, sino
Modelo estandar también en teoría de control, donde un controlador minimiza una función de costo; en la investigación de
operaciones, donde una política maximiza una suma de recompensas; en estadística, donde una regla de decisión
minimiza una función de pérdida; y en economía, donde un tomador de decisiones maximiza la utilidad o alguna
medida de bienestar social.
Necesitamos hacer un refinamiento importante al modelo estándar para tener en cuenta el hecho de
que la racionalidad perfecta (siempre tomando exactamente la acción óptima) no es factible en entornos
complejos. Las demandas computacionales son demasiado altas. Los capítulos 6 y 16 tratan el tema de
Racionalidad limitada racionalidad limitada—actuar apropiadamente cuando no hay suficiente tiempo para hacer todos los
cálculos que uno quisiera. Sin embargo, la racionalidad perfecta a menudo sigue siendo un buen punto de
partida para el análisis teórico.

1.1.5 Máquinas beneficiosas


El modelo estándar ha sido una guía útil para la investigación de IA desde sus inicios, pero probablemente
no sea el modelo correcto a largo plazo. La razón es que el modelo estándar asume que proporcionaremos
un objetivo completamente específico a la máquina.
Para una tarea definida artificialmente, como el ajedrez o el cálculo de la ruta más corta, la tarea viene
con un objetivo incorporado, por lo que se aplica el modelo estándar. Sin embargo, a medida que nos
adentramos en el mundo real, se vuelve cada vez más difícil especificar el objetivo por completo y
Sección 1.2 Los fundamentos de la inteligencia artificial 23

correctamente. Por ejemplo, al diseñar un automóvil autónomo, uno podría pensar que el objetivo es llegar
al destino de manera segura. Pero conducir por cualquier carretera conlleva un riesgo de lesiones debido a
otros conductores errantes, fallas en el equipo, etc.; por lo tanto, un objetivo estricto de seguridad requiere
permanecer en el garaje. Existe una compensación entre avanzar hacia el destino e incurrir en un riesgo de
lesión. ¿Cómo debe hacerse este intercambio? Además, ¿hasta qué punto podemos permitir que el
automóvil realice acciones que molestarían a otros conductores? ¿Cuánto debe moderar el automóvil su
aceleración, dirección y frenado para evitar sacudir al pasajero? Este tipo de preguntas son difíciles de
responder a priori. Son particularmente problemáticos en el área general de la interacción humano-robot,
de la cual el automóvil autónomo es un ejemplo.
El problema de lograr un acuerdo entre nuestras verdaderas preferencias y el objetivo que ponemos
Alineación de valores
en la máquina se llama elproblema de alineación de valores:los valores u objetivos puestos en la máquina problema
deben estar alineados con los del ser humano. Si estamos desarrollando un sistema de IA en el laboratorio
o en un simulador, como ha sido el caso durante la mayor parte de la historia del campo, existe una
solución fácil para un objetivo especificado incorrectamente: restablecer el sistema, corregir el objetivo y
volver a intentarlo. A medida que el campo avanza hacia sistemas inteligentes cada vez más capaces que se
implementan en el mundo real, este enfoque ya no es viable. Un sistema desplegado con un objetivo
incorrecto tendrá consecuencias negativas. Además, cuanto más inteligente es el sistema, más negativas
son las consecuencias.
Volviendo al ejemplo aparentemente sin problemas del ajedrez, considere lo que sucede si la máquina es lo
suficientemente inteligente para razonar y actuar más allá de los límites del tablero de ajedrez. En ese caso, podría
intentar aumentar sus posibilidades de ganar mediante artimañas como hipnotizar o chantajear a su oponente o
sobornar a la audiencia para que haga ruidos susurrantes durante el tiempo de pensamiento de su oponente.3
También podría intentar secuestrar poder de cómputo adicional para sí mismo.Estos comportamientos no son
"poco inteligentes" o "locos"; son una consecuencia lógica j
de definir ganar como elúnicoobjetivo de la máquina.
Es imposible anticipar todas las formas en que una máquina que persigue un objetivo fijo podría
comportarse mal. Hay buenas razones, entonces, para pensar que el modelo estándar es inadecuado. No
queremos máquinas que sean inteligentes en el sentido de perseguirsusobjetivos; queremos que sigan
nuestroobjetivos Si no podemos transferir esos objetivos perfectamente a la máquina, entonces
necesitamos una nueva formulación, una en la que la máquina esté persiguiendo nuestros objetivos, pero
necesariamenteinciertoen cuanto a lo que son. Cuando una máquina sabe que no conoce el objetivo
completo, tiene un incentivo para actuar con cautela, pedir permiso, aprender más sobre nuestras
preferencias a través de la observación y ceder al control humano. En última instancia, queremos agentes
que seanprobablemente beneficiosoa humanos. Volveremos sobre este tema en la Sección 1.5. Probablemente beneficioso

1.2 Los fundamentos de la inteligencia artificial


En esta sección, brindamos una breve historia de las disciplinas que aportaron ideas, puntos de vista
y técnicas a la IA. Como toda historia, ésta se concentra en un pequeño número de personas, eventos
e ideas e ignora otras que también fueron importantes. Organizamos la historia en torno a una serie
de preguntas. Ciertamente, no deseamos dar la impresión de que estas preguntas son las únicas que
abordan las disciplinas o que todas las disciplinas han estado trabajando hacia la IA como su fruto
final.

3En uno de los primeros libros sobre ajedrez, Ruy López (1561) escribió: “Siempre coloca el tablero de modo que el sol esté en los
ojos de tu oponente”.
24 Capítulo 1 Introducción

1.2.1 Filosofía
• ¿Se pueden usar reglas formales para sacar conclusiones válidas?

• ¿Cómo surge la mente de un cerebro físico?


• ¿De dónde viene el conocimiento?
• ¿Cómo conduce el conocimiento a la acción?

Aristóteles (384-322antes de Cristo) fue el primero en formular un conjunto preciso de leyes que rigen la parte
racional de la mente. Desarrolló un sistema informal de silogismos para el razonamiento adecuado, que en
principio permitía generar conclusiones mecánicamente, dadas las premisas iniciales.
Ramon Llull (c. 1232-1315) ideó un sistema de razonamiento publicado comoArs magnao el gran
arte(1305). Llull trató de implementar su sistema utilizando un dispositivo mecánico real: un conjunto
de ruedas de papel que se podían girar en diferentes permutaciones.
Alrededor de 1500, Leonardo da Vinci (1452-1519) diseñó pero no construyó una calculadora
mecánica; reconstrucciones recientes han demostrado que el diseño es funcional. La primera
máquina calculadora conocida fue construida alrededor de 1623 por el científico alemán Wilhelm
Schickard (1592-1635). Blaise Pascal (1623-1662) construyó la Pascalina en 1642 y escribió que
“produce efectos que parecen más cercanos al pensamiento que todas las acciones de los animales”.
Gottfried Wilhelm Leibniz (1646-1716) construyó un dispositivo mecánico destinado a realizar
operaciones sobre conceptos en lugar de números, pero su alcance era bastante limitado. En su libro
de 1651Leviatán, Thomas Hobbes (1588–1679) sugirió la idea de una máquina pensante, un “animal
artificial” en sus palabras, argumentando “¿Qué es el corazón sino un resorte; y los nervios, pero
tantas cuerdas; y las juntas, sino tantas ruedas.” También sugirió que el razonamiento era como un
cálculo numérico: “Por 'razón'. . . no es más que 'contar', es decir, sumar y restar.”
Una cosa es decir que la mente opera, al menos en parte, según reglas lógicas o numéricas, y
construir sistemas físicos que emulen algunas de esas reglas. Otra es decir que la mente mismaestal
sistema físico. René Descartes (1596-1650) dio la primera discusión clara sobre la distinción entre
mente y materia. Señaló que una concepción puramente física de la mente parece dejar poco espacio
para el libre albedrío. Si la mente está gobernada enteramente por leyes físicas, entonces no tiene
más libre albedrío que una roca que “decide” caer hacia abajo. Descartes fue un partidario de
Dualismo dualismo.Sostuvo que hay una parte de la mente humana (o alma o espíritu) que está fuera de la
naturaleza, exenta de las leyes físicas. Los animales, en cambio, no poseían esta doble cualidad;
podrían ser tratados como máquinas.
Una alternativa al dualismo esmaterialismo,que sostiene que el funcionamiento del cerebro de
acuerdo con las leyes de la físicaque constituyela mente. El libre albedrío es simplemente la forma en que la
percepción de las opciones disponibles aparece ante la entidad que elige. Los términosfisicalismoy
naturalismo también se utilizan para describir esta visión que contrasta con lo sobrenatural.
Dada una mente física que manipula el conocimiento, el siguiente problema es establecer la
Empirismo fuente del conocimiento. losempirismomovimiento, comenzando con Francis Bacon (1561-1626)
Novum Órgano,4se caracteriza por un dicho de John Locke (1632-1704): "Nada está en el
entendimiento, que no haya estado primero en los sentidos".
David Hume (1711-1776)Un tratado de la naturaleza humana(Hume, 1739) propuso lo que ahora
Inducción se conoce como el principio deinducción:que las reglas generales se adquieren por exposición a
asociaciones repetidas entre sus elementos.

4losNovum Órganoes una actualización de Aristótelesorganón, o instrumento de pensamiento.


Sección 1.2 Los fundamentos de la inteligencia artificial 25

Sobre la base del trabajo de Ludwig Wittgenstein (1889–1951) y Bertrand Russell (1872–1970), el
famoso Círculo de Viena (Sigmund, 2017), un grupo de filósofos y matemáticos reunidos en Viena en
las décadas de 1920 y 1930, desarrolló la doctrina depositivismo lógico. Esta doctrina sostiene que positivismo lógico

todo conocimiento puede ser caracterizado por teorías lógicas conectadas, en última instancia, con
oraciones de observaciónque corresponden a entradas sensoriales; así, el positivismo lógico combina Observación
frase
el racionalismo y el empirismo.
losteoría de la confirmaciónde Rudolf Carnap (1891-1970) y Carl Hempel (1905-1997) intentaron Teoría de la confirmación

analizar la adquisición de conocimiento a partir de la experiencia mediante la cuantificación del grado


de creencia que se debe asignar a las oraciones lógicas en función de su conexión con las
observaciones que las confirman o refutan. el libro de CarnapLa estructura lógica del mundo(1928)
fue quizás la primera teoría de la mente como proceso computacional.
El elemento final en la imagen filosófica de la mente es la conexión entre el conocimiento y la
acción. Esta pregunta es vital para la IA porque la inteligencia requiere acción además de
razonamiento. Además, solo entendiendo cómo se justifican las acciones podemos entender cómo
construir un agente cuyas acciones sean justificables (o racionales).
Aristóteles argumentó (enDe Motu Animalium) que las acciones se justifican por una conexión lógica entre los
objetivos y el conocimiento del resultado de la acción:

Pero, ¿cómo es que el pensamiento va acompañado unas veces de acción y otras no, unas
veces de movimiento y otras no? Parece como si sucediera casi lo mismo que en el caso de
razonar y hacer inferencias sobre objetos inmutables. Pero en ese caso el fin es una
proposición especulativa....mientras que aquí la conclusión que resulta de las dos premisas es
una acción....necesito cobertura; una capa es una cubierta. Necesito una capa. Lo que
necesito, lo tengo que hacer; Necesito una capa. Tengo que hacer una capa. Y la conclusión, el
“tengo que hacer una capa”, es una acción.

En elÉtica a Nicómaco(Libro III. 3, 1112b), Aristóteles profundiza en este tema y


sugiere un algoritmo:
No deliberamos sobre los fines, sino sobre los medios. Porque el médico no delibera si
ha de curar, ni el orador si ha de persuadir,...Asumen el fin y consideran cómo y por qué
medios se logra, y si parece fácil y mejor lograrlo de ese modo; mientras que si se logra
por un solo medio considerancómose logrará por esto y por qué mediosestese logrará,
hasta que lleguen a la primera causa,...y lo último en el orden del análisis parece ser lo
primero en el orden del devenir. Y si nos encontramos con una imposibilidad,
abandonamos la búsqueda, por ejemplo, si necesitamos dinero y no se puede obtener;
pero si algo parece posible tratamos de hacerlo.

El algoritmo de Aristóteles fue implementado 2300 años después por Newell y Simon en suSolucionador de
problemas generalesprograma. Ahora lo llamaríamos un sistema de planificación de regresión codicioso (ver
Capítulo 11). Los métodos basados en la planificación lógica para lograr objetivos definidos dominaron las
primeras décadas de investigación teórica en IA.
Pensar puramente en términos de acciones que logran metas es a menudo útil pero a veces
inaplicable. Por ejemplo, si hay varias formas diferentes de lograr un objetivo, debe haber alguna
forma de elegir entre ellas. Más importante aún, puede que no sea posible lograr un objetivo con
certeza, pero aún se deben tomar algunas medidas. Entonces, ¿cómo debería uno decidir? Antoine
Arnauld (1662), analizando la noción de decisiones racionales en el juego, propuso una fórmula
cuantitativa para maximizar el valor monetario esperado del resultado. Más tarde, Daniel Bernoulli
(1738) introdujo la noción más general deutilidadpara capturar el valor subjetivo interno Utilidad
26 Capítulo 1 Introducción

de un resultado. La noción moderna de toma de decisiones racional bajo incertidumbre implica maximizar
la utilidad esperada, como se explica en el Capítulo 15.
En cuestiones de ética y política pública, un tomador de decisiones debe considerar los intereses de
múltiples individuos. Jeremy Bentham (1823) y John Stuart Mill (1863) promovieron la idea deutilitarismo:
Utilitarismo que la toma de decisiones racionales basadas en la maximización de la utilidad debe aplicarse a todas las
esferas de la actividad humana, incluidas las decisiones de política pública tomadas en nombre de muchas
personas. El utilitarismo es un tipo específico deconsecuencialismo:la idea de que lo que está bien y lo que
está mal está determinado por los resultados esperados de una acción.
En contraste, Immanuel Kant, en 1785, propuso una teoría basada en reglas oética deontológica,en el que
Ética deontológica “hacer lo correcto” no está determinado por los resultados, sino por las leyes sociales universales que rigen las
acciones permitidas, como “no mentir” o “no matar”. Por lo tanto, un utilitarista podría decir una mentira piadosa si
el bien esperado supera al malo, pero un kantiano estaría obligado a no hacerlo, porque mentir es intrínsecamente
malo. Mill reconoció el valor de las reglas, pero las entendió como procedimientos de decisión eficientes
compilados a partir de un razonamiento de primeros principios sobre las consecuencias. Muchos sistemas
modernos de IA adoptan exactamente este enfoque.

1.2.2 Matemáticas
• ¿Cuáles son las reglas formales para sacar conclusiones válidas?

• ¿Qué se puede calcular?


• ¿Cómo razonamos con información incierta?

Los filósofos replantearon algunas de las ideas fundamentales de la IA, pero el salto a una ciencia formal
requirió la matematización de la lógica y la probabilidad y la introducción de una nueva rama de las
matemáticas: la computación.
Lógica formal La idea delógica formalse remonta a los filósofos de la antigua Grecia, India y China, pero su
desarrollo matemático realmente comenzó con el trabajo de George Boole (1815–1864), quien
elaboró los detalles de la lógica proposicional o booleana (Boole, 1847). ). En 1879, Gottlob Frege
(1848–1925) amplió la lógica de Boole para incluir objetos y relaciones, creando la lógica de primer
orden que se usa en la actualidad.5Además de su papel central en el período inicial de la
investigación de la IA, la lógica de primer orden motivó el trabajo de Gödel y Turing que sustentó la
computación en sí, como explicamos a continuación.
Probabilidad la teoria deprobabilidadpuede verse como una generalización de la lógica a situaciones con
información incierta, una consideración de gran importancia para la IA. Gerolamo Cardano
(1501-1576) primero enmarcó la idea de probabilidad, describiéndola en términos de los
posibles resultados de los eventos de juego. En 1654, Blaise Pascal (1623–1662), en una carta a
Pierre Fermat (1601–1665), mostró cómo predecir el futuro de un juego de apuestas sin
terminar y asignar pagos promedio a los jugadores. La probabilidad se convirtió rápidamente
en una parte invaluable de las ciencias cuantitativas, ayudando a lidiar con mediciones inciertas
y teorías incompletas. Jacob Bernoulli (1654–1705, tío de Daniel), Pierre Laplace (1749–1827) y
otros avanzaron en la teoría e introdujeron nuevos métodos estadísticos. Thomas Bayes
(1702-1761) propuso una regla para actualizar las probabilidades a la luz de nueva evidencia;
La formalización de la probabilidad, combinada con la disponibilidad de datos, condujo al surgimiento
Estadísticas deEstadísticascomo un campo Uno de los primeros usos fue el análisis de John Graunt de Lon-

5La notación propuesta por Frege para la lógica de primer orden, una combinación arcana de características textuales y geométricas, nunca
llegó a ser popular.
Sección 1.2 Los fundamentos de la inteligencia artificial 27

don los datos del censo en 1662. Ronald Fisher es considerado el primer estadístico moderno
(Fisher, 1922). Reunió las ideas de probabilidad, diseño de experimentos, análisis de datos y
computación; en 1919, insistió en que no podía hacer su trabajo sin una calculadora mecánica
llamada MILLIONARIO(la primera calculadora que podía hacer multiplicaciones), a pesar de que el
costo de la calculadora era más que su salario anual (Ross, 2012).
La historia de la computación es tan antigua como la historia de los números, pero la primera no
trivial algoritmose cree que es el algoritmo de Euclides para calcular los máximos comunes divisores. Algoritmo

La palabraalgoritmoproviene de Muhammad ibn Musa al-Khwarizmi, un matemático del siglo IX,


cuyos escritos también introdujeron los números arábigos y el álgebra en Europa. Boole y otros
discutieron algoritmos para la deducción lógica y, a fines del siglo XIX, se estaban realizando
esfuerzos para formalizar el razonamiento matemático general como deducción lógica.
Kurt Gödel (1906-1978) demostró que existe un procedimiento efectivo para probar cualquier
enunciado verdadero en la lógica de primer orden de Frege y Russell, pero esa lógica de primer orden no
pudo capturar el principio de inducción matemática necesaria para caracterizar los números naturales. . En
incompleto
1931, Gödel demostró que existen límites a la deducción. Suteorema de incompletitudmostró que en
teorema
cualquier teoría formal tan fuerte como la aritmética de Peano (la teoría elemental de los números
naturales), hay necesariamente declaraciones verdaderas que no tienen prueba dentro de la teoría.
Este resultado fundamental también se puede interpretar como una muestra de que algunas
funciones en los números enteros no se pueden representar mediante un algoritmo, es decir, no se pueden
calcular. Esto motivó a Alan Turing (1912-1954) a tratar de caracterizar exactamente qué funcionesson
calculable-capaz de ser computado por un procedimiento efectivo. La tesis de Church-Turing propone computabilidad

identificar la noción general de computabilidad con funciones calculadas por una máquina de Turing
(Turing, 1936). Turing también demostró que había algunas funciones que ninguna máquina de Turing
puede calcular. Por ejemplo, ninguna máquina puede deciren generalsi un programa determinado
devolverá una respuesta en una entrada dada o se ejecutará para siempre.
Aunque la computabilidad es importante para entender la computación, la noción de manejabilidadha
tenido un impacto aún mayor en la IA. En términos generales, un problema se llama intratable si el tiempo Trazabilidad

requerido para resolver las instancias del problema crece exponencialmente con el tamaño de las
instancias. La distinción entre crecimiento polinomial y exponencial en complejidad se enfatizó por primera
vez a mediados de la década de 1960 (Cobham, 1964; Edmonds, 1965). Es importante porque el crecimiento
exponencial significa que incluso las instancias moderadamente grandes no pueden resolverse en un
tiempo razonable.
la teoria deNP-completitud,iniciado por Cook (1971) y Karp (1972), proporciona una base para analizar NP-completitud
la tratabilidad de los problemas: es probable que cualquier clase de problema a la que se pueda reducir la
clase de problemas NPcompletos sea intratable. (Aunque no se ha probado que los problemas NP-
completos sean necesariamente intratables, la mayoría de los teóricos lo creen.) Estos resultados
contrastan con el optimismo con el que la prensa popular saludó a las primeras computadoras,
“supercerebros electrónicos” que eran “más rápidos que Einstein”. !” A pesar de la velocidad creciente de las
computadoras, el uso cuidadoso de los recursos y la imperfección necesaria caracterizarán a los sistemas
inteligentes. Dicho crudamente, el mundo es unextremadamenteinstancia de gran problema!

1.2.3 Economía
• ¿Cómo debemos tomar decisiones de acuerdo con nuestras preferencias?
• ¿Cómo debemos hacer esto cuando es posible que otros no estén de acuerdo?

• ¿Cómo deberíamos hacer esto cuando la recompensa puede estar muy lejos en el futuro?
28 Capítulo 1 Introducción

La ciencia de la economía se originó en 1776, cuando Adam Smith (1723-1790) publicóUna investigación
sobre la naturaleza y las causas de la riqueza de las naciones. Smith propuso analizar las economías como
compuestas por muchos agentes individuales que atienden a sus propios intereses. Sin embargo, Smith no
defendía la codicia financiera como una posición moral: su libro anterior (1759)La teoría de los sentimientos
moralescomienza señalando que la preocupación por el bienestar de los demás es un componente esencial
de los intereses de todo individuo.
La mayoría de la gente piensa que la economía trata sobre el dinero y, de hecho, el primer análisis
matemático de las decisiones en condiciones de incertidumbre, la fórmula del valor máximo esperado de
Arnauld (1662), se ocupó del valor monetario de las apuestas. Daniel Bernoulli (1738) notó que esta fórmula
no parecía funcionar bien para grandes cantidades de dinero, como inversiones en expediciones
comerciales marítimas. En cambio, propuso un principio basado en la maximización de la utilidad esperada
y explicó las opciones de inversión humanas al proponer que la utilidad marginal de una cantidad adicional
de dinero disminuía a medida que se adquiría más dinero.
Léon Walras (pronunciado “Valrasse”) (1834-1910) le dio a la teoría de la utilidad una base más
general en términos de preferencias entre apuestas sobre cualquier resultado (no solo resultados
monetarios). La teoría fue mejorada por Ramsey (1931) y más tarde por John von Neumann y Oskar
Morgenstern en su libroLa Teoría de los Juegos y el Comportamiento Económico(1944). La economía
ya no es el estudio del dinero; más bien es el estudio de los deseos y preferencias.
Teoría de la decisión teoría de la decisión,que combina la teoría de la probabilidad con la teoría de la utilidad, proporciona
un marco formal y completo para las decisiones individuales (económicas o de otro tipo) tomadas bajo
incertidumbre, es decir, en los casos en que las descripciones probabilísticas captan adecuadamente el
entorno del tomador de decisiones. Esto es adecuado para economías “grandes” donde cada agente no
necesita prestar atención a las acciones de otros agentes como individuos. Para las economías “pequeñas”,
la situación se parece mucho más a unajuego:las acciones de un jugador pueden afectar significativamente
la utilidad de otro (ya sea positiva o negativamente). El desarrollo de Von Neumann y Morgenstern deteoría
de juego (véase también Luce y Raiffa, 1957) incluía el sorprendente resultado de que, para algunos juegos,
un agente racional debería adoptar políticas que son (o al menos parecen) aleatorias. A diferencia de la
teoría de decisiones, la teoría de juegos no ofrece una receta inequívoca para seleccionar acciones. En AI,
las decisiones que involucran a múltiples agentes se estudian bajo el título de sistemas multiagente (
Capítulo 17).
Los economistas, con algunas excepciones, no abordaron la tercera pregunta mencionada anteriormente:
cómo tomar decisiones racionales cuando los beneficios de las acciones no son inmediatos sino que resultan de
La investigación de operaciones varias acciones realizadas.en secuencia. Este tema se abordó en el campo de lala investigación de operaciones, que
surgió en la Segunda Guerra Mundial a partir de los esfuerzos en Gran Bretaña para optimizar las instalaciones de
radar y luego encontró innumerables aplicaciones civiles. El trabajo de Richard Bellman (1957) formalizó una clase
de problemas de decisión secuencial llamadosprocesos de decisión de Markov,que estudiamos en el Capítulo 16 y,
bajo el título deaprendizaje reforzado,en el Capítulo 23.
El trabajo en economía e investigación de operaciones ha contribuido mucho a nuestra noción de agentes
racionales, sin embargo, durante muchos años, la investigación de IA se desarrolló a lo largo de caminos
completamente separados. Una razón fue la aparente complejidad de tomar decisiones racionales. El investigador
pionero en IA Herbert Simon (1916–2001) ganó el Premio Nobel de economía en 1978 por su trabajo inicial que
satisfactorio mostraba que los modelos basados ensatisfaciendo—tomar decisiones que son "suficientemente buenas", en
lugar de calcular laboriosamente una decisión óptima, proporcionó una mejor descripción del comportamiento
humano real (Simon, 1947). Desde la década de 1990, ha habido un resurgimiento del interés en las técnicas de
teoría de decisiones para la IA.
Sección 1.2 Los fundamentos de la inteligencia artificial 29

1.2.4 Neurociencia
• ¿Cómo procesa la información el cerebro?

neurocienciaes el estudio del sistema nervioso, particularmente el cerebro. Aunque la forma exacta en que el neurociencia
cerebro permite pensar es uno de los grandes misterios de la ciencia, el hecho de que lo haceHabilitar el
pensamiento ha sido apreciado durante miles de años debido a la evidencia de que los fuertes golpes en la cabeza
pueden conducir a la incapacitación mental. También se sabe desde hace mucho tiempo que los cerebros
humanos son de alguna manera diferentes; en aproximadamente 335antes de CristoAristóteles escribió: “De todos
los animales, el hombre tiene el cerebro más grande en proporción a su tamaño”.6Aun así, no fue hasta mediados
del siglo XVIII que el cerebro fue ampliamente reconocido como el asiento de la conciencia. Antes de eso, las
ubicaciones candidatas incluían el corazón y el bazo.
La investigación de Paul Broca (1824–1880) sobre la afasia (déficit del habla) en pacientes con daño
cerebral en 1861 inició el estudio de la organización funcional del cerebro al identificar un área localizada
en el hemisferio izquierdo, ahora llamada área de Broca, que es responsable de la producción del habla. .7
En ese momento, se sabía que el cerebro consistía en gran parte de las células nerviosas, oneuronas,pero
no fue hasta 1873 que Camillo Golgi (1843-1926) desarrolló una técnica de tinción que permitía la Neurona

observación de neuronas individuales (ver Figura 1.1). Esta técnica fue utilizada por Santiago Ramón y Cajal
(1852-1934) en sus estudios pioneros sobre organización neuronal.8
Ahora se acepta ampliamente que las funciones cognitivas resultan de la operación electroquímica de estas
estructuras. Eso es,una colección de células simples puede conducir al pensamiento, la acción y j
conciencia.En las concisas palabras de John Searle (1992),cerebros causan mentes.
Ahora tenemos algunos datos sobre el mapeo entre áreas del cerebro y las partes del cuerpo que
controlan o de las que reciben información sensorial. Dichos mapas pueden cambiar radicalmente en el
transcurso de unas pocas semanas, y algunos animales parecen tener múltiples mapas. Además, no
entendemos completamente cómo otras áreas pueden asumir funciones cuando un área está dañada. Casi
no existe una teoría sobre cómo se almacena una memoria individual o sobre cómo operan las funciones
cognitivas de nivel superior.
La medición de la actividad cerebral intacta comenzó en 1929 con la invención de Hans Berger del
electroencefalograma (EEG). El desarrollo de la resonancia magnética funcional (fMRI) (Ogawaet al., 1990;
Cabeza y Nyberg, 2001) está brindando a los neurocientíficos imágenes detalladas sin precedentes de la
actividad cerebral, lo que permite mediciones que se corresponden de manera interesante con los procesos
cognitivos en curso. Estos se ven aumentados por los avances en el registro eléctrico de una sola célula de
la actividad de las neuronas y por los métodos deoptogenética (Crick, 1999; Zemelmanet al., 2002; Han y optogenética

Boyden, 2007), que permiten tanto la medición como el control de neuronas individuales modificadas para
que sean sensibles a la luz.
Cerebro-máquina
El desarrollo deinterfaces cerebro-máquina (Lebedev y Nicolelis, 2006) tanto para la detección como interfaz
para el control motor no solo promete restaurar la función de las personas discapacitadas, sino que
también arroja luz sobre muchos aspectos de los sistemas neuronales. Un hallazgo notable de este trabajo
es que el cerebro es capaz de adaptarse para interactuar con éxito con un dispositivo externo, tratándolo
en efecto como otro órgano o miembro sensorial.

6 Desde entonces se ha descubierto que la musaraña arborícola y algunas especies de aves superan la proporción cerebro/cuerpo
7 humano. Muchos citan a Alexander Hood (1824) como posible fuente anterior.
8 Golgi persistió en su creencia de que las funciones del cerebro se llevaban a cabo principalmente en un medio continuo en
qué neuronas estaban incrustadas, mientras que Cajal proponía la “doctrina neuronal”. Los dos compartieron el Premio Nobel en
1906 pero dieron discursos de aceptación mutuamente antagónicos.
30 Capítulo 1 Introducción

Arborización axonal

Axón de otra célula

sinapsis
Dendrita
axón

Núcleo

sinapsis

Cuerpo celular o soma

Figura 1.1Las partes de una célula nerviosa o neurona. Cada neurona consta de un cuerpo celular, o
soma, que contiene un núcleo celular. Del cuerpo celular se ramifican varias fibras llamadas dendritas y
una sola fibra larga llamada axón. El axón se extiende una gran distancia, mucho más de lo que indica la
escala en este diagrama. Normalmente, un axón mide 1 cm de largo (100 veces el diámetro del cuerpo
celular), pero puede alcanzar hasta 1 metro. Una neurona establece conexiones con otras 10 a 100 000
neuronas en uniones llamadas sinapsis. Las señales se propagan de neurona a neurona mediante una
complicada reacción electroquímica. Las señales controlan la actividad cerebral a corto plazo y también
permiten cambios a largo plazo en la conectividad de las neuronas. Se cree que estos mecanismos
forman la base para el aprendizaje en el cerebro. La mayor parte del procesamiento de la información
tiene lugar en la corteza cerebral, la capa externa del cerebro. La unidad organizativa básica parece ser
una columna de tejido de unos 0,5 mm de diámetro, que contiene unas 20.000 neuronas y se extiende
por toda la profundidad de la corteza (unos 4 mm en los seres humanos).

Los cerebros y las computadoras digitales tienen propiedades algo diferentes. La figura 1.2 muestra que las
computadoras tienen un tiempo de ciclo que es un millón de veces más rápido que un cerebro. El cerebro
compensa eso con mucho más almacenamiento e interconexión que incluso una computadora personal de gama
alta, aunque las supercomputadoras más grandes igualan al cerebro en algunas métricas. Los futuristas dan
Singularidad mucha importancia a estos números, apuntando a un próximosingularidaden el que las computadoras alcanzan
un nivel de rendimiento sobrehumano (Vinge, 1993; Kurzweil, 2005; Doctorow y Stross, 2012), y luego se mejoran
rápidamente aún más. Pero las comparaciones de números brutos no son especialmente informativas. Incluso con
una computadora de capacidad virtualmente ilimitada, aún necesitamos avances conceptuales adicionales en
nuestra comprensión de la inteligencia (ver Capítulo 29). En pocas palabras, sin la teoría correcta, las máquinas
más rápidas simplemente te dan la respuesta incorrecta más rápido.

1.2.5 Psicología
• ¿Cómo piensan y actúan los humanos y los animales?

Los orígenes de la psicología científica generalmente se remontan al trabajo del físico alemán
Hermann von Helmholtz (1821–1894) y su alumno Wilhelm Wundt (1832–1920). Helmholtz
aplicó el método científico al estudio de la visión humana, y sumanual de óptica fisiológicaha
sido descrito como “el tratado individual más importante sobre la física y fisiología de la visión
humana” (Nalwa, 1993, p.15). En 1879, Wundt abrió el primer laboratorio de psicología
experimental en la Universidad de Leipzig. Wundt insistió en cuidadosamente
Sección 1.2 Los fundamentos de la inteligencia artificial 31

Supercomputadora Computadora personal Cerebro humano

Unidades computacionales 106GPU + CPU 10 8 núcleos de CPU 106columnas


15transistores 1010transistores 1011neuronas
Unidades de almacenamiento 10dieciséisbytes RAM 1010bytes RAM 1011neuronas
1017disco de bytes 1012disco de bytes 1014sinapsis
Tiempo del ciclo 10−9segundo 10−9segundo 10−3segundo

Operaciones/seg 1018 1010 1017

Figura 1.2Una comparación cruda de una supercomputadora líder, Summit (Feldman, 2017); una
computadora personal típica de 2019; y el cerebro humano. El poder del cerebro humano no ha
cambiado mucho en miles de años, mientras que las supercomputadoras han mejorado de megaFLOP
en la década de 1960 a gigaFLOP en la década de 1980, teraFLOP en la década de 1990, petaFLOP en
2008 y exaFLOP en 2018 (1 exaFLOP = 1018operaciones de punto flotante por segundo).

experimentos controlados en los que sus trabajadores realizarían una tarea perceptiva o asociativa mientras
introspeccionaban sus procesos de pensamiento. Los cuidadosos controles contribuyeron en gran medida a hacer
de la psicología una ciencia, pero la naturaleza subjetiva de los datos hizo que fuera poco probable que los
experimentadores alguna vez refutaran sus propias teorías.
Los biólogos que estudian el comportamiento animal, por otro lado, carecían de datos introspectivos y
desarrollaron una metodología objetiva, como lo describe HS Jennings (1906) en su influyente trabajo
Comportamiento de los Organismos Inferiores. Aplicando este punto de vista a los humanos, el
behaviorismomovimiento, dirigido por John Watson (1878-1958), rechazadoningúnteoría que involucra Behaviorismo

procesos mentales sobre la base de que la introspección no podía proporcionar evidencia confiable. Los
conductistas insistieron en estudiar sólo medidas objetivas de las percepciones (oestímulo) dado a un
animal y sus acciones resultantes (orespuesta). El conductismo descubrió mucho sobre ratas y palomas,
pero tuvo menos éxito en la comprensión de los humanos.
Psicología cognitiva,que ve el cerebro como un dispositivo de procesamiento de información, se Psicología cognitiva
remonta al menos a los trabajos de William James (1842-1910). Helmholtz también insistió en que la
percepción implicaba una forma de inferencia lógica inconsciente. El punto de vista cognitivo fue
eclipsado en gran medida por el conductismo en los Estados Unidos, pero en la Unidad de Psicología
Aplicada de Cambridge, dirigida por Frederic Bartlett (1886-1969), el modelado cognitivo pudo
florecer.La naturaleza de la explicación, del alumno y sucesor de Bartlett, Kenneth Craik (1943),
restableció enérgicamente la legitimidad de términos "mentales" como creencias y objetivos,
argumentando que son tan científicos como, por ejemplo, usar presión y temperatura para hablar de
gases, a pesar de que los gases son hecho de moléculas que no tienen ninguno.
Craik especificó los tres pasos clave de un agente basado en el conocimiento: (1) el estímulo debe
traducirse en una representación interna, (2) la representación es manipulada por procesos cognitivos para
derivar nuevas representaciones internas, y (3) estas son a su vez retraducido de nuevo a la acción. Explicó
claramente por qué este era un buen diseño para un agente:

Si el organismo lleva en su cabeza un “modelo a pequeña escala” de la realidad externa y de sus propias
acciones posibles, es capaz de probar varias alternativas, concluir cuál es la mejor de ellas, reaccionar ante
situaciones futuras antes de que se presenten, utilizar el conocimiento de los hechos pasados para
afrontar el presente y el futuro, y en todos los sentidos reaccionar de manera mucho más completa, segura
y competente ante las emergencias que se le presenten. (Craik, 1943)
32 Capítulo 1 Introducción

Después de la muerte de Craik en un accidente de bicicleta en 1945, su trabajo fue continuado por Donald
Broadbent, cuyo libroPercepción y Comunicación(1958) fue uno de los primeros trabajos en modelar
fenómenos psicológicos como procesamiento de información. Mientras tanto, en los Estados Unidos, el
desarrollo del modelado por computadora condujo a la creación del campo deCiencia cognitiva.Se puede
decir que el campo comenzó en un taller en septiembre de 1956 en el MIT, solo dos meses después de la
conferencia en la que "nació" la propia IA.
En el taller, George Miller presentóEl mágico número siete, Noam Chomsky presentóTres
modelos de lenguaje, y Allen Newell y Herbert Simon presentaronLa máquina de la teoría lógica.
Estos tres artículos influyentes mostraron cómo los modelos informáticos podrían usarse para
abordar la psicología de la memoria, el lenguaje y el pensamiento lógico, respectivamente. Ahora es
una opinión común (aunque lejos de ser universal) entre los psicólogos que “una teoría cognitiva
debería ser como un programa de computadora” (Anderson, 1980); es decir, debe describir el
funcionamiento de una función cognitiva en términos del procesamiento de información.
Para propósitos de esta revisión, contaremos el campo dela interacción persona-ordenador (HCI) bajo
psicología. Doug Engelbart, uno de los pioneros de HCI, defendió la idea de aumento de inteligencia—IA en
Inteligencia
aumento lugar de AI. Él creía que las computadoras deberían aumentar las habilidades humanas en lugar de
automatizar las tareas humanas. En 1968, la “madre de todas las demostraciones” de Engelbart mostró por
primera vez el ratón de la computadora, un sistema de ventanas, hipertexto y videoconferencia, todo en un
esfuerzo por demostrar lo que los trabajadores del conocimiento humano podían lograr colectivamente
con algún aumento de inteligencia.
Hoy en día, es más probable que veamos la IA y la IA como dos caras de la misma moneda, en la que la
primera enfatiza el control humano y la segunda enfatiza el comportamiento inteligente por parte de la máquina.
Ambos son necesarios para que las máquinas sean útiles para los humanos.

1.2.6 Ingeniería informática


• ¿Cómo podemos construir una computadora eficiente?

La computadora electrónica digital moderna fue inventada de forma independiente y casi simultánea por
científicos en tres países que lucharon en la Segunda Guerra Mundial. El primeroOperacionalcomputadora
fue el electromecánico Heath Robinson,9construido en 1943 por el equipo de Alan Turing con un único
propósito: descifrar los mensajes alemanes. En 1943, el mismo grupo desarrolló Colossus, una poderosa
máquina de propósito general basada en tubos de vacío.10El primer operativoprogramableLa computadora
fue el Z-3, la invención de Konrad Zuse en Alemania en 1941. Zuse también inventó los números de coma
flotante y el primer lenguaje de programación de alto nivel, Plankalkül. El primeroelectrónicoLa
computadora, el ABC, fue ensamblada por John Atanasoff y su alumno Clifford Berry entre 1940 y 1942 en la
Universidad Estatal de Iowa. La investigación de Atanasoff recibió poco apoyo o reconocimiento; fue el
ENIAC, desarrollado como parte de un proyecto militar secreto en la Universidad de Pensilvania por un
equipo que incluía a John Mauchly y J. Presper Eckert, que resultó ser el precursor más influyente de las
computadoras modernas. Desde entonces, cada generación de hardware de computadora ha traído
consigo un aumento en la velocidad y la capacidad y una disminución en el precio, una tendencia
ley de moore capturada enLey de Moore.El rendimiento se duplicó cada 18 meses aproximadamente hasta alrededor de
2005, cuando los problemas de disipación de energía llevaron a los fabricantes

9Una máquina compleja que lleva el nombre de un dibujante británico que representó artilugios caprichosos y absurdamente complicados para
tareas cotidianas, como untar tostadas con mantequilla.
10En el período de posguerra, Turing quería usar estas computadoras para la investigación de IA; por ejemplo, creó un esquema del
primer programa de ajedrez (Turinget al., 1953), pero el gobierno británico bloqueó esta investigación.
Sección 1.2 Los fundamentos de la inteligencia artificial 33

para empezar a multiplicar el número de núcleos de CPU en lugar de la velocidad del reloj. Las expectativas
actuales son que los futuros aumentos en la funcionalidad provendrán del paralelismo masivo, una curiosa
convergencia con las propiedades del cerebro. También vemos nuevos diseños de hardware basados en la
idea de que al tratar con un mundo incierto, no necesitamos 64 bits de precisión en nuestros números; sólo
16 bits (como en elbfloat16formato) o incluso 8 bits serán suficientes y permitirán un procesamiento más
rápido.
Apenas estamos comenzando a ver hardware ajustado para aplicaciones de IA, como la unidad de
procesamiento de gráficos (GPU), la unidad de procesamiento de tensores (TPU) y el motor de escala de obleas
(WSE). Desde la década de 1960 hasta alrededor de 2012, la cantidad de potencia informática utilizada para
entrenar las principales aplicaciones de aprendizaje automático siguió la ley de Moore. A partir de 2012, las cosas
cambiaron: de 2012 a 2018 hubo un aumento de 300 000 veces, lo que equivale a una duplicación cada 100 días
aproximadamente (Amodei y Hernandez, 2018). Un modelo de aprendizaje automático que tomó un día completo
para entrenar en 2014 toma solo dos minutos en 2018 (Yinget al., 2018). Aunque todavía no es práctico,
computación cuánticaofrece la promesa de aceleraciones mucho mayores para algunas subclases importantes de Computación cuántica

algoritmos de IA.
Por supuesto, hubo dispositivos de cálculo antes de la computadora electrónica. Las primeras
máquinas automatizadas, que datan del siglo XVII, se analizan en la página 24. La primera
programableLa máquina era un telar, ideado en 1805 por Joseph Marie Jacquard (1752–1834), que
usaba tarjetas perforadas para almacenar instrucciones para el patrón a tejer.
A mediados del siglo XIX, Charles Babbage (1792–1871) diseñó dos máquinas informáticas,
ninguna de las cuales completó. La máquina diferencial estaba destinada a calcular tablas
matemáticas para proyectos científicos y de ingeniería. Finalmente se construyó y se demostró que
funcionaba en 1991 (Swade, 2000). La máquina analítica de Babbage era mucho más ambiciosa:
incluía memoria direccionable, programas almacenados basados en las tarjetas perforadas de
Jacquard y saltos condicionales. Fue la primera máquina capaz de computación universal.
La colega de Babbage, Ada Lovelace, hija del poeta Lord Byron, entendió su potencial y lo
describió como “un pensamiento o. . . una máquina de razonar”, capaz de razonar sobre “todos los
temas del universo” (Lovelace, 1843). También anticipó los ciclos de exageración de AI, escribiendo:
"Es deseable protegerse contra la posibilidad de que surjan ideas exageradas sobre los poderes del
motor analítico". Desafortunadamente, las máquinas de Babbage y las ideas de Lovelace fueron en
gran parte olvidadas.
AI también tiene una deuda con el lado del software de la informática, que ha proporcionado los
sistemas operativos, los lenguajes de programación y las herramientas necesarias para escribir programas
modernos (y artículos sobre ellos). Pero esta es un área en la que se ha saldado la deuda: el trabajo en IA ha
sido pionero en muchas ideas que han regresado a la ciencia informática convencional, incluido el tiempo
compartido, los intérpretes interactivos, las computadoras personales con ventanas y ratones, los entornos
de desarrollo rápido, el enlace. -enumerar tipos de datos, gestión de almacenamiento automático y
conceptos clave de programación simbólica, funcional, declarativa y orientada a objetos.

1.2.7 Teoría del control y cibernética


• ¿Cómo pueden operar los artefactos bajo su propio control?

Ktesibios de Alejandría (c. 250antes de Cristo) construyó la primera máquina autocontrolada: un reloj de agua
con un regulador que mantenía un caudal constante. Esta invención cambió la definición de lo que podía
hacer un artefacto. Anteriormente, solo los seres vivos podían modificar su comportamiento en respuesta a
los cambios en el medio ambiente. Otros ejemplos de control de retroalimentación autorregulado
34 Capítulo 1 Introducción

Los sistemas incluyen el gobernador de la máquina de vapor, creado por James Watt (1736–1819), y el
termostato, inventado por Cornelis Drebbel (1572–1633), quien también inventó el submarino. James
Clerk Maxwell (1868) inició la teoría matemática de los sistemas de control.
Teoría de control Una figura central en el desarrollo de la posguerra deteoría del controlfue Norbert Wiener
(1894-1964). Wiener fue un matemático brillante que trabajó con Bertrand Russell, entre otros, antes
de desarrollar un interés en los sistemas de control biológico y mecánico y su conexión con la
cognición. Al igual que Craik (quien también usó los sistemas de control como modelos psicológicos),
Wiener y sus colegas Arturo Rosenblueth y Julian Bigelow desafiaron la ortodoxia conductista
(Rosenbluethet al., 1943). Consideraron que el comportamiento intencional surge de un mecanismo
regulador que intenta minimizar el "error", la diferencia entre el estado actual y el estado objetivo. A
fines de la década de 1940, Wiener, junto con Warren McCulloch, Walter Pitts y John von Neumann,
organizaron una serie de influyentes conferencias que exploraron los nuevos modelos matemáticos y
Cibernética computacionales de la cognición. libro de WienerCibernética(1948) se convirtió en un éxito de ventas
y despertó al público a la posibilidad de máquinas artificialmente inteligentes.
Mientras tanto, en Gran Bretaña, W. Ross Ashby fue pionero en ideas similares (Ashby, 1940). Ashby, Alan
Turing, Gray Walter y otros formaron el Ratio Club para “aquellos que tenían las ideas de Wiener antes de que
apareciera el libro de Wiener”. Ashby'sDiseño para un cerebro(1948, 1952) elaboró su idea de que la inteligencia
homeostático podría crearse mediante el uso dehomeostáticodispositivos que contienen bucles de retroalimentación apropiados
para lograr un comportamiento adaptativo estable.
La teoría de control moderna, especialmente la rama conocida como control óptimo estocástico, tiene como
función de costo objetivo el diseño de sistemas que minimicen unfunción de costotiempo extraordinario. Esto coincide
aproximadamente con el modelo estándar de IA: diseñar sistemas que se comporten de manera óptima. ¿Por qué,
entonces, la IA y la teoría del control son dos campos diferentes, a pesar de las estrechas conexiones entre sus
fundadores? La respuesta se encuentra en el estrecho acoplamiento entre las técnicas matemáticas que eran
familiares para los participantes y los correspondientes conjuntos de problemas que abarcaba cada visión del
mundo. El cálculo y el álgebra matricial, las herramientas de la teoría de control, se prestan a sistemas que se
pueden describir mediante conjuntos fijos de variables continuas, mientras que la IA se fundó en parte como una
forma de escapar de estas limitaciones percibidas. Las herramientas de inferencia lógica y computación
permitieron a los investigadores de IA considerar problemas como el lenguaje, la visión y la planificación simbólica
que quedaban completamente fuera del alcance de los teóricos del control.

1.2.8 Lingüística
• ¿Cómo se relaciona el lenguaje con el pensamiento?

En 1957, BF Skinner publicóComportamiento Verbal. Este fue un relato completo y detallado del
enfoque conductista para el aprendizaje de idiomas, escrito por el principal experto en el campo.
Pero, curiosamente, una reseña del libro se hizo tan conocida como el libro mismo y sirvió para
acabar casi con el interés por el conductismo. El autor de la reseña era el lingüista Noam Chomsky,
que acababa de publicar un libro sobre su propia teoría,Estructuras sintácticas. Chomsky señaló que
la teoría conductista no abordaba la noción de creatividad en el lenguaje; no explicaba cómo los
niños podían comprender y formar oraciones que nunca antes habían escuchado. La teoría de
Chomsky, basada en modelos sintácticos que se remontan al lingüista indio Panini (c. 350antes de Cristo)
— podría explicar esto y, a diferencia de las teorías anteriores, era lo suficientemente formal como
para que, en principio, pudiera programarse.
La lingüística moderna y la IA, entonces, “nacieron” aproximadamente al mismo tiempo y
Computacional
lingüística crecieron juntas, cruzándose en un campo híbrido llamadoLigüística computacionalolenguaje natural
Sección 1.3 La historia de la inteligencia artificial 35

Procesando.El problema de comprender el lenguaje resultó ser considerablemente más complejo de


lo que parecía en 1957. Comprender el lenguaje requiere comprender el tema y el contexto, no solo
comprender la estructura de las oraciones. Esto puede parecer obvio, pero no fue muy apreciado
hasta la década de 1960. Gran parte de los primeros trabajos en representación del conocimiento (el
estudio de cómo poner el conocimiento en una forma con la que una computadora pueda razonar)
estaba ligado al lenguaje e informado por la investigación en lingüística, que a su vez estaba
conectada a décadas de trabajo sobre el análisis filosófico del lenguaje.

1.3 La historia de la inteligencia artificial


Una forma rápida de resumir los hitos en la historia de la IA es enumerar a los ganadores del Premio
Turing: Marvin Minsky (1969) y John McCarthy (1971) por definir los cimientos del campo en función de la
representación y el razonamiento; Allen Newell y Herbert Simon (1975) por modelos simbólicos de
resolución de problemas y cognición humana; Ed Feigenbaum y Raj Reddy (1994) por desarrollar sistemas
expertos que codifican el conocimiento humano para resolver problemas del mundo real; Judea Pearl
(2011) por desarrollar técnicas de razonamiento probabilístico que abordan la incertidumbre de manera
basada en principios; y, finalmente, Yoshua Bengio, Geoffrey Hinton y Yann LeCun (2019) por hacer del
“aprendizaje profundo” (redes neuronales multicapa) una parte fundamental de la informática moderna. El
resto de esta sección entra en más detalles sobre cada fase de la historia de la IA.

1.3.1 El inicio de la inteligencia artificial (1943-1956)


El primer trabajo que ahora se reconoce generalmente como IA fue realizado por Warren McCulloch
y Walter Pitts (1943). Inspirándose en el trabajo de modelado matemático del asesor de Pitts, Nicolas
Rashevsky (1936, 1938), se basaron en tres fuentes: conocimiento de la fisiología básica y la función
de las neuronas en el cerebro; un análisis formal de la lógica proposicional debido a Russell y
Whitehead; y la teoría de la computación de Turing. Propusieron un modelo de neuronas artificiales
en el que cada neurona se caracteriza por estar "encendida" o "apagada", con un cambio a
"encendido" en respuesta a la estimulación de un número suficiente de neuronas vecinas. El estado
de una neurona se concebía como “fácticamente equivalente a una proposición que proponía su
estímulo adecuado”. Demostraron, por ejemplo, que cualquier función computable podría ser
calculada por alguna red de neuronas conectadas,Y,
O,NO, etc.) podría implementarse mediante estructuras de red simples. McCulloch y Pitts también sugirieron
que las redes adecuadamente definidas podrían aprender. Donald Hebb (1949) demostró una regla de
actualización simple para modificar las fuerzas de conexión entre las neuronas. Su regla, ahora llamada
aprendizaje hebbiano,sigue siendo un modelo influyente hasta el día de hoy. aprendizaje hebbiano

Dos estudiantes de pregrado en Harvard, Marvin Minsky (1927–2016) y Dean Edmonds, construyeron
la primera computadora de red neuronal en 1950. La STRAFICANTE DE DROGAS, como se le llamó, usó 3000 tubos
de vacío y un mecanismo de piloto automático sobrante de un bombardero B-24 para simular una red de
40 neuronas. Más tarde, en Princeton, Minsky estudió computación universal en redes neuronales. Su
doctorado El comité se mostró escéptico acerca de si este tipo de trabajo debería considerarse
matemáticas, pero según los informes, von Neumann dijo: "Si no lo es ahora, lo será algún día".
Hubo una serie de otros ejemplos de trabajos iniciales que pueden caracterizarse como IA,
incluidos dos programas para jugar a las damas desarrollados de forma independiente en 1952 por
Christopher Strachey en la Universidad de Manchester y por Arthur Samuel en IBM. Sin embargo, la
visión de Alan Turing fue la más influyente. Dio conferencias sobre el tema ya en 1947 en la London
Mathematical Society y articuló una agenda persuasiva en su artículo de 1950 "Com-
36 Capítulo 1 Introducción

poniendo Maquinaria e Inteligencia.” Allí, introdujo la prueba de Turing, el aprendizaje automático,


los algoritmos genéticos y el aprendizaje por refuerzo. Se ocupó de muchas de las objeciones
planteadas a la posibilidad de la IA, como se describe en el Capítulo 28. También sugirió que sería
más fácil crear IA a nivel humano desarrollando algoritmos de aprendizaje y luego enseñándole a la
máquina en lugar de programar su inteligencia por mano. En conferencias posteriores, advirtió que
lograr este objetivo podría no ser lo mejor para la raza humana.
En 1955, John McCarthy del Dartmouth College convenció a Minsky, Claude Shannon y
Nathaniel Rochester para que lo ayudaran a reunir a investigadores estadounidenses
interesados en la teoría de los autómatas, las redes neuronales y el estudio de la inteligencia.
Organizaron un taller de dos meses en Dartmouth en el verano de 1956. Hubo 10 asistentes en
total, incluidos Allen Newell y Herbert Simon de Carnegie Tech,11Trenchard More de Princeton,
Arthur Samuel de IBM y Ray Solomonoff y Oliver Selfridge del MIT. La propuesta dice:12

Proponemos que se lleve a cabo un estudio de inteligencia artificial de 2 meses y 10 hombres


durante el verano de 1956 en Dartmouth College en Hanover, New Hampshire. El estudio debe
proceder sobre la base de la conjetura de que cada aspecto del aprendizaje o cualquier otra
característica de la inteligencia puede, en principio, describirse con tanta precisión que se puede
hacer una máquina para simularlo. Se intentará descubrir cómo hacer que las máquinas utilicen el
lenguaje, formen abstracciones y conceptos, resuelvan tipos de problemas que ahora están
reservados a los humanos y se mejoren a sí mismos. Creemos que se puede lograr un avance
significativo en uno o más de estos problemas si un grupo cuidadosamente seleccionado de
científicos trabaja juntos durante un verano.

A pesar de esta predicción optimista, el taller de Dartmouth no condujo a ningún avance. Newell y
Simon presentaron quizás el trabajo más maduro, un sistema de prueba de teoremas matemáticos
llamado Teórico Lógico (LT). Simon afirmó: "Hemos inventado un programa de computadora capaz
de pensar de manera no numérica y, por lo tanto, resolvimos el venerable problema mente-cuerpo".
13Poco después del taller, el programa pudo probar la mayoría de los teoremas del Capítulo 2 de
Russell y Whitehead.Principios matemáticos. Según los informes, Russell estaba encantado cuando le
dijeron que LT había encontrado una prueba para un teorema que era más corta que la deprincipios.
Los editores de laRevista de lógica simbólicaestaban menos impresionados; rechazaron un artículo
en coautoría de Newell, Simon y Logic Theorist.

1.3.2 Entusiasmo temprano, grandes expectativas (1952-1969)


El establecimiento intelectual de la década de 1950, en general, prefería creer que “una máquina nunca puede
hacerX.” (Vea el Capítulo 28 para una larga lista deXrecogido por Turing.) Los investigadores de IA respondieron de
forma natural demostrando unaXdespués de otro. Se centraron en particular en tareas consideradas indicativas de
inteligencia en humanos, incluidos juegos, acertijos, matemáticas y pruebas de coeficiente intelectual. John
McCarthy se refirió a este período como el “¡Mira, mamá, sin manos!” era.

11Ahora Universidad Carnegie Mellon (CMU).


12Este fue el primer uso oficial del término de McCarthy.inteligencia artificial. Tal vez la "racionalidad computacional" hubiera sido
más precisa y menos amenazante, pero la "IA" se ha mantenido. En el 50 aniversario de la conferencia de Dartmouth, McCarthy
declaró que se resistía a los términos "computadora" o "computacional" en deferencia a Norbert Wiener, quien estaba promoviendo
dispositivos cibernéticos analógicos en lugar de computadoras digitales.
13Newell y Simon también inventaron un lenguaje de procesamiento de listas, IPL, para escribir LT. No tenían compilador y lo
tradujeron a mano a código de máquina. Para evitar errores, trabajaron en paralelo, llamándose números binarios mientras
escribían cada instrucción para asegurarse de que estuvieran de acuerdo.
Sección 1.3 La historia de la inteligencia artificial 37

Newell y Simon siguieron su éxito con LT con General Problem Solver, o GPS. A diferencia de LT, este
programa fue diseñado desde el principio para imitar los protocolos de resolución de problemas humanos.
Dentro de la clase limitada de acertijos que podía manejar, resultó que el orden en que el programa
consideraba los subobjetivos y las posibles acciones era similar a aquel en el que los humanos abordaban
los mismos problemas. Por lo tanto, GPS fue probablemente el primer programa en incorporar el enfoque
de "pensar humanamente". El éxito del GPS y los programas posteriores como modelos de cognición
llevaron a Newell y Simon (1976) a formular el famososistema de símbolos físicoshipótesis, que establece
símbolo físico
que “un sistema de símbolos físicos tiene los medios necesarios y suficientes para la acción inteligente sistema
general”. Lo que querían decir es que cualquier sistema (humano o máquina) que muestre inteligencia debe
operar manipulando estructuras de datos compuestas por símbolos. Veremos más adelante que esta
hipótesis ha sido cuestionada desde muchas direcciones.
En IBM, Nathaniel Rochester y sus colegas produjeron algunos de los primeros programas de IA. Herbert
Gelernter (1959) construyó el Probador de teoremas de geometría, que pudo probar teoremas que muchos
estudiantes de matemáticas encontrarían bastante complicados. Este trabajo fue un precursor de los probadores
de teoremas matemáticos modernos.
De todo el trabajo exploratorio realizado durante este período, quizás el más influyente a largo plazo
fue el de Arthur Samuel sobre las damas (damas). Usando métodos que ahora llamamos aprendizaje por
refuerzo (vea el Capítulo 23), los programas de Samuel aprendieron a jugar a un nivel amateur fuerte. Por
lo tanto, refutó la idea de que las computadoras pueden hacer solo lo que se les dice: su programa
aprendió rápidamente a jugar un mejor juego que su creador. El programa se demostró en la televisión en
1956, creando una fuerte impresión. Al igual que Turing, Samuel tuvo problemas para encontrar tiempo en
la computadora. Trabajando de noche, utilizó máquinas que todavía estaban en el piso de pruebas de la
planta de fabricación de IBM. El programa de Samuel fue el precursor de sistemas posteriores como TD-G
AMMON(Tesauro, 1992), que figuraba entre los mejores jugadores de backgammon del mundo, y ALPHA
GRAMOO(Plataet al., 2016), que conmocionó al mundo al derrotar al campeón mundial humano en Go (ver
Capítulo 6).
En 1958, John McCarthy hizo dos contribuciones importantes a AI. En MIT AI Lab Memo No. 1,
definió el lenguaje de alto nivelCeceo,que se convertiría en el lenguaje de programación de IA Ceceo

dominante durante los próximos 30 años. En un trabajo tituladoProgramas con Sentido Común,
adelantó una propuesta conceptual de sistemas de IA basados en el conocimiento y el
razonamiento. El documento describe el Advice Taker, un programa hipotético que encarnaría el
conocimiento general del mundo y podría usarlo para derivar planes de acción. El concepto se ilustró
con axiomas lógicos simples que bastan para generar un plan para conducir al aeropuerto. El
programa también fue diseñado para aceptar nuevos axiomas en el curso normal de la operación, lo
que le permitió lograr competencia en nuevas áreas.sin ser reprogramado. The Advice Taker encarnó
así los principios centrales de la representación y el razonamiento del conocimiento: que es útil tener
una representación formal y explícita del mundo y su funcionamiento y ser capaz de manipular esa
representación con procesos deductivos. El documento influyó en el curso de la IA y sigue siendo
relevante hoy.
1958 también marcó el año en que Marvin Minsky se mudó al MIT. Sin embargo, su colaboración inicial
con McCarthy no duró. McCarthy enfatizó la representación y el razonamiento en la lógica formal, mientras
que Minsky estaba más interesado en hacer que los programas funcionaran y, finalmente, desarrolló una
perspectiva antilógica. En 1963, McCarthy inició el laboratorio de IA en Stanford. Su plan de usar la lógica
para construir el Advice Taker definitivo fue avanzado por el descubrimiento de JA Robinson en 1965 del
método de resolución (un algoritmo completo de prueba de teoremas para análisis de primer orden).
38 Capítulo 1 Introducción

Figura 1.3Una escena del mundo de los bloques. SHRDLU(Winograd, 1972) acaba de completar el
comando "Encuentre un bloque que sea más alto que el que está sosteniendo y póngalo en la caja".

lógica; véase el Capítulo 9). El trabajo en Stanford enfatizó los métodos de propósito general para el
razonamiento lógico. Las aplicaciones de la lógica incluyeron los sistemas de planificación y respuesta a
preguntas de Cordell Green (Green, 1969b) y el proyecto de robótica Shakey en el Instituto de Investigación
de Stanford (SRI). Este último proyecto, discutido más adelante en el Capítulo 26, fue el primero en
demostrar la integración completa del razonamiento lógico y la actividad física.
En el MIT, Minsky supervisó a una serie de estudiantes que eligieron problemas limitados que parecían
micromundo requerir inteligencia para resolverlos. Estos dominios limitados se conocieron comomicromundos. S de
James SlagleAINTprogram (1963) pudo resolver problemas de integración de cálculo de forma cerrada típicos
de los cursos universitarios de primer año. La A de Tom EvansNALOGÍAprogram (1968) resolvió problemas de
analogía geométrica que aparecen en las pruebas de coeficiente intelectual. S de Daniel BobrowESTUDIANTE
program (1967) resolvió problemas de álgebra, como los siguientes:

Si la cantidad de clientes que recibe Tom es el doble del cuadrado del 20 por ciento de la
cantidad de anuncios que publica, y la cantidad de anuncios que publica es 45, ¿cuál es la
cantidad de clientes que obtiene Tom?

mundo de bloques El micromundo más famoso es elblo colocado cks mundo, que consiste en un conjunto de bloques sólidos o
sobre una mesa (o más a menudo, como Una imulación tableta fa op), como se muestra en la Figura 1.3.
tarea típica en este mundo es reorganizar ge el bloque ks en un cer manera, utilizando una mano robótica
que puede recoger un bloque a la vez tiempo. T hbloques electrónicoswel mundo era en casa a la visión del proyecto de
David Huffman (1971), la vis ion y c onstraint-pr opagación trabajo de David Waltz (1975),
la teoría del aprendizaje de Patrick W ni ston (1970), el Programa de comprensión del lenguaje natural
of T erry ganar ograduado (1972), un ye el planificador de n deAhlman (1974).
Primeros trabajos k bueno lding en t él McCulloch y Pitts también florecieron. los
Scott F ural redes de
nordeste

obra de Shm tu
el Winograd a y Jack Cowan (1963) mostró cómo un gran número de elementos
Sección 1.3 La historia de la inteligencia artificial 39

podría representar colectivamente un concepto individual, con un aumento correspondiente en robustez y


paralelismo. Los métodos de aprendizaje de Hebb fueron mejorados por Bernie Widrow (Widrow y Hoff,
1960; Widrow, 1962), quien llamó a sus redesadalinas,y por Frank Rosenblatt (1962) con superceptrones.los
teorema de convergencia del perceptrón (Bloquearet al., 1962) dice que el algoritmo de aprendizaje puede
ajustar la intensidad de la conexión de un perceptrón para que coincida con cualquier dato de entrada,
siempre que exista tal coincidencia.

1.3.3 Una dosis de realidad (1966-1973)


Desde el principio, los investigadores de IA no fueron tímidos a la hora de hacer predicciones sobre sus
próximos éxitos. A menudo se cita la siguiente declaración de Herbert Simon en 1957:

No es mi objetivo sorprenderlos o escandalizarlos, pero la forma más simple que puedo resumir es
decir que ahora hay en el mundo máquinas que piensan, que aprenden y que crean. Además, su
capacidad para hacer estas cosas aumentará rápidamente hasta que, en un futuro visible, la gama
de problemas que puedan manejar será equivalente a la gama a la que se ha aplicado la mente
humana.

El término “futuro visible” es vago, pero Simon también hizo predicciones más concretas: que dentro de 10
años una computadora sería campeona de ajedrez y una máquina probaría un teorema matemático
importante. Estas predicciones se hicieron realidad (o aproximadamente ciertas) en 40 años en lugar de 10.
El exceso de confianza de Simon se debió al rendimiento prometedor de los primeros sistemas de IA en
ejemplos simples. En casi todos los casos, sin embargo, estos primeros sistemas fallaron en problemas más
difíciles.
Hubo dos razones principales para este fracaso. La primera fue que muchos de los primeros sistemas de IA se
basaban principalmente en la "introspección informada" sobre cómo los humanos realizan una tarea, en lugar de
un análisis cuidadoso de la tarea, lo que significa ser una solución y lo que tendría que hacer un algoritmo. para
producir de manera confiable tales soluciones.
La segunda razón del fracaso fue la falta de apreciación de la intratabilidad de muchos de los problemas que la IA
intentaba resolver. La mayoría de los primeros sistemas de resolución de problemas funcionaban probando diferentes
combinaciones de pasos hasta encontrar la solución. Esta estrategia funcionó inicialmente porque los micromundos
contenían muy pocos objetos y, por lo tanto, muy pocas acciones posibles y secuencias de solución muy cortas. Antes de
que se desarrollara la teoría de la complejidad computacional, se pensaba ampliamente que "ampliar" a problemas más
grandes era simplemente una cuestión de hardware más rápido y memorias más grandes. El optimismo que acompañó al
desarrollo de la demostración del teorema de resolución, por ejemplo, pronto se desvaneció cuando los investigadores no
lograron probar teoremas que involucraban más de unas pocas docenas de hechos.El hecho de que un programa pueda j
Encontrar una solución en principio no significa que el programa contenga alguno de los mecanismos necesarios
para encontrarla en la práctica.
La ilusión de un poder computacional ilimitado no se limitaba a los procesos de resolución de problemas.
gramos Primeros experimentos enevolución de la máquina (ahora llamadoprogramación genética) (Frito-Evolución de la máquina
Berg, 1958; Friedberget al., 1959) se basaron en la creencia indudablemente correcta de que al hacer una
serie apropiada de pequeñas mutaciones en un programa de código de máquina, se puede generar un
programa con buen desempeño para cualquier tarea en particular. La idea, entonces, era probar
mutaciones aleatorias con un proceso de selección para preservar las mutaciones que parecían útiles. A
pesar de las miles de horas de tiempo de CPU, casi no se demostró ningún progreso.
El hecho de no enfrentarse a la "explosión combinatoria" fue una de las principales críticas
a la IA contenidas en el informe Lighthill (Lighthill, 1973), que constituyó la base para la
40 Capítulo 1 Introducción

decisión del gobierno británico de poner fin al apoyo a la investigación en IA en todas las universidades
menos en dos. (La tradición oral pinta un cuadro algo diferente y más colorido, con ambiciones políticas y
animosidades personales cuya descripción no viene al caso).
Surgió una tercera dificultad debido a algunas limitaciones fundamentales en las estructuras básicas que se
utilizan para generar un comportamiento inteligente. Por ejemplo, el libro de Minsky y Papertperceptrones(1969)
demostró que, aunque se podía demostrar que los perceptrones (una forma simple de red neuronal) aprendían
cualquier cosa que fueran capaces de representar, podían representar muy poco. En particular, un perceptrón de
dos entradas no podía entrenarse para reconocer cuándo sus dos entradas eran diferentes. Aunque sus resultados
no se aplicaron a redes multicapa más complejas, la financiación de la investigación para la investigación de redes
neuronales pronto se redujo a casi nada. Irónicamente, los nuevos algoritmos de aprendizaje de retropropagación
que causaron un enorme resurgimiento en la investigación de redes neuronales a fines de la década de 1980 y
nuevamente en la década de 2010 ya se habían desarrollado en otros contextos a principios de la década de 1960
(Kelley, 1960; Bryson, 1962).

1.3.4 Sistemas expertos (1969-1986)


La imagen de la resolución de problemas que había surgido durante la primera década de investigación en IA era
la de un mecanismo de búsqueda de propósito general que intentaba encadenar pasos elementales de
método débil razonamiento para encontrar soluciones completas. Tales enfoques han sido llamadosmetodos debilesporque,
aunque son generales, no se adaptan a instancias de problemas grandes o difíciles. La alternativa a los métodos
débiles es usar un conocimiento más poderoso y específico del dominio que permita pasos de razonamiento más
grandes y pueda manejar más fácilmente los casos típicos en áreas limitadas de especialización. Se podría decir
que para resolver un problema difícil, casi ya tienes que saber la respuesta.
El dENDRALprograma (Buchananet al., 1969) fue un ejemplo temprano de este enfoque. Fue
desarrollado en Stanford, donde Ed Feigenbaum (ex alumno de Herbert Simon), Bruce Buchanan
(filósofo convertido en informático) y Joshua Lederberg (genetista ganador del premio Nobel) se
unieron para resolver el problema de inferir la estructura molecular a partir de la información.
proporcionada por un espectrómetro de masas. La entrada al programa consiste en la fórmula
elemental de la molécula (p. ej., C6H13NO2) y el espectro de masas que da las masas de los diversos
fragmentos de la molécula generada cuando es bombardeada por un haz de electrones. Por ejemplo,
el espectro de masas puede contener un pico enmetro=15, correspondiente a la masa de un metilo
(CH3) fragmento.
La versión ingenua del programa generaba todas las estructuras posibles compatibles con la
fórmula y luego predecía qué espectro de masas se observaría para cada una, comparándolo con el
espectro real. Como era de esperar, esto es intratable incluso para moléculas de tamaño moderado.
El dENDRALLos investigadores consultaron a químicos analíticos y descubrieron que trabajaban
buscando patrones bien conocidos de picos en el espectro que sugirieran subestructuras comunes
en la molécula. Por ejemplo, la siguiente regla se usa para reconocer un subgrupo de cetonas (C=O)
(que pesa 28):

siMETROes la masa de toda la molécula y hay dos picos enX1yX2tal que (a)X1+X2=
METRO+28; (b)X1−28 es un pico alto; (C)X2−28 es un pico alto; y
(d) Al menos uno deX1yX2es alto
despuéshay un subgrupo de cetonas.

Reconocer que la molécula contiene una subestructura particular reduce enormemente el número de
posibles candidatos. Según sus autores, D.ENDRALfue poderoso porque incorporaba el conocimiento
relevante de la espectroscopia de masas no en forma de primeros principios sino
Sección 1.3 La historia de la inteligencia artificial 41

en “recetas de recetario” eficientes (Feigenbaumet al., 1971). La importancia de DENDRAL


fue que fue el primero exitosointensivo en conocimientossistema: su experiencia derivada de un gran
número de reglas de propósito especial. En 1971, Feigenbaum y otros en Stanford comenzaron el
Proyecto de Programación Heurística (HPP) para investigar hasta qué punto la nueva metodología de
sistemas expertospodría aplicarse a otras áreas. Sistemas expertos

El siguiente gran esfuerzo fue el MYCINsistema para el diagnóstico de infecciones de la sangre. Con alrededor
de 450 reglas, MYCINfue capaz de desempeñarse tan bien como algunos expertos, y considerablemente mejor que
los médicos jóvenes. También contenía dos diferencias importantes de DENDRAL. En primer lugar, a diferencia de la
DENDRALreglas, no existía un modelo teórico general a partir del cual el MYCINse pueden deducir reglas. Tenían que
adquirirse a partir de extensas entrevistas a expertos. Segundo, las reglas tenían que reflejar la incertidumbre
asociada con el conocimiento médico. METROYCINincorporó un cálculo de incertidumbre llamadofactores de
certeza (véase el Capítulo 13), que parecía (en ese momento) encajar bien con la forma en que los médicos factor de certeza

evaluaban el impacto de la evidencia en el diagnóstico.


El primer sistema experto comercial exitoso, R1, comenzó a operar en Digital Equipment Corporation
(McDermott, 1982). El programa ayudó a configurar pedidos para nuevos sistemas informáticos; en 1986, le
estaba ahorrando a la empresa unos 40 millones de dólares al año. Para 1988, el grupo de IA de DEC tenía
40 sistemas expertos implementados, y hay más en camino. DuPont tenía 100 en uso y 500 en desarrollo.
Casi todas las grandes corporaciones estadounidenses tenían su propio grupo de IA y usaban o
investigaban sistemas expertos.
La importancia del conocimiento del dominio también fue evidente en el área de la comprensión del
lenguaje natural. A pesar del éxito de la S de WinogradHRDLUsistema, sus métodos no se extendían a tareas
más generales: para problemas como la resolución de ambigüedades, usaba reglas simples que se basaban
en el diminuto alcance del mundo de los bloques.
Varios investigadores, incluidos Eugene Charniak del MIT y Roger Schank de Yale, sugirieron que
una sólida comprensión del lenguaje requeriría un conocimiento general sobre el mundo y un
método general para usar ese conocimiento. (Schank fue más allá y afirmó: "No existe tal cosa como
la sintaxis", lo que molestó a muchos lingüistas pero sirvió para iniciar una discusión útil). Schank y
sus estudiantes construyeron una serie de programas (Schank y Abelson, 1977; Wilensky , 1978;
Schank y Riesbeck, 1981) que todos tenían la tarea de comprender el lenguaje natural. El énfasis, sin
embargo, estaba menos en el lenguajeper sey más sobre los problemas de representar y razonar con
los conocimientos necesarios para la comprensión del lenguaje.
El crecimiento generalizado de las aplicaciones a problemas del mundo real condujo al desarrollo
de una amplia gama de herramientas de representación y razonamiento. Algunos se basaban en la
lógica; por ejemplo, el lenguaje Prolog se hizo popular en Europa y Japón, y el PLANNERfamilia en los
Estados Unidos. Otros, siguiendo la idea de Minsky demarcos (1975), adoptó un enfoque más marcos
estructurado, reuniendo hechos sobre objetos particulares y tipos de eventos y organizando los tipos
en una gran jerarquía taxonómica análoga a una taxonomía biológica.
En 1981, el gobierno japonés anunció el proyecto "Quinta generación", un plan de 10 años para
construir computadoras inteligentes masivamente paralelas que ejecutan Prolog. El presupuesto debía
superar los $ 1.3 mil millones en dinero de hoy. En respuesta, Estados Unidos formó la Corporación de
Microelectrónica y Tecnología Informática (MCC), un consorcio diseñado para asegurar la competitividad
nacional. En ambos casos, la IA fue parte de un amplio esfuerzo, incluido el diseño de chips y la
investigación de la interfaz humana. En Gran Bretaña, el informe Alvey restableció la financiación eliminada
por el informe Lighthill. Sin embargo, ninguno de estos proyectos alcanzó sus ambiciosos objetivos en
términos de nuevas capacidades de IA o impacto económico.
42 Capítulo 1 Introducción

En general, la industria de la IA creció de unos pocos millones de dólares en 1980 a miles de millones
de dólares en 1988, incluidas cientos de empresas que construyen sistemas expertos, sistemas de visión,
robots y software y hardware especializados para estos fines.
Poco después llegó un período llamado el "invierno de la IA", en el que muchas empresas se
quedaron en el camino porque no cumplieron sus extravagantes promesas. Resultó difícil construir y
mantener sistemas expertos para dominios complejos, en parte porque los métodos de
razonamiento utilizados por los sistemas fallaron ante la incertidumbre y en parte porque los
sistemas no podían aprender de la experiencia.

1.3.5 El regreso de las redes neuronales (1986-presente)


A mediados de la década de 1980, al menos cuatro grupos diferentes reinventaron elretropropagación
algoritmo de aprendizaje desarrollado por primera vez a principios de la década de 1960. El algoritmo se
aplicó a muchos problemas de aprendizaje en informática y psicología, y la amplia difusión de los
resultados en la colección.Procesamiento distribuido en paralelo(Rumelhart y McClelland, 1986) causó gran
expectación.
conexionista Estos llamadosconexionistaAlgunos vieron estos modelos como competidores directos tanto de
los modelos simbólicos promovidos por Newell y Simon como del enfoque logicista de McCarthy y
otros. Puede parecer obvio que, en algún nivel, los humanos manipulan los símbolos; de hecho, el
libro del antropólogo Terrence DeaconLas especies simbólicas(1997) sugiere que este es eldefiniendo
característicade humanos En contra de esto, Geoff Hinton, una figura destacada en el resurgimiento
de las redes neuronales en las décadas de 1980 y 2010, ha descrito los símbolos como el "éter
luminífero de la IA", una referencia al medio inexistente a través del cual muchos físicos del siglo XIX
creían que ondas electromagnéticas propagadas. Ciertamente, muchos conceptos que nombramos
en el lenguaje fallan, en una inspección más cercana, para tener el tipo de condiciones necesarias y
suficientes definidas lógicamente que los primeros investigadores de IA esperaban capturar en
forma axiomática. Puede ser que los modelos conexionistas formen conceptos internos de una
manera más fluida e imprecisa que se adapte mejor al desorden del mundo real. También tienen la
capacidad de aprender de los ejemplos: pueden comparar su valor de salida pronosticado con el
valor real de un problema y modificar sus parámetros para disminuir la diferencia.

1.3.6 Razonamiento probabilístico y aprendizaje automático (1987-presente)

La fragilidad de los sistemas expertos condujo a un nuevo enfoque más científico que incorpora
probabilidad en lugar de lógica booleana, aprendizaje automático en lugar de codificación manual y
resultados experimentales en lugar de afirmaciones filosóficas.14Se volvió más común construir sobre
teorías existentes que proponer nuevas, basar afirmaciones en teoremas rigurosos o metodología
experimental sólida (Cohen, 1995) en lugar de en la intuición, y mostrar relevancia para aplicaciones del
mundo real en lugar de ejemplos de juguete. .
Los conjuntos de problemas de referencia compartidos se convirtieron en la norma para demostrar el progreso,
incluido el repositorio de UC Irvine para conjuntos de datos de aprendizaje automático, el International Planning Compe-

14Algunos han caracterizado este cambio como una victoria de lalimpia—aquellos que piensan que las teorías de IA deben basarse
en el rigor matemático, sobre eldesaliñados—aquellos que prefieren probar muchas ideas, escribir algunos programas y luego
evaluar lo que parece estar funcionando. Ambos enfoques son importantes. Un cambio hacia la pulcritud implica que el campo ha
alcanzado un nivel de estabilidad y madurez. El énfasis actual en el aprendizaje profundo puede representar un resurgimiento de los
desaliñados.
Sección 1.3 La historia de la inteligencia artificial 43

tition para la planificación de algoritmos, el corpus LibriSpeech para el reconocimiento de voz, el conjunto de datos
MNIST para el reconocimiento de dígitos escritos a mano, ImageNet y COCO para el reconocimiento de objetos de
imagen, SQtuAD para responder preguntas en lenguaje natural, la competencia WMT para traducción automática y
las competencias internacionales SAT para solucionadores de satisfacción booleana.
La IA se fundó en parte como una rebelión contra las limitaciones de campos existentes como la teoría
del control y la estadística, pero en este período adoptó los resultados positivos de esos campos. Como dijo
David McAllester (1998):

En el período inicial de la IA, parecía plausible que las nuevas formas de computación simbólica, por
ejemplo, marcos y redes semánticas, hicieran obsoleta gran parte de la teoría clásica. Esto condujo a
una forma de aislacionismo en el que la IA se separó en gran medida del resto de la informática. Este
aislacionismo se está abandonando actualmente. Se reconoce que el aprendizaje automático no
debe aislarse de la teoría de la información, que el razonamiento incierto no debe aislarse del
modelado estocástico, que la búsqueda no debe aislarse de la optimización y el control clásicos, y
que el razonamiento automatizado no debe aislarse de los métodos y métodos formales. análisis
estático.

El campo de reconocimiento de voz ilustra el patrón. En la década de 1970, se probaron una amplia
variedad de arquitecturas y enfoques diferentes. Muchos de estos fueron más bien ad hoc y frágiles, y
trabajaron solo en unos pocos ejemplos cuidadosamente seleccionados. En la década de 1980, los enfoques
que utilizanmodelos ocultos de Markov (HMMs) llegaron a dominar el área. Dos aspectos de los HMM son Markov oculto
modelos
relevantes. En primer lugar, se basan en una teoría matemática rigurosa. Esto permitió a los investigadores
del habla aprovechar varias décadas de resultados matemáticos desarrollados en otros campos. En
segundo lugar, se generan mediante un proceso de entrenamiento sobre un gran corpus de datos de voz
reales. Esto garantiza que el rendimiento sea sólido y, en rigurosas pruebas a ciegas, los HMM mejoraron
sus puntajes de manera constante. Como resultado, la tecnología del habla y el campo relacionado del
reconocimiento de caracteres escritos a mano hicieron la transición a aplicaciones industriales y de
consumo generalizadas. Tenga en cuenta que no hubo una afirmación científica de que los humanos usen
HMM para reconocer el habla; más bien, los HMM proporcionaron un marco matemático para comprender
y resolver el problema. Veremos en la Sección 1.3.8, sin embargo,
1988 fue un año importante para la conexión entre la IA y otros campos, incluidas las estadísticas, la
investigación de operaciones, la teoría de la decisión y la teoría del control. Perla de Judea (1988)
Razonamiento Probabilístico en Sistemas Inteligentescondujo a una nueva aceptación de la probabilidad y
la teoría de la decisión en la IA. El desarrollo de Pearl deredes bayesianasprodujo un formalismo riguroso y red bayesiana
eficiente para representar el conocimiento incierto, así como algoritmos prácticos para el razonamiento
probabilístico. Los capítulos 12, 13, 14, 15 y 18 cubren esta área, además de desarrollos más recientes que
han aumentado considerablemente el poder expresivo de los formalismos probabilísticos; El Capítulo 21
describe métodos para aprender redes bayesianas y modelos relacionados a partir de datos.
Una segunda contribución importante en 1988 fue el trabajo de Rich Sutton que conecta el aprendizaje por
refuerzo, que se había utilizado en el programa de juego de damas de Arthur Samuel en la década de 1950, con la
teoría de los procesos de decisión de Markov (MDP) desarrollados en el campo de la investigación de operaciones.
Una avalancha de trabajo siguió conectando la investigación de planificación de IA con los MDP, y el campo del
aprendizaje reforzado encontró aplicaciones en robótica y control de procesos, además de adquirir fundamentos
teóricos profundos.
Una consecuencia de la nueva apreciación de la IA por los datos, el modelado estadístico, la optimización y el
aprendizaje automático fue la reunificación gradual de subcampos como la visión artificial, la robótica, el
reconocimiento de voz, los sistemas multiagente y el procesamiento del lenguaje natural que habían
44 Capítulo 1 Introducción

separarse un poco del núcleo de la IA. El proceso de reintegración ha producido beneficios


significativos tanto en términos de aplicaciones (por ejemplo, el despliegue de robots prácticos se
expandió enormemente durante este período) como en una mejor comprensión teórica de los
problemas centrales de la IA.

1.3.7 Grandes datos (2001-presente)

Los notables avances en el poder de cómputo y la creación de la World Wide Web han facilitado la creación de
grandes datos conjuntos de datos muy grandes, un fenómeno que a veces se conoce comograndes datos Estos conjuntos de
datos incluyen billones de palabras de texto, miles de millones de imágenes y miles de millones de horas de voz y
video, así como grandes cantidades de datos genómicos, datos de seguimiento de vehículos, datos de flujo de
clics, datos de redes sociales, etc.
Esto ha llevado al desarrollo de algoritmos de aprendizaje especialmente diseñados para aprovechar
conjuntos de datos muy grandes. A menudo, la gran mayoría de los ejemplos en tales conjuntos de datos sonsin
etiquetar; por ejemplo, en el influyente trabajo de Yarowsky (1995) sobre la desambiguación del sentido de las
palabras, las ocurrencias de una palabra como “planta” no están etiquetadas en el conjunto de datos para indicar si
se refieren a flora o fábrica. Sin embargo, con conjuntos de datos lo suficientemente grandes, los algoritmos de
aprendizaje adecuados pueden lograr una precisión de más del 96% en la tarea de identificar qué sentido se
pretendía en una oración. Además, Banko y Brill (2001) argumentaron que la mejora en el rendimiento obtenida al
aumentar el tamaño del conjunto de datos en dos o tres órdenes de magnitud supera cualquier mejora que pueda
obtenerse ajustando el algoritmo.
Un fenómeno similar parece ocurrir en las tareas de visión por computadora, como rellenar agujeros
en fotografías, agujeros causados por daños o por la eliminación de ex amigos. Hays y Efros (2007)
desarrollaron un método inteligente para hacer esto mezclando píxeles de imágenes similares;
descubrieron que la técnica funcionaba mal con una base de datos de solo miles de imágenes, pero cruzaba
un umbral de calidad con millones de imágenes. Poco después, la disponibilidad de decenas de millones de
imágenes en la base de datos de ImageNet (Denget al., 2009) provocó una revolución en el campo de la
visión artificial.
La disponibilidad de big data y el cambio hacia el aprendizaje automático ayudaron a la IA a recuperar
el atractivo comercial (Havenstein, 2005; Halevyet al., 2009). Big data fue un factor crucial en la victoria de
2011 del sistema Watson de IBM sobre campeones humanos en Jeopardy! juego de preguntas, un evento
que tuvo un gran impacto en la percepción del público sobre la IA.

1.3.8 Aprendizaje profundo (2011-presente)

Aprendizaje profundo El términoaprendizaje profundose refiere al aprendizaje automático que utiliza múltiples capas de elementos
informáticos simples y ajustables. Los experimentos se llevaron a cabo con este tipo de redes ya en la década de
1970, y en forma deredes neuronales convolucionalesencontraron cierto éxito en el reconocimiento de dígitos
escritos a mano en la década de 1990 (LeCunet al., 1995). Sin embargo, no fue hasta 2011 que los métodos de
aprendizaje profundo realmente despegaron. Esto ocurrió primero en el reconocimiento de voz y luego en el
reconocimiento de objetos visuales.
En el concurso ImageNet de 2012, que requería clasificar las imágenes en una de mil categorías
(armadillo, estantería, sacacorchos, etc.), un sistema de aprendizaje profundo creado en el grupo de
Geoffrey Hinton en la Universidad de Toronto (Krizhevskyet al., 2013) demostró una mejora espectacular
con respecto a los sistemas anteriores, que se basaban en gran medida en funciones artesanales. Desde
entonces, los sistemas de aprendizaje profundo han superado el rendimiento humano en algunas tareas de
visión (y se han quedado atrás en otras tareas). Se han informado ganancias similares en el habla.
Sección 1.4 Estado del arte 45

reconocimiento, traducción automática, diagnóstico médico y juegos. El uso de una red profunda
para representar la función de evaluación contribuyó a ALPHAGRAMOOvictorias de Go sobre los
principales jugadores humanos de Go (Silveret al., 2016, 2017, 2018).
Estos notables éxitos han provocado un resurgimiento del interés por la IA entre estudiantes,
empresas, inversores, gobiernos, medios de comunicación y el público en general. Parece que todas las
semanas hay noticias de una nueva aplicación de IA que se acerca o supera el rendimiento humano, a
menudo acompañada de especulaciones sobre un éxito acelerado o un nuevo invierno de IA.
El aprendizaje profundo depende en gran medida de un hardware potente. Mientras que una CPU de computadora
estándar puede hacer 109o 1010operaciones por segundo. un algoritmo de aprendizaje profundo que se ejecuta en
hardware especializado (por ejemplo, GPU, TPU o FPGA) puede consumir entre 1014y 1017operaciones por segundo,
principalmente en forma de operaciones matriciales y vectoriales altamente paralelizadas. Por supuesto, el aprendizaje
profundo también depende de la disponibilidad de grandes cantidades de datos de entrenamiento y de algunos trucos
algorítmicos (consulte el Capítulo 22).

1.4 Estado del arte


El estudio de cien años sobre IA de la Universidad de Stanford (también conocido como AI100) convoca paneles de
expertos para proporcionar informes sobre el estado del arte en IA. Su informe de 2016 (Stoneet al., 2016; Grosz y
Stone, 2018) concluye que "se pueden esperar aumentos sustanciales en los usos futuros de las aplicaciones de IA,
incluidos más automóviles autónomos, diagnósticos de atención médica y tratamiento dirigido, y asistencia física
para el cuidado de ancianos" y que "la sociedad ahora está en un coyuntura crucial para determinar cómo
implementar tecnologías basadas en IA de manera que promuevan, en lugar de obstaculizar, valores democráticos
como la libertad, la igualdad y la transparencia”. AI100 también produce unÍndice de IAaaiindex.orgpara ayudar a
seguir el progreso. Algunos aspectos destacados de los informes de 2018 y 2019 (en comparación con una Índice de IA

referencia del año 2000, a menos que se indique lo contrario):

• Publicaciones: los artículos de AI se multiplicaron por 20 entre 2010 y 2019 a unos 20 000 al año. La categoría
más popular fue el aprendizaje automático. (Los documentos de aprendizaje automático en arXiv.org se
duplicaron cada año desde 2009 hasta 2017). La visión por computadora y el procesamiento del lenguaje
natural fueron los siguientes más populares.

• Sentimiento: alrededor del 70 % de los artículos de noticias sobre IA son neutrales, pero los artículos con tono
positivo aumentaron del 12 % en 2016 al 30 % en 2018. Los problemas más comunes son éticos: privacidad de
datos y sesgo de algoritmo.

• Estudiantes: la inscripción a cursos se multiplicó por 5 en los EE. UU. y por 16 a nivel internacional desde el punto de
referencia de 2010. La IA es la especialización más popular en Ciencias de la Computación.

• Diversidad: los profesores de IA en todo el mundo son aproximadamente un 80 % hombres y un 20 % mujeres. Números similares se

mantienen para Ph.D. estudiantes y contrataciones de la industria.

• Congresos: La asistencia a NeurIPS aumentó un 800% desde 2012 hasta los 13.500 asistentes. Otras conferencias
están experimentando un crecimiento anual de alrededor del 30%.

• Industria: las nuevas empresas de IA en los EE. UU. aumentaron 20 veces a más de 800.

• Internacionalización: China publica más artículos al año que EE. UU. y casi tantos como toda Europa. Sin
embargo, en el impacto ponderado por citas, los autores estadounidenses están un 50 % por delante de los
autores chinos. Singapur, Brasil, Australia, Canadá e India son los países de más rápido crecimiento en
términos de número de contrataciones de IA.
46 Capítulo 1 Introducción

• Visión: las tasas de error para la detección de objetos (como se logró en LSVRC, el Desafío de
reconocimiento visual a gran escala) mejoraron del 28 % en 2010 al 2 % en 2017, superando el
rendimiento humano. La precisión en la respuesta visual a preguntas abiertas (VQA) mejoró del 55 %
al 68 % desde 2015, pero va a la zaga del rendimiento humano en un 83 %.

• Velocidad: el tiempo de capacitación para la tarea de reconocimiento de imágenes se redujo en un factor de


100 en los últimos dos años. La cantidad de potencia informática utilizada en las principales aplicaciones de
IA se duplica cada 3,4 meses.

• Idioma: Precisión en la respuesta a preguntas, medida por la puntuación F1 en el conjunto de datos


de respuesta a preguntas de Stanford (SQtuAD), aumentó de 60 a 95 de 2015 a 2019; en el SQtu
Variante AD 2, el progreso fue más rápido, pasando de 62 a 90 en solo un año. Ambas puntuaciones
superan el rendimiento a nivel humano.

• Puntos de referencia humanos: para 2019, los sistemas de inteligencia artificial habían alcanzado o excedido
el rendimiento a nivel humano en ajedrez, Go, póquer, Pac-Man, Jeopardy!, detección de objetos ImageNet,
reconocimiento de voz en un dominio limitado, traducción del chino al inglés en un dominio restringido.
dominio, Quake III, Dota 2, StarCraft II, varios juegos de Atari, detección de cáncer de piel, detección de
cáncer de próstata, plegamiento de proteínas y diagnóstico de retinopatía diabética.

¿Cuándo (si alguna vez) los sistemas de IA lograrán un rendimiento a nivel humano en una amplia variedad
de tareas? Ford (2018) entrevista a expertos en IA y encuentra una amplia gama de años objetivo, de 2029 a 2200,
con una media de 2099. En una encuesta similar (Graceet al., 2017) El 50 % de los encuestados pensó que esto
podría suceder en 2066, aunque el 10 % pensó que podría suceder ya en 2025, y algunos dijeron “nunca”. Los
expertos también estaban divididos sobre si necesitamos nuevos avances fundamentales o simplemente mejoras
en los enfoques actuales. Pero no te tomes sus predicciones demasiado en serio; como demuestra Philip Tetlock
(2017) en el área de la predicción de eventos mundiales, los expertos no son mejores que los aficionados.

¿Cómo funcionarán los futuros sistemas de IA? Todavía no podemos decir. Como se detalla en esta sección, el
campo ha adoptado varias historias sobre sí mismo: primero, la audaz idea de que la inteligencia de una máquina
era incluso posible, luego, que podría lograrse codificando el conocimiento experto en lógica, luego, que los
modelos probabilísticos del mundo serían posibles. la herramienta principal y, más recientemente, que el
aprendizaje automático induciría modelos que podrían no estar basados en ninguna teoría bien entendida. El
futuro revelará qué modelo viene después.
¿Qué puede hacer la IA hoy? Tal vez no tanto como algunos de los artículos más optimistas de los
medios podrían hacernos creer, pero aun así es mucho. Aquí hay unos ejemplos:
Vehículos robóticos:La historia de los vehículos robóticos se remonta a los coches controlados por
radio de la década de 1920, pero las primeras demostraciones de conducción autónoma en carretera sin
guías especiales ocurrieron en la década de 1980 (Kanadeet al., 1986; Dickmanns y Zapp, 1987). Después de
demostraciones exitosas de conducción en caminos de tierra en el DARPA Grand Challenge de 132 millas en
2005 (Thrun, 2006) y en calles con tráfico en el Urban Challenge de 2007, la carrera para desarrollar autos
autónomos comenzó en serio. En 2018, los vehículos de prueba de Waymo superaron el hito de 10 millones
de millas recorridas en vías públicas sin accidentes graves, con el conductor humano interviniendo para
tomar el control solo una vez cada 6000 millas. Poco después, la empresa comenzó a ofrecer un servicio de
taxi robótico comercial.
En el aire, los drones autónomos de ala fija han estado proporcionando entregas de sangre a través
del país en Ruanda desde 2016. Los cuadricópteros realizan maniobras acrobáticas notables, exploran
edificios mientras construyen mapas en 3D y se autoensamblan en formaciones autónomas.
Sección 1.4 Estado del arte 47

Locomoción con patas:BigDog, un robot cuadrúpedo de Raibertet al.(2008), dio un vuelco a nuestras nociones
de cómo se mueven los robots: ya no son los pasos lentos, rígidos y de lado a lado de los robots de las películas de
Hollywood, sino algo muy parecido a un animal y capaz de recuperarse cuando se lo empuja o cuando se resbala
en un charco helado. . Atlas, un robot humanoide, no solo camina sobre terrenos irregulares, sino que salta sobre
cajas y hace volteretas hacia atrás (Ackerman y Guizzo, 2016).
Planificación y programación autónoma:A cien millones de millas de la Tierra, el programa Remote
Agent de la NASA se convirtió en el primer programa de planificación autónomo a bordo para controlar la
programación de las operaciones de una nave espacial (Jonssonet al., 2000). Remote Agent generó planes a
partir de objetivos de alto nivel especificados desde cero y supervisó la ejecución de esos planes,
detectando, diagnosticando y recuperándose de los problemas a medida que ocurrían. Hoy, la E.UROPAkit de
herramientas de planificación (Barreiroet al., 2012) se utiliza para las operaciones diarias de los rovers de
Marte de la NASA y el SEXISTENTE(Winternitz, 2017) permite la navegación autónoma en el espacio profundo,
más allá del sistema GPS global.
Durante la crisis del Golfo Pérsico de 1991, las fuerzas estadounidenses desplegaron una herramienta
de análisis dinámico y replanificación, DARTE(Cross y Walker, 1994), para hacer una planificación y
programación logística automatizada para el transporte. Esto involucró hasta 50,000 vehículos, carga y
personas a la vez, y tuvo que considerar puntos de partida, destinos, rutas, capacidades de transporte,
capacidades de puertos y aeródromos y resolución de conflictos entre todos los parámetros. La Agencia de
Proyectos de Investigación Avanzada de Defensa (DARPA) declaró que esta única aplicación pagó con creces
la inversión de 30 años de DARPA en IA.
Todos los días, empresas de transporte como Uber y servicios de mapas como Google Maps brindan
indicaciones de manejo para cientos de millones de usuarios, trazando rápidamente una ruta óptima
teniendo en cuenta las condiciones de tráfico actuales y previstas para el futuro.
Máquina traductora:Los sistemas de traducción automática en línea ahora permiten la lectura de documentos
en más de 100 idiomas, incluidos los idiomas nativos de más del 99 % de los humanos, y generan cientos de miles
de millones de palabras por día para cientos de millones de usuarios. Si bien no son perfectos, generalmente son
adecuados para la comprensión. Para idiomas estrechamente relacionados con una gran cantidad de datos de
entrenamiento (como el francés y el inglés), las traducciones dentro de un dominio estrecho están cerca del nivel
de un humano (Wuet al., 2016b).
Reconocimiento de voz:En 2017, Microsoft demostró que su sistema de reconocimiento de voz
conversacional había alcanzado una tasa de error de palabra del 5,1 %, igualando el rendimiento humano
en la tarea Switchboard, que consiste en transcribir conversaciones telefónicas (Xionget al., 2017).
Alrededor de un tercio de la interacción informática en todo el mundo ahora se realiza mediante la voz en
lugar del teclado; Skype proporciona traducción de voz a voz en tiempo real en diez idiomas. Alexa, Siri,
Cortana y Google ofrecen asistentes que pueden responder preguntas y realizar tareas para el usuario; por
ejemplo, el servicio Google Duplex utiliza reconocimiento de voz y síntesis de voz para realizar reservas de
restaurantes para los usuarios, manteniendo una conversación fluida en su nombre.
Recomendaciones:Empresas como Amazon, Facebook, Netflix, Spotify, YouTube, Walmart y otras utilizan el
aprendizaje automático para recomendar lo que le gustaría según sus experiencias pasadas y las de otras
personas como usted. El campo de los sistemas de recomendación tiene una larga historia (Resnick y Varian, 1997),
pero está cambiando rápidamente debido a los nuevos métodos de aprendizaje profundo que analizan el
contenido (texto, música, video), así como la historia y los metadatos (van den Oordet al., 2014; zhanget al., 2017).
El filtrado de spam también puede considerarse una forma de recomendación (o desaconsejamiento); Las técnicas
actuales de IA filtran más del 99,9 % del spam, y los servicios de correo electrónico también pueden recomendar
destinatarios potenciales, así como un posible texto de respuesta.
48 Capítulo 1 Introducción

Jugando juego:Cuando Deep Blue derrotó al campeón mundial de ajedrez Garry Kasparov en 1997, los
defensores de la supremacía humana depositaron sus esperanzas en Go. Piet Hut, astrofísico y entusiasta
del Go, predijo que pasarían "cien años antes de que una computadora venza a los humanos en Go, tal vez
incluso más". Pero solo 20 años después, A.LPHAGRAMOOsuperó a todos los jugadores humanos (Plataet al.,
2017). Ke Jie, el campeón mundial, dijo: “El año pasado, todavía era bastante humano cuando jugaba. Pero
este año, se volvió como un dios de Go”. ALPHAGRAMOOse benefició del estudio de cientos de miles de
juegos anteriores de jugadores humanos de Go y del conocimiento destilado de jugadores expertos de Go
que trabajaron en el equipo.
Un programa de seguimiento, ALPHAZERO, no usó aportes de humanos (excepto las reglas
del juego) y fue capaz de aprender a través del juego solo para derrotar a todos los oponentes,
humanos y máquinas, en Go, ajedrez y shogi (Silveret al., 2018). Mientras tanto, campeones
humanos han sido derrotados por sistemas de IA en juegos tan diversos como Jeopardy!
(Ferrucciet al., 2010), póquer (Boloset al., 2015; Moravčı́ket al., 2017; Brown y Sandholm, 2019), y
los videojuegos Dota 2 (Fernandez y Mahlmann, 2018), StarCraft II (Vinyalset al., 2019) y Quake
III (Jaderberget al., 2019).
Comprensión de la imagen:No contentos con exceder la precisión humana en la desafiante tarea de
reconocimiento de objetos de ImageNet, los investigadores de visión por computadora han asumido el problema
más difícil de los subtítulos de imágenes. Algunos ejemplos impresionantes incluyen "Una persona que conduce
una motocicleta en un camino de tierra", "Dos pizzas colocadas encima de un horno sobre la estufa" y "Un grupo
de jóvenes jugando un juego de frisbee" (Vinyalset al., 2017b). Sin embargo, los sistemas actuales están lejos de
ser perfectos: un "refrigerador lleno de mucha comida y bebida" resulta ser una señal de prohibido estacionar
parcialmente oscurecida por muchas pegatinas pequeñas.
Medicamento:Los algoritmos de IA ahora igualan o superan a los médicos expertos en el diagnóstico
de muchas afecciones, especialmente cuando el diagnóstico se basa en imágenes. Los ejemplos incluyen la
enfermedad de Alzheimer (Dinget al., 2018), cáncer metastásico (Liuet al., 2017; Estevaet al., 2017),
enfermedad oftálmica (Gulshanet al., 2016) y enfermedades de la piel (Liuet al., 2019c). Una revisión
sistemática y metanálisis (Liuet al., 2019a) encontró que el desempeño de los programas de IA, en
promedio, era equivalente al de los profesionales de la salud. Un énfasis actual en la IA médica es facilitar
las asociaciones entre humanos y máquinas. Por ejemplo, la L.YNAEl sistema logra una precisión general del
99,6 % en el diagnóstico del cáncer de mama metastásico, mejor que un experto humano sin ayuda, pero la
combinación funciona aún mejor (Liuet al., 2018; Steineret al., 2018).
La adopción generalizada de estas técnicas ahora está limitada no por la precisión del
diagnóstico, sino por la necesidad de demostrar una mejora en los resultados clínicos y garantizar la
transparencia, la falta de sesgo y la privacidad de los datos (Topol, 2019). En 2017, la FDA solo aprobó
dos aplicaciones médicas de IA, pero aumentó a 12 en 2018 y continúa aumentando.
Ciencia del clima:Un equipo de científicos ganó el Premio Gordon Bell 2018 por un modelo de aprendizaje
profundo que descubre información detallada sobre eventos climáticos extremos que previamente estaban
enterrados en datos climáticos. Utilizaron una supercomputadora con hardware GPU especializado para superar el
nivel exaop (1018operaciones por segundo), el primer programa de aprendizaje automático en hacerlo (Kurthet al.,
2018). Rolnicket al.(2019) presentan un catálogo de 60 páginas sobre las formas en que se puede utilizar el
aprendizaje automático para abordar el cambio climático.

Estos son solo algunos ejemplos de los sistemas de inteligencia artificial que existen en la
actualidad. No magia ni ciencia ficción, sino ciencia, ingeniería y matemáticas, a las que este
libro ofrece una introducción.
Sección 1.5 Riesgos y beneficios de la IA 49

1.5 Riesgos y beneficios de la IA


Francis Bacon, un filósofo al que se atribuye la creación del método científico, señaló enLa sabiduría
de los antiguos(1609) que las “artes mecánicas son de uso ambiguo, sirviendo tanto para el daño
como para el remedio”. Dado que la IA desempeña un papel cada vez más importante en las esferas
económica, social, científica, médica, financiera y militar, haríamos bien en considerar los daños y
remedios (en lenguaje moderno, los riesgos y beneficios) que puede traer. Los temas resumidos aquí
se tratan con mayor profundidad en los capítulos 28 y 29.
Para empezar con los beneficios: en pocas palabras, toda nuestra civilización es producto de nuestra
inteligencia humana. Si tenemos acceso a una inteligencia artificial sustancialmente mayor, el techo de
nuestras ambiciones se eleva sustancialmente. El potencial de la IA y la robótica para liberar a la humanidad
del trabajo servil y repetitivo y aumentar drásticamente la producción de bienes y servicios podría presagiar
una era de paz y abundancia. La capacidad de acelerar la investigación científica podría resultar en curas
para enfermedades y soluciones para el cambio climático y la escasez de recursos. Como ha sugerido
Demis Hassabis, CEO de Google DeepMind: “Primero resuelva la IA, luego use la IA para resolver todo lo
demás”.
Sin embargo, mucho antes de que tengamos la oportunidad de “resolver la IA”, incurriremos en riesgos por el
uso indebido de la IA, involuntario o no. Algunos de estos ya son evidentes, mientras que otros parecen probables
según las tendencias actuales:

• Armas autónomas letales: Estas son definidas por las Naciones Unidas como armas que pueden localizar,
seleccionar y eliminar objetivos humanos sin intervención humana. Una preocupación principal con tales
armas es suescalabilidad: la ausencia de un requisito de supervisión humana significa que un pequeño
grupo puede desplegar un número arbitrariamente grande de armas contra objetivos humanos definidos
por cualquier criterio de reconocimiento factible. Las tecnologías necesarias para las armas autónomas son
similares a las que se necesitan para los automóviles autónomos. Las discusiones informales de expertos
sobre los riesgos potenciales de las armas letales autónomas comenzaron en la ONU en 2014, pasando a la
etapa formal previa al tratado de un Grupo de Expertos Gubernamentales en 2017.

• Vigilancia y persuasión: Si bien es costoso, tedioso y, a veces, legalmente cuestionable que el personal de
seguridad controle las líneas telefónicas, las transmisiones de las cámaras de video, los correos electrónicos
y otros canales de mensajería, la IA (reconocimiento de voz, visión por computadora y comprensión del
lenguaje natural) se puede usar de manera escalable. moda para realizar vigilancia masiva de individuos y
detectar actividades de interés. Al adaptar los flujos de información a las personas a través de las redes
sociales, con base en técnicas de aprendizaje automático, el comportamiento político puede modificarse y
controlarse hasta cierto punto, una preocupación que se hizo evidente en las elecciones que comenzaron
en 2016.
• Toma de decisiones sesgada: El uso indebido descuidado o deliberado de los algoritmos de aprendizaje automático
para tareas como la evaluación de solicitudes de libertad condicional y préstamos puede dar lugar a decisiones
sesgadas por raza, género u otras categorías protegidas. A menudo, los datos en sí mismos reflejan un sesgo
generalizado en la sociedad.

• Impacto en el empleo: Las preocupaciones sobre las máquinas que eliminan puestos de trabajo tienen siglos de
antigüedad. La historia nunca es simple: las máquinas hacen algunas de las tareas que los humanos podrían hacer
de otro modo, pero también hacen que los humanos sean más productivos y, por lo tanto, más empleables, y
hacen que las empresas sean más rentables y, por lo tanto, capaces de pagar salarios más altos. Pueden hacer
económicamente viables algunas actividades que de otro modo no serían prácticas. Sus
50 Capítulo 1 Introducción

el uso generalmente da como resultado un aumento de la riqueza, pero tiende a tener el efecto de trasladar
la riqueza del trabajo al capital, lo que exacerba aún más los aumentos de la desigualdad. Los avances
tecnológicos previos, como la invención de los telares mecánicos, han resultado en serias interrupciones en
el empleo, pero eventualmente las personas encuentran nuevos tipos de trabajo que hacer. Por otro lado,
es posible que la IA también haga esos nuevos tipos de trabajo. Este tema se está convirtiendo rápidamente
en un foco importante para los economistas y los gobiernos de todo el mundo.

• Aplicaciones críticas para la seguridad: A medida que avanzan las técnicas de IA, se utilizan cada vez más en
aplicaciones de alto riesgo y críticas para la seguridad, como la conducción de automóviles y la gestión del
suministro de agua de las ciudades. Ya han ocurrido accidentes fatales y resaltan la dificultad de la
verificación formal y el análisis estadístico de riesgos para los sistemas desarrollados utilizando técnicas de
aprendizaje automático. El campo de la IA deberá desarrollar estándares técnicos y éticos al menos
comparables a los que prevalecen en otras disciplinas de ingeniería y atención médica donde la vida de las
personas está en juego.

• La seguridad cibernética: Las técnicas de IA son útiles para defenderse de los ataques cibernéticos, por ejemplo,
mediante la detección de patrones de comportamiento inusuales, pero también contribuirán a la potencia, la
capacidad de supervivencia y la capacidad de proliferación del malware. Por ejemplo, los métodos de aprendizaje
por refuerzo se han utilizado para crear herramientas altamente efectivas para ataques de phishing y chantaje
personalizados y automatizados.

Revisaremos estos temas con más profundidad en la Sección 28.3. A medida que los sistemas de IA se
vuelvan más capaces, asumirán más roles sociales que antes desempeñaban los humanos. Así como los
humanos han usado estos roles en el pasado para perpetrar travesuras, podemos esperar que los
humanos hagan un mal uso de los sistemas de inteligencia artificial en estos roles para perpetrar aún más
travesuras. Todos los ejemplos dados anteriormente apuntan a la importancia de la gobernabilidad y,
eventualmente, la regulación. En la actualidad, la comunidad de investigación y las principales
corporaciones involucradas en la investigación de la IA han desarrollado principios de autogobierno
voluntario para las actividades relacionadas con la IA (consulte la Sección 28.3). Los gobiernos y las
organizaciones internacionales están estableciendo órganos consultivos para diseñar regulaciones
apropiadas para cada caso de uso específico, para prepararse para los impactos económicos y sociales,
¿Qué hay del largo plazo? ¿Lograremos el objetivo de larga data: la creación de una inteligencia
comparable o más capaz que la inteligencia humana? Y, si lo hacemos, ¿entonces qué?
Durante gran parte de la historia de la IA, estas preguntas se han visto eclipsadas por la rutina diaria
de lograr que los sistemas de IA hagan cualquier cosa, incluso remotamente inteligente. Al igual que con
cualquier disciplina amplia, la gran mayoría de los investigadores de IA se han especializado en un
subcampo específico, como los juegos, la representación del conocimiento, la visión o la comprensión del
lenguaje natural, a menudo bajo el supuesto de que el progreso en estos subcampos contribuiría a los
objetivos más amplios de AI. Nils Nilsson (1995), uno de los líderes originales del proyecto Shakey en SRI,
recordó al campo esos objetivos más amplios y advirtió que los subcampos estaban en peligro de
convertirse en fines en sí mismos. Más tarde, algunos fundadores influyentes de AI, incluidos John
McCarthy (2007), Marvin Minsky (2007) y Patrick Winston (Beal y Winston, 2009), coincidieron con las
advertencias de Nilsson: sugiriendo que en lugar de centrarse en el rendimiento medible en aplicaciones
específicas, la IA debería volver a sus raíces de luchar por, en palabras de Herb Simon, "máquinas que
IA a nivel humano piensan, que aprenden y que crean". Llamaron al esfuerzoIA a nivel humanoo HLAI: una máquina debería
poder aprender a hacer cualquier cosa que un humano pueda hacer. Su primer simposio fue en 2004
generales artificiales
inteligencia (AGI) (Minskyet al., 2004). Otro esfuerzo con objetivos similares, elInteligencia artificial general (AGI)
Sección 1.5 Riesgos y beneficios de la IA 51

(Goertzel y Pennachin, 2007), celebró su primera conferencia y organizó elRevista de


Inteligencia General Artificialen 2008. Artificial
Más o menos al mismo tiempo, se planteó la preocupación de que la creación desuperinteligencia superinteligencia
(ASI)
artificial oASI—inteligencia que supera con creces la capacidad humana—podría ser una mala idea
(Yudkowsky, 2008; Omohundro, 2008). El mismo Turing (1996) hizo el mismo punto en una conferencia
dada en Manchester en 1951, basándose en ideas anteriores de Samuel Butler (1863):15

Parece probable que una vez que el método de pensamiento de la máquina haya comenzado, no tardará
mucho en superar nuestros débiles poderes. . . . En algún momento, por lo tanto, deberíamos esperar que
las máquinas tomen el control, de la manera que se menciona en el libro de Samuel Butler.Erewhon.

Estas preocupaciones solo se han generalizado con los avances recientes en el aprendizaje
profundo, la publicación de libros comosuperinteligenciade Nick Bostrom (2014) y
pronunciamientos públicos de Stephen Hawking, Bill Gates, Martin Rees y Elon Musk.
Experimentar una sensación general de malestar con la idea de crear máquinas superinteligentes es
natural. Podríamos llamar a esto elproblema del gorila:Hace unos siete millones de años, evolucionó un Problema de gorila

primate ahora extinto, con una rama que condujo a los gorilas y otra a los humanos. Hoy, los gorilas no
están muy contentos con la rama humana; esencialmente no tienen control sobre su futuro. Si este es el
resultado del éxito en la creación de IA sobrehumana, que los humanos cedan el control sobre su futuro,
entonces tal vez deberíamos dejar de trabajar en IA y, como corolario, renunciar a los beneficios que podría
traer. Esta es la esencia de la advertencia de Turing: no es obvio que podamos controlar máquinas que son
más inteligentes que nosotros.
Si la IA sobrehumana fuera una caja negra que llegara del espacio exterior, sería prudente tener
cuidado al abrir la caja. Pero no lo es:nosotrosdiseñar los sistemas de IA, por lo que si terminan
“tomando el control”, como sugiere Turing, sería el resultado de una falla en el diseño.
Para evitar tal resultado, debemos comprender la fuente del posible fracaso. Norbert Wiener (1960),
quien se sintió motivado a considerar el futuro a largo plazo de la IA después de ver cómo el programa de
juego de damas de Arthur Samuel aprendió a vencer a su creador, dijo lo siguiente:

Si usamos, para lograr nuestros propósitos, una agencia mecánica con cuyo funcionamiento no podemos interferir
de manera efectiva. . . es mejor que estemos completamente seguros de que el propósito puesto en la máquina es
el propósito que realmente deseamos.

Muchas culturas tienen mitos de humanos que piden algo a dioses, genios, magos o demonios.
Invariablemente, en estas historias, obtienen lo que literalmente piden y luego se arrepienten. El tercer
deseo, si lo hay, es deshacer los dos primeros. Llamaremos a esto elProblema del Rey Midas: Midas, un rey problema del rey midas

legendario en la mitología griega, pidió que todo lo que tocara se convirtiera en oro, pero luego se
arrepintió después de tocar su comida, bebida y miembros de su familia.dieciséis
Tocamos este tema en la Sección 1.1.5, donde señalamos la necesidad de una modificación
significativa al modelo estándar de poner objetivos fijos en la máquina. La solución al predicamento
de Wiener es no tener un "propósito puesto en la máquina" definido en absoluto. En cambio,
queremos máquinas que se esfuercen por lograr los objetivos humanos pero que sepan que no
saben con certeza cuáles son exactamente esos objetivos.

15Incluso antes, en 1847, Richard Thornton, editor de laExpositor primitivo, arremetió contra las calculadoras mecánicas: “Mente. . .
se supera a sí mismo y elimina la necesidad de su propia existencia al inventar máquinas para pensar por sí mismo. . . . ¡Pero quién
sabe si tales máquinas, cuando son llevadas a una mayor perfección, no pueden pensar en un plan para remediar todos sus propios
defectos y luego triturar ideas más allá del conocimiento de la mente mortal!”
dieciséisMidas lo habría hecho mejor si hubiera seguido los principios básicos de seguridad e incluido un botón de "deshacer" y un
botón de "pausa" en su deseo.
52 Capítulo 1 Introducción

Quizás sea desafortunado que casi toda la investigación de IA hasta la fecha se haya llevado a cabo
dentro del modelo estándar, lo que significa que casi todo el material técnico de esta edición refleja ese
marco intelectual. Hay, sin embargo, algunos resultados preliminares dentro del nuevo marco. En el
capítulo 15 mostramos que una máquina tiene un incentivo positivo para dejarse apagar si y sólo si no está
segura del objetivo humano. En el Capítulo 17, formulamos y estudiamosjuegos de asistencia,que describen
juego de asistencia matemáticamente la situación en la que un humano tiene un objetivo y una máquina intenta alcanzarlo,
pero inicialmente no está seguro de cuál es. En el Capítulo 23, explicamos los métodos deaprendizaje por
Inverso
reforzamiento refuerzo inverso que permiten que las máquinas aprendan más sobre las preferencias humanas a partir de
aprendizaje
las observaciones de las elecciones que hacen los humanos. En el Capítulo 28, exploramos dos de las
principales dificultades: primero, que nuestras elecciones dependen de nuestras preferencias a través de
una arquitectura cognitiva muy compleja que es difícil de invertir; y, en segundo lugar, es posible que los
humanos no tengamos preferencias consistentes en primer lugar, ya sea individualmente o como grupo,
por lo que puede no estar claro qué sistemas de IAdeberíaestar haciendo por nosotros.

Resumen

Este capítulo define la IA y establece los antecedentes culturales en los que se ha desarrollado.
Algunos de los puntos importantes son los siguientes:
• Diferentes personas se acercan a la IA con diferentes objetivos en mente. Dos preguntas importantes que
debe hacerse son: ¿Le preocupa el pensamiento o el comportamiento? ¿Quieres modelar humanos o tratar
de lograr los resultados óptimos?
• De acuerdo con lo que hemos llamado el modelo estándar, la IA se ocupa principalmente de acción
racional.Un idealagente inteligentetoma la mejor acción posible en una situación. Estudiamos el
problema de la construcción de agentes que sean inteligentes en este sentido.
• Se necesitan dos mejoras a esta idea simple: primero, la capacidad de cualquier agente, humano o no,
para elegir acciones racionales está limitada por la dificultad computacional de hacerlo; segundo, el
concepto de una máquina que persigue un objetivo definido debe ser reemplazado por el de una
máquina que persigue objetivos para beneficiar a los humanos, pero sin saber cuáles son esos
objetivos.
• Filósofos (desde 400antes de Cristo) hizo que la IA fuera concebible al sugerir que la mente es en cierto
modo como una máquina, que opera con el conocimiento codificado en algún lenguaje interno y que
el pensamiento puede usarse para elegir qué acciones tomar.
• Los matemáticos proporcionaron las herramientas para manipular declaraciones de certeza lógica, así
como declaraciones inciertas y probabilísticas. También sentaron las bases para comprender la
computación y el razonamiento sobre algoritmos.
• Los economistas formalizaron el problema de tomar decisiones que maximicen la utilidad esperada
para el tomador de decisiones.
• Los neurocientíficos descubrieron algunos datos sobre cómo funciona el cerebro y las formas en que
es similar y diferente de las computadoras.
• Los psicólogos adoptaron la idea de que los seres humanos y los animales pueden considerarse máquinas de
procesamiento de información. Los lingüistas demostraron que el uso del lenguaje encaja en este modelo.

• Los ingenieros informáticos proporcionaron las máquinas cada vez más poderosas que hacen posibles las
aplicaciones de IA, y los ingenieros de software las hicieron más utilizables.
Notas bibliográficas e históricas 53

• La teoría del control se ocupa del diseño de dispositivos que actúan de manera óptima sobre la base de la
retroalimentación del entorno. Inicialmente, las herramientas matemáticas de la teoría del control eran
bastante diferentes de las utilizadas en la IA, pero los campos se acercan cada vez más.

• La historia de la IA ha tenido ciclos de éxito, optimismo fuera de lugar y los consiguientes recortes en
el entusiasmo y la financiación. También ha habido ciclos de introducción de enfoques nuevos y
creativos y de perfeccionamiento sistemático de los mejores.
• La IA ha madurado considerablemente en comparación con sus primeras décadas, tanto teórica como
metodológicamente. A medida que los problemas con los que se enfrenta la IA se volvieron más complejos,
el campo pasó de la lógica booleana al razonamiento probabilístico, y del conocimiento artesanal al
aprendizaje automático a partir de datos. Esto ha llevado a mejoras en las capacidades de los sistemas
reales y una mayor integración con otras disciplinas.

• A medida que los sistemas de IA encuentran aplicación en el mundo real, se ha vuelto necesario considerar
una amplia gama de riesgos y consecuencias éticas.

• A más largo plazo, nos enfrentamos al difícil problema de controlar sistemas de IA superinteligentes
que pueden evolucionar de manera impredecible. Resolver este problema parece requerir un cambio
en nuestra concepción de la IA.

Notas bibliográficas e históricas

Nils Nilsson (2009), uno de los primeros pioneros del campo, proporciona una historia completa de la IA.
Pedro Domingos (2015) y Melanie Mitchell (2019) brindan una descripción general del aprendizaje
automático para una audiencia general, y Kai-Fu Lee (2018) describe la carrera por el liderazgo internacional
en IA. Martin Ford (2018) entrevista a 23 investigadores líderes en IA.
Las principales sociedades profesionales de IA son la Asociación para el Avance de la
Inteligencia Artificial (AAAI), el Grupo de Interés Especial de la ACM en Inteligencia Artificial
(SIGAI, anteriormente SIGART), la Asociación Europea de IA y la Sociedad para la Inteligencia
Artificial y Simulación de Comportamiento. (AISB). La Asociación sobre IA reúne a muchas
organizaciones comerciales y sin fines de lucro preocupadas por los impactos éticos y sociales
de la IA. AAAIRevista IAcontiene muchos artículos temáticos y tutoriales, y su sitio web,aaai.org,
contiene noticias, tutoriales e información básica.
El trabajo más reciente aparece en las actas de las principales conferencias sobre IA: la
Conferencia Internacional Conjunta sobre IA (IJCAI), la Conferencia Europea anual sobre IA (ECAI) y la
Conferencia AAAI. El aprendizaje automático está cubierto por la Conferencia Internacional sobre
Aprendizaje Automático y la reunión de Sistemas de Procesamiento de Información Neural (NeurIPS).
Las principales revistas de IA general sonInteligencia artificial,Inteligencia Computacional, la
Transacciones IEEE sobre análisis de patrones e inteligencia artificial,Sistemas inteligentes IEEE, y el
Revista de investigación de inteligencia artificial. También hay muchas conferencias y revistas
dedicadas a áreas específicas, que cubrimos en los capítulos correspondientes.

También podría gustarte