Inteligencia Artificial

Inteligencia Artificial
Sesión 10
• Aprendizaje a partir de la
observación
• Aprendizaje en las redes
neuronales.
• Representaciones estructuradas
(ontologías).
• Incertidumbre en el conocimiento.
Ing. Jonathan García

MÓDULO 2: Resolución de problemas y Lógica de Predicados
Unidad 5. Aprendizaje.
Aprendizaje a partir de la observación
• En la psicología conductista se hace un especial hincapié en describir las

leyes generales que rigen nuestra conducta voluntaria.
• Uno de los conceptos que manejan para ello es el de 'condicionamiento

operante', al que definen como un proceso de aprendizaje por el cual una
acción en particular es seguida por algo deseable (haciendo más probable
que el sujeto repita la acción) o por algo no deseable (disuadiendo de
realizarla).
• Ejemplo, estudiamos porque nos satisface sacar notas más altas, o jugamos
a un videojuego porque nos satisface jugar. Y para satisfacer esos estímulos
positivos (reforzamientos), estudiamos/jugamos más horas y recurrimos a
procesos de prueba y error para evaluar nuevas estrategias de
estudio/juego. Esto es, aprendemos gracias al condicionamiento operante.
Aplicando la psicología conductista a la máquina
• El aprendizaje por refuerzo (o aprendizaje reforzado) se basa en aplicar

exactamente este mismo principio a las inteligencias artificiales, con el fin
de que puedan aprender por sí mismas. Y es que las IAs cuentan con dos
ventajas de las que nosotros los humanos no disponemos: no se cansan ni
se aburren, y realizan sus tareas extraordinariamente rápido.
• Ambos factores les permiten sacar un gran rendimiento al proceso de

prueba/error: pueden ganar y perder millones de partidas de un
videojuego, tomando nota de qué decisiones les llevaron en cada caso a la
victoria o a la derrota, privilegiando unas y descartando otras hasta que su
estrategia sea absolutamente perfecta.
Aplicando la psicología conductista a la máquina
• Y donde decimos 'videojuego', podemos hablar igualmente de una amplia

gama de tareas, siempre que la IA pueda recibir un feedback de lo acertado
de sus decisiones.
• Uno de los aspectos fundamentales del aprendizaje por refuerzo es que

resuelve el difícil problema de correlacionar acciones inmediatas con sus
consecuencias a largo plazo: como los humanos en la vida real, esta clase de
algoritmos a veces tienen que operar en un entorno de retorno demorado,
donde puede ser difícil entender qué acción conduce a qué resultado en
muchos pasos de tiempo.
¿Qué necesitamos para formular un problema básico de aprendizaje de
refuerzo?
refuerzo? https://youtu.be/QilHGSYbjDQ
Necesitamos un agente (por ejemplo, Pacman) en un estado determinado (la

ubicación) dentro de un medio ambiente (el laberinto). PacMan cuenta con una u
otra recompensa (positiva: puntos por comer; negativa: morir si se cruza con un
fantasma) en base a qué acción (desplazamiento a un nuevo estado) realice.
Pero más allá de la recompensa existe lo que llamamos recompensa acumulada

esperada que consiste, como habrás averiguado, en ganar el juego. El aprendizaje
por refuerzo se base, de este modo, en un bucle de estado / acción / recompensa.
Para dar forma a una política óptima, el agente se enfrenta al dilema de explorar
nuevos estados (exploración) al tiempo que maximiza su recompensa acumulada
esperada (explotación).
refuerzo?
• Por ejemplo Pacman, siempre podemos intentar llevarlo al mundo real:
imaginemos que tenemos un macaco en casa (ejemplo real donde los haya) y
que está aburrido en nuestro salón, con la televisión apagada y el mando de la
TV sobre la mesa.
• Hasta aquí tenemos un agente (el simio en cuestión), un ambiente (el salón) y
un estado (la tele apagada). Por curiosidad o mero aburrimiento, el macaco
puede empezar a toquetear botones del mando: la acción, que generará un
nuevo estado.
• Si este estado no le gusta (la TV permanece apagada, lo cual constituye una

recompensa negativa) terminará optando por no tocar esos botones y pasar a
otros (o a una secuencia concreta de los mismos) hasta que maximice su
recompensa acumulada esperada (que la TV no sólo se encienda, sino que
muestre algún documental sobre la vida en la selva).
refuerzo?
Cuando DeepMind popularizó el aprendizaje por refuerzo
https://youtu.be/WXuK6gekU1Y
• Uno de los padres fundadores de la inteligencia artificial, Marvin Minsky, creó

en 1951 una máquina que imitaba a una rata a la hora de aprender a navegar
por un laberinto.
• Su nombre era SNARC (Ordenador Estocástico de Refuerzo de Similitud Neural) y

empleaba una forma simplificada de aprendizaje reforzado. La metodología
prometía, pero durante los siguientes 65 años fue imposible escalarla a
situaciones más complejas (y útiles).
• En 2016, DeepMind presentó ante el mundo a AlphaGo, una IA que, tras ser
entrenada durante varios meses en el análisis de miles de partidas jugadas por
humanos fue capaz de batir a un campeón humano de Go, un juego complejo al
que las máquinas nunca habían jugado bien recurriendo a la programación
convencional, por la dificultad para incorporar la estrategia al código.
Cuando DeepMind popularizó el aprendizaje por refuerzo
• Pero, un año más tarde, DeepMind presentaba una nueva IA, AlphaGo Zero, que
con menos de 3 días de entrenamiento fue capaz de ganar 100 veces seguidas a
su predecesora. ¿Residía el secreto en una mayor potencia de procesamiento?
• No, la clave reside en que AlphaGo Zero aprendió a jugar ella sola mediante
aprendizaje por refuerzo, jugando millones de partidas contra sí misma, hasta
que aprendió, como decíamos antes a maximizar su recompensa acumulada
esperada.
• La siguiente generación, AlphaZero, tuvo resultados aún más impresionantes. Y

permite atisbar, por fin, la aplicación del aprendizaje por refuerzo a empresas de
mayor calado para la humanidad.
https://www.xataka.com/robotica-e-ia/alphazero-ia-capaz-aprender-ella-a-jugar-
al-ajedrez-ganar-a-todas-a-ias-adiestradas-humanos
Aprendizaje en las redes neuronales. https://youtu.be/7-6X3DTt3R8
http://www.redes-neuronales.com.es/tutorial-redes-neuronales/tutorial-redes.htm
• Una red neuronal artificial es un grupo interconectado de nodos similar a la vasta red de
neuronas en un cerebro biológico. Cada nodo circular representa una neurona artificial y
cada flecha representa una conexión desde la salida de una neurona a la entrada de otra.
Aprendizaje en las redes neuronales.
• Las redes neuronales artificiales (también conocidas como sistemas

conexionistas) son un modelo computacional el que fue evolucionando a partir
de diversas aportaciones científicas que están registradas en la historia.
• Consiste en un conjunto de unidades, llamadas neuronas artificiales, conectadas

entre sí para transmitirse señales. La información de entrada atraviesa la red
neuronal (donde se somete a diversas operaciones) produciendo unos valores
de salida.
• Cada neurona está conectada con otras a través de unos enlaces. En estos
enlaces el valor de salida de la neurona anterior es multiplicado por un valor de
peso. Estos pesos en los enlaces pueden incrementar o inhibir el estado de
activación de las neuronas adyacentes. Del mismo modo, a la salida de la
neurona, puede existir una función limitadora o umbral, que modifica el valor
resultado o impone un límite que no se debe sobrepasar antes de propagarse a
otra neurona. Esta función se conoce como función de activación.
• Estos sistemas aprenden y se forman a sí mismos, en lugar de ser

programados de forma explícita, y sobresalen en áreas donde la detección
de soluciones o características es difícil de expresar con la programación
convencional. Para realizar este aprendizaje automático, normalmente, se
intenta minimizar una función de pérdida que evalúa la red en su total. Los
valores de los pesos de las neuronas se van actualizando buscando reducir
el valor de la función de pérdida. Este proceso se realiza mediante la
propagación hacia atrás.
• El objetivo de la red neuronal es resolver los problemas de la misma manera

que el cerebro humano, aunque las redes neuronales son más abstractas.
Las redes neuronales actuales suelen contener desde unos miles a unos
pocos millones de unidades neuronales.
• Nuevas investigaciones sobre el cerebro a menudo estimulan la creación de

nuevos patrones en las redes neuronales. Un nuevo enfoque está utilizando
conexiones que se extienden mucho más allá y capas de procesamiento de
enlace en lugar de estar siempre localizado en las neuronas adyacentes. Otra
investigación está estudiando los diferentes tipos de señal en el tiempo que los
axones se propagan, como el aprendizaje profundo, interpola una mayor
complejidad que un conjunto de variables booleanas que son simplemente
encendido o apagado.
• Las redes neuronales se han utilizado para resolver una amplia variedad de
tareas, como la visión por computador y el reconocimiento de voz, que son
difíciles de resolver usando la ordinaria programación basado en reglas.
Históricamente, el uso de modelos de redes neuronales marcó un cambio de
dirección a finales de los años ochenta de alto nivel, que se caracteriza por
sistemas expertos con conocimiento incorporado en si-entonces las reglas, a
bajo nivel de aprendizaje automático, caracterizado por el conocimiento
incorporado en los parámetros de un modelo cognitivo con algún sistema
dinámico.
Representaciones estructuradas (ontologías).
Incertidumbre en el conocimiento
Ruta de aprendizaje

https://www.xataka.com/inteligencia-artificial/conceptos-inteligencia-
artificial-que-aprendizaje-refuerzo
Por qué la IA aún no es capaz de ganar la partida | Captcha 1x07

https://youtu.be/N2dKD0Otyyw
Aprendizaje en las redes neuronales

https://www.youtube.com/watch?v=7-6X3DTt3R8&list=PL-
Ogd76BhmcB9OjPucsnc2-piEE96jJDQ&index=7

Inteligencia Artificial - Sesion 10

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Inteligencia Artificial - Sesion 10

Cargado por

Copyright:

Formatos disponibles

Ing. Jonathan García

• En la psicología conductista se hace un especial hincapié en describir las

• Uno de los conceptos que manejan para ello es el de 'condicionamiento

• El aprendizaje por refuerzo (o aprendizaje reforzado) se basa en aplicar

• Ambos factores les permiten sacar un gran rendimiento al proceso de

• Y donde decimos 'videojuego', podemos hablar igualmente de una amplia

• Uno de los aspectos fundamentales del aprendizaje por refuerzo es que

Necesitamos un agente (por ejemplo, Pacman) en un estado determinado (la

Pero más allá de la recompensa existe lo que llamamos recompensa acumulada

• Si este estado no le gusta (la TV permanece apagada, lo cual constituye una

• Uno de los padres fundadores de la inteligencia artificial, Marvin Minsky, creó

• Su nombre era SNARC (Ordenador Estocástico de Refuerzo de Similitud Neural) y

• La siguiente generación, AlphaZero, tuvo resultados aún más impresionantes. Y

• Las redes neuronales artificiales (también conocidas como sistemas

• Consiste en un conjunto de unidades, llamadas neuronas artificiales, conectadas

• Estos sistemas aprenden y se forman a sí mismos, en lugar de ser

• El objetivo de la red neuronal es resolver los problemas de la misma manera

• Nuevas investigaciones sobre el cerebro a menudo estimulan la creación de

Aprendizaje a partir de la observación

Por qué la IA aún no es capaz de ganar la partida | Captcha 1x07

Aprendizaje en las redes neuronales

También podría gustarte