Documentos de Académico
Documentos de Profesional
Documentos de Cultura
2. Machine Learning
Es una rama de la inteligencia artificial. El machine
learning es la capacidad de las máquinas de aprender a
partir de datos de manera automatizada, es decir que no
hayan sido programadas para dicha tarea.
3. Reinforcement Learning
El aprendizaje por refuerzo está
basado en la interacción de
entornos en un proceso de prueba
y error. Los algoritmos que están
Inteligencia Artificial basados en este modelo utilizan
los errores estimados como
recompensas y penalizaciones. Si
el error es pequeño, la
Machine Learning penalización es baja y la
recompensa alta; caso contrario a
cuando el error es grande.
Deep Learning 4. Deep Learning
Es una rama del machine learning
que utiliza redes neuronales para
modelar y resolver problemas
complejos que involucran
Fig 1. Clasificación general de la inteligencia artificial y el aprendizaje automático grandes cantidades de datos.
5. Open AI Gym
• Sin embargo, el darle el mismo peso a las recompensas a corto y largo plazo suele ser
problemático. Con infinitos pasos, esta expresión suele tender a infinito (diverge),
haciendo que la política carezca de urgencia por conseguir las recompensas.
• Se debe entonces buscar acotar esta expresión añadiendo un factor de descuento
Retorno Futuro Descontado
• Se desea entonces que el agente aprenda a obtener las recompensas de forma rápida.
Para ello, se aplica un factor de descuento , que proporciona menos valor a las
recompensas futuras.
• Se define entonces el Retorno Futuro Descontado como:
Entre todas las políticas posibles a seguir, existirá alguna política óptima
correspondiente al máximo Valor-Estado posible, el cual se denota por:
II.4. Explorar vs Explotar
• En aprendizaje por refuerzo, es clave
balancear exploración y explotación para
encontrar una política exitosa:
• Seguir solo la política óptima puede
atrapar al agente en un máximo local,
mientras que demasiada exploración no
optimiza recompensas y una exploración
insuficiente puede llevar a quedar
atrapado en un mínimo local.
• Por lo tanto, tomar acciones subóptimas
para explorar es importante.
Fig 5. Juego del camino del robot. Movimiento en
dos dimensiones, con obstáculos.
Se denomina Є al valor de balance entre exploración y explotación. Es igual a la probabilidad de que el
agente realice una acción aleatoria (exploración) y su valor se encuentra entre 0 y 1.
por Valores política para optimizar los pesos del modelo usando señales
de recompensa. Esto implica alentar al modelo a tomar
acciones que generen alta recompensa y evitar acciones que
generen baja recompensa. La expresión para la optimización
es;
• Esto nos permite ahora relacionar valores Q pasados y futuros, lo que convierte esta
expresión en una regla de actualización: se puede actualizar valores Q pasados en base a
valores Q futuros.
• Entonces, conociendo valor Q de la última acción antes del final del episodio, se puede
hallar iterativamente cada valor Q anterior hasta así encontrar el primero
Problemas con la iteración de valores
• La iteración de valores produce una asignación entre pares de estado y
acción con los valores Q correspondientes, y estamos construyendo una
tabla de estas asignaciones, o una tabla Q.
• La iteración de valor es un proceso exhaustivo que requiere un recorrido
completo de todo el espacio de estado, pares de acción. En un juego como
Breakout, con 100 ladrillos que pueden estar presentes o no, con 50
posiciones para que entre la pala y 250 posiciones para que entre la pelota
y 3 acciones, ya hemos construido un espacio que está lejos , mucho más
grande que la suma de toda la capacidad computacional de la humanidad.
• Además, en entornos estocásticos, el espacio de nuestra tabla Q sería aún
mayor y posiblemente infinito. Con un espacio tan grande, será difícil para
nosotros encontrar todos los valores Q para cada par de estados y
acciones.
Fig 6. Tabla Q de un espacio
de estados pequeño
• El tamaño de nuestra tabla Q hace que el enfoque
ingenuo sea intratable para cualquier problema que no
tenga un espacio de estados muy pequeño.
• Sin embargo, ¿qué pasa si relajamos nuestro requisito de
una función Q óptima? Si, en cambio, aprendemos
Aproximand aproximaciones de la función Q, podemos usar un
modelo para estimar nuestra función Q.
o la función • En lugar de tener que experimentar cada estado, par de
Q acciones para actualizar nuestra tabla Q, podemos
aprender una función que se aproxima a esta tabla e
incluso generaliza fuera de su propia experiencia.
• Esto significa que no tendremos que realizar una
búsqueda exhaustiva a través de todos los valores Q
posibles para aprender una función Q.
II.7. Deep Q-Network (DQN)
• Utiliza una red neuronal profunda que toma una imagen (estado) para estimar el valor Q
para todas las acciones posibles.
• Se busca aproximar la función Q óptima. Esta aproximación se expresa en función de los
parámetros del modelo:
Este objetivo es diferenciable, lo que nos permite usar descenso por gradiente estocástico
para minimizar la pérdida (diferencia)
• Se muestra a continuación
un algoritmo de
entrenamiento para la
DQN, en pseudocódigo:
• Se define la función de pérdidas en base a la diferencia
entre el valor Q predicho y el del siguiente paso. Esto
ocasiona que la pérdida sea doblemente dependiente de
los parámetros del modelo
Problemas • Con cada actualización de parámetros, los valores Q
cambian constantemente, y estamos utilizando valores Q
de cambiantes para realizar más actualizaciones.