Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Aprendizaje Por Refuerzo Tradicional y Profundo (Reinforcement Learning)
Aprendizaje Por Refuerzo Tradicional y Profundo (Reinforcement Learning)
1 0,1
Estado
Podemos definir una tabla que
contenga la Calidad de tomar
2 0,2
una acción cuando estamos en
determinado estado (Q table)
0,3
0,4
• Si tuvieramos esta tabla, solo tendriamos que tomar las acciones con Q máximo (Politica óptima)
• Al principio el agente no tiene información de como funciona el entorno
Q Learning
• IDEA: Hallar la Q table de forma iterativa a partir de la interacción con
el entorno
La definimos y la llenamos de ceros
0 -90
R(0,1)=-100
Q(0,0,down)=(1-0.9)*0+ Q(0,0)=(1-0.9)*0+
0.9*[ 0+0.9*max(Q(1,0,right),Q(1,0,left), 0.9*[ -100+0.9*max(Q(1,0,right),Q(1,0,left),
Q(1,0,down),Q(1,0,up)) ] Q(1,0,down),Q(1,0,up)) ]
Dilema de la exploración y la explotación
• Al principio nuestro agente no conoce el entorno entonces las
acciones deben ser aleatorias
No es una
clasificación sino
una regresión!
Del RL tradicional al Deep RL
𝐿𝑜𝑠𝑠=∑ ( 𝑦 −𝑄 ( 𝑠 ,𝑎 ,𝑤 ) ) 𝑑𝑜𝑛𝑑𝑒 𝑦 =𝑅 ( 𝑠,𝑎 )+𝛾 max 𝑄 ( 𝑠 ,𝑎 ,𝑤 )
2 ′ ′
𝑖 𝑖 ′
𝑎
Observación
(4 frames) Estado Acción=Argmax(Q)
Características
convolucionales
Entrenamiento de la DQN
• La siguiente acción se determina
a partir de la salida que tenga
mayor Q
• Las experiencias pasadas son
guardadas en memoria para
después actualizar los pesos
• La función de costo es el error
cuadrático medio
• Las etiquetas están dadas por la
ecuación de Bellman
RL: De los juegos a la vida real
TikTok: escoger el próximo Notificaciones inteligentes: Robótica: Mover el robot para
contenido que maximice el tiempo Decidir si enviar o no una lograr el objetivo de interés
de reproducción notificación tal que maximice
la tasa de apertura
• Para más información:
https://www.udemy.com/course/deep-learning-para-computer-vision
-con-python-y-tensorflow/?referralCode
=9ECD5F991F5AFC754963