Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Apuntes Curso Ai Python
Apuntes Curso Ai Python
1. REINFORCEMENT LEARNING
1.1.ECUACIÓN DE BELLMAN
S – estados
A – acciones
R – recompensas
ɣ - descuento
V=1 V=1
V=1
V=1
Al agente conseguir una recompensa positiva, estudiara el estado anterior y estudia el cómo y
por qué consiguió dicha recompensa. El estado anterior al de la recompensa positiva posee un
valor de 1 (V=1), siguiendo esta dinámica cada estado anterior al R=+1 al pertenecer al algoritmo
de funcionamiento correcto se le otorga un valor de 1 (V=1). Esta explicación es vaga e imperfecta
debido a que la presencia de estados de valor 1 en cada paso del algoritmo ideal generara dudas
en la IA, esta problemática es resuelta por la presencia de ganma o descuento (ɣ) en la Ecuación
de Bellman.
V=0.7 V=0.8
V=0.6
V=0.7 V=0.9
V=0.7
1.1.3. EL PLAN
Acciones ideales a seguir según los cálculos realizados mediante la ecuación de Bellman.
Proceso utilizado cuando existe aleatoriedad en la toma de decisiones del agente, para ello es
necesario realizar una serie de cambios en la ecuación de Bellman.
Se reemplaza en la ecuación de Bellman el estado a seguir por todos los estados posibles.
Solo pueden ser implementados de forma literal cuando el proceso no sea estocástico, en caso de
serlo se tiene que calcular un nuevo conjunto de acciones inspiradas en el plan original.
0.8
0.8
0.8