Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Iteración de Políticas - Problema Del Lago Congelado
Iteración de Políticas - Problema Del Lago Congelado
title
Bien, ahora usemos a nuestro agente en lugar de usted para encontrar la forma correcta de llegar a
la oficina. El objetivo del agente es encontrar la ruta óptima para llegar de S a G sin quedar atrapado
en H. ¿Cómo puede lograr esto un agente? Damos +1 punto como recompensa al agente si lo hace
correctamente camina sobre el lago congelado y 0 puntos si cae en el agujero. Para que ese agente
pueda determinar cuál es la acción correcta. Un agente intentará ahora encontrar la política óptima.
La política óptima implica tomar el camino correcto que maximiza la recompensa del agente. Si el
agente está maximizando la recompensa, aparentemente el agente está aprendiendo a saltarse el
hoyo y llegar al destino.
In [4]: env.render()
SFFF
FHFH
FFFH
HFFG
<ipykernel.iostream.OutStream at 0x1fd52fe0df0>
Out[4]:
# establecer el umbral
threshold = 1e-10
while True:
# para cada estado del entorno, seleccione la acción según la política y calcule l
for state in range(env.nS):
action = policy[state]
return value_table
Ahora, definimos una función llamada política de extracción para extraer la política óptima de la
función de valor óptimo. es decir, calculamos el valor Q usando nuestra función de valor óptimo y
seleccionamos las acciones que tienen el valor Q más alto para cada estado como la política óptima.
# Seleccione la acción que tiene el valor Q máximo como una acción óptima del esta
policy[state] = np.argmax(Q_table)
return policy
if (np.all(old_policy == new_policy)):
print ('La iteración de políticas convergió en el paso %d.' %(i+1))
break
old_policy = new_policy
return new_policy
In [ ]: