Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Aprendizaje Automático
Ingenierı́a Informática
27 de febrero de 2009
En Esta Sección:
10 Procesos de Decisión de Markov
Definición de Aprendizaje por Refuerzo
Procesos de Decisión de Markov
Definición de un MDP
Polı́ticas y Optimalidad
Programación Dinámica
11 Aprendizaje por Refuerzo
Aprendizaje Por Refuerzo
Aproximaciones Libres de Modelo
Métodos Basados en el Modelo
Representación de la función Q
Generalización en Aprendizaje por Refuerzo
Discretización del Espacio de Estados
Aproximación de Funciones
Ejemplos de Aplicación
Fernando Fernández y Daniel Borrajo Aprendizaje Automático
Definición de Aprendizaje por Refuerzo
Procesos de Decisión de Markov
Procesos de Decisión de Markov
Aprendizaje por Refuerzo
Programación Dinámica
Entorno r
T(s,a) s’
R(s,a)
a
s
Agente r
π (s)
Métodos de Resolución
Definición de un MDP
Propiedad de Markov
Propiedad de Markov:
El estado anterior y la última acción realizada son suficientes
para describir el estado actual y el refuerzo recibido
Polı́ticas y Optimalidad
Objetivo de planificación:
Encontrar una polı́tica, π, que para cada estado s ∈ S, decida
cuál es la acción, a ∈ A, que debe ser ejecutada, de forma que
se maximice alguna medida de refuerzo a largo plazo.
Criterio de optimalidad de horizonte infinito descontado:
∞
X
γ k rk (44)
k=0
donde 0 ≤ γ ≤ 1
X
Q ∗ (s, a) = T (s, a, s 0 )[R(s, a) + γ máx
0
Q ∗ (s 0 , a0 ))]
a
s0
X
V ∗ (s) = máx T (s, a, s 0 )[R(s, a) + γV ∗ (s 0 )]
a∈A
s0
Ejemplo
a1/0,9
s1 s2
a2/1
a1/0,1 a1/0,9
a1/0,1
s4
a2/1 s3 a3/0,5
a3/0,5
Q ∗ (s4 , ai ) = 0
Q ∗ (s2 , a2 ) = T (s2 , a2 , s1 )[R(s2 , a2 , s1 ) + γ máxa0 Q ∗ (s1 , a0 )]+
T (s2 , a2 , s2 )[R(s2 , a2 , s2 ) + γ máxa0 Q ∗ (s2 , a0 )]+
T (s2 , a2 , s3 )[R(s2 , a2 , s3 ) + γ máxa0 Q ∗ (s3 , a0 )]+
T (s2 , a2 , s4 )[R(s2 , a2 , s4 ) + γ máxa0 Q ∗ (s4 , a0 )]
1+γ×0=1
Q ∗ (s2 , a1 ) = ¿?
Evaluación de la Polı́tica
a 3 /0,5 a 3 /0,5
MDP → Sistema de Markov
V (s4 ) = 0
Mejora de la Polı́tica
0 0 0
P
π(s3 ) = argai máx( Ps 0 T (s3 , ai , s )[R(s3 , ai , s ) + γV (s )] =
argai máx(Ps 0 T (s3 , a1 , s )[R(s3 , a1 , s ) + γV (s 0 )],
0 0
0 0 0
s 0 T (s3 , a2 , s )[R(s3 , a2 , s ) + γV (s )],
T (s3 , a3 , s1 )[R(s3 , a3 , s1 )) + γV (s1 )]+
T (s3 , a3 , s2 )[R(s3 , a3 , s2 ) + γV (s2 )]+
T (s3 , a3 , s3 )[R(s3 , a3 , s3 ) + γV (s3 )]+
T (s3 , a3 , s4 )[R(s3 , a3 , s4 ) + γV (s4 )]) =
argai máx(0 + 0 + 1[0 + γ00 937] + 0,
0 + 0 + 1[0 + γ00 937] + 0,
0[0 + 0 999] + 0[0 + 1] + 0 5[0 + 00 937] + 00 5[1 + 0]) =
0 0
Iteración de Valor