Documentos de Académico
Documentos de Profesional
Documentos de Cultura
0.5 créditos
CC-BY-SA • Procesos de decisión de Markov
Índice
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
Objectivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1. Procesos de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1. Introducción a los MPs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2. Estados y propiedad de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3. Probabilidad y matriz de transición de estados . . . . . . . . . . . . . . . . . . . . . . 8
1.4. Definición formal de un MP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.5. Ejemplo: Cadena de Markov de un estudiante . . . . . . . . . . . . . . . . . . . . . . . 9
Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
Glosario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
Bibliografía . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
CC-BY-SA • 5 Procesos de decisión de Markov
Introducción
En este módulo estudiaremos los procesos de decisión de Markov (cuyas siglas MDP,
vienen de Markov Decision Process en inglés).
Los MDPs establecen el marco formal del problema que describe cualquier entorno
de aprendizaje automático (RL, de Reinforcement Learning en inglés): el problema
de la toma secuencial de decisiones donde las acciones elegidas no sólo influyen en las
recompensas inmediatas si no también en los estados y recompensas futuras.
Para llegar a entender este tipo de procesos y las ecuaciones que los caracterizan
realizaremos una aproximación incremental. De esta forma empezaremos explicando
en el primer capítulo del módulo los denominados procesos o cadenas de Markov
(MP, de Markov Process en inglés), incidiendo en la propiedad de Markov que debe
caracterizar a un estado, el concepto de probabilidad de transición de un estado a
otro, y la matriz de transición de estados asociada a estas probabilidades.
Se incluye al final del módulo una serie de anexos con las demostraciones matemáticas
detalladas de las ecuaciones principales que caracterizan a los MRPs y MDPs.
CC-BY-SA • 6 Procesos de decisión de Markov
Objectivos
En este módulo encontraremos las herramientas necesarias para ser capaces de asi-
milar los siguientes objetivos:
1. Procesos de Markov
.
Los procesos de Markov (denominados así en honor al matemático ruso Andréi Már- Andréi Márkov
kov) son estudiados ampliamente en la teoría de la probabilidad y en estadística. Un Andréi Andréyevich Márkov
proceso o cadena de Markov es un proceso aleatorio (fenómeno aleatorio que cambia (14 de junio de 1856 - 20 de
julio de 1922) fue un
a lo largo del tiempo) que queda caracterizado mediante los siguientes elementos: matemático ruso conocido
por sus trabajos en la teoría
de los números y la teoría de
• Estado St . la probabilidad.
• Propiedad de Markov.
Un estado St es una caracterización del entorno que recoge las condiciones en las que
se encuentra un ente (el agente en los problemas de RL). En los procesos de Markov
los estados deben cumplir la denominada propiedad de Markov.
Propiedad de Markov
La definición anterior establece que la probabilidad del siguiente estado St+1 condi-
cionada por el estado actual St es la misma que si está condicionada por el estado
CC-BY-SA • 8 Procesos de decisión de Markov
actual y todos los anteriores. De esta forma, si conocemos el estado actual, podemos
desestimar toda la historia pasada para determinar el siguiente estado.
En otras palabras: “El futuro es independiente del pasado dado el presente”. Es decir,
toda la historia futura depende del estado actual St y no de los estados previos que,
por tanto, se pueden descartar.
Otra manera de verlo es que el estado St es un estadístico suficiente del futuro (se
basta plenamente para caracterizar estadísticamente el futuro).
P11 P12 ··· P1n
P21 P22 ··· P2n
P=P= (2)
.. .. ..
. . .
Pn1 Pn2 ··· Pnn
p(xi ) = P r{X = xi }
∑ ∑
Pss′ = p(s′ |s) = 1
∀s′ ∈S ∀s′ ∈S
Las dos propiedades
fundamentales de esta
función son:
• 0 ≤ p(xi ) ≤ 1
∑
• p(xi ) = 1
∀xi
CC-BY-SA • 9 Procesos de decisión de Markov
Un proceso de Markov es proceso aleatorio sin memoria, es decir, una secuencia finita
de estados S1 , S2 , ... que cumplen la propiedad de Markov. El hecho de que el proceso
se pueda modelar como una secuencia finita de estados hace que reciba el nombre de
cadena de Markov.
Por último, debemos remarcar que para poder aplicar la teoría de los procesos de
Markov a fenómenos físicos, estos deben cumplir la propiedad de estacionariedad.
Esta propiedad impone que las probabilidades de transición Pss′ = p(s′ |s) deben
mantenerse constantes a lo largo del tiempo.
• P ass, estado que representa que el alumno ha finalizado las clases y se va a casa.
0.9
Facebook Sleep
0.1
0.4
0.2
0.4
Pub
De esta forma cada día podemos representar la evolución del estudiante mediante una
secuencia de estados que empezarán siempre por el estado inicial S1 = C1 y finaliza
con el estado terminal ST = Sleep. Cada una de estas secuencias recibe el nombre de
episodio. A continuación se presentan algunos episodios a modo de ejemplo:
• C1 FB C1 C2 Sleep.
• C1 FB FB C1 C2 C3 Pass Sleep
• C1 C2 C3 Pub C2 Sleep
• C1 FB FB C1 C2 C3 Pub C1 FB FB C1 C2 Sleep
Las flechas que unen cada estado representan las transiciones de un estado a otro, y
los números asociados a cada una de estas flechas son las probabilidades de transición
de estado Pss′ = p(s′ |s). De esta forma podemos ver que, por ejemplo, desde la
clase 2 existe la posibilidad de que el alumno siga estudiando en la clase 3 (con una
probabilidad PC2C3 = p(C3|C2) = 0,8) o que se vaya a dormir (con una probabilidad
CC-BY-SA • 11 Procesos de decisión de Markov
Es importante fijarse que la suma de las probabilidades que salen de cada estado
suman 1 ya que constituyen los elementos de las diferentes filas de la matriz de
transición de estados que, como hemos visto con anterioridad, siempre deben sumar
1.
De esta forma, la matriz de transición de estados para este ejemplo se definiría como:
PC1C1 PC1C2 PC1C3 PC1P ass PC1P ub PC1F B PC1Sleep
PC2C1 PC2C2 ···
PC3C1 PC3C2 ···
P=
PP assC1 PP assC2 ···
P PP ubC2 ···
P ubC1
P PF BC2 ···
F BC1
PSleepC1 PSleepC2 ···
0 0,5 0 0 0 0,5 0
0 0 0,8 0 0 0 0,2
0 0 0 0,6 0,4 0 0
P=
0 0 0 0 0 0
1,0
0,2 0
0,4 0,4 0 0 0
0,1 0
0 0 0 0 0,9
0 0 0 0 0 0 1,0
Es importante reseñar que el estado final Sleep no puede desembocar en otro estado,
por lo que todas las probabilidades de transición desde ese estado p(s′ |Sleep) son
nulas excepto hacia sí mismo p(Sleep|Sleep) = 1.
CC-BY-SA • 12 Procesos de decisión de Markov
2.1.1. El retorno
∞
∑
Gt = Rt+1 + Rt+2 + Rt+3 + ... = Rt+k+1 (3)
k=0
CC-BY-SA • 13 Procesos de decisión de Markov
∞
∑
Gt = Rt+1 + γRt+2 + γ 2 Rt+3 + ... = γ k Rt+k+1 (4)
k=0
El factor de descuento, además, puede verse como el valor presente de las futuras
recompensas. De esta forma el valor de recibir una recompensa R al cabo de de
k + 1 pasos en el tiempo es γ k R, ya que si una recompensa R se recibe en el siguiente
paso su valor es R, pero si se recibe dentro de 2 pasos su valor pasa a ser γR, γ 2 R
al cabo de 3 pasos y así sucesivamente. Al ser γ, normalmente, un valor inferior a la
unidad, la recompensa va perdiendo valor conforme llega más retrasada en el tiempo,
de ahí el nombre de factor de descuento. Si analizamos los casos extremos:
• Si γ ≃ 1 las recompensas a largo plazo son igual de importantes que las recom-
pensas a corto plazo. Es lo que se conoce como un retorno ’optimista’ a largo
plazo.
= Rt+1 + γGt+1
Esta recursividad es la base de las ecuaciones de Bellman que veremos en los próximos
apartados.
Tanto las recompensa inmediata Rt+1 como el retorno Gt suelen ser valores aleatorios.
Es por ello que debemos tomar sus valores esperados.
∑ ∑
r(s) = E[Rt+1 |St = s] = rP r{Rt+1 = r|St = s} = rp(r|s) (6)
∀r∈R ∀r∈R
Podemos interpretar la función de valor v(s) como el valor a largo plazo del estado s.
1∑
n
0.5 0.2 1.0
lı́m P r{ Xi = µ} = 1
n→∞ n i=1
0.8 0.6
Class 1 0.5 Class 2 Class 3 Pass
R = -2 R = -2 R = -2
0.4 El significado de la ecuación
R = +10 anterior es que cuando
promediamos infinitas
realizaciones independientes
de la misma variable
0.4 aleatoria, este promedio
0.2 tiende al valor esperado de
0.4
Pub dicha variable.
R = +1
Si, por ejemplo, quisiéramos calcular el retorno para el estado inicial S1 = C1, debe-
ríamos utilizar la fórmula:
1
De esta forma, si escogemos un factor de descuento γ = 2 podemos calcular dicho
retorno en cada uno de los siguientes episodios:
C1 FB C1 C2 Sleep → G1 = −1 − 2 ∗ 1
2
−2∗ 1
4
= −2,5
C1 FB FB C1 C2 C3 Pass Sleep → G1 = −1 − 1 ∗ 1
2
−2∗ 1
4
−2∗ 1
8
− · · · = −2,0625
C1 C2 C3 Pub C2 Sleep → G1 = −2 − 2 ∗ 1
2
+1∗ 1
4
−2∗ 1
8
= −3
De esta forma, si pudiéramos simular todos los posibles episodios, hiciéramos el cálculo
de los retornos correspondientes y promediáramos los resultados obtendríamos, según
la Ley de los grandes números, la función de valor del estado inicial v(C1).
∑
v(s) = r(s) + γ p(s′ |s)v(s′ ) (9)
∀s′ ∈S
v = r + γPv (10)
Donde v es un vector columna que contiene todos los estados posibles, r es un vector
columna cuyos elementos son las recompensas inmediatas esperadas de cada estado
y P = P es la matriz de transición de estados.
v(1) r(1) P11 P12 ··· P1n v(1)
v(2) r(2) P21 P22 ··· P2n v(2)
= +γ (11)
.. .. .. .. .. ..
. . . . . .
v(n) r(n) Pn1 Pn2 ··· Pnn v(n)
La ecuación matricial anterior es una ecuación lineal que puede resolverse directa-
mente:
v = r + γPv
v − γPv = r
(I − γP)v = r
v = (I − γP)−1 r (12)
CC-BY-SA • 18 Procesos de decisión de Markov
La solución anterior implica, en el caso de que el número de estados del MRP sea n,
la inversión de una matriz de dimensión (n × n), cuya complejidad computacional es
O(n3 ). Esto provoca que encontrar una solución cerrada de la función de valor v(s) de
un MRP de forma directa sólo sea posible si el número de estados n es relativamente
pequeño.
CC-BY-SA • 19 Procesos de decisión de Markov
En este capítulo añadiremos el concepto de acción como elemento clave para definir
los procesos de decisión de Markov (Markov Decision Processes, MDPs) y diferenciar-
los de los procesos de Markov analizados en los capítulos anteriores (MPs y MRPs).
Analizaremos con detenimiento los componentes que caracterizan un MDP (el con-
cepto de política asociado a un estado π(a|s), la función de valor de un estado vπ (s)
y la función de valor de una acción qπ (s, a)), plantearemos las ecuaciones de Bell-
man para dichas funciones de valor, estudiaremos su optimalidad y discutiremos las
posibles formas de llegar a dichos valores óptimos.
De esta forma los elementos que caracterizan cualquier MDP (y por ende a cualquier
problema de RL) son los siguientes:
• El agente (agent en inglés). Es el ente que toma las decisiones (ejecuta las ac-
ciones) y que debe ir aprendiendo mediante la experiencia, que obtiene de la
interacción con el entorno, las mejores acciones a ejecutar.
• La señal de recompensa (reward signal en inglés). Magnitud escalar real que cu-
yo valor acumulado el agente quiere maximizar con el fin de conseguir un objetivo.
A modo de resumen:
– Recibe la observación Ot .
– Recibe la recompensa Rt .
– Ejecuta la acción At .
– Recibe la acción At .
ACCIÓN
At
RECOMPENSA
Rt
Ot
OBSERVACIÓN
Es importante reseñar que hasta ahora los procesos de Markov estudiados en los
apartados anteriores (MPs y MRPs) eran procesos meramente descriptivos que se
podían aplicar al estudio de fenómenos físicos bajo ciertas condiciones (que los estados
fueran de Markov y el proceso cumpliera la condición de estacionariedad) En cambio
en los MDPs el agente (el cuál tenemos que diseñar) influye en el entorno mediante
las acciones que ejecuta.
CC-BY-SA • 21 Procesos de decisión de Markov
En un MDP, las recompensas Rt y los estados St son variables aleatorias (VA) con
funciones de probabilidad bien definidas que sólo dependen de las acciones y estados
precedentes.
Esta función determinista de 4 parámetros p(s′ , r|s, a) puede entenderse como la pro-
babilidad de ir a parar al estado s′ y recibir la recompensa r partiendo del estado
CC-BY-SA • 22 Procesos de decisión de Markov
∑ ∑
p(s′ , r|s, a) = 1
∀s′ ∈S ∀r∈R
∑
p(s′ |s, a) = p(s′ , r|s, a) (15)
∀r∈R
∑
r(s, a) = E[Rt+1 |St = s, At = a] = rp(r|s, a)
∀r∈R
∑ ∑
r(s, a) = E[Rt+1 |St = s, At = a] = rp(s′ , r|s, a) (16)
∀r∈R ∀s′ ∈S
CC-BY-SA • 23 Procesos de decisión de Markov
Política de un MDP
′
∑
π
Pss ′ = pπ (s |s) = π(a|s)p(s′ |s, a) (17)
∀a∈A
∑
rπ (s) = π(a|s)r(s, a) (18)
∀a∈A
′
∑ ∑ p(s′ , a, s)
π
Pss′ = pπ (s |s) = p(s′ , a|s) = =
p(s)
∀a∈A ∀a∈A
∑ ∑ ∑ ∑
rπ (s) = Eπ [Rt+1 |St = s] = rp(r|s) = rp(a, r, s′ |s) =
∀r∈R ∀r∈R ∀a∈A ∀s′ ∈S
∑ ∑ ∑ ∑ ∑
= π(a|s) rp(r, s′ |s, a) = π(a|s) rp(r|s, a) =
∀a∈A ∀r∈R ∀s′ ∈S ∀a∈A ∀r∈R
∑ ∑
= π(a|s)E[Rt+1 |St = s, At = a] = π(a|s)r(s, a)
∀a∈A ∀a∈A
Al igual que pasaba en los MRPs, tanto la recompensa inmediata Rt+1 como el retorno
Gt son variables aleatorias, y por tanto debemos tomar sus valores esperados. Estos
valores esperados conforman las denominadas funciones de valor de un MDP.
CC-BY-SA • 25 Procesos de decisión de Markov
Definición
La función de valor de estado de un MDP vπ (s) nos informa de cómo de bueno es,
para el agente, estar en un determinado estado en términos de futuras recompensas
esperadas o, concretamente, en términos del retorno esperado. De la misma manera,
la función de valor de una acción (o de un par estado-acción) de un MDP qπ (s, a) nos
informa de cómo de bueno es realizar una de terminada acción en un determinado
estado.
∑
vπ (s) = π(a|s)qπ (s, a) (21)
∀a∈A
En este diagrama, los estados se representan mediante círculos blancos y las acciones
mediante círculos negros más pequeños. El nodo que que hay arriba del todo es el
CC-BY-SA • 26 Procesos de decisión de Markov
s vπ ( s)
taken with
probability π( a|s)
qπ ( s, a )
a1 a2 a3
estado para el cual queremos calcular la función de valor vπ (s). Así pues, para calcular
dicha función de valor debemos sumar todas la funciones de valor de las acciones que
se derivan de este estado (las qπ (s, a) de todos los nodos inferiores) ponderándolas
por su política correspondiente π(a|s).
∑
qπ (s, a) = r(s, a) + γ p(s′ |s, a)vπ (s′ ) (22)
∀s′ ∈S
En base a esta ecuación, podemos interpretar la función de valor de una acción qπ (s, a)
como la suma de la recompensa inmediata esperada, obtenida partiendo de un deter-
minado estado s y realizando una determinada acción a, más el promedio (ponderado
por el factor de descuento γ) de todas las funciones de valor de todos los posibles
estados sucesores inmediatos s′ .
∑
qπ (s, a) = p(s′ , r|s, a)[r + γvπ (s′ )] (23)
∀r∈R
∀s′ ∈S
expected
s, a qπ( s, a )
rewards
r1 r2 r3
vπ ( s )
s1 s2 s3
0.8
0.2
a3
0.2 0.1
0.9
a1
0.3
0.2
a2
0.8
De esta forma, los valores que acompañan a las flechas que salen del estado Class 1
hacia cada una de las acciones se corresponden con los valores de la política asociada
CC-BY-SA • 28 Procesos de decisión de Markov
a ese estado (por ejemplo π(a1 |C1) = 0,5 o π(a2 |C1) = 0,3), mientras que los valores
que acompañan a las flechas que salen de cada acción hacia el siguiente estado s′ se
corresponden con las probabilidades p(r, s′ |s, a) (por ejemplo p(−2, C2|C1, a1 ) = 0,9).
De la misma forma que hicimos con la ecuación de valor de un estado de un MRP v(s),
si substituimos la ecuación de recurrencia del retorno Gt , presentada en la ecuación
5, en las definiciones de vπ (s) y qπ (s, a), obtenemos las denominadas ecuaciones de
Bellman para un MDP.
∑ ∑
vπ (s) = π(a|s) p(r, s′ |s, a)[r + γvπ (s′ )] (25)
∀a∈A ∀r∈R
∀s′ ∈S
• Para cada una de las posibles acciones a de ese estado el entorno responde con
una recompensa r y una transición aleatoria al siguiente estado s′ cuantificada
mediante la probabilidad p(r, s′ |s, a).
• Si sumamos de abajo arriba todos los nodos ponderando por las probabilidades
mencionadas, obtenemos la ecuación de Bellman para vπ (s) (presentada en la
ecuación 25).
∑ ∑
qπ (s, a) = p(r, s′ |s, a)[r + γ π(a′ |s′ )qπ (s′ , a′ )] (27)
∀r∈R ∀a′ ∈A
∀s′ ∈S
la Figura 8.
p ( r , s ' | s, a )
π ( a ' | s ')
s ', a '
En este diagrama podemos ver cómo se propaga el cálculo de la función de valor para
un par estado-acción s, a a los pares siguientes s′ , a′ . De esta forma, para cada nodo
que queremos calcular la función qπ (s, a):
• Para cada posible estado sucesor s′ el agente elige una acción mediante una política
estocástica π(a′ |s′ ).
• Si sumamos de abajo arriba todos los nodos ponderando por las probabilidades
mencionadas, obtenemos la ecuación de Bellman para qπ (s, a) (ecuación 27).
Al igual que para las ecuaciones 24 y 25, el desarrollo matemático detallado entre las
ecuaciones 26 y 27 se ofrece en el Anexo C.
De la misma forma que vimos para los MRPs, las ecuaciones de Bellman para los
MDPs son ecuaciones lineales que pueden escribirse de forma matricial.
∑ ∑
vπ (s) = π(a|s) p(r, s′ |s, a)[r + γvπ (s′ )] =
∀a∈A ∀r∈R
∀s′ ∈S
∑ ∑ ∑ ∑
= π(a|s) p(r, s′ |s, a)r + γ π(a|s) p(r, s′ |s, a)vπ (s′ ) =
∀a∈A ∀r∈R ∀a∈A ∀r∈R
∀s′ ∈S ∀s′ ∈S
∑ ∑ ∑ ∑
= π(a|s) rp(r, |s, a) + γ π(a|s) p(s′ |s, a)vπ (s′ ) =
∀a∈A ∀r∈R ∀a∈A ∀s′ ∈S
∑ ∑ ∑
= π(a|s)r(s, a) + γ vπ (s′ ) π(a|s)p(s′ |s, a) =
∀a∈A ∀s′ ∈S ∀a∈A
∑
= rπ (s) + γ pπ (s′ |s)vπ (s′ )
∀s′ ∈S
La ecuación obtenida:
∑
vπ (s) = rπ (s) + γ pπ (s′ |s)vπ (s′ ) (28)
∀s′ ∈S
vπ = rπ + γPπ vπ (29)
Donde vπ es un vector columna que contiene la función de valor de todos los estados
posibles, rπ es un vector columna cuyos elementos son las recompensas inmediatas
esperadas de cada estado siguiendo la política π, tal y como se calcularon en la
ecuación 18 y Pπ es la matriz de transición de estados para un MDP formada por las
probabilidades de transición de estados siguiendo la política π, pπ (s′ |s), calculadas
en la ecuación 17.
vπ (1) rπ (1) pπ (1|1) pπ (2|1) ··· pπ (n|1) vπ (1)
vπ (2) rπ (2) pπ (1|2) ··· pπ (n|2)
pπ (2|2) vπ (2)
= +γ (30)
.. .. .. .. .. ..
. . . . . .
vπ (n) rπ (n) pπ (1|n) pπ (2|n) ··· pπ (n|n) vπ (n)
La ecuación matricial anterior es una ecuación lineal que puede resolverse de for-
ma análoga a como resolvimos la ecuación matricial para los MRPs (ecuación 10),
obteniendo como resultado:
• Métodos de Montecarlo.
3.4. Optimalidad
En este último apartado definiremos qué son las funciones de valor y las políticas
óptimas de un MDP, su expresión recursiva mediante las ecuaciones de Bellman y las
posibles formas de aproximarlas dado el carácter no lineal de las mismas.
Vamos a empezar definiendo las funciones de valor óptimas como aquellas que consi-
gan un mejor rendimiento del MDP.
Definición:
En base a las ecuaciones 32 y 33 podemos establecer una relación entre ambas fun-
ciones de valor óptimas:
Se considera que un MDP está resuelto cuando se conocen sus funciones de valor
óptimas.
Por tanto, una vez que ya hemos definido las funciones de valor óptimas la siguiente
cuestión es: ¿cómo comparamos dos políticas? La solución pasa por definir algún tipo
de orden entre ellas. Se establece el orden entre dos políticas π y π ′ de la siguiente
forma:
CC-BY-SA • 34 Procesos de decisión de Markov
La ecuación anterior establece que una política π es superior a otra política π ′ si, para
cualquier estado s, la función de valor de estado siguiendo la política π es mayor o
igual a la función de valor de estado siguiendo la política π ′ .
Teorema fundamental:
• Existe como mínimo una política óptima π∗ que es mejor o igual que el
resto de políticas existentes, π∗ ≥ π, ∀π.
A partir del teorema anterior podemos establecer una forma de encontrar una política
óptima determinista: escoger aquella acción a, de entre todas las posibles, que
maximice la función de valor de acción óptima q∗ (s, a). Es decir:
1 si a = arg máx q∗ (s, a)
π∗ (a|s) = a∈A (36)
0 otro caso
En base a esta ecuación podemos afirmar que para cualquier MDP siempre existe una
política óptima determinista, que nos lleva a la mejor acción a para cada estado s.
En el caso de que haya más de una acción que maximice q∗ (s, a) podemos obtener
también una política óptima aleatoria asignando un valor de probabilidad no nulo
CC-BY-SA • 35 Procesos de decisión de Markov
a dichas acciones y cero al resto, asegurándonos que la suma total de las probabilidades
sea igual a la unidad.
Aunque pueda parecer que para encontrar la política óptima se aplica un algortimo Algoritmo greedy
de tipo greedy, ya que la política se obtiene de buscar el máximo de las acciones
’El término greedy se utiliza
inmediatas del estado sin tener en cuenta acciones posteriores, esto no es así ya que en informática para describir
la función de valor q∗ (s, a) ya tiene en cuenta las acciones del agente en estados cualquier procedimiento de
búsqueda o decisión que
posteriores (recordemos que se trata del valor esperado del retorno). seleccione alternativas
basándose únicamente en
consideraciones locales o
inmediatas, sin considerar la
posibilidad de que tal
3.4.2. Ecuaciones de optimización de Bellman selección pueda impedir el
acceso futuro a alternativas
aún mejores.’ Fuente: Sutton
Las ecuaciones de optimización de Bellman se obtienen a partir de la maximización y Barto (2018)
de las funciones de valor óptimas respecto a las acciones disponibles.
∑
v∗ (s) = máx q∗ (s, a) = máx p(r, s′ |s, a)[r + γv∗ (s′ )] (37)
a a
∀r∈R
∀s′ ∈S
Esta ecuación puede entenderse mejor a partir del backup diagram de la figura 9.
p ( r , s ' | s, a )
v* ( s ')
• Para cada una de las posibles acciones a de ese estado el entorno responde con
una recompensa r y una transición aleatoria al siguiente estado s′ cuantificada
mediante la probabilidad p(r, s′ |s, a).
• Sumamos de abajo arriba todos los nodos ponderando por las probabilidades
mencionadas.
∑
q∗ (s, a) = p(r, s′ |s, a)[r + γ máx
′
q∗ (s′ , a′ )] (38)
a
∀r∈R
∀s′ ∈S
q* ( s, a )
p ( r , s ' | s, a )
From top to bottom, select the
best action at this level
π ( a ' | s ') max max
s ', a ' q* ( s ', a ' )
• Para cada posible estado sucesor s′ el agente debe explorar todas las posibles
acciones sucesoras a′ y seleccionar aquella que maximice la función de valor de
acción óptima del nuevo estado.
Este hecho (la maximización) hace que las ecuaciones de optimización de Bell-
man sean no lineales y, por tanto, en general no tengan una solución de forma
cerrada. Además, en aquellos casos en que exista una solución cerrada para estos
sistemas de ecuaciones, la mayoría de algoritmos existentes para resolver sistemas de
CC-BY-SA • 37 Procesos de decisión de Markov
ecuaciones no lineales suelen tener un coste computacional que crece de forma expo-
nencial con el número de estados del MDP. Es por este motivo, que sólo podremos
encontrar las políticas óptimas en algunos MDPs con un número de estados reducido.
Por este motivo se han desarrollado muchos métodos iterativos que tratan de aproxi-
mar la solución de las ecuaciones de optimización de Bellman. Podemos destacar:
• Value Iteration.
• Policy Iteration.
• Q-learning.
• Sarsa.
CC-BY-SA • 38 Procesos de decisión de Markov
Podemos ver que el último término puede descomponerse en dos valores esperados:
Probabilidad Condicionada
P r{A ∩ B} = p(A, B)
El segundo término de la ecuación 39 es el valor esperado del retorno del estado De la misma forma se define
la probabilidad de un suceso
siguiente Gt+1 partiendo del estado actual St = s. Si desarrollamos este término,
A condicionado por otro
aplicando la definición de esperanza condicionada, obtenemos: suceso B como:
p(A, B)
p(A|B) =
p(B)
∑ ∑ ∑ ∑ ∑ p(g, s′ , s)
E[Gt+1 |St = s] = gp(g|s) = gp(g, s′ |s) = g =
p(s)
∀g ∀g ∀s′ ∈S ∀s′ ∈S ∀g
(40)
∑ ∑ p(g|s′ , s)p(s′ , s) ∑ ∑
= g = gp(g|s′ , s)p(s′ |s)
p(s)
∀s′ ∈S ∀g ∀s′ ∈S ∀g
= P r{Gt+1 = g|St+1 = s′ }
= p(g|s′ )
∑ ∑
E[Gt+1 |St = s] = p(s′ |s) gp(g|s′ )
∀s′ ∈S ∀g
∑
= p(s′ |s)E[Gt+1 |St+1 = s′ ]
∀s′ ∈S
∑
= p(s′ |s)v(s′ )
∀s′ ∈S
∑
E[Gt+1 |St = s] = p(s′ |s)v(s′ ) (41)
∀s′ ∈S
CC-BY-SA • 40 Procesos de decisión de Markov
∑
v(s) = r(s) + γ p(s′ |s)v(s′ )
∀s′ ∈S
CC-BY-SA • 41 Procesos de decisión de Markov
Vamos a empezar calculando la relación entre vπ (s) y qπ (s, a). Partimos de la defini-
ción de vπ (s) que vimos en la ecuación 19:
∑ ∑
Eπ [Gt |St = s] = gP r{Gt = g|St = s} = gp(g|s) =
∀g ∀g
∑ ∑ ∑ ∑ p(g, a, s)
= g p(g, a|s) = g =
p(s)
∀g ∀a∈A ∀g ∀a∈A
∑ ∑ ∑
= π(a|s) gp(g|s, a) = π(a|s)Eπ [Gt |St = s, At = a] =
∀a∈A ∀g ∀a∈A
∑
= π(a|s)qπ (s, a)
∀a∈A
El paso final del desarrollo anterior nos lleva a la relación entre vπ (s) y qπ (s, a) que
vimos en la ecuación 21:
∑
vπ (s) = π(a|s)qπ (s, a)
∀a∈A
CC-BY-SA • 42 Procesos de decisión de Markov
El último término de la expresión anterior está formado por dos valores esperados.
El primer valor esperado se corresponde con la recompensa esperada para un deter-
minado par estado-acción r(s, a) que vimos en la ecuación 16:
∑ ∑
r(s, a) = E[Rt+1 |St = s, At = a] = rp(s′ , r|s, a)
∀r∈R ∀s′ ∈S
∑
Eπ [Gt+1 |St = s, At = a] = g ′ P r{Gt+1 = g ′ |St = s, At = a} =
∀g ′
∑ ∑
= g′ P r{Gt+1 = g ′ , St+1 = s′ |St = s, At = a} =
∀g ′ ∀s′ ∈S
∑ ∑ ∑ ∑ p(g ′ , s′ , s, a)
= g′ p(g ′ , s′ |s, a) = g′ =
p(s, a)
∀g ′ ∀s′ ∈S ∀g ′ ∀s′ ∈S
= p(g ′ |s′ )
∑ ∑
= p(s′ |s, a) g ′ p(g ′ |s′ ) =
∀s′ ∈S ∀g ′
∑ ∑
= p(s′ |s, a) g ′ P r{Gt+1 = g ′ |St+1 = s′ } =
∀s′ ∈S ∀g ′
∑
= p(s′ |s, a)Eπ [Gt+1 |St+1 = s′ ] =
∀s′ ∈S
∑
= p(s′ |s, a)vπ (s′ )
∀s′ ∈S
∑
Eπ [Gt+1 |St = s, At = a] = p(s′ |s, a)vπ (s′ ) (45)
∀s′ ∈S
CC-BY-SA • 44 Procesos de decisión de Markov
∑
qπ (s, a) = r(s, a) + γ p(s′ |s, a)vπ (s′ )
∀s′ ∈S
CC-BY-SA • 45 Procesos de decisión de Markov
Podemos ver que el último término puede descomponerse en dos valores esperados:
∑
rπ (s) = Eπ [Rt+1 |St = s] = π(a|s)r(s, a)
∀a∈A
∑ ∑
Eπ [Gt+1 |St = s] = gP r{Gt+1 = g ′ |St = s} = g ′ p(g ′ |s)
∀g ′ ∀g ′
∑ ∑
Eπ [Gt+1 |St = s] = g ′ p(g ′ |s) = g ′ p(g ′ , a, s′ |s) =
∀g ′ ′
∀g
∀a∈A
∀s′ ∈S
∑
= g ′ p(g ′ |s′ )p(s′ |s, a)π(s|a) =
∀g ′
∀a∈A
∀s′ ∈S
∑ ∑
= p(s′ |s, a)π(s|a) g ′ p(g ′ |s′ ) =
∀a∈A ∀g ′
∀s′ ∈S
∑
= p(s′ |s, a)π(s|a)vπ (s′ )
∀a∈A
∀s′ ∈S
∑
Eπ [Gt+1 |St = s] = p(s′ |s, a)π(s|a)vπ (s′ ) (47)
∀a∈A
∀s′ ∈S
∑ ∑
vπ (s) = π(a|s)r(s, a) + γ p(s′ |s, a)π(s|a)vπ (s′ ) (48)
∀a∈A ∀a∈A
∀s′ ∈S
∑ ∑ ∑ ∑
vπ (s) = π(a|s) rp(s′ , r|s, a) + γ ( p(s′ , r|s, a))π(s|a)vπ (s′ ) =
∀a∈A ∀r∈R ∀a∈A ∀r∈R
∀s′ ∈S ∀s′ ∈S
∑ ∑ ∑ ∑
= π(a|s) rp(s′ , r|s, a) + γ π(a|s) p(s′ , r|s, a)vπ (s′ ) =
∀a∈A ∀r∈R ∀a∈A ∀r∈R
∀s′ ∈S ∀s′ ∈S
∑ ∑
= π(a|s) p(r, s′ |s, a)[r + γvπ (s′ )]
∀a∈A ∀r∈R
∀s′ ∈S
∑ ∑
vπ (s) = π(a|s) p(r, s′ |s, a)[r + γvπ (s′ )]
∀a∈A ∀r∈R
∀s′ ∈S
Vamos a ver ahora el desarrollo para la ecuación de Bellman para la función de valor
de acción qπ (s, a) de un MDP.
CC-BY-SA • 48 Procesos de decisión de Markov
∑
r(s, a) = E[Rt+1 |St = s, At = a] = rp(s′ , r|s, a)
∀r∈R
∀s′ ∈S
∑ ∑
Eπ [Gt+1 |St = s, At = a] = g ′ P r{Gt+1 = g ′ |St = s, At = a} = g ′ p(g ′ |s, a)
∀g ′ ∀g ′
∑ ∑
Eπ [Gt+1 |St = s, At = a] = g ′ p(g ′ |s, a) = g ′ p(g ′ , s′ , a′ |s, a) =
∀g ′ ′
∀g
∀a′ ∈A
∀s′ ∈S
∑ p(g ′ , s′ , a′ , s, a)
= g′ =
p(s, a)
∀g ′
∀a′ ∈A
∀s′ ∈S
∑ ∑
= π(a′ |s′ )p(s′ |s, a) g ′ p(g ′ |s′ , a′ ) =
∀a′ ∈A ∀g ′
′
∀s ∈S
∑
= π(a′ |s′ )p(s′ |s, a)Eπ [Gt+1 |St+1 = s′ , At+1 = a′ ] =
∀a′ ∈A
′
∀s ∈S
∑
= π(a′ |s′ )p(s′ |s, a)qπ (s′ , a′ )
∀a′ ∈A
′
∀s ∈S
(50)
∑
= r(s, a) + γ π(a′ |s′ )p(s′ |s, a)qπ (s′ , a′ ) =
∀a′ ∈A
∀s′ ∈S (51)
∑ ∑
= rp(s′ , r|s, a) + γ π(a′ |s′ )p(s′ |s, a)qπ (s′ , a′ )
∀r∈R ∀a′ ∈A
∀s′ ∈S ∀s′ ∈S
∑
p(s′ |s, a) = p(s′ , r|s, a)
∀r∈R
La ecuación 51 queda:
∑ ∑
qπ (s, a) = p(r, s′ |s, a)[r + γ π(a′ |s′ )qπ (s′ , a′ )]
∀r∈R ∀a′ ∈A
∀s′ ∈S
Resumen
A lo largo de este módulo hemos realizado una aproximación incremental a los pro-
cesos de decisión de Markov (MDPs).
Glosario
Bibliografía
Maxim Lapan (2020). Deep Reinforcement Learning Hands-On (Second Edition). Packt
Publishing. ISBN: 9781838826994
Josep Vidal, Margarita Cabrera i Xavi Giró (2020). UPC Seminar on RL. Accesible en
https://raw.githubusercontent.com/telecombcn-dl/mrl-2020/gh-pages/slides/RL_Chap2_MDP_2020.pdf
[Accedido en 27 de agosto de 2020]