Mo¿dulo 3 - Procesos de Decisio¿n de Markov PDF

Procesos de decisión de Markov
Luis Esteve Elfau
0.5 créditos
CC-BY-SA • Procesos de decisión de Markov
Índice
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
Objectivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1. Procesos de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1. Introducción a los MPs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2. Estados y propiedad de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3. Probabilidad y matriz de transición de estados . . . . . . . . . . . . . . . . . . . . . . 8
1.4. Definición formal de un MP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.5. Ejemplo: Cadena de Markov de un estudiante . . . . . . . . . . . . . . . . . . . . . . . 9
2. Procesos de recompensa de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.1. Definición de MRP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.1.1. El retorno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2. La función de valor de un estado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2.1. Recompensa inmediata esperada de un estado . . . . . . . . . . . . . . . . 14
2.2.2. Definición de función de valor de un estado . . . . . . . . . . . . . . . . . . 14
2.2.3. Ejemplo: MRP de un estudiante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3. Ecuación de Bellman para la función de valor de un MRP . . . . . . . . . . . 16
2.3.1. Solución de la ecuación de Bellman . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3. Procesos de decisión de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.1. Interfaz Agente-Entorno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2. Definición de un MDP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2.1. Dinámica de un MDP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2.2. Componentes de un MDP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2.3. Ejemplo: MDP de un estudiante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.3. Ecuaciones de Bellman para un MDP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.3.1. Ecuación de Bellman para la función de valor de estado v . . . . 28
3.3.2. Ecuación de Bellman para la función de valor de acción q . . . . 29
3.3.3. Ecuaciones de Bellman en forma matricial . . . . . . . . . . . . . . . . . . . 30
3.4. Optimalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.4.1. Funciones de valor y políticas óptimas . . . . . . . . . . . . . . . . . . . . . . . 32
3.4.2. Ecuaciones de optimización de Bellman . . . . . . . . . . . . . . . . . . . . . . 35
CC-BY-SA • Procesos de decisión de Markov
3.4.3. Solución de las ecuaciones de optimización de Bellman . . . . . . . 36
4. Anexo A: Ecuación de Bellman para un MRP . . . . . . . . . . . . . . . . . . . . . . 38
5. Anexo B: Relación entre las funciones de valor para un MDP . . . . 41
6. Anexo C: Ecuaciones de Bellman para un MDP . . . . . . . . . . . . . . . . . . . 45
Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
Glosario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
Bibliografía . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
CC-BY-SA • 5 Procesos de decisión de Markov
Introducción
En este módulo estudiaremos los procesos de decisión de Markov (cuyas siglas MDP,
vienen de Markov Decision Process en inglés).
Los MDPs establecen el marco formal del problema que describe cualquier entorno
de aprendizaje automático (RL, de Reinforcement Learning en inglés): el problema
de la toma secuencial de decisiones donde las acciones elegidas no sólo influyen en las
recompensas inmediatas si no también en los estados y recompensas futuras.
Para llegar a entender este tipo de procesos y las ecuaciones que los caracterizan
realizaremos una aproximación incremental. De esta forma empezaremos explicando
en el primer capítulo del módulo los denominados procesos o cadenas de Markov
(MP, de Markov Process en inglés), incidiendo en la propiedad de Markov que debe
caracterizar a un estado, el concepto de probabilidad de transición de un estado a
otro, y la matriz de transición de estados asociada a estas probabilidades.
En el siguiente capítulo introduciremos el concepto de recompensa que permite con-

vertir una cadena de Markov en un proceso de recompensa de Markov, también co-
nocido en la literatura existente como proceso de Markov con recompensas (MRP, de
Markov Reward Process en inglés). Definiremos la función de valor de un estado v(s),
su expresión aproximada mediante la ecuación de Bellman, así como la posibilidad de
obtener una solución cerrada de la misma o las diferentes opciones para aproximarla.
Finalmente, en el siguiente capítulo añadiremos el concepto de acción como elemento

clave para definir los MDPs y diferenciarlos de los procesos de Markov analizados en
los capítulos anteriores (MPs y MRPs). Analizaremos con detenimiento los componen-
tes que caracterizan a un MDP (el concepto de política asociada a un estado π(a|s),
la función de valor de un estado vπ (s) y la función de valor de una acción qπ (s, a)),
plantearemos las ecuaciones de Bellman para dichas funciones de valor, estudiaremos
su optimalidad y discutiremos las posibles formas de llegar a dichos valores óptimos.
Se incluye al final del módulo una serie de anexos con las demostraciones matemáticas
detalladas de las ecuaciones principales que caracterizan a los MRPs y MDPs.
Objectivos
En este módulo encontraremos las herramientas necesarias para ser capaces de asi-
milar los siguientes objetivos:
1. Entender qué es un proceso de Markov (también conocido como cadena de Mar-

kov) y sus características básicas: la condición de Markov, la probabilidad de
transición de estados y su matriz asociada.
2. Comprender la diferencia entre un proceso de Markov (MP) y un proceso de

recompensa de Markov (MRP).
3. Conocer las diferencias entre un proceso de decisión de Markov (MDP) y un MRP.
4. Entender el concepto de política asociado a la toma de decisiones.
5. Entender las funciones de valor de un estado vπ (s) y de una acción qπ (s, a) y su

forma recurrente mediante las ecuaciones de Bellman.
6. Entender el concepto de optimalidad de las ecuaciones de Bellman.

1. Procesos de Markov
.
En este capítulo estudiaremos los denominados procesos o cadenas de Markov (Markov

Processes, MPs), incidiendo en la propiedad de Markov que debe caracterizar a un
estado, el concepto de probabilidad de transición de un estado a otro y la matriz de
transición de estados asociada a estas probabilidades.
1.1. Introducción a los MPs
Los procesos de Markov (denominados así en honor al matemático ruso Andréi Már- Andréi Márkov
kov) son estudiados ampliamente en la teoría de la probabilidad y en estadística. Un Andréi Andréyevich Márkov
proceso o cadena de Markov es un proceso aleatorio (fenómeno aleatorio que cambia (14 de junio de 1856 - 20 de
julio de 1922) fue un
a lo largo del tiempo) que queda caracterizado mediante los siguientes elementos: matemático ruso conocido
por sus trabajos en la teoría
de los números y la teoría de
• Estado St . la probabilidad.
• Propiedad de Markov.
• Probabilidad de transición entre estados Pss′ o p(s′ |s).
• Matriz de transición de estados P o P.
1.2. Estados y propiedad de Markov
Un estado St es una caracterización del entorno que recoge las condiciones en las que
se encuentra un ente (el agente en los problemas de RL). En los procesos de Markov
los estados deben cumplir la denominada propiedad de Markov.
Propiedad de Markov
Definición: un estado St es denominado de Markov (o markoviano) si y solo

si:
P r{St+1 |St } = P r{St+1 |S1 , ..., St }
La definición anterior establece que la probabilidad del siguiente estado St+1 condi-
cionada por el estado actual St es la misma que si está condicionada por el estado
actual y todos los anteriores. De esta forma, si conocemos el estado actual, podemos
desestimar toda la historia pasada para determinar el siguiente estado.
En otras palabras: “El futuro es independiente del pasado dado el presente”. Es decir,
toda la historia futura depende del estado actual St y no de los estados previos que,
por tanto, se pueden descartar.
Otra manera de verlo es que el estado St es un estadístico suficiente del futuro (se
basta plenamente para caracterizar estadísticamente el futuro).
1.3. Probabilidad y matriz de transición de estados
Dado un estado de Markov St = s y su estado sucesor en el tiempo St+1 = s′ se

define la probabilidad de transición de un estado a otro como:
Pss′ = p(s′ |s) = P r{St+1 = s′ |St = s} (1)
El significado de esta probabilidad de transición puede verse como la probabilidad de

ir a parar al estado St+1 = s′ partiendo del estado St = s.
A partir de la probabilidad anterior podemos definir la matriz de transición de estados

P (o P) que contiene las probabilidades de transición de todos los estados St = s a
todos sus posibles estados sucesores St+1 = s′ . Si el número de posibles estados es
igual a n, la matriz de dimensiones (n × n) queda definida como:
 
 P11 P12 ··· P1n 
 
 
 P21 P22 ··· P2n 
 
P=P=  (2)
 .. .. .. 
 . . . 
 
 
Pn1 Pn2 ··· Pnn
Dicha matriz de transición de estados define todas las dinámicas de un proceso

de Markov.
Función de probabilidad
Es importante fijarse en que la suma de los elementos de cada fila debe ser igual a 1,
∑n Sea X una variable aleatoria
es decir que ∀k se cumple que i=1 Pki = 1. Esto es debido a que, según la teoría de discreta, se define la función
la probabilidad, cualquier distribución de probabilidad (condicionada o no) cumple: de probabilidad como:
p(xi ) = P r{X = xi }
∑ ∑
Pss′ = p(s′ |s) = 1
∀s′ ∈S ∀s′ ∈S
Las dos propiedades
fundamentales de esta
función son:
• 0 ≤ p(xi ) ≤ 1
∑
• p(xi ) = 1
∀xi
1.4. Definición formal de un MP
Un proceso de Markov es proceso aleatorio sin memoria, es decir, una secuencia finita
de estados S1 , S2 , ... que cumplen la propiedad de Markov. El hecho de que el proceso
se pueda modelar como una secuencia finita de estados hace que reciba el nombre de
cadena de Markov.
En base a lo explicado hasta ahora, y a modo de resumen, podemos realizar la siguiente

definición formal.
Definición: Un proceso o cadena de Markov queda definido por la tupla <

S, P >, donde:
• S: conjunto finito de estados de Markov.
• P o P: matriz de probabilidades de transición de estados, donde los ele-

mentos de dicha matriz son Pss′ = p(s′ |s) = P r{St+1 = s′ |St = s}
Por último, debemos remarcar que para poder aplicar la teoría de los procesos de
Markov a fenómenos físicos, estos deben cumplir la propiedad de estacionariedad.
Esta propiedad impone que las probabilidades de transición Pss′ = p(s′ |s) deben
mantenerse constantes a lo largo del tiempo.
1.5. Ejemplo: Cadena de Markov de un estudiante
La Figura 1 es una representación gráfica del proceso de Markov que caracteriza el

día a día de un estudiante.
En este ejemplo se establece un conjunto finito de siete estados:
S = {C1, C2, C3, P ass, P ub, F B, Sleep}
Los estados se definen de la siguiente forma:
• C1 = Class1, estado inicial que representa la primera clase a la que el alumno

asiste cada día.
• C2 = Class2, estado que representa la segunda clase a la que el alumno asiste si

sigue estudiando después de finalizar la primera clase.
• C3 = Class3, estado que representa la tercera clase a la que el alumno asiste si

sigue estudiando después de finalizar la segunda clase.
• F B = F acebook, estado que representa que el alumno se conecta a su Facebook

desde la primera clase (por ejemplo porque le aburre la materia).
• P ub, estado que representa que el alumno va al bar.
• P ass, estado que representa que el alumno ha finalizado las clases y se va a casa.
• Sleep estado terminal que representa que el alumno se va a dormir. A diferencia

del resto de estados, que se representan como círculos, este estado se representa
mediante un cuadrado para diferenciarlo del resto de estados.
Figura 1. Proceso de Markov de un estudiante.
0.9
Facebook Sleep
0.1
0.5 0.2 1.0

0.8 0.6
Class 1 0.5 Class 2 Class 3 Pass
0.4
0.4
0.2
0.4
Pub
Fuente: David Silver, 2015
De esta forma cada día podemos representar la evolución del estudiante mediante una
secuencia de estados que empezarán siempre por el estado inicial S1 = C1 y finaliza
con el estado terminal ST = Sleep. Cada una de estas secuencias recibe el nombre de
episodio. A continuación se presentan algunos episodios a modo de ejemplo:
• C1 FB C1 C2 Sleep.
• C1 FB FB C1 C2 C3 Pass Sleep
• C1 C2 C3 Pub C2 Sleep
• C1 FB FB C1 C2 C3 Pub C1 FB FB C1 C2 Sleep
Las flechas que unen cada estado representan las transiciones de un estado a otro, y
los números asociados a cada una de estas flechas son las probabilidades de transición
de estado Pss′ = p(s′ |s). De esta forma podemos ver que, por ejemplo, desde la
clase 2 existe la posibilidad de que el alumno siga estudiando en la clase 3 (con una
probabilidad PC2C3 = p(C3|C2) = 0,8) o que se vaya a dormir (con una probabilidad
PC2Sleep = p(Sleep|C2) = 0,2).
Es importante fijarse que la suma de las probabilidades que salen de cada estado
suman 1 ya que constituyen los elementos de las diferentes filas de la matriz de
transición de estados que, como hemos visto con anterioridad, siempre deben sumar
1.
De esta forma, la matriz de transición de estados para este ejemplo se definiría como:
 
 PC1C1 PC1C2 PC1C3 PC1P ass PC1P ub PC1F B PC1Sleep 
 
 
 PC2C1 PC2C2 ··· 
 
 
 
 PC3C1 PC3C2 ··· 
 
 
P=
 PP assC1 PP assC2 ···


 
 
P PP ubC2 ··· 
 P ubC1 
 
 
P PF BC2 ··· 
 F BC1 
 
PSleepC1 PSleepC2 ···
Y con valores numéricos:
 
0 0,5 0 0 0 0,5 0 
 
 
0 0 0,8 0 0 0 0,2
 
 
 
0 0 0 0,6 0,4 0 0
 
 
P=
0 0 0 0 0 0

1,0
 
 
0,2 0
 0,4 0,4 0 0 0 
 
 
0,1 0 
 0 0 0 0 0,9 
 
0 0 0 0 0 0 1,0
Es importante reseñar que el estado final Sleep no puede desembocar en otro estado,
por lo que todas las probabilidades de transición desde ese estado p(s′ |Sleep) son
nulas excepto hacia sí mismo p(Sleep|Sleep) = 1.
2. Procesos de recompensa de Markov

.
En este capítulo veremos una evolución de los procesos de Markov: introduciremos

el concepto de recompensa para crear los denominados procesos de recompensa de
Markov (Markov Reward Processes, MRPs). Revisaremos también el concepto de
retorno o recompensa acumulada, así como la función de valor de un estado y su
desarrollo recurrente mediante las ecuaciones de Bellman.
2.1. Definición de MRP
Un MRP es un proceso de Markov al cual se le añade una señal escalar denominada

recompensa Rt que se asocia a cada estado.
Una definición formal de un MRP sería:
Definición: Un proceso de recompensa de Markov queda definido por la tupla

< S, P, R, γ >, donde:
• S: conjunto finito de estados de Markov.

mentos de dicha matriz son Pss′ = p(s′ |s) = P r{St+1 = s′ |St = s}
• R: es una función de recompensa que nos permite definir la recompensa

media de un estado r(s) = E[Rt+1 |St = s].
• γ: es el denominado factor de descuento que cumple γ ∈ [0, 1].
2.1.1. El retorno
A parte de la señal de recompensa inmediata Rt asociada a un estado, conviene

definir la recompensa acumulada, también llamada retorno (return en inglés), que
puede definirse para el instante ’t’ como:
∞
∑
Gt = Rt+1 + Rt+2 + Rt+3 + ... = Rt+k+1 (3)
k=0
Es decir que se define la señal de retorno Gt como el valor acumulado de todas

las recompensas futuras. Remarcar que como dichas recompensas son aleatorias
el retorno también lo es. Por otro lado, dado que el número de estados de un episodio
(cada vez que se recibe una recompensa) puede no ser finito, el sumatorio de todas
las recompensas podría no converger y obtener un valor de retorno infinito. En este
caso conviene redefinir el retorno como:
∞
∑
Gt = Rt+1 + γRt+2 + γ 2 Rt+3 + ... = γ k Rt+k+1 (4)
k=0
En la ecuación anterior se introduce una parámetro γ llamado factor de descuento

cuyo valor está acotado (concretamente 0 ≤ γ ≤ 1) y permite la convergencia del valor
del retorno en los problemas donde el número de recompensas futuras es infinito.
El factor de descuento, además, puede verse como el valor presente de las futuras
recompensas. De esta forma el valor de recibir una recompensa R al cabo de de
k + 1 pasos en el tiempo es γ k R, ya que si una recompensa R se recibe en el siguiente
paso su valor es R, pero si se recibe dentro de 2 pasos su valor pasa a ser γR, γ 2 R
al cabo de 3 pasos y así sucesivamente. Al ser γ, normalmente, un valor inferior a la
unidad, la recompensa va perdiendo valor conforme llega más retrasada en el tiempo,
de ahí el nombre de factor de descuento. Si analizamos los casos extremos:
• Si γ ≃ 0 sólo importan las recompensas a corto plazo, ya que Gt ≃ Rt+1 . Es lo

que se denomina una versión ’miope’ del retorno.
• Si γ ≃ 1 las recompensas a largo plazo son igual de importantes que las recom-
pensas a corto plazo. Es lo que se conoce como un retorno ’optimista’ a largo
plazo.
Otra característica interesante del retorno es la posibilidad de ser expresado de forma

recursiva:
Gt = Rt+1 + γRt+2 + γ 2 Rt+3 + γ 3 Rt+4 + ...
= Rt+1 + γ(Rt+2 + γRt+3 + γ 2 Rt+4 + ...)
= Rt+1 + γGt+1
De esta forma podemos relacionar el retorno en el instante t con la recompensa

inmediata Rt+1 y el retorno en el siguiente instante de tiempo Gt+1 ponderado por

el factor de descuento:
Gt = Rt+1 + γGt+1 (5)
Esta recursividad es la base de las ecuaciones de Bellman que veremos en los próximos
apartados.
2.2. La función de valor de un estado
Tanto las recompensa inmediata Rt+1 como el retorno Gt suelen ser valores aleatorios.
Es por ello que debemos tomar sus valores esperados.
2.2.1. Recompensa inmediata esperada de un estado
Se define la recompensa inmediata esperada de un estado s como el valor esperado

de la recompensa Rt+1 si partimos del estado St = s:
∑ ∑
r(s) = E[Rt+1 |St = s] = rP r{Rt+1 = r|St = s} = rp(r|s) (6)
∀r∈R ∀r∈R
En la ecuación anterior se ha aplicado la definición de esperanza condicionada para

Esperanza condicionada
una variable aleatoria discreta.
Sea X una variable aleatoria
discreta, se define la
Remarcar que la aleatoriedad de las recompensas es debida, en este tipo de procesos esperanza o valor medio
como:
(MRPs), únicamente a la aleatoriedad del entorno.
∑
E[X] = xi p(xi )
∀xi
2.2.2. Definición de función de valor de un estado De la misma forma se define

la esperanza condicionada
por un suceso A como:
Dado que las recompensas inmediatas son aleatorias, el retorno Gt también lo es y ∑
E[X|A] = xi p(xi |A)
por tanto podemos calcular su valor esperado. Es lo que se conoce como función de ∀xi
valor asociada a un estado v(s) (value function en inglés).
Definición La función de valor de un estado v(s) para un MRP es el valor

esperado del retorno Gt si partimos de un estado St = s
v(s) = E[Gt |St = s] (7)
Podemos interpretar la función de valor v(s) como el valor a largo plazo del estado s.
2.2.3. Ejemplo: MRP de un estudiante
La Figura 2 es una representación gráfica del proceso resultante de añadir recompensas

(marcadas en rojo en la gráfica) al ejemplo visto anteriormente sobre el día a día de
un estudiante. De esta forma, el proceso de Markov (MP) definido inicialmente se
convierte en un proceso de recompensa de Markov (MRP) con el mismo número de
estados, pero con una recompensa asociada a cada uno de los estados.
Figura 2. Proceso de recompensa de Markov de un estudiante. Ley fuerte de los grandes

números
Sean X1 , X2 , X3 , ... una

sucesión infinita de variables
0.9 aleatorias independientes e
idénticamente distribuidas
Facebook Sleep (i.i.d.), que cumplen que
0.1 E[|Xi |] < ∞ y cuyo valor
R = -1 R=0 medio E[Xi ] = µ, entonces
se cumple:
1∑
n
0.5 0.2 1.0
lı́m P r{ Xi = µ} = 1
n→∞ n i=1
0.8 0.6
Class 1 0.5 Class 2 Class 3 Pass
R = -2 R = -2 R = -2
0.4 El significado de la ecuación
R = +10 anterior es que cuando
promediamos infinitas
realizaciones independientes
de la misma variable
0.4 aleatoria, este promedio
0.2 tiende al valor esperado de
0.4
Pub dicha variable.
R = +1
Fuente: David Silver, 2015
Si, por ejemplo, quisiéramos calcular el retorno para el estado inicial S1 = C1, debe-
ríamos utilizar la fórmula:
G1 = R2 + γR3 + γ 2 Rt+3 + ... + γ T −2 RT

donde RT = 0 es la recompensa del estado terminal ST = Sleep.
1
De esta forma, si escogemos un factor de descuento γ = 2 podemos calcular dicho
retorno en cada uno de los siguientes episodios:
C1 FB C1 C2 Sleep → G1 = −1 − 2 ∗ 1
2
−2∗ 1
4
= −2,5
C1 FB FB C1 C2 C3 Pass Sleep → G1 = −1 − 1 ∗ 1
2
−2∗ 1
4
−2∗ 1
8
− · · · = −2,0625
C1 C2 C3 Pub C2 Sleep → G1 = −2 − 2 ∗ 1
2
+1∗ 1
4
−2∗ 1
8
= −3
De esta forma, si pudiéramos simular todos los posibles episodios, hiciéramos el cálculo
de los retornos correspondientes y promediáramos los resultados obtendríamos, según
la Ley de los grandes números, la función de valor del estado inicial v(C1).
2.3. Ecuación de Bellman para la función de valor de un MRP
Si substituimos la ecuación de recurrencia, presentada en la ecuación 5, en la definición

de función de valor calculada en la ecuación 7, obtenemos la denominada ecuación de
Bellman para la función de valor v(s):
v(s) = E[Gt |St = s] = E[Rt+1 + γGt+1 |St = s] (8)
Dicha ecuación puede calcularse en función de las probabilidades de transición de

estado como:
∑
v(s) = r(s) + γ p(s′ |s)v(s′ ) (9)
∀s′ ∈S
Esta ecuación es de vital importancia ya que podemos descomponer la función de

valor del estado s en la suma de dos términos: el primero es la recompensa inmediata
esperada del estado s, mientras que el segundo puede entenderse como la media
(ponderada por el factor de descuento) de las funciones de valor de todos los posibles
estados inmediatamente siguientes s′ .
El cálculo detallado de la ecuación 9 se encuentra en el Anexo A al final del módulo.

2.3.1. Solución de la ecuación de Bellman
La ecuación de Bellman calculada en la ecuación 9 puede expresarse de forma matri-

cial:
v = r + γPv (10)
Donde v es un vector columna que contiene todos los estados posibles, r es un vector
columna cuyos elementos son las recompensas inmediatas esperadas de cada estado
y P = P es la matriz de transición de estados.
Para el caso de un MRP con n estados obtenemos:
      
 v(1)   r(1)   P11 P12 ··· P1n   v(1) 
      
      
 v(2)   r(2)   P21 P22 ··· P2n   v(2) 
 
     
 = +γ   (11)
 ..   ..   .. .. ..   .. 
 .   .   . . .   . 
      
      
v(n) r(n) Pn1 Pn2 ··· Pnn v(n)
La ecuación matricial anterior es una ecuación lineal que puede resolverse directa-
mente:
v = r + γPv
v − γPv = r
(I − γP)v = r
Obteniendo como resultado:
v = (I − γP)−1 r (12)
donde I es la matriz identidad.
La solución anterior implica, en el caso de que el número de estados del MRP sea n,
la inversión de una matriz de dimensión (n × n), cuya complejidad computacional es
O(n3 ). Esto provoca que encontrar una solución cerrada de la función de valor v(s) de
un MRP de forma directa sólo sea posible si el número de estados n es relativamente
pequeño.
3. Procesos de decisión de Markov

.
En este capítulo añadiremos el concepto de acción como elemento clave para definir
los procesos de decisión de Markov (Markov Decision Processes, MDPs) y diferenciar-
los de los procesos de Markov analizados en los capítulos anteriores (MPs y MRPs).
Analizaremos con detenimiento los componentes que caracterizan un MDP (el con-
cepto de política asociado a un estado π(a|s), la función de valor de un estado vπ (s)
y la función de valor de una acción qπ (s, a)), plantearemos las ecuaciones de Bell-
man para dichas funciones de valor, estudiaremos su optimalidad y discutiremos las
posibles formas de llegar a dichos valores óptimos.
3.1. Interfaz Agente-Entorno
Un proceso de decisión de Markov (MDP) puede verse como una evolución de un

proceso de recompensa de Markov (MRP) en el que se añade el concepto de acción
como elemento del que dispone un ente (denominado agente en RL) para alterar las
condiciones del entorno y conseguir un objetivo.
De esta forma los elementos que caracterizan cualquier MDP (y por ende a cualquier
problema de RL) son los siguientes:
• El agente (agent en inglés). Es el ente que toma las decisiones (ejecuta las ac-
ciones) y que debe ir aprendiendo mediante la experiencia, que obtiene de la
interacción con el entorno, las mejores acciones a ejecutar.
• La señal de recompensa (reward signal en inglés). Magnitud escalar real que cu-
yo valor acumulado el agente quiere maximizar con el fin de conseguir un objetivo.
• El entorno (environment en inglés). Lo que interactúa con el agente, cualquier

cosa externa a él.
• Los estados (states en inglés). Representación del entorno en un determinado

momento que debe ser suficiente para caracterizarlo completamente en cuanto a
la toma de decisiones que debe realizar el agente.
De estos cuatro elementos el entorno, los estados y la señal de recompensa definen

el problema que queremos resolver, mientras que el agente es la solución a dicho
problema, ya que es el algoritmo que tenemos que diseñar para tomar decisiones.
La Figura 3 es una representación gráfica de la interacción entre el agente y el entorno.

El autómata de la figura representa al agente y el mundo representa al entorno.
A modo de resumen:
• En cada instante ’t’ el agente:
– Recibe la observación Ot .
– Recibe la recompensa Rt .
– Ejecuta la acción At .
• Por su parte, el entorno:
– Recibe la acción At .
– Emite la observación Ot+1 .
– Emite la recompensa Rt+1 .
Figura 3. Interacción entre el agente y el entorno, donde At , Ot y Rt identifican,

respectivamente, a la acción, la observación y la recompensa en el instante ’t’
ACCIÓN
At
RECOMPENSA
Rt
Ot
OBSERVACIÓN
Los MDPs son aplicables en aquellos problemas en que el entorno es completamente

observable, es decir, en aquellos entornos en que la observación Ot es igual al estado
St y dicho estado actual caracteriza completamente el proceso (estados de Markov).
Es importante reseñar que hasta ahora los procesos de Markov estudiados en los
apartados anteriores (MPs y MRPs) eran procesos meramente descriptivos que se
podían aplicar al estudio de fenómenos físicos bajo ciertas condiciones (que los estados
fueran de Markov y el proceso cumpliera la condición de estacionariedad) En cambio
en los MDPs el agente (el cuál tenemos que diseñar) influye en el entorno mediante
las acciones que ejecuta.
3.2. Definición de un MDP
De la misma forma que en los apartados anteriores, a continuación pasamos a realizar

una definición formal para un MDP finito:
Definición: Un proceso de decisión de Markov queda definido por la tupla

< S, A, P, R, γ >, donde:
• S: conjunto finito de estados de Markov, que constituyen los valores del

rango de la variable aleatoria St .
• A: conjunto finito de acciones que puede tomar la variable aleatoria At .

Si el conjunto de acciones va cambiando en función del estado en que se
encuentre el agente, entonces A = A(s).

mentos pueden ser:
p(s′ , r|s, a) = P r{St+1 = s′ , Rt+1 = r|St = s, At = a}
p(s′ |s, a) = P r{St+1 = s′ |St = s, At = a}
• R: es el conjunto finito de todas las posibles recompensas.
• γ: es el denominado factor de descuento, que cumple γ ∈ [0, 1].
3.2.1. Dinámica de un MDP
En un MDP, las recompensas Rt y los estados St son variables aleatorias (VA) con
funciones de probabilidad bien definidas que sólo dependen de las acciones y estados
precedentes.
En este caso la dinámica del MDP queda completamente definida si conocemos la

función de probabilidad conjunta condicionada de ambas VAs:
p(s′ , r|s, a) = P r{St+1 = s′ , Rt+1 = r|St = s, At = a} (13)
Esta función determinista de 4 parámetros p(s′ , r|s, a) puede entenderse como la pro-
babilidad de ir a parar al estado s′ y recibir la recompensa r partiendo del estado
precedente s y ejecutando la acción a. Recordemos que, al ser una función de proba-

bilidad conjunta, esta función cumple:
∑ ∑
p(s′ , r|s, a) = 1
∀s′ ∈S ∀r∈R
A partir de la ecuación 13 podemos obtener cualquier estadística del entorno. Por

ejemplo, una estadística ampliamente utilizada es la probabilidad de transición
de estado:
p(s′ |s, a) = P r{St+1 = s′ |St = s, At = a} (14)
Dicha probabilidad se obtiene fácilmente a partir de la ecuación 13 de la siguiente

forma:
∑
p(s′ |s, a) = p(s′ , r|s, a) (15)
∀r∈R
Otro ejemplo comúnmente utilizado es la recompensa esperada para un deter-

minado par estado-acción:
∑
r(s, a) = E[Rt+1 |St = s, At = a] = rp(r|s, a)
∀r∈R
Podemos expresar esta recompensa esperada en función de p(s′ , r|s, a):
∑ ∑
r(s, a) = E[Rt+1 |St = s, At = a] = rp(s′ , r|s, a) (16)
∀r∈R ∀s′ ∈S
3.2.2. Componentes de un MDP
Política de un MDP
El objetivo de un algoritmo de RL es maximizar las recompensas futuras, pero estas

recompensas dependen de las acciones que toma el agente. Como veremos más adelan-
te, las diferentes funciones de valor (que calculan el valor medio del retorno en función
del estado o de un par estado-acción) se definen con respecto a una determinada forma
de actuar, es lo que se conoce como la política del algoritmo.
Definición: Una política π es una correspondencia entre cada uno de los

posibles estados St = s, ∀s ∈ S y cada posible acción At = a, ∀a ∈ A(s). Esta
correspondencia puede ser de dos tipos:
• Determinista: a = π(s). En este caso cada estado se corresponde unívo-

camente con una determinada acción.
• Aleatorio: π(a|s) = P r{At = a|St = s}. Es el caso más habitual, en cada

estado el agente puede seleccionar varias acciones. La política nos da la
probabilidad de seleccionar una determinada acción At = a si estamos en
el estado St = s.
Es importante remarcar que una política π define completamente el comportamiento

de un agente de RL y que dicha política depende únicamente del estado actual y no
de la historia precedente (cuya información relevante debe estar incluída en el estado
actual al ser éste un estado de Markov).
De esta forma, dado un MDP y su política π:
• La secuencia de estados {S0 , S1 , S2 , . . .} constituye un proceso de Markov (MP).
• La secuencia de estados y recompensas {S0 , R1 , S1 , R2 , S2 , . . .} constituye un pro-

ceso de recompensas de Markov (MRP), donde la probabilidad de transición de
estados queda:
′
∑
π
Pss ′ = pπ (s |s) = π(a|s)p(s′ |s, a) (17)
∀a∈A
y la recompensa inmediata esperada:
∑
rπ (s) = π(a|s)r(s, a) (18)
∀a∈A
Como podemos ver la política influye ahora tanto en la probabilidad de transición

de estados como en la recompensa esperada inmediata debido que, a parte de la

aleatoriedad del entorno, ahora hay que tener en cuenta también la aleatoriedad
de las acciones.
Los diferentes algoritmos de RL determinan como cambia la política del agente en

base a la experiencia que va acumulando dicho agente mediante su interacción con el
entorno.
La ecuación 17 puede obtenerse de la forma siguiente:
′
∑ ∑ p(s′ , a, s)
π
Pss′ = pπ (s |s) = p(s′ , a|s) = =
p(s)
∀a∈A ∀a∈A
∑ p(s′ |s, a)p(s, a) ∑

= = π(a|s)p(s′ |s, a)
p(s)
∀a∈A ∀a∈A
El desarrollo de la ecuación 18 requiere de unos cuantos pasos más:
∑ ∑ ∑ ∑
rπ (s) = Eπ [Rt+1 |St = s] = rp(r|s) = rp(a, r, s′ |s) =
∀r∈R ∀r∈R ∀a∈A ∀s′ ∈S
∑ p(a, r, s′ , s) ∑ p(r, s′ |s, a)p(a, s) ∑

= r = r = rp(r, s′ |s, a)π(a|s) =
p(s) p(s)
∀r∈R ∀r∈R ∀r∈R
∀a∈A ∀a∈A ∀a∈A
∀s′ ∈S ∀s′ ∈S ∀s′ ∈S
∑ ∑ ∑ ∑ ∑
= π(a|s) rp(r, s′ |s, a) = π(a|s) rp(r|s, a) =
∀a∈A ∀r∈R ∀s′ ∈S ∀a∈A ∀r∈R
∑ ∑
= π(a|s)E[Rt+1 |St = s, At = a] = π(a|s)r(s, a)
∀a∈A ∀a∈A
En la segunda línea del desarrollo anterior se ha agrupado el triple sumatorio de la

línea precedente en un único símbolo de sumatorio con tal de ofrecer una nomenclatura
más compacta pero, tal y como indican los índices, sigue siendo un triple sumatorio.
Funciones de valor de un MDP
Al igual que pasaba en los MRPs, tanto la recompensa inmediata Rt+1 como el retorno
Gt son variables aleatorias, y por tanto debemos tomar sus valores esperados. Estos
valores esperados conforman las denominadas funciones de valor de un MDP.
Definición
• Función de valor de un estado.
vπ (s) = Eπ [Gt |St = s] (19)
Esta función calcula el retorno esperado si partimos de un estado s y se-

guimos una política π a partir de ese momento.
• Función de valor de una acción (o de un par estado-acción).
qπ (s, a) = Eπ [Gt |St = s, At = a] (20)
Esta función calcula el retorno esperado si partiendo del estado s realizamos

la acción a y seguimos una política π a partir de ese momento.
La función de valor de estado de un MDP vπ (s) nos informa de cómo de bueno es,
para el agente, estar en un determinado estado en términos de futuras recompensas
esperadas o, concretamente, en términos del retorno esperado. De la misma manera,
la función de valor de una acción (o de un par estado-acción) de un MDP qπ (s, a) nos
informa de cómo de bueno es realizar una de terminada acción en un determinado
estado.
Las funciones de valor definidas en las ecuaciones 19 y 20 pueden expresarse una en

función de la otra. De esta forma, podemos expresar la relación entre vπ (s) y qπ (s, a):
∑
vπ (s) = π(a|s)qπ (s, a) (21)
∀a∈A
De esta ecuación podemos extraer que la función de valor de un estado vπ (s) es

un promedio de la función de valor de todas las posibles acciones qπ (s, a) para un
determinado estado.
Una forma de visualizar esta relación es mediante lo que se denomina un diagrama

de respaldo (backup diagram en inglés), como el de la Figura 4. La interpretación de
estos diagramas debe hacerse de abajo a arriba (bottom to up en inglés).
En este diagrama, los estados se representan mediante círculos blancos y las acciones
mediante círculos negros más pequeños. El nodo que que hay arriba del todo es el
Figura 4. Backup diagram para la relación entre vπ (s) y qπ (s, a).
s vπ ( s)
taken with
probability π( a|s)
qπ ( s, a )
a1 a2 a3
estado para el cual queremos calcular la función de valor vπ (s). Así pues, para calcular
dicha función de valor debemos sumar todas la funciones de valor de las acciones que
se derivan de este estado (las qπ (s, a) de todos los nodos inferiores) ponderándolas
por su política correspondiente π(a|s).
De la misma forma, podemos establecer la relación inversa y expresar qπ (s, a) en

función de vπ (s):
∑
qπ (s, a) = r(s, a) + γ p(s′ |s, a)vπ (s′ ) (22)
∀s′ ∈S
En base a esta ecuación, podemos interpretar la función de valor de una acción qπ (s, a)
como la suma de la recompensa inmediata esperada, obtenida partiendo de un deter-
minado estado s y realizando una determinada acción a, más el promedio (ponderado
por el factor de descuento γ) de todas las funciones de valor de todos los posibles
estados sucesores inmediatos s′ .
Aplicando la definición de la recompensa inmediata esperada r(s, a) (vista en la ecua-

ción 16) y la de probabilidad de transición de estado p(s′ |s, a) (vista en la ecuación
15) a la ecuación 22 obtenemos otra versión de la relación entre qπ (s, a) y vπ (s):
∑
qπ (s, a) = p(s′ , r|s, a)[r + γvπ (s′ )] (23)
∀r∈R
∀s′ ∈S
El backup diagram que representa la ecuación 23 puede verse en la Figura 5. De nuevo

podemos observar (mirando el diagrama de abajo a arriba) que, para calular qπ (s, a)
debemos promediar todas las funciones de valor de todos los posibles estados sucesores
vπ (s′ ) (ponderadas por el factor de descuento) más las recompensas correspondientes.
La demostración de las ecuaciones 21 y 22 se desarrolla en el Anexo B.

Figura 5. Backup diagram para la relación entre qπ (s, a) y vπ (s).
expected
s, a qπ( s, a )
rewards
r1 r2 r3
vπ ( s )
s1 s2 s3
3.2.3. Ejemplo: MDP de un estudiante
La Figura 6 es una representación gráfica del proceso resultante de añadir acciones

(marcadas con círculos negros en la gráfica) al ejemplo visto anteriormente sobre el
día a día de un estudiante. De esta forma, el proceso de recompensa de Markov (MRP)
se convierte en un proceso de decisión de Markov (MDP).
El agente ahora tiene la habilidad de tomar algunas decisiones en el estado Class 1

(representadas por las acciones en los círculos negros) y recibe una recompensa cada
vez que visita un estado. Las acciones de otros estados no han sido representadas para
mantener la simplicidad y una correcta visualización del ejemplo.
Figura 6. Proceso de decisión de Markov de un estudiante.
0.8
0.2
a3
0.2 0.1
0.9
a1
0.3
0.2
a2
0.8
Fuente: Vidal, Cabrera y Giró, 2020
De esta forma, los valores que acompañan a las flechas que salen del estado Class 1
hacia cada una de las acciones se corresponden con los valores de la política asociada
a ese estado (por ejemplo π(a1 |C1) = 0,5 o π(a2 |C1) = 0,3), mientras que los valores
que acompañan a las flechas que salen de cada acción hacia el siguiente estado s′ se
corresponden con las probabilidades p(r, s′ |s, a) (por ejemplo p(−2, C2|C1, a1 ) = 0,9).
3.3. Ecuaciones de Bellman para un MDP
De la misma forma que hicimos con la ecuación de valor de un estado de un MRP v(s),
si substituimos la ecuación de recurrencia del retorno Gt , presentada en la ecuación
5, en las definiciones de vπ (s) y qπ (s, a), obtenemos las denominadas ecuaciones de
Bellman para un MDP.
3.3.1. Ecuación de Bellman para la función de valor de estado v
Aplicando la ecuación 5 a la definición de vπ (s), vista en la ecuación 20, obtenemos:
vπ (s) = Eπ [Rt+1 + γGt+1 |St = s] (24)
Si desarrollamos la ecuación (24) y aplicamos los sumatorios pertinentes en el cálculo

de las esperanzas obtenemos:
∑ ∑
vπ (s) = π(a|s) p(r, s′ |s, a)[r + γvπ (s′ )] (25)
∀a∈A ∀r∈R
∀s′ ∈S
Podemos entender mejor la fórmula obtenida observando el backup diagram de la

Figura 7.
Figura 7. Backup diagram de la ecuación de Bellman para vπ (s).
Each arch is associated to Root node for which we want to

a probability compute the value vπ(s)
π ( a ' | s ') Possible actions that can
be taken at state s
Environment reacts with a
reward r and a possibly random
p ( r , s ' | s, a ) transition to the next state s’
En este diagrama podemos ver cómo se propaga el cálculo de la función de valor de

un estado s a los estados siguientes s′ . De esta forma, para cada nodo que queremos
calcular la función de valor de estado vπ (s):
• Seleccionamos una acción mediante una política estocástica π(a|s).
• Para cada una de las posibles acciones a de ese estado el entorno responde con
una recompensa r y una transición aleatoria al siguiente estado s′ cuantificada
mediante la probabilidad p(r, s′ |s, a).
• Si sumamos de abajo arriba todos los nodos ponderando por las probabilidades
mencionadas, obtenemos la ecuación de Bellman para vπ (s) (presentada en la
ecuación 25).
Es interesante observar que, a diferencia de la ecuación de Bellman para un MRP,

vista en en la ecuación 9, donde la propagación del cálculo de v(s) sólo dependía de la
aleatoriedad del entorno (medida a partir de la probabilidad de transición de estados
p(s′ |s)), en un MDP aparecen dos formas de aleatoriedad: la del entorno, reflejada en
las probabilidades p(r, s′ |s, a), y la añadida por el agente en la toma de decisiones,
medida mediante la política estocástica π(a|s).
El desarrollo entre las ecuaciones 24 y 25 se realiza en el Anexo C.
3.3.2. Ecuación de Bellman para la función de valor de acción q
De la misma forma que hemos aplicado la ecuación de recurrencia (ecuación 5) a la

definición de vπ (s) obteniendo la ecuación 24, podemos hacer lo mismo aplicando
dicha ecuación de recurrencia a la definición de qπ (s, a) vista en la ecuación 20 y
obtenemos:
qπ (s, a) = Eπ [Rt+1 + γGt+1 |St = s, At = a] (26)
Si desarrollamos la ecuación 26 obtenemos:
∑ ∑
qπ (s, a) = p(r, s′ |s, a)[r + γ π(a′ |s′ )qπ (s′ , a′ )] (27)
∀r∈R ∀a′ ∈A
∀s′ ∈S
De nuevo podemos entender mejor la ecuación 27 observando el backup diagram de

la Figura 8.
Figura 8. Backup diagram de la ecuación de Bellman para qπ (s, a).
Each arch is associated

to a probability
p ( r , s ' | s, a )
π ( a ' | s ')
s ', a '
En este diagrama podemos ver cómo se propaga el cálculo de la función de valor para
un par estado-acción s, a a los pares siguientes s′ , a′ . De esta forma, para cada nodo
que queremos calcular la función qπ (s, a):
• El entorno responde con una recompensa r y una transición aleatoria al siguiente

estado s′ cuantificada mediante la probabilidad p(r, s′ |s, a).
• Para cada posible estado sucesor s′ el agente elige una acción mediante una política
estocástica π(a′ |s′ ).
• Si sumamos de abajo arriba todos los nodos ponderando por las probabilidades
mencionadas, obtenemos la ecuación de Bellman para qπ (s, a) (ecuación 27).
Al igual que para las ecuaciones 24 y 25, el desarrollo matemático detallado entre las
ecuaciones 26 y 27 se ofrece en el Anexo C.
3.3.3. Ecuaciones de Bellman en forma matricial
De la misma forma que vimos para los MRPs, las ecuaciones de Bellman para los
MDPs son ecuaciones lineales que pueden escribirse de forma matricial.
De esta forma, si partimos de la ecuación 25 para la función vπ (s), y aplicamos las

definiciones vistas en las ecuaciones 17 y 18:
∑ ∑
vπ (s) = π(a|s) p(r, s′ |s, a)[r + γvπ (s′ )] =
∀a∈A ∀r∈R
∀s′ ∈S
∑ ∑ ∑ ∑
= π(a|s) p(r, s′ |s, a)r + γ π(a|s) p(r, s′ |s, a)vπ (s′ ) =
∀a∈A ∀r∈R ∀a∈A ∀r∈R
∀s′ ∈S ∀s′ ∈S
∑ ∑ ∑ ∑
= π(a|s) rp(r, |s, a) + γ π(a|s) p(s′ |s, a)vπ (s′ ) =
∀a∈A ∀r∈R ∀a∈A ∀s′ ∈S
∑ ∑ ∑
= π(a|s)r(s, a) + γ vπ (s′ ) π(a|s)p(s′ |s, a) =
∀a∈A ∀s′ ∈S ∀a∈A
∑
= rπ (s) + γ pπ (s′ |s)vπ (s′ )
∀s′ ∈S
La ecuación obtenida:
∑
vπ (s) = rπ (s) + γ pπ (s′ |s)vπ (s′ ) (28)
∀s′ ∈S
es una ecuación lineal que puede escribirse de forma matricial como:
vπ = rπ + γPπ vπ (29)
Donde vπ es un vector columna que contiene la función de valor de todos los estados
posibles, rπ es un vector columna cuyos elementos son las recompensas inmediatas
esperadas de cada estado siguiendo la política π, tal y como se calcularon en la
ecuación 18 y Pπ es la matriz de transición de estados para un MDP formada por las
probabilidades de transición de estados siguiendo la política π, pπ (s′ |s), calculadas
en la ecuación 17.
Para el caso de un MDP con n estados obtenemos:

      
 vπ (1)   rπ (1)   pπ (1|1) pπ (2|1) ··· pπ (n|1)   vπ (1) 
      
      
 vπ (2)   rπ (2)   pπ (1|2) ··· pπ (n|2)   
     pπ (2|2)   vπ (2) 
 = +γ   (30)
 ..   ..   .. .. ..  .. 
 .   .   . . .  . 
      
      
vπ (n) rπ (n) pπ (1|n) pπ (2|n) ··· pπ (n|n) vπ (n)
La ecuación matricial anterior es una ecuación lineal que puede resolverse de for-
ma análoga a como resolvimos la ecuación matricial para los MRPs (ecuación 10),
obteniendo como resultado:
vπ = (I − γPπ )−1 rπ (31)
De nuevo, la inversión de una matriz de dimensión (n × n), cuya complejidad compu-

tacional es O(n3 ) provoca que encontrar una solución cerrada de la función de valor
vπ (s) de un MDP de forma directa sólo sea posible si el número de estados n es
relativamente pequeño.
Si queremos resolver la ecuación de Bellman para un MDP con un número de estados

elevado se pueden utilizar métodos iterativos tales como:
• Programación dinámica (Dynamic Programming en inglés).
• Métodos de Montecarlo.
• Aprendizaje por diferencia temporal (abreviado TD learning de Temporal-Diﬀerence

Learning en inglés).
3.4. Optimalidad
En este último apartado definiremos qué son las funciones de valor y las políticas
óptimas de un MDP, su expresión recursiva mediante las ecuaciones de Bellman y las
posibles formas de aproximarlas dado el carácter no lineal de las mismas.
3.4.1. Funciones de valor y políticas óptimas
El objetivo final de este subapartado es conseguir encontrar la política óptima a seguir

por el agente de un MDP. Para ello definiremos primero qué es una función de valor
óptima, pasaremos a definir a continuación como se comparan dos políticas, para
finalizar definiendo el concepto de política óptima.
Vamos a empezar definiendo las funciones de valor óptimas como aquellas que consi-
gan un mejor rendimiento del MDP.
Definición:
La función de valor de estado óptima v∗ (s) es aquella función de valor de

estado vπ (s) cuyo valor sea el máximo sobre todas las posibles políticas:
v∗ (s) = máx vπ (s) (32)

π
La función de valor de acción óptima q∗ (s, a) es aquella función de valor de

acción qπ (s, a) cuyo valor sea el máximo sobre todas las posibles políticas:
q∗ (s, a) = máx qπ (s, a) (33)

π
La función de valor de acción óptima q∗ (s, a) definida en la ecuación 33 puede enten-

derse como el retorno esperado si en el estado s seleccionamos la acción a y a partir
de entonces seguimos la política óptima para el resto del episodio.
En base a las ecuaciones 32 y 33 podemos establecer una relación entre ambas fun-
ciones de valor óptimas:
v∗ (s) = máx q∗ (s, a) (34)

a
Se considera que un MDP está resuelto cuando se conocen sus funciones de valor
óptimas.
Por tanto, una vez que ya hemos definido las funciones de valor óptimas la siguiente
cuestión es: ¿cómo comparamos dos políticas? La solución pasa por definir algún tipo
de orden entre ellas. Se establece el orden entre dos políticas π y π ′ de la siguiente
forma:
π ≥ π′ si vπ (s) ≥ vπ′ (s), ∀s (35)
La ecuación anterior establece que una política π es superior a otra política π ′ si, para
cualquier estado s, la función de valor de estado siguiendo la política π es mayor o
igual a la función de valor de estado siguiendo la política π ′ .
A partir de esta forma de establecer un orden entre políticas podemos enunciar el

siguiente teorema:
Teorema fundamental:
Para cualquier proceso de decisión de Markov (MDP)
• Existe como mínimo una política óptima π∗ que es mejor o igual que el
resto de políticas existentes, π∗ ≥ π, ∀π.
• Toda política óptima produce una función de valor de estado óptima,

vπ∗ (s) = v∗ (s).
• Toda política óptima produce una función de valor de acción óptima,

qπ∗ (s, a) = q∗ (s, a).
A partir del teorema anterior podemos establecer una forma de encontrar una política
óptima determinista: escoger aquella acción a, de entre todas las posibles, que
maximice la función de valor de acción óptima q∗ (s, a). Es decir:



1 si a = arg máx q∗ (s, a)
π∗ (a|s) = a∈A (36)


0 otro caso
En base a esta ecuación podemos afirmar que para cualquier MDP siempre existe una
política óptima determinista, que nos lleva a la mejor acción a para cada estado s.
Además podemos concluir que si conocemos la función de valor de acción óptima

q∗ (s, a) inmediatamente conocemos la política óptima π∗ (a|s).
En el caso de que haya más de una acción que maximice q∗ (s, a) podemos obtener
también una política óptima aleatoria asignando un valor de probabilidad no nulo
a dichas acciones y cero al resto, asegurándonos que la suma total de las probabilidades
sea igual a la unidad.
Aunque pueda parecer que para encontrar la política óptima se aplica un algortimo Algoritmo greedy
de tipo greedy, ya que la política se obtiene de buscar el máximo de las acciones
’El término greedy se utiliza
inmediatas del estado sin tener en cuenta acciones posteriores, esto no es así ya que en informática para describir
la función de valor q∗ (s, a) ya tiene en cuenta las acciones del agente en estados cualquier procedimiento de
búsqueda o decisión que
posteriores (recordemos que se trata del valor esperado del retorno). seleccione alternativas
basándose únicamente en
consideraciones locales o
inmediatas, sin considerar la
posibilidad de que tal
3.4.2. Ecuaciones de optimización de Bellman selección pueda impedir el
acceso futuro a alternativas
aún mejores.’ Fuente: Sutton
Las ecuaciones de optimización de Bellman se obtienen a partir de la maximización y Barto (2018)
de las funciones de valor óptimas respecto a las acciones disponibles.
En el caso de la función de valor de estado v∗ (s) la ecuación que se obtiene es:
∑
v∗ (s) = máx q∗ (s, a) = máx p(r, s′ |s, a)[r + γv∗ (s′ )] (37)
a a
∀r∈R
∀s′ ∈S
Esta ecuación puede entenderse mejor a partir del backup diagram de la figura 9.
Figura 9. Backup diagram de la ecuación de Bellman para v∗ (s).
v* ( s ) From bottom to top, select the

π ( a ' | s ') best action at this level
max
p ( r , s ' | s, a )
v* ( s ')
En este diagrama podemos ver cómo se propaga el cálculo de la función de valor

óptima de un estado s a los estados siguientes s′ . De esta forma, para cada nodo que
queremos calcular la función de valor de estado óptima v∗ (s):
• Exploramos todas las posibles acciones a desde el estado s.
• Para cada una de las posibles acciones a de ese estado el entorno responde con
una recompensa r y una transición aleatoria al siguiente estado s′ cuantificada
mediante la probabilidad p(r, s′ |s, a).
• Sumamos de abajo arriba todos los nodos ponderando por las probabilidades
mencionadas.
• Si maximizamos dicha suma ponderada respecto a las posibles acciones iniciales

obtenemos la ecuación de Bellman para v∗ (s) (presentada en la ecuación 37).
De la misma forma, para la función de valor de acción q∗ (s, a) se obtiene:
∑
q∗ (s, a) = p(r, s′ |s, a)[r + γ máx
′
q∗ (s′ , a′ )] (38)
a
∀r∈R
∀s′ ∈S
De nuevo, el backup diagram de la figura 10 sirve para aclarar la fórmula.
Figura 10. Backup diagram de la ecuación de Bellman para q∗ (s, a).
q* ( s, a )
p ( r , s ' | s, a )
From top to bottom, select the
best action at this level
π ( a ' | s ') max max
s ', a ' q* ( s ', a ' )
En este diagrama podemos ver cómo se propaga el cálculo de la función de valor

óptima para un par estado-acción s, a a los pares siguientes s′ , a′ . De esta forma, para
cada nodo que queremos calcular la función q∗ (s, a):
• El entorno responde con una recompensa r y una transición aleatoria al siguiente

estado s′ cuantificada mediante la probabilidad p(r, s′ |s, a).
• Para cada posible estado sucesor s′ el agente debe explorar todas las posibles
acciones sucesoras a′ y seleccionar aquella que maximice la función de valor de
acción óptima del nuevo estado.
• Si hacemos la suma ponderada de abajo arriba de todos los nodos máximos,

obtenemos la ecuación de Bellman para q∗ (s, a) (ecuación 38).
3.4.3. Solución de las ecuaciones de optimización de Bellman
Es importante percatarse de que a diferencia de las ecuaciones de Bellman para las

funciones de valor vistas en las euaciones 25 y 27 y en los diagramas de las Figuras
7 y 8, donde todos los nodos se promediaban, en las ecuaciones de optimización de
Bellman hay que seleccionar las mejores acciones en algunas de las ramas de los
diagramas (como se aprecia en las Figuras 9 y 10).
Este hecho (la maximización) hace que las ecuaciones de optimización de Bell-
man sean no lineales y, por tanto, en general no tengan una solución de forma
cerrada. Además, en aquellos casos en que exista una solución cerrada para estos
sistemas de ecuaciones, la mayoría de algoritmos existentes para resolver sistemas de
ecuaciones no lineales suelen tener un coste computacional que crece de forma expo-
nencial con el número de estados del MDP. Es por este motivo, que sólo podremos
encontrar las políticas óptimas en algunos MDPs con un número de estados reducido.
Por este motivo se han desarrollado muchos métodos iterativos que tratan de aproxi-
mar la solución de las ecuaciones de optimización de Bellman. Podemos destacar:
• Value Iteration.
• Policy Iteration.
• Q-learning.
• Sarsa.
4. Anexo A: Ecuación de Bellman para un MRP

.
Si recordamos el desarrollo de la función de valor de estado visto en la ecuación 8:
v(s) = E[Gt |St = s] = E[Rt+1 + γGt+1 |St = s]
Podemos ver que el último término puede descomponerse en dos valores esperados:
v(s) = E[Rt+1 |St = s] + γ E[Gt+1 |St = s] (39)
El primer valor esperado corresponde a la recompensa inmediata esperada de un

estado s calculada en la ecuación 6:
Probabilidad Condicionada
Dados dos sucesos aleatorios

∑ A y B, se define la
r(s) = E[Rt+1 |St = s] = rp(r|s) probabilidad de que ambos
∀r∈R sucedan a la vez como:
P r{A ∩ B} = p(A, B)
El segundo término de la ecuación 39 es el valor esperado del retorno del estado De la misma forma se define
la probabilidad de un suceso
siguiente Gt+1 partiendo del estado actual St = s. Si desarrollamos este término,
A condicionado por otro
aplicando la definición de esperanza condicionada, obtenemos: suceso B como:
p(A, B)
p(A|B) =
p(B)
Finalmente, juntando las dos

∑ ∑ expresiones anteriores
E[Gt+1 |St = s] = gP r{Gt+1 = g|St = s} = gp(g|s) tenemos:
∀g ∀g
p(A, B) = p(A|B)p(B)
Podemos incluir ahora la influencia del estado siguiente St+1 = s′ en la ecuación

anterior y, utilizando la teoría de la probabilidad condicionada, obtenemos:
∑ ∑ ∑ ∑ ∑ p(g, s′ , s)
E[Gt+1 |St = s] = gp(g|s) = gp(g, s′ |s) = g =
p(s)
∀g ∀g ∀s′ ∈S ∀s′ ∈S ∀g
(40)
∑ ∑ p(g|s′ , s)p(s′ , s) ∑ ∑
= g = gp(g|s′ , s)p(s′ |s)
p(s)
∀s′ ∈S ∀g ∀s′ ∈S ∀g
Si calculamos la probabilidad p(g|s′ , s) = P r{Gt+1 = g|St+1 = s′ , St = s} y aplica-

mos que los estados de un MRP son de Markov, y por tanto el conocimiento del valor
del estado St no influye en el cálculo de la probabilidad dado que ya conocemos el
valor del estado sucesor St+1 , entonces obtenemos:
p(g|s′ , s) = P r{Gt+1 = g|St+1 = s′ , St = s}
= P r{Gt+1 = g|St+1 = s′ }
= p(g|s′ )
Aplicando este resultado a la última igualdad del desarrollo hecho en la ecuación 40

obtenemos:
∑ ∑
E[Gt+1 |St = s] = p(s′ |s) gp(g|s′ )
∀s′ ∈S ∀g
∑
= p(s′ |s)E[Gt+1 |St+1 = s′ ]
∀s′ ∈S
∑
= p(s′ |s)v(s′ )
∀s′ ∈S
De esta forma el segundo término de la ecuación (39) queda:
∑
E[Gt+1 |St = s] = p(s′ |s)v(s′ ) (41)
∀s′ ∈S
Finalmente, substituyendo los resultados de las ecuaciones 6 y 41 en la expresión 39

obtenemos la expresión de la ecuación de Bellman para la función de valor de estado
v(s) de un MRP que vimos en la ecuación 9:
∑
v(s) = r(s) + γ p(s′ |s)v(s′ )
∀s′ ∈S
5. Anexo B: Relación entre las funciones de valor para un

MDP
.
Relación entre vπ (s) y qπ (s, a)
Vamos a empezar calculando la relación entre vπ (s) y qπ (s, a). Partimos de la defini-
ción de vπ (s) que vimos en la ecuación 19:
vπ (s) = Eπ [Gt |St = s]
Si desarrollamos la expresión anterior, aplicando la definición de esperanza condicio-

nada, obtenemos el siguiente desarrollo:
∑ ∑
Eπ [Gt |St = s] = gP r{Gt = g|St = s} = gp(g|s) =
∀g ∀g
∑ ∑ ∑ ∑ p(g, a, s)
= g p(g, a|s) = g =
p(s)
∀g ∀a∈A ∀g ∀a∈A
∑ ∑ p(g|a, s)p(a, s) ∑ ∑ p(g|a, s)π(a|s)p(s)

= g = g =
p(s) p(s)
∀g ∀a∈A ∀g ∀a∈A
∑ ∑ ∑
= π(a|s) gp(g|s, a) = π(a|s)Eπ [Gt |St = s, At = a] =
∀a∈A ∀g ∀a∈A
∑
= π(a|s)qπ (s, a)
∀a∈A
El paso final del desarrollo anterior nos lleva a la relación entre vπ (s) y qπ (s, a) que
vimos en la ecuación 21:
∑
vπ (s) = π(a|s)qπ (s, a)
∀a∈A
Relación entre qπ (s, a) y vπ (s)
Vamos ahora a calcular la relación entre qπ (s, a) y vπ (s). Partimos de la definición

de qπ (s, a) que vimos en la ecuación 20:
qπ (s, a) = Eπ [Gt |St = s, At = a]
Si desarrollamos la expresión anterior, aplicando el desarrollo recursivo del retorno

visto en la ecuación 5, obtenemos:
Eπ [Gt |St = s, At = a] = Eπ [Rt+1 + γGt+1 |St = s, At = a]

(42)
= Eπ [Rt+1 |St = s, At = a] + γ Eπ [Gt+1 |St = s, At = a]
El último término de la expresión anterior está formado por dos valores esperados.
El primer valor esperado se corresponde con la recompensa esperada para un deter-
minado par estado-acción r(s, a) que vimos en la ecuación 16:
∑ ∑
r(s, a) = E[Rt+1 |St = s, At = a] = rp(s′ , r|s, a)
∀r∈R ∀s′ ∈S
Si desarrollamos el segundo valor esperado de la ecuación 42 obtenemos:
∑
Eπ [Gt+1 |St = s, At = a] = g ′ P r{Gt+1 = g ′ |St = s, At = a} =
∀g ′
∑ ∑
= g′ P r{Gt+1 = g ′ , St+1 = s′ |St = s, At = a} =
∀g ′ ∀s′ ∈S
∑ ∑ ∑ ∑ p(g ′ , s′ , s, a)
= g′ p(g ′ , s′ |s, a) = g′ =
p(s, a)
∀g ′ ∀s′ ∈S ∀g ′ ∀s′ ∈S
∑ ∑ p(g ′ |s′ , s, a)p(s′ , s, a)

= g′
p(s, a)
∀g ′ ∀s′ ∈S
(43)
Calculamos la probabilidad p(g ′ |s′ , s, a) = P r{Gt+1 = g ′ |St+1 = s′ , St = s, At = a}

y aplicamos que los estados de un MDP son de Markov, y por tanto el conocimiento
del valor del estado St (y por ende el de la acción At ) no influye en el cálculo de
la probabilidad dado que ya conocemos el valor del estado sucesor St+1 , entonces
obtenemos:
p(g ′ |s′ , s, a) = P r{Gt+1 = g ′ |St+1 = s′ , St = s, At = a}
= P r{Gt+1 = g ′ |St+1 = s′ } (44)
= p(g ′ |s′ )
Aplicando este resultado a la última igualdad del desarrollo hecho en la ecuación 43

obtenemos:
∑ ∑ p(g ′ |s′ )p(s′ , s, a)

Eπ [Gt+1 |St = s, At = a] = g′ =
p(s, a)
∀g ′ ∀s′ ∈S
∑ ∑ p(g ′ |s′ )p(s′ |s, a)p(s, a)

= g′ =
p(s, a)
∀g ′ ∀s′ ∈S
∑ ∑
= p(s′ |s, a) g ′ p(g ′ |s′ ) =
∀s′ ∈S ∀g ′
∑ ∑
= p(s′ |s, a) g ′ P r{Gt+1 = g ′ |St+1 = s′ } =
∀s′ ∈S ∀g ′
∑
= p(s′ |s, a)Eπ [Gt+1 |St+1 = s′ ] =
∀s′ ∈S
∑
= p(s′ |s, a)vπ (s′ )
∀s′ ∈S
∑
Eπ [Gt+1 |St = s, At = a] = p(s′ |s, a)vπ (s′ ) (45)
∀s′ ∈S
Finalmente, substituyendo los resultados de las ecuaciones 16 y 45 en la expresión 42

obtenemos la relación entre la función qπ (s, a) y vπ (s) que vimos en la ecuación 22:
∑
qπ (s, a) = r(s, a) + γ p(s′ |s, a)vπ (s′ )
∀s′ ∈S
6. Anexo C: Ecuaciones de Bellman para un MDP

.
Ecuación de Bellman para vπ (s)
El desarrollo para la ecuación de Bellman para la función de valor de estado vπ (s)

de un MDP es similar al que hicimos para la ecuación de Bellman de un MRP en el
Anexo A.
Si partimos de la expresión para la función de valor vπ (s) que obtuvimos en la ecuación

24:
vπ (s) = Eπ [Rt+1 + γGt+1 |St = s]
Podemos ver que el último término puede descomponerse en dos valores esperados:
vπ (s) = Eπ [Rt+1 |St = s] + γ Eπ [Gt+1 |St = s] (46)
El primer valor esperado corresponde a la recompensa inmediata esperada de un

estado s siguiendo la política π calculada en la ecuación 18:
∑
rπ (s) = Eπ [Rt+1 |St = s] = π(a|s)r(s, a)
∀a∈A
El segundo término de la ecuación 46 es el valor esperado del retorno del estado

siguiente Gt+1 partiendo del estado actual St = s. Si desarrollamos este término,
aplicando la definición de esperanza condicionada, obtenemos:
∑ ∑
Eπ [Gt+1 |St = s] = gP r{Gt+1 = g ′ |St = s} = g ′ p(g ′ |s)
∀g ′ ∀g ′
Podemos incluir ahora la influencia de la acción a seleccionar At = a y del estado

siguiente St+1 = s′ en la ecuación anterior y, utilizando la teoría de la probabilidad
condicionada, obtenemos:
∑ ∑
Eπ [Gt+1 |St = s] = g ′ p(g ′ |s) = g ′ p(g ′ , a, s′ |s) =
∀g ′ ′
∀g
∀a∈A
∀s′ ∈S
∑ p(g ′ , a, s′ , s) ∑ ′ p(g ′ |s′ , s, a)p(s′ , s, a)

= g′ = g =
p(s) p(s)
∀g ′ ′
∀g
∀a∈A ∀a∈A
∀s′ ∈S ∀s′ ∈S
∑ p(g ′ |s′ )p(s′ , s, a) ∑ ′ p(g ′ |s′ )p(s′ |s, a)p(s, a)

= g′ = g =
p(s) p(s)
∀g ′ ′
∀g
∀a∈A ∀a∈A
∀s′ ∈S ∀s′ ∈S
∑ p(g ′ |s′ )p(s′ |s, a)π(s|a)p(s)

= g′ =
p(s)
∀g ′
∀a∈A
∀s′ ∈S
∑
= g ′ p(g ′ |s′ )p(s′ |s, a)π(s|a) =
∀g ′
∀a∈A
∀s′ ∈S
∑ ∑
= p(s′ |s, a)π(s|a) g ′ p(g ′ |s′ ) =
∀a∈A ∀g ′
∀s′ ∈S
∑
= p(s′ |s, a)π(s|a)vπ (s′ )
∀a∈A
∀s′ ∈S
En el desarrollo anterior se ha aplicado la propiedad de Markov que cumplen los

estados de un MDP y que provocan que p(g ′ |s′ , s, a) = p(g ′ |s′ ) tal y como vimos en
el desarrollo de la ecuación 44.

∑
Eπ [Gt+1 |St = s] = p(s′ |s, a)π(s|a)vπ (s′ ) (47)
∀a∈A
∀s′ ∈S
Si substituimos los resultados de las ecuaciones 18 y 47 en la expresión 46 obtenemos

la expresión:
∑ ∑
vπ (s) = π(a|s)r(s, a) + γ p(s′ |s, a)π(s|a)vπ (s′ ) (48)
∀a∈A ∀a∈A
∀s′ ∈S
Si substituimos el valor de r(s, a) (calculado en la ecuación 16) y el de p(s′ |s, a)

(calculado en la ecuación 15) en la ecuación anterior, obtenemos:
∑ ∑ ∑ ∑
vπ (s) = π(a|s) rp(s′ , r|s, a) + γ ( p(s′ , r|s, a))π(s|a)vπ (s′ ) =
∀s′ ∈S ∀s′ ∈S
∑ ∑ ∑ ∑
= π(a|s) rp(s′ , r|s, a) + γ π(a|s) p(s′ , r|s, a)vπ (s′ ) =
∀s′ ∈S ∀s′ ∈S
∑ ∑
= π(a|s) p(r, s′ |s, a)[r + γvπ (s′ )]
∀a∈A ∀r∈R
∀s′ ∈S
El último término de la ecuación anterior coincide con la ecuación de Bellman para

la función de valor de estado vπ (s) de un MDP que vimos en la ecuación 25:
∑ ∑
vπ (s) = π(a|s) p(r, s′ |s, a)[r + γvπ (s′ )]
∀a∈A ∀r∈R
∀s′ ∈S
Ecuación de Bellman para qπ (s, a)
Vamos a ver ahora el desarrollo para la ecuación de Bellman para la función de valor
de acción qπ (s, a) de un MDP.
Si partimos de la ecuación 26:
qπ (s, a) = Eπ [Rt+1 + γGt+1 |St = s, At = a]
Podemos descomponer la ecuación anterior en dos valores esperados:
qπ (s, a) = Eπ [Rt+1 |St = s, At = a] + γ Eπ [Gt+1 |St = s, At = a] (49)
El primer valor esperado de la ecuación anterior se corresponde con la recompensa

esperada para un determinado par estado-acción que vimos en la ecuación 16:
∑
r(s, a) = E[Rt+1 |St = s, At = a] = rp(s′ , r|s, a)
∀r∈R
∀s′ ∈S
El segundo término de la ecuación 49 es el valor esperado del retorno del estado

siguiente Gt+1 partiendo del estado actual St = s y seleccionando la acción At = a.
Si desarrollamos este término, aplicando la definición de esperanza condicionada,
obtenemos:
∑ ∑
Eπ [Gt+1 |St = s, At = a] = g ′ P r{Gt+1 = g ′ |St = s, At = a} = g ′ p(g ′ |s, a)
∀g ′ ∀g ′
Podemos incluir ahora la influencia del estado siguiente St+1 = s′ y de la siguiente

acción a seleccionar At+1 = a′ en la ecuación anterior y, utilizando la teoría de la
probabilidad condicionada, obtenemos:
∑ ∑
Eπ [Gt+1 |St = s, At = a] = g ′ p(g ′ |s, a) = g ′ p(g ′ , s′ , a′ |s, a) =
∀g ′ ′
∀g
∀a′ ∈A
∀s′ ∈S
∑ p(g ′ , s′ , a′ , s, a)
= g′ =
p(s, a)
∀g ′
∀a′ ∈A
∀s′ ∈S
∑ p(g ′ |s′ , a′ , s, a)p(s′ , a′ , s, a)

= g′ =
p(s, a)
∀g ′
∀a′ ∈A
∀s′ ∈S
∑ p(g ′ |s′ , a′ )p(s′ , a′ , s, a)

= g′ =
p(s, a)
∀g ′
∀a′ ∈A
∀s′ ∈S
∑ p(g ′ |s′ , a′ )p(a′ |s′ , s, a)p(s′ , s, a)

= g′ =
p(s, a)
∀g ′
∀a′ ∈A
∀s′ ∈S
∑ p(g ′ |s′ , a′ )π(a′ |s′ )p(s′ , s, a)

= g′ =
p(s, a)
∀g ′
∀a′ ∈A
∀s′ ∈S
∑ p(g ′ |s′ , a′ )π(a′ |s′ )p(s′ |s, a)p(s, a)

= g′ =
p(s, a)
∀g ′
∀a′ ∈A
∀s′ ∈S
∑ ∑
= π(a′ |s′ )p(s′ |s, a) g ′ p(g ′ |s′ , a′ ) =
∀a′ ∈A ∀g ′
′
∀s ∈S
∑
= π(a′ |s′ )p(s′ |s, a)Eπ [Gt+1 |St+1 = s′ , At+1 = a′ ] =
∀a′ ∈A
′
∀s ∈S
∑
= π(a′ |s′ )p(s′ |s, a)qπ (s′ , a′ )
∀a′ ∈A
′
∀s ∈S
(50)
En el desarrollo anterior se ha aplicado de nuevo que, gracias a la propiedad de

Markov de los estados de un MDP, se cumple que p(g ′ |s′ , a′ , s, a) = p(g ′ |s′ , a′ ) y que
p(a′ |s′ , s, a) = p(a′ |s′ ) = π(a′ |s′ ).
Si substituimos los valores esperados obtenidos en la ecuación 16 y en la ecuación 50

en la expresión 49 obtenemos:
qπ (s, a) = Eπ [Rt+1 |St = s, At = a] + γ Eπ [Gt+1 |St = s, At = a] =
∑
= r(s, a) + γ π(a′ |s′ )p(s′ |s, a)qπ (s′ , a′ ) =
∀a′ ∈A
∀s′ ∈S (51)
∑ ∑
= rp(s′ , r|s, a) + γ π(a′ |s′ )p(s′ |s, a)qπ (s′ , a′ )
∀r∈R ∀a′ ∈A
∀s′ ∈S ∀s′ ∈S
Finalmente, si aplicamos que, tal y como vimos en la ecuación 15:
∑
p(s′ |s, a) = p(s′ , r|s, a)
∀r∈R
La ecuación 51 queda:
∑ ∑
qπ (s, a) = p(r, s′ |s, a)[r + γ π(a′ |s′ )qπ (s′ , a′ )]
∀r∈R ∀a′ ∈A
∀s′ ∈S
Esta ecuación se corresponde con la ecuación de Bellman para qπ (s, a) vista en la

ecuación 27.
Resumen
A lo largo de este módulo hemos realizado una aproximación incremental a los pro-
cesos de decisión de Markov (MDPs).
Hemos empezado explicando los denominados procesos o cadenas de Markov (MP, de

Markov Process), incidiendo en la propiedad de Markov que debe caracterizar a un
estado, el concepto de probabilidad de transición de un estado a otro, y la matriz de
transición de estados asociada a estas probabilidades.
En el siguiente capítulo hemos introducido el concepto de recompensa que permite

convertir una cadena de Markov en un proceso de recompensa de Markov, también
conocido en la literatura existente como proceso de Markov con recompensas (MRP,
de Markov Reward Process). Hemos definido la función de valor de un estado v(s), su
expresión aproximada mediante la ecuación de Bellman, así como la posibilidad de
obtener una solución cerrada de la misma o las diferentes opciones para aproximarla.
Finalmente, en el siguiente capítulo hemos añadido el concepto de acción como ele-

mento clave para definir los MDPs y diferenciarlos de los procesos de Markov anali-
zados en los capítulos anteriores (MPs y MRPs). Hemos analizado con detenimiento
los componentes que caracterizan a un MDP (el concepto de política asociada a un
estado π(a|s), la función de valor de un estado vπ (s) y la función de valor de una
acción qπ (s, a)). También hemos planteado las ecuaciones de Bellman para dichas
funciones de valor, estudiando su optimalidad y discutiendo las posibles formas de
llegar a dichos valores óptimos.
Glosario
aprendizaje automático m disciplina de las ciencias de computación que da a los

ordenadores la capacidad de aprender sin ser explícitamente programados.
sigla ML
en machine learning
aprendizaje profundo m conjunto de algoritmos de aprendizaje automático que

intenta modelar abstracciones de alto nivel utilizando redes neuronales de múltiples
capas o niveles.
sigla DL
en deep learning
independientes e idénticamente distribuídos m conjunto de datos o variables

aleatorias que son mutuamente independientes entre sí y además cada variable tiene
la misma distribución de probabilidad.
sigla i.i.d.
en independent and identically distributed
Bibliografía
Richard S. Sutton and Andrew G. Barto (2018). Reinforcement Learning: An Intro-

duction (Second Edition). MIT Press, Cambridge, MA, 2018
David Silver (2015). UCL Course on RL. Accesible en https://www.davidsilver.uk/teaching/

[Accedido en 27 de agosto de 2020]
Maxim Lapan (2020). Deep Reinforcement Learning Hands-On (Second Edition). Packt
Publishing. ISBN: 9781838826994
Josep Vidal, Margarita Cabrera i Xavi Giró (2020). UPC Seminar on RL. Accesible en
https://raw.githubusercontent.com/telecombcn-dl/mrl-2020/gh-pages/slides/RL_Chap2_MDP_2020.pdf
[Accedido en 27 de agosto de 2020]

Mo¿dulo 3 - Procesos de Decisio¿n de Markov PDF

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Mo¿dulo 3 - Procesos de Decisio¿n de Markov PDF

Cargado por

Copyright:

Formatos disponibles

Procesos de decisión de Markov

Luis Esteve Elfau

2. Procesos de recompensa de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

3. Procesos de decisión de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.4.3. Solución de las ecuaciones de optimización de Bellman . . . . . . . 36

4. Anexo A: Ecuación de Bellman para un MRP . . . . . . . . . . . . . . . . . . . . . . 38

5. Anexo B: Relación entre las funciones de valor para un MDP . . . . 41

6. Anexo C: Ecuaciones de Bellman para un MDP . . . . . . . . . . . . . . . . . . . 45

En el siguiente capítulo introduciremos el concepto de recompensa que permite con-

Finalmente, en el siguiente capítulo añadiremos el concepto de acción como elemento

1. Entender qué es un proceso de Markov (también conocido como cadena de Mar-

2. Comprender la diferencia entre un proceso de Markov (MP) y un proceso de

3. Conocer las diferencias entre un proceso de decisión de Markov (MDP) y un MRP.

4. Entender el concepto de política asociado a la toma de decisiones.

5. Entender las funciones de valor de un estado vπ (s) y de una acción qπ (s, a) y su

6. Entender el concepto de optimalidad de las ecuaciones de Bellman.

En este capítulo estudiaremos los denominados procesos o cadenas de Markov (Markov

1.1. Introducción a los MPs

• Probabilidad de transición entre estados Pss′ o p(s′ |s).

• Matriz de transición de estados P o P.

1.2. Estados y propiedad de Markov

Definición: un estado St es denominado de Markov (o markoviano) si y solo

P r{St+1 |St } = P r{St+1 |S1 , ..., St }

1.3. Probabilidad y matriz de transición de estados

Dado un estado de Markov St = s y su estado sucesor en el tiempo St+1 = s′ se

Pss′ = p(s′ |s) = P r{St+1 = s′ |St = s} (1)

El significado de esta probabilidad de transición puede verse como la probabilidad de

A partir de la probabilidad anterior podemos definir la matriz de transición de estados

Dicha matriz de transición de estados define todas las dinámicas de un proceso

1.4. Definición formal de un MP

En base a lo explicado hasta ahora, y a modo de resumen, podemos realizar la siguiente

Definición: Un proceso o cadena de Markov queda definido por la tupla <

• S: conjunto finito de estados de Markov.

• P o P: matriz de probabilidades de transición de estados, donde los ele-

1.5. Ejemplo: Cadena de Markov de un estudiante

La Figura 1 es una representación gráfica del proceso de Markov que caracteriza el

En este ejemplo se establece un conjunto finito de siete estados:

S = {C1, C2, C3, P ass, P ub, F B, Sleep}

Los estados se definen de la siguiente forma:

• C1 = Class1, estado inicial que representa la primera clase a la que el alumno

• C2 = Class2, estado que representa la segunda clase a la que el alumno asiste si

• C3 = Class3, estado que representa la tercera clase a la que el alumno asiste si

• F B = F acebook, estado que representa que el alumno se conecta a su Facebook

• P ub, estado que representa que el alumno va al bar.

• Sleep estado terminal que representa que el alumno se va a dormir. A diferencia

Figura 1. Proceso de Markov de un estudiante.

0.5 0.2 1.0

Fuente: David Silver, 2015

PC2Sleep = p(Sleep|C2) = 0,2).

Y con valores numéricos:

2. Procesos de recompensa de Markov

En este capítulo veremos una evolución de los procesos de Markov: introduciremos

2.1. Definición de MRP

Un MRP es un proceso de Markov al cual se le añade una señal escalar denominada

Una definición formal de un MRP sería:

Definición: Un proceso de recompensa de Markov queda definido por la tupla

• S: conjunto finito de estados de Markov.

• P o P: matriz de probabilidades de transición de estados, donde los ele-

• R: es una función de recompensa que nos permite definir la recompensa

• γ: es el denominado factor de descuento que cumple γ ∈ [0, 1].

A parte de la señal de recompensa inmediata Rt asociada a un estado, conviene

Es decir que se define la señal de retorno Gt como el valor acumulado de todas