Está en la página 1de 13

Finite Markov

Decision Processes
Markov Decision Processes (MDP)
• Formulación matemática
definida por: Agente
S, A, R, ℙ, γ
• S, conjunto de posibles estados st rt rt+1 st+1 at
• A, conjunto de posibles acciones
• R, recompensa esperada dada s𝑡 , a𝑡
• ℙ, función de transición de probabilidad Entorno
• γ, factor de descuento

Propiedad de Markov: El estado presente caracteriza completamente los valores futuros.


Finite Markov Decision Processes
• En cada instante de tiempo 𝑡, el agente recibe una
representación de acuerdo al estado en el que se
encuentra dentro de su entorno, S𝑡 ∈ S , y en
base a esta, selecciona una acción A𝑡 ∈ A 𝑠 .
• Un instante de tiempo después, consecuencia de
su acción, recibe una recompensa R 𝑡+1 ∈ R ⊂ ℝ,
encontrando por si mismo un nuevo estado S𝑡+1 .

S0 , A0 → R1 , S1 , A1 → R 2 , S2 , A2
Finite Markov Decision Processes
• R t y St tienen distribuciones de probabilidad discretas
bien definidas, que dependen solo del estado anterior
y la acción anterior.
p ∶ S × R × S × A → 0,1 (Dinámica del MDP)

p s ′ , r | s, a ≐ Pr St = s ′ , R t = r | St−1 = s, At−1 = 𝑎

෍ ෍ p s ′ , r | s, a = 1, ∀s ∈ S, a ∈ A(s)
s′ ∈S r∈R

Finite Markov Decision Processes


Markov Decision Processes (MDP)
• Formulación matemática
definida por: Agente
S, A, R, ℙ, γ
• S, conjunto de posibles estados st rt rt+1 st+1 at
• A, conjunto de posibles acciones
• R, recompensa esperada dada s𝑡 , a𝑡
• ℙ, función de transición de probabilidad Entorno
• γ, factor de descuento

Propiedad de Markov: El estado presente caracteriza completamente los valores futuros.


Finite Markov Decision Processes
Returns and Episodes
El retorno esperado Gt es definido como la suma de
todas las recompensas en cada uno de los instantes
• Gt ≐ R t+1 + R t+2 + R t+3 + ⋯ + R T
• T es el instante final de un episodio
• Episodio → Interacción completa entre el agente y
su entorno.
El objetivo es maximizar el retorno esperado.
Finite Markov Decision Processes
Episodic Task
• Instante final T definido. Gt ≐ R t+1 + R t+2 + R t+3 + ⋯ + R T
• Cada episodio termina en un
estado final determinado.

Continuing Task
• T→∞
• La interacción no se puede Gt ≐ R t+1 + γR t+2 + γ2 R t+3 + ⋯

dividir en episodios.
• Ongoing process-control task Gt ≐ ෍ γk R t+k+1
• Discounted Rewards (0 < 𝛾 < 1) k=0
• Gt limitado y recursivo Gt = R t+1 + γGt+1
Finite Markov Decision Processes Forma General, γ = 1 y T ≠ ∞
Ejemplo: Cartpole Episodic Task
• Episodios → Cada intento de
balancear el péndulo.
• Recompensa → +1 mientras
el péndulo este equilibrado.
• Retorno → Cantidad de
timesteps hasta antes de caer.

Aprendizaje Reforzado
Ejemplo: Cartpole Continuing Task
• Recompensa → −1 cada vez
que el péndulo caiga y 0 cada
vez que el péndulo no caiga.
• Retorno → Relacionado con
−γk , donde k es la cantidad
de timesteps hasta antes de
que el péndulo caiga.
Aprendizaje Reforzado
Policies
Es una función que en base a una probabilidad,
específica que acción tomar en cada uno de los estados.

π a|s → probabilidad de seleccionar la acción 'a' dado el estado 's'

El objetivo es encontrar π∗ (s|a), tal que maximice el


retorno esperado.

Finite Markov Decision Processes


Value Functions
Evaluar formas determinadas de actuar (policies).
Value Function
Que tan bueno es para el agente el estado s.

𝑣𝜋 s ≐ 𝔼𝜋 k=0 γk R t+k+1 St = s
σ
Action-value Function
Que tan bueno es para el agente realizar la acción a estando en el estado s.
𝑞𝜋 s, a ≐ 𝔼𝜋 σ∞
k=0 γk
R t+k+1 St = s, At = a
Finite Markov Decision Processes

También podría gustarte