Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Decision Processes
Markov Decision Processes (MDP)
• Formulación matemática
definida por: Agente
S, A, R, ℙ, γ
• S, conjunto de posibles estados st rt rt+1 st+1 at
• A, conjunto de posibles acciones
• R, recompensa esperada dada s𝑡 , a𝑡
• ℙ, función de transición de probabilidad Entorno
• γ, factor de descuento
S0 , A0 → R1 , S1 , A1 → R 2 , S2 , A2
Finite Markov Decision Processes
• R t y St tienen distribuciones de probabilidad discretas
bien definidas, que dependen solo del estado anterior
y la acción anterior.
p ∶ S × R × S × A → 0,1 (Dinámica del MDP)
p s ′ , r | s, a ≐ Pr St = s ′ , R t = r | St−1 = s, At−1 = 𝑎
p s ′ , r | s, a = 1, ∀s ∈ S, a ∈ A(s)
s′ ∈S r∈R
Continuing Task
• T→∞
• La interacción no se puede Gt ≐ R t+1 + γR t+2 + γ2 R t+3 + ⋯
∞
dividir en episodios.
• Ongoing process-control task Gt ≐ γk R t+k+1
• Discounted Rewards (0 < 𝛾 < 1) k=0
• Gt limitado y recursivo Gt = R t+1 + γGt+1
Finite Markov Decision Processes Forma General, γ = 1 y T ≠ ∞
Ejemplo: Cartpole Episodic Task
• Episodios → Cada intento de
balancear el péndulo.
• Recompensa → +1 mientras
el péndulo este equilibrado.
• Retorno → Cantidad de
timesteps hasta antes de caer.
Aprendizaje Reforzado
Ejemplo: Cartpole Continuing Task
• Recompensa → −1 cada vez
que el péndulo caiga y 0 cada
vez que el péndulo no caiga.
• Retorno → Relacionado con
−γk , donde k es la cantidad
de timesteps hasta antes de
que el péndulo caiga.
Aprendizaje Reforzado
Policies
Es una función que en base a una probabilidad,
específica que acción tomar en cada uno de los estados.