Está en la página 1de 6

PROCESO DE DECISION

MAKORVIANO
GENERALIDADES

1. PROBLEMAS DE DECISION SECUENCIALES

 Evaluar el paso del tiempo ( entornos secuenciales)


 El resultado (utilidad) depende de una secuencia de acciones
 El resultado se conoce hasta el final
 Las acciones del pasado generan un resultado que pueden afectar la decisión de que
tomaremos.
 Estados y acciones asociados en el tiempo.
 Posee incertidumbre asociada con los resultados.
PROCESO DE DECISION
MARKOVIANO (MDP)

 Soluciona problemas de decisiones secuenciales


 Entornos observables y no deterministas
 Modelo de transición de Markov
 Utilidad = suma de recompensas

 Recompensas: Es otorgada en cada estado (+ o -)


DEFINICION DE MDP
 S: Conto de estados
Estado Inicial
Estados objetivos posibles

 A: Conjunto de acciones
A (s): Acciones posibles de un estado

 Modelo de transición
T (s,a,s’)  P ( s’ I s,a)

 Función recompensa:
R (s)
MDP de horizonte finito e infinito

Modelo de etapas finitas


 Objetivo: Optimizar ingresos esperado al final de un periodo de tamaño N.
 Los problemas con un numero finito de pasos se conocen como MDP de horizonte finito.

Modelo de etapas infinitas


 Los problemas en que puede haber un numero infinito de pasos se conoce MDP de
horizonte infinito.
 Nos interesan políticas (Acciones) para que las que existan soluciones de estado estable.
Modelo de transición
 Se tiene incertidumbre respecto a los resultados de ejecutar una acción ( decisión).
 La incertidumbre se modela como la probabilidad de llegar al estado j dado que se
encuentra en el estado i y se hace la acción a.

También podría gustarte