Exposicion Procesos de Decision Markoviana Final

PROCESO DE DECISION
MÁRKOVIANA
INTEGRANTES:
• Galvis Vargas Claudia
• Gamarra Jiménez Ana
• Rojas Gómez Deisy Liliana
• Martínez Madariaga Andrés
DOC. YINA ORTEGA SANTIAGO

PROCESO DE DECISION
MÁRKOVIANA
Es un formalismo matemático para la

toma de decisiones en entornos con
incertidumbre, siendo un fenómeno
aleatorio dependiente del tiempo para
el cual se cumple una propiedad
específica: La propiedad de Márkov.
PROCESO DE DECISION
MÁRKOVIANA
Propiedad de Márkov: el efecto de una acción

donde un estado solo depende de la acción y del
propio estado.
Los procesos de decisión de
Márkov nos sirven para:
.
 Solucionar problemas de decisión secuenciales

 Entornos observables y no determinados
 Utilidad = suma de recompensas
 Recompensas: es otorgada en cada estado estas

pueden ser positivas o negativas.
ELEMENTOS QUE INTEGRAN UN
PROCESO DE DECISIÓN MARKOVIANO
Considerando una cadena de Márkov controlada en tiempo discreto con:
Conjunto de estado Estado inicial

Estados objetivos posibles
Conjunto de acciones A(S): Acciones posibles de un estado
Modelo de transición T(s,a,s)- >p(s,l s,a)
Función de recompensa
Utilidad de ganancia
PROCESO DE DECISIÓN DE MARKOV
DE HORIZONTE FINITO Y HORIZONTE INFINITO
Modelo de etapas finitas

Modelo de etapas infinitas
• Objetivo: optimizar ingreso esperado
al final de un periodo de tamaño N • Nos interesan políticas (acciones) para las
• Los problemas con un numero finito que existan soluciones de estado estable.
de pasos se conocen como MDP de • Los problemas en que pueden haber un
numero infinito de pasos se conoce como
horizonte finito.
MDP de horizonte infinito.
MODELO DE TRANSICIÓN
Se tiene incertidumbre respecto a los

resultados de ejecutar una acción
(decisión).
a
Pi j
La incertidumbre se modela como la
probabilidad de llegar al estado j
dado que se encuentra en el estado i
y se hace la acción a.
EJEMPLO
POLÍTICA π
Las acciones se toman a través de una política
que es una función que le dice al agente dado
un estado que acción le conviene tomar, es
decir, que indica la acción que se debe ejecutar
dado un estado (o probabilidad)
Asociación entre cada estado y la acción que va
a realizar en el mismo
π(s)=a
POLÍTICA OPTIMA (π*)
Se le conoce como política optima a aquella que maximice la
recompensa o utilidad esperada para las posibles secuencias de
acciones que se puedan generar en cada estado.
La acción maximizar las probabilidades de alcanzar el objetivo:
π*(S) = a*
Formas de definir una política optima
 Política miope
 Considerar una ventana de tiempo
 Política de horizonte de infinito
RECOMPENSAS NEGATIVAS
Poco negativas (- Medianamente Muy negativas (-50)
0,005) negativas (-0,5) • No busca el
• Busca el objetivo • Busca el objetivo objetivo
• Poco riesgos • Asume riesgos • Busca salir lo mas
pronto posible
RECOMPENSAS NO NEGATIVAS
En cero
• Busca el objetivo
• No asume riesgo porque no
tiene penalidad
Positivas (+0,5)
• No busca el objetivo
• Mayor utilidad recorriendo el
entorno
POLITICAS ESTACIONARIAS
 Estacionaria : no cambia en el tiempo

 No hay un limite de tiempo para alcanzar el objetivo
 Calculo de la utilidad según la recompensa
 Utilidad aditiva
 Utilidad descontada
UTILIDAD
UTILIDAD ADITIVA: Suma de recompensa de cada estado.
 No converge
 Recompensa actual es igual de importante que las recompensas futuras
UTILIDAD ADITIVA PONDERADA: Se asigna un peso según su

importancia.
 Puede converger si se asigna un peso entre 0 y 1

 Peso diferentes
UTILIDAD
UTILIDAD DESCONECTADA
• Se define un solo peso
 Se busca que las recompensas futuras aporten menos que las

actuales
 Suma ponderada exponencial
 Converge
ECUACIONES DE BELLMAN
1. En función de la recompensa
❑

U (S )=𝑹 ( 𝑺 )+γ ∗ 𝒎𝒂𝒙 ∑ ( 𝑷 ( 𝑺 ´ |𝑺 ,a ) ∗𝑼 (𝑺 ´) )
a∈A(s)𝒔 ′
2. En función de la acción
❑
U ( S )=𝒎𝒂𝒙 ∑ ¿¿
a∈A(s) 𝒔´
EQUIVALENCIA
Bellman – utilidad descontada
❑

( S )= 𝑹 ( 𝑺 )+ γ ∗ 𝒎𝒂𝒙 ∑ ( 𝑷 ( 𝑺 ´ | 𝑺 , a ) ∗ 𝑼 (𝑺 ´ ) )
U
𝒔′
a∈A(s)
Ejecutamos la acción optima para el estado s

❑
U ( S )= 𝑅 ( 𝑆 ) + ∑ ( 𝑃 ( 𝑆 ´ | 𝑆 , a ∗ ) ∗ 𝑈 (𝑆 ´ ) )
𝑠′
Llegamos
al estado S’ ( =1)
 U(s) = R (s) + * U(s’)
Ahora, evaluamos la utilidad s’
U ( S )= 𝑅 ( 𝑆 )+ γ ∗ ¿
a∈A(s)
Ejecutamos la acción optima para el estado s’
U ( S ) = 𝑅 ( 𝑆 )+ γ∗¿
Llegamos al nuevo estado s’’
 ^2 * U(s’’)
Equivalencia
Bellman – utilidad descontada
Repetimos el proceso para el siguiente estado
^2 *R(s’’)+ ^3* U(s’’’)
Y de esta forma hasta alcanzar el objetivo

^2 *R(s’’)+ ^3* R(s’’’)+…+.. ^n*U(n)
ITERACION DE VALORES
 Recursivo
 En función de los valores
 Se itera hasta que la diferencia del valor de una iteración y el valor

de la siguiente sea menor que una umbral definido
 En cada iteración (t+1), se calcula la utilidad de cada estado basada

en los valores de la iteración anterior (t)
❑

U t+1(S )=𝑹 ( 𝑺 ) +γ∗ 𝒎𝒂𝒙 ∑ ( 𝑷 ( 𝑺´ |𝑺 ,a ) ∗𝑼𝒕 (𝑺´))
a∈A(s)
𝒔′
 Complejidad en tiempo : una complejidad cuadrática de los estados
al cuadrado por el numero de acciones que se tiene (0(s^2 A) )
ITERACIÓN DE POLITICA
 Suele converger en menor numero de iteraciones que la iteración de

valores, sin embargo cada iteración es mas costosa
 Se basa en la búsqueda local
 Se inicia con una política aleatoria
 Según la política, se calcula la utilidad para cada estado
 El proceso termina cuando ya no puede haber mejoras (no hay
cambios de política)
 Complejidad en tiempo : Mejora la complejidad en tiempo (0(s^2))
ITERACION DE POLITICA
Dada
la política, el calculo de la utilidad para estado esta dado por la
formula
U(s) = R(S) +
La actualización de la utilidad esta dada por la formula

❑

U t+1(S )=𝑹 ( 𝑺 ) +γ∗ ∑ ( 𝑷 ( 𝑺 ´ |𝑺 ,a ) ∗𝑼𝒕 (𝑺´))
𝒔′
APLICACIONES
 Manejo de inventarios
 Mantenimiento de equipos y carreteras
 Control de sistemas de comunicaciones
 Modelado de procesos biológicos
 Planeación en robótica móvil
 Construcción de mapas / localización
 Control de procesos industriales
 Control de aviones
PLANTEAMIENTO DEL PROBLEMA
Andrés estudiante del octavo semestre de ingeniería Agroindustrial, se
encuentra cursando las siguientes asignaturas investigación de
operaciones y operaciones agroindustriales III. Para estudiar dichas
asignaturas Andrés decide seguir las siguientes reglas:
1. Si estudia investigación de operaciones, al día siguiente estudiara

investigación de operaciones y operaciones agroindustriales III con
probabilidad de 1/3 y 2/3 respectivamente.
2. Si estudia operaciones agroindustriales III al día siguiente estudiara
investigación de operaciones y operaciones agroindustriales III con
probabilidad de ½ y ½ respectivamente.
MODELO MATEMÁTICO
 Identificación de los estados
¿ si el estudiante Andrés estudia investigación de operaciones el lunes de la semana , que probabilidad

hay de que estudie operaciones agroindustriales III el viernes de esa misma semana?
SOLUCIÓN DEL EJERCICIO
Donde:
x=Día de estudio
x=0 = lunes inicio de semana (tiempo)
x=4 = viernes de la semana (tiempo)
P= probabilidad
 Vector de estados iniciales.

xo = O
 Matriz de transición.
Matriz y el estado inicial
estado de salidad
inv.operaci operaciones
ones agroindustriales
estado de llegada
xo = O
inv.operacion p = (1/3) (1/2)
es (1/3) (1/2) , 1
operaciones
(2/3) (1/2)
agroindustrial
es III (2/3) (1/2)
SOLUCIÓN DEL EJERCICIO

x=Día de estudio
x ---------------0
x----------------4
4 xo = O =
p = (1/3) (1/2)
X4 = P^4 * X0 = (2/3) (1/2)

, 1
RESULTADOS
X4 * =
ANALISIS Y RECOMENDACIONES
inv. Operaciones 0.40 40.00%

operaciones
agroindustriales
III 0.60 60%
Se puede deducir a partir de los resultados obtenidos del ejercicio que para el estudiante
Andrés dando respuesta a la incertidumbre de saber que materia estudiaría con mayor
intensidad el viernes; la probabilidad de que estudie investigaciones el viernes es del 40% y
de operaciones agroindustriales III es de 60%.
Dado a los resultados se puede finiquitar que Andrés estudiara con mas intensidad la
materia operaciones agroindustriales III que investigación de operaciones el día viernes de
esta misma semana.
RECOMENDACIONES:
 Tener en cuenta las horas de estudio que debe tener la materia, ya que depende de los
créditos que tenga.
REFERENCIAS
• https://
es.slideshare.net/MairaDelgado/procesos-de-decisionmarkovia
nos
.
• https://ccc.inaoep.mx/~
esucar/Clases-mgp/pgm15-mdp-2012.pdf
• https://core.ac.uk/download/pdf/29405478.pdf
MUCHAS GRACIAS!!

Exposicion Procesos de Decision Markoviana Final

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Exposicion Procesos de Decision Markoviana Final

Cargado por

Copyright:

Formatos disponibles

PROCESO DE DECISION

DOC. YINA ORTEGA SANTIAGO

Es un formalismo matemático para la

Propiedad de Márkov: el efecto de una acción

 Solucionar problemas de decisión secuenciales

 Recompensas: es otorgada en cada estado estas

Considerando una cadena de Márkov controlada en tiempo discreto con:

Conjunto de estado Estado inicial

Conjunto de acciones A(S): Acciones posibles de un estado

Modelo de transición T(s,a,s)- >p(s,l s,a)

DE HORIZONTE FINITO Y HORIZONTE INFINITO

Modelo de etapas finitas

Se tiene incertidumbre respecto a los

La acción maximizar las probabilidades de alcanzar el objetivo:

Formas de definir una política optima

 Estacionaria : no cambia en el tiempo

UTILIDAD ADITIVA PONDERADA: Se asigna un peso según su

 Puede converger si se asigna un peso entre 0 y 1

• Se define un solo peso

 Se busca que las recompensas futuras aporten menos que las

Ejecutamos la acción optima para el estado s

Repetimos el proceso para el siguiente estado

^2 *R(s’’)+ ^3* U(s’’’)

Y de esta forma hasta alcanzar el objetivo

 En función de los valores

 Se itera hasta que la diferencia del valor de una iteración y el valor

 En cada iteración (t+1), se calcula la utilidad de cada estado basada

 Suele converger en menor numero de iteraciones que la iteración de

La actualización de la utilidad esta dada por la formula

1. Si estudia investigación de operaciones, al día siguiente estudiara

 Identificación de los estados

¿ si el estudiante Andrés estudia investigación de operaciones el lunes de la semana , que probabilidad

 Vector de estados iniciales.

X4 = P^4 * X0 = (2/3) (1/2)

inv. Operaciones 0.40 40.00%

También podría gustarte

^2 R(s’’)+ ^3 U(s’’’)