Está en la página 1de 29

PROCESO DE DECISION

MÁRKOVIANA

INTEGRANTES:
• Galvis Vargas Claudia
• Gamarra Jiménez Ana
• Rojas Gómez Deisy Liliana
• Martínez Madariaga Andrés

DOC. YINA ORTEGA SANTIAGO


PROCESO DE DECISION
MÁRKOVIANA

Es un formalismo matemático para la


toma de decisiones en entornos con
incertidumbre, siendo un fenómeno
aleatorio dependiente del tiempo para
el cual se cumple una propiedad
específica: La propiedad de Márkov.
PROCESO DE DECISION
MÁRKOVIANA

Propiedad de Márkov: el efecto de una acción


donde un estado solo depende de la acción y del
propio estado.
Los procesos de decisión de
Márkov nos sirven para:
.

 Solucionar problemas de decisión secuenciales


 Entornos observables y no determinados
 Utilidad = suma de recompensas

 Recompensas: es otorgada en cada estado estas


pueden ser positivas o negativas.
ELEMENTOS QUE INTEGRAN UN
PROCESO DE DECISIÓN MARKOVIANO

Considerando una cadena de Márkov controlada en tiempo discreto con:

Conjunto de estado Estado inicial


Estados objetivos posibles

Conjunto de acciones A(S): Acciones posibles de un estado

Modelo de transición T(s,a,s)- >p(s,l s,a)

Función de recompensa
Utilidad de ganancia
PROCESO DE DECISIÓN DE MARKOV

DE HORIZONTE FINITO Y HORIZONTE INFINITO

Modelo de etapas finitas


Modelo de etapas infinitas
• Objetivo: optimizar ingreso esperado
al final de un periodo de tamaño N • Nos interesan políticas (acciones) para las
• Los problemas con un numero finito que existan soluciones de estado estable.
de pasos se conocen como MDP de • Los problemas en que pueden haber un
numero infinito de pasos se conoce como
horizonte finito.
MDP de horizonte infinito.
MODELO DE TRANSICIÓN

Se tiene incertidumbre respecto a los


resultados de ejecutar una acción
(decisión).

a
Pi j
La incertidumbre se modela como la
probabilidad de llegar al estado j
dado que se encuentra en el estado i
y se hace la acción a.
EJEMPLO
POLÍTICA π
Las acciones se toman a través de una política
que es una función que le dice al agente dado
un estado que acción le conviene tomar, es
decir, que indica la acción que se debe ejecutar
dado un estado (o probabilidad)
Asociación entre cada estado y la acción que va
a realizar en el mismo

π(s)=a
POLÍTICA OPTIMA (π*)
Se le conoce como política optima a aquella que maximice la
recompensa o utilidad esperada para las posibles secuencias de
acciones que se puedan generar en cada estado.

La acción maximizar las probabilidades de alcanzar el objetivo:

π*(S) = a*

Formas de definir una política optima

 Política miope
 Considerar una ventana de tiempo
 Política de horizonte de infinito
RECOMPENSAS NEGATIVAS
Poco negativas (- Medianamente Muy negativas (-50)
0,005) negativas (-0,5) • No busca el
• Busca el objetivo • Busca el objetivo objetivo
• Poco riesgos • Asume riesgos • Busca salir lo mas
pronto posible
RECOMPENSAS NO NEGATIVAS

En cero

• Busca el objetivo
• No asume riesgo porque no
tiene penalidad

Positivas (+0,5)

• No busca el objetivo
• Mayor utilidad recorriendo el
entorno
POLITICAS ESTACIONARIAS

 Estacionaria : no cambia en el tiempo


 No hay un limite de tiempo para alcanzar el objetivo
 Calculo de la utilidad según la recompensa
 Utilidad aditiva
 Utilidad descontada
UTILIDAD
UTILIDAD ADITIVA: Suma de recompensa de cada estado.

 No converge
 Recompensa actual es igual de importante que las recompensas futuras

UTILIDAD ADITIVA PONDERADA: Se asigna un peso según su


importancia.

 Puede converger si se asigna un peso entre 0 y 1


 Peso diferentes
UTILIDAD
UTILIDAD DESCONECTADA

• Se define un solo peso

 Se busca que las recompensas futuras aporten menos que las


actuales
 Suma ponderada exponencial
 Converge
ECUACIONES DE BELLMAN

1. En función de la recompensa

  ❑
 
U (S )=𝑹 ( 𝑺 )+γ ∗ 𝒎𝒂𝒙 ∑ ( 𝑷 ( 𝑺 ´ |𝑺 ,a ) ∗𝑼 (𝑺 ´) )
a∈A(s)𝒔 ′

2. En función de la acción
  ❑
U ( S )=𝒎𝒂𝒙 ∑ ¿¿
a∈A(s) 𝒔´
EQUIVALENCIA
Bellman – utilidad descontada

 
  ( S )= 𝑹 ( 𝑺 )+ γ ∗ 𝒎𝒂𝒙 ∑ ( 𝑷 ( 𝑺 ´ | 𝑺 , a ) ∗ 𝑼 (𝑺 ´ ) )
U
𝒔′
a∈A(s)

Ejecutamos la acción optima para el estado s



U  ( S )= 𝑅 ( 𝑆 ) + ∑ ( 𝑃 ( 𝑆 ´ | 𝑆 , a ∗ ) ∗ 𝑈   (𝑆 ´ ) )
𝑠′

Llegamos
  al estado S’ ( =1)
 U(s) = R (s) + * U(s’)
Ahora, evaluamos la utilidad s’
  U ( S )= 𝑅 ( 𝑆 )+ γ ∗ ¿
a∈A(s)
Ejecutamos la acción optima para el estado s’
  U ( S ) = 𝑅 ( 𝑆 )+ γ∗¿
Llegamos al nuevo estado s’’
  ^2 * U(s’’)
Equivalencia
Bellman – utilidad descontada

Repetimos el proceso para el siguiente estado

 ^2 *R(s’’)+ ^3* U(s’’’)

Y de esta forma hasta alcanzar el objetivo


 
^2 *R(s’’)+ ^3* R(s’’’)+…+.. ^n*U(n)
ITERACION DE VALORES
 Recursivo

 En función de los valores

 Se itera hasta que la diferencia del valor de una iteración y el valor


de la siguiente sea menor que una umbral definido

 En cada iteración (t+1), se calcula la utilidad de cada estado basada


en los valores de la iteración anterior (t)
  ❑
 
U t+1(S )=𝑹 ( 𝑺 ) +γ∗ 𝒎𝒂𝒙 ∑ ( 𝑷 ( 𝑺´ |𝑺 ,a ) ∗𝑼𝒕 (𝑺´))
a∈A(s)
𝒔′
 Complejidad en tiempo : una complejidad cuadrática de los estados
al cuadrado por el numero de acciones que se tiene (0(s^2 A) )
ITERACIÓN DE POLITICA

 Suele converger en menor numero de iteraciones que la iteración de


valores, sin embargo cada iteración es mas costosa
 Se basa en la búsqueda local
 Se inicia con una política aleatoria
 Según la política, se calcula la utilidad para cada estado
 El proceso termina cuando ya no puede haber mejoras (no hay
cambios de política)
 Complejidad en tiempo : Mejora la complejidad en tiempo (0(s^2))
ITERACION DE POLITICA
Dada
  la política, el calculo de la utilidad para estado esta dado por la
formula

U(s) = R(S) +

La actualización de la utilidad esta dada por la formula


  ❑
 
U t+1(S )=𝑹 ( 𝑺 ) +γ∗ ∑ ( 𝑷 ( 𝑺 ´ |𝑺 ,a ) ∗𝑼𝒕 (𝑺´))
𝒔′
APLICACIONES

 Manejo de inventarios
 Mantenimiento de equipos y carreteras
 Control de sistemas de comunicaciones
 Modelado de procesos biológicos
 Planeación en robótica móvil
 Construcción de mapas / localización
 Control de procesos industriales
 Control de aviones
PLANTEAMIENTO DEL PROBLEMA
Andrés estudiante del octavo semestre de ingeniería Agroindustrial, se
encuentra cursando las siguientes asignaturas investigación de
operaciones y operaciones agroindustriales III. Para estudiar dichas
asignaturas Andrés decide seguir las siguientes reglas:

1. Si estudia investigación de operaciones, al día siguiente estudiara


investigación de operaciones y operaciones agroindustriales III con
probabilidad de 1/3 y 2/3 respectivamente.
2. Si estudia operaciones agroindustriales III al día siguiente estudiara
investigación de operaciones y operaciones agroindustriales III con
probabilidad de ½ y ½ respectivamente.
MODELO MATEMÁTICO

 Identificación de los estados

¿ si el estudiante Andrés estudia investigación de operaciones el lunes de la semana , que probabilidad


hay de que estudie operaciones agroindustriales III el viernes de esa misma semana?
SOLUCIÓN DEL EJERCICIO

Donde:
x=Día de estudio
x=0 = lunes inicio de semana (tiempo)
x=4 = viernes de la semana (tiempo)
P= probabilidad

 Vector de estados iniciales.


xo = O

 Matriz de transición.
Matriz y el estado inicial
estado de salidad
inv.operaci operaciones
ones agroindustriales
estado de llegada

xo = O
inv.operacion p = (1/3) (1/2)
es (1/3) (1/2) , 1
operaciones
(2/3) (1/2)
agroindustrial
es III (2/3) (1/2)
SOLUCIÓN DEL EJERCICIO
 
x=Día de estudio
x ---------------0
x----------------4

4 xo = O  =
p = (1/3) (1/2)

X4 = P^4 * X0 = (2/3) (1/2)


, 1

RESULTADOS
 X4 * =
ANALISIS Y RECOMENDACIONES

inv. Operaciones 0.40 40.00%


operaciones
agroindustriales
III 0.60 60%

Se puede deducir a partir de los resultados obtenidos del ejercicio que para el estudiante
Andrés dando respuesta a la incertidumbre de saber que materia estudiaría con mayor
intensidad el viernes; la probabilidad de que estudie investigaciones el viernes es del 40% y
de operaciones agroindustriales III es de 60%.
Dado a los resultados se puede finiquitar que Andrés estudiara con mas intensidad la
materia operaciones agroindustriales III que investigación de operaciones el día viernes de
esta misma semana.

RECOMENDACIONES:
 Tener en cuenta las horas de estudio que debe tener la materia, ya que depende de los
créditos que tenga.
REFERENCIAS
• https://
es.slideshare.net/MairaDelgado/procesos-de-decisionmarkovia
nos
.

• https://ccc.inaoep.mx/~
esucar/Clases-mgp/pgm15-mdp-2012.pdf
• https://core.ac.uk/download/pdf/29405478.pdf
MUCHAS GRACIAS!!

También podría gustarte