UNIDAD 4 STD MDPs Sem1 2020

TOMA DE
DECISIONES
Hello!
Dra. Miriam Martínez Arroyo
PHD: ITESM
mirimamma_ds@hotmail.com
ITA
2
PROCESOS DE DECISIÓN DE MARKOV
PROCESOS DE DECISIÓN DE
MARKOV
+ La estructura de recompensas del proceso está descrita por
una matriz cuyos elementos individuales son el coste o el
beneficio de moverse de un estado a otro.
+ Las matrices de transición y de recompensas dependen de

las alternativas de decisión.
+ La política es una función que dado un Estado nos dice que

Acción le conviene tomar
MARKOV
+ Los Procesos de decisión de Markov (MDPs) son una extensión
de las Cadenas de Markov.
+ Incorporan Decisiones
+ Las decisiones pueden disparar Acciones
+ Las Acciones se toman a través de Políticas
MARKOV
+ Los procesos de recompensa de Markov se pueden ver como
procesos de Markov normales con valores que juzgan que tan
positivo es estar en un estado, esto traería un cambio a la
definición de procesos de Markov que tuvimos previamente
agregándole dos nuevas variables.
MARKOV
+ Objetivo: determinar la política óptima que maximice el ingreso
esperado en un número finito o infinito de etapas.
+ Es decir: Maximizar la función de la utilidad (Racionalizar)
+ Entonces los PDMs asignaran una función de Utilidad a cada

estado.
MARKOV
Política Óptima para Problemas de Decisión Secuenciales
+ 1) Considerar que solo se trata de maximizar la utilidad del
Estado siguiente (política Miope)
+ 2) Considerar una ventana de Tiempo (varios días, semanas,
meses, etc.)
+ 3) Considerar todos los tiempos futuros (Horizonte infinito)
MARKOV
+ Se podría definir el proceso de Markov como una tupla <S,A,M,
R>
MARKOV
Recompensa
MARKOV
• Recompensa de un estado: Recompensa Instantánea
• Recompensa esperada: El valor de Recompensa de estados
futuros es afectada por un valor de depreciación o descuento
• Recompensa en tiempos futuros
Utilidad/Recompensa
MARKOV
Tipos de modelos
• MDP de horizonte finito

• MDP de horizonte infinito
Ejemplo Robot Móvil
Recompensas Negativas
Poco negativas (-0.05)
• Busca el objetivo
• Poco riesgo
Medianamente negativas (-0.5)
• Busca el objetivo
• Asume riesgos
Muy negativas (-50)
• No busca el objetivo
• Busca salir rápidamente
Recompensas no negativas
Establecer políticas
• Estacionarias: no cambia en el tiempo
• No hay un límite de tiempo para alcanzar el objetivo
• Calculo de la utilidad según la recompensa:

• Utilidad aditiva
• Utilidad descontada
Utilidad aditiva
• Utilidad Aditiva: suma de recompensas
• Diverge
• Recompensa actual es igual de importante que la recompensa futura
Utilidad ponderada
• Se agrega un peso según su importancia
Puede converger si se asigna un peso entre 0 y 1

• Poco diferente
• Igual número de pesos y estados= muchisimos
• Se deben ajustar los pesos
Utilidad descontada
• Se busca que las recompensas futuras aporten menos que las actuales
• Se define un solo peso
• Suma ponderada exponencial (gama varia de forma exponencial)
• Converge
PROCESOS DE DECISIÓN DE MARKOV
Ejemplo
Si el valor del descuento es 0, significa que solo
tomas en cuenta la primera recompensa, ya que los
demás valores se harían 0; por otro lado si el valor del
descuento es 1, significa que se tomará en cuenta
todas las recompensas por igual.
▪ Priorizar las recompensas mas cercanas o mas

lejanas.
Ejemplo
Se muestra el caso de un empleado de el área de TI en una empresa de
maquinarias que reside en México, se le ha encomendado la labor de visitar varias
ciudades de Sudamérica donde conversará con varios consultores para encontrar
la mejor oferta sobre una consultoría de optimización de procesos de producción,
El objetivo de este empleado será escribir un informe en el cual dará su opinión de

cada proveedor luego de visitar estas ciudades, en este viaje se verá tentado por
hacer turismo en las bellas ciudades que visitará o en permanecer un tiempo en
Lima, su ciudad natal, en la cual puede distraerse con amigos o con familia.
Ejemplo
Ejemplo
Los numero representan la probabilidad de ir al siguiente estado.
Ahora veremos como podemos sacar muestras de la cadena de Markov propuesta donde se
iniciará desde nuestro primer destino,
Caracas (S₁= Caracas).
1. CARACAS, TURISMO, VIAJE DE RETORNO
2. CARACAS, BUENOS AIRES, LIMA, FIESTA CON AMIGOS, FIESTA CON AMIGOS, LIMA, VISITAR
A MAMÁ, LIMA, LA PAZ, INFORME, VIAJE DE RETORNO
3. CARACAS, BUENOS AIRES, LIMA, VISITAR A MAMÁ, LIMA, LA PAZ, INFORME, VIAJE DE
RETORNO
4. CARACAS, BUENOS AIRES, LIMA, LA PAZ, INFORME, VIAJE DE RETORNO

matriz de transición de estados
MARKOV
+ Se podría definir el proceso de Markov como una tupla <S,P,R, γ>
+ S es una lista de estados a los cuales puede pertenecer.

+ P es una matriz de transición de estado.
+ R es la recompensa inmediata en el estado donde nos encontraríamos, se puede
expresar de la siguiente
+ γ es un valor de descuento que va entre el 0 a 1
Ejemplo
Ejemplo
Retorno
El retorno Gₜ es el total de recompensa multiplicado por el valor de
descuento en cada paso de tiempo.
Ejemplo
Descuento
Es matemáticamente conveniente usar descuentos.

Evita bucles infinitos en procesos de Markov cíclicos.
No siempre la incertidumbre del futuro puede ser representada.
El comportamiento animal muestra preferencia por recompensas inmediatas.
Es posible usar procesos de Markov sin descuento, cuando todas las secuencias pueden
terminar (por ejemplo el caso propuesto).
Ejemplo
Función de valor
Se representa como v(s) y nos muestra cual es la recompensa esperada desde ese estado
hasta el final de la secuencia.
Ejemplo
Ejemplo de Retorno de la Cadena de Markov
Comenzando el ejemplo de S₁ = Caracas, γ=1/3
.
Ejemplo
Ejemplo
Ecuación de Bellman
La ecuación de Bellman lo que hace es partir la función de valor en dos, en la recompensa
inmediata de ese estado y el valor que vas a obtener luego de ese estado en adelante.
Ejemplo
Básicamente para hallar el valor de un estado se ve en los valores siguientes y en valor de cada
uno de estos, luego se suman todos estos valores para representar valor del estado inicial.
A continuación se muestra la ecuación de Bellman aplicado al MRP de ejemplo, antes explicado.

Ejemplo
Ejemplo
Como se ve en nuestro gráfico explicaremos el valor de un estado específico

(el que se encuentra de color rojo), se toma los valores de los dos posibles
estados en los que puede terminar el agente desde el estado inicial, estos dos
estados tienen un valor y una probabilidad de terminar en cada uno, estos se
multiplican y se suman para hallar el valor del estado inicial.
MARKOV
• Cada nodo tiene asociada un valor esperado de Utilidad:
• La utilidad de Horizonte infinito considera la Recompensa instantánea y el valor

esperado de recompensa para tiempos futuros con su factor de descuento:
• Matricialmente:
• Resuelto
MARKOV
MARKOV
MARKOV
MARKOV
MARKOV
MARKOV
MARKOV
MARKOV
MARKOV
MARKOV
Tarea:
Ejemplificar a través de MDPs un área de su proyecto.
https://medium.com/aprendizaje-por-refuerzo-introducci%C3%B3n-al-mundo-
del/aprendizaje-por-refuerzo-procesos-de-decisi%C3%B3n-de-markov-parte-
1-8a0aed1e6c59
https://medium.com/aprendizaje-por-refuerzo-introducci%C3%B3n-al-mundo-
del/aprendizaje-por-refuerzo-procesos-de-decisi%C3%B3n-de-markov-parte-
2-d219358ecd76
https://www.youtube.com/watch?v=0gRAMPN1vew
https://www.youtube.com/watch?v=HZBiA-U2mlk&t=530s
La tienda está comparando dos políticas de colocar pedidos: (1) Pedir hasta
3unidades cada 3 días si el nivel de las existencias es menor que 2; de lo
contrario no pedir. (2) Pedir 3 unidades cada 3 días si el nivel del inventario es
cero; de lo contrario, no pedir. El costo fijo por ordenar por envío es de $300,
y el costo de retener las unidades excedentes por unidad por día es de $3. Se
espera una entrega inmediata
MARKOV
Una tienda vende un artículo especial cuya demanda diaria puede ser descrita por la siguiente
función de densidad de probabilidad:
La tienda está comparando dos políticas de colocar pedidos:

• (1) Pedir hasta 3unidades cada 3 días si el nivel de las existencias es menor que 2; de lo
contrario no pedir.
• (2) Pedir 3 unidades cada 3 días si el nivel del inventario es cero; de lo contrario, no pedir.
El costo fijo por ordenar por envío es de $300, y el costo de retener las unidades excedentes por
unidad por día es de $3. Se espera una entrega inmediata
MARKOV
a) ¿Cuál política debe adoptar la tienda para minimizar el costo diario esperado total de pedir
y retener?
Para la política (1): Si inventario < 2 se piden 3 unidades cada 3 días.
Matriz de transición
MARKOV
MARKOV
Para política (2): Si inventario = 0 se piden 3 unidades cada 3 días Matriz de
transición
MARKOV
a) Para las dos políticas, compare el promedio de días entre agotamientos sucesivos
del inventario.
Para política 1:
1
𝑡0 = = 3,33 𝑑í𝑎𝑠
0,3
1
𝑡1 = = 2,66 𝑑í𝑎𝑠
0,375
1
𝑡2 = = 4 𝑑í𝑎𝑠
0,25
1
𝑡0 = = 13 𝑑í𝑎𝑠
0,075
Para política 2:
1
𝑡0 = = 2,1 𝑑í𝑎𝑠
0,476
1
𝑡1 = = 3,4 𝑑í𝑎𝑠
0,294
1
𝑡2 = = 5,7 𝑑í𝑎𝑠
0,176
1
𝑡3 = = 18,9 𝑑í𝑎𝑠
0,053

UNIDAD 4 STD MDPs Sem1 2020

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

UNIDAD 4 STD MDPs Sem1 2020

Cargado por

Copyright:

Formatos disponibles

TOMA DE

+ Las matrices de transición y de recompensas dependen de

+ La política es una función que dado un Estado nos dice que

+ Es decir: Maximizar la función de la utilidad (Racionalizar)

+ Entonces los PDMs asignaran una función de Utilidad a cada

• MDP de horizonte finito

• No hay un límite de tiempo para alcanzar el objetivo

• Calculo de la utilidad según la recompensa:

Puede converger si se asigna un peso entre 0 y 1

▪ Priorizar las recompensas mas cercanas o mas

El objetivo de este empleado será escribir un informe en el cual dará su opinión de

4. CARACAS, BUENOS AIRES, LIMA, LA PAZ, INFORME, VIAJE DE RETORNO

+ S es una lista de estados a los cuales puede pertenecer.

Es matemáticamente conveniente usar descuentos.

A continuación se muestra la ecuación de Bellman aplicado al MRP de ejemplo, antes explicado.

Como se ve en nuestro gráfico explicaremos el valor de un estado específico

• La utilidad de Horizonte infinito considera la Recompensa instantánea y el valor

La tienda está comparando dos políticas de colocar pedidos:

Para la política (1): Si inventario < 2 se piden 3 unidades cada 3 días.

También podría gustarte