Documentos de Académico
Documentos de Profesional
Documentos de Cultura
DECISIONES
Hello!
Dra. Miriam Martínez Arroyo
PHD: ITESM
mirimamma_ds@hotmail.com
ITA
2
PROCESOS DE DECISIÓN DE MARKOV
PROCESOS DE DECISIÓN DE
MARKOV
+ La estructura de recompensas del proceso está descrita por
una matriz cuyos elementos individuales son el coste o el
beneficio de moverse de un estado a otro.
• Busca el objetivo
• Poco riesgo
Recompensas Negativas
Medianamente negativas (-0.5)
• Busca el objetivo
• Asume riesgos
Recompensas Negativas
Muy negativas (-50)
• No busca el objetivo
• Busca salir rápidamente
Recompensas no negativas
Establecer políticas
• Estacionarias: no cambia en el tiempo
• Diverge
• Recompensa actual es igual de importante que la recompensa futura
Utilidad ponderada
• Se agrega un peso según su importancia
• Converge
PROCESOS DE DECISIÓN DE MARKOV
Ejemplo
Si el valor del descuento es 0, significa que solo
tomas en cuenta la primera recompensa, ya que los
demás valores se harían 0; por otro lado si el valor del
descuento es 1, significa que se tomará en cuenta
todas las recompensas por igual.
2. CARACAS, BUENOS AIRES, LIMA, FIESTA CON AMIGOS, FIESTA CON AMIGOS, LIMA, VISITAR
A MAMÁ, LIMA, LA PAZ, INFORME, VIAJE DE RETORNO
3. CARACAS, BUENOS AIRES, LIMA, VISITAR A MAMÁ, LIMA, LA PAZ, INFORME, VIAJE DE
RETORNO
.
Ejemplo
Ejemplo
Ecuación de Bellman
La ecuación de Bellman lo que hace es partir la función de valor en dos, en la recompensa
inmediata de ese estado y el valor que vas a obtener luego de ese estado en adelante.
Ejemplo
Básicamente para hallar el valor de un estado se ve en los valores siguientes y en valor de cada
uno de estos, luego se suman todos estos valores para representar valor del estado inicial.
• Matricialmente:
• Resuelto
PROCESOS DE DECISIÓN DE
MARKOV
PROCESOS DE DECISIÓN DE
MARKOV
PROCESOS DE DECISIÓN DE
MARKOV
PROCESOS DE DECISIÓN DE
MARKOV
PROCESOS DE DECISIÓN DE
MARKOV
PROCESOS DE DECISIÓN DE
MARKOV
PROCESOS DE DECISIÓN DE
MARKOV
PROCESOS DE DECISIÓN DE
MARKOV
PROCESOS DE DECISIÓN DE
MARKOV
PROCESOS DE DECISIÓN DE
MARKOV
Tarea:
Ejemplificar a través de MDPs un área de su proyecto.
https://medium.com/aprendizaje-por-refuerzo-introducci%C3%B3n-al-mundo-
del/aprendizaje-por-refuerzo-procesos-de-decisi%C3%B3n-de-markov-parte-
1-8a0aed1e6c59
https://medium.com/aprendizaje-por-refuerzo-introducci%C3%B3n-al-mundo-
del/aprendizaje-por-refuerzo-procesos-de-decisi%C3%B3n-de-markov-parte-
2-d219358ecd76
https://www.youtube.com/watch?v=0gRAMPN1vew
https://www.youtube.com/watch?v=HZBiA-U2mlk&t=530s
La tienda está comparando dos políticas de colocar pedidos: (1) Pedir hasta
3unidades cada 3 días si el nivel de las existencias es menor que 2; de lo
contrario no pedir. (2) Pedir 3 unidades cada 3 días si el nivel del inventario es
cero; de lo contrario, no pedir. El costo fijo por ordenar por envío es de $300,
y el costo de retener las unidades excedentes por unidad por día es de $3. Se
espera una entrega inmediata
PROCESOS DE DECISIÓN DE
MARKOV
Una tienda vende un artículo especial cuya demanda diaria puede ser descrita por la siguiente
función de densidad de probabilidad:
Matriz de transición
PROCESOS DE DECISIÓN DE
MARKOV
PROCESOS DE DECISIÓN DE
MARKOV
Para política (2): Si inventario = 0 se piden 3 unidades cada 3 días Matriz de
transición
PROCESOS DE DECISIÓN DE
MARKOV
a) Para las dos políticas, compare el promedio de días entre agotamientos sucesivos
del inventario.
Para política 1:
1
𝑡0 = = 3,33 𝑑í𝑎𝑠
0,3
1
𝑡1 = = 2,66 𝑑í𝑎𝑠
0,375
1
𝑡2 = = 4 𝑑í𝑎𝑠
0,25
1
𝑡0 = = 13 𝑑í𝑎𝑠
0,075
Para política 2:
1
𝑡0 = = 2,1 𝑑í𝑎𝑠
0,476
1
𝑡1 = = 3,4 𝑑í𝑎𝑠
0,294
1
𝑡2 = = 5,7 𝑑í𝑎𝑠
0,176
1
𝑡3 = = 18,9 𝑑í𝑎𝑠
0,053