Documentos de Académico
Documentos de Profesional
Documentos de Cultura
MÁRKOVIANA
INTEGRANTES:
• Galvis Vargas Claudia
• Gamarra Jiménez Ana
• Rojas Gómez Deisy Liliana
• Martínez Madariaga Andrés
Función de recompensa
Utilidad de ganancia
PROCESO DE DECISIÓN DE MARKOV
a
Pi j
La incertidumbre se modela como la
probabilidad de llegar al estado j
dado que se encuentra en el estado i
y se hace la acción a.
EJEMPLO
POLÍTICA π
Las acciones se toman a través de una política
que es una función que le dice al agente dado
un estado que acción le conviene tomar, es
decir, que indica la acción que se debe ejecutar
dado un estado (o probabilidad)
Asociación entre cada estado y la acción que va
a realizar en el mismo
π(s)=a
POLÍTICA OPTIMA (π*)
Se le conoce como política optima a aquella que maximice la
recompensa o utilidad esperada para las posibles secuencias de
acciones que se puedan generar en cada estado.
π*(S) = a*
Política miope
Considerar una ventana de tiempo
Política de horizonte de infinito
RECOMPENSAS NEGATIVAS
Poco negativas (- Medianamente Muy negativas (-50)
0,005) negativas (-0,5) • No busca el
• Busca el objetivo • Busca el objetivo objetivo
• Poco riesgos • Asume riesgos • Busca salir lo mas
pronto posible
RECOMPENSAS NO NEGATIVAS
En cero
• Busca el objetivo
• No asume riesgo porque no
tiene penalidad
Positivas (+0,5)
• No busca el objetivo
• Mayor utilidad recorriendo el
entorno
POLITICAS ESTACIONARIAS
No converge
Recompensa actual es igual de importante que las recompensas futuras
1. En función de la recompensa
❑
U (S )=𝑹 ( 𝑺 )+γ ∗ 𝒎𝒂𝒙 ∑ ( 𝑷 ( 𝑺 ´ |𝑺 ,a ) ∗𝑼 (𝑺 ´) )
a∈A(s)𝒔 ′
2. En función de la acción
❑
U ( S )=𝒎𝒂𝒙 ∑ ¿¿
a∈A(s) 𝒔´
EQUIVALENCIA
Bellman – utilidad descontada
❑
( S )= 𝑹 ( 𝑺 )+ γ ∗ 𝒎𝒂𝒙 ∑ ( 𝑷 ( 𝑺 ´ | 𝑺 , a ) ∗ 𝑼 (𝑺 ´ ) )
U
𝒔′
a∈A(s)
Llegamos
al estado S’ ( =1)
U(s) = R (s) + * U(s’)
Ahora, evaluamos la utilidad s’
U ( S )= 𝑅 ( 𝑆 )+ γ ∗ ¿
a∈A(s)
Ejecutamos la acción optima para el estado s’
U ( S ) = 𝑅 ( 𝑆 )+ γ∗¿
Llegamos al nuevo estado s’’
^2 * U(s’’)
Equivalencia
Bellman – utilidad descontada
U(s) = R(S) +
Manejo de inventarios
Mantenimiento de equipos y carreteras
Control de sistemas de comunicaciones
Modelado de procesos biológicos
Planeación en robótica móvil
Construcción de mapas / localización
Control de procesos industriales
Control de aviones
PLANTEAMIENTO DEL PROBLEMA
Andrés estudiante del octavo semestre de ingeniería Agroindustrial, se
encuentra cursando las siguientes asignaturas investigación de
operaciones y operaciones agroindustriales III. Para estudiar dichas
asignaturas Andrés decide seguir las siguientes reglas:
Donde:
x=Día de estudio
x=0 = lunes inicio de semana (tiempo)
x=4 = viernes de la semana (tiempo)
P= probabilidad
Matriz de transición.
Matriz y el estado inicial
estado de salidad
inv.operaci operaciones
ones agroindustriales
estado de llegada
xo = O
inv.operacion p = (1/3) (1/2)
es (1/3) (1/2) , 1
operaciones
(2/3) (1/2)
agroindustrial
es III (2/3) (1/2)
SOLUCIÓN DEL EJERCICIO
x=Día de estudio
x ---------------0
x----------------4
4 xo = O =
p = (1/3) (1/2)
RESULTADOS
X4 * =
ANALISIS Y RECOMENDACIONES
Se puede deducir a partir de los resultados obtenidos del ejercicio que para el estudiante
Andrés dando respuesta a la incertidumbre de saber que materia estudiaría con mayor
intensidad el viernes; la probabilidad de que estudie investigaciones el viernes es del 40% y
de operaciones agroindustriales III es de 60%.
Dado a los resultados se puede finiquitar que Andrés estudiara con mas intensidad la
materia operaciones agroindustriales III que investigación de operaciones el día viernes de
esta misma semana.
RECOMENDACIONES:
Tener en cuenta las horas de estudio que debe tener la materia, ya que depende de los
créditos que tenga.
REFERENCIAS
• https://
es.slideshare.net/MairaDelgado/procesos-de-decisionmarkovia
nos
.
• https://ccc.inaoep.mx/~
esucar/Clases-mgp/pgm15-mdp-2012.pdf
• https://core.ac.uk/download/pdf/29405478.pdf
MUCHAS GRACIAS!!