Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Facultad de Matemáticas
Aproximaciones a procesos
de decisión de Markov, bajo
el criterio costo descontado
TESIS
que para obtener el grado de
Maestro
en
Matemáticas
P R E S E N T A:
Lizbeth Yolanda Garrido Ramı́rez
DIRECTOR DE TESIS:
Dr. Jorge Álvarez Mena
CODIRECTOR DE TESIS:
Dr. Oscar Vega Amaya
Introducción IV
3. Un sistema de inventario 31
3.1. Aproximaciones al modelo de inventario . . . . . . . . . . . . . . . . 31
3.2. Cotas para el modelo perturbado M f . . . . . . . . . . . . . . . . . . 34
3.3. Implementación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
Conclusiones 39
Apéndices 40
43
Bibliografı́a 47
iii
Introducción
Uno de los principales enfoques para abordar el problema del cálculo y aproxima-
ción de polı́ticas óptimas y de la función valor, como se muestra en [3], [6] y [8], es
el método de iteración de valores el cual resalta por la sencillez de su planteamien-
to. El método se reduce a calcular aproximaciones al punto fijo de un operador de
contracción, denominado operador de programación dinámica, mediante iteraciones
o composiciones sucesivas de este. Cada iteración del operador requiere de encontrar
el mı́nimo (o máximo) y el argmin (o argmax) de una función, para cada estado del
sistema. Hallar el mı́nimo y el argmin puede ser un problema complejo, y definitiva-
mente el método es inviable de implementarse computacionalmente en sistemas con
una cantidad infinita de estados.
Una manera de hacer frente al problema planteado es el siguiente: para un modelo
de control M con operador de programación dinámica T proponer un “operador
aproximador” Te de manera que cumpla las siguientes condiciones:
v
El enfoque anterior, pero sin la propiedad a), es abordado en los artı́culos [1] y
[12]. Ambos proponen al aproximador Te como la composición del operador de pro-
gramación dinámica T con un operador L, llamado promediador o de aproximación,
–el cual tiene la propiedad de no expansividad, lo que garantiza que el aproximador
LT , al igual que T , sea un operador de contracción– y determinan una cota de error
debido al uso del algoritmo de iteración de valores en M f, para aproximar la solución
del modelo original M .
En el artı́culo [13] se usa el método de [1] y [12], pero introducen condiciones
adicionales sobre los operadores promediadores de tal manera que el aproximador LT
sea un operador de programación dinámica para un modelo de control de Markov, es
decir, su enfoque satisface las propiedades a) y b).
El objetivo de este trabajo es desarrollar de forma detallada y autocontenida los
principales resultados de [13]; A Perturbation Approach for a Class of Discounted
Approximate Value Iteration Algorithms de Óscar Vega Amaya y Joaquı́n López
Borbón; sobre la aproximación de valores y polı́ticas óptimas mediante método de
iteración de valores aproximado, satisfaciendo las condiciones a) y b).
Los procesos de control tienen importante reconocimiento por sus aplicaciones
en diversas áreas como economı́a, ecologı́a e ingenierı́a en comunicaciones. En [8] se
presentan ejemplos de aplicaciones de los procesos de decisión de Markov como son
en el control de inventarios y problemas de paro óptimo.
La teorı́a de los Procesos de Decisión de Markov tiene sus orı́genes en los problemas
del Cálculo de Variaciones del siglo XVII. Cayley en su artı́culo [5] de 1875 propuso
un interesante problema que contiene muchos de los ingredientes clave de los Procesos
de Decisión. El enfoque matemático moderno para Procesos de Decisión inició con
el trabajo de Abraham Wald (1902 - 1950) sobre problemas estadı́sticos durante la
Segunda Guerra Mundial y publicado en 1947. Sin embargo la teorı́a cobró vida
hasta la publicación del libro de Bellman, Dynamic Programming [2], y el libro de
Howard, Dynamic Programing and Markov Processes [8], publicados en 1957 y 1960,
respectivamente.
El contenido del escrito se encuentra organizado de la siguiente manera: en el
Capı́tulo 1 se establecen las Hipótesis de optimalidad sobre los elementos del modelo
de control que garantizan la existencia de polı́ticas óptimas deterministas y estacio-
narias. Además se presentan resultados sobre convergencia del algoritmo de iteración
de valores y polı́ticas, y se presenta una cota para error de aproximación.
En el Capı́tulo 2 se introducen los operadores de aproximación y el modelo de
control asociado a los operadores; se presentan resultados sobre existencia polı́ticas
óptimas y la convergencia del algoritmo de iteración de valores para el modelo apro-
ximado. Se presenta una cota para error que se incurre al usar la polı́tica obtenida
por el algoritmo de iteración de valores aproximado en el modelo original.
El Capı́tulo 3 tiene como propósito implementar el algoritmo de Iteración de
Valores aproximado en lenguaje Pythom para un modelo de control de un ejemplo
de sistema de inventario.
Capı́tulo 1
1
CAPÍTULO 1 2
Modelo de control
El Modelo de control M para el proceso de toma de decisiones a tiempo discreto
es una quı́ntupla:
(X, A, {A(x)|x ∈ X}, Q, C), (1.1)
donde:
Polı́ticas
Una historia es la colección de estados y acciones admisibles de una realización
del proceso de decisión. Con los elementos del modelo la historia del proceso de toma
de decisiones se puede describir como sigue: al inicio del proceso, periodo t = 0, el
sistema se encuentra en un estado x0 , la historia hasta este periodo es h0 = (x0 ). El
controlador, con base en el estado x0 decide un acción a0 ∈ A(x0 ), y se incurre en un
costo C(x0 , a0 ). El sistema transita a un nuevo estado x1 de acuerdo a la distribución
de probabilidad Q(·|x0 , a0 ). Entonces la historia al periodo 1 es h1 = (x0 , a0 , x1 ). De
nuevo el controlador con base en h1 ejecuta una acción a1 ∈ A(x1 ), y se incurre en un
costo C(x1 , a1 ) y la situación se repite. Si ht = (x0 , a0 , ..., xt−1 , at−1 , xt ) es la historia al
periodo t y el controlador con base en ht ejecuta la acción at , entonces el sistema tran-
sita al estado xt+1 , y la historia hasta el periodo t + 1 es ht+1 = (x0 , a0 , ..., xt , at , xt+1 ).
CAPÍTULO 1 3
Las polı́ticas se clasifican de acuerdo al tipo de kernel de los que esta compuesta,
y estos se agrupan de acuerdo a la parte que usan de la historia.
Una polı́tica φ = {π0 , π1 , π2 , ...} es de Markov si los kerneles πt sólo dependen del
último estado xt de la historia ht , es decir, πt (·|ht ) = πt (·|xt ) para cada t ∈ {0, 1, ..., }.
Problema de control
Se considera una realización del proceso de decisión ((x0 , a0 ), (x1 , a1 ), ..., (xt , at ), ...)
en la que el controlador ha ejecutado la polı́tica π y la correspondiente sucesión de
costos por etapa (C(x0 , a0 ), C(x1 , a1 ), ..., C(xt , at ), ...). Una manera intuitiva de medir
el desempeño de la polı́tica π para dicha realización es, por ejemplo, con el criterio
costo descontado:
X∞
αt C(xt , at ), para α ∈ (0, 1). (1.2)
t=0
Sean Ω = ×∞ ∞
t=0 Ωt y F = ⊗t=0 Ft . Con los elementos anteriores el Teorema de
Iunesco Tulcea asegura la existencia de una medida de probabilidad Pπv , sobre (Ω, F)
el espacio de trayectorias o el espacio canónico, tal que para cada t ∈ {0, 1, 2, 3, ...}
Pt (dx0 , da0 , · · · , dxt , dat ) = ν(dx0 )π0 (da0 |x0 )Q(dx1 |x0 , a0 )π1 (da1 |x0 , a0 , x1 )
(1.8)
· · · Q(dxt |xt−1 , at−1 )πt (dat |ht−1 )
Pπν (dx0 , da0 , dx1 , da1 , · · · ) = ν(dx0 )π0 (da0 |x0 )Q(dx1 |x0 , a0 )π1 (da1 |x0 , a0 , x1 ) · · ·
ν({x}) = 1 se dice que el estado inicial del proceso es x, entonces se escribe Pπx en
lugar de Pπν . La esperanza con respecto a la medida de probabilidad Pπν se denota
mediante Eπν , o Eπx para Pπx .
El criterio para medir el desempeño de las polı́ticas que se utiliza en este trabajo,
se denomina costo esperado descontado con horizonte infinito y se define como sigue:
para cada polı́tica π y estado inicial x,
" ∞ #
X
V (π, x) = Eπx αn C(xn , an ) , (1.9)
n=0
donde α es un número fijo en el intervalo (0, 1), llamado factor de descuento. Para
cada estado x, se denota por V ∗ (x) a la función valor, es decir,
V ∗ (x) = ı́nf V (π, x). (1.10)
π∈Π
Una de las hipótesis en los elementos del Modelo de control es que tanto la ley
de transición como el costo por etapa son funciones Borel medibles sobre K. Dicha
hipótesis se requiere en la construcción del espacio de probabilidad y en la definición
del desempeño.
Observación 2.
a) Para una polı́tica de Markov π, el espacio canónico se puede establecer única-
mente con el espacio de estados, es decir, Ω = ×∞ ∞
t=1 X y F = ⊗t=1 B(X). Asi el
proceso de estados (xt ) es un proceso de Markov sobre (Ω, F) y
Pπν (dx0 , dx1 , dx2 , · · · ) = ν(dx0 )Q(dx1 |x0 , π0 )Q(dx2 |x1 , π1 )Q(dx3 |x2 , π2 ) · · · .
donde Z
Q(·|xt , πt ) = Q(·|xt , at )πt (dat |xt ) (1.12)
A
para cada t ∈ {0, 1, 2, 3, ...}.
b) Para una polı́tica π = f ∞ de Markov estacionaria determinista
∞
Pfν (dx0 , dx1 , dx2 , · · · ) = ν(dx0 )Q(dx1 |x0 , f (x0 ))Q(dx2 |x1 , f (x1 ))
Q(dx3 |x2 , f (x2 )) · · · .
CAPÍTULO 1 7
donde α es un número fijo en el intervalo (0, 1). Para cada estado x, se denota por
∗
V (x) a la función valor, es decir,
∗
V (x) = ı́nf V (a, x). (1.15)
a∈A
CAPÍTULO 1 8
El problema de control consiste en encontrar una acción a∗ ∈ A tal que para cada
x∈X
∗
V (x) = V (a∗ , x).
Hipótesis 1.
b) El costo por etapa es acotado y para cada estado, es continuo sobre el conjunto
de acciones admisibles.
Hipótesis 2.
CAPÍTULO 1 9
y u∗ : X 7→ R mediante
" Z #
u∗ (x) := ı́nf C(x, a) + v(y)Q(dy|x, a) = ı́nf u(x, a). (1.18)
A(x) X A(x)
y u∗ es medible.
para cada x ∈ X.
CAPÍTULO 1 11
Lema 1.
Lema 2.
lı́m k T n v − u∗ k= 0. (1.23)
n7→∞
Lema 3.
a) por Lema 2, vn → u∗ .
c) Dado que V ∗ ∈ Mb (X), por el inciso a) del Lema 1 existe una polı́tica de-
terminista estacionaria f ∞ , tal que V ∗ = Tf V ∗ . Del inciso a) del Lema 3,
Vf ∞ = Tf Vf ∞ , por lo tanto V ∗ = Vf ∞ , es decir, la polı́tica f ∞ es óptima. Lo
anterior dice que existe una polı́tica f ∞ determinista estacionaria óptima. Por
otro lado, si f ∞ es una polı́tica determinista estacionaria óptima, Vf ∞ = V ∗ y
del inciso a) del Lema 3, Vf ∞ = Tf Vf ∞ , entonces V ∗ = Tf V ∗ .
El método ası́ descrito tiene la desventaja de requerir la función valor. Esta difi-
cultad plantea la siguiente pregunta: ¿cómo estimar la distancia entre V ∗ y Vfk∞ , sin
conocer explı́citamente a la función valor V ∗ ? El siguiente resultado da respuesta a
esta pregunta.
Lema 4. Para cada n ∈ N, sea vn := T vn−1 y fn∞ una polı́tica vn -glotona, entonces
α
k V ∗ − vn k≤ k vn − vn−1 k, (1.25)
1−α
y
2α
k V ∗ − Vfn∞ k≤ k vn − vn−1 k . (1.26)
1−α
Demostración: Ya que V ∗ es únto fijo de T , y T es un operador de contracción con
módulo α se tiene lo siguiente
k V ∗ − vn k ≤k V ∗ − T vn k + k T vn − vn k=k T V ∗ − T vn k + k T vn − T vn−1 k
= α k V ∗ − vn k +α k vn − vn−1 k,
por lo tanto
α
k V ∗ − vn k≤ k vn − vn−1 k . (1.27)
1−α
Para demostrar la segunda desigualdad, primero observe que
k V ∗ − Vfn∞ k≤k V ∗ − vn k + k vn − Vfn∞ k, (1.28)
y de (1.27)
α
k V ∗ − Vfn∞ k≤ k vn − vn−1 k + k vn − Vfn∞ k . (1.29)
1−α
Por otro lado, ya que fn∞ es vn -glotona, Tf vn = T vn , entonces
k vn − Vfn∞ k ≤k vn − T vn k + k T vn − Vfn∞ k
=k T vn−1 − T vn k + k Tfn∞ vn − Tfn∞ Vfn∞ k
y dado que T y Tfn∞ son de contracción con módulo α
k T vn−1 − T vn k + k Tfn∞ vn − Tfn∞ Vfn∞ k≤ α k vn−1 − vn k +α k vn − Vfn∞ k,
por lo tanto
α
k vn − Vfn∞ k≤ k vn − vn−1 k . (1.30)
1−α
Ası́ de (1.29) y (1.30)
2α
k V ∗ − Vfn∞ k≤ k vn − vn−1 k . (1.31)
1−α
CAPÍTULO 1 14
1. Especifique > 0.
2. Sea v0 = 0 y n = 1.
k vn − vn−1 k< ,
Operadores de aproximación y
modelos perturbados
a) L(IS ) = IS ;
b) L es un operador lineal;
15
CAPÍTULO 2 16
d) Si {vn } es una sucesión en Mb (S) tal que para cada s ∈ S vn (s) ↓ 0, entonces
Lvn (s) ↓ 0.
k Lu − Lv k≤k u − v k .
k Lu − Lv k≤k L kk u − v k≤k u − v k .
Ejemplo 1. Sea S = [0, θ] con θ > 0, 0 = s0 < s1 < · · · < sN = θ una partición
de S, D0 = [s0 , s1 ] y Di = (si , si+1 ] para i = 1, 2, ..., N − 1, para cada v ∈ Mb (X) se
define
−1
N
" #
X si+1 − s s − si
Lv(s) := v(si ) + v(si+1 ) IDi (s). (2.1)
i=0
si+1 − si si+1 − si
para cada s ∈ S. L es un operador promediador. En efecto, L : M (X) 7→ M (X) es
lineal acotado y positivo, por lo tanto monótono, además
−1
N
" #
X si+1 − s s − si
L(IS ) = IS (si ) + IS (si+1 ) IDi (s) = IS ,
i=0
si+1 − si si+1 − si
y si {vn } es una sucesión en Mb (S) tal que para cada s ∈ S, vn (s) ↓ 0, entonces
−1
N
" #
X si+1 − s s − si
lı́m Lvn (s) = lı́m vn (si ) + lı́m vn (si+1 ) IDi (s) (2.2)
n7→∞
i=0
si+1 − si n7→∞ si+1 − si n7→∞
= 0. (2.3)
para cada s ∈ S.
c) Si L(Cb (S)) ⊂ Cb (S) entonces el kernel es débil continuo.
Demostración:
a) Para cada D ∈ B(S), ID es una función medible acotada no negativa por lo que
L(D|·) = LID (·) ≥ 0 ya que L es positivo. Por otro lado I∅ = 0 y como L es
lineal,
S∞ L(∅|s) = L(0) = 0. Sean {Ui }∞
i=1 subconjuntos ajenos
Pn de Borel de S y
U = i=1 Ui . Observe que para cada s ∈ S, 0 ≤ IU (s) − i=1 IUi (s) ↓ 0, cuando
n −→ ∞, entonces:
n
X n
X
0 = lı́m L(IU (s) − IUi (s)) = LIU (s) − lı́m LIUi (s)
n7→∞ n7→∞
i=1 i=1
∞
X
= LIU (s) − LIUi (s)
i=1
CAPÍTULO 2 18
donde:
e :X ×K
4) Q e 7→ R se define de la siguiente manera:
Z
Q(B|x,
e f ) := LQ(B|x, f (x)) = Q(B|y, f (y))L(dy|x),
X
Observación 6.
y para cada x ∈ X, Ve ∗ (x) = ı́nf Ve (f, x) es la función valor α-descontada. Por lo que
f ∈F
∗ f si Ve ∗ (x) = Ve (f ∗ , x) para
una polı́tica f es óptima α-descontada para el Modelo M
cada x ∈ X.
y entonces " #
Z
Teu(x) = ı́nf C(x,
e a) + α u(y)Q(dy|x,
e a) . (2.6)
a∈A(x) X
Entonces
Z
LT u(x) ≤ ı́nf {C(x,
e f) + α u(y)Q(dy|x,
e f )|f ∈ F}
f ∈F
= Teu(x).
Dado que el modelo M satisface la Hipótesis 1, por la parte a) del Lema 1, para
cada u ∈ Mb (X) existe una polı́tica fu determinista estacionaria u−glotona para el
operador T , es decir, existe polı́tica fu tal que
Z
T u(x) = C(x, fu (x)) + α u(y)Q(dy|x, fu (x)), (2.7)
≥ Teu(x).
= Tef u(x).
Por lo tanto LTf = Tef . Dado que para cada u ∈ Mb (X), Tf u ∈ Mb (X), por la parte
b) del Lema 6 LTf u ∈ Mb (X), por lo tanto Tef ∈ Mb (X). La demostración de la
segunda parte es análoga.
f si y sólo si Ve ∗ = Tef∗ Ve ∗ .
Corolario 2. Una polı́tica f∗ es óptima para el Modelo M
Para demostrar el Teorema 5 se utilizarán las siguientes definiciones y los Lemas
8, 9 y 10 presentados en el Apéndice A.
Definición 6. Sea u ∈ Mb (X). Un selector fe, es u−glotona para el operador Te, si
satisface Z
Teu(x) = C(x,
e fe) + α u(y)Q(dy|x,
e fe),
X
para cada x ∈ X.
Definición 7. Una sucesión {e vn } se llama sucesión de iteración de valores aproxi-
mada si ve0 ∈ 0, y para cada n ≥ 1, ven = Teven−1 .
Observación 8. Para una sucesión de iteración de valores aproximada {e
vn }, se tiene
que:
a) por Lema 2, vn → u∗ .
b Para cada n, ven (x) ≤ Ven (f, x) ≤ Ve (f, x) para cada f ∈ F y cada x ∈ X, por lo
tanto, ven (x) ≤ Ve ∗ (x) para cada x ∈ X.
Demostración del Teorema 5
a) Por el inciso a) del Lema 9, Te es un operador de contracción con único punto
fijo u∗ , entonces sólo basta verificar que u∗ = Ve ∗ . Dado que Teu∗ = u∗ , también
por el inciso a) del Lema 9, se tiene que u∗ ≥ Ve ∗ . La Observacion 8 b), implica
que u∗ ≤ Ve ∗ . Por lo tanto u∗ = Ve ∗ .
c) Por Lema 8 existe f , tal que Ve ∗ = Tef Ve ∗ . Del Lema 10, Vef = Tef Vef , por lo tanto
Ve ∗ = Vef ∞ , es decir, la polı́tica f es óptima. Lo anterior dice que existe una
polı́tica f determinista estacionaria óptima. Por otro lado, si f es una polı́tica
óptima, Vef = Ve ∗ y del Lema 8, Vef = Tef Vef , entonces Ve ∗ = Tef Ve ∗ .
Para este modelo también se tienen los resultados sobre aproximación a polı́ticas
óptimas.
Teorema 6. Sea {e vn } la sucesión de iteración de valores aproximada, y {fn } la
sucesión de polı́ticas ven −glotona con selector arbitrario f0 , entonces
lı́m k Ve ∗ − Vefn k= 0
n7→∞
CAPÍTULO 2 24
Teorema 7. Para cada n ∈ N sea ven = Teven−1 y fn una polı́tica ven −glotona, entonces
α
k Ve ∗ − ven k≤ k ven − ven−1 k,
1−α
y
2α
k Ve ∗ − Vefn k≤ k ven − ven−1 k
1−α
k V ∗ − Ve ∗ k =k V ∗ − LV ∗ + LV ∗ − Ve ∗ k≤k V ∗ − LV ∗ k + k LV ∗ − Ve ∗ k
=k V ∗ − LV ∗ k + k LV ∗ − LVb ∗ k≤k V ∗ − LV ∗ k + k V ∗ − Vb ∗ k,
k V ∗ − Ve ∗ k≤k V ∗ − LV ∗ k +α k V ∗ − Ve ∗ k .
En lo que sigue se establece la notación utilizada para plantear los resultados sobre
cotas de aproximación en términos de la norma en variación total.
Sea F
e0 la subclase de polı́ticas estacionarias que contienen a las polı́ticas óptimas
estacionarias para el modelo M y el modelo perturbado M f, y las polı́ticas Ven -glotona.
Se define
e0 ) := sup{k Qf (·|x) − Q
δQ (F ef (·|x) kT V : x ∈ X, f ∈ F
e0 },
e0 ) := sup{k Cf (·|x) − C
δC (F ef (·|x) k: f ∈ Fe0 }.
C
ef (x) = C(x,
e f) y Q
ef (·|x) = Q(·|x,
e f)
a) Para cada f ∈ F
1 ef k + αk sup k Qf (·|x) − Q
k Vf − Vef k≤ k Cf − C ef (·|x) kT V ,
1−α (1 − α)2 x∈X
1 e0 ) + αk δQ (F
b) k V ∗ − Ve ∗ k≤ δC (F e0 ),
1−α (1 − α)2
c) Si f ∞ es una polı́tica ven -glotona, entonces
2α 2 e0 ) + 2αk δQ (F
k V ∗ − Vf ∞ k≤ k ven − ven−1 k + δC ( F e0 ) (2.15)
1−α 1−α (1 − α)2
Por otro lado, suponga que L : Cb (X) 7→ Cb (X), si el modelo de control M satisface
la Hipótesis 2, entonces se cumple a),b) y c).
Demostración:
CAPÍTULO 2 27
a) Por el inciso a) del Lema 10, para cada selector f , Vef = Tef Vef , a su vez por el
inciso a) del Lema 3, Vf = Tf Vf , entonces:
k Vf − Vef k =k Tf − Tef k=k Cf + αQf Vf − C ef Vef k
ef + αQ
=k Cf − Cef + α(Qf Vf − Qef Vef ) k≤k Cf − C ef k +α k Qf Vf − Q
ef Vef k
=k Cf − Cef k +α k Qf Vf − Qf Vef + Qf Vef − Q ef Vef k
≤k Cf − C
ef k +α k Qf Vf − Qf Vef k +α k Qf Vef − Q
ef Vef k
(2.16)
Observe que k Qf Vf − Qf Vef k= supx∈X | Qf Vf (x) − Qf Vef (x) |, luego para cada
x ∈ X se tiene que
Z Z
| Qf Vf (x) − Qf Vf (x) | = |
e Vf (y)Qf (dy|x) − Vef (y)Qf (dy|x)|
Z X X
por lo tanto
k Qf Vef − Q
ef Vef k≤k Vef k sup k Qf (·|x) − Q
ef (·|x) kT V . (2.18)
x∈X
Dado que C e es acotado, es decir, existe k tal que para todo (x, f ) ∈ K, entonces
k k
Vef ≤ para cada f , ası́ k Vef k≤ para cada f . Por lo tanto
1−α 1−α
1 ef k + αk sup k Qf (·|x) − Q
k Vf − Vef k≤ k Cf − C ef (·|x) kT V
1−α (1 − α)2 x∈X
CAPÍTULO 2 28
1 ef k + αk sup k Qf (·|x) − Q
k Vf − Vef k≤ k Cf − C ef (·|x) kT V
1−α (1 − α)2 x∈X
Ası́
1 e0 ) + αk δQ (F
sup k Vf − Vef k≤ δC (F e0 ).
f ∈F
e0 1−α (1 − α)2
1 e0 ) + αk δQ (F
k Vf − Vef k≤ δC (F e0 ),
1−α (1 − α)2
por lo que
1 k e0 )+Vef (x) ≤ Vf (x) ≤ Vef (x)+ 1 δC (F k
δC (F
e0 )+
2
δQ (F e0 )+ δQ (F
e0 ),
1−α (1 − α) 1−α (1 − α)2
por lo tanto
1 e0 ) + αk δQ (F
k V ∗ − Ve ∗ k≤ δC (F e0 ).
1−α (1 − α)2
k V ∗ −Vf k=k V ∗ −Ve ∗ +Ve ∗ −Vef +Vef −Vf k≤k V ∗ −Ve ∗ k + k Ve ∗ −Vef k + k Vef −Vf k .
CAPÍTULO 2 29
Por el inciso a)
1 ef k + αk sup k Qf − Q
k Vef − Vf k≤ k Cf − C ef kT V ,
1−α (1 − α)2 x∈X
1 e0 ) + αk δQ (F
k V ∗ − Ve ∗ k≤ δC (F e0 ). (2.20)
1−α (1 − α)2
∗ 2α 1 αk
k V − Vf k≤ k ven − ven−1 k +2 δC ( F 0 ) +
e δQ (F0 )
e
1−α 1−α (1 − α)2
CAPÍTULO 2 30
Capı́tulo 3
Un sistema de inventario
Este capı́tulo muestra algunos resultados numéricos para ilustrar el enfoque desa-
rrollado en el capı́tulo anterior, para lo cual se toma un problema de control de
inventario.
31
CAPÍTULO 3 32
xt+1 = max(0, xn + an − wn ).
* Kernel de transición:
para cada B ∈ B(X) y cada (x, a) ∈ K. Donde Eω0 es la esperanza con respecto
a la función de distribución de w0 . Además w0 cuenta con esperanza ω finita.
* Costos:
El costo por adquisición es c · a.
El costo de almacenamiento por periodo es h · (x + a).
El costo esperado por déficit en cada periodo es p · E(max(0, w − x − a)) Ası́ la
función de costo por etapa es
Observación 10.
d) Para v ∈ Mb (X),
Z
v(y)Q(dy|x, a) = Eω0 (v(max(0, x + a − ω0 ))), (3.2)
X
por lo tanto
(
Eω0 (v(max(0, S − ω0 ))) si x ∈ [0, S]
QfS v(x) = (3.4)
Eω0 (v(max(0, x − ω0 ))) si x ∈ (S, θ],
Luego Z Z
Q
ef v(x) =
S
v(y)Q(dy|z, fS (z))L(dz|x) (3.5)
X X
por lo tanto
(
ef v(x) = E (v(max(0, S − ω0 ))) si x ∈ [0, S]
Q S
R ω0 (3.6)
E (v(max(0, z − ω0 )))L(z|x)
X ω0
si x ∈ (S, θ],
C(x, fs ) = p · Ew0 (max(0, w0 − x − (fS (x)))) + h · (x + (fS (x))) + c · (fS (x)), (3.7)
por lo tanto
(
p · Ew0 (max(0, w0 − S)) + h · S + c · (S − x) si x ∈ [0, S]
C(x, fs ) = (3.8)
p · Ew0 (max(0, w0 − x)) + h · x si x ∈ (S, θ].
Sea Ms = maxi∈{0,1,...,N −1} (si+1 − si ). Después de algunos cálculos se tiene que para
cada v ∈ Cb (X) con k v k≤ 1
ef v(x) ≤ (2lθ + 4k 0 )· Ms ,
QfS v(x) − Q (3.10)
S
por lo tanto
e0 ) ≤ (2lθ + 4k 0 )· Ms .
δQ ( F (3.12)
Por otro lado
CfS (x) − C
ef (x) ≤ max(h + c − p + p, h − p + 2p + c)· Ms
S
(3.13)
CAPÍTULO 3 36
k C fS − C
ef k≤ max(h + c − p + p, h − p + 2p + c)· Ms
S
(3.14)
Por lo tanto
e0 ) = sup k Cf − C
δC (F ef k≤ max(h + c − p + p, h − p + 2p + c)· Ms . (3.15)
S S
f ∈F
e0
1 αk
k V ∗ − Ve ∗ k≤ max(h + c − p + p, h − p + 2p + c)· Ms + (2lθ + 4k 0 )· Ms ,
1−α (1 − α)2
(3.16)
y si f ∞ es una polı́tica ven -glotona, entonces
2α 2
k V ∗ − Vf ∞ k ≤ k ven − ven−1 k + · max(h + c − p + p, h − p + 2p + c)· Ms
1−α 1−α
2αk
+ 2
· (2lθ + 4k 0 )· Ms .
(1 − α)
3.3. Implementación
En esta sección se implementa el algoritmo de iteración de valores aproximado en
un sistema de inventario con los siguientes datos:
α = 0.6
1
y valor esperado Eω0 (ω0 ) = .
λ
Observe también que ρ es acotada por k 0 = λ = 0.1 y es Lipschitz con módulo
l = λ2 = 0.01.
c) k V ∗ − Ve ∗ k≤ (94.3)· Ms
Para el modelo Mf las cotas dependen del refinamiento del espacio de estados, lo
cual permite controlar la aproximación.
En siguiente imagen se pueden observar las funciones iteradas evaluadas ven con
n = 1, 2, ..., 21.
CAPÍTULO 3 38
Con un ejemplo se muestra que mediante una elección adecuada del operador
promediador es posible reducir la complejidad numérica con respecto a la variable
de estado, sin embargo no se reduce la complejidad del problema sobre el espacio
de acciones, por lo que serı́a de interés formular un esquema de aproximación para
reducir la complejidad en ambas variables.
Se puede probar que la clase de operadores que tengan las propiedades desea-
das, no puede extenderse más allá de los promediadores, por lo cual serı́a interesante
estudiar un enfoque más general por ejemplo aproximar directamente al modelo de
control mediante modelos de control más sencillos donde sea posible implementar
métodos de iteración de polı́ticas.
39
APÉNDICE A 40
Apéndices
41
Apéndice A
Lema 8.
a) Si el modelo de control M satisface la Hipótesis 1, entonces para cada v ∈
Mb (X), existe un selector fe, v−glotona para el operador Te.
b) Suponga que L(Cb (X)) ⊂ Cb (X). Si modelo de control M satisface la Hipóte-
sis 2 entonces para cada v ∈ Cb (X), existe un selector fe, v−glotona para el
operador Te.
Demostración:
a) Sea u ∈ Mb (X), ya que el modelo M satisface la Hipótesis 1, por la parte a)
del Lema 1 existe una polı́tica f ∈ F, u−glotona para el operador T , esto es,
Z
T u = C(x, f (x)) + α u(y)Q(dy|x, f (x)),
X
43
APÉNDICE A 44
Lema 9.
a) Si el modelo de control M satisface la Hipótesis 1, entonces Te : Mb (X) 7→
Mb (X) es un operador de contracción con módulo α. Existe una única u∗ ∈
Mb (X) tal que Teu∗ = u∗ , y para cualquier función v ∈ Mb (X)
= C(x, f ) + α (C(y, f ) + α
e e u(z)Q(dz|y,
e f ))Q(dy|x,
e f)
ZX X Z Z
2
= C(x, f ) + α
e C(y, f )Q(dy|x, f ) + α
e e u(z)Q(dz|y,
e f )Q(dy|x,
e f)
ZX X
Z ZX
≥ C(x,
e f) + α C(y,
e f )Q(dy|x,
e f ) + α2 Teu(z)Q(dz|y,
e f )Q(dy|x,
e f ).
X X X
APÉNDICE A 45
Se concluye que
n−1
X
u(x) ≥ Efx αt C(x
e t , f ) + αn Efx (u(xn )), (22)
t=0
para todo x ∈ X.
b) La demostración de la parte b) es análoga.
Lema 10.
a) Si el modelo de control M satisface la Hipótesis 1, entonces para cada f ∈ F,
Tef : Mb (X) 7→ Mb (X) es un operador de contracción con módulo α, Vef es
el único punto fijo de Tef en Mb (X), y para cualquier función v ∈ Mb (X) se
cumple
lı́m k Tefn v − Vef k= 0. (24)
n7→∞
k Tef u− Tef v k=k LTf u−LTf v k=k L(Tf u−Tf v) k≤k Tf u−Tf v k≤ α k u−v k .
donde
∞
X X∞
Efx α t−1 f
C(xt , f ) = Ex Ex
e f t−1 e
α C(xt , f ) h1
t=1 t=1
∞
X
= Efx Efx1 αt−1 C(x
e t, f )
t=1
Z
= Efx Vf (x1 ) =
e Vef (y)Q(dy|x,
e f ).
X
Por lo tanto Z
Vef (x) = C(x,
e f) + Vef (y)Q(dy|x,
e f ),
X
es decir, Vef es punto fijo de Tef , y dado que Tef es de contracción el punto fijo
es único.
[1] Almudevar A., Approximate fixed point iteration with an application to infinite
horizon Markov decision processes. SIAM Journal on Control and Optimization
46:541-561, 2008.
[3] Bertsekas D.P., Dynamic Programming and Optimal Control, 3rd Edition, Volu-
me I, Athena Scientific, Belmont, Massachusetts.
[4] Bertsekas, D.P., Shreve, S.E.,Stochastic Optimal Control: The Discrete Time
Case, Athena Scientific, Belmont , Massachusetts, 1996.
[5] Cayley A., Mathematical questions with their solutions, No. 4528, Education
Times, 23, 18, (1875).
[7] Hernández-Lerma O., Lasserre J.B., Discrete-time Markov control processes. Ba-
sic optimality criteria, Springer-Verlag, NY, 1996.
[8] Howard, R.A., Dynamic Programming and Markov Processes, Wiley, New York,
1960.
[10] Puterman M. L., Markov Decision Processes: Discrete Stochastic Dynamic Pro-
gramming, Hoboken, New Jersey, USA, Wiley, 1994.
47
BIBLIOGRAFÍA 48
[12] Stachurski J., Continuous state dynamic programming via nonexpansive appro-
ximation, Computational Economics 31, 2008, 141-160.
[14] Vega Amaya O., Montes de Oca R., Application of average dynamic program-
ming to inventory systems. Mathematical Methods of Operations Research,1998.