Está en la página 1de 56

Universidad Veracruzana

Facultad de Matemáticas

Aproximaciones a procesos
de decisión de Markov, bajo
el criterio costo descontado

TESIS
que para obtener el grado de
Maestro
en
Matemáticas

P R E S E N T A:
Lizbeth Yolanda Garrido Ramı́rez
DIRECTOR DE TESIS:
Dr. Jorge Álvarez Mena

CODIRECTOR DE TESIS:
Dr. Oscar Vega Amaya

Diciembre del año 2016 Xalapa, Ver. México


Índice general

Introducción IV

1. Algoritmo de iteración de valores 1


1.1. Problema de control con costo descontado a horizonte infinito . . . . 1
1.2. Existencia y cálculo de polı́ticas óptimas . . . . . . . . . . . . . . . . 8

2. Operadores de aproximación y modelos perturbados 15


2.1. Operador promediador . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2. Modelo perturbado M f . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.1. Existencia y aproximación de polı́ticas óptimas . . . . . . . . 20
2.3. Cotas de aproximación . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3. Un sistema de inventario 31
3.1. Aproximaciones al modelo de inventario . . . . . . . . . . . . . . . . 31
3.2. Cotas para el modelo perturbado M f . . . . . . . . . . . . . . . . . . 34
3.3. Implementación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

Conclusiones 39

Apéndices 40

43

Bibliografı́a 47

iii
Introducción

Uno de los principales enfoques para abordar el problema del cálculo y aproxima-
ción de polı́ticas óptimas y de la función valor, como se muestra en [3], [6] y [8], es
el método de iteración de valores el cual resalta por la sencillez de su planteamien-
to. El método se reduce a calcular aproximaciones al punto fijo de un operador de
contracción, denominado operador de programación dinámica, mediante iteraciones
o composiciones sucesivas de este. Cada iteración del operador requiere de encontrar
el mı́nimo (o máximo) y el argmin (o argmax) de una función, para cada estado del
sistema. Hallar el mı́nimo y el argmin puede ser un problema complejo, y definitiva-
mente el método es inviable de implementarse computacionalmente en sistemas con
una cantidad infinita de estados.
Una manera de hacer frente al problema planteado es el siguiente: para un modelo
de control M con operador de programación dinámica T proponer un “operador
aproximador” Te de manera que cumpla las siguientes condiciones:

a) Te sea el operador de programación dinámica para algún modelo de control de


Markov M f, con el claro propósito de aprovechar los resultados clásicos sobre
iteración de valores en modelos de control de Markov.

b) Sea viable implementar el algoritmo de iteración de valores con Te.

Bajo las condiciones mencionadas arriba, se propone aproximar a la función valor


y a la polı́tica óptima del modelo original M mediante el algoritmo de iteración de
valores aplicado al modelo aproximado M f. Este proceso es conocido como método de
iteración de valores aproximado. El método que se ha descrito abr cuestionamientos
sobre el error de aproximación. Claramente se involucran dos errores, el error en que
se incurre al aproximar a T mediante Te, y el error inherente al método de iteración
de valores usado en M f. Sin embargo no se debe perder de vista que el error de
interés es el que resulta al usar la polı́tica π obtenida con el método de iteración de
polı́ticas para Mf en el modelo original M , es decir, es de interés la diferencia entre
el desempeño de π con respecto al modelo M y la función valor de M .

v
El enfoque anterior, pero sin la propiedad a), es abordado en los artı́culos [1] y
[12]. Ambos proponen al aproximador Te como la composición del operador de pro-
gramación dinámica T con un operador L, llamado promediador o de aproximación,
–el cual tiene la propiedad de no expansividad, lo que garantiza que el aproximador
LT , al igual que T , sea un operador de contracción– y determinan una cota de error
debido al uso del algoritmo de iteración de valores en M f, para aproximar la solución
del modelo original M .
En el artı́culo [13] se usa el método de [1] y [12], pero introducen condiciones
adicionales sobre los operadores promediadores de tal manera que el aproximador LT
sea un operador de programación dinámica para un modelo de control de Markov, es
decir, su enfoque satisface las propiedades a) y b).
El objetivo de este trabajo es desarrollar de forma detallada y autocontenida los
principales resultados de [13]; A Perturbation Approach for a Class of Discounted
Approximate Value Iteration Algorithms de Óscar Vega Amaya y Joaquı́n López
Borbón; sobre la aproximación de valores y polı́ticas óptimas mediante método de
iteración de valores aproximado, satisfaciendo las condiciones a) y b).
Los procesos de control tienen importante reconocimiento por sus aplicaciones
en diversas áreas como economı́a, ecologı́a e ingenierı́a en comunicaciones. En [8] se
presentan ejemplos de aplicaciones de los procesos de decisión de Markov como son
en el control de inventarios y problemas de paro óptimo.
La teorı́a de los Procesos de Decisión de Markov tiene sus orı́genes en los problemas
del Cálculo de Variaciones del siglo XVII. Cayley en su artı́culo [5] de 1875 propuso
un interesante problema que contiene muchos de los ingredientes clave de los Procesos
de Decisión. El enfoque matemático moderno para Procesos de Decisión inició con
el trabajo de Abraham Wald (1902 - 1950) sobre problemas estadı́sticos durante la
Segunda Guerra Mundial y publicado en 1947. Sin embargo la teorı́a cobró vida
hasta la publicación del libro de Bellman, Dynamic Programming [2], y el libro de
Howard, Dynamic Programing and Markov Processes [8], publicados en 1957 y 1960,
respectivamente.
El contenido del escrito se encuentra organizado de la siguiente manera: en el
Capı́tulo 1 se establecen las Hipótesis de optimalidad sobre los elementos del modelo
de control que garantizan la existencia de polı́ticas óptimas deterministas y estacio-
narias. Además se presentan resultados sobre convergencia del algoritmo de iteración
de valores y polı́ticas, y se presenta una cota para error de aproximación.
En el Capı́tulo 2 se introducen los operadores de aproximación y el modelo de
control asociado a los operadores; se presentan resultados sobre existencia polı́ticas
óptimas y la convergencia del algoritmo de iteración de valores para el modelo apro-
ximado. Se presenta una cota para error que se incurre al usar la polı́tica obtenida
por el algoritmo de iteración de valores aproximado en el modelo original.
El Capı́tulo 3 tiene como propósito implementar el algoritmo de Iteración de
Valores aproximado en lenguaje Pythom para un modelo de control de un ejemplo
de sistema de inventario.
Capı́tulo 1

Algoritmo de iteración de valores

En este capı́tulo se plantea el problema principal de la teorı́a de los procesos de


Decisión de Markov denominado problema de control y además se presentan algunos
resultados sobre la existencia y aproximación de soluciones a este problema. Los
resultados que aquı́ se presentan están contenidos en [3] y [7].

1.1. Problema de control con costo descontado a


horizonte infinito
El proceso de toma de decisiones evoluciona de la manera siguiente: al inicio el
sistema se encuentra en un estado, el controlador observa el estado, decide una acción
y la ejecuta. Debido al estado en que se encuentra el sistema y la acción ejecutada se
incurre en un costo y el sistema transita a un nuevo estado de acuerdo a una ley de
transición probabilista. Nuevamente el controlador, con base en la historia del proce-
so, toma una acción y se incurre un costo, el sistema evoluciona a un nuevo estado y
la situación anterior se repite. Una realización del proceso de toma de decisiones es
una sucesión de estados y acciones admisibles generada por la dinámica del proceso
y las decisiones del controlador. Cada realización genera una sucesión de costos por
periodo que son usados para evaluar la polı́tica implementada por el controlador.

Un espacio de Borel es un subconjunto de Borel de un espacio métrico completo


y separable. Para cada espacio de Borel Ω se denota por B(Ω) a la σ-álgebra de Borel
de subconjuntos de Ω. Para un conjunto B ∈ B(Ω) se denota por IB a la función
indicadora definida sobre Ω como IB (x) = 1 si x ∈ B y IB (x) = 0 si x ∈ Ω \ B.

1
CAPÍTULO 1 2

Modelo de control
El Modelo de control M para el proceso de toma de decisiones a tiempo discreto
es una quı́ntupla:
(X, A, {A(x)|x ∈ X}, Q, C), (1.1)
donde:

1) X es un espacio de Borel, llamado espacio de estados.

2) A es un espacio de Borel, llamado espacio de acciones.

3) Para cada x ∈ X, A(x) es un subconjunto de A y se denomina conjunto de


acciones admisibles cuando el sistema se encuentra en el estado x. El conjunto
K de parejas estado acción admisible está definido por:

K := {(x, a)|x ∈ X, a ∈ A(x)}.

4) Q es un kernel estocástico sobre X dado K, es decir, para cada B ∈ B(X),


Q(B|·) : K 7→ R es una función Borel medible sobre K, y para cada (x, a) ∈ K,
Q(·|x, a) : B(X) 7→ R es una medida de probabilidad sobre el espacio medible
(X, B(X)). En este contexto a Q se le llama ley de transición, ya que es utilizada
para determinar la dinámica del sistema.

5) C : K 7→ R es una función Borel medible no negativa, llamada función de costo


por etapa.

Polı́ticas
Una historia es la colección de estados y acciones admisibles de una realización
del proceso de decisión. Con los elementos del modelo la historia del proceso de toma
de decisiones se puede describir como sigue: al inicio del proceso, periodo t = 0, el
sistema se encuentra en un estado x0 , la historia hasta este periodo es h0 = (x0 ). El
controlador, con base en el estado x0 decide un acción a0 ∈ A(x0 ), y se incurre en un
costo C(x0 , a0 ). El sistema transita a un nuevo estado x1 de acuerdo a la distribución
de probabilidad Q(·|x0 , a0 ). Entonces la historia al periodo 1 es h1 = (x0 , a0 , x1 ). De
nuevo el controlador con base en h1 ejecuta una acción a1 ∈ A(x1 ), y se incurre en un
costo C(x1 , a1 ) y la situación se repite. Si ht = (x0 , a0 , ..., xt−1 , at−1 , xt ) es la historia al
periodo t y el controlador con base en ht ejecuta la acción at , entonces el sistema tran-
sita al estado xt+1 , y la historia hasta el periodo t + 1 es ht+1 = (x0 , a0 , ..., xt , at , xt+1 ).
CAPÍTULO 1 3

Para cada t ∈ {0, 1, ..., }, sea Ht el conjunto de posibles historias al tiempo t,


entonces H0 = X y para t ≥ 1, Ht = Kt × X, donde Kt se define inductivamente
como K1 = K y Ks = Ks−1 × K para s ≥ 2.

Una polı́tica es una sucesión φ = {π0 , π1 , π2 , ...} de kerneles estocásticos πt sobre


el conjunto de acciones A dado Ht , tales que π(A(xt )|ht ) = 1. Se denota por Π al
conjunto de todas las polı́ticas.

Las polı́ticas se clasifican de acuerdo al tipo de kernel de los que esta compuesta,
y estos se agrupan de acuerdo a la parte que usan de la historia.

Una polı́tica φ = {π0 , π1 , π2 , ...} es de Markov si los kerneles πt sólo dependen del
último estado xt de la historia ht , es decir, πt (·|ht ) = πt (·|xt ) para cada t ∈ {0, 1, ..., }.

Una polı́tica de Markov φ = {π0 , π1 , π2 , ...} es estacionaria si los kerneles es-


tocásticos {πt } no cambian con el periodo, es decir, πt (·|ht ) = π(·|xt ) para cada
t ∈ {0, 1, ...}. En este caso se escribe φ = {π, π, π, ...} o simplemente π.

Sea F el conjunto de los selectores medibles, es decir, funciones medibles f : X 7→ A


tal que para cada x ∈ X, f (x) ∈ A(x).

Una polı́tica de Markov es determinista si para cada t ∈ {0, 1, ..., }, πt (a|xt ) = 1


para algún a ∈ A(xt ), o bien, si existe un selector ft ∈ F, tal que πt (·|xt ) = I{ft (xt )} (·)
con ft (xt ) ∈ A(xt ).

Una polı́tica de Markov estacionaria φ = {π, π, π, ...} es determinista si para cada


x ∈ X, π(a|x) = 1 para algún a ∈ A(x), o bien, si existe un selector f ∈ F, tal que
π(a|x) = I{a} (f (x)) con f (x) ∈ A(x). Si φ es una polı́tica de Markov estacionaria
determinista y está definida por un selector f , entonces se escribe φ = f ∞ o solo f .
En adelante cuando se hace referencia a una polı́tica determinista estacionaria f ∞ ,
se entenderá que f es un selector que define a la polı́tica.

Un caso particular de las polı́ticas deterministas estacionarias f ∞ es cuando el


selector es una función constante, es decir, f (x) = a para cada x ∈ X cuando el
modelo admite este tipo de polı́ticas. En este caso se denotará la polı́tica determinista
constante como f ∞ = a.
CAPÍTULO 1 4

Problema de control
Se considera una realización del proceso de decisión ((x0 , a0 ), (x1 , a1 ), ..., (xt , at ), ...)
en la que el controlador ha ejecutado la polı́tica π y la correspondiente sucesión de
costos por etapa (C(x0 , a0 ), C(x1 , a1 ), ..., C(xt , at ), ...). Una manera intuitiva de medir
el desempeño de la polı́tica π para dicha realización es, por ejemplo, con el criterio
costo descontado:
X∞
αt C(xt , at ), para α ∈ (0, 1). (1.2)
t=0

Medir el desempeño de una polı́tica a partir de realizaciones no es viable, ya que,


debido a la dinámica aleatoria del proceso, es posible obtener realizaciones diferentes
que arrojan valores distintos para el desempeño de la polı́tica. Se requiere definir el
desempeño de una polı́tica de tal manera que no cambie con cada realización. Una
manera de abordar el problema anterior es construir un espacio de probabilidad que
sea consistente con la dinámica del proceso de decisión, es decir, en este espacio de
probabilidad la sucesión de parejas admisibles forma un proceso estocástico, y en
consecuencia la sucesión de costos también. Teniendo esta estructura probabilista, es
posible emplear la esperanza en (1.2) para medir el desempeño de una polı́tica.

En lo que sigue se construye dicho espacio de probabilidad para lo cual se emplea


el Teorema de Iunesco Tulcea, ver [11] pag. 249.

Para cada t ∈ {0, 1, 2, 3, ...}, sea (Ωt , Ft ) el espacio medible donde Ωt = X × A y


Ft = B(X × A). Sea ν una medida de probabilidad sobre (X, B(X)), conocida como
distribución inicial y π = (πt ) una polı́tica. Se define P0 función real sobre F0 como:
Z
P0 (B) := ν(dx0 )π0 (da0 |x0 ) (1.3)
B

para cada B ∈ F0 . Entonces P0 es una medida de probabilidad sobre (Ω0 , F0 ). Sea


t ∈ {0, 1, 2, 3, ...}. Para cada B ∈ Ft+1 y (x0 , a0 , ..., xt , at ) ∈ Ω0 × · · · × Ωt , se define
Z
Pt+1 (B|x0 , a0 , ..., xt , at ) := Q(dxt+1 |xt , at )πt+1 (dat+1 |x0 , a0 , ..., xt , at , xt+1 ). (1.4)
B

Entonces para cada (x0 , a0 , ..., xt , at ) ∈ Ω0 × · · · × Ωt , Pt+1 (·|x0 , a0 , ..., xt , at ) es una


medida de probabilidad sobre Ωt+1 , y para cada B ∈ Ft+1 , Pt+1 (B|·) es una función
Borel medible sobre Ω0 × · · · × Ωt . Por lo tanto Pt+1 es un kernel estocástico sobre
Ft+1 dado Ω0 × · · · × Ωt .
CAPÍTULO 1 5

Para cada t ∈ {0, 1, 2, 3, ...} se define la función Pt sobre rectángulos de Ω0 × · · · ×


Ωt de la manera siguiente:
Z Z
Pt (B0 × · · · × Bt ) := P0 (d(x0 , a0 )) P1 (d(x1 , a1 )|(x0 , a0 ))
B0 B1
Z (1.5)
··· Pt (d(xt , at )|(x0 , a0 ), · · · (xt−1 , at−1 ))
Bt

para cada B0 × · · · × Bt ∈ Ω0 × · · · × Ωt . Con los elementos anteriores el Teorema


de extensión de Caratheodory, establece que existe una media P sobre (Ω0 × · · · ×
Ωt , F0 ⊗ · · · ⊗ Ft ) tal que P coincide con Pt sobre los rectángulos B0 × · · · × Bt .

Sean Ω = ×∞ ∞
t=0 Ωt y F = ⊗t=0 Ft . Con los elementos anteriores el Teorema de
Iunesco Tulcea asegura la existencia de una medida de probabilidad Pπv , sobre (Ω, F)
el espacio de trayectorias o el espacio canónico, tal que para cada t ∈ {0, 1, 2, 3, ...}

Pπν {ω ∈ Ω(x0 , a0 ) ∈ B0 , · · · , (xt , at ) ∈ Bt } = Pt (B1 × · · · × Bt ) (1.6)

para cada B0 × · · · × Bt ∈ F0 × · · · × Ft . El Teorema también afirma que existe un


proceso estocástico ξ = ((X0 , A0 ), (X1 , A1 ), ...) sobre (Ω, F) tal que

Pπν ((X0 , A0 ) ∈ B0 , · · · , (Xt , At ) ∈ Bt ) = Pt (B1 × · · · × Bt ) (1.7)

para cada rectángulo B0 × · · · × Bt ∈ F0 × · · · × Ft .


Observación 1. La medida Pt en (1.5) se puede escribir informalmente de la si-
guiente manera:

Pt (d(x0 , a0 ), · · · , (d(xt , at )) = P0 (d(x0 , a0 ))P1 (d(x1 , a1 )|(x0 , a0 )) · · · Pt (d(xt , at )|ht−1 )

con ht−1 = (x0 , a0 , · · · xt−1 , at−1 ); aún más, de (1.3) y (1.4)

Pt (dx0 , da0 , · · · , dxt , dat ) = ν(dx0 )π0 (da0 |x0 )Q(dx1 |x0 , a0 )π1 (da1 |x0 , a0 , x1 )
(1.8)
· · · Q(dxt |xt−1 , at−1 )πt (dat |ht−1 )

Ası́ Pπν se puede representar como sigue:

Pπν (dx0 , da0 , dx1 , da1 , · · · ) = ν(dx0 )π0 (da0 |x0 )Q(dx1 |x0 , a0 )π1 (da1 |x0 , a0 , x1 ) · · ·

En resumen, para cada polı́tica π y distribución de estado inicial ν, el Teorema de


Ionescu Tulcea garantiza la existencia de una medida de probabilidad sobre (Ω, F),
el espacio canónico, que se denota por Pπν y satisface (1.7). Si existe x ∈ X tal que
CAPÍTULO 1 6

ν({x}) = 1 se dice que el estado inicial del proceso es x, entonces se escribe Pπx en
lugar de Pπν . La esperanza con respecto a la medida de probabilidad Pπν se denota
mediante Eπν , o Eπx para Pπx .

El criterio para medir el desempeño de las polı́ticas que se utiliza en este trabajo,
se denomina costo esperado descontado con horizonte infinito y se define como sigue:
para cada polı́tica π y estado inicial x,
" ∞ #
X
V (π, x) = Eπx αn C(xn , an ) , (1.9)
n=0

donde α es un número fijo en el intervalo (0, 1), llamado factor de descuento. Para
cada estado x, se denota por V ∗ (x) a la función valor, es decir,
V ∗ (x) = ı́nf V (π, x). (1.10)
π∈Π

El problema de control consiste en encontrar una polı́tica π ∗ ∈ Π tal que para


cada x ∈ X
V ∗ (x) = V (π ∗ , x). (1.11)
Una polı́tica que satisface (1.11) se llama polı́tica óptima.

Una de las hipótesis en los elementos del Modelo de control es que tanto la ley
de transición como el costo por etapa son funciones Borel medibles sobre K. Dicha
hipótesis se requiere en la construcción del espacio de probabilidad y en la definición
del desempeño.
Observación 2.
a) Para una polı́tica de Markov π, el espacio canónico se puede establecer única-
mente con el espacio de estados, es decir, Ω = ×∞ ∞
t=1 X y F = ⊗t=1 B(X). Asi el
proceso de estados (xt ) es un proceso de Markov sobre (Ω, F) y
Pπν (dx0 , dx1 , dx2 , · · · ) = ν(dx0 )Q(dx1 |x0 , π0 )Q(dx2 |x1 , π1 )Q(dx3 |x2 , π2 ) · · · .
donde Z
Q(·|xt , πt ) = Q(·|xt , at )πt (dat |xt ) (1.12)
A
para cada t ∈ {0, 1, 2, 3, ...}.
b) Para una polı́tica π = f ∞ de Markov estacionaria determinista

Pfν (dx0 , dx1 , dx2 , · · · ) = ν(dx0 )Q(dx1 |x0 , f (x0 ))Q(dx2 |x1 , f (x1 ))
Q(dx3 |x2 , f (x2 )) · · · .
CAPÍTULO 1 7

c) Si se considera una polı́tica estacionaria determinista y constante f ∞ = a,


entonces
Pπν (dx0 , dx1 , dx2 , · · · ) = ν(dx0 )Q(dx1 |x0 , a)Q(dx2 |x1 , a)Q(dx3 |x2 , a) · · · .
En este caso no son necesarias las hipótesis de medibilidad sobre la variable de
acciones en C y Q, para la construcción del espacio canónico y en la definición
del desempeño.
Observación 3. Ahora se considera un proceso de decisión en el que, por restriccio-
nes tecnológicas solo es posible emplear polı́ticas deterministas estacionarias y cons-
tantes. Un modelo de control para el proceso de decisión con dicha restricción debe
ser de la forma
M = (X, A, {A(x) = A|x ∈ X}, Q, C) (1.13)
donde en este caso:
- X es un espacio de Borel.
- A es un espacio de Borel.
- Para cada x ∈ X, el conjunto de acciones admisibles es A(x) = A. El conjunto
K está definido por:
K := {(x, a)|x ∈ X, a ∈ A}.

- Para cada B ∈ B(X) y para cada a ∈ A, Q(B|·, a) : X 7→ R es una función


Borel medible sobre X, y para cada (x, a), Q(·|x, a) : B(X) 7→ R es una medida
de probabilidad sobre el espacio medible (X, B(X)).
- Para cada a ∈ A, C(·, a) : X 7→ R es una función medible sobre X no negativa.
Una polı́tica estacionaria determinista y constante queda determinada por una acción
a ∈ A, la que el controlador emplea en cada caso y en todo momento. Para cada
polı́tica estacionaria determinista y constante determinada por a ∈ A, el espacio
canónico (Ω, F) involucra sólo al espacio de estados y el proceso de estados {xt } es
un proceso de Markov, (ver incisos b) y c) de la Observación 2). Ası́ el desempeño
de f ∞ = a es " ∞ #
X
V (a, x) = Eax αn C(xn , a) , (1.14)
n=0

donde α es un número fijo en el intervalo (0, 1). Para cada estado x, se denota por

V (x) a la función valor, es decir,

V (x) = ı́nf V (a, x). (1.15)
a∈A
CAPÍTULO 1 8

El problema de control consiste en encontrar una acción a∗ ∈ A tal que para cada
x∈X

V (x) = V (a∗ , x).

1.2. Existencia y cálculo de polı́ticas óptimas


Hipótesis de optimalidad. El Teorema de selección medible es un resultado
básico que permite establecer condiciones que garantizan la existencia de polı́ticas
óptimas deterministas y estacionarias; algunas versiones de este se pueden ver en [7]
y [6]. Aquı́ se presenta un versión especializada al modelo de control.

Con M (X) se denota la colección de funciones reales medibles de X en R, y


con Mb (X) al espacio de Banach de las funciones medibles y acotadas con la norma
supremo. Se denota con C(X) a la colección de las funciones continuas sobre X y
con Cb (X) al espacio de Banach de las funciones continuas y acotadas con la norma
supremo.

Definición 1. Una multifunción o correspondencia φ de X en A es una función


con dominio en X tal que para cada x ∈ X, φ(x) es un subconjunto no vacı́o de A.

Definición 2. Se dice que el kernel estocástico Q es débil continuo si para cada


u ∈ Cb (X), la función v 0 : K 7→ R definida como
Z
0
v (x, a) := u(y)Q(dy|x, a) (1.16)
X

es continua y acotada sobre K. Se dice que Q es fuertemente continuo sobre A(x) si


para cada u ∈ Mb (X), v 0 (x, ·) es continua y acotada sobre A(x) para cada x ∈ X.

Se consideran dos conjuntos de hipótesis sobre el modelo de control M :

Hipótesis 1.

a) El conjunto de acciones admisibles es compacto.

b) El costo por etapa es acotado y para cada estado, es continuo sobre el conjunto
de acciones admisibles.

c) El kernel de transición es fuertemente continuo sobre el conjunto de acciones


admisibles.

Hipótesis 2.
CAPÍTULO 1 9

a) El conjunto de acciones admisibles es compacto y la multifunción φ de X en A


definida como φ(x) = A(x), es continua.

b) El costo por etapa es continuo y acotado.

c) El kernel de transición es débil continuo.

Establecidas las hipótesis anteriores sobre el Modelo de Control, se tiene el siguien-


te resultado, el cual es consecuencia directa de una versión del Teorema de selección
medible.

Teorema 1. Sea v : X 7→ R una función medible. Se define u : K 7→ R como


Z
u(x, a) := C(x, a) + v(y)Q(dy|x, a), (1.17)
X

y u∗ : X 7→ R mediante
" Z #
u∗ (x) := ı́nf C(x, a) + v(y)Q(dy|x, a) = ı́nf u(x, a). (1.18)
A(x) X A(x)

Entonces u es medible y se cumple lo siguiente:

a) Si el modelo de control M satisface la Hipótesis 1, entonces para cada x ∈ X,


u(x, ·) es continua sobre A(x); existe un selector f ∗ ∈ F tal que para cada
x ∈ X,
u(x, f ∗ (x)) = u∗ (x) = mı́n u(x, a), (1.19)
A(x)

y u∗ es medible.

b) Si el modelo de control M satisface la Hipótesis 2 y v : X 7→ R es continua,


entonces u es continua sobre K, existe f ∗ ∈ F para el cual se cumple (1.19), y
u∗ es continua y acotada.

Para caracterizar a las polı́ticas óptimas estacionarias deterministas se hace uso


del operador de programación dinámica. Para cada u ∈ Mb (X) se define
" Z #
T u(x) := mı́n C(x, a) + α u(y)Q(dy|x, a) , (1.20)
a∈A(x) X

para cada x ∈ X. Por el Teorema 1, bajo la Hipótesis 1 la relación (1.20) define un


operador T : Mb (X) 7→ Mb (X) , mientras que bajo la Hipótesis 2 la relación define
CAPÍTULO 1 10

un operador tal que T (Cb (X)) ⊂ T (Cb (X)).

Para cada selector f ∈ F, se define para cada u ∈ Mb (X)


Z
Tf u(x) := C(x, f (x)) + α u(y)Q(dy|x, f (x)), (1.21)
X

para cada x ∈ X. Bajo la Hipótesis 1, para cada f ∈ F, la relación (1.21) define un


operador Tf : Mb (X) 7→ Mb (X), mientras que bajo la Hipótesis 2, para cada f ∈ F,
la (1.21) define un operador Tf : Cb (X) 7→ Cb (X) .

El resultado que sigue asegura la existencia de polı́ticas óptimas deterministas


estacionarias.
Teorema 2.
a) Si el modelo M satisface la Hipótesis 1, entonces la función valor V ∗ es el único
punto fijo en Mb (X) de T .

b) Si el modelo M satisface la Hipótesis 2, entonces la función valor V ∗ es el único


punto fijo en Cb (X) de T .

c) Si el modelo M satisface la Hipótesis 1 o la Hipótesis 2, existe un selector


f∗ ∈ F, tal que para cada x ∈ X
Z

V (x) = C(x, f∗ (x)) + α V ∗ (x)Q(dy|x, f∗ (x)), (1.22)
X

es decir, V ∗ (x) = Tf∗ V ∗ (x), y la polı́tica determinista estacionaria f∗∞ es ópti-


ma. Recı́procamente si f∗∞ es óptima entonces el selector f∗ satisface (1.22).
Corolario 1. Una polı́tica determinista estacionaria f∗∞ es óptima si y solo si
V ∗ (x) = Tf∗ V ∗ (x).
Para demostrar el Teorema 2 se utilizarán algunos resultados los cuales se presen-
tan a continuación.
Definición 3. Sea u ∈ Mb (X). Una polı́tica determinista estacionaria f ∞ , es una
polı́tica u−glotona para el operador T , si el selector f satisface
Z
T u(x) = C(x, f (x)) + α u(y)Q(dy|x, f (x)),
X

para cada x ∈ X.
CAPÍTULO 1 11

El siguiente lema es consecuencia directa del Teorema 1.

Lema 1.

a) Si el modelo M satisface la Hipótesis 1, para cada u ∈ Mb (X), existe una


polı́tica f ∞ determinista estacionaria u−glotona.

b) Si el modelo M satisface la Hipótesis 2, para cada u ∈ Cb (X), existe una polı́tica


f ∞ determinista estacionaria u−glotona.

Lema 2.

a) Si el modelo M cumple la Hipótesis 1, entonces T : Mb (X) 7→ Mb (X) es un


operador de contracción con módulo α, en consecuencia por el Teorema del
punto fijo de Banach, se cumplen las siguientes propiedades:

i) existe un única función u∗ ∈ Mb (X) tal que T u∗ = u∗ ;


ii) para cada función v ∈ Mb (X)

lı́m k T n v − u∗ k= 0. (1.23)
n7→∞

Además para cada u ∈ Mb (X) no negativa, si T u ≤ u, entonces V ∗ ≤ u.

b) Suponga que el modelo M cumple la Hipótesis 2, entonces T : Cb (X) 7→ Cb (X)


es un operador de contracción con módulo α, existe una única u∗ ∈ Cb (X) tal
que T u∗ = u∗ , y para cualquier función v ∈ Cb (X) se cumple (1.23). Además
para cada u ∈ Cb (X) no negativa, si T u ≤ u, entonces V ∗ ≤ u.

En adelante con Vπ se denota al desempeño de una polı́tica π.

Lema 3.

a) Suponga que el modelo M cumple la Hipótesis 1. Entonces para cada f ∈ F,


Tf : Mb (X) 7→ Mb (X) es un operador de contracción con módulo α, Vf ∞ es
el único punto fijo de Tf en Mb (X), es decir, Tf Vf ∞ = Vf ∞ , y para cualquier
función v ∈ Mb (X)
lı́m k Tfn v − Vf ∞ k= 0. (1.24)
n7→∞

b) Suponga que el modelo M cumple la Hipótesis 2. Entonces para cada f ∈ F,


Tf : Cb (X) 7→ Cb (X) es un operador de contracción con módulo α, Vf ∞ es el
único punto fijo de Tf en Cb (X), y para cualquier función v ∈ Cb (X) se cumple
(1.24).
CAPÍTULO 1 12

La demostración de los Lemas 2 y 3 puede consultarse en [6] o [7].

Definición 4. Una sucesión {vn } se llama sucesión de iteración de valores si v0 = 0,


y para cada n ≥ 1, vn = T vn−1 .

Observación 4. Para una sucesión de iteración de valores {vn }, se tiene que:

a) por Lema 2, vn → u∗ .

b) Para cada n, vn (x) ≤ Vn (π, x) ≤ V (π, x) para cada polı́tica π y cada x ∈ X,


por lo tanto, vn (x) ≤ V ∗ (x) para cada x ∈ X, ver [[7]] pag. 49.

Demostración del Teorema 2

a) Por el inciso a) del Lema 2, T es un operador de contracción en Mb (X) con único


punto fijo u∗ , entonces sólo basta verificar que u∗ = V ∗ . Dado que T u∗ = u∗ ,
también del inciso a) del Lema 2, se tiene que u∗ ≥ V ∗ . La Observación 4
implica que u∗ ≤ V ∗ . Por lo tanto u∗ = V ∗ y V ∗ ∈ Mb (X).

b) La demostración es análoga a la parte a).

c) Dado que V ∗ ∈ Mb (X), por el inciso a) del Lema 1 existe una polı́tica de-
terminista estacionaria f ∞ , tal que V ∗ = Tf V ∗ . Del inciso a) del Lema 3,
Vf ∞ = Tf Vf ∞ , por lo tanto V ∗ = Vf ∞ , es decir, la polı́tica f ∞ es óptima. Lo
anterior dice que existe una polı́tica f ∞ determinista estacionaria óptima. Por
otro lado, si f ∞ es una polı́tica determinista estacionaria óptima, Vf ∞ = V ∗ y
del inciso a) del Lema 3, Vf ∞ = Tf Vf ∞ , entonces V ∗ = Tf V ∗ .

d) La demostración es análoga a la parte c).

El segundo objetivo de este capı́tulo es presentar resultados básicos sobre la


aproximación de polı́ticas óptimas. Usualmente, determinar una aproximación a una
polı́tica óptima requiere definir una distancia en el conjunto de polı́ticas. Sin embar-
go, ya que la eficacia de una polı́tica se mide a través de su desempeño, se medirá la
cercanı́a entre polı́ticas mediante sus desempeños. La metodologı́a consiste en partir
de una sucesión de iteración de valores {vn }, la cual debido a la propiedad de contrac-
ción del operador T , converge a la función valor, y a su vez genera una sucesión {fn∞ }
de polı́ticas vn −glotona, para las cuales se tiene que Vfn∞ ↑ V ∗ , como se demostrará.
Entonces se determina un elemento Vfk∞ cuya distancia a la función valor sea menor a
un error de aproximación establecido. Ası́ la polı́tica fk∞ − glotona es la aproximación
a la polı́tica óptima deseada.
CAPÍTULO 1 13

El método ası́ descrito tiene la desventaja de requerir la función valor. Esta difi-
cultad plantea la siguiente pregunta: ¿cómo estimar la distancia entre V ∗ y Vfk∞ , sin
conocer explı́citamente a la función valor V ∗ ? El siguiente resultado da respuesta a
esta pregunta.
Lema 4. Para cada n ∈ N, sea vn := T vn−1 y fn∞ una polı́tica vn -glotona, entonces
α
k V ∗ − vn k≤ k vn − vn−1 k, (1.25)
1−α
y

k V ∗ − Vfn∞ k≤ k vn − vn−1 k . (1.26)
1−α
Demostración: Ya que V ∗ es únto fijo de T , y T es un operador de contracción con
módulo α se tiene lo siguiente
k V ∗ − vn k ≤k V ∗ − T vn k + k T vn − vn k=k T V ∗ − T vn k + k T vn − T vn−1 k
= α k V ∗ − vn k +α k vn − vn−1 k,
por lo tanto
α
k V ∗ − vn k≤ k vn − vn−1 k . (1.27)
1−α
Para demostrar la segunda desigualdad, primero observe que
k V ∗ − Vfn∞ k≤k V ∗ − vn k + k vn − Vfn∞ k, (1.28)
y de (1.27)
α
k V ∗ − Vfn∞ k≤ k vn − vn−1 k + k vn − Vfn∞ k . (1.29)
1−α
Por otro lado, ya que fn∞ es vn -glotona, Tf vn = T vn , entonces
k vn − Vfn∞ k ≤k vn − T vn k + k T vn − Vfn∞ k
=k T vn−1 − T vn k + k Tfn∞ vn − Tfn∞ Vfn∞ k
y dado que T y Tfn∞ son de contracción con módulo α
k T vn−1 − T vn k + k Tfn∞ vn − Tfn∞ Vfn∞ k≤ α k vn−1 − vn k +α k vn − Vfn∞ k,
por lo tanto
α
k vn − Vfn∞ k≤ k vn − vn−1 k . (1.30)
1−α
Ası́ de (1.29) y (1.30)

k V ∗ − Vfn∞ k≤ k vn − vn−1 k . (1.31)
1−α
CAPÍTULO 1 14

Lema 5. Sea {vn } la sucesión de iteración de valores y {fn∞ } la sucesión de polı́ticas


vn − glotona con polı́tica arbitraria f0∞ , es decir, con selector arbitrario f0 ∈ F,
entonces
lı́m k V ∗ − Vfn∞ k= 0. (1.32)
n−→∞

El método antes descrito que incluye la estimación establecida en el Lema 4 se


conoce como Algoritmo de Iteración de Valores.

Algoritmo de Iteración de Valores:

1. Especifique  > 0.

2. Sea v0 = 0 y n = 1.

3. Para cada x ∈ X calcular vn (x) = T vn−1 (x). Si

k vn − vn−1 k< ,

entonces ir al paso 4. De otro modo se asigna n := n + 1 y se regresa


al paso 3.

4. Se determina la polı́tica vn − glotona y parar.

Ya que el operador T es un operador de contracción, en el paso 2 v0 puede ser


cualquier función en el dominio de T .
Capı́tulo 2

Operadores de aproximación y
modelos perturbados

El método de iteración de valores consiste en aproximar el punto fijo de un ope-


rador del operador de programación dinámica, mediante iteraciones o composiciones
sucesivas de este. Cada iteración del operador involucra encontrar el mı́nimo y el
argmin de una función para cada estado del sistema. Hallar el mı́nimo y el argmin
puede ser un problema complejo e inviable de implementarse computacionalmente en
sistemas con una cantidad infinita de estados.
Como ya se planteó en la introducción de este escrito, una manera de hacer fren-
te al problema es que para un modelo de control M con operador de programación
dinámica T proponer un “operador aproximador” Te de manera que cumpla lo si-
guiente: Te sea el operador de programación dinámica para algún modelo de control
de Markov M f, y sea viable implementar el algoritmo de iteración de valores con Te.
En este capı́tulo se presentan resultados sobre la aproximación de procesos de
decisión de Markov a partir del enfoque planteado en el párrafo anterior, dichos
resultados son tomados de [13].

2.1. Operador promediador


Definición 5. Sea S un conjunto y B(S) su correspondiente σ-álgebra de Borel. Un
operador L : M (S) 7→ M (S) se llama promediador si y sólo si satisface las siguientes
condiciones:

a) L(IS ) = IS ;

b) L es un operador lineal;

15
CAPÍTULO 2 16

c) L es un operador positivo, es decir, para cada u ≥ 0 en M (S), Lu ≥ 0.

d) Si {vn } es una sucesión en Mb (S) tal que para cada s ∈ S vn (s) ↓ 0, entonces
Lvn (s) ↓ 0.

Observación 5. Sea L un promediador, entonces:

1) L es monótono, es decir, si u ≥ v entonces Lu ≥ Lv. Esta propiedad se sigue


de ser positivo.

2) L es no expansivo, es decir, para cada u, v ∈ Mb (S) se tiene

k Lu − Lv k≤k u − v k .

En efecto, si k u k= 1 entonces para cada s ∈ S se tiene que −1 ≤ u(s) ≤ 1,


ası́ L(−1) ≤ Lu(s) ≤ L(1) por monotonı́a de L, y −L(1) ≤ Lu(s) ≤ L(1) por
linealidad, y por la definición de L, L(1) = 1, ası́ k L k≤ 1; por lo tanto

k Lu − Lv k≤k L kk u − v k≤k u − v k .

Ejemplo 1. Sea S = [0, θ] con θ > 0, 0 = s0 < s1 < · · · < sN = θ una partición
de S, D0 = [s0 , s1 ] y Di = (si , si+1 ] para i = 1, 2, ..., N − 1, para cada v ∈ Mb (X) se
define
−1
N
" #
X si+1 − s s − si
Lv(s) := v(si ) + v(si+1 ) IDi (s). (2.1)
i=0
si+1 − si si+1 − si
para cada s ∈ S. L es un operador promediador. En efecto, L : M (X) 7→ M (X) es
lineal acotado y positivo, por lo tanto monótono, además
−1
N
" #
X si+1 − s s − si
L(IS ) = IS (si ) + IS (si+1 ) IDi (s) = IS ,
i=0
si+1 − si si+1 − si

y si {vn } es una sucesión en Mb (S) tal que para cada s ∈ S, vn (s) ↓ 0, entonces
−1
N
" #
X si+1 − s s − si
lı́m Lvn (s) = lı́m vn (si ) + lı́m vn (si+1 ) IDi (s) (2.2)
n7→∞
i=0
si+1 − si n7→∞ si+1 − si n7→∞
= 0. (2.3)

Por monotonı́a de L se tiene que Lvn ≤ Lvn+1 , por lo tanto la convergencia de la


sucesión {Lvn } se da en forma decreciente.
CAPÍTULO 2 17

Ejemplo 2. Sea S un subconjunto de un espacio medible. {xi }ki=0 una colección de


puntos de S y {ji }ki=0 una partición de subconjuntos medibles de S tal que para cada
i = 0, ..., k, xi ∈ ji , para m 6= n, jm ∩ jn = ∅ y S = ∪ki=0 ji . Para cualquier función
v ∈ Mb (S) se define
Jv(x) = v(xi ),
para cada x ∈ ji . Ası́ J : Mb (S) 7→ Mb (S) es un operador promediador. En efecto J
es un operador lineal acotado y también positivo. Por otro lado J(IS ) = IS , y si {vn }
es una sucesión en Mb (S) tal que para cada x ∈ S, vn (x) ↓ 0, entonces

lı́m Jvn (x) = lı́m vn (xi ) = 0.


n7→∞ n7→∞

De nuevo por monotonı́a de J la convergencia de la sucesión {Jvn } se da en forma


decreciente.
Otros ejemplos de operadores promediadores pueden encontrarse en [12].
Lema 6. Sea L un promediador. Para cada s ∈ S y D ∈ B(S) se define L(D|s) :=
LID (s). Entonces:
a) L es un kernel sobre S dado S;
b) L(Mb (S)) ⊂ Mb (S) y para cada v ∈ Mb (S),
Z
Lv(s) = v(y)L(dy|s),
S

para cada s ∈ S.
c) Si L(Cb (S)) ⊂ Cb (S) entonces el kernel es débil continuo.
Demostración:
a) Para cada D ∈ B(S), ID es una función medible acotada no negativa por lo que
L(D|·) = LID (·) ≥ 0 ya que L es positivo. Por otro lado I∅ = 0 y como L es
lineal,
S∞ L(∅|s) = L(0) = 0. Sean {Ui }∞
i=1 subconjuntos ajenos
Pn de Borel de S y
U = i=1 Ui . Observe que para cada s ∈ S, 0 ≤ IU (s) − i=1 IUi (s) ↓ 0, cuando
n −→ ∞, entonces:
n
X n
X
0 = lı́m L(IU (s) − IUi (s)) = LIU (s) − lı́m LIUi (s)
n7→∞ n7→∞
i=1 i=1

X
= LIU (s) − LIUi (s)
i=1
CAPÍTULO 2 18

Ası́ LIU (s) = ∞


P
i=1 LIUi (s). Es claro que L(S|s) = LIS (s) = 1. Por lo tanto
L(·|s) es una medida de probabilidad. Por otro lado, para cada para cada D ∈
B(S), ID ∈ Mb (S), ası́ LID ∈ Mb (X), por lo que L(D|·) es medible sobre S.
b) Sea G : Mb (S) 7→ Mb (S) definida para cada v ∈ Mb (S) mediante
Z
Gv(x) = v(y)L(dy|s).
S
Se demuestra que para cada v ∈ Mb (S), Gv = Lv. Sea D ∈ B(S), ası́ ID ∈
Mb (S) y Z
GID (s) = ID (y)L(dy|s) = L(D|s) = LID (s).
S

Pnexisten {d1 , ..., dn } ⊂ R y D1 , ..., Dn ⊂ B(S)


Sea ρ un función simple, es decir,
ajenos a pares tales que ρ(s) = i=1 di IDi (s), entonces
Xn Z X n
Gρ(s) = di IDi L(dy|s) = di L(Di |s)
i=1 S i=1
Xn n
X
= di LIDi (s) = L di IDi (s) = Lρ(s).
i=1 i=1

Sea v ∈ Mb (S) no negativa, por el Teorema de aproximación simple existe una


sucesión creciente de funciones simples {ρn } que convergen puntualmente a v.
Entonces (v − ρn )(s) ↓ 0 y L(v − ρn )(s) ↓ 0. Por convergencia monótona,
Z
Gv(s) = lı́m ρn (y)L(dy|s) = lı́m Gρn (s)
n7→∞ S n7→∞

= lı́m Lρn (s) = Lv(s).


n7→∞

Por lo tanto, para cualquier v ∈ Mb (S) no negativa se tiene Gv = Lv. Sean


v ∈ Mb (S), v = v + − v − , con v + y v − medibles, no negativas y acotadas,
entonces
Gv = Gv + − Gv −
y
Lv = Lv + − Lv − .
Dado que Lv + = Gv + y Lv − = Gv − se concluye que Gv = Lv.
c) Suponga que L(Cb (S)) ⊂ Cb (S). Sea v ∈ Cb (S), entonces v ∈ Mb (S) y por la
parte b) Z
v(y)L(dy|·) = Lv(·).
X
Por lo tanto L es débil continuo.
CAPÍTULO 2 19

2.2. Modelo perturbado M


f
Dado el modelo M = (X, A, {A(x)|x ∈ X}, Q, C) introducido en (??) y un ope-
rador promediador L, el modelo perturbado M
f es la quı́ntupla:

f := (X, F, {F|x ∈ X}, Q,


M e C),
e

donde:

1) X es el espacio de estados del modelo de control M .

2) F es el conjunto de selectores medibles de X en A, que en el modelo toma el


papel de conjunto de acciones.

3) Para cada x ∈ X, el conjunto de acciones admisibles es F. El conjunto K


e está
definido por:
e := {(x, f )|x ∈ X, f ∈ F}.
K

e :X ×K
4) Q e 7→ R se define de la siguiente manera:
Z
Q(B|x,
e f ) := LQ(B|x, f (x)) = Q(B|y, f (y))L(dy|x),
X

para cada (x, f ) ∈ K


e y B ∈ B(X), donde Q es el kernel de transición del modelo
M . Claramente Q e es un kernel sobre X dado K.
e

5) La función de costo por etapa C


e:K e 7→ R está definida por:
Z
C(x, f ) := LC(x, f (x)) =
e C(y, f (y))L(dy|x),
X

para cada (x, f ) ∈ K,


e donde C el costo por etapa del modelo M .

Observación 6.

a) Para cada f ∈ F, C(·,


e f ) : X 7→ R es una función Borel medible sobre X.

b) Para cada B ∈ B(X) y cada f ∈ F, Q(B|·,


e f ) : X 7→ R es una función Borel
medible sobre X.

c) Para cada (x, f ) ∈ K,


e Q(·|x,
e f ) : X 7→ R es una medida de probabilidad sobre
X.
CAPÍTULO 2 20

d) Para cada f ∈ F, Q(·|·,


e f ) es un kernel de transición de X en X.
De la Observación anterior es claro que el modelo M f es análogo al modelo 1.13,
donde en este caso una polı́tica determinista estacionaria constante es un selector,
por lo que es posible construir un espacio de probabilidad consistente con este mo-
delo. Ası́ para cada polı́tica determinista estacionaria constante f y estado inicial
x, existe una medida de probabilidad P ef , y un proceso estocástico (Xe0 , Xe1 , ...) sobre
x

(×t=0 Xt , ⊗B(Xt )), con kernel de transición Q,e y con criterio de desempeño
" ∞ #
X
ef
Ve (f, x) = E αn C(x
e n, f ) ,
x
n=0

y para cada x ∈ X, Ve ∗ (x) = ı́nf Ve (f, x) es la función valor α-descontada. Por lo que
f ∈F
∗ f si Ve ∗ (x) = Ve (f ∗ , x) para
una polı́tica f es óptima α-descontada para el Modelo M
cada x ∈ X.

2.2.1. Existencia y aproximación de polı́ticas óptimas


El operador de programación dinámica Te asociado al modelo Mf,está definido por
" Z #
Teu(x) = ı́nf C(x,
e f) + α u(y)Q(dy|x,
e f) (2.4)
f ∈F X

para cada u ∈ Mb (X) y cada x ∈ X.


Observación 7. Para cada x ∈ X si
A(x) = {f (x)|f ∈ F} (2.5)
se tiene
( Z ) ( Z )
C(x,
e f )+α u(y)Q(dy|x,
e f ) f ∈ F = C(x,
e a)+α u(y)Q(dy|x,
e a) a ∈ A(x) ,
X X

y entonces " #
Z
Teu(x) = ı́nf C(x,
e a) + α u(y)Q(dy|x,
e a) . (2.6)
a∈A(x) X

Teorema 3. Si modelo de control M satisface la Hipótesis 1, entonces Te(Mb (X)) ⊂


Mb (X), y Te = LT . Por otro lado suponga que L(Cb (X)) ⊂ Cb (X), si el modelo de
control M satisface la Hipótesis 2, entonces para Te(Cb (X)) ⊂ Cb (X) y Te = LT .
CAPÍTULO 2 21

Demostración: Sea u ∈ Mb (X), entonces para cada f ∈ F


Z
T u(x) ≤ C(x, f (x)) + α u(y)Q(dy|x, f (x)),

para cada x ∈ X. Luego por monotonı́a y linealidad de L


 Z 
LT u(x) ≤ L C(x, f (x)) + α u(y)Q(dy|x, f (x))
Z
= LC(x, f (x)) + αL( u(y)Q(dy|x, f (x)))
Z
= C(x,
e f ) + α u(y)Q(dy|x,e f ).

Entonces
Z
LT u(x) ≤ ı́nf {C(x,
e f) + α u(y)Q(dy|x,
e f )|f ∈ F}
f ∈F

= Teu(x).

Dado que el modelo M satisface la Hipótesis 1, por la parte a) del Lema 1, para
cada u ∈ Mb (X) existe una polı́tica fu determinista estacionaria u−glotona para el
operador T , es decir, existe polı́tica fu tal que
Z
T u(x) = C(x, fu (x)) + α u(y)Q(dy|x, fu (x)), (2.7)

para cada x ∈ X. Luego de (2.7)


 Z 
LT u(x) = L C(x, fu (x)) + α u(y)Q(dy|x, fu (x))
Z
= C(x, fu ) + α u(y)Q(dy|x,
e e fu )

≥ Teu(x).

Por lo tanto LT = Te. Como el modelo M satisface la Hipótesis 1, para cada u ∈


Mb (X), T u ∈ Mb (X), luego por la parte b) del Lema 6, LT u ∈ Mb (X). Por lo tanto
Teu ∈ Mb (X).
La demostración de la segunda parte es análoga a la demostración de la parte b),
tomando a Cb (X) en lugar de Mb (X) justificando la expresión (2.7) por la parte b)
del Lema 1 y la parte c) del Lema 6.
CAPÍTULO 2 22

Para cada selector f ∈ F, se define


Z
Tef u(x) := C(x,
e f) + α u(y)Q(dy|x,
e f ), (2.8)
X

para cada u ∈ Cb (X) y x ∈ X.


Teorema 4. Si el modelo de control M satisface la Hipótesis 1, entonces para cada
f ∈ F, Tef (Mb (X)) ⊂ Mb (X) y Tef = LTf . Suponga que L(Cb (X)) ⊂ Cb (X), si el
modelo de control M satisface la Hipótesis 2, entonces para cada f ∈ F, Tef (Cb (X)) ⊂
Cb (X) y Tef = LTf .
Demostración: De (1.21), para cada f ∈ F el operador Tf : Mb (X) 7→ Mb (X) está
definido por Z
Tf u(x) := C(x, f (x)) + α u(y)Q(dy|x, f (X)), (2.9)
X
para cada u ∈ Mb (X) y cada x ∈ X. Ası́
Z
LTf u(x) = C(x,
e f) + α u(y)Q(dy|x,
e f)

= Tef u(x).
Por lo tanto LTf = Tef . Dado que para cada u ∈ Mb (X), Tf u ∈ Mb (X), por la parte
b) del Lema 6 LTf u ∈ Mb (X), por lo tanto Tef ∈ Mb (X). La demostración de la
segunda parte es análoga.

El resultado que asegura la existencia de polı́ticas óptimas para el modelo pertur-


bado M
f es el siguiente.
Teorema 5.
a) Si el modelo de control M satisface la Hipótesis 1, entonces Ve ∗ es el único punto
fijo de Te en Mb (X).
b) Suponga que L(Cb (X)) ⊂ Cb (X). Si el modelo de control M satisface la Hipóte-
sis 2, entonces Ve ∗ es el único punto fijo de Te en Cb (X).
c) Si el modelo de control M satisface la Hipótesis 1 o si L(Cb (X)) ⊂ Cb (X) y el
modelo de control M satisface la Hipótesis 2, existe un selector f∗ ∈ F tal que
Z

Ve (x) = C(x,
e f∗ ) + α Ve ∗ (y)Q(dy|x,
e f∗ ), (2.10)
X

es decir, Ve ∗ = Tef∗ Ve ∗ y f∗ es óptima para el modelo M


f. Recı́procamente si f∗
es óptima para Mf, satisface (2.10).
CAPÍTULO 2 23

f si y sólo si Ve ∗ = Tef∗ Ve ∗ .
Corolario 2. Una polı́tica f∗ es óptima para el Modelo M
Para demostrar el Teorema 5 se utilizarán las siguientes definiciones y los Lemas
8, 9 y 10 presentados en el Apéndice A.
Definición 6. Sea u ∈ Mb (X). Un selector fe, es u−glotona para el operador Te, si
satisface Z
Teu(x) = C(x,
e fe) + α u(y)Q(dy|x,
e fe),
X
para cada x ∈ X.
Definición 7. Una sucesión {e vn } se llama sucesión de iteración de valores aproxi-
mada si ve0 ∈ 0, y para cada n ≥ 1, ven = Teven−1 .
Observación 8. Para una sucesión de iteración de valores aproximada {e
vn }, se tiene
que:
a) por Lema 2, vn → u∗ .

b Para cada n, ven (x) ≤ Ven (f, x) ≤ Ve (f, x) para cada f ∈ F y cada x ∈ X, por lo
tanto, ven (x) ≤ Ve ∗ (x) para cada x ∈ X.
Demostración del Teorema 5
a) Por el inciso a) del Lema 9, Te es un operador de contracción con único punto
fijo u∗ , entonces sólo basta verificar que u∗ = Ve ∗ . Dado que Teu∗ = u∗ , también
por el inciso a) del Lema 9, se tiene que u∗ ≥ Ve ∗ . La Observacion 8 b), implica
que u∗ ≤ Ve ∗ . Por lo tanto u∗ = Ve ∗ .

b) La demostración es análoga a la del inciso a).

c) Por Lema 8 existe f , tal que Ve ∗ = Tef Ve ∗ . Del Lema 10, Vef = Tef Vef , por lo tanto
Ve ∗ = Vef ∞ , es decir, la polı́tica f es óptima. Lo anterior dice que existe una
polı́tica f determinista estacionaria óptima. Por otro lado, si f es una polı́tica
óptima, Vef = Ve ∗ y del Lema 8, Vef = Tef Vef , entonces Ve ∗ = Tef Ve ∗ .
Para este modelo también se tienen los resultados sobre aproximación a polı́ticas
óptimas.
Teorema 6. Sea {e vn } la sucesión de iteración de valores aproximada, y {fn } la
sucesión de polı́ticas ven −glotona con selector arbitrario f0 , entonces

lı́m k Ve ∗ − Vefn k= 0
n7→∞
CAPÍTULO 2 24

Teorema 7. Para cada n ∈ N sea ven = Teven−1 y fn una polı́tica ven −glotona, entonces
α
k Ve ∗ − ven k≤ k ven − ven−1 k,
1−α
y

k Ve ∗ − Vefn k≤ k ven − ven−1 k
1−α

2.3. Cotas de aproximación


Las cotas de aproximación para los algoritmos de iteración de valor aproximado
pueden ser expresadas en términos de la norma supremo o de la norma en variación
total para medidas finitas con signo.
Lema 7. Sean R = LT y S = T L, con T el operador de programación dinámica y L
operador promediador. Si u ∈ Mb (X) es punto fijo de R, entonces v = T u es punto
fijo de S y u = Lv.
Demostración: Sea u ∈ Mb (X) con Ru = u y v := T u, entonces
Lv = LT u = Ru = u,
luego
Sv = T Lv = T u = v.
Observación 9. Por el Teorema l operador R = LT definido en el Lema 7 es el
operador de programación dinámica Te para el modelo M
f . Por otro lado, el operador
S = T L coincide con el operador de programación dinámica asociado a un modelo
perturbado donde el espacio de estados, el espacio de acciones y la función de costos
C se mantienen como en el modelo M y el kernel de transición Q b es definido, para
cada B ∈ B(X) y (x, a) ∈ K, de la siguiente manera:
Z
Q(B|x, a) :=
b L(B|y)Q(dy|x, a),
X

con Q el kernel de transición del modelo M , quedando el operador de programación


dinámica definido para cada u ∈ Mb (X) como
" Z #
Tbu(x) = mı́n c(x, a) + α u(y)Q(dy|x,
b a)
a∈A(x) X

para cada x ∈ X. Ası́ Tb = T L = S. Dado que la función de costos C es la misma


para M
f que para M , el algoritmo de iteración de valores en Tb no podra bajar la
complejidad original por el costo por etapa.
CAPÍTULO 2 25

Teorema 8. Suponga que L : Cb (X) 7→ Cb (X). Si el modelo original cumple la


Hipótesis 2, entonces
1
k V ∗ − Ve ∗ k≤ k V ∗ − LV ∗ k .
1−α
Demostración: Por el inciso b) del Teorema 2, V ∗ es punto fijo de T , por el inciso
b) del Lema 2, T es un operador de contracción con módulo α, y del inciso b) del
Teorema 5, Ve ∗ es punto fijo de Te. Sea Vb ∗ = T Ve ∗ , por el Lema 7, Vb ∗ es punto fijo de
Tb = T L y Ve ∗ = LVb ∗ . Entonces:

k V ∗ − Vb ∗ k=k T V ∗ − T LVb ∗ k≤ α k V ∗ − LVb ∗ k= α k V ∗ − Ve ∗ k, (2.11)

y dado que L es no expansivo

k V ∗ − Ve ∗ k =k V ∗ − LV ∗ + LV ∗ − Ve ∗ k≤k V ∗ − LV ∗ k + k LV ∗ − Ve ∗ k
=k V ∗ − LV ∗ k + k LV ∗ − LVb ∗ k≤k V ∗ − LV ∗ k + k V ∗ − Vb ∗ k,

por lo tanto de 2.11:

k V ∗ − Ve ∗ k≤k V ∗ − LV ∗ k +α k V ∗ − Ve ∗ k .

Para determinar algunas cotas de aproximación en términos de la norma en varia-


ción total se establecen algunos resultados sobre esta norma y ası́ como la notación
utilizada para especificar las cotas.

La norma en variación total de una medida finita con signo µ, se define de la


siguiente manera.
nZ o
k µ kT V = sup v(y)µ(dy) v ∈ Mb (X), k v k≤ 1 . (2.12)
X

Ası́ para cada función v ∈ Mb (X) se tiene que


Z
v(y)µ(dy) ≤k µ kT V k v k . (2.13)
X

Más aún, se puede probar que para P1 y P2 medidas de probabilidad, su distancia en


variación total cumple lo siguiente

k P1 − P2 kT V = 2 sup P1 (B) − P2 (B). (2.14)


B∈B(X)
CAPÍTULO 2 26

En lo que sigue se establece la notación utilizada para plantear los resultados sobre
cotas de aproximación en términos de la norma en variación total.

Sea F
e0 la subclase de polı́ticas estacionarias que contienen a las polı́ticas óptimas
estacionarias para el modelo M y el modelo perturbado M f, y las polı́ticas Ven -glotona.
Se define
e0 ) := sup{k Qf (·|x) − Q
δQ (F ef (·|x) kT V : x ∈ X, f ∈ F
e0 },
e0 ) := sup{k Cf (·|x) − C
δC (F ef (·|x) k: f ∈ Fe0 }.

Para cada f ∈ F y función medible v sobre K, se denota vf (x) := v(x, f (X)).


Entonces en particular se tiene que:

Cf (x) = C(x, f (x)) y Qf (·|x) = Q(·|x, f (x))

para cada x ∈ X. Análogamente

C
ef (x) = C(x,
e f) y Q
ef (·|x) = Q(·|x,
e f)

para cada x ∈ X. Más aún se puede escribir


R R
Qf u(x) := X u(y)Qf (dy|x) y Q ef u(x) :=
X
u(y)Q
ef (dy|x)

Teorema 9. Si el modelo de control M satisface la Hipótesis 1, entonces

a) Para cada f ∈ F

1 ef k + αk sup k Qf (·|x) − Q
k Vf − Vef k≤ k Cf − C ef (·|x) kT V ,
1−α (1 − α)2 x∈X

1 e0 ) + αk δQ (F
b) k V ∗ − Ve ∗ k≤ δC (F e0 ),
1−α (1 − α)2
c) Si f ∞ es una polı́tica ven -glotona, entonces

2α 2 e0 ) + 2αk δQ (F
k V ∗ − Vf ∞ k≤ k ven − ven−1 k + δC ( F e0 ) (2.15)
1−α 1−α (1 − α)2

Por otro lado, suponga que L : Cb (X) 7→ Cb (X), si el modelo de control M satisface
la Hipótesis 2, entonces se cumple a),b) y c).

Demostración:
CAPÍTULO 2 27

a) Por el inciso a) del Lema 10, para cada selector f , Vef = Tef Vef , a su vez por el
inciso a) del Lema 3, Vf = Tf Vf , entonces:
k Vf − Vef k =k Tf − Tef k=k Cf + αQf Vf − C ef Vef k
ef + αQ
=k Cf − Cef + α(Qf Vf − Qef Vef ) k≤k Cf − C ef k +α k Qf Vf − Q
ef Vef k
=k Cf − Cef k +α k Qf Vf − Qf Vef + Qf Vef − Q ef Vef k
≤k Cf − C
ef k +α k Qf Vf − Qf Vef k +α k Qf Vef − Q
ef Vef k
(2.16)
Observe que k Qf Vf − Qf Vef k= supx∈X | Qf Vf (x) − Qf Vef (x) |, luego para cada
x ∈ X se tiene que
Z Z
| Qf Vf (x) − Qf Vf (x) | = |
e Vf (y)Qf (dy|x) − Vef (y)Qf (dy|x)|
Z X X

≤ | Vf (y) − Vef (y) | Qf (dy|x) ≤k Vf − Vef k


x
por lo tanto
k Qf Vf − Qf Vef k≤k Vf − Vef k . (2.17)
Por otro lado k Qf Vef − Q
ef Vef k= supx∈X Qf Vef (x) − Qef Vef (x), y para cada x ∈ X
se tiene que
Z
Qf Vf (x) − Qf Vf (x) =
e e e Vef (y)(Qf (dy|x) − Qef (dy|x))
X
≤k Vef kk Qf (·|x) − Qef (·|x) kT V
≤k Vef k sup k Qf (·|x) − Q ef (·|x) kT V ,
x∈X

por lo tanto
k Qf Vef − Q
ef Vef k≤k Vef k sup k Qf (·|x) − Q
ef (·|x) kT V . (2.18)
x∈X

Entonces de (2.17) y (2.18)


k Cf − C
ef k + α k Qf Vf − Qf Vef k +α k Qf Vef − Q
ef Vef k
≤k Cf − Cef k +α k Vf − Vef k +α sup k Qf (·|x) − Q
ef (·|x) kT V k Vef k .
x∈X

Dado que C e es acotado, es decir, existe k tal que para todo (x, f ) ∈ K, entonces
k k
Vef ≤ para cada f , ası́ k Vef k≤ para cada f . Por lo tanto
1−α 1−α
1 ef k + αk sup k Qf (·|x) − Q
k Vf − Vef k≤ k Cf − C ef (·|x) kT V
1−α (1 − α)2 x∈X
CAPÍTULO 2 28

b) Por el inciso a) tenemos que

1 ef k + αk sup k Qf (·|x) − Q
k Vf − Vef k≤ k Cf − C ef (·|x) kT V
1−α (1 − α)2 x∈X

para cada f ∈ F, luego


1 ef k + αk
sup k Vf −Vef k≤ sup k Cf −C sup sup k Qf (·|x)−Q
ef (·|x) kT V .
f ∈F
e0 1 − α f ∈Fe0 (1 − α)2 f ∈Fe0 x∈X

Ası́
1 e0 ) + αk δQ (F
sup k Vf − Vef k≤ δC (F e0 ).
f ∈F
e0 1−α (1 − α)2

Entonces para cada f ∈ F


e0 se tiene que

1 e0 ) + αk δQ (F
k Vf − Vef k≤ δC (F e0 ),
1−α (1 − α)2

lo cual implica que para cada x ∈ X,


1 e0 ) + αk δQ (F
Vf (x) − Vef (x) ≤ δC (F e0 ),
1−α (1 − α)2

por lo que
1 k e0 )+Vef (x) ≤ Vf (x) ≤ Vef (x)+ 1 δC (F k
δC (F
e0 )+
2
δQ (F e0 )+ δQ (F
e0 ),
1−α (1 − α) 1−α (1 − α)2

y ya que F e0 contiene a las polı́ticas óptimas para los modelos M


f y M , tomando
el ı́nfimo sobre F
e0 se tiene que

1 e0 )+ αk δQ (F e0 )+Ve ∗ (x) ≤ V ∗ (x) ≤ Ve ∗ (x)+ 1 δC (F


e0 )+ αk δQ (F
δC (F 2
e0 ),
1−α (1 − α) 1−α (1 − α)2

por lo tanto
1 e0 ) + αk δQ (F
k V ∗ − Ve ∗ k≤ δC (F e0 ).
1−α (1 − α)2

c) Suponga que f es una polı́tica ven -glotona. Se tiene que

k V ∗ −Vf k=k V ∗ −Ve ∗ +Ve ∗ −Vef +Vef −Vf k≤k V ∗ −Ve ∗ k + k Ve ∗ −Vef k + k Vef −Vf k .
CAPÍTULO 2 29

Por el inciso a)

1 ef k + αk sup k Qf − Q
k Vef − Vf k≤ k Cf − C ef kT V ,
1−α (1 − α)2 x∈X

lo cual implica que


1 e0 ) + αk δQ (F
k Vef − Vf k≤ δC (F e0 ). (2.19)
1−α (1 − α)2

Por otro lado, del inciso b)

1 e0 ) + αk δQ (F
k V ∗ − Ve ∗ k≤ δC (F e0 ). (2.20)
1−α (1 − α)2

Por último, del Lema 7



k Ve ∗ − Vef k≤ k ven − ven−1 k . (2.21)
1−α
Por lo tanto de (2.19), (2.20) y (2.21) se concluye que

∗ 2α  1 αk 
k V − Vf k≤ k ven − ven−1 k +2 δC ( F 0 ) +
e δQ (F0 )
e
1−α 1−α (1 − α)2
CAPÍTULO 2 30
Capı́tulo 3

Un sistema de inventario

Un inventario es la cantidad de existencias de un bien o recurso cualesquiera, un


sistema de inventarios es el conjunto de polı́ticas y controles que rigen el inventario y
determinan que niveles se deben mantener. Los sistemas de inventarios se constituyen
en una empresa con la finalidad de que las demandas de los clientes sean atendidas sin
demora y para que la necesaria continuidad del proceso productivo o adquisitivo no
se vea interrumpida; son una especie de reguladores que mantienen el equilibrio entre
los flujos de entrada y los de salida de la empresa. Lo anterior justifica la elaboración
de modelos matemáticos con el objeto de minimizar sus gastos o costos, sujetos a la
restricción de satisfacer la demanda y que además den respuestas a dos preguntas
claves: ¿Cuándo ordenar? y ¿Cuánto ordenar?.

Este capı́tulo muestra algunos resultados numéricos para ilustrar el enfoque desa-
rrollado en el capı́tulo anterior, para lo cual se toma un problema de control de
inventario.

3.1. Aproximaciones al modelo de inventario


El sistema de inventario que se aborda en este escrito tiene las caracterı́sticas
siguientes:

1. La demanda es aleatoria y continua.

2. El costo es la suma de los costos de adquisición, de almacenamiento y déficit


de inventario.

3. Tiempo de entrega: Inmediato.

31
CAPÍTULO 3 32

4. Ordenes atrasadas: No se consideran.

5. Proceso de Revisión: Revisión Periódica.

6. Horizonte de planeación: Infinito.

7. Número de Artı́culos: Un sólo artı́culo.

8. Capacidad de Alacenamiento: Finita, θ artı́culos, con θ ∈ R.

Como se mencionó anteriormente lo modelos de sistemas de inventario deben dar


respuesta a dos preguntas: ¿Cuándo ordenar? y ¿Cuánto ordenar?, dado que en este
sistema de inventario se asume una Revisión Periódica, al inicio de cada periodo se
realiza una orden, por lo tanto sólo se debe responder ¿Cuánto ordenar?.

En lo que sigue se establece la notación para el Sistema de Inventario.

xt es el inventario al inicio del periodo t.

at es la cantidad ordenada al inicio del periodo t.

ωt es una variable aleatoria que representa la demanda al periodo t.

θ es la capacidad máxima de almacenamiento.

El sistema de inventario evoluciona de acuerdo a la siguiente ecuación

xt+1 = max(0, xn + an − wn ).

El déficit de inventario es max(0, w − i − a).

El costo por adquisición de a artı́culos es c · a, donde c el costo unitario y c > 0.

El costo de almacenamiento es h · (x + a), donde h es el costo unitario de


almacenamiento y h > 0.

El costo por déficit es p · max(0, w − i − a), donde p es el costo unitario por


déficit y p > 0.

El problema es encontrar una estrategia de inventario, es decir, que cantidad de


artı́culos a ordenar en cada periodo de tal modo que se minimice el costo total espe-
rado descontado a lo largo del horizonte de planeación.
CAPÍTULO 3 33

El sistema de inventario considerado tiene las siguientes hipótesis adicionales: {ωt }


es una sucesión de variables aleatorias independientes e identicamente distribuidas
con función de distribución continua F y función de densidad continua ρ. La función
de densidad ρ es una función Lipschitz continua sobre [0, θ] con módulo l y acotada
por una constante k 0 .

El sistema de inventario puede ser modelado como un problema de control con


costo descontado a horizonte infinito, cuyos elementos son:

* Espacio de Estados: X = [0, θ].

* Espacio de Acciones: A = [0, θ].

* Acciones admisibles: A(x) = [0, θ − x], para cada x ∈ X.

* Kernel de transición:

Q(B|x, a) = Eω0 (IB (max(0, x + a − w0 ))), (3.1)

para cada B ∈ B(X) y cada (x, a) ∈ K. Donde Eω0 es la esperanza con respecto
a la función de distribución de w0 . Además w0 cuenta con esperanza ω finita.

* Costos:
El costo por adquisición es c · a.
El costo de almacenamiento por periodo es h · (x + a).
El costo esperado por déficit en cada periodo es p · E(max(0, w − x − a)) Ası́ la
función de costo por etapa es

C(x, a) = p · Ew0 (max(0, w0 − x − a)) + h · (x + a) + c · a,

para cada (x, a) ∈ K.

Observación 10.

a) C es una función continua y acotada sobre K.

b) Para cada x ∈ X, A(x) es un conjunto compacto.

c) Para cada x ∈ X, la multifunción φ de X en A, definida como φ(x) = [0, θ − x]


es continua.
CAPÍTULO 3 34

d) Para v ∈ Mb (X),
Z
v(y)Q(dy|x, a) = Eω0 (v(max(0, x + a − ω0 ))), (3.2)
X

para cada (x, a) ∈ K.

e) El kernel de transición Q es débil continuo sobre K.

f ) Para cada x ∈ X, el kernel de transición Q es fuertemente continuo sobre A(x).

De las observaciones a), b) y e) se concluye que el modelo de inventario satisface la


Hipótesis 1, además de las observaciones a), b), c) y f) el modelo satisface la Hipótesis
2
Por a), b) y e) el modelo de inventario satisface la Hipótesis 1, por a),b),c) y f)
el modelo de inventario satisface la Hipótesis 2.

3.2. Cotas para el modelo perturbado M


f
En [14] se demuestra que una clase de polı́ticas llamadas stock base son óptimas
para un sistema de inventario cuyo modelo de control satisface la Hipótesis 1. De
manera análoga para este modelo perturbado del modelo de control del sistema de
inventario se puede demostrar que las polı́ticas stock base son óptimas.

Definición 8. Una polı́tica determinista estacionaria f es una polı́tica stock base si


f (x) = S − x para cada x ∈ [0, S] y f (x) = 0 para cada x ∈
6 (S, θ], donde la constante
S ∈ [0, θ], con S ≥ 0 es llamado punto de reorden.

Para establecer las cotas de aproximación en este modelo perturbado, se conside-


rara a F
e0 como la clase de las polı́ticas stock base.

Para determinar las cotas de aproximación primero se procederá a estimar δQ (F e0 )


y δC ( F
e0 ), para esto primero se determinaran la ley de transición Q
e y la función de
costos C e para una polı́tica stock base fS con punto de reorden S ∈ [0, θ], es decir,
f (x) = S − x para cada x ∈ [0, S] y f (x) = 0 para cada x 6∈ [0, S]. Para determinar
la ley de transición Q,e se observa que la ley de transición Q queda definida de la
siguiente manera para cualquier v ∈ Cb (X)
Z
QfS v(x) = v(y)Q(dy|x, fS (x)), (3.3)
X
CAPÍTULO 3 35

por lo tanto
(
Eω0 (v(max(0, S − ω0 ))) si x ∈ [0, S]
QfS v(x) = (3.4)
Eω0 (v(max(0, x − ω0 ))) si x ∈ (S, θ],

Luego Z Z
Q
ef v(x) =
S
v(y)Q(dy|z, fS (z))L(dz|x) (3.5)
X X
por lo tanto
(
ef v(x) = E (v(max(0, S − ω0 ))) si x ∈ [0, S]
Q S
R ω0 (3.6)
E (v(max(0, z − ω0 )))L(z|x)
X ω0
si x ∈ (S, θ],

Por otro lado

C(x, fs ) = p · Ew0 (max(0, w0 − x − (fS (x)))) + h · (x + (fS (x))) + c · (fS (x)), (3.7)

por lo tanto
(
p · Ew0 (max(0, w0 − S)) + h · S + c · (S − x) si x ∈ [0, S]
C(x, fs ) = (3.8)
p · Ew0 (max(0, w0 − x)) + h · x si x ∈ (S, θ].

Ası́, considerando al operador promediador de interpolación lineal del Ejemplo 1, la


función de costos es
X−1 si+1 − x
i=N
" #
x − s i
Cef (x) = LCfs (x) = Cf (si ) + Cf (si+1 ) IDi (x). (3.9)
S
i=0
si+1 − si s si+1 − si s

Sea Ms = maxi∈{0,1,...,N −1} (si+1 − si ). Después de algunos cálculos se tiene que para
cada v ∈ Cb (X) con k v k≤ 1
ef v(x) ≤ (2lθ + 4k 0 )· Ms ,
QfS v(x) − Q (3.10)
S

para cada x ∈ [0, θ], entonces


ef (·|x) kT V ≤ (2lθ + 4k 0 )· Ms ,
k QfS (·|x) − Q (3.11)
S

por lo tanto
e0 ) ≤ (2lθ + 4k 0 )· Ms .
δQ ( F (3.12)
Por otro lado

CfS (x) − C
ef (x) ≤ max(h + c − p + p, h − p + 2p + c)· Ms
S
(3.13)
CAPÍTULO 3 36

para cada x ∈ [0, θ]. Lo cual implica que

k C fS − C
ef k≤ max(h + c − p + p, h − p + 2p + c)· Ms
S
(3.14)

Por lo tanto

e0 ) = sup k Cf − C
δC (F ef k≤ max(h + c − p + p, h − p + 2p + c)· Ms . (3.15)
S S
f ∈F
e0

Ası́ por los incisos b) y c) del Teorema 9 se tiene lo siguiente

1 αk
k V ∗ − Ve ∗ k≤ max(h + c − p + p, h − p + 2p + c)· Ms + (2lθ + 4k 0 )· Ms ,
1−α (1 − α)2
(3.16)
y si f ∞ es una polı́tica ven -glotona, entonces

2α 2
k V ∗ − Vf ∞ k ≤ k ven − ven−1 k + · max(h + c − p + p, h − p + 2p + c)· Ms
1−α 1−α
2αk
+ 2
· (2lθ + 4k 0 )· Ms .
(1 − α)

Se observa que la cota para k V ∗ − Vf ∞ k depende de Ms por lo que en el modelo


M
f las cotas de aproximación al punto fijo se pueden hacer arbitrariamente pequeñas
tomando refinamientos de la partición establecida del intervalo [0, θ] y haciendo un
número suficiente de iteraciones.

3.3. Implementación
En esta sección se implementa el algoritmo de iteración de valores aproximado en
un sistema de inventario con los siguientes datos:

θ = 40, por lo que X = A = [0, 40].

α = 0.6

La demanda ω0 tiene una función de densidad exponencial ρ con parámetro


λ = 0.1, es decir,
(
(0.1) exp−(0.1)x si x ≥ 0
ρ(x) = (3.17)
0 en caso contrario ,
CAPÍTULO 3 37

con función de distribución


(
1 − exp−(0.1)x si x ≥ 0
F (x) = (3.18)
0 en caso contrario ,

1
y valor esperado Eω0 (ω0 ) = .
λ
Observe también que ρ es acotada por k 0 = λ = 0.1 y es Lipschitz con módulo
l = λ2 = 0.01.

Para la función de costos c = 1.5, h = 0.5 y p = 3, por lo cual

C(x, a) = 3 · Ew0 (max(0, w0 − x − a)) + (0.5) · (x + a) + (1.5) · a,

para cada (x, a) ∈ K. Ası́ considerando x = 20 y a ∈ A(x) = {0}, una cota


para C es k = 22.

De los datos anteriores se puede obtiene lo siguiente


e0 ) ≤ (0.84)· Ms .
a) δQ (F
e0 ) ≤ 10· Ms .
b) δC (F

c) k V ∗ − Ve ∗ k≤ (94.3)· Ms

d) Para una polı́tica f, ven -glotona

k V ∗ − Vf ∞ k≤ 3 k ven − ven−1 k +(188.6)· Ms (3.19)

Para el modelo Mf las cotas dependen del refinamiento del espacio de estados, lo
cual permite controlar la aproximación.

En la implementación del algoritmo de iteración de valores aproximado se consi-


deró un error de aproximación de tamaño  = .001, al implementarlo se obtuvo que la
iteración n = 21 es la primera que satisface la condición deseada en el algoritmo con
un tamaño de la partición N = 100, obteniendo una polı́tica stock base con punto de
reorden S = 6.4.

En siguiente imagen se pueden observar las funciones iteradas evaluadas ven con
n = 1, 2, ..., 21.
CAPÍTULO 3 38

Figura 3.1: Funciones vev , con n=1,2,...,21,  = .001, N = 100


Conclusiones

En este trabajo se estudió un esquema de aproximación a la solución óptima de


un proceso de control de Markov mediante el algoritmo de iteración de valores. La
metodologı́a consiste en aproximar el operador de programación dinámica T mediante
un operador aproximador que se expresa como la composición de un operador L con
el operador de programación dinámica T , y que esté asociado a un modelo de control.

La clase de operadores L denominados operadores promediadores tienen propie-


dades que permiten establecer los errores de aproximación entre la solución óptima
del modelo original y el desempeño de la polı́tica glotona obtenida del algoritmo
aproximado en términos del error de convergencia establecido en el algoritmo y del
error entre la solución óptima del modelo original y la solución del modelo perturbado.

Con un ejemplo se muestra que mediante una elección adecuada del operador
promediador es posible reducir la complejidad numérica con respecto a la variable
de estado, sin embargo no se reduce la complejidad del problema sobre el espacio
de acciones, por lo que serı́a de interés formular un esquema de aproximación para
reducir la complejidad en ambas variables.

Se puede probar que la clase de operadores que tengan las propiedades desea-
das, no puede extenderse más allá de los promediadores, por lo cual serı́a interesante
estudiar un enfoque más general por ejemplo aproximar directamente al modelo de
control mediante modelos de control más sencillos donde sea posible implementar
métodos de iteración de polı́ticas.

39
APÉNDICE A 40
Apéndices

41
Apéndice A

Lema 8.
a) Si el modelo de control M satisface la Hipótesis 1, entonces para cada v ∈
Mb (X), existe un selector fe, v−glotona para el operador Te.
b) Suponga que L(Cb (X)) ⊂ Cb (X). Si modelo de control M satisface la Hipóte-
sis 2 entonces para cada v ∈ Cb (X), existe un selector fe, v−glotona para el
operador Te.
Demostración:
a) Sea u ∈ Mb (X), ya que el modelo M satisface la Hipótesis 1, por la parte a)
del Lema 1 existe una polı́tica f ∈ F, u−glotona para el operador T , esto es,
Z
T u = C(x, f (x)) + α u(y)Q(dy|x, f (x)),
X

y por monotonı́a y linealidad de L


Z
Teu(x) = LT u(x) = C(x,
e f) + α u(y)Q(dy|x,
e f ),
X

es decir, f es u−glotona para el operador Te.


b) Sea u ∈ Cb (X), ya que el modelo M satisface la Hipótesis 2, por la parte b) del
Lema 1 existe una polı́tica f ∈ F, u−glotona para el operador T , esto es,
Z
T u = C(x, f (x)) + α u(y)Q(dy|x, f (x)),
X

y por monotonı́a y linealidad de L


Z
Teu(x) = LT u(x) = C(x,
e f) + α u(y)Q(dy|x,
e f ),
X

es decir, f es u−glotona para el operador Te.

43
APÉNDICE A 44

Lema 9.
a) Si el modelo de control M satisface la Hipótesis 1, entonces Te : Mb (X) 7→
Mb (X) es un operador de contracción con módulo α. Existe una única u∗ ∈
Mb (X) tal que Teu∗ = u∗ , y para cualquier función v ∈ Mb (X)

lı́m k Ten v − u∗ k= 0. (20)


n7→∞

Además para cada u∗ ∈ Mb (X) no negativa , si Teu ≤ u, entonces Ve ∗ ≤ u.


b) Suponga que L(Cb (X)) ⊂ Cb (X). Si modelo de control M satisface la Hipótesis
2, entonces Te : Cb (X) 7→ Cb (X) es un operador de contracción con módulo
α. Existe una única u∗ ∈ Cb (X) tal que Teu∗ = u∗ , y para cualquier función
v ∈ Cb (X) se cumple 20. Además para cada u∗ ∈ Cb (X) no negativa, si Teu ≤ u,
entonces Ve ∗ ≤ u.
Demostración:
a) Se demostrará que Te es un operador de contracción, ası́ como consecuencia del
Teorema del Punto fijo de Banach se tendrá que existe una única u∗ ∈ Mb (X)
tal que Teu∗ = u∗ , y para cualquier función v ∈ Mb (X) se cumplirá (20). Sean
u, v ∈ Mb (X), como M satisface la Hipótesis 1, por por la parte a) del Lema 2
T es un operador de contracción con módulo α y del inciso 2) de la Observación
5, L es no expansivo, entonces
k Teu − Tev k=k LT u − LT v k=k L(T u − T v) k≤k T u − T v k≤ α k u − v k .

Por lo tanto Te es un operador de contracción módulo α. Por otro lado, para


cada u ∈ Mb (X), suponga que Teu ≤ u, por la parte a) del Lema 8, existe f tal
que Z
u(x) ≥ T u = C(x, f ) + α
e e u(y)Q(dy|x,
e f ), (21)
X
para todo x ∈ X, usando 21 iteradamente,
Z Z
u(x) ≥ T u = C(x, f ) + α
e e u(y)Q(dy|x, f ) ≥ C(x, f ) + α
e e Teu(y)Q(dy|x,
e f)
Z X Z X

= C(x, f ) + α (C(y, f ) + α
e e u(z)Q(dz|y,
e f ))Q(dy|x,
e f)
ZX X Z Z
2
= C(x, f ) + α
e C(y, f )Q(dy|x, f ) + α
e e u(z)Q(dz|y,
e f )Q(dy|x,
e f)
ZX X
Z ZX

≥ C(x,
e f) + α C(y,
e f )Q(dy|x,
e f ) + α2 Teu(z)Q(dz|y,
e f )Q(dy|x,
e f ).
X X X
APÉNDICE A 45

Se concluye que
n−1
X 
u(x) ≥ Efx αt C(x
e t , f ) + αn Efx (u(xn )), (22)
t=0

para todo x ∈ X, y dado que u es no negativa


n−1
X 
u(x) ≥ Efx αt C(x
e t, f ) (23)
t=0

para todo n ∈ N. Tomando n 7→ ∞, entonces

u(x) ≥ V (f, x) ≥ Ve ∗ (x),

para todo x ∈ X.
b) La demostración de la parte b) es análoga.
Lema 10.
a) Si el modelo de control M satisface la Hipótesis 1, entonces para cada f ∈ F,
Tef : Mb (X) 7→ Mb (X) es un operador de contracción con módulo α, Vef es
el único punto fijo de Tef en Mb (X), y para cualquier función v ∈ Mb (X) se
cumple
lı́m k Tefn v − Vef k= 0. (24)
n7→∞

b) Suponga que L(Cb (X)) ⊂ Cb (X). Si modelo de control M satisface la Hipótesis


2, entonces para cada f ∈ F, Tef : Cb (X) 7→ Cb (X) es un operador de contracción
con módulo α, Vef es el único punto fijo de Tef en Cb (X), y para cualquier función
v ∈ Cb (X) se cumple (24).
Demostración:
a) Sea f ∈ F fijo, y u, v ∈ Mb (X), como M satisface la Hipótesis 1, por por la
parte a) del Lema 3, Tf es operador de contracción con módulo α y del inciso
2) de la Observación 5, L es no expansivo, entonces

k Tef u− Tef v k=k LTf u−LTf v k=k L(Tf u−Tf v) k≤k Tf u−Tf v k≤ α k u−v k .

Por lo tanto Tef es de contracción. Por otro lado



X  ∞
X 
Vef (x) = Efx t f
α C(xt , f ) = C(x, f ) + αEx
e e αt−1 C(x
e t, f ) (25)
t=0 t=1
APÉNDICE A 46

donde

X   X∞ 
Efx α t−1 f
C(xt , f ) = Ex Ex
e f t−1 e
α C(xt , f ) h1
t=1 t=1
 ∞
X 
= Efx Efx1 αt−1 C(x
e t, f )
t=1
  Z
= Efx Vf (x1 ) =
e Vef (y)Q(dy|x,
e f ).
X

Por lo tanto Z
Vef (x) = C(x,
e f) + Vef (y)Q(dy|x,
e f ),
X

es decir, Vef es punto fijo de Tef , y dado que Tef es de contracción el punto fijo
es único.

b) La demostración de la parte b) es análoga.


Bibliografı́a

[1] Almudevar A., Approximate fixed point iteration with an application to infinite
horizon Markov decision processes. SIAM Journal on Control and Optimization
46:541-561, 2008.

[2] Bellman E., Dynamic Programming, Princeton University Press, Princeton,


NJ.,1957.

[3] Bertsekas D.P., Dynamic Programming and Optimal Control, 3rd Edition, Volu-
me I, Athena Scientific, Belmont, Massachusetts.

[4] Bertsekas, D.P., Shreve, S.E.,Stochastic Optimal Control: The Discrete Time
Case, Athena Scientific, Belmont , Massachusetts, 1996.

[5] Cayley A., Mathematical questions with their solutions, No. 4528, Education
Times, 23, 18, (1875).

[6] Hernández-Lerma O.,Adaptive Markov Control Processes, Springer-Verlag, NY,


1989.

[7] Hernández-Lerma O., Lasserre J.B., Discrete-time Markov control processes. Ba-
sic optimality criteria, Springer-Verlag, NY, 1996.

[8] Howard, R.A., Dynamic Programming and Markov Processes, Wiley, New York,
1960.

[9] Kallenberg L., Markov Decisión Processes, University Of Leiden, 2009.

[10] Puterman M. L., Markov Decision Processes: Discrete Stochastic Dynamic Pro-
gramming, Hoboken, New Jersey, USA, Wiley, 1994.

[11] Shiryaev, A.N., Probability, Graduate texts in mathematics, Springer-Velarg,


New York, 1996.

47
BIBLIOGRAFÍA 48

[12] Stachurski J., Continuous state dynamic programming via nonexpansive appro-
ximation, Computational Economics 31, 2008, 141-160.

[13] Vega-Amaya O., López-Borbón J., A Perturbation Approach for a Class of


Discounted Approximate Value Iteration Algorithms. Journal of Dynamics and
Games American Institute of Mathematical Sciences Volume 3 , Number 3 , July
2016

[14] Vega Amaya O., Montes de Oca R., Application of average dynamic program-
ming to inventory systems. Mathematical Methods of Operations Research,1998.

También podría gustarte