Garrido Ramirez Lizbeth

Universidad Veracruzana
Facultad de Matemáticas
Aproximaciones a procesos
de decisión de Markov, bajo
el criterio costo descontado
TESIS
que para obtener el grado de
Maestro
en
Matemáticas
P R E S E N T A:
Lizbeth Yolanda Garrido Ramı́rez
DIRECTOR DE TESIS:
Dr. Jorge Álvarez Mena
CODIRECTOR DE TESIS:
Dr. Oscar Vega Amaya
Diciembre del año 2016 Xalapa, Ver. México

Índice general
Introducción IV
1. Algoritmo de iteración de valores 1

1.1. Problema de control con costo descontado a horizonte infinito . . . . 1
1.2. Existencia y cálculo de polı́ticas óptimas . . . . . . . . . . . . . . . . 8
2. Operadores de aproximación y modelos perturbados 15

2.1. Operador promediador . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2. Modelo perturbado M f . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.1. Existencia y aproximación de polı́ticas óptimas . . . . . . . . 20
2.3. Cotas de aproximación . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3. Un sistema de inventario 31
3.1. Aproximaciones al modelo de inventario . . . . . . . . . . . . . . . . 31
3.2. Cotas para el modelo perturbado M f . . . . . . . . . . . . . . . . . . 34
3.3. Implementación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
Conclusiones 39
Apéndices 40
43
Bibliografı́a 47
iii
Introducción
Uno de los principales enfoques para abordar el problema del cálculo y aproxima-
ción de polı́ticas óptimas y de la función valor, como se muestra en [3], [6] y [8], es
el método de iteración de valores el cual resalta por la sencillez de su planteamien-
to. El método se reduce a calcular aproximaciones al punto fijo de un operador de
contracción, denominado operador de programación dinámica, mediante iteraciones
o composiciones sucesivas de este. Cada iteración del operador requiere de encontrar
el mı́nimo (o máximo) y el argmin (o argmax) de una función, para cada estado del
sistema. Hallar el mı́nimo y el argmin puede ser un problema complejo, y definitiva-
mente el método es inviable de implementarse computacionalmente en sistemas con
una cantidad infinita de estados.
Una manera de hacer frente al problema planteado es el siguiente: para un modelo
de control M con operador de programación dinámica T proponer un “operador
aproximador” Te de manera que cumpla las siguientes condiciones:
a) Te sea el operador de programación dinámica para algún modelo de control de

Markov M f, con el claro propósito de aprovechar los resultados clásicos sobre
iteración de valores en modelos de control de Markov.
b) Sea viable implementar el algoritmo de iteración de valores con Te.
Bajo las condiciones mencionadas arriba, se propone aproximar a la función valor

y a la polı́tica óptima del modelo original M mediante el algoritmo de iteración de
valores aplicado al modelo aproximado M f. Este proceso es conocido como método de
iteración de valores aproximado. El método que se ha descrito abr cuestionamientos
sobre el error de aproximación. Claramente se involucran dos errores, el error en que
se incurre al aproximar a T mediante Te, y el error inherente al método de iteración
de valores usado en M f. Sin embargo no se debe perder de vista que el error de
interés es el que resulta al usar la polı́tica π obtenida con el método de iteración de
polı́ticas para Mf en el modelo original M , es decir, es de interés la diferencia entre
el desempeño de π con respecto al modelo M y la función valor de M .
v
El enfoque anterior, pero sin la propiedad a), es abordado en los artı́culos [1] y
[12]. Ambos proponen al aproximador Te como la composición del operador de pro-
gramación dinámica T con un operador L, llamado promediador o de aproximación,
–el cual tiene la propiedad de no expansividad, lo que garantiza que el aproximador
LT , al igual que T , sea un operador de contracción– y determinan una cota de error
debido al uso del algoritmo de iteración de valores en M f, para aproximar la solución
del modelo original M .
En el artı́culo [13] se usa el método de [1] y [12], pero introducen condiciones
adicionales sobre los operadores promediadores de tal manera que el aproximador LT
sea un operador de programación dinámica para un modelo de control de Markov, es
decir, su enfoque satisface las propiedades a) y b).
El objetivo de este trabajo es desarrollar de forma detallada y autocontenida los
principales resultados de [13]; A Perturbation Approach for a Class of Discounted
Approximate Value Iteration Algorithms de Óscar Vega Amaya y Joaquı́n López
Borbón; sobre la aproximación de valores y polı́ticas óptimas mediante método de
iteración de valores aproximado, satisfaciendo las condiciones a) y b).
Los procesos de control tienen importante reconocimiento por sus aplicaciones
en diversas áreas como economı́a, ecologı́a e ingenierı́a en comunicaciones. En [8] se
presentan ejemplos de aplicaciones de los procesos de decisión de Markov como son
en el control de inventarios y problemas de paro óptimo.
La teorı́a de los Procesos de Decisión de Markov tiene sus orı́genes en los problemas
del Cálculo de Variaciones del siglo XVII. Cayley en su artı́culo [5] de 1875 propuso
un interesante problema que contiene muchos de los ingredientes clave de los Procesos
de Decisión. El enfoque matemático moderno para Procesos de Decisión inició con
el trabajo de Abraham Wald (1902 - 1950) sobre problemas estadı́sticos durante la
Segunda Guerra Mundial y publicado en 1947. Sin embargo la teorı́a cobró vida
hasta la publicación del libro de Bellman, Dynamic Programming [2], y el libro de
Howard, Dynamic Programing and Markov Processes [8], publicados en 1957 y 1960,
respectivamente.
El contenido del escrito se encuentra organizado de la siguiente manera: en el
Capı́tulo 1 se establecen las Hipótesis de optimalidad sobre los elementos del modelo
de control que garantizan la existencia de polı́ticas óptimas deterministas y estacio-
narias. Además se presentan resultados sobre convergencia del algoritmo de iteración
de valores y polı́ticas, y se presenta una cota para error de aproximación.
En el Capı́tulo 2 se introducen los operadores de aproximación y el modelo de
control asociado a los operadores; se presentan resultados sobre existencia polı́ticas
óptimas y la convergencia del algoritmo de iteración de valores para el modelo apro-
ximado. Se presenta una cota para error que se incurre al usar la polı́tica obtenida
por el algoritmo de iteración de valores aproximado en el modelo original.
El Capı́tulo 3 tiene como propósito implementar el algoritmo de Iteración de
Valores aproximado en lenguaje Pythom para un modelo de control de un ejemplo
de sistema de inventario.
Capı́tulo 1
Algoritmo de iteración de valores
En este capı́tulo se plantea el problema principal de la teorı́a de los procesos de

Decisión de Markov denominado problema de control y además se presentan algunos
resultados sobre la existencia y aproximación de soluciones a este problema. Los
resultados que aquı́ se presentan están contenidos en [3] y [7].
1.1. Problema de control con costo descontado a

horizonte infinito
El proceso de toma de decisiones evoluciona de la manera siguiente: al inicio el
sistema se encuentra en un estado, el controlador observa el estado, decide una acción
y la ejecuta. Debido al estado en que se encuentra el sistema y la acción ejecutada se
incurre en un costo y el sistema transita a un nuevo estado de acuerdo a una ley de
transición probabilista. Nuevamente el controlador, con base en la historia del proce-
so, toma una acción y se incurre un costo, el sistema evoluciona a un nuevo estado y
la situación anterior se repite. Una realización del proceso de toma de decisiones es
una sucesión de estados y acciones admisibles generada por la dinámica del proceso
y las decisiones del controlador. Cada realización genera una sucesión de costos por
periodo que son usados para evaluar la polı́tica implementada por el controlador.
Un espacio de Borel es un subconjunto de Borel de un espacio métrico completo

y separable. Para cada espacio de Borel Ω se denota por B(Ω) a la σ-álgebra de Borel
de subconjuntos de Ω. Para un conjunto B ∈ B(Ω) se denota por IB a la función
indicadora definida sobre Ω como IB (x) = 1 si x ∈ B y IB (x) = 0 si x ∈ Ω \ B.
1
CAPÍTULO 1 2
Modelo de control
El Modelo de control M para el proceso de toma de decisiones a tiempo discreto
es una quı́ntupla:
(X, A, {A(x)|x ∈ X}, Q, C), (1.1)
donde:
1) X es un espacio de Borel, llamado espacio de estados.
2) A es un espacio de Borel, llamado espacio de acciones.
3) Para cada x ∈ X, A(x) es un subconjunto de A y se denomina conjunto de

acciones admisibles cuando el sistema se encuentra en el estado x. El conjunto
K de parejas estado acción admisible está definido por:
K := {(x, a)|x ∈ X, a ∈ A(x)}.
4) Q es un kernel estocástico sobre X dado K, es decir, para cada B ∈ B(X),

Q(B|·) : K 7→ R es una función Borel medible sobre K, y para cada (x, a) ∈ K,
Q(·|x, a) : B(X) 7→ R es una medida de probabilidad sobre el espacio medible
(X, B(X)). En este contexto a Q se le llama ley de transición, ya que es utilizada
para determinar la dinámica del sistema.
5) C : K 7→ R es una función Borel medible no negativa, llamada función de costo

por etapa.
Polı́ticas
Una historia es la colección de estados y acciones admisibles de una realización
del proceso de decisión. Con los elementos del modelo la historia del proceso de toma
de decisiones se puede describir como sigue: al inicio del proceso, periodo t = 0, el
sistema se encuentra en un estado x0 , la historia hasta este periodo es h0 = (x0 ). El
controlador, con base en el estado x0 decide un acción a0 ∈ A(x0 ), y se incurre en un
costo C(x0 , a0 ). El sistema transita a un nuevo estado x1 de acuerdo a la distribución
de probabilidad Q(·|x0 , a0 ). Entonces la historia al periodo 1 es h1 = (x0 , a0 , x1 ). De
nuevo el controlador con base en h1 ejecuta una acción a1 ∈ A(x1 ), y se incurre en un
costo C(x1 , a1 ) y la situación se repite. Si ht = (x0 , a0 , ..., xt−1 , at−1 , xt ) es la historia al
periodo t y el controlador con base en ht ejecuta la acción at , entonces el sistema tran-
sita al estado xt+1 , y la historia hasta el periodo t + 1 es ht+1 = (x0 , a0 , ..., xt , at , xt+1 ).
CAPÍTULO 1 3
Para cada t ∈ {0, 1, ..., }, sea Ht el conjunto de posibles historias al tiempo t,

entonces H0 = X y para t ≥ 1, Ht = Kt × X, donde Kt se define inductivamente
como K1 = K y Ks = Ks−1 × K para s ≥ 2.
Una polı́tica es una sucesión φ = {π0 , π1 , π2 , ...} de kerneles estocásticos πt sobre

el conjunto de acciones A dado Ht , tales que π(A(xt )|ht ) = 1. Se denota por Π al
conjunto de todas las polı́ticas.
Las polı́ticas se clasifican de acuerdo al tipo de kernel de los que esta compuesta,
y estos se agrupan de acuerdo a la parte que usan de la historia.
Una polı́tica φ = {π0 , π1 , π2 , ...} es de Markov si los kerneles πt sólo dependen del
último estado xt de la historia ht , es decir, πt (·|ht ) = πt (·|xt ) para cada t ∈ {0, 1, ..., }.
Una polı́tica de Markov φ = {π0 , π1 , π2 , ...} es estacionaria si los kerneles es-

tocásticos {πt } no cambian con el periodo, es decir, πt (·|ht ) = π(·|xt ) para cada
t ∈ {0, 1, ...}. En este caso se escribe φ = {π, π, π, ...} o simplemente π.
Sea F el conjunto de los selectores medibles, es decir, funciones medibles f : X 7→ A

tal que para cada x ∈ X, f (x) ∈ A(x).
Una polı́tica de Markov es determinista si para cada t ∈ {0, 1, ..., }, πt (a|xt ) = 1

para algún a ∈ A(xt ), o bien, si existe un selector ft ∈ F, tal que πt (·|xt ) = I{ft (xt )} (·)
con ft (xt ) ∈ A(xt ).
Una polı́tica de Markov estacionaria φ = {π, π, π, ...} es determinista si para cada

x ∈ X, π(a|x) = 1 para algún a ∈ A(x), o bien, si existe un selector f ∈ F, tal que
π(a|x) = I{a} (f (x)) con f (x) ∈ A(x). Si φ es una polı́tica de Markov estacionaria
determinista y está definida por un selector f , entonces se escribe φ = f ∞ o solo f .
En adelante cuando se hace referencia a una polı́tica determinista estacionaria f ∞ ,
se entenderá que f es un selector que define a la polı́tica.
Un caso particular de las polı́ticas deterministas estacionarias f ∞ es cuando el

selector es una función constante, es decir, f (x) = a para cada x ∈ X cuando el
modelo admite este tipo de polı́ticas. En este caso se denotará la polı́tica determinista
constante como f ∞ = a.
CAPÍTULO 1 4
Problema de control
Se considera una realización del proceso de decisión ((x0 , a0 ), (x1 , a1 ), ..., (xt , at ), ...)
en la que el controlador ha ejecutado la polı́tica π y la correspondiente sucesión de
costos por etapa (C(x0 , a0 ), C(x1 , a1 ), ..., C(xt , at ), ...). Una manera intuitiva de medir
el desempeño de la polı́tica π para dicha realización es, por ejemplo, con el criterio
costo descontado:
X∞
αt C(xt , at ), para α ∈ (0, 1). (1.2)
t=0
Medir el desempeño de una polı́tica a partir de realizaciones no es viable, ya que,

debido a la dinámica aleatoria del proceso, es posible obtener realizaciones diferentes
que arrojan valores distintos para el desempeño de la polı́tica. Se requiere definir el
desempeño de una polı́tica de tal manera que no cambie con cada realización. Una
manera de abordar el problema anterior es construir un espacio de probabilidad que
sea consistente con la dinámica del proceso de decisión, es decir, en este espacio de
probabilidad la sucesión de parejas admisibles forma un proceso estocástico, y en
consecuencia la sucesión de costos también. Teniendo esta estructura probabilista, es
posible emplear la esperanza en (1.2) para medir el desempeño de una polı́tica.
En lo que sigue se construye dicho espacio de probabilidad para lo cual se emplea

el Teorema de Iunesco Tulcea, ver [11] pag. 249.
Para cada t ∈ {0, 1, 2, 3, ...}, sea (Ωt , Ft ) el espacio medible donde Ωt = X × A y

Ft = B(X × A). Sea ν una medida de probabilidad sobre (X, B(X)), conocida como
distribución inicial y π = (πt ) una polı́tica. Se define P0 función real sobre F0 como:
Z
P0 (B) := ν(dx0 )π0 (da0 |x0 ) (1.3)
B
para cada B ∈ F0 . Entonces P0 es una medida de probabilidad sobre (Ω0 , F0 ). Sea

t ∈ {0, 1, 2, 3, ...}. Para cada B ∈ Ft+1 y (x0 , a0 , ..., xt , at ) ∈ Ω0 × · · · × Ωt , se define
Z
Pt+1 (B|x0 , a0 , ..., xt , at ) := Q(dxt+1 |xt , at )πt+1 (dat+1 |x0 , a0 , ..., xt , at , xt+1 ). (1.4)
B
Entonces para cada (x0 , a0 , ..., xt , at ) ∈ Ω0 × · · · × Ωt , Pt+1 (·|x0 , a0 , ..., xt , at ) es una

medida de probabilidad sobre Ωt+1 , y para cada B ∈ Ft+1 , Pt+1 (B|·) es una función
Borel medible sobre Ω0 × · · · × Ωt . Por lo tanto Pt+1 es un kernel estocástico sobre
Ft+1 dado Ω0 × · · · × Ωt .
CAPÍTULO 1 5
Para cada t ∈ {0, 1, 2, 3, ...} se define la función Pt sobre rectángulos de Ω0 × · · · ×

Ωt de la manera siguiente:
Z Z
Pt (B0 × · · · × Bt ) := P0 (d(x0 , a0 )) P1 (d(x1 , a1 )|(x0 , a0 ))
B0 B1
Z (1.5)
··· Pt (d(xt , at )|(x0 , a0 ), · · · (xt−1 , at−1 ))
Bt
para cada B0 × · · · × Bt ∈ Ω0 × · · · × Ωt . Con los elementos anteriores el Teorema

de extensión de Caratheodory, establece que existe una media P sobre (Ω0 × · · · ×
Ωt , F0 ⊗ · · · ⊗ Ft ) tal que P coincide con Pt sobre los rectángulos B0 × · · · × Bt .
Sean Ω = ×∞ ∞
t=0 Ωt y F = ⊗t=0 Ft . Con los elementos anteriores el Teorema de
Iunesco Tulcea asegura la existencia de una medida de probabilidad Pπv , sobre (Ω, F)
el espacio de trayectorias o el espacio canónico, tal que para cada t ∈ {0, 1, 2, 3, ...}
Pπν {ω ∈ Ω(x0 , a0 ) ∈ B0 , · · · , (xt , at ) ∈ Bt } = Pt (B1 × · · · × Bt ) (1.6)
para cada B0 × · · · × Bt ∈ F0 × · · · × Ft . El Teorema también afirma que existe un

proceso estocástico ξ = ((X0 , A0 ), (X1 , A1 ), ...) sobre (Ω, F) tal que
Pπν ((X0 , A0 ) ∈ B0 , · · · , (Xt , At ) ∈ Bt ) = Pt (B1 × · · · × Bt ) (1.7)
para cada rectángulo B0 × · · · × Bt ∈ F0 × · · · × Ft .

Observación 1. La medida Pt en (1.5) se puede escribir informalmente de la si-
guiente manera:
Pt (d(x0 , a0 ), · · · , (d(xt , at )) = P0 (d(x0 , a0 ))P1 (d(x1 , a1 )|(x0 , a0 )) · · · Pt (d(xt , at )|ht−1 )
con ht−1 = (x0 , a0 , · · · xt−1 , at−1 ); aún más, de (1.3) y (1.4)
Pt (dx0 , da0 , · · · , dxt , dat ) = ν(dx0 )π0 (da0 |x0 )Q(dx1 |x0 , a0 )π1 (da1 |x0 , a0 , x1 )
(1.8)
· · · Q(dxt |xt−1 , at−1 )πt (dat |ht−1 )
Ası́ Pπν se puede representar como sigue:
Pπν (dx0 , da0 , dx1 , da1 , · · · ) = ν(dx0 )π0 (da0 |x0 )Q(dx1 |x0 , a0 )π1 (da1 |x0 , a0 , x1 ) · · ·
En resumen, para cada polı́tica π y distribución de estado inicial ν, el Teorema de

Ionescu Tulcea garantiza la existencia de una medida de probabilidad sobre (Ω, F),
el espacio canónico, que se denota por Pπν y satisface (1.7). Si existe x ∈ X tal que
CAPÍTULO 1 6
ν({x}) = 1 se dice que el estado inicial del proceso es x, entonces se escribe Pπx en
lugar de Pπν . La esperanza con respecto a la medida de probabilidad Pπν se denota
mediante Eπν , o Eπx para Pπx .
El criterio para medir el desempeño de las polı́ticas que se utiliza en este trabajo,
se denomina costo esperado descontado con horizonte infinito y se define como sigue:
para cada polı́tica π y estado inicial x,
" ∞ #
X
V (π, x) = Eπx αn C(xn , an ) , (1.9)
n=0
donde α es un número fijo en el intervalo (0, 1), llamado factor de descuento. Para
cada estado x, se denota por V ∗ (x) a la función valor, es decir,
V ∗ (x) = ı́nf V (π, x). (1.10)
π∈Π
El problema de control consiste en encontrar una polı́tica π ∗ ∈ Π tal que para

cada x ∈ X
V ∗ (x) = V (π ∗ , x). (1.11)
Una polı́tica que satisface (1.11) se llama polı́tica óptima.
Una de las hipótesis en los elementos del Modelo de control es que tanto la ley
de transición como el costo por etapa son funciones Borel medibles sobre K. Dicha
hipótesis se requiere en la construcción del espacio de probabilidad y en la definición
del desempeño.
Observación 2.
a) Para una polı́tica de Markov π, el espacio canónico se puede establecer única-
mente con el espacio de estados, es decir, Ω = ×∞ ∞
t=1 X y F = ⊗t=1 B(X). Asi el
proceso de estados (xt ) es un proceso de Markov sobre (Ω, F) y
Pπν (dx0 , dx1 , dx2 , · · · ) = ν(dx0 )Q(dx1 |x0 , π0 )Q(dx2 |x1 , π1 )Q(dx3 |x2 , π2 ) · · · .
donde Z
Q(·|xt , πt ) = Q(·|xt , at )πt (dat |xt ) (1.12)
A
para cada t ∈ {0, 1, 2, 3, ...}.
b) Para una polı́tica π = f ∞ de Markov estacionaria determinista
∞
Pfν (dx0 , dx1 , dx2 , · · · ) = ν(dx0 )Q(dx1 |x0 , f (x0 ))Q(dx2 |x1 , f (x1 ))
Q(dx3 |x2 , f (x2 )) · · · .
CAPÍTULO 1 7
c) Si se considera una polı́tica estacionaria determinista y constante f ∞ = a,

entonces
Pπν (dx0 , dx1 , dx2 , · · · ) = ν(dx0 )Q(dx1 |x0 , a)Q(dx2 |x1 , a)Q(dx3 |x2 , a) · · · .
En este caso no son necesarias las hipótesis de medibilidad sobre la variable de
acciones en C y Q, para la construcción del espacio canónico y en la definición
del desempeño.
Observación 3. Ahora se considera un proceso de decisión en el que, por restriccio-
nes tecnológicas solo es posible emplear polı́ticas deterministas estacionarias y cons-
tantes. Un modelo de control para el proceso de decisión con dicha restricción debe
ser de la forma
M = (X, A, {A(x) = A|x ∈ X}, Q, C) (1.13)
donde en este caso:
- X es un espacio de Borel.
- A es un espacio de Borel.
- Para cada x ∈ X, el conjunto de acciones admisibles es A(x) = A. El conjunto
K está definido por:
K := {(x, a)|x ∈ X, a ∈ A}.
- Para cada B ∈ B(X) y para cada a ∈ A, Q(B|·, a) : X 7→ R es una función

Borel medible sobre X, y para cada (x, a), Q(·|x, a) : B(X) 7→ R es una medida
de probabilidad sobre el espacio medible (X, B(X)).
- Para cada a ∈ A, C(·, a) : X 7→ R es una función medible sobre X no negativa.
Una polı́tica estacionaria determinista y constante queda determinada por una acción
a ∈ A, la que el controlador emplea en cada caso y en todo momento. Para cada
polı́tica estacionaria determinista y constante determinada por a ∈ A, el espacio
canónico (Ω, F) involucra sólo al espacio de estados y el proceso de estados {xt } es
un proceso de Markov, (ver incisos b) y c) de la Observación 2). Ası́ el desempeño
de f ∞ = a es " ∞ #
X
V (a, x) = Eax αn C(xn , a) , (1.14)
n=0
donde α es un número fijo en el intervalo (0, 1). Para cada estado x, se denota por
∗
V (x) a la función valor, es decir,
∗
V (x) = ı́nf V (a, x). (1.15)
a∈A
CAPÍTULO 1 8
El problema de control consiste en encontrar una acción a∗ ∈ A tal que para cada
x∈X
∗
V (x) = V (a∗ , x).
1.2. Existencia y cálculo de polı́ticas óptimas

Hipótesis de optimalidad. El Teorema de selección medible es un resultado
básico que permite establecer condiciones que garantizan la existencia de polı́ticas
óptimas deterministas y estacionarias; algunas versiones de este se pueden ver en [7]
y [6]. Aquı́ se presenta un versión especializada al modelo de control.
Con M (X) se denota la colección de funciones reales medibles de X en R, y

con Mb (X) al espacio de Banach de las funciones medibles y acotadas con la norma
supremo. Se denota con C(X) a la colección de las funciones continuas sobre X y
con Cb (X) al espacio de Banach de las funciones continuas y acotadas con la norma
supremo.
Definición 1. Una multifunción o correspondencia φ de X en A es una función

con dominio en X tal que para cada x ∈ X, φ(x) es un subconjunto no vacı́o de A.
Definición 2. Se dice que el kernel estocástico Q es débil continuo si para cada

u ∈ Cb (X), la función v 0 : K 7→ R definida como
Z
0
v (x, a) := u(y)Q(dy|x, a) (1.16)
X
es continua y acotada sobre K. Se dice que Q es fuertemente continuo sobre A(x) si

para cada u ∈ Mb (X), v 0 (x, ·) es continua y acotada sobre A(x) para cada x ∈ X.
Se consideran dos conjuntos de hipótesis sobre el modelo de control M :
Hipótesis 1.
a) El conjunto de acciones admisibles es compacto.
b) El costo por etapa es acotado y para cada estado, es continuo sobre el conjunto
de acciones admisibles.
c) El kernel de transición es fuertemente continuo sobre el conjunto de acciones

admisibles.
Hipótesis 2.
CAPÍTULO 1 9
a) El conjunto de acciones admisibles es compacto y la multifunción φ de X en A

definida como φ(x) = A(x), es continua.
b) El costo por etapa es continuo y acotado.
c) El kernel de transición es débil continuo.
Establecidas las hipótesis anteriores sobre el Modelo de Control, se tiene el siguien-

te resultado, el cual es consecuencia directa de una versión del Teorema de selección
medible.
Teorema 1. Sea v : X 7→ R una función medible. Se define u : K 7→ R como

Z
u(x, a) := C(x, a) + v(y)Q(dy|x, a), (1.17)
X
y u∗ : X 7→ R mediante
" Z #
u∗ (x) := ı́nf C(x, a) + v(y)Q(dy|x, a) = ı́nf u(x, a). (1.18)
A(x) X A(x)
Entonces u es medible y se cumple lo siguiente:
a) Si el modelo de control M satisface la Hipótesis 1, entonces para cada x ∈ X,

u(x, ·) es continua sobre A(x); existe un selector f ∗ ∈ F tal que para cada
x ∈ X,
u(x, f ∗ (x)) = u∗ (x) = mı́n u(x, a), (1.19)
A(x)
y u∗ es medible.
b) Si el modelo de control M satisface la Hipótesis 2 y v : X 7→ R es continua,

entonces u es continua sobre K, existe f ∗ ∈ F para el cual se cumple (1.19), y
u∗ es continua y acotada.
Para caracterizar a las polı́ticas óptimas estacionarias deterministas se hace uso

del operador de programación dinámica. Para cada u ∈ Mb (X) se define
" Z #
T u(x) := mı́n C(x, a) + α u(y)Q(dy|x, a) , (1.20)
a∈A(x) X
para cada x ∈ X. Por el Teorema 1, bajo la Hipótesis 1 la relación (1.20) define un

operador T : Mb (X) 7→ Mb (X) , mientras que bajo la Hipótesis 2 la relación define
CAPÍTULO 1 10
un operador tal que T (Cb (X)) ⊂ T (Cb (X)).
Para cada selector f ∈ F, se define para cada u ∈ Mb (X)

Z
Tf u(x) := C(x, f (x)) + α u(y)Q(dy|x, f (x)), (1.21)
X
para cada x ∈ X. Bajo la Hipótesis 1, para cada f ∈ F, la relación (1.21) define un

operador Tf : Mb (X) 7→ Mb (X), mientras que bajo la Hipótesis 2, para cada f ∈ F,
la (1.21) define un operador Tf : Cb (X) 7→ Cb (X) .
El resultado que sigue asegura la existencia de polı́ticas óptimas deterministas

estacionarias.
Teorema 2.
a) Si el modelo M satisface la Hipótesis 1, entonces la función valor V ∗ es el único
punto fijo en Mb (X) de T .
b) Si el modelo M satisface la Hipótesis 2, entonces la función valor V ∗ es el único

punto fijo en Cb (X) de T .
c) Si el modelo M satisface la Hipótesis 1 o la Hipótesis 2, existe un selector

f∗ ∈ F, tal que para cada x ∈ X
Z
∗
V (x) = C(x, f∗ (x)) + α V ∗ (x)Q(dy|x, f∗ (x)), (1.22)
X
es decir, V ∗ (x) = Tf∗ V ∗ (x), y la polı́tica determinista estacionaria f∗∞ es ópti-

ma. Recı́procamente si f∗∞ es óptima entonces el selector f∗ satisface (1.22).
Corolario 1. Una polı́tica determinista estacionaria f∗∞ es óptima si y solo si
V ∗ (x) = Tf∗ V ∗ (x).
Para demostrar el Teorema 2 se utilizarán algunos resultados los cuales se presen-
tan a continuación.
Definición 3. Sea u ∈ Mb (X). Una polı́tica determinista estacionaria f ∞ , es una
polı́tica u−glotona para el operador T , si el selector f satisface
Z
T u(x) = C(x, f (x)) + α u(y)Q(dy|x, f (x)),
X
para cada x ∈ X.
CAPÍTULO 1 11
El siguiente lema es consecuencia directa del Teorema 1.
Lema 1.
a) Si el modelo M satisface la Hipótesis 1, para cada u ∈ Mb (X), existe una

polı́tica f ∞ determinista estacionaria u−glotona.
b) Si el modelo M satisface la Hipótesis 2, para cada u ∈ Cb (X), existe una polı́tica

f ∞ determinista estacionaria u−glotona.
Lema 2.
a) Si el modelo M cumple la Hipótesis 1, entonces T : Mb (X) 7→ Mb (X) es un

operador de contracción con módulo α, en consecuencia por el Teorema del
punto fijo de Banach, se cumplen las siguientes propiedades:
i) existe un única función u∗ ∈ Mb (X) tal que T u∗ = u∗ ;

ii) para cada función v ∈ Mb (X)
lı́m k T n v − u∗ k= 0. (1.23)
n7→∞
Además para cada u ∈ Mb (X) no negativa, si T u ≤ u, entonces V ∗ ≤ u.
b) Suponga que el modelo M cumple la Hipótesis 2, entonces T : Cb (X) 7→ Cb (X)

es un operador de contracción con módulo α, existe una única u∗ ∈ Cb (X) tal
que T u∗ = u∗ , y para cualquier función v ∈ Cb (X) se cumple (1.23). Además
para cada u ∈ Cb (X) no negativa, si T u ≤ u, entonces V ∗ ≤ u.
En adelante con Vπ se denota al desempeño de una polı́tica π.
Lema 3.
a) Suponga que el modelo M cumple la Hipótesis 1. Entonces para cada f ∈ F,

Tf : Mb (X) 7→ Mb (X) es un operador de contracción con módulo α, Vf ∞ es
el único punto fijo de Tf en Mb (X), es decir, Tf Vf ∞ = Vf ∞ , y para cualquier
función v ∈ Mb (X)
lı́m k Tfn v − Vf ∞ k= 0. (1.24)
n7→∞
b) Suponga que el modelo M cumple la Hipótesis 2. Entonces para cada f ∈ F,

Tf : Cb (X) 7→ Cb (X) es un operador de contracción con módulo α, Vf ∞ es el
único punto fijo de Tf en Cb (X), y para cualquier función v ∈ Cb (X) se cumple
(1.24).
CAPÍTULO 1 12
La demostración de los Lemas 2 y 3 puede consultarse en [6] o [7].
Definición 4. Una sucesión {vn } se llama sucesión de iteración de valores si v0 = 0,

y para cada n ≥ 1, vn = T vn−1 .
Observación 4. Para una sucesión de iteración de valores {vn }, se tiene que:
a) por Lema 2, vn → u∗ .
b) Para cada n, vn (x) ≤ Vn (π, x) ≤ V (π, x) para cada polı́tica π y cada x ∈ X,

por lo tanto, vn (x) ≤ V ∗ (x) para cada x ∈ X, ver [[7]] pag. 49.
Demostración del Teorema 2
a) Por el inciso a) del Lema 2, T es un operador de contracción en Mb (X) con único

punto fijo u∗ , entonces sólo basta verificar que u∗ = V ∗ . Dado que T u∗ = u∗ ,
también del inciso a) del Lema 2, se tiene que u∗ ≥ V ∗ . La Observación 4
implica que u∗ ≤ V ∗ . Por lo tanto u∗ = V ∗ y V ∗ ∈ Mb (X).
b) La demostración es análoga a la parte a).
c) Dado que V ∗ ∈ Mb (X), por el inciso a) del Lema 1 existe una polı́tica de-
terminista estacionaria f ∞ , tal que V ∗ = Tf V ∗ . Del inciso a) del Lema 3,
Vf ∞ = Tf Vf ∞ , por lo tanto V ∗ = Vf ∞ , es decir, la polı́tica f ∞ es óptima. Lo
anterior dice que existe una polı́tica f ∞ determinista estacionaria óptima. Por
otro lado, si f ∞ es una polı́tica determinista estacionaria óptima, Vf ∞ = V ∗ y
del inciso a) del Lema 3, Vf ∞ = Tf Vf ∞ , entonces V ∗ = Tf V ∗ .
d) La demostración es análoga a la parte c).
El segundo objetivo de este capı́tulo es presentar resultados básicos sobre la

aproximación de polı́ticas óptimas. Usualmente, determinar una aproximación a una
polı́tica óptima requiere definir una distancia en el conjunto de polı́ticas. Sin embar-
go, ya que la eficacia de una polı́tica se mide a través de su desempeño, se medirá la
cercanı́a entre polı́ticas mediante sus desempeños. La metodologı́a consiste en partir
de una sucesión de iteración de valores {vn }, la cual debido a la propiedad de contrac-
ción del operador T , converge a la función valor, y a su vez genera una sucesión {fn∞ }
de polı́ticas vn −glotona, para las cuales se tiene que Vfn∞ ↑ V ∗ , como se demostrará.
Entonces se determina un elemento Vfk∞ cuya distancia a la función valor sea menor a
un error de aproximación establecido. Ası́ la polı́tica fk∞ − glotona es la aproximación
a la polı́tica óptima deseada.
CAPÍTULO 1 13
El método ası́ descrito tiene la desventaja de requerir la función valor. Esta difi-
cultad plantea la siguiente pregunta: ¿cómo estimar la distancia entre V ∗ y Vfk∞ , sin
conocer explı́citamente a la función valor V ∗ ? El siguiente resultado da respuesta a
esta pregunta.
Lema 4. Para cada n ∈ N, sea vn := T vn−1 y fn∞ una polı́tica vn -glotona, entonces
α
k V ∗ − vn k≤ k vn − vn−1 k, (1.25)
1−α
y
2α
k V ∗ − Vfn∞ k≤ k vn − vn−1 k . (1.26)
1−α
Demostración: Ya que V ∗ es únto fijo de T , y T es un operador de contracción con
módulo α se tiene lo siguiente
k V ∗ − vn k ≤k V ∗ − T vn k + k T vn − vn k=k T V ∗ − T vn k + k T vn − T vn−1 k
= α k V ∗ − vn k +α k vn − vn−1 k,
por lo tanto
α
k V ∗ − vn k≤ k vn − vn−1 k . (1.27)
1−α
Para demostrar la segunda desigualdad, primero observe que
k V ∗ − Vfn∞ k≤k V ∗ − vn k + k vn − Vfn∞ k, (1.28)
y de (1.27)
α
k V ∗ − Vfn∞ k≤ k vn − vn−1 k + k vn − Vfn∞ k . (1.29)
1−α
Por otro lado, ya que fn∞ es vn -glotona, Tf vn = T vn , entonces
k vn − Vfn∞ k ≤k vn − T vn k + k T vn − Vfn∞ k
=k T vn−1 − T vn k + k Tfn∞ vn − Tfn∞ Vfn∞ k
y dado que T y Tfn∞ son de contracción con módulo α
k T vn−1 − T vn k + k Tfn∞ vn − Tfn∞ Vfn∞ k≤ α k vn−1 − vn k +α k vn − Vfn∞ k,
por lo tanto
α
k vn − Vfn∞ k≤ k vn − vn−1 k . (1.30)
1−α
Ası́ de (1.29) y (1.30)
2α
k V ∗ − Vfn∞ k≤ k vn − vn−1 k . (1.31)
1−α
CAPÍTULO 1 14
Lema 5. Sea {vn } la sucesión de iteración de valores y {fn∞ } la sucesión de polı́ticas

vn − glotona con polı́tica arbitraria f0∞ , es decir, con selector arbitrario f0 ∈ F,
entonces
lı́m k V ∗ − Vfn∞ k= 0. (1.32)
n−→∞
El método antes descrito que incluye la estimación establecida en el Lema 4 se

conoce como Algoritmo de Iteración de Valores.
Algoritmo de Iteración de Valores:
1. Especifique > 0.
2. Sea v0 = 0 y n = 1.
3. Para cada x ∈ X calcular vn (x) = T vn−1 (x). Si
k vn − vn−1 k< ,
entonces ir al paso 4. De otro modo se asigna n := n + 1 y se regresa

al paso 3.
4. Se determina la polı́tica vn − glotona y parar.
Ya que el operador T es un operador de contracción, en el paso 2 v0 puede ser

cualquier función en el dominio de T .
Capı́tulo 2
Operadores de aproximación y
modelos perturbados
El método de iteración de valores consiste en aproximar el punto fijo de un ope-

rador del operador de programación dinámica, mediante iteraciones o composiciones
sucesivas de este. Cada iteración del operador involucra encontrar el mı́nimo y el
argmin de una función para cada estado del sistema. Hallar el mı́nimo y el argmin
puede ser un problema complejo e inviable de implementarse computacionalmente en
sistemas con una cantidad infinita de estados.
Como ya se planteó en la introducción de este escrito, una manera de hacer fren-
te al problema es que para un modelo de control M con operador de programación
dinámica T proponer un “operador aproximador” Te de manera que cumpla lo si-
guiente: Te sea el operador de programación dinámica para algún modelo de control
de Markov M f, y sea viable implementar el algoritmo de iteración de valores con Te.
En este capı́tulo se presentan resultados sobre la aproximación de procesos de
decisión de Markov a partir del enfoque planteado en el párrafo anterior, dichos
resultados son tomados de [13].
2.1. Operador promediador

Definición 5. Sea S un conjunto y B(S) su correspondiente σ-álgebra de Borel. Un
operador L : M (S) 7→ M (S) se llama promediador si y sólo si satisface las siguientes
condiciones:
a) L(IS ) = IS ;
b) L es un operador lineal;
15
CAPÍTULO 2 16
c) L es un operador positivo, es decir, para cada u ≥ 0 en M (S), Lu ≥ 0.
d) Si {vn } es una sucesión en Mb (S) tal que para cada s ∈ S vn (s) ↓ 0, entonces
Lvn (s) ↓ 0.
Observación 5. Sea L un promediador, entonces:
1) L es monótono, es decir, si u ≥ v entonces Lu ≥ Lv. Esta propiedad se sigue

de ser positivo.
2) L es no expansivo, es decir, para cada u, v ∈ Mb (S) se tiene
k Lu − Lv k≤k u − v k .
En efecto, si k u k= 1 entonces para cada s ∈ S se tiene que −1 ≤ u(s) ≤ 1,

ası́ L(−1) ≤ Lu(s) ≤ L(1) por monotonı́a de L, y −L(1) ≤ Lu(s) ≤ L(1) por
linealidad, y por la definición de L, L(1) = 1, ası́ k L k≤ 1; por lo tanto
k Lu − Lv k≤k L kk u − v k≤k u − v k .
Ejemplo 1. Sea S = [0, θ] con θ > 0, 0 = s0 < s1 < · · · < sN = θ una partición
de S, D0 = [s0 , s1 ] y Di = (si , si+1 ] para i = 1, 2, ..., N − 1, para cada v ∈ Mb (X) se
define
−1
N
" #
X si+1 − s s − si
Lv(s) := v(si ) + v(si+1 ) IDi (s). (2.1)
i=0
si+1 − si si+1 − si
para cada s ∈ S. L es un operador promediador. En efecto, L : M (X) 7→ M (X) es
lineal acotado y positivo, por lo tanto monótono, además
−1
N
" #
L(IS ) = IS (si ) + IS (si+1 ) IDi (s) = IS ,
i=0
si+1 − si si+1 − si
y si {vn } es una sucesión en Mb (S) tal que para cada s ∈ S, vn (s) ↓ 0, entonces
−1
N
" #
lı́m Lvn (s) = lı́m vn (si ) + lı́m vn (si+1 ) IDi (s) (2.2)
n7→∞
i=0
si+1 − si n7→∞ si+1 − si n7→∞
= 0. (2.3)
Por monotonı́a de L se tiene que Lvn ≤ Lvn+1 , por lo tanto la convergencia de la

sucesión {Lvn } se da en forma decreciente.
CAPÍTULO 2 17
Ejemplo 2. Sea S un subconjunto de un espacio medible. {xi }ki=0 una colección de

puntos de S y {ji }ki=0 una partición de subconjuntos medibles de S tal que para cada
i = 0, ..., k, xi ∈ ji , para m 6= n, jm ∩ jn = ∅ y S = ∪ki=0 ji . Para cualquier función
v ∈ Mb (S) se define
Jv(x) = v(xi ),
para cada x ∈ ji . Ası́ J : Mb (S) 7→ Mb (S) es un operador promediador. En efecto J
es un operador lineal acotado y también positivo. Por otro lado J(IS ) = IS , y si {vn }
es una sucesión en Mb (S) tal que para cada x ∈ S, vn (x) ↓ 0, entonces
lı́m Jvn (x) = lı́m vn (xi ) = 0.

n7→∞ n7→∞
De nuevo por monotonı́a de J la convergencia de la sucesión {Jvn } se da en forma

decreciente.
Otros ejemplos de operadores promediadores pueden encontrarse en [12].
Lema 6. Sea L un promediador. Para cada s ∈ S y D ∈ B(S) se define L(D|s) :=
LID (s). Entonces:
a) L es un kernel sobre S dado S;
b) L(Mb (S)) ⊂ Mb (S) y para cada v ∈ Mb (S),
Z
Lv(s) = v(y)L(dy|s),
S
para cada s ∈ S.
c) Si L(Cb (S)) ⊂ Cb (S) entonces el kernel es débil continuo.
Demostración:
a) Para cada D ∈ B(S), ID es una función medible acotada no negativa por lo que
L(D|·) = LID (·) ≥ 0 ya que L es positivo. Por otro lado I∅ = 0 y como L es
lineal,
S∞ L(∅|s) = L(0) = 0. Sean {Ui }∞
i=1 subconjuntos ajenos
Pn de Borel de S y
U = i=1 Ui . Observe que para cada s ∈ S, 0 ≤ IU (s) − i=1 IUi (s) ↓ 0, cuando
n −→ ∞, entonces:
n
X n
X
0 = lı́m L(IU (s) − IUi (s)) = LIU (s) − lı́m LIUi (s)
n7→∞ n7→∞
i=1 i=1
∞
X
= LIU (s) − LIUi (s)
i=1
CAPÍTULO 2 18
Ası́ LIU (s) = ∞

P
i=1 LIUi (s). Es claro que L(S|s) = LIS (s) = 1. Por lo tanto
L(·|s) es una medida de probabilidad. Por otro lado, para cada para cada D ∈
B(S), ID ∈ Mb (S), ası́ LID ∈ Mb (X), por lo que L(D|·) es medible sobre S.
b) Sea G : Mb (S) 7→ Mb (S) definida para cada v ∈ Mb (S) mediante
Z
Gv(x) = v(y)L(dy|s).
S
Se demuestra que para cada v ∈ Mb (S), Gv = Lv. Sea D ∈ B(S), ası́ ID ∈
Mb (S) y Z
GID (s) = ID (y)L(dy|s) = L(D|s) = LID (s).
S
Pnexisten {d1 , ..., dn } ⊂ R y D1 , ..., Dn ⊂ B(S)

Sea ρ un función simple, es decir,
ajenos a pares tales que ρ(s) = i=1 di IDi (s), entonces
Xn Z X n
Gρ(s) = di IDi L(dy|s) = di L(Di |s)
i=1 S i=1
Xn n
X
= di LIDi (s) = L di IDi (s) = Lρ(s).
i=1 i=1
Sea v ∈ Mb (S) no negativa, por el Teorema de aproximación simple existe una

sucesión creciente de funciones simples {ρn } que convergen puntualmente a v.
Entonces (v − ρn )(s) ↓ 0 y L(v − ρn )(s) ↓ 0. Por convergencia monótona,
Z
Gv(s) = lı́m ρn (y)L(dy|s) = lı́m Gρn (s)
n7→∞ S n7→∞
= lı́m Lρn (s) = Lv(s).

n7→∞
Por lo tanto, para cualquier v ∈ Mb (S) no negativa se tiene Gv = Lv. Sean

v ∈ Mb (S), v = v + − v − , con v + y v − medibles, no negativas y acotadas,
entonces
Gv = Gv + − Gv −
y
Lv = Lv + − Lv − .
Dado que Lv + = Gv + y Lv − = Gv − se concluye que Gv = Lv.
c) Suponga que L(Cb (S)) ⊂ Cb (S). Sea v ∈ Cb (S), entonces v ∈ Mb (S) y por la
parte b) Z
v(y)L(dy|·) = Lv(·).
X
Por lo tanto L es débil continuo.
CAPÍTULO 2 19
2.2. Modelo perturbado M

f
Dado el modelo M = (X, A, {A(x)|x ∈ X}, Q, C) introducido en (??) y un ope-
rador promediador L, el modelo perturbado M
f es la quı́ntupla:
f := (X, F, {F|x ∈ X}, Q,

M e C),
e
donde:
1) X es el espacio de estados del modelo de control M .
2) F es el conjunto de selectores medibles de X en A, que en el modelo toma el

papel de conjunto de acciones.
3) Para cada x ∈ X, el conjunto de acciones admisibles es F. El conjunto K

e está
definido por:
e := {(x, f )|x ∈ X, f ∈ F}.
K
e :X ×K
4) Q e 7→ R se define de la siguiente manera:
Z
Q(B|x,
e f ) := LQ(B|x, f (x)) = Q(B|y, f (y))L(dy|x),
X
para cada (x, f ) ∈ K

e y B ∈ B(X), donde Q es el kernel de transición del modelo
M . Claramente Q e es un kernel sobre X dado K.
e
5) La función de costo por etapa C

e:K e 7→ R está definida por:
Z
C(x, f ) := LC(x, f (x)) =
e C(y, f (y))L(dy|x),
X
para cada (x, f ) ∈ K,

e donde C el costo por etapa del modelo M .
Observación 6.
a) Para cada f ∈ F, C(·,

e f ) : X 7→ R es una función Borel medible sobre X.
b) Para cada B ∈ B(X) y cada f ∈ F, Q(B|·,

e f ) : X 7→ R es una función Borel
medible sobre X.
c) Para cada (x, f ) ∈ K,

e Q(·|x,
e f ) : X 7→ R es una medida de probabilidad sobre
X.
CAPÍTULO 2 20
d) Para cada f ∈ F, Q(·|·,

e f ) es un kernel de transición de X en X.
De la Observación anterior es claro que el modelo M f es análogo al modelo 1.13,
donde en este caso una polı́tica determinista estacionaria constante es un selector,
por lo que es posible construir un espacio de probabilidad consistente con este mo-
delo. Ası́ para cada polı́tica determinista estacionaria constante f y estado inicial
x, existe una medida de probabilidad P ef , y un proceso estocástico (Xe0 , Xe1 , ...) sobre
x
∞
(×t=0 Xt , ⊗B(Xt )), con kernel de transición Q,e y con criterio de desempeño
" ∞ #
X
ef
Ve (f, x) = E αn C(x
e n, f ) ,
x
n=0
y para cada x ∈ X, Ve ∗ (x) = ı́nf Ve (f, x) es la función valor α-descontada. Por lo que
f ∈F
∗ f si Ve ∗ (x) = Ve (f ∗ , x) para
una polı́tica f es óptima α-descontada para el Modelo M
cada x ∈ X.
2.2.1. Existencia y aproximación de polı́ticas óptimas

El operador de programación dinámica Te asociado al modelo Mf,está definido por
" Z #
Teu(x) = ı́nf C(x,
e f) + α u(y)Q(dy|x,
e f) (2.4)
f ∈F X
para cada u ∈ Mb (X) y cada x ∈ X.

Observación 7. Para cada x ∈ X si
A(x) = {f (x)|f ∈ F} (2.5)
se tiene
( Z ) ( Z )
C(x,
e f )+α u(y)Q(dy|x,
e f ) f ∈ F = C(x,
e a)+α u(y)Q(dy|x,
e a) a ∈ A(x) ,
X X
y entonces " #
Z
Teu(x) = ı́nf C(x,
e a) + α u(y)Q(dy|x,
e a) . (2.6)
a∈A(x) X
Teorema 3. Si modelo de control M satisface la Hipótesis 1, entonces Te(Mb (X)) ⊂

Mb (X), y Te = LT . Por otro lado suponga que L(Cb (X)) ⊂ Cb (X), si el modelo de
control M satisface la Hipótesis 2, entonces para Te(Cb (X)) ⊂ Cb (X) y Te = LT .
CAPÍTULO 2 21
Demostración: Sea u ∈ Mb (X), entonces para cada f ∈ F

Z
T u(x) ≤ C(x, f (x)) + α u(y)Q(dy|x, f (x)),
para cada x ∈ X. Luego por monotonı́a y linealidad de L

Z
LT u(x) ≤ L C(x, f (x)) + α u(y)Q(dy|x, f (x))
Z
= LC(x, f (x)) + αL( u(y)Q(dy|x, f (x)))
Z
= C(x,
e f ) + α u(y)Q(dy|x,e f ).
Entonces
Z
LT u(x) ≤ ı́nf {C(x,
e f )|f ∈ F}
f ∈F
= Teu(x).
Dado que el modelo M satisface la Hipótesis 1, por la parte a) del Lema 1, para
cada u ∈ Mb (X) existe una polı́tica fu determinista estacionaria u−glotona para el
operador T , es decir, existe polı́tica fu tal que
Z
T u(x) = C(x, fu (x)) + α u(y)Q(dy|x, fu (x)), (2.7)
para cada x ∈ X. Luego de (2.7)

Z
LT u(x) = L C(x, fu (x)) + α u(y)Q(dy|x, fu (x))
Z
= C(x, fu ) + α u(y)Q(dy|x,
e e fu )
≥ Teu(x).
Por lo tanto LT = Te. Como el modelo M satisface la Hipótesis 1, para cada u ∈

Mb (X), T u ∈ Mb (X), luego por la parte b) del Lema 6, LT u ∈ Mb (X). Por lo tanto
Teu ∈ Mb (X).
La demostración de la segunda parte es análoga a la demostración de la parte b),
tomando a Cb (X) en lugar de Mb (X) justificando la expresión (2.7) por la parte b)
del Lema 1 y la parte c) del Lema 6.
CAPÍTULO 2 22
Para cada selector f ∈ F, se define

Z
Tef u(x) := C(x,
e f ), (2.8)
X
para cada u ∈ Cb (X) y x ∈ X.

Teorema 4. Si el modelo de control M satisface la Hipótesis 1, entonces para cada
f ∈ F, Tef (Mb (X)) ⊂ Mb (X) y Tef = LTf . Suponga que L(Cb (X)) ⊂ Cb (X), si el
modelo de control M satisface la Hipótesis 2, entonces para cada f ∈ F, Tef (Cb (X)) ⊂
Cb (X) y Tef = LTf .
Demostración: De (1.21), para cada f ∈ F el operador Tf : Mb (X) 7→ Mb (X) está
definido por Z
Tf u(x) := C(x, f (x)) + α u(y)Q(dy|x, f (X)), (2.9)
X
para cada u ∈ Mb (X) y cada x ∈ X. Ası́
Z
LTf u(x) = C(x,
e f)
= Tef u(x).
Por lo tanto LTf = Tef . Dado que para cada u ∈ Mb (X), Tf u ∈ Mb (X), por la parte
b) del Lema 6 LTf u ∈ Mb (X), por lo tanto Tef ∈ Mb (X). La demostración de la
segunda parte es análoga.
El resultado que asegura la existencia de polı́ticas óptimas para el modelo pertur-

bado M
f es el siguiente.
Teorema 5.
a) Si el modelo de control M satisface la Hipótesis 1, entonces Ve ∗ es el único punto
fijo de Te en Mb (X).
b) Suponga que L(Cb (X)) ⊂ Cb (X). Si el modelo de control M satisface la Hipóte-
sis 2, entonces Ve ∗ es el único punto fijo de Te en Cb (X).
c) Si el modelo de control M satisface la Hipótesis 1 o si L(Cb (X)) ⊂ Cb (X) y el
modelo de control M satisface la Hipótesis 2, existe un selector f∗ ∈ F tal que
Z
∗
Ve (x) = C(x,
e f∗ ) + α Ve ∗ (y)Q(dy|x,
e f∗ ), (2.10)
X
es decir, Ve ∗ = Tef∗ Ve ∗ y f∗ es óptima para el modelo M

f. Recı́procamente si f∗
es óptima para Mf, satisface (2.10).
CAPÍTULO 2 23
f si y sólo si Ve ∗ = Tef∗ Ve ∗ .
Corolario 2. Una polı́tica f∗ es óptima para el Modelo M
Para demostrar el Teorema 5 se utilizarán las siguientes definiciones y los Lemas
8, 9 y 10 presentados en el Apéndice A.
Definición 6. Sea u ∈ Mb (X). Un selector fe, es u−glotona para el operador Te, si
satisface Z
Teu(x) = C(x,
e fe) + α u(y)Q(dy|x,
e fe),
X
para cada x ∈ X.
Definición 7. Una sucesión {e vn } se llama sucesión de iteración de valores aproxi-
mada si ve0 ∈ 0, y para cada n ≥ 1, ven = Teven−1 .
Observación 8. Para una sucesión de iteración de valores aproximada {e
vn }, se tiene
que:
a) por Lema 2, vn → u∗ .
b Para cada n, ven (x) ≤ Ven (f, x) ≤ Ve (f, x) para cada f ∈ F y cada x ∈ X, por lo
tanto, ven (x) ≤ Ve ∗ (x) para cada x ∈ X.
Demostración del Teorema 5
a) Por el inciso a) del Lema 9, Te es un operador de contracción con único punto
fijo u∗ , entonces sólo basta verificar que u∗ = Ve ∗ . Dado que Teu∗ = u∗ , también
por el inciso a) del Lema 9, se tiene que u∗ ≥ Ve ∗ . La Observacion 8 b), implica
que u∗ ≤ Ve ∗ . Por lo tanto u∗ = Ve ∗ .
b) La demostración es análoga a la del inciso a).
c) Por Lema 8 existe f , tal que Ve ∗ = Tef Ve ∗ . Del Lema 10, Vef = Tef Vef , por lo tanto
Ve ∗ = Vef ∞ , es decir, la polı́tica f es óptima. Lo anterior dice que existe una
polı́tica f determinista estacionaria óptima. Por otro lado, si f es una polı́tica
óptima, Vef = Ve ∗ y del Lema 8, Vef = Tef Vef , entonces Ve ∗ = Tef Ve ∗ .
Para este modelo también se tienen los resultados sobre aproximación a polı́ticas
óptimas.
Teorema 6. Sea {e vn } la sucesión de iteración de valores aproximada, y {fn } la
sucesión de polı́ticas ven −glotona con selector arbitrario f0 , entonces
lı́m k Ve ∗ − Vefn k= 0
n7→∞
CAPÍTULO 2 24
Teorema 7. Para cada n ∈ N sea ven = Teven−1 y fn una polı́tica ven −glotona, entonces
α
k Ve ∗ − ven k≤ k ven − ven−1 k,
1−α
y
2α
k Ve ∗ − Vefn k≤ k ven − ven−1 k
1−α
2.3. Cotas de aproximación

Las cotas de aproximación para los algoritmos de iteración de valor aproximado
pueden ser expresadas en términos de la norma supremo o de la norma en variación
total para medidas finitas con signo.
Lema 7. Sean R = LT y S = T L, con T el operador de programación dinámica y L
operador promediador. Si u ∈ Mb (X) es punto fijo de R, entonces v = T u es punto
fijo de S y u = Lv.
Demostración: Sea u ∈ Mb (X) con Ru = u y v := T u, entonces
Lv = LT u = Ru = u,
luego
Sv = T Lv = T u = v.
Observación 9. Por el Teorema l operador R = LT definido en el Lema 7 es el
operador de programación dinámica Te para el modelo M
f . Por otro lado, el operador
S = T L coincide con el operador de programación dinámica asociado a un modelo
perturbado donde el espacio de estados, el espacio de acciones y la función de costos
C se mantienen como en el modelo M y el kernel de transición Q b es definido, para
cada B ∈ B(X) y (x, a) ∈ K, de la siguiente manera:
Z
Q(B|x, a) :=
b L(B|y)Q(dy|x, a),
X
con Q el kernel de transición del modelo M , quedando el operador de programación

dinámica definido para cada u ∈ Mb (X) como
" Z #
Tbu(x) = mı́n c(x, a) + α u(y)Q(dy|x,
b a)
a∈A(x) X
para cada x ∈ X. Ası́ Tb = T L = S. Dado que la función de costos C es la misma

para M
f que para M , el algoritmo de iteración de valores en Tb no podra bajar la
complejidad original por el costo por etapa.
CAPÍTULO 2 25
Teorema 8. Suponga que L : Cb (X) 7→ Cb (X). Si el modelo original cumple la

Hipótesis 2, entonces
1
k V ∗ − Ve ∗ k≤ k V ∗ − LV ∗ k .
1−α
Demostración: Por el inciso b) del Teorema 2, V ∗ es punto fijo de T , por el inciso
b) del Lema 2, T es un operador de contracción con módulo α, y del inciso b) del
Teorema 5, Ve ∗ es punto fijo de Te. Sea Vb ∗ = T Ve ∗ , por el Lema 7, Vb ∗ es punto fijo de
Tb = T L y Ve ∗ = LVb ∗ . Entonces:
k V ∗ − Vb ∗ k=k T V ∗ − T LVb ∗ k≤ α k V ∗ − LVb ∗ k= α k V ∗ − Ve ∗ k, (2.11)
y dado que L es no expansivo
k V ∗ − Ve ∗ k =k V ∗ − LV ∗ + LV ∗ − Ve ∗ k≤k V ∗ − LV ∗ k + k LV ∗ − Ve ∗ k
=k V ∗ − LV ∗ k + k LV ∗ − LVb ∗ k≤k V ∗ − LV ∗ k + k V ∗ − Vb ∗ k,
por lo tanto de 2.11:
k V ∗ − Ve ∗ k≤k V ∗ − LV ∗ k +α k V ∗ − Ve ∗ k .
Para determinar algunas cotas de aproximación en términos de la norma en varia-

ción total se establecen algunos resultados sobre esta norma y ası́ como la notación
utilizada para especificar las cotas.
La norma en variación total de una medida finita con signo µ, se define de la

siguiente manera.
nZ o
k µ kT V = sup v(y)µ(dy) v ∈ Mb (X), k v k≤ 1 . (2.12)
X
Ası́ para cada función v ∈ Mb (X) se tiene que

Z
v(y)µ(dy) ≤k µ kT V k v k . (2.13)
X
Más aún, se puede probar que para P1 y P2 medidas de probabilidad, su distancia en

variación total cumple lo siguiente
k P1 − P2 kT V = 2 sup P1 (B) − P2 (B). (2.14)

B∈B(X)
CAPÍTULO 2 26
En lo que sigue se establece la notación utilizada para plantear los resultados sobre
cotas de aproximación en términos de la norma en variación total.
Sea F
e0 la subclase de polı́ticas estacionarias que contienen a las polı́ticas óptimas
estacionarias para el modelo M y el modelo perturbado M f, y las polı́ticas Ven -glotona.
Se define
e0 ) := sup{k Qf (·|x) − Q
δQ (F ef (·|x) kT V : x ∈ X, f ∈ F
e0 },
e0 ) := sup{k Cf (·|x) − C
δC (F ef (·|x) k: f ∈ Fe0 }.
Para cada f ∈ F y función medible v sobre K, se denota vf (x) := v(x, f (X)).

Entonces en particular se tiene que:
Cf (x) = C(x, f (x)) y Qf (·|x) = Q(·|x, f (x))
para cada x ∈ X. Análogamente
C
ef (x) = C(x,
e f) y Q
ef (·|x) = Q(·|x,
e f)
para cada x ∈ X. Más aún se puede escribir

R R
Qf u(x) := X u(y)Qf (dy|x) y Q ef u(x) :=
X
u(y)Q
ef (dy|x)
Teorema 9. Si el modelo de control M satisface la Hipótesis 1, entonces
a) Para cada f ∈ F
1 ef k + αk sup k Qf (·|x) − Q
k Vf − Vef k≤ k Cf − C ef (·|x) kT V ,
1−α (1 − α)2 x∈X
1 e0 ) + αk δQ (F
b) k V ∗ − Ve ∗ k≤ δC (F e0 ),
1−α (1 − α)2
c) Si f ∞ es una polı́tica ven -glotona, entonces
2α 2 e0 ) + 2αk δQ (F
k V ∗ − Vf ∞ k≤ k ven − ven−1 k + δC ( F e0 ) (2.15)
1−α 1−α (1 − α)2
Por otro lado, suponga que L : Cb (X) 7→ Cb (X), si el modelo de control M satisface
la Hipótesis 2, entonces se cumple a),b) y c).
Demostración:
CAPÍTULO 2 27
a) Por el inciso a) del Lema 10, para cada selector f , Vef = Tef Vef , a su vez por el
inciso a) del Lema 3, Vf = Tf Vf , entonces:
k Vf − Vef k =k Tf − Tef k=k Cf + αQf Vf − C ef Vef k
ef + αQ
=k Cf − Cef + α(Qf Vf − Qef Vef ) k≤k Cf − C ef k +α k Qf Vf − Q
ef Vef k
=k Cf − Cef k +α k Qf Vf − Qf Vef + Qf Vef − Q ef Vef k
≤k Cf − C
ef k +α k Qf Vf − Qf Vef k +α k Qf Vef − Q
ef Vef k
(2.16)
Observe que k Qf Vf − Qf Vef k= supx∈X | Qf Vf (x) − Qf Vef (x) |, luego para cada
x ∈ X se tiene que
Z Z
| Qf Vf (x) − Qf Vf (x) | = |
e Vf (y)Qf (dy|x) − Vef (y)Qf (dy|x)|
Z X X
≤ | Vf (y) − Vef (y) | Qf (dy|x) ≤k Vf − Vef k

x
por lo tanto
k Qf Vf − Qf Vef k≤k Vf − Vef k . (2.17)
Por otro lado k Qf Vef − Q
ef Vef k= supx∈X Qf Vef (x) − Qef Vef (x), y para cada x ∈ X
se tiene que
Z
Qf Vf (x) − Qf Vf (x) =
e e e Vef (y)(Qf (dy|x) − Qef (dy|x))
X
≤k Vef kk Qf (·|x) − Qef (·|x) kT V
≤k Vef k sup k Qf (·|x) − Q ef (·|x) kT V ,
x∈X
por lo tanto
k Qf Vef − Q
ef Vef k≤k Vef k sup k Qf (·|x) − Q
ef (·|x) kT V . (2.18)
x∈X
Entonces de (2.17) y (2.18)

k Cf − C
ef k + α k Qf Vf − Qf Vef k +α k Qf Vef − Q
ef Vef k
≤k Cf − Cef k +α k Vf − Vef k +α sup k Qf (·|x) − Q
ef (·|x) kT V k Vef k .
x∈X
Dado que C e es acotado, es decir, existe k tal que para todo (x, f ) ∈ K, entonces
k k
Vef ≤ para cada f , ası́ k Vef k≤ para cada f . Por lo tanto
1−α 1−α
k Vf − Vef k≤ k Cf − C ef (·|x) kT V
1−α (1 − α)2 x∈X
CAPÍTULO 2 28
b) Por el inciso a) tenemos que
k Vf − Vef k≤ k Cf − C ef (·|x) kT V
1−α (1 − α)2 x∈X
para cada f ∈ F, luego

1 ef k + αk
sup k Vf −Vef k≤ sup k Cf −C sup sup k Qf (·|x)−Q
ef (·|x) kT V .
f ∈F
e0 1 − α f ∈Fe0 (1 − α)2 f ∈Fe0 x∈X
Ası́
1 e0 ) + αk δQ (F
sup k Vf − Vef k≤ δC (F e0 ).
f ∈F
e0 1−α (1 − α)2
Entonces para cada f ∈ F

e0 se tiene que
1 e0 ) + αk δQ (F
k Vf − Vef k≤ δC (F e0 ),
1−α (1 − α)2
lo cual implica que para cada x ∈ X,

1 e0 ) + αk δQ (F
Vf (x) − Vef (x) ≤ δC (F e0 ),
1−α (1 − α)2
por lo que
1 k e0 )+Vef (x) ≤ Vf (x) ≤ Vef (x)+ 1 δC (F k
δC (F
e0 )+
2
δQ (F e0 )+ δQ (F
e0 ),
1−α (1 − α) 1−α (1 − α)2
y ya que F e0 contiene a las polı́ticas óptimas para los modelos M

f y M , tomando
el ı́nfimo sobre F
e0 se tiene que
1 e0 )+ αk δQ (F e0 )+Ve ∗ (x) ≤ V ∗ (x) ≤ Ve ∗ (x)+ 1 δC (F

e0 )+ αk δQ (F
δC (F 2
e0 ),
1−α (1 − α) 1−α (1 − α)2
por lo tanto
1 e0 ) + αk δQ (F
k V ∗ − Ve ∗ k≤ δC (F e0 ).
1−α (1 − α)2
c) Suponga que f es una polı́tica ven -glotona. Se tiene que
k V ∗ −Vf k=k V ∗ −Ve ∗ +Ve ∗ −Vef +Vef −Vf k≤k V ∗ −Ve ∗ k + k Ve ∗ −Vef k + k Vef −Vf k .
CAPÍTULO 2 29
Por el inciso a)
1 ef k + αk sup k Qf − Q
k Vef − Vf k≤ k Cf − C ef kT V ,
1−α (1 − α)2 x∈X
lo cual implica que

1 e0 ) + αk δQ (F
k Vef − Vf k≤ δC (F e0 ). (2.19)
1−α (1 − α)2
Por otro lado, del inciso b)
1 e0 ) + αk δQ (F
k V ∗ − Ve ∗ k≤ δC (F e0 ). (2.20)
1−α (1 − α)2
Por último, del Lema 7

2α
k Ve ∗ − Vef k≤ k ven − ven−1 k . (2.21)
1−α
Por lo tanto de (2.19), (2.20) y (2.21) se concluye que
∗ 2α 1 αk
k V − Vf k≤ k ven − ven−1 k +2 δC ( F 0 ) +
e δQ (F0 )
e
1−α 1−α (1 − α)2
CAPÍTULO 2 30
Capı́tulo 3
Un sistema de inventario
Un inventario es la cantidad de existencias de un bien o recurso cualesquiera, un

sistema de inventarios es el conjunto de polı́ticas y controles que rigen el inventario y
determinan que niveles se deben mantener. Los sistemas de inventarios se constituyen
en una empresa con la finalidad de que las demandas de los clientes sean atendidas sin
demora y para que la necesaria continuidad del proceso productivo o adquisitivo no
se vea interrumpida; son una especie de reguladores que mantienen el equilibrio entre
los flujos de entrada y los de salida de la empresa. Lo anterior justifica la elaboración
de modelos matemáticos con el objeto de minimizar sus gastos o costos, sujetos a la
restricción de satisfacer la demanda y que además den respuestas a dos preguntas
claves: ¿Cuándo ordenar? y ¿Cuánto ordenar?.
Este capı́tulo muestra algunos resultados numéricos para ilustrar el enfoque desa-
rrollado en el capı́tulo anterior, para lo cual se toma un problema de control de
inventario.
3.1. Aproximaciones al modelo de inventario

El sistema de inventario que se aborda en este escrito tiene las caracterı́sticas
siguientes:
1. La demanda es aleatoria y continua.
2. El costo es la suma de los costos de adquisición, de almacenamiento y déficit

de inventario.
3. Tiempo de entrega: Inmediato.
31
CAPÍTULO 3 32
4. Ordenes atrasadas: No se consideran.
5. Proceso de Revisión: Revisión Periódica.
6. Horizonte de planeación: Infinito.
7. Número de Artı́culos: Un sólo artı́culo.
8. Capacidad de Alacenamiento: Finita, θ artı́culos, con θ ∈ R.
Como se mencionó anteriormente lo modelos de sistemas de inventario deben dar

respuesta a dos preguntas: ¿Cuándo ordenar? y ¿Cuánto ordenar?, dado que en este
sistema de inventario se asume una Revisión Periódica, al inicio de cada periodo se
realiza una orden, por lo tanto sólo se debe responder ¿Cuánto ordenar?.
En lo que sigue se establece la notación para el Sistema de Inventario.
xt es el inventario al inicio del periodo t.
at es la cantidad ordenada al inicio del periodo t.
ωt es una variable aleatoria que representa la demanda al periodo t.
θ es la capacidad máxima de almacenamiento.
El sistema de inventario evoluciona de acuerdo a la siguiente ecuación
xt+1 = max(0, xn + an − wn ).
El déficit de inventario es max(0, w − i − a).
El costo por adquisición de a artı́culos es c · a, donde c el costo unitario y c > 0.
El costo de almacenamiento es h · (x + a), donde h es el costo unitario de

almacenamiento y h > 0.
El costo por déficit es p · max(0, w − i − a), donde p es el costo unitario por

déficit y p > 0.
El problema es encontrar una estrategia de inventario, es decir, que cantidad de

artı́culos a ordenar en cada periodo de tal modo que se minimice el costo total espe-
rado descontado a lo largo del horizonte de planeación.
CAPÍTULO 3 33
El sistema de inventario considerado tiene las siguientes hipótesis adicionales: {ωt }

es una sucesión de variables aleatorias independientes e identicamente distribuidas
con función de distribución continua F y función de densidad continua ρ. La función
de densidad ρ es una función Lipschitz continua sobre [0, θ] con módulo l y acotada
por una constante k 0 .
El sistema de inventario puede ser modelado como un problema de control con

costo descontado a horizonte infinito, cuyos elementos son:
* Espacio de Estados: X = [0, θ].
* Espacio de Acciones: A = [0, θ].
* Acciones admisibles: A(x) = [0, θ − x], para cada x ∈ X.
* Kernel de transición:
Q(B|x, a) = Eω0 (IB (max(0, x + a − w0 ))), (3.1)
para cada B ∈ B(X) y cada (x, a) ∈ K. Donde Eω0 es la esperanza con respecto
a la función de distribución de w0 . Además w0 cuenta con esperanza ω finita.
* Costos:
El costo por adquisición es c · a.
El costo de almacenamiento por periodo es h · (x + a).
El costo esperado por déficit en cada periodo es p · E(max(0, w − x − a)) Ası́ la
función de costo por etapa es
C(x, a) = p · Ew0 (max(0, w0 − x − a)) + h · (x + a) + c · a,
para cada (x, a) ∈ K.
Observación 10.
a) C es una función continua y acotada sobre K.
b) Para cada x ∈ X, A(x) es un conjunto compacto.
c) Para cada x ∈ X, la multifunción φ de X en A, definida como φ(x) = [0, θ − x]

es continua.
CAPÍTULO 3 34
d) Para v ∈ Mb (X),
Z
v(y)Q(dy|x, a) = Eω0 (v(max(0, x + a − ω0 ))), (3.2)
X
para cada (x, a) ∈ K.
e) El kernel de transición Q es débil continuo sobre K.
f ) Para cada x ∈ X, el kernel de transición Q es fuertemente continuo sobre A(x).
De las observaciones a), b) y e) se concluye que el modelo de inventario satisface la

Hipótesis 1, además de las observaciones a), b), c) y f) el modelo satisface la Hipótesis
2
Por a), b) y e) el modelo de inventario satisface la Hipótesis 1, por a),b),c) y f)
el modelo de inventario satisface la Hipótesis 2.
3.2. Cotas para el modelo perturbado M

f
En [14] se demuestra que una clase de polı́ticas llamadas stock base son óptimas
para un sistema de inventario cuyo modelo de control satisface la Hipótesis 1. De
manera análoga para este modelo perturbado del modelo de control del sistema de
inventario se puede demostrar que las polı́ticas stock base son óptimas.
Definición 8. Una polı́tica determinista estacionaria f es una polı́tica stock base si

f (x) = S − x para cada x ∈ [0, S] y f (x) = 0 para cada x ∈
6 (S, θ], donde la constante
S ∈ [0, θ], con S ≥ 0 es llamado punto de reorden.
Para establecer las cotas de aproximación en este modelo perturbado, se conside-

rara a F
e0 como la clase de las polı́ticas stock base.
Para determinar las cotas de aproximación primero se procederá a estimar δQ (F e0 )

y δC ( F
e0 ), para esto primero se determinaran la ley de transición Q
e y la función de
costos C e para una polı́tica stock base fS con punto de reorden S ∈ [0, θ], es decir,
f (x) = S − x para cada x ∈ [0, S] y f (x) = 0 para cada x 6∈ [0, S]. Para determinar
la ley de transición Q,e se observa que la ley de transición Q queda definida de la
siguiente manera para cualquier v ∈ Cb (X)
Z
QfS v(x) = v(y)Q(dy|x, fS (x)), (3.3)
X
CAPÍTULO 3 35
por lo tanto
(
Eω0 (v(max(0, S − ω0 ))) si x ∈ [0, S]
QfS v(x) = (3.4)
Eω0 (v(max(0, x − ω0 ))) si x ∈ (S, θ],
Luego Z Z
Q
ef v(x) =
S
v(y)Q(dy|z, fS (z))L(dz|x) (3.5)
X X
por lo tanto
(
ef v(x) = E (v(max(0, S − ω0 ))) si x ∈ [0, S]
Q S
R ω0 (3.6)
E (v(max(0, z − ω0 )))L(z|x)
X ω0
si x ∈ (S, θ],
Por otro lado
C(x, fs ) = p · Ew0 (max(0, w0 − x − (fS (x)))) + h · (x + (fS (x))) + c · (fS (x)), (3.7)
por lo tanto
(
p · Ew0 (max(0, w0 − S)) + h · S + c · (S − x) si x ∈ [0, S]
C(x, fs ) = (3.8)
p · Ew0 (max(0, w0 − x)) + h · x si x ∈ (S, θ].
Ası́, considerando al operador promediador de interpolación lineal del Ejemplo 1, la

función de costos es
X−1 si+1 − x
i=N
" #
x − s i
Cef (x) = LCfs (x) = Cf (si ) + Cf (si+1 ) IDi (x). (3.9)
S
i=0
si+1 − si s si+1 − si s
Sea Ms = maxi∈{0,1,...,N −1} (si+1 − si ). Después de algunos cálculos se tiene que para
cada v ∈ Cb (X) con k v k≤ 1
ef v(x) ≤ (2lθ + 4k 0 )· Ms ,
QfS v(x) − Q (3.10)
S
para cada x ∈ [0, θ], entonces

ef (·|x) kT V ≤ (2lθ + 4k 0 )· Ms ,
k QfS (·|x) − Q (3.11)
S
por lo tanto
e0 ) ≤ (2lθ + 4k 0 )· Ms .
δQ ( F (3.12)
Por otro lado
CfS (x) − C
ef (x) ≤ max(h + c − p + p, h − p + 2p + c)· Ms
S
(3.13)
CAPÍTULO 3 36
para cada x ∈ [0, θ]. Lo cual implica que
k C fS − C
ef k≤ max(h + c − p + p, h − p + 2p + c)· Ms
S
(3.14)
Por lo tanto
e0 ) = sup k Cf − C
δC (F ef k≤ max(h + c − p + p, h − p + 2p + c)· Ms . (3.15)
S S
f ∈F
e0
Ası́ por los incisos b) y c) del Teorema 9 se tiene lo siguiente
1 αk
k V ∗ − Ve ∗ k≤ max(h + c − p + p, h − p + 2p + c)· Ms + (2lθ + 4k 0 )· Ms ,
1−α (1 − α)2
(3.16)
y si f ∞ es una polı́tica ven -glotona, entonces
2α 2
k V ∗ − Vf ∞ k ≤ k ven − ven−1 k + · max(h + c − p + p, h − p + 2p + c)· Ms
1−α 1−α
2αk
+ 2
· (2lθ + 4k 0 )· Ms .
(1 − α)
Se observa que la cota para k V ∗ − Vf ∞ k depende de Ms por lo que en el modelo

M
f las cotas de aproximación al punto fijo se pueden hacer arbitrariamente pequeñas
tomando refinamientos de la partición establecida del intervalo [0, θ] y haciendo un
número suficiente de iteraciones.
3.3. Implementación
En esta sección se implementa el algoritmo de iteración de valores aproximado en
un sistema de inventario con los siguientes datos:
θ = 40, por lo que X = A = [0, 40].
α = 0.6
La demanda ω0 tiene una función de densidad exponencial ρ con parámetro

λ = 0.1, es decir,
(
(0.1) exp−(0.1)x si x ≥ 0
ρ(x) = (3.17)
0 en caso contrario ,
CAPÍTULO 3 37
con función de distribución

(
1 − exp−(0.1)x si x ≥ 0
F (x) = (3.18)
0 en caso contrario ,
1
y valor esperado Eω0 (ω0 ) = .
λ
Observe también que ρ es acotada por k 0 = λ = 0.1 y es Lipschitz con módulo
l = λ2 = 0.01.
Para la función de costos c = 1.5, h = 0.5 y p = 3, por lo cual
C(x, a) = 3 · Ew0 (max(0, w0 − x − a)) + (0.5) · (x + a) + (1.5) · a,
para cada (x, a) ∈ K. Ası́ considerando x = 20 y a ∈ A(x) = {0}, una cota

para C es k = 22.
De los datos anteriores se puede obtiene lo siguiente

e0 ) ≤ (0.84)· Ms .
a) δQ (F
e0 ) ≤ 10· Ms .
b) δC (F
c) k V ∗ − Ve ∗ k≤ (94.3)· Ms
d) Para una polı́tica f, ven -glotona
k V ∗ − Vf ∞ k≤ 3 k ven − ven−1 k +(188.6)· Ms (3.19)
Para el modelo Mf las cotas dependen del refinamiento del espacio de estados, lo
cual permite controlar la aproximación.
En la implementación del algoritmo de iteración de valores aproximado se consi-

deró un error de aproximación de tamaño = .001, al implementarlo se obtuvo que la
iteración n = 21 es la primera que satisface la condición deseada en el algoritmo con
un tamaño de la partición N = 100, obteniendo una polı́tica stock base con punto de
reorden S = 6.4.
En siguiente imagen se pueden observar las funciones iteradas evaluadas ven con
n = 1, 2, ..., 21.
CAPÍTULO 3 38
Figura 3.1: Funciones vev , con n=1,2,...,21, = .001, N = 100

Conclusiones
En este trabajo se estudió un esquema de aproximación a la solución óptima de

un proceso de control de Markov mediante el algoritmo de iteración de valores. La
metodologı́a consiste en aproximar el operador de programación dinámica T mediante
un operador aproximador que se expresa como la composición de un operador L con
el operador de programación dinámica T , y que esté asociado a un modelo de control.
La clase de operadores L denominados operadores promediadores tienen propie-

dades que permiten establecer los errores de aproximación entre la solución óptima
del modelo original y el desempeño de la polı́tica glotona obtenida del algoritmo
aproximado en términos del error de convergencia establecido en el algoritmo y del
error entre la solución óptima del modelo original y la solución del modelo perturbado.
Con un ejemplo se muestra que mediante una elección adecuada del operador
promediador es posible reducir la complejidad numérica con respecto a la variable
de estado, sin embargo no se reduce la complejidad del problema sobre el espacio
de acciones, por lo que serı́a de interés formular un esquema de aproximación para
reducir la complejidad en ambas variables.
Se puede probar que la clase de operadores que tengan las propiedades desea-
das, no puede extenderse más allá de los promediadores, por lo cual serı́a interesante
estudiar un enfoque más general por ejemplo aproximar directamente al modelo de
control mediante modelos de control más sencillos donde sea posible implementar
métodos de iteración de polı́ticas.
39
APÉNDICE A 40
Apéndices
41
Apéndice A
Lema 8.
a) Si el modelo de control M satisface la Hipótesis 1, entonces para cada v ∈
Mb (X), existe un selector fe, v−glotona para el operador Te.
b) Suponga que L(Cb (X)) ⊂ Cb (X). Si modelo de control M satisface la Hipóte-
sis 2 entonces para cada v ∈ Cb (X), existe un selector fe, v−glotona para el
operador Te.
Demostración:
a) Sea u ∈ Mb (X), ya que el modelo M satisface la Hipótesis 1, por la parte a)
del Lema 1 existe una polı́tica f ∈ F, u−glotona para el operador T , esto es,
Z
T u = C(x, f (x)) + α u(y)Q(dy|x, f (x)),
X
y por monotonı́a y linealidad de L

Z
Teu(x) = LT u(x) = C(x,
e f ),
X
es decir, f es u−glotona para el operador Te.

b) Sea u ∈ Cb (X), ya que el modelo M satisface la Hipótesis 2, por la parte b) del
Lema 1 existe una polı́tica f ∈ F, u−glotona para el operador T , esto es,
Z
T u = C(x, f (x)) + α u(y)Q(dy|x, f (x)),
X
y por monotonı́a y linealidad de L

Z
Teu(x) = LT u(x) = C(x,
e f ),
X
es decir, f es u−glotona para el operador Te.
43
APÉNDICE A 44
Lema 9.
a) Si el modelo de control M satisface la Hipótesis 1, entonces Te : Mb (X) 7→
Mb (X) es un operador de contracción con módulo α. Existe una única u∗ ∈
Mb (X) tal que Teu∗ = u∗ , y para cualquier función v ∈ Mb (X)
lı́m k Ten v − u∗ k= 0. (20)

n7→∞
Además para cada u∗ ∈ Mb (X) no negativa , si Teu ≤ u, entonces Ve ∗ ≤ u.

b) Suponga que L(Cb (X)) ⊂ Cb (X). Si modelo de control M satisface la Hipótesis
2, entonces Te : Cb (X) 7→ Cb (X) es un operador de contracción con módulo
α. Existe una única u∗ ∈ Cb (X) tal que Teu∗ = u∗ , y para cualquier función
v ∈ Cb (X) se cumple 20. Además para cada u∗ ∈ Cb (X) no negativa, si Teu ≤ u,
entonces Ve ∗ ≤ u.
Demostración:
a) Se demostrará que Te es un operador de contracción, ası́ como consecuencia del
Teorema del Punto fijo de Banach se tendrá que existe una única u∗ ∈ Mb (X)
tal que Teu∗ = u∗ , y para cualquier función v ∈ Mb (X) se cumplirá (20). Sean
u, v ∈ Mb (X), como M satisface la Hipótesis 1, por por la parte a) del Lema 2
T es un operador de contracción con módulo α y del inciso 2) de la Observación
5, L es no expansivo, entonces
k Teu − Tev k=k LT u − LT v k=k L(T u − T v) k≤k T u − T v k≤ α k u − v k .
Por lo tanto Te es un operador de contracción módulo α. Por otro lado, para

cada u ∈ Mb (X), suponga que Teu ≤ u, por la parte a) del Lema 8, existe f tal
que Z
u(x) ≥ T u = C(x, f ) + α
e e u(y)Q(dy|x,
e f ), (21)
X
para todo x ∈ X, usando 21 iteradamente,
Z Z
u(x) ≥ T u = C(x, f ) + α
e e u(y)Q(dy|x, f ) ≥ C(x, f ) + α
e e Teu(y)Q(dy|x,
e f)
Z X Z X
= C(x, f ) + α (C(y, f ) + α
e e u(z)Q(dz|y,
e f ))Q(dy|x,
e f)
ZX X Z Z
2
= C(x, f ) + α
e C(y, f )Q(dy|x, f ) + α
e e u(z)Q(dz|y,
e f )Q(dy|x,
e f)
ZX X
Z ZX
≥ C(x,
e f) + α C(y,
e f )Q(dy|x,
e f ) + α2 Teu(z)Q(dz|y,
e f )Q(dy|x,
e f ).
X X X
APÉNDICE A 45
Se concluye que
n−1
X
u(x) ≥ Efx αt C(x
e t , f ) + αn Efx (u(xn )), (22)
t=0
para todo x ∈ X, y dado que u es no negativa

n−1
X
u(x) ≥ Efx αt C(x
e t, f ) (23)
t=0
para todo n ∈ N. Tomando n 7→ ∞, entonces
u(x) ≥ V (f, x) ≥ Ve ∗ (x),
para todo x ∈ X.
b) La demostración de la parte b) es análoga.
Lema 10.
a) Si el modelo de control M satisface la Hipótesis 1, entonces para cada f ∈ F,
Tef : Mb (X) 7→ Mb (X) es un operador de contracción con módulo α, Vef es
el único punto fijo de Tef en Mb (X), y para cualquier función v ∈ Mb (X) se
cumple
lı́m k Tefn v − Vef k= 0. (24)
n7→∞
b) Suponga que L(Cb (X)) ⊂ Cb (X). Si modelo de control M satisface la Hipótesis

2, entonces para cada f ∈ F, Tef : Cb (X) 7→ Cb (X) es un operador de contracción
con módulo α, Vef es el único punto fijo de Tef en Cb (X), y para cualquier función
v ∈ Cb (X) se cumple (24).
Demostración:
a) Sea f ∈ F fijo, y u, v ∈ Mb (X), como M satisface la Hipótesis 1, por por la
parte a) del Lema 3, Tf es operador de contracción con módulo α y del inciso
2) de la Observación 5, L es no expansivo, entonces
k Tef u− Tef v k=k LTf u−LTf v k=k L(Tf u−Tf v) k≤k Tf u−Tf v k≤ α k u−v k .
Por lo tanto Tef es de contracción. Por otro lado

∞
X ∞
X
Vef (x) = Efx t f
α C(xt , f ) = C(x, f ) + αEx
e e αt−1 C(x
e t, f ) (25)
t=0 t=1
APÉNDICE A 46
donde
∞
X X∞
Efx α t−1 f
C(xt , f ) = Ex Ex
e f t−1 e
α C(xt , f ) h1
t=1 t=1
∞
X
= Efx Efx1 αt−1 C(x
e t, f )
t=1
Z
= Efx Vf (x1 ) =
e Vef (y)Q(dy|x,
e f ).
X
Por lo tanto Z
Vef (x) = C(x,
e f) + Vef (y)Q(dy|x,
e f ),
X
es decir, Vef es punto fijo de Tef , y dado que Tef es de contracción el punto fijo
es único.
b) La demostración de la parte b) es análoga.

Bibliografı́a
[1] Almudevar A., Approximate fixed point iteration with an application to infinite
horizon Markov decision processes. SIAM Journal on Control and Optimization
46:541-561, 2008.
[2] Bellman E., Dynamic Programming, Princeton University Press, Princeton,

NJ.,1957.
[3] Bertsekas D.P., Dynamic Programming and Optimal Control, 3rd Edition, Volu-
me I, Athena Scientific, Belmont, Massachusetts.
[4] Bertsekas, D.P., Shreve, S.E.,Stochastic Optimal Control: The Discrete Time
Case, Athena Scientific, Belmont , Massachusetts, 1996.
[5] Cayley A., Mathematical questions with their solutions, No. 4528, Education
Times, 23, 18, (1875).
[6] Hernández-Lerma O.,Adaptive Markov Control Processes, Springer-Verlag, NY,

1989.
[7] Hernández-Lerma O., Lasserre J.B., Discrete-time Markov control processes. Ba-
sic optimality criteria, Springer-Verlag, NY, 1996.
[8] Howard, R.A., Dynamic Programming and Markov Processes, Wiley, New York,
1960.
[9] Kallenberg L., Markov Decisión Processes, University Of Leiden, 2009.
[10] Puterman M. L., Markov Decision Processes: Discrete Stochastic Dynamic Pro-
gramming, Hoboken, New Jersey, USA, Wiley, 1994.
[11] Shiryaev, A.N., Probability, Graduate texts in mathematics, Springer-Velarg,

New York, 1996.
47
BIBLIOGRAFÍA 48
[12] Stachurski J., Continuous state dynamic programming via nonexpansive appro-
ximation, Computational Economics 31, 2008, 141-160.
[13] Vega-Amaya O., López-Borbón J., A Perturbation Approach for a Class of

Discounted Approximate Value Iteration Algorithms. Journal of Dynamics and
Games American Institute of Mathematical Sciences Volume 3 , Number 3 , July
2016
[14] Vega Amaya O., Montes de Oca R., Application of average dynamic program-
ming to inventory systems. Mathematical Methods of Operations Research,1998.

Garrido Ramirez Lizbeth

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Garrido Ramirez Lizbeth

Cargado por

Copyright:

Formatos disponibles

Universidad Veracruzana

Diciembre del año 2016 Xalapa, Ver. México

1. Algoritmo de iteración de valores 1

2. Operadores de aproximación y modelos perturbados 15

a) Te sea el operador de programación dinámica para algún modelo de control de

b) Sea viable implementar el algoritmo de iteración de valores con Te.

Bajo las condiciones mencionadas arriba, se propone aproximar a la función valor

Algoritmo de iteración de valores

En este capı́tulo se plantea el problema principal de la teorı́a de los procesos de

1.1. Problema de control con costo descontado a

Un espacio de Borel es un subconjunto de Borel de un espacio métrico completo

1) X es un espacio de Borel, llamado espacio de estados.

2) A es un espacio de Borel, llamado espacio de acciones.

3) Para cada x ∈ X, A(x) es un subconjunto de A y se denomina conjunto de

K := {(x, a)|x ∈ X, a ∈ A(x)}.

4) Q es un kernel estocástico sobre X dado K, es decir, para cada B ∈ B(X),

5) C : K 7→ R es una función Borel medible no negativa, llamada función de costo

Para cada t ∈ {0, 1, ..., }, sea Ht el conjunto de posibles historias al tiempo t,

Una polı́tica es una sucesión φ = {π0 , π1 , π2 , ...} de kerneles estocásticos πt sobre

Una polı́tica de Markov φ = {π0 , π1 , π2 , ...} es estacionaria si los kerneles es-

Sea F el conjunto de los selectores medibles, es decir, funciones medibles f : X 7→ A

Una polı́tica de Markov es determinista si para cada t ∈ {0, 1, ..., }, πt (a|xt ) = 1

Una polı́tica de Markov estacionaria φ = {π, π, π, ...} es determinista si para cada

Un caso particular de las polı́ticas deterministas estacionarias f ∞ es cuando el

Medir el desempeño de una polı́tica a partir de realizaciones no es viable, ya que,

En lo que sigue se construye dicho espacio de probabilidad para lo cual se emplea

Para cada t ∈ {0, 1, 2, 3, ...}, sea (Ωt , Ft ) el espacio medible donde Ωt = X × A y

para cada B ∈ F0 . Entonces P0 es una medida de probabilidad sobre (Ω0 , F0 ). Sea

Entonces para cada (x0 , a0 , ..., xt , at ) ∈ Ω0 × · · · × Ωt , Pt+1 (·|x0 , a0 , ..., xt , at ) es una

Para cada t ∈ {0, 1, 2, 3, ...} se define la función Pt sobre rectángulos de Ω0 × · · · ×

para cada B0 × · · · × Bt ∈ Ω0 × · · · × Ωt . Con los elementos anteriores el Teorema

Pπν {ω ∈ Ω(x0 , a0 ) ∈ B0 , · · · , (xt , at ) ∈ Bt } = Pt (B1 × · · · × Bt ) (1.6)

para cada B0 × · · · × Bt ∈ F0 × · · · × Ft . El Teorema también afirma que existe un

Pπν ((X0 , A0 ) ∈ B0 , · · · , (Xt , At ) ∈ Bt ) = Pt (B1 × · · · × Bt ) (1.7)

para cada rectángulo B0 × · · · × Bt ∈ F0 × · · · × Ft .

Pt (d(x0 , a0 ), · · · , (d(xt , at )) = P0 (d(x0 , a0 ))P1 (d(x1 , a1 )|(x0 , a0 )) · · · Pt (d(xt , at )|ht−1 )

con ht−1 = (x0 , a0 , · · · xt−1 , at−1 ); aún más, de (1.3) y (1.4)

Ası́ Pπν se puede representar como sigue:

En resumen, para cada polı́tica π y distribución de estado inicial ν, el Teorema de

El problema de control consiste en encontrar una polı́tica π ∗ ∈ Π tal que para

c) Si se considera una polı́tica estacionaria determinista y constante f ∞ = a,

- Para cada B ∈ B(X) y para cada a ∈ A, Q(B|·, a) : X 7→ R es una función

1.2. Existencia y cálculo de polı́ticas óptimas

Con M (X) se denota la colección de funciones reales medibles de X en R, y

Definición 1. Una multifunción o correspondencia φ de X en A es una función

Definición 2. Se dice que el kernel estocástico Q es débil continuo si para cada

es continua y acotada sobre K. Se dice que Q es fuertemente continuo sobre A(x) si

Se consideran dos conjuntos de hipótesis sobre el modelo de control M :

a) El conjunto de acciones admisibles es compacto.

c) El kernel de transición es fuertemente continuo sobre el conjunto de acciones

a) El conjunto de acciones admisibles es compacto y la multifunción φ de X en A

b) El costo por etapa es continuo y acotado.

c) El kernel de transición es débil continuo.

Establecidas las hipótesis anteriores sobre el Modelo de Control, se tiene el siguien-

Teorema 1. Sea v : X 7→ R una función medible. Se define u : K 7→ R como

Entonces u es medible y se cumple lo siguiente:

a) Si el modelo de control M satisface la Hipótesis 1, entonces para cada x ∈ X,

b) Si el modelo de control M satisface la Hipótesis 2 y v : X 7→ R es continua,

Para caracterizar a las polı́ticas óptimas estacionarias deterministas se hace uso

para cada x ∈ X. Por el Teorema 1, bajo la Hipótesis 1 la relación (1.20) define un

un operador tal que T (Cb (X)) ⊂ T (Cb (X)).

Para cada selector f ∈ F, se define para cada u ∈ Mb (X)

para cada x ∈ X. Bajo la Hipótesis 1, para cada f ∈ F, la relación (1.21) define un

El resultado que sigue asegura la existencia de polı́ticas óptimas deterministas