Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Nota Tcnica preparada por el Profesor Rogelio A. A. Morn. Escuela de Ingeniera Industrial, Facultad de
Ciencias Exactas, Ingeniera y Agrimensura, Universidad Nacional de Rosario. Prohibida su reproduccin sin
autorizacin del autor. 2006.
(1)
(2)
el proceso se llama aleatorio puro. Todos los ensayos independientes al azar son procesos de
este tipo.
1.2. Procesos de Markov
(3)
Se dice entonces que los estados del proceso forman una cadena de Markov.
La condicin de Markov se puede formular tambin as: Los estados anteriores de un
sistema slo pueden influir sobre los estados ulteriores a travs del estado presente.
2. CADENAS DE MARKOV
j , k = 1, 2, L, N
(4)
j , k = 1, 2, L , N
(5)
P=
Estados iniciales
1
1
2
M
j
M
N
p
p
M
p
M
p
11
21
j1
N1
p12
p22
M
p j2
M
pN 2
L
L
p1k
p2 k
M
L p jk
M
L p Nk
L
L
p1N
p2 N
M
L p jN
M
L p NN
(6)
p
j =1
ij
= 1 , i = 1, 2, L , N
(7)
Anlogamente para Pm. Una matriz tal que todos sus elementos son no negativos y todas
sus filas suman 1, se llama matriz estocstica. Si sus columnas tambin suman 1 se llama
doblemente estocstica o biestocstica, pues su transpuesta tambin es estocstica.
Propiedad.
P ( A) = P( A | Bi ) P( Bi )
(9)
i =1
P ( A | C ) = P( A | Bi , C ) P( Bi | C )
(10)
i =1
P ( X + m = k | X n = j ) = P ( X n + m = k | X n + r = i, X n = j ) P ( X n + r = i | X n = j )
14n4
424443 i =1 144444244444
3 14442444
3
(*)
p (jkm )
(11)
p (jir )
(12)
(13)
i =1
(15)
Pm = P m
(16)
es decir
Esto es, la matriz de probabilidades de transicin en m etapas se obtiene calculando la
potencia m-sima de la matriz P. Concluimos entonces que la matriz P contiene toda la
informacin necesaria para calcular las probabilidades de transicin en cualquier nmero de
etapas.
2.3. Clasificacin de los estados
j
k
i
Comunicantes
j
Sin retorno
j
Absorbente
Hasta ahora hemos considerado solamente las probabilidades condicionales que surgieron
del anlisis de las transiciones. Sin embargo las variables aleatorias X0, X1, X2, , Xn,
deben tener cada una su propia distribucin de probabilidades, es decir las probabilidades de
que el proceso est en un determinado estado en un instante dado.
Nos proponemos ahora hallar estas distribuciones, y para esto necesitamos conocer la
distribucin de X0, la variable correspondiente a t = 0, el arbitrario instante inicial elegido para
comenzar las observaciones del proceso.
Sean las probabilidades de X0
w(j0) = P( X 0 = j ) ,
j = 1, 2, L , N
(17)
j =1
j =1
, k = 1, 2, L , N
(18)
(19)
, n = 1, 2,L
(20)
Ejemplo 1. Supongamos una CMF que puede tomar los dos estados A = {A1 , A2} y que
el proceso comienza en el instante t = 0 con
w1( 0) = P( X 0 = A1 ) = 13 , w2( 0) = P( X 0 = A2 ) = 23
Conservaremos aqu la costumbre, habitual en la bibliografa, de indicar como vectores fila a los vectores de
probabilidades.
Procesos de Decisin Markovianos. 2006 R. Morn.
14
P = 1
2
3
4
1
2
A2
A1
Entonces en t = 1 ser
W (1) = W ( 0 ) P = ( w1( 0 )
w2( 0 ) ) P = ( 13
2
3
1
) 14
2
3
4
1
2
5
= ( 12
7
12
y en t = 2 resulta
W
( 2)
=W
( 0)
P =W P = (
2
(1)
5
12
7
12
14
) 1
2
3
4
1
2
19
= ( 48
29
48
Y as sucesivamente.
Adems resulta
7
P 2 = 163
8
9
16
5
8
25
64
, P 3 = 13
32
39
64
19
32
103
, P 4 = 256
51
128
153
256
77
128
y se observa que las filas de las potencias sucesivas de P tienden a ser iguales. Esta es una
propiedad que veremos ms adelante.
Ejemplo 2. Consideremos un sistema que puede tomar dos estados: A1 y A2 con
probabilidades de transicin p12 = y p21 = , donde 0 < < 1 y 0 < < 1. Evidentemente
debe ser p11 = 1 y p22 = 1, con lo que resulta
P =
1
1-
A2
A1
1-
+ (1 ) n w1( 0)
w1 =
+
+
(21)
(
n
)
n
(
0
)
w =
+ (1 ) w2
2
+
+
, lim w2( n ) =
n
(22)
, w2( 0) =
entonces
resulta w1( n ) =
, w2( n ) =
.
+
i) Una matriz estocstica admite siempre el autovalor 1 (que puede ser mltiple).
ii) Todos los dems autovalores de una matriz estocstica tienen mdulo menor o igual que 1.
Los que tienen mdulo 1 son races de la unidad.
En lo que sigue nos ocuparemos del comportamiento asinttico de las CMF, es decir en
el largo plazo.
2.5. Definiciones
Si existe una distribucin lmite para Xn, independiente de la distribucin de X0, la CMF se
llama ergdica. Las probabilidades lmite se llaman probabilidades de estado permanente.
lim W
n
(n)
= W = ( w1
w2 L wN )
(23)
(24)
( PT I )W T = 0
(25)
donde I es una matriz identidad. Es decir, W ser una distribucin estacionaria si, y slo si, es
el autovector (fila) correspondiente al autovalor 1 de P.
2
Cf., por ejemplo, P. Gordon, Cadenas finitas de Markov y sus aplicaciones, Barcelona: Ed. Hispano Europea,
1967, pp. 90-91.
Procesos de Decisin Markovianos. 2006 R. Morn.
Ya hemos visto que toda matriz estocstica tiene un autovalor igual a 1, luego existe
siempre un vector W no nulo que es distribucin estacionaria del proceso. Si el autovalor 1 es
de orden de multiplicidad k > 1, la matriz podra tener k autovectores linealmente
independientes como distribuciones estacionarias. Enseguida veremos que si hay ergodicidad
la distribucin estacionaria es nica.
Ejemplo 3.
w1 w1
(1 ) w1
1
=
w1
1 w2 w2
+ w2
= w1
+ (1 ) w2
= w2
que es un sistema homogneo con determinante nulo y por lo tanto admite soluciones distintas
de la trivial. Para resolverlo utilizaremos la condicin adicional: w1 + w2 = 1 w1 = 1 w2.
Reemplazando w1 en la primera ecuacin se obtiene
(1 ) w1 + (1 w1 ) = w1 (1 1 ) w1 + = 0 w1 =
y reemplazando este valor en la segunda ecuacin resulta w2 =
i)
Existen los lmites lim p (jkn ) = wk , j , k = 1, 2,L, N y son independientes de j (la fila de P),
n
w
k =1
= 1 , donde W es el vector
Cf., por ejemplo, A. Rnyi, Clculo de probabilidades, Madrid.: Ed. Revert, pp. 477-480.
La recproca no es cierta, pues puede haber una distribucin estacionaria sin que exista
distribucin lmite. En efecto, supongamos el siguiente sistema con
1
0 1
. Evidentemente los valores de p (jkn ) oscilan de 0 a 1 y
P =
A1
A2
1 0
1
viceversa al crecer n y por lo tanto no existen los lmites, es decir no
hay distribucin de estado permanente. Sin embargo, dado que P tiene el autovalor 1 (simple),
existe una nica distribucin estacionaria que asigna a cada estado la probabilidad , pues
w1 = w2 = es la nica solucin de la ecuacin (w1 w2)P = (w1 w2) con valores no negativos.
Las probabilidades de estado estacionario expresan la proporcin del tiempo que, en
promedio, el proceso permanecer en cada estado en el largo plazo.
Propiedad.
A1
es indescomponible y
A2
1
Observaciones
1) Que los lmites wk constituyen la distribucin lmite de la cadena se puede ver fcilmente
a partir de la (20). En efecto, explicitando el k-simo elemento se tiene
N
(26)
j =1
y tomando lmites
N
j =1
j =1
(27)
Puesto que por el teorema 2 estos ltimos lmites existen y son independientes de j, resulta
N
j =1
j =1
(28)
sistema de N+1 ecuaciones con N incgnitas. Como por el teorema tiene solucin nica,
una de las ecuaciones debe ser combinacin lineal de las dems y puede eliminarse. sta
N
no puede ser la
w
k =1
wk = 0 j. Adems las otras N ecuaciones tienen solucin nica salvo una constante
multiplicativa, son los autovectores de P T , y es la condicin
w
k =1
pueda determinar esa constante, obteniendo una solucin que sea una distribucin de
probabilidad. Luego la ecuacin redundante es una cualquiera del sistema P T W T = W T .
Procesos de Decisin Markovianos. 2006 R. Morn.
condicin
w
k =1
p 21
p11 1
p 22 1
p12
A= M
M
p1, N 1 p 2, N 1
1
1
p N ,1
p N ,2
M
L p N 1, N 1 1 p N , N 1
L
1
1
L
L
p N 1,1
p N 1, 2
M
0
0
b = M
0
1
(29)
4) Se suelen definir tambin las CMF ergdicas como aquellas constituidas por una nica
clase comunicante, y se dividen en regulares y peridicas segn
1
que P no tenga ningn cero o tenga algn cero,
A1
A2
respectivamente, para algn . Segn esta definicin la CMF de
1
la figura sera ergdica peridica. Sin embargo, como no tiene
distribucin lmite, de acuerdo a la definicin que hemos adoptado aqu no es ergdica.
Si la matriz P tiene al menos una columna con todos sus elementos estrictamente
positivos, la cadena es ergdica. En caso contrario, para verificar la ergodicidad, se deben
calcular las sucesivas potencias P ( = 2, 3, ), hasta encontrar alguna que tenga al menos
2
una columna sin ceros. Se puede demostrar que la cota para es 2 N ; superado este valor
sin encontrar una columna sin ceros la cadena no es ergdica.
La ergodicidad tambin queda caracterizada por la siguiente propiedad. 4
Teorema 3. Una CMF homognea tiene distribucin lmite independiente de la
distribucin inicial si, y slo si, la matriz P tiene un nico autovalor igual a 1 y todos los
dems autovalores tienen mdulo estrictamente menor que 1.
Si la CMF es ergdica la matriz lmite lim P n = P * tiene todas sus filas iguales y los
n
elementos de stas son las probabilidades estacionarias. An dentro de las CMF ergdicas
pueden presentarse casos en los que alguna probabilidad lmite sea cero, es decir que alguna
columna de P* sea nula. Es el caso en que el proceso tiene algn conjunto de estados no
esencial o transitorio.
Ejemplo 4.
3 1
P = 4 4
0 1
3/4
A1
1/4
A2
10
A2
0 0
0
0 0
2
3
P = 0 P = 0 0 P = 0 L
0 0
0
0 0
A3
A2
A3
A4
0
P=
0
0
0
0
2
P =
0 0
0
0
0 0
0
0
0
0 0
0
0 0
3
P =
0
0
L
0
En todo lo anterior hemos considerado que el parmetro t era discreto. Si bien este
supuesto es apropiado para muchos sistemas reales, hay sin embargo sistemas en los cuales se
debe considerar continuo al parmetro; tal el caso de los sistemas de espera en fila.
Por ejemplo, en un proceso de Poisson de nacimiento puro (slo los arribos a un sistema
de espera en fila) con tasa media de arribos , el estado del sistema en el instante t est dado
por la cantidad de arribos en el intervalo [0, t), con t 0. Es decir, Xt = k indica que llegan k
clientes en ese intervalo y sabemos que la probabilidad de ese evento est dada por
e t (t ) k
P( X t = k ) =
k!
, k = 0, 1, L
(30)
Ahora bien, por las hiptesis del proceso de Poisson sabemos que esta probabilidad slo
depende del instante t y no del estado anterior del sistema. Por lo tanto el proceso de Poisson
es tambin una cadena de Markov discreta, infinita (numerable) y de parmetro continuo.
Anlogamente, el proceso de Poisson de muerte pura (slo las partidas) es una cadena de
Markov discreta, finita, de parmetro continuo.
En consecuencia, dado que las propiedades de las cadenas de Markov de parmetro
discreto se pueden extender a las de parmetro continuo, la teora de estas cadenas se puede
utilizar para deducir los modelos para colas poissonianas. 5
No analizaremos estas aplicaciones dado que el objetivo es estudiar los procesos de decisin en cadenas de
Markov.
Procesos de Decisin Markovianos. 2006 R. Morn.
11
Los estudios hidrolgicos de un pequeo ro indican que su caudal vara entre 3,3 y 8,3
m /seg., durante el ao, en el lugar en que se proyecta construir un embalse para suministro de
agua para riego a travs de un sistema de canales. En consecuencia el aporte semanal de agua
al embalse variar entre 2 y 5 hectmetros cbicos (Hm3). Sobre la base de los registros de los
ltimos 10 aos se ha determinado la distribucin de probabilidades del aporte semanal que se
indica en la siguiente tabla:
3
0,3
0,4
0,2
0,1
n = El comienzo de la semana n (n = 1, 2, ).
Si xn = 2 resulta:
fn
un
xn+1
p1k
fn
un
xn+1
p2k
p13 = 0,1
p24 = 0,1
p12 = 0,2
p23 = 0,2
0,4
p22 = 0,4
0,3
p21 = 0,3
p11 = 0,7
12
Si xn = 3 resulta:
fn
un
xn+1
0,1
0,2
Si xn = 4 resulta:
fn
un
xn+1
0,1
0,2
p33 = 0,4
0,4
p32 = 0,3
p3k
p34 = 0,3
p4k
p44 = 0,7
p43 = 0,3
0,7
0
0 0,3 0,7
0,3
0,4
0,2
0,1
0,1
0,3
0,3
3
0,4
0,3
4
0,7
El proceso es evidentemente ergdico por cuanto la matriz P tiene una columna sin ceros.
Podemos entonces calcular las probabilidades estacionarias utilizando (29):
0
0 w1 0
0,7 1 0,3
0,4 1 0,3
0 w2 0
0,2
=
0,1
0,2
0,4 1 0,3 w3 0
1
1
1
1 w4 1
de donde se obtiene
)
)
w1 = 0,20 w2 = 0,20 w3 = 0,26 w4 = 0,33
Las probabilidades estacionarias indican, en el largo plazo, la proporcin del tiempo que
el sistema estar, en promedio, en un determinado estado. Por ejemplo, a largo plazo el 26,7%
de las semanas el embalse tendr 3 Hm3. Por otra parte como estas probabilidades son los
lmites de las probabilidades de transicin en m etapas, cuando m ; tambin indican la
probabilidad de pasar, en el largo plazo, a un determinado estado cualquiera sea el estado
inicial. Por ejemplo, la probabilidad de pasar a tener 3 Hm3 en el largo plazo, desde cualquier
estado actual, es 26,7%.
13
P= M
p
N1 L
p1N
M
p NN
(31)
Sea rjk el valor asociado a la transicin (por ejemplo, un costo o una utilidad) desde el
estado j al estado k, independiente de n (es decir del tiempo). Definamos entonces la matriz R
r11 L r1N
M
R= M
r
N 1 L rNN
(32)
para representar a todos estos valores. El valor rjk se tendr cuando ocurra la transicin desde j
en una etapa cualquiera hasta k en la etapa siguiente, lo que suceder con una probabilidad pjk;
luego rjk ocurrir con probabilidad pjk y por lo tanto puede ser considerado el valor de una
variable aleatoria. Ms precisamente, los valores de la j-sima fila de R constituyen los
valores de una variable aleatoria cuyas probabilidades estn dadas por la j-sima fila de P.
Supongamos ahora que queremos calcular el costo o beneficio esperado de la evolucin a
largo plazo del sistema. Puesto que estamos en el caso de horizonte infinito, no podemos
proceder como en Programacin Dinmica en ambiente aleatorio, con el clculo de los
valores esperados hacia atrs. Para determinar una ecuacin de recurrencia que nos permita
calcular el valor esperado del costo o beneficio acumulado hasta una etapa n cualquiera,
definiremos a n como el nmero de etapas que faltan para llegar al final. Luego, haciendo
n , podremos obtener el comportamiento asinttico del proceso.
Etapa n
Etapa n-1
Etapa 0
j
yj(n)
pjk , rjk
yi(n|k)
k
yk(n-1)
N
14
y j (n | k ) = p jk [r jk + yk (n 1)]
(33)
Considerando todos los estados posibles en la etapa n1 a los que puede evolucionar el
sistema, el valor esperado acumulado en el estado j de la etapa n, para j = 1, 2, , N, es (ver
figura)
N
k =1
k =1
k =1
k =1
(34)
v j = p jk r jk
k =1
j = 1, 2, L, N
(35)
v1
v= M
v
N
(36)
y ( n) = M
y ( n)
N
el valor esperado acumulado cuando el nmero de etapas que faltan considerar es n, se puede
escribir en forma matricial
y (n) = v + P y (n 1) , n = 1, 2, L
(37)
Esta ecuacin de recurrencia permite calcular el valor esperado acumulado del proceso a
largo plazo, comenzando con valores arbitrarios yj(0) = 0, j, y haciendo n , supuesto
que el proceso se estabilice. Interesan entonces las condiciones de estabilidad independientes
del estado inicial del proceso.
3.2. Propiedades.
V = wi vi = W v
(38)
i =1
independiente del tiempo y del estado inicial. La ergodicidad de la cadena asegura la unicidad
de V.
En estado estable, el valor esperado acumulado a largo plazo para n etapas ser entonces
nV = nW v
(39)
Por otra parte el valor esperado acumulado en la etapa n est dado por (37). Entonces,
considerando n suficientemente grande (n ), la diferencia entre (37) y (39):
y = y (n) nV
(40)
15
representa el efecto transitorio del estado inicial sobre el valor esperado y es independiente
del tiempo. Para un estado j en la etapa n ser
y j = y j (n) nV
(41)
donde yj es un valor independiente del tiempo y slo depende del estado inicial y del estado j
(j = 1, 2, , N). Finalmente el valor esperado acumulado en el estado j en la etapa n se puede
expresar como
(42)
y j (n) = nV + y j = nWv + y j
Esta ecuacin establece que, en general, el valor esperado en el largo plazo est
compuesto por dos partes, una de estado estable, nV, que resulta del comportamiento
asinttico cuando n , y otra transitoria, yj, que depende slo de las condiciones iniciales y
del particular estado j.
De (42) se deduce inmediatamente que, para todo j,
y j (n + 1) y j (n) = (n + 1) V + y j (n V + y j ) = V = cte.
(43)
es decir, para n suficientemente grande, la diferencia entre dos valores esperados sucesivos,
para un mismo estado, es constante. Anlogamente, para todo j i,
y j (n) yi (n) = n V + y j (n V + yi ) = y j yi = cte.
(44)
es decir, la diferencia entre los valores esperados en la misma etapa, para distintos estados, es
constante, pues yj e yi son independientes del tiempo.
Dado que el valor esperado acumulado crece permanentemente, el valor relativo de
ambas constantes, con respecto al valor acumulado, decrece al crecer n y por lo tanto para
n , los valores esperados acumulados tienden a ser iguales, independientemente del
estado.
Ejemplo 5. Consideremos las ventas semanales de un producto de consumo masivo, las
que pueden ser desde excelentes hasta prcticamente nulas. A los efectos de mantener este
ejemplo muy simple, consideraremos slo dos estados posibles de las ventas al finalizar cada
semana: 1- Excelentes, 2- Malas.
En estas condiciones se sabe, por datos histricos y por investigacin del mercado, que si
al finalizar una semana las ventas fueron excelentes hay una probabilidad del 40% de que en
la semana siguiente sean malas, mientras que si fueron malas hay una probabilidad del 50%
de que sigan malas. Se tiene entonces la siguiente situacin:
0,6 0,4
P =
0,5 0,5
0,6
0,4
0,5
0,5
Tambin se conocen las utilidades semanales que se obtienen en cada uno de estos casos.
Si las ventas son excelentes y siguen siendo excelentes, es cuando la ganancia es mxima; si
son excelentes y terminan malas o si son malas y pasan a excelentes, el rendimiento es menor;
si son malas y siguen malas se tienen prdidas. Supongamos que, en una apropiada unidad
10 5
.
monetaria, esta informacin es la indicada en la siguiente matriz: R =
4 3
Se quiere determinar el valor esperado acumulado de la utilidad en el largo plazo,
suponiendo que el comportamiento de los consumidores se mantenga estable.
16
Las etapas sern los fines de cada semana y es evidente que el sistema es una CMF
ergdica. El valor esperado en una transicin simple, v, es
v1 = p11r11 + p12 r12 = 0,6 10 + 0,4 5 = 8
Entonces se puede calcular el valor esperado acumulado hasta la etapa n con la (37).
Comenzando con y1(0) = y2(0) = 0 se obtiene
n
8 + 0,6 0 + 0,4 0 = 8
8 + 0,6 27,037 + 0,4 18,70375 = 31,7037 0,5 + 0,5 27,037 + 0,5 18,70375 = 23,37038
Se observa que los resultados verifican las propiedades (43) y (44). Los valores esperados
tienden a una diferencia constante igual a 4,666 entre etapas para un mismo estado inicial, y
a una diferencia constante igual a 8,333 entre valores en una misma etapa. Como al crecer n
los valores esperados acumulados van creciendo y las diferencias se mantienen constantes, las
diferencias relativas a los valores esperados irn decreciendo (tendiendo a cero).
4. PROCESOS DE DECISIN
Supongamos ahora que en cada estado, en cada etapa, tuvisemos la posibilidad de decidir
entre varias alternativas para la transicin siguiente. Estas alternativas consisten en decisiones
que alteran las probabilidades de transicin. Supongamos que tenemos S alternativas distintas
en cada momento, luego si estamos en el estado j, en el instante n, elegir una alternativa para
la transicin siguiente es elegir una matriz de transicin entre S posibles matrices. Estas
matrices las indicaremos P(s), con s = 1, 2, , S. Para cada matriz P(s) se tendr la
correspondiente matriz de valores R(s), pues al cambiar las probabilidades tambin pueden
cambiar los costos o utilidades asociados a ellas.
Una poltica establece, para cada estado en que se encuentre el sistema en cada etapa, la
decisin a tomar. Llamemos uj(n) a la decisin tomada en el estado j en el instante n, luego si
uj(n) = s significa que hemos optado por la alternativa s. Entonces para todos los estados en
una etapa podemos definir el vector
u1 (n)
u ( n) = M
u ( n)
N
(45)
cuyos elementos componentes uj(n) indican la decisin a tomar en cada estado j en la etapa n.
Cada vector u(n) es una poltica.
Una poltica se llama estacionaria si, siempre que el sistema est en un determinado
Procesos de Decisin Markovianos. 2006 R. Morn.
17
estado, se toma la misma decisin. Esto es, la decisin que se toma en cada etapa depende
slo del estado del sistema.
Una poltica ptima, que indicaremos u*(n), establece la decisin que optimiza el valor
esperado para cada estado en la etapa n. A distintos estados les pueden corresponder
diferentes decisiones ptimas y stas pueden no ser nicas.
Interesa entonces determinar la sucesin de decisiones u*(n) que optimicen el valor
esperado acumulado en el largo plazo. Como veremos, si el proceso es ergdico las decisiones
convergen a una nica decisin ptima estacionaria, es decir u*(n) u* para n . En este
caso se dice que el proceso converge en el espacio de las polticas, es decir que en estado
estable, para n suficientemente grande, la poltica ptima es siempre la misma. Esto significa
por lo tanto que, en el largo plazo, para cada estado del sistema la decisin ptima a tomar es
siempre la misma, aunque a diferentes estados les pueden corresponder decisiones ptimas
distintas.
Cabe sealar que hablamos de poltica y no de estrategia porque, a diferencia de la
Programacin Dinmica en ambiente aleatorio, debido a la convergencia en poltica, en el
largo plazo las decisiones ptimas quedarn definidas para todas las etapas desde el principio.
A continuacin trataremos mtodos para realizar esta optimizacin.
4.1. Mtodo de iteracin de valores
Consideremos nuevamente la ecuacin de recurrencia (34). Como ahora las pjk dependen
de la decisin adoptada las indicaremos p (jks ) para expresar la alternativa elegida, resultando
para la ecuacin de recurrencia, para n = 1, 2, 3, ,
N
k =1
k =1
k =1
k =1
y (js ) (n) = p (jks ) [r jk( s ) + yk (n 1)] = p (jks ) rjk( s ) + p (jks ) yk (n 1) = v (js ) + p (jks ) yk (n 1)
(46)
donde hemos indicado con v (js ) el valor esperado de una transicin simple:
N
j = 1, 2,L, N
(47)
Indicando con v(s) al vector de estos valores esperados y con P(s) a la matriz de las p (jks ) ,
podemos escribir en forma matricial
y ( s ) (n) = v ( s ) + P ( s ) y (n 1) , n = 1, 2, L
(48)
Para determinar una ecuacin de recurrencia que nos permita encontrar la estrategia
ptima podemos hacer lo siguiente. Supongamos que hemos determinado Vk(n1), el valor
ptimo en el estado k en la etapa n1; entonces aplicando la alternativa s el valor esperado
acumulado hasta la etapa n ser
N
j = 1, 2,L, N
, n = 1, 2, L
(49)
y el valor ptimo del valor esperado se obtiene (caso de maximizacin), aceptando la validez
del principio de optimizacin de Bellman en el caso aleatorio, como
N
18
j = 1, 2,L, N
, n = 1, 2, L
(50)
que es la ecuacin de recurrencia que resuelve el problema en el largo plazo, comenzando con
valores arbitrarios Vj(0) = 0, j, y haciendo n (recordemos que n es el nmero de etapas
que faltan hasta el final).
En cada etapa determinaremos el valor de s que produce el ptimo, es decir la decisin
ptima, con lo que obtendremos la poltica ptima.
Se demuestra que, en el largo plazo (n ), la poltica ptima consiste en aplicar
siempre al mismo estado la misma decisin. Esto es, converge en el espacio de las polticas. 8
Factor de descuento
Como los problemas que estamos tratando son de horizonte infinito, el valor esperado
ptimo dado por (50) tiende a ser infinitamente grande conforme n crece, lo que no es de
valor prctico. Por lo tanto, para realizar un enfoque ms realista del problema es fundamental
compensar las diferencias de valor monetario debidas al tiempo, considerando el valor
presente de los valores esperados. Se debe incluir por lo tanto un factor de descuento
0 < < 1 (igual que en Programacin Dinmica) para considerar en cada etapa el valor
presente del valor esperado. La ecuacin de recurrencia (50) pasa a ser ahora
p
k =1
V (n 1) ,
(s)
jk k
j = 1,L, N
, n = 1, 2, L
(51)
Entonces cuando el proceso evoluciona hasta infinito, al descontarse con < 1, los valores
futuros tienden asintticamente a cero; luego el valor presente del valor esperado debe tender
a un valor constante y no crecer indefinidamente. En efecto, se demuestra que, para n ,
resulta Vj(n) = Vj, independiente de n: 9
V j = max .v (js ) +
s
p
k =1
V ,
(s)
jk k
j = 1, L, N
(52)
Obsrvese que para cada estado hay un lmite independiente del tiempo. La inclusin del
factor de descuento puede dar una poltica ptima distinta de la que se obtendra sin l.
Ejemplo 6. Retomemos el ejemplo 5. Segn sea el estado de las ventas al finalizar cada
semana se pueden tomar distintas decisiones pero, para mantener otra vez el ejemplo muy
simple, supondremos slo dos decisiones posibles cualquiera sea el estado: A- Dejar las cosas
como estn, B- Hacer publicidad.
Este caso es el considerado en el ejemplo 5, por lo tanto las matrices a tomar en cuenta
0,6 0,4
10 5
y R (1) =
, que ahora indicaremos con el superndice 1 para
son: P (1) =
0,5 0,5
4 3
identificar la poltica.
8
Cf., por ejemplo, R. E. Bellman y S. E. Dreyfus, Applied Dynamic Programming, Princeton, N. J.: Princeton
University Press, 1962, pp. 301-302.
9
Cf., por ejemplo, G. Hadley, Nonlinear and Dynamic Programming, Reading, Mass.: Addison-Wesley, 1964,
p. 457.
10
Es importante observar que estas no son todas las polticas estacionarias. Es una simplificacin al solo efecto
de mostrar la mecnica del clculo. Como comentaremos luego, para realizar el anlisis correcto para determinar
la poltica ptima se deben considerar todas las posibles polticas estacionarias.
Procesos de Decisin Markovianos. 2006 R. Morn.
19
y1(1) (n)
u1
y2(1) (n)
u2
8,00
7,50
8,00
0,50
0,50
13,00
14,75
14,75
4,75
5,75
5,75
19,15
21,35
21,35
10,75
12,05
12,05
25,63
27,92
27,92
17,20
18,56
18,56
Se comprueba que el proceso converge a una poltica permanente, que en este caso es la 2.
Adems el valor esperado acumulado crece indefinidamente y el incremento del valor
esperado en cada etapa tiende a un valor constante 6,5625. Esto ltimo es consecuencia de
considerar valores sin descuento. Si se incluye un factor de descuento es fcil verificar que el
valor esperado acumulado tiende a un valor constante, mientras que el incremento por etapa
tiende a cero. Por ejemplo, para = 0,8 los valores esperados convergen a V1 = 33,928571 y
V2 = 25 (ejercicio).
Observacin. En realidad con dos estados y dos alternativas posibles las polticas
estacionarias a considerar son cuatro, que indicaremos 1, 2, 3 y 4, y son las que se muestran a
continuacin:
ESTADOS
Ventas Excelentes
Ventas Malas
20
POLTICAS
1
2
3
Dejar las cosas como Dejar las cosas como
Hacer publicidad
estn
estn
Dejar las cosas como
Dejar las cosas como
Hacer publicidad
estn
estn
4
Hacer publicidad
Hacer publicidad
Poltica 2
Poltica 3
Poltica 4
Matriz P1
Matriz R1
Matriz P2
Matriz R2
Matriz P3
Matriz R3
Matriz P4
Matriz R4
0,6
0,4
10
0,6
0,4
10
0,9
0,1
0,9
0,1
0,5
0,5
-3
0,7
0,3
-7
0,5
0,5
-3
0,7
0,3
-7
Si el proceso es ergdico, como estamos suponiendo, el valor esperado total en cada etapa,
para n muy grande y para matrices P y R dadas, est expresado por (38) y es independiente
del tiempo. Luego, si consideramos matrices alternativas P(s) y R(s) el valor esperado para cada
alternativa estar dado por
V
(s)
= wi( s ) vi( s ) = W ( s ) v ( s )
(53)
i =1
N
V * = max . V ( s ) = max . wi( s ) vi( s ) = max . W ( s ) v ( s )
s
s
s
i =1
{ }
(54)
21
Ejemplo 7.
v1(1)
v2(1)
0,5
w1(1)
Poltica 2
w2(1)
0,5556 0,4444
V (1)
v1( 2 )
v2( 2 )
w1( 2 )
w2( 2 )
V ( 2)
4,6667
7,5
0,875
0,125
6,5625
La poltica ptima es la 2, con un valor esperado promedio por etapa de 6,5625. Este valor
es el que se haba obtenido como incremento constante del valor esperado en el largo plazo en
la optimizacin sin descuento.
Este mtodo puede ser de utilidad en casos en los que se sabe que el proceso est en
condiciones estacionarias en el largo plazo y, dentro de l, se quiere considerar un cierto
nmero de etapas (pocas) para ver el efecto de la poltica ptima en ese corto horizonte
(dentro del largo plazo), en las que se puede considerar despreciable el efecto del descuento.
Es importante destacar que este mtodo considera explcitamente la totalidad de las
alternativas, es decir es de enumeracin completa. Para cada una se debe calcular el vector
W(s), lo que requiere resolver un sistema de ecuaciones. Si la cantidad de estados y de
alternativas de decisin en cada estado es grande, el volumen de clculo es importante.
El mtodo ms eficiente es el siguiente.
4.3. Mtodo de iteracin de polticas 11
Es un mtodo iterativo que consta de dos fases: una de determinacin del valor de V, y
otra de mejora de la poltica. Hay una diferencia muy importante entre el mtodo sin factor de
descuento y el mtodo con descuento, por lo tanto los veremos por separado.
4.3.1. Mtodo de iteracin de polticas sin descuento
n V + y j = v j + p jk yk (n 1) = v j + p jk [(n 1)V + yk ] =
k =1
k =1
k =1
k =1
k =1
= v j + (n 1)V p jk + p jk yk = v j + (n 1)V + p jk yk
(55)
V = v j + p jk yk y j
k =1
j = 1, 2, L , N
(56)
11
R. A. Howard, Dynamic Programming and Markov Processes, Cambridge, Mass.: MIT Press, 1960.
22
Se elige arbitrariamente una poltica s, lo que significa elegir las matices P(s) y R(s), luego
el sistema (56) toma la forma
V
(s)
=v
(s)
j
j = 1, 2, L , N
(57)
j = 1, 2, L , N
(58)
donde los valores de yk(s ) son los obtenidos en el paso anterior. Los valores de t que dan el
mximo para cada estado constituyen una nueva poltica s. Si esta nueva poltica es idntica a
la anterior es la ptima; en caso contrario se vuelve a la fase 1 con la poltica s y se repite el
proceso.
Dado que en la (58) y (sj ) no depende de las alternativas t que se consideren, a los efectos
de determinar el valor de t que produce el ptimo en cada estado, se puede tomar directamente
N
j = 1, 2, L , N
(59)
Dado que la cadena es finita, si el nmero alternativas de decisin en cada estado es finito,
el nmero de polticas estacionarias es tambin finito. Observemos entonces que: en la fase 1
la (57) da una solucin nica para cada poltica; por la fase 2 cada nueva poltica es al menos
tan buena como la anterior; y si una poltica se repite en forma consecutiva el algoritmo
termina. Por lo tanto el mtodo convergir a la solucin ptima en un nmero finito de
iteraciones.
Notemos adems que la ecuacin de recurrencia (34) de donde partimos da el incremento
de valor esperado por etapa, luego la utilizacin de (57) y (59) conducirn al valor ptimo de
ese incremento.
Ejemplo 8.
23
)
y1(1) = 8,333 ,
y2(1) = 0
2) Mejora de la poltica.
Utilizando (59).
Clculo de los v (j2 )
v1( 2 ) = p11( 2) r11( 2 ) + p12( 2) r12( 2 ) = 0,9 8 + 0,1 3 = 7,5
( 2)
( 2) ( 2)
( 2) ( 2)
v2 = p21 r21 + p22 r22 = 0,7 3 + 0,3 (7) = 0
Valor
ptimo
Poltica
ptima
)
8 + 0,6 8,33 + 0,4 0 = 13
)
)
0,5 + 0,5 8,33 + 0,5 0 = 4,66
)
7,5 + 0,9 8,33 + 0,1 0 = 15
)
)
0 + 0,7 8,33 + 0,3 0 = 5,833
15
5,833
2
La decisin resultante es u = , es decir tanto si estamos en el estado 1 como en el 2, la
2
poltica es la alternativa 2. Dado que difiere de la poltica anterior debemos iterar el
procedimiento.
1 iteracin.
( 2)
( 2)
( 2)
( 2)
( 2)
( 2)
( 2)
V 0,7 y1 0,3 y2 + y2 = 0
V 0,7 y1 + 0,7 y2 = 0
24
y1( 2) = 9,375 ,
y2( 2) = 0
2) Mejora de la poltica.
Valor
ptimo
6,5625
Poltica
ptima
2
2
2
La decisin resultante es u = , idntica a la anterior, luego es la ptima. El valor
2
ptimo de V es 6,5625 (el anterior era 4,66). Es el incremento de valor esperado por etapa
en el largo plazo sin descuento.
4.3.2. Mtodo de iteracin de polticas con descuento
Ya hemos visto que en los problemas de horizonte infinito se debe aplicar un factor de
descuento para considerar el valor presente del valor esperado. Para el mtodo de iteracin de
polticas partamos nuevamente de la ecuacin de recurrencia (51)
p
k =1
V (n 1) ,
j = 1,L, N
(s)
jk k
, n = 1, 2, L
(60)
V j = max .v (js ) +
s
p
k =1
V ,
j = 1, L, N
(s)
jk k
(61)
Se elige arbitrariamente una poltica s, lo que significa elegir las matices P(s) y R(s), y se
resuelve el sistema de N ecuaciones
V j( s ) = v (js ) +
p
k =1
(s) (s)
jk k
j = 1,L , N
(62)
max .v (jt ) +
t
p
k =1
(t ) ( s )
jk k
j = 1, 2, L , N
(63)
25
donde los valores de Vk(s ) son los obtenidos en el paso anterior. Los valores de t que dan el
mximo para cada estado constituyen una nueva poltica s. Si esta nueva poltica es idntica a
la anterior es la ptima; en caso contrario se vuelve a la fase 1 con la poltica s y se repite el
proceso.
En estas condiciones se demuestra que, para una cadena de Markov finita (nmero finito
de estados y de decisiones) ergdica, cada nueva poltica (es decir, cada iteracin del mtodo)
da un valor esperado V(s) que es mejor, o a lo sumo igual, que el anterior y por lo tanto el
mtodo converge en un nmero finito de iteraciones. El ptimo se alcanza cuando dos
iteraciones sucesivas dan la misma poltica. 12
En las aplicaciones la convergencia se logra en un nmero relativamente pequeo de
iteraciones y mientras mejor sea la eleccin de la poltica inicial ms rpida ser
convergencia. Esta es la gran ventaja del mtodo. Aunque su desventaja es que en cada
iteracin hay que resolver un sistema de ecuaciones lineales, es el mtodo ms eficiente.
Si se resuelve el ejemplo 8 utilizando (62) y (63), con un factor de descuento = 0,8 y
empleando como poltica inicial la 1, el algoritmo converge en una iteracin a la poltica
ptima (la 2) y a los valores esperados ptimos (con descuento): V1 = 33,928571 y V2 = 25
(ejercicio).
4.4. Ejercicio
Consideremos nuevamente el caso de aplicacin 2.8. Supongamos que el sistema tiene los
siguientes ingresos (en unidades monetarias apropiadas) provenientes de la explotacin del
agua para riego y del lago para recreacin.
Ingreso por suministro de agua para riego: 5 UM, salvo si no se cumple el objetivo de
entregar 2 Hm3 (que sucede slo si, estando en el estado 1, el aporte es de 2, con probabilidad
0,3), en cuyo caso no hay ingreso sino que se paga una multa de 3 UM.
Ingreso por explotacin del lago para recreacin: depende del nivel del lago, es decir del
estado del sistema, segn la siguiente tabla:
Nivel del embalse al comienzo de la semana [Hm3]
Adems se paga una multa de 5 UM por riesgo de inundacin si la cantidad liberada aguas
abajo supera los 2 Hm3 (que slo sucede si, estando en el estado 4, hay un aporte de 5, con
probabilidad 0,1).
a) Calcular el ingreso total semanal esperado a largo plazo sin descuento. Adoptar un factor
de descuento apropiado y calcular el valor esperado total a largo plazo (valores lmites).
b) Para reducir el riesgo de inundacin se considera la siguiente poltica alternativa: Siempre
que el estado del embalse al comienzo de una semana sea el mximo de 4 Hm3, liberar 2
Hm3 aguas abajo (cualquiera sea el aporte de la semana). Determinar la poltica ptima
entre la actual y esta alternativa.
c) Considerar el nivel mximo del embalse como una variable de decisin y encontrar el
valor que maximice el ingreso total semanal esperado en el largo plazo.
12
26
5. BIBLIOGRAFA
27