Está en la página 1de 94

AMPLIACI

ON DE
PROCESOS ESTOC

ASTICOS
Paloma Perez Fernandez
5
o

de Matematicas
i

Indice
Captulo I: TEOR

IA L
2
DE PROCESOS ESTOC

ASTICOS 1
Leccion 1: Introduccion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
Leccion 2: Funciones de Covarianza. . . . . . . . . . . . . . . . . . . . . . . . . . 9
Leccion 3: Ejemplos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Leccion 4: Calculo de Segundo Orden. . . . . . . . . . . . . . . . . . . . . . . . . 24
Leccion 5: Desarrollo de KarhunenLo`eve. . . . . . . . . . . . . . . . . . . . . . . 29
Leccion 6: Problemas de Estimacion. . . . . . . . . . . . . . . . . . . . . . . . . . 34
Leccion 7: El ltro de Kalman. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Captulo II: AN

ALISIS DE LAS TRAYECTORIAS DE PROCESOS ESTOC

ASTI-
COS A TIEMPO CONTINUO 44
Leccion 8: Separabilidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
Leccion 9: Medibilidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
Leccion 10: Analisis de las trayectorias en un movimiento browniano. . . . . . . . 57
Leccion 11: Ley del logaritmo iterado: aplicacion al movimiento browniano. . . . 63
Captulo III: ALGUNOS TIPOS ESPECIALES DE PROCESOS ESTOC

ASTICOS A
TIEMPO CONTINUO 67
Leccion 12: Procesos de Markov. Cadenas de Markov en tiempo continuo. . . . . 68
Leccion 13: Procesos con Incrementos Independientes. . . . . . . . . . . . . . . . 84
Leccion 14: Martingalas a Tiempo Continuo. . . . . . . . . . . . . . . . . . . . . 88
Leccion 15: Tiempos de Parada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
Captulo I
TEOR

IA L
2
DE PROCESOS ESTOC

ASTICOS
I.1. Introduccion: Introduccion a la teora de procesos estocasticos: Deniciones de
proceso estocastico y distribuciones nito-dimensionales; teorema de extension de
Kolmogorov; procesos equivalentes y modicacion de un proceso. La distribucion
normal en R
n
.
I.2. Funciones de Covarianza: L
2
procesos y funciones de covarianza. Estacionaridad.
Caracterizacion analtica de las funciones de covarianza: Teoremas de Herglotz y
Bochner.
I.3. Ejemplos de L
2
procesos: Proceso de Poisson. Movimiento browniano o Proceso
de Wiener.
I.4. Calculo de segundo orden: L
2
continuidad, L
2
diferenciabilidad, L
2
integracion.
I.5. Desarrollo de KarhunenLo`eve: Teorema de KarhunenLo`eve. Version del teo-
rema para procesos gaussianos. Ejemplo.
I.6. Problemas de estimacion: Estimaciones basadas en operaciones lineales o en
operaciones Borelmedibles de las X
t
. Relaciones entre ambas. Ejemplo.
I.7. El ltro de Kalman: Estimador lineal de mnima varianza: teorema de Gauss
Markov. Teorema de actualizacion estatica. El ltro de Kalman: teorema de Kalman.
Referencias captulo I: Ash, Gardner (1975), Catlin (1989).
1
2
Lecci

on 1: Introducci

on.
Definici on. (Proceso estocastico) Sean T un conjunto dendices, (, /, P) un espacio
de probabilidad y (

, /

) un espacio medible. Un proceso estocastico (sobre T) es una


familia (X
t
)
tT
de v.a. denidas en (, /, P) y a valores en (

, /

). Cuando deseemos
mas precision, llamaremos proceso estocastico la cuaterna
(, /, P, (X
t
)
tT
).
suele llamarse espacio muestral del proceso.

es el espacio de los estados. Para cada


, la aplicacion t T X
t
() se llamara trayectoria de . T suele llamarse espacio
temporal del proceso.
Observaciones. 1) La nocion de proceso estocastico constituye un modelo matematico
para representar el estado de un sistema dependiente de un parametro (generalmente, el
tiempo t) y del azar. Un tal modelo se presenta de forma natural como una aplicacion
(t, ) X(t, ) denida en T y a valores en

que describe los estados del sistema.


En un instante t jo, el estado del sistema depende unicamente del azar, y queda descrito
por el hecho de que X(t, ) es una v.a. que en la denicion anterior hemos denotado por
X
t
. Por ello, X
t
suele llamarse estado del sistema en el instante t.
2) Puede darse una denicion mas general de proceso estocastico haciendo depender
del tiempo el espacio de estados (es decir, suponiendo que X
t
es una v.a. en y a valores
en un cierto espacio medible (
t
, /
t
)). Este no sera, sin embargo, normalmente el caso.
Incluso, el espacio de los estados (

, /

) es frecuentemente un espacio discreto o un espacio


eucldeo. Si (

, /

) = (R, ) diremos que (X


t
) es un proceso estocastico real.
3) Normalmente T sera un subconjunto de R: bien un intervalo de R (casi siempre
sera un intervalo de [0, +[) en el caso de parametro continuo, bien un intervalo de Z
(casi siempre de N) en el caso de parametro discreto.
Definici on. (Distribuciones nito-dimensionales de un proceso) Si (X
t
) es un proceso
estocastico como en la denicion anterior, llamaremos distribuciones nito-dimensionales
a las distribuciones conjuntas de las subfamilias nitas de (X
t
)
tT
. As, si t
1
, . . . , t
n
T,
la distribucion de probabilidad P
(t
1
,...,t
n
)
denida para C /

n
por
P
(t
1
,...,t
n
)
(C) = P[(X
t
1
, . . . , X
t
n
) C]
es una distribucion nito-dimensional del proceso.
Observacion. La familia de las distribuciones nito-dimensionales de un proceso cons-
tituye uno de los aspectos mas importantes del mismo pues esta familia determina el
proceso en alg un sentido a precisar posteriormente y, porque en la practica, realizando un
n umero sucientemente grande de pruebas independientes, es posible estimar con precision
arbitraria probabilidades del tipo P
(t
1
,...,t
n
)
(C) y, en general, nada mas se puede obtener
de las observaciones.
Nuestro objetivo inmediato consiste en obtener el teorema de extension de Kolmogorov
que resuelve el problema de caracterizar el proceso en terminos de sus distribuciones nito-
dimensionales. Notemos en primer lugar que las distribuciones nito-dimensionales del
3
proceso (X
t
) satisfacen lo siguiente:
i) Si es una permutacion en 1, . . . , n y H
1
, . . . , H
n
/

, entonces los sucesos


(X
t
1
, . . . , X
t
n
) H
1
H
n
y (X
t
(1)
, . . . , X
t
(n)
) H
(1)
H
(n)

coinciden y, en particular
P
(t
1
,,...,t
n
)
(H
1
H
n
) = P
(t
(1)
,...,t
(n)
)
(H
(1)
H
(n)
).
ii) P
(t
1
,...,t
n1
)
(H
1
H
n1
) = P
(t
1
,...,t
n
)
(H
1
H
n1

).
La condicion i) anterior nos permite considerar unicamente las distribuciones nito-
dimensionales de la forma P
(t
1
,,...,t
n
)
tales que t
1
< . . . < t
n
(si T no fuese un subconjun-
to de R, considerar en T un orden total arbitrario), pues estas determinan todas las
demas. Fijemos algunas notaciones mas comodas. Si V = t
1
, . . . , t
n
es un subcon-
junto nito de T con t
1
< . . . < t
n
denotaremos por P
V
la probabilidad P
(t
1
,...,t
n
)
; si
U = t
i
1
, . . . , t
i
r
V y t
i
1
< . . . < t
i
r
, entonces denotaremos por pr
(V,U)
la aplicacion
(x
t
1
, . . . , x
t
n
) R
n
(x
t
i
1
, . . . , x
t
i
r
) R
r
. Si V es como antes, pr
V
denotara la apli-
cacion x R
T
(x
t
1
, . . . , x
t
n
) R
n
. De acuerdo con estas notaciones, la condicion ii)
anterior arma que la distribucion de probabilidad de la v.a. pr
(V,{t
1
,...,t
n1
})
respecto a
P
V
es P
(t
1
,...,t
n1
)
. De i) e ii) se sigue tambien que si V y U son como antes entonces P
U
es la distribucion de probabilidad de pr
(V,U)
respecto a P
V
.
La construccion estandar de procesos estocasticos utiliza espacios producto.
Definici on. Sea T un conjunto no vaco y supongamos que, para cada t T, (
t
, /
t
)
es un espacio medible. Denotaremos =

tT

t
. Llamaremos cilindro medible n-dimensional
en a un subconjunto de de la forma
c(B) = : (
t
1
, . . . ,
t
n
) B
donde B

n
i=1
/
t
i
(se dice tambien que c(B) es un cilindro de base B). Si B = B
1

B
n
donde B
i
/
t
i
, 1 i n, diremos que c(B) es un rectangulo medible. Denotaremos
por

tT
/
t
la -algebra en engendrada por los cilindros medibles en .
Observaciones. 1) Con las notaciones de la denicion anterior, tanto la familia de los
cilindros medibles en como la de las uniones nitas de rectangulos medibles en son
algebras en que engendran la -algebra producto.
2) Si todos los espacios medibles (
t
, /
t
) coinciden con un cierto espacio medible
(, /), el espacio medible producto lo denotaremos por (
T
, /
T
).
Pretendemos ahora construir en (R
T
,
T
) una probabilidad a partir de probabilidades
P
(t
1
,...,t
n
)
en
n
denidas para cada coleccion creciente de ndices t
1
< . . . < t
n
y cada
n N, supuesto que estas probabilidades satisfacen una cierta condicion de consistencia.
Antes de enunciar y probar el teorema de extension de Kolmogorov recordaremos
algunos conceptos y resultados de teora de la medida que necesitaremos en la demos-
tracion de ese teorema: si /
0
es un algebra de partes de un conjunto , una funcion
de conjuntos : /
0
[0, +] se dice numerablemente aditiva si para cada sucesion
nita o innita numerable y disjunta (A
n
)
n
en /
0
tal que
n
A
n
/
0
se verica que
4
(
n
A
n
) =

n
(A
n
). Se prueba que si es una medida nitamente aditiva en el algebra
/
0
y es continua por arriba en el vaco (es decir, para cada sucesion (A
n
) en /
0
decrecien-
te a se verica que lm
n
(A
n
) = 0) entonces es numerablemente aditiva. El teorema
de extension de Caratheodory arma que si es una medida (es decir, una funcion de
conjuntos numerablemente aditiva) en un algebra /
0
y si es nita, entonces admite
una unica extension a una medida en la algebra (/
0
) engendrada por /
0
. Necesita-
remos tambien el siguiente resultado: Si es una medida nita en la algebra
n
de
Borel en R
n
, entonces es interiormente regular, es decir, para cada boreliano B en
n
,
(B) = sup(K): K compacto B.
Teorema 1. (De extension de Kolmogorov: 1
a
version) Sea T un conjunto no vaco y
supongamos que, para cada subconjunto nito no vaco V de T, P
V
es una probabilidad en

n
si V tiene n elementos. Supongamos que estas probabilidades satisfacen la condicion
de consistencia:
(CC) Para cada subconjunto U no vaco de V la distribucion de probabilidad de pr
(V,U)
respecto a P
V
es P
U
.
Entonces existe una unica probabilidad P en
T
tal que, para cada subconjunto nito
V de T, la distribucion de pr
V
respecto a P coincide con P
V
, es decir, tal que para cada
n N, cada sucesion nita creciente t
1
< . . . < t
n
en T y cada H
n
se verica que
P(x R
T
: (x
t
1
, . . . , x
t
n
) H = P
(t
1
,...,t
n
)
(H).
Demostracion. Si A es un cilindro n-dimensional de la forma
A = x R
T
: (x
t
1
, . . . , x
t
n
) H
con t
1
< . . . < t
n
y H
n
denimos P(A) = P
(t
1
,...,t
n
)
(H). Debemos probar en primer
lugar que esta denicion no depende de la representacion del cilindro A. Supuesto que
tambien A = x R
T
: (x
s
1
, . . . , x
s
m
) H

con s
1
< . . . < s
m
y H

R
m
, hagamos
u
1
, . . . , u
r
= t
1
, . . . , t
n
s
1
, . . . , s
m

con r max(m, n) y u
1
< . . . < u
r
; sean tambien 1 m
1
< . . . < m
n
r tales que
t
i
= u
m
i
, 1 i n. Entonces
A = x R
T
: (x
t
1
, . . . , x
t
n
) H
= x R
T
: (x
u
m
1
, . . . , x
u
m
n
) H
= x R
T
: (x
u
1
, . . . , x
u
r
) H
1

donde H
1
= (x
u
1
, . . . , x
u
r
) R
r
: (x
u
m
1
, . . . , x
u
m
n
) H, es decir, H
1
= pr
1
(V,U)
(H)
donde V = u
1
, . . . , u
r
y U = u
m
1
, . . . , u
m
n
= t
1
, . . . , t
n
. La condicion de consistencia
prueba que P
(t
1
,...,t
n
)
(H) = P
V
(H
1
). Analogamente se prueba que P
(s
1
,...,s
m
)
(H

) = P
V
(H

1
)
donde H

1
= (x
u
1
, . . . , x
u
r
) R
r
: (x
s
1
, . . . , x
s
m
) H

= H
1
. Luego la denicion de
P(A) es correcta. Sean ahora A y B cilindros medibles disjuntos. Puesto que todo cilindro
k-dimensional puede considerarse obviamente como m-dimensional para cada m k,
podemos suponer que los ndices que denen A y B son los mismos:
A = x R
T
: (x
t
1
, . . . , x
t
n
) H
A
, B = x R
T
: (x
t
1
, . . . , x
t
n
) H
B
.
5
Siendo A B = debe ser H
A
H
B
= y, entonces
P(A B) = P
(t
1
,...,t
n
)
(H
A
H
B
) = P(A) +P(B)
que prueba que P es nitamente aditiva en el algebra /
0
de los cilindros medibles. Se
sigue tambien que P(R
T
) = 1. Si probamos que P es numerablemente aditiva en /
0
,
el teorema de extension de Caratheodory asegurara la existencia de una extension de P
a una probabilidad en
T
. Basta para ello probar que si (A
n
)
n
es una sucesion en /
0
decreciente a entonces lm
n
P(A
n
) = 0. Supongamos que, por el contrario, existe > 0
tal que P(A
n
) para cada n N. Podemos suponer sin perdida de generalidad que
existe una sucesion (t
n
)
n
en T tal que
A
n
= x R
T
: (x
t
1
, . . . , x
t
n
) H
n

con H
n

n
para cada n N. Entonces P(A
n
) = P
(t
1
,...,t
n
)
(H
n
), n. La regularidad
interior de las P
(t
1
,...,t
n
)
prueba que existen compactos K
n
H
n
tales que
P
(t
1
,...,t
n
)
(H
n
K
n
) < /2
n+1
, n.
Si B
n
= x: (x
t
1
, . . . , x
t
n
) K
n
entonces P(A
n
B
n
) < /2
n+1
. Sea C
n
=
n
k=1
B
k
.
Entonces C
n
B
n
A
n
y P(A
n
C
n
) < /2. Luego P(C
n
) > /2 > 0 y, en particular,
C
n
,= . Sea x
(n)
C
n
, n N. Si n k entonces x
(n)
C
n
C
k
B
k
y, por tanto,
(x
(n)
t
1
, . . . , x
(n)
t
k
) K
k
.
Puesto que K
k
es acotado, la sucesion (x
(n)
t
k
)
nN
es acotada para cada k N. Por un
procedimiento diagonal, elijamos n
1
< n
2
< . . . en N tales que lm
i
x
(n
i
)
t
k
exista para cada
k N. Sea x R
T
tal que x
t
k
= lm
i
x
(n
i
)
t
k
para cada k. Entonces, para cada k N,
(x
t
1
, . . . , x
t
k
) = lm
i
(x
(n
i
)
t
1
, . . . , x
(n
i
)
t
k
) K
k
.
Luego x B
k
A
k
, k, en contra de que
k
A
k
= . De esta contradiccion se sigue que
P admite una extension a una probabilidad en R
T
que satisface la tesis por denicion.
Finalmente, si P y Q son dos probabilidades en
T
satisfaciendo el teorema, entonces
coinciden sobre los cilindros medibles y, por tanto, en
T
por la unicidad en el teorema
de Caratheodory.
Observacion. Supongamos que P
t
es una probabilidad en para cada t T. Aplicando
el teorema anterior a las probabilidades producto

n
i=1
P
t
i
se obtiene un teorema de la
medida producto en el caso de una cantidad arbitraria de factores.
Consideremos ahora las aplicaciones coordenadas Z
t
: x R
T
x
t
R. Si (P
V
)
V nito T
es una familia de probabilidades que satisface las hipotesis del teorema anterior y si P es
la probabilidad en
T
que proporciona dicho teorema, entonces para cada n N, cada
sucesion nita creciente t
1
< . . . < t
n
en T y cada H
n
se verica que
P[(Z
t
1
, . . . , Z
t
n
) H] = P
(t
1
,...,t
n
)
(H).
As pues, (R
T
,
T
, P, (Z
t
)
tT
) es un proceso estocastico cuyas distribuciones nito-dimensionales
son precisamente las P
V
. Podemos entonces enunciar el siguiente teorema, que asegura la
existencia de un proceso estocastico con unas distribuciones nito-dimensionales dadas de
antemano (supuesto que estas verican una condicion de consistencia).
6
Teorema 2. (de extension de Kolmogorov: 2
a
version) Si (P
V
)
V nito T
es una fa-
milia de probabilidades que satisfacen la condicion de consistencia (1) del teorema ante-
rior, entonces existe un proceso estocastico (, /, P, (X
t
)
tT
) cuyas distribuciones nito-
dimensionales son precisamente las P
V
.
Demostracion. Consideremos las aplicaciones coordenadas Z
t
: x R
T
x
t
R.
Dichas aplicaciones son medibles. Si (P
V
)
V nito T
es una familia de distribuciones de
probabilidad satisfaciendo la condicion de consistencia del teorema anterior y si P es la
probabilidad en
T
cuya existencia se asegura en ese teorema entonces, si n N y si
t
1
< . . . < t
n
se tiene que
P(x R
T
: (Z
t
1
(x), . . . , Z
t
n
(x)) H) = P
(t
1
,...,t
n
)
(H)
para cada H
n
lo que prueba que (R
T
,
T
, P, (Z
t
)
tT
) es un proceso estocastico cuyas
distribuciones nito-dimensionales son precisamente las P
V
.
Las deniciones siguientes precisan hasta que punto un proceso estocastico queda de-
terminado por sus distribuciones nito-dimensionales.
Definici on. a) Consideremos dos procesos estocasticos reales sobre el mismo espa-
cio temporal (, /, P, (X
t
)
tT
) y (

, /

, P

, (X

t
)
tT
). Diremos que dichos procesos son
equivalentes si
P(X
t
1
A
1
, . . . , X
t
n
A
n
) = P

(X

t
1
A
1
, . . . , X

t
n
A
n
)
para cada subconjunto nito t
1
, . . . , t
n
de T y cada familia nita A
1
, . . . , A
n
en .
b) Sean (X
t
)
tT
e (Y
t
)
tT
dos procesos estocasticos reales en el mismo espacio pro-
babilstico (, /, P) y sobre el mismo espacio temporal T. Diremos que (Y
t
) es una mo-
dicacion de (X
t
) si X
t
= Y
t
P-c.s. para cada t T. Diremos que dichos procesos son
P-indistinguibles si existe A / tal que P(A) = 0 y X
t
() = Y
t
() para cada A
c
y
cada t T.
Veamos algunas observaciones interesantes sobre lo que hemos visto hasta ahora.
Observaciones. 1) Hemos denido un proceso estocastico como una familia (X
t
)
tT
de
v.a. (supongamoslas reales) en (, /, P). Hemos observado tambien que podemos mirar
este proceso como una aplicacion X : (t, ) T X(t, ) R donde, para
cada t, X(t, ) es una v.a.r. en . Una tercera va puede ser la siguiente: consideremos la
aplicacion X que a cada asocia la aplicacion t T X
t
(); X, as denida es
una aplicacion de en el conjunto R
T
de las aplicaciones de T en R. Es facil ver que una
aplicacion F : (, /) (R
T
,
T
) es una v.a. sii Z
t
(F) lo es para cada t T, donde Z
t
denota (y denotara en lo que sigue) como antes la aplicacion coordenada t-esima en R
T
.
Por tanto, podemos pensar en un proceso estocastico real tambien como una v.a. X de
(, /, P) en (R
T
,
T
). Visto de este modo, el proceso recibe a veces el nombre de funcion
aleatoria.
2) (Proceso canonico asociado a un proceso dado) Sea (, /, P, (X
t
)
tT
) un proce-
so estocastico real sobre T. Denotemos por X la v.a. de (, /) en R
T
denida por
X()(t) = X
t
(). Consideremos la distribucion de probabilidad P
X
en
T
de X res-
pecto a P. Consideremos en n las aplicaciones Z
t
de la observacion anterior. El proceso
7
estocastico (R
T
,
T
, P
X
, (Z
t
)
tT
) se llama proceso canonico asociado al proceso (X
t
). Es
claro que todo proceso estocastico real es equivalente a su proceso canonico y que dos
procesos reales son equivalentes sii tienen el mismo proceso canonico asociado.
3) Ya hemos observado anteriormente que las distribuciones nito-dimensionales de
un proceso estocastico real constituyen uno de los aspectos fundamentales del mismo en
virtud del teorema de Kolmogorov (que asegura unicidad salvo equivalencia). No obstante,
la nocion de distribucion nito-dimensional resulta ser insucientemente precisa a la hora
de abordar algunas cuestiones interesantes tambien en teora de procesos estocasticos
como posibles propiedades de regularidad de las trayectorias (p. ej., continuidad de las
trayectorias si T es un intervalo de R). Hagamos, p. ej., = [0, 1] = T, / = ([0, 1]) y
sea P la medida de Lebesgue en [0, 1]; consideremos dos procesos reales (X
t
)
tT
y (Y
t
)
tT
denidos en para t T y por
X
t
() = 0 e Y
t
() =
_
= 1 si t =
= 0 si t ,= .
Dichos procesos tienen entonces las mismas distribuciones nito-dimensionales (es decir,
son equivalentes); incluso, uno es modicacion del otro. Sin embargo, X
t
tiene todas sus
trayectorias continuas (es decir, para cada , la aplicacion t X
t
() es continua) mien-
tras que las del segundo son discontinuas. Este mismo ejemplo prueba que la nocion de
modicacion de un proceso tampoco es lo sucientemente precisa en este tipo de proble-
mas. La nocion de procesos indistinguibles da la mayor precision posible desde el punto
de vista probabilstico: dos procesos indistinguibles son realmente el mismo proceso. No-
temos aqu que, a veces, se llama equivalencia de procesos lo que aqu hemos llamado
modicacion de un proceso.
Para nalizar esta leccion haremos un repaso de algunos aspectos de la distribucion
Normal en R
n
. A la hora de construir procesos gaussianos, en general, y el movimiento
browniano, en particular, tendremos que hacer referencia a la distribucion normal multi-
variante.
En lo que sigue utilizaremos la siguiente notacion matricial: los puntos u de R
n
y las
v.a. ndimensionales X se consideraran como vectores columna y usaremos los smbolos
u
t
y X
t
para los correspondientes vectores la.
Definici on. Una v.a. ndimensional X, denida en alg un espacio de probabilidad
(, /, P), se dice normal si su funcion caracterstica es de la forma
: u R
n
(u) = E[e
iu
t
X
] = expiu
t
b
1
2
u
t
Cu
donde b R
n
y C es una matriz real cuadrada de orden n simetrica y semidenida positiva
(i.e., C = C
t
y u
t
Cu 0, u R
n
). Se dice, en concreto, que X tiene una distribucion
normal de media b y matriz de covarianzas C y se escribe X N
n
(b, C).
Observaciones. 1) Sean A una matriz de orden m n, b R
m
y X

una v.a. n
dimensional cuyas componentes son v.a.r. independientes y normalmente distribuidas con
media cero. Sea X = AX

+b. Entonces X es una v.a. mdimensional normal de media b


y matriz de covarianzas C = ADA
t
, donde D es la matriz diagonal en la que los elementos
de la diagonal son las varianzas
k
de las X

k
, 1 k n.
8
2) A modo de recproco, si X es una v.a. normal ndimensional N
n
(b, C), entonces
existen una matriz cuadrada A de orden n que podemos elegir ortogonal y una v.a. n
dimensional X

cuyas componentes son v.a.r. independientes normalmente distribuidas


con media cero tales que X = AX

+b.
En efecto, siendo C simetrica es diagonalizable y existe entonces una matriz ortogonal
A tal que D := A
t
CA es diagonal (los elementos de la diagonal son los autovalores de C).
Tomando X

= A
t
(Xb), se tiene que X = AX

+b (A es ortogonal, i.e., A
1
= A
t
). Cal-
culando la funcion caracterstica de X

se prueba que sus componentes son independientes


y normales con media cero.
3) Se sigue de 2) que si X N
n
(b, C) entonces X tiene media b y matriz de covarianzas
C.
4) Un argumento analogo al utilizado en 2) prueba la existencia de v.a. ndimensionales
con funcion caracterstica expiu
t
b
1
2
u
t
Cu, siendo b R
n
y C una matriz cuadrada de
orden n simetrica y semidenida positiva.
5) Se prueba que una v.a. n dimensional X es normal si y solo si u
t
X es una v.a.r.
normal (posiblemente degenerada) para cada u R
n
.
Lecci

on 2: Funciones de Covarianza.
En lo que sigue, (, /, P) sera un espacio de probabilidad en el que estaran denidas
todas las v.a. que consideremos, salvo que explcitamente se indique otra cosa. Supon-
dremos conocidos la denicion de proceso estocastico, la nocion de distribuciones nito
dimensionales y el teorema de extension de Kolmogorov.
Definici on. (L
2
proceso estocastico) Un L
2
proceso estocastico es una familia (X
t
)
tT
de v.a. reales o complejas tales que | X
t
|
2
2
= E([X
t
[
2
) < , t T.
A partir de ahora solo consideraremos L
2
procesos estocasticos.
Definici on. (Funcion de covarianzas) La funcion de covarianzas de un L
2
proceso
estocastico es la aplicacion
K : (s, t) T T K(s, t) = Cov (X
s
, X
t
) = E[(X
s
m(s))(X
t
m(t))]
donde m(t) = E(X
t
), t T.
Observaciones. 1) K(s, t) es, entonces, el producto escalar (en L
2
(, /, P; C)) de X
s

m(s) y X
t
m(t).
2) Es claro que K(s, t) = E(X
s
X
t
) m(s)m(t).
3) Por la desigualdad de CauchySchwartz, se tiene que
[K(s, t)[
2
| X
s
m(s) |
2
2
| X
t
m(t) |
2
2
= K(s, s)K(t, t).
Definiciones. (Estacionariedad) Supongamos que T es un intervalo de R.
a) El L
2
proceso (X
t
)
tT
se dice estacionario en sentido amplio si m(t) es constante
para todo t y K(s, t) = K(s +h, t +h), para todos s, t y h tales que s, t, s +h, t +h T.
Dicho de otro modo, si m(t) es constante en T y K(s, t) solo depende de s y t a traves de
s t. En ese caso, escribiremos K(t) = K(s +t, s).
b) El proceso (X
t
)
tT
se dice estrictamente estacionario si las distribuciones nito
dimensionales tienen la propiedad:
P
(X
t
1
,...,X
t
n
)
= P
(X
t
1
+h
,...,X
t
n
+h
)
para todos n = 1, 2, ... y t
1
, ..., t
n
, h tales que t
1
< < t
n
y t
i
, t
i
+h T, 1 i n.
Observaciones. 1) Para un proceso estacionario en sentido amplio, haciendo m(t) = m,
t T, la desigualdad de CauchySchwartz prueba que
[K(t)[ K(0) = E[[X
s
m[
2
] t, s T.
2) Si (X
t
)
tT
es un proceso estrictamente estacionario, entonces la distribucion conjunta
de X
t
1
, ..., X
t
n
solo depende de los t
i
a traves de las diferencias t
2
t
1
, t
3
t
2
, ..., t
n
t
n1
.
3) Todo proceso estrictamente estacionario es estacionario en sentido amplio. En efecto,
E(X
s
X
t
) =
_
xydP
(X
s
,X
t
)
(x, y) =
_
xydP
(X
s+h
,X
t+h
)
(x, y) = E(X
s+h
X
t+h
)
9
10
y, analogamente,
E(X
t
) = E(X
t+h
).
4) El recproco de 3) no es, en cambio, cierto. Supongamos, por ejemplo, los X
t
reales in-
dependientes con media 0 y varianza 1. Entonces, K(t) = E(X
s+t
X
s
) = E(X
s+t
)E(X
s
) =
0, si t ,= 0 y K(0) = 1. Pero el proceso no es necesariamente estrictamente estacionario:
podemos tomar, por ejemplo, X
t
con distribucion normal N(0, 1) si t 0 y X
t
unifor-
memente distribuida (en un intervalo apropiado) si t > 0, con lo cual P
X
t
depende de
t.
5) Convencion: En este captulo, estacionario signicara estacionario en sentido amplio.
6) Una funcion de covarianzas satisface siempre K(s, t) = K(t, s). En el caso esta-
cionario ello se traduce en K(t) = K(t). Entonces, K(t, t) = K(t, t) es real y, en el
caso estacionario, K(0) es real. As pues, la funcion de covarianzas de un L
2
proceso es
simetrica (i.e., K(t, s) = K(s, t)).
Veamos que, tambien, K es semidenida positiva, es decir, n N, t
1
, ..., t
n
T,
a
1
, ..., a
n
C,
n

j,k=1
a
j
K(t
j
, t
k
)a
k
es real y mayor o igual que 0; notese, en efecto, que si X

t
= X
t
E(X
t
), entonces,
n

j,k=1
a
j
K(t
j
, t
k
)a
k
= E
_
_
n

j,k=1
a
j
X

t
j
a
k
X

t
k
_
_
= E
_
_

j=1
a
j
X

t
j

2
_
_
0.
Veamos, a continuacion, que el ser K simetrica y semidenida positiva es condicion su-
ciente para que exista un L
2
proceso estocastico cuya funcion de covarianzas es K.
Teorema 3. Sea K = K(s, t), s, t T, una funcion Cvalorada en T T que es
simetrica y semidenida positiva. Existe entonces un L
2
proceso (X
t
)
tT
cuya funcion de
covarianzas es K (T es un conjunto de ndices arbitrario; no tiene porque ser un subcon-
junto de R).
Demostracion. Supongamos en primer lugar que K es Rvalorada. Dados t
1
, ..., t
n
T
con t
1
< < t
n
, sea P
t
1
,...,t
n
una distribucion normal ndimensional con media cero y
matriz de covarianzas (K(t
j
, t
k
))
n
j,k=1
. Si i
1
, ..., i
p
1, ..., n e i
1
< < i
p
entonces la
distribucion de la v.a.
(x
1
, ..., x
n
) R
n
(x
i
1
, ..., x
i
p
) R
p
respecto a P
t
1
,...,t
n
es la distribucion P
t
i
1
,...t
i
p
normal pdimensional de media cero y matriz
de covarianzas (K(t
i
j
, t
i
k
))
p
j,k=1
.
Entonces, la condicion de consistencia de Kolmogorov se verica es para la familia
(P
t
1
,...t
n
)
t
1
<<t
n
,n1
as denida y el teorema de extension de Kolmogorov acaba la prueba
en este caso.
En el caso complejo hagamos K = K
1
+iK
2
. Si c
j
= a
j
+ib
j
, 1 j n,
n

j,k=1
c
j
K(t
j
, t
k
)c
k
=
n

j,k=1
K
1
(t
j
, t
k
)(a
j
a
k
+b
j
b
k
) +
n

k,j=1
K
2
(t
j
, t
k
)(a
j
b
k
a
k
b
j
)
11
(nos quedamos solo con la parte real pues sabemos que K es semidenida positiva). La
suma anterior se puede expresar matricialmente como d
t
Ld donde
d
j
=
_
a
j
si 1 j n
b
jn
si n + 1 j 2n
y
L =
_
(K
1
(t
j
, t
k
)
n
j,k=1
) (K
2
(t
j
, t
k
)
n
j,k=1
)
(K
2
(t
j
, t
k
)
n
j,k=1
) (K
1
(t
j
, t
k
)
n
j,k=1
)
_
Notese que el elemento (n + j, k), 1 j, k n, de L es K
2
(t
j
, t
k
) = K
2
(t
k
, t
j
) por ser
K simetrica; entonces L es tambien simetrica. Ademas, siendo K semidenida positiva, L
tambien lo es. Sean, ahora, Y
t
1
, ..., Y
t
n
, Z
t
1
, ..., Z
t
n
v.a.r. con distribucion conjunta normal
de media cero y matriz de covarianzas L/2. Hagamos X
t
j
= Y
t
j
iZ
t
j
, 1 j n.
Entonces las X
t
j
son v.a. complejas con distribucion conjunta normal (i.e., las partes
reales e imaginarias Y
t
1
, ..., Y
t
n
, Z
t
1
, ..., Z
t
n
de las X
t
j
tienen distribucion conjunta normal)
con matriz de covarianzas (K(t
j
, t
k
)
n
j,k=1
). La condicion de consistencia de Kolmogorov se
prueba en este caso de forma analoga al caso real y el teorema de extension de Kolmogorov
acabara la prueba.
Observaciones. 1) Convendremos en lo sucesivo que, salvo que se indique lo contrario,
un vector aleatorio gaussiano consiste en v.a. reales (y no complejas) con distribucion
conjunta normal.
2) Llamaremos proceso gaussiano a todo proceso estocastico cuyas distribuciones nito
dimensionales sean todas normales. Para un proceso gaussiano de media cero, la funcion de
covarianzas determina completamente todas las distribuciones nitodimensionales con lo
cual, estacionaridad en sentido amplio es equivalente a estacionaridad estricta para estos
procesos.
3) No cabe hacer armacion alguna sobre unicidad en el teorema anterior. De hecho,
la demostracion prueba que para cada L
2
proceso existe un proceso gaussiano complejo
con la misma funcion de covarianzas que aquel.
4) Si T es un intervalo real y (X
t
)
tT
es un L
2
proceso estacionario con covarianza
K = K(t) = Cov [X
s+t
, X
s
], entonces K es simetrica (i.e., K(t) = K(t)) y semidenida
positiva (i.e.,

n
j,k=1
a
j
K(t
j
t
k
)a
k
0, t
1
, ..., t
n
T, a
1
, ..., a
n
C, n 1). Recpro-
camente, sean T un intervalo real e I = u v : u, v T. Si K es una funcion compleja,
denida en I, simetrica y semidenida positiva, entonces existe un L
2
proceso estacionario
(X
t
)
tT
con funcion de covarianzas K; en efecto, si hacemos K

(s, t) = K(s t), s, t T,


entonces K

es simetrica y semidenida positiva y, por tanto, existe un L


2
proceso (X
t
)
tT
tal que
Cov (X
s+t
, X
s
) = K

(s +t, s) = K(t).
En lo que sigue, T sera o bien Z (en el caso de parametro discreto) o bien R (en el caso de
parametro continuo). Pretendemos obtener una caracterizacion analtica de las funciones
de covarianza estacionarias; concretamente, la clase de las funciones de covarianza de L
2

procesos estacionarios coincide exactamente con la clase de las transformadas de Fourier


de medidas nitas en B([, ]) para el caso discreto y en para el caso continuo.
Necesitaremos algunas propiedades de funciones semidenidas positivas.
Lema 4. Si K es una funcion compleja semidenida positiva en T (= Z o R), entonces:
12
(a) K(0) 0;
(b) K(u) = K(u), es decir, K es automaticamente simetrica;
(c) [K(u)[ K(0), y
(d) [K(u) K(v)[
2
2K(0)[K(0) Re K(uv)], con lo cual, si T = R y K es continua
en 0, entonces es uniformemente continua en R.
Demostracion. Recordemos que el que K sea semidenida positiva signica que
(1)
n

j,k=1
z
j
K(t
j
, t
k
)z
k
0, t
1
, ..., t
n
T, z
1
, ..., z
n
C, n N.
(a) Basta tomar n = 1, z
1
= 1 y t
1
= 0 en la expresion anterior.
(b) Tomando n = 2, z
1
= z
2
= i, t
1
= 0 y t
2
= u, se obtiene de (1) que 2K(0) +
K(u) + K(u) 0, con lo cual, en virtud de (a), K(u) + K(u) es real y, entonces,
ImK(u) = ImK(u). Tomando ahora n = 2, z
1
= 1, z
2
= i, t
1
= u y t
2
= 0, se
sigue de (1) que 2K(0) + iK(u) iK(u) 0, con lo cual, i(K(u) K(u)) es real
y K(u) K(u) es imaginario puro y, entonces, Re K(u) = Re K(u). En denitiva,
K(u) = K(u).
(c)El resultado es claro si K(u) = 0. Si no, tomemos n = 2, z
1
= 1, z
2
= x/K(u),
t
1
= u y t
2
= 0 en (1), donde x es un n umero real arbitrario. Utilizando (b) se obtiene
K(0) 2x +
K(0)x
2
[K(u)[
2
0.
Puesto que x es arbitrario, el discriminante de esa forma cuadratica debe ser no positivo,
lo que prueba (c).
(d) Tomemos n = 3, z
1
= 1, z
2
= z, z
3
= z, t
1
= 0 y t
2
= u, t
3
= v en (1), donde z
es un n umero complejo arbitrario. Entonces
0 K(0) +zK(u) zK(v) +zK(u) +[z[
2
K(0)
[z[
2
K(u v) zK(v) [z[
2
K(v u) +[z[
2
K(0)
= K(0) + 2Re (z[K(u) K(v)]) + 2[z[
2
[K(0) Re K(u v)].
Si K(u) K(v) = [K(u) K(v)[e
i
, tomemos z = xe
i
, x real. Entonces,
0 K(0) + 2x[K(u) K(v)[ + 2x
2
[K(0) Re K(u v)].
Siendo ello cierto para cada x R, el discriminante no puede ser estrictamente positivo y
la desigualdad buscada queda probada.
Consideremos, en primer lugar, el caso discreto.
Teorema 5. (Teorema de Herglozt) Una funcion K : Z C es la funcion de cova-
rianzas de un L
2
proceso estacionario si y solo si existe una medida nita en B([, ])
tal que
K(n) =
_

e
inu
d(u), n Z.
13
Demostracion. Si K es una funcion de covarianzas entonces es semidenida positiva y,
por tanto, para cada N 1 y cada x R,
G
N
(x) :=
1
2N
N

j,k=1
e
ijx
e
ikx
K(j k) 0.
Puesto que el n umero de pares (j, k) en 1, ..., N
2
tales que j k = m es N [m[ si
m N, ..., 1, 0, 1, ..., N entonces
G
N
(x) =
1
2N

|m|<N
(N [m[)e
imx
K(m) 0.
Podemos denir entonces una medida
N
en B([, ]) cuya densidad respecto a la medida
de Lebesgue en [, ] es G
N
; entonces, si n Z,
_

e
inu
d
N
(u) =
1
2N

|m|<N
(N [m[)K(m)
_

e
i(nm)x
dx
=
_
(1
|n|
N
)K(n) si [n[ < N
0 en otro caso
Las medidas
N
estan concentradas en el intervalo compacto [, ] y
N
([, ]) =
K(0),N 1. Se sigue del teorema de Prokhorov
1
que existe una subsucesion (
N
k
)
k
que
converge debilmente a una medida nita en B([, ]). Haciendo tender k a innito se
sigue de que
_

e
inu
d
N
k
(u)
k
_

e
inu
d(u)
que
K(n) =
_

e
inu
d(u).
Recprocamente, si K(n) =
_

e
inu
d(u), entonces
n

j,k=1
z
j
z
k
K(n
j
n
k
) =
_

[
n

j=1
z
j
e
in
j
u
[
2
d(u) 0.
Luego K es semidenida positiva y, por el lema anterior, simetrica. De la observacion 4)
anterior se sigue que K es la funcion de covarianzas de un L
2
proceso estacionario.
Consideremos ahora el caso continuo.
1
Convergencia debil de medidas: Dadas ,
1
,
2
, ... medidas nitas en R, diremos que (
n
)
n
converge
debilmente a si

R
fd
n

n

R
fd para cada funcion continua y acotada f : R R. Si X, X
1
, X
2
, ...
son v.a.r. se dice que (X
n
)
n
converge en distribucion a X si P
X
n
converge debilmente a P
X
.
Teorema de Prokhorov: Sea A un conjunto de medidas nitas en R y supongamos que existe M tal que
(R) M, A. Entonces A es relativamente compacto (en el sentido de que a cada sucesion se le
pueda extraer una subsucesion debilmente convergente a una medida nita) si y solo si > 0, existe K
compacto de R tal que (K
c
) , A.
14
Teorema 6. (Teorema de Bochner) Una aplicacion K : R C continua en el origen
es la funcion de covarianzas de un L
2
proceso estacionario si y solo si existe una medida
nita en B(R) tal que
K(t) =
_
R
e
itu
d(u), t T.
Demostracion. Si K es la funcion de covarianzas de un L
2
proceso estacionario, es
semidenida positiva. Entonces, para cada n N, la funcion K(/2
n
) es semidenida
positiva en Z; por el teorema anterior, existe una medida nita
n
en B([, ]) tal que,
para cada k Z,
K(k/2
n
) =
_

e
ikx
d
n
(x).
Hagamos
f
n
(u) =
_

exp[i2
n
ux]d
n
(x), u R.
Entonces f
n
es la funcion caracterstica de una medida concentrada en [2
n
, 2
n
]; notese
para ello que si f es la funcion caracterstica de una v.a.r. X y g(u) = f(2
n
u), entonces
g(u) = E[exp(iu2
n
X)], con lo cual g es la funcion caracterstica de 2
n
X.
En particular, f
n
es semidenida positiva y, puesto que k2
n
= k2
mn
2
m
,
(2) f
m
(k2
n
) = K(k2
n
), m n, k Z.
Probemos que (f
m
)
m
converge puntualmente a K. La clave de esa demostracion es pro-
bar que f
m
es una familia uniformemente equicontinua en R; supuesto probado eso, el
teorema de AscoliArcela
2
garantiza la existencia de una subsucesion (f
n
j
)
j
convergente
puntualmente a un lmite continuo f (usar el teorema de AscoliArcela en cada intervalo
compacto [p, p], p = 1, 2, ... y construir los f
n
j
por diagonalizacion). Por el teorema de
Levy
3
f es una funcion caracterstica. Pero por (27), f y K coinciden sobre los racionales
diadicos y, por el apartado d) del lema 10, K es continua en R; entonces f = K en R.
K es pues una funcion caracterstica, es decir, podemos escribir
K(t) =
_
R
e
itx
d(x)
para alguna meida nita .
El recproco se prueba de forma analoga al teorema de Herglotz.
Solo queda, para concluir la demostracion, probar que la sucesion (f
m
)
m
es uniforme-
mente equicontinua en R. Notemos que si u, v R podemos escribir u v = (k + )2
m
2
Teorema de AscoliArcela: Sea un espacio compacto Haussdor. Un subconjunto A de C(, C)
es relativamente compacto (equiv., relativamente secuencialmente compacto) si y solo si es puntualmente
acotado y equicontinuo (i.e., > 0, > 0 : x, y , d(x, y) =|f(x) f(y)| , f A).
3
Teorema de Levy: Sea (F
n
)
n
una sucesion de funciones de distribucion en R y (h
n
)
n
la sucesion de
sus funciones caractersticas. Si F
n
converge en distribucion a F, donde F es una funcion de distribucion
con funcion caracterstica h, entonces h
n
converge puntualmente a h. Recprocamente, si h
n
converge
puntualmente a una funcion compleja h continua en el origen, entonces h es la funcion caracterstica de
alguna funcion de distribucion acotada F y F
n
converge en distribucion a F.
15
para alg un k Z tal que [k2
m
[ [u v[ y [[ 1. Entonces por el lema 10 (d) y usando
la desigualdad triangular,
[f
m
(u) f
m
(v)[
2
f
m
(0)[f
m
(0) Re f
m
(u v)] (3)
2f
m
(0)[f
m
(0) Re f
m
(k2
m
)[ + 2f
m
(0)[Re f
m
(k2
m
) Re f
m
(u v)[ (4)
Por (27), el primer termino de (28) es igual a 2K(0)[K(0) Re K(k2
m
)[; puesto que K
es continua en 0 y que [k2
m
[ [u v[, ese termino se puede hacer menor o igual que

2
/2 si [uv[ es sucientemente peque no, digamos si [uv[ < . El cuadrado del segundo
sumando es a lo mas
4K
2
(0)[f
m
(k2
m
) f
m
(u v)[
2
8K
3
(0)[f
m
(0) Re f
m
(u v k2
m
)] por el lema 10 (d)
= 8K
3
(0)[f
m
(0) Re f
m
(2
m
)]
= 8K
3
(0)
_

[1 cos x]d
n
(x) por denicion de f
m
8K
3
(0)
_

[1 cos x]d
n
(x) pues cos x cos x si [[ 1 y [x[
= 8K
3
(0)[f
m
(0) Re f
m
(2
m
)] por denicion de f
m
= 8K
3
(0)[K(0) Re K(2
m
)] por (27)
Puesto que K es continua en 0, se sigue que el segundo sumando en (28) se hace menor
o igual que
2
/2 si m es grande, digamos m M. As, si m M y [u v[ , [f
m
(u)
f
m
(v)[ . Por el lema 10 (d), cada f
j
, j M, es uniformemente continua en R. Luego,
(f
m
)
m
es una familia uniformemente equicontinua.
Observacion. Resumiendo, se ha probado que si K : T C es una aplicacion, las
siguientes proposiciones son equivalentes:
(a) K es semidenida positiva y continua en 0 (la continuidad en 0 es automatica si
T = Z).
(b) K es la funcion de covarianzas de un L
2
proceso estacionario y K es continua en 0.
(c) K es la funcion caracterstica de una medida nita , denida en B([, ]) si T = Z
y en B(R) si T = R.
La equivalencia de (a) y (b) fue probada en la observacion anterior. (b) y (c) son equivalen-
tes por los teoremas de Herglotz y Bochner. Notese que en (c) la medida esta determinada
por K.
Lecci

on 3: Ejemplos.
A continuacion presentamos dos ejemplos de L
2
procesos estocasticos a tiempo con-
tinuo: el proceso de Poisson (en el que las v.a. son discretas) y el movimiento browniano
(en el que las v.a. son absolutamente continuas).
Antes de empezar a ver el primer ejemplo recordaremos algunas propiedades de la
distribucion exponencial, distribucion que es de gran utilidad en la construccion del proceso
de Poisson. Sea X una v.a.r. en un espacio de probabilidad (, /, P) con distribucion
exponencial de parametro , es decir,
P(X > x) = e
x/
, x 0.
Entonces P(X > x) > 0 para cada x R y, si x, y 0, se verica
(5) P(X > x +y[X > x) = P(X > y).
Pensemos en X como el tiempo de espera hasta la ocurrencia de un cierto suceso (por
ejemplo, la llegada de un cliente a una ventanilla). La ecuacion (5) atribuye al tiempo
de espera un mecanismo de perdida de memoria en el sentido de que, si despues de un
cierto tiempo x el suceso a un no ha ocurrido, el tiempo que falta para que ocurra se
distribuye condicionalmente de la misma forma que X. Es conocido que eso caracteriza la
distribucion exponencial, es decir, si P(X > x) > 0, x 0 y si se verica (5), entonces
existe > 0 tal que X tiene distribucion exponencial de parametro (para probarlo,
denotemos F la funcion de distribucion de X y hagamos U = 1 F; entonces U(t) > 0,
t 0 y U(t + s) = U(t)U(s), t, s 0; se sigue de ah que U(0) = 1; tomar R tal
que U(1) = e
1/
y probar que U(t) = e
t/
, primero si t N, luego si t = 1/n, despues
si t Q
+
y, en n, si t 0; notar que > 0).
Ejemplo 1. (Proceso de Poisson): Consideremos ahora una sucesion de sucesos
(por ejemplo, llamadas a una central). Denotemos T
1
el tiempo de espera para el primer
suceso, T
2
el tiempo de espera desde la ocurrencia del primer suceso hasta la ocurrencia
del segundo, y as sucesivamente. El modelo formal consiste en una sucesion T
1
, T
2
, ... de
v.a.r. denidas en alg un espacio de probabilidad (, /, P). S
n
= T
1
+ + T
n
, n 1,
representa el tiempo de espera hasta la ocurrencia de n sucesos; es conveniente escribir
S
0
= 0. Si asumimos que dos sucesos no pueden ocurrir simultaneamente, la sucesion S
n
debe ser estrictamente creciente y si solo un n umero nito de sucesos puede ocurrir en
cada intervalo acotado de tiempo entonces S
n
debe converger a +, es decir, para cada
observacion se debe vericar
(1) 0 = S
0
() < S
1
() < S
2
() < y sup
n
S
n
() = +
o, equivalentemente,
(2) T
i
() > 0, i 1 y

n
T
n
() = +.
Observacion. Supondremos que (1) y (2) se verican para cada observacion . Si
solo se vericasen sobre un conjunto A de probabilidad 1, podemos redenir T
n
() = 1
si / A y entonces (1) y (2) se verican para cada sin que resulten afectadas las
distribuciones conjuntas de las T
n
y S
n
.
16
17
Consideremos la siguiente condicion:
Condici on 0: Para cada , (1) y (2) se verican.
El n umero N
t
de sucesos que ocurren en el intervalo de tiempo [0, t] es el mayor entero
n tal que S
n
t, es decir,
N
t
() := maxn 0 : S
n
() t.
Entonces N
t
() N (pues supS
n
() = +). Se verica que N
t
() = 0 si t < S
1
() =
T
1
(); en particular, N
0
0. El n umero de sucesos que ocurren en el intervalo ]s, t], s < t,
es el incremento N
t
N
s
. La relacion basica entre N
t
y S
n
viene dada por
: N
t
() n = : S
n
() t.
Se sigue de ello sin dicultad que
: N
t
() = n = : S
n
() t < S
n+1
(),
lo que prueba que las N
t
son v.a.. Notese que
N
S
n
()
() = n y S
N
t
()
() t < S
N
t
()+1
().
Observacion. (N
t
)
t0
es, entonces un proceso estocastico. La condicion 0 implica que,
para cada , N
t
() es un entero no negativo si t 0, que N
0
() = 0 y lm
t
N
t
() =
; ademas, N
t
() como funcion de t es no decreciente y continua por la derecha y, si t
0
es
una discontinuidad de la trayectoria de , el salto N
t
0
() sup
t<t
0
N
t
() es exactamente
igual a 1.
A modo de recproco, supongamos que (N
t
)
t0
es un proceso estocastico con las pro-
piedades precedentes y hagamos
S
n
() =nft 0 : N
t
() n y T
n
() = S
n
() S
n1
().
Entonces (1) y (2) se verican.
Nos proponemos estudiar la distribucion conjunta de las N
t
bajo condiciones en los tiempos
de espera T
n
. El modelo mas frecuente supone las T
n
independientes y atribuye al tiempo
de espera el mecanismo de perdida de memoria de la ecuacion (5). Es decir, asumiremos
la condicion siguiente:
Condici on 1: Las T
n
son independientes y exponencialmente distribuidas con parame-
tro .
Observaciones. 1) Asumida la condicion 1 se verica que P(T
n
> 0) = 1, n, y que
n
1
S
n

n
con probabilidad 1, en virtud de la ley fuerte de los grandes n umeros;
as pues, (1) y (2) se verican con probabilidad 1 bajo la condicion 1.
2) Recordemos que la distribucion exponencial de parametro es la distribucion gam-
ma G(1, ). Siendo las T
n
independientes se verica que S
n
tiene distribucion gamma
G(n, ) y entonces,
P(N
t
n) = P(S
n
t) =

i=n
e
t/
(t/)
i
i!
18
(la densidad de la distribucion G(n, ) es
f
n
(t) = [
n
(n 1)!]
1
t
n1
e
t/
I
]0,[
(t).
Derivando

i=n
e
t/
(t/)
i
i!
= 1

n1
i=0
e
t/
(t/)
i
i!
se obtiene que esa es, efectivamente,
la funcion de distribucion de S
n
).
Por tanto,
P(N
t
= n) = e
t/
(t/)
n
n!
, es decir, N
t
tiene distribucion de Poisson de parametro (media) t/.
Podemos mejorar la armacion de la observacion 2) anterior considerando la siguiente
condicion:
Condici on 2: (i) Si 0 < t
1
< t
2
< < t
k
, entonces los incrementos N
t
1
, N
t
2

N
t
1
, ..., N
t
k
N
t
k1
son independientes y
(ii) Los incrementos individuales tienen distribucion de Poisson:
P(N
t
N
s
= n) = e

ts

_
ts

_
n
n!
, n = 0, 1, 2, ..., 0 s < t.
Definici on. (Proceso de Poisson) Un proceso estocastico (N
t
)
t0
que satisfaga la
condicion 2 se llamara un proceso de Poisson de promedio 1/.
El resultado principal que probaremos arma que la condicion 1 implica la condicion 2
(asumida la condicion 0). En su demostracion haremos uso de los tiempos de espera a
partir de un instante t 0 dado, que introducimos a continuacion.
Fijemos t 0 y consideremos los sucesos que ocurren despues del instante t. Ya cono-
cemos las relaciones
N
s
() = n S
n
() s < S
n+1
(),
N
S
n
()
() = n,
S
N
t
()
() t < S
N
t
()+1
().
La tercera de estas relaciones arma que el tiempo que transcurre desde el instante t
hasta la ocurrencia del siguiente suceso es S
N
t
()+1
() t; el tiempo de espera entre
las ocurrencias del primer y segundo sucesos despues del instante t es T
N
t
()+2
(); y
as sucesivamente. As pues,
T
(t)
1
= S
N
t
+1
t, T
(t)
2
= T
N
t
+2
, T
(t)
3
= T
N
t
+3
, ...
denen los tiempos de espera sucesivos a partir del instante t.
Puesto que N
t
() n S
n
() t se verica que
N
t+s
() N
t
() m N
t+s
() N
t
() +m
S
N
t
()+m
() t +s
T
(t)
1
() + T
(t)
m
() s.
Se deduce de ello que
(6) N
t+s
N
t
= maxm N
0
: T
(t)
1
+ +T
(t)
m
s
19
y de (6) se sigue que
N
t+s
N
t
= m = T
(t)
1
+ +T
(t)
m
s < T
(t)
1
+ +T
(t)
m+1
.
Debe notarse que, jo t 0, N
t+s
N
t
esta denido para s 0 en terminos de la sucesion
T
(t)
n
, n 1, del mismo modo que N
s
esta denido en terminos de la sucesion original T
n
.
Teorema 7. Bajo la condicion 0, la condicion 1 implica la condicion 2.
Demostracion. Dividiremos la demostracion en varias etapas.
1
a
etapa: Veamos, en primer lugar, que n 0, j 1, H
j
,
P[N
t
= n, (T
(t)
1
, ..., T
(t)
j
) H] = P(N
t
= n)P[(T
1
, ..., T
j
) H].
Supongamos primero que j = 1 y H =]y, +[. Entonces,
P(N
t
= n, T
(t)
1
> y) = P(S
n
t < S
n+1
, S
n+1
t > y)
= P(S
n
t, S
n
+T
n+1
> t +y)
= P
(S
n
,T
n+1
)
((u, v) R
2
: u t, u +v > t +y)
= (P
S
n
P
T
n+1
)((u, v) R
2
: u t, u +v > t +y)
=
_
t
0
_

t+yu
dP
T
n+1
(v)dP
S
n
(u)
=
_
t
0
P(T
n+1
> t +y u)dP
S
n
(u)
= e
y/
_
t
0
P(T
n+1
> t u)dP
S
n
(u)
= e
y/
P(S
n
t, S
n
+T
n+1
> t)
= P(N
t
= n)e
y/
= P(N
t
= n)P(T
1
> y).
En el caso de que j 1 y H =

j
k=1
]y
k
, +[,
P(N
t
= n, T
(t)
1
> y
1
, ..., T
(t)
j
> y
j
) =
P(S
n
t < S
n+1
, S
n+1
t > y
1
, T
n+2
> y
2
, ..., T
n+j
> y
j
) =
P(S
n
t < S
n+1
, S
n+1
t > y
1
) P(T
n+2
> y
2
) ... P(T
n+j
> y
j
) =
P(N
t
= n)P(T
1
> y
1
)P(T
2
> y
2
) P(T
j
> y
j
) =
P(N
t
= n)P[(T
1
, ..., T
j
) H]
Luego, la tesis de la 1
a
etapa es cierta si H =

j
k=1
]y
k
, +[. Puesto que los borelianos H
de esa forma engendran
j
, queda probada la 1
a
etapa.
2
a
etapa: Veamos ahora que si 0 = t
0
< t
1
< < t
k
, entonces
P(N
t
i
N
t
i1
= n
i
, 1 i k) =
k

i=1
P(N
t
i
t
i1
= n
i
).
20
Probaremos, en primer lugar, que si s
1
, ..., s
n
> 0 entonces
(7) P(N
t
= n, N
t+s
i
N
t
= m
i
, 1 i n) = P(N
t
= n)P(N
s
i
= m
i
, 1 i n)
y a partir de ah lo que queremos. En efecto, notese que

n
i=1
: N
s
i
() = m
i
= : (T
1
(), ..., T
j
()) H
donde j = maxm
i
: 1 i n + 1 y
H = x R
j
: x
1
+ +x
m
i
s
i
< x
1
+ +x
m
i
+1
, 1 i n.
Del mismo modo, usando (6) se obtiene

n
i=1
: N
t+s
i
() N
t
() = m
i
= : (T
(t)
1
(), ..., T
(t)
j
()) H
y, de lo probado en la 1
a
etapa, se sigue que
P(N
t
= n, N
t+s
i
N
t
= m
i
, 1 i n) = P(N
t
= n)P(N
s
i
= m
i
, 1 i n),
como queramos probar. A partir de esto y por induccion sobre k probaremos que si
0 = t
0
< t
1
< < t
k
, entonces
P(N
t
i
N
t
i1
= n
i
, 1 i k) =
k

i=1
P(N
t
i
t
i1
= n
i
).
En efecto, eso se sigue trivialmente de (7) en el caso k = 2. Supuesto cierto para k
probemoslo para k + 1
P(N
t
1
= n
1
, N
t
2
N
t
1
= n
2
, N
t
3
N
t
2
= n
3
, ..., N
t
k+1
N
t
k
= n
k+1
) =
P(N
t
1
= n
1
, N
t
2
N
t
1
= n
2
, N
t
3
N
t
1
= n
2
+n
3
, ..., N
t
k+1
N
t
1
= n
2
+ +n
k+1
) =
P(N
t
1
= n
1
)P(N
t
2
t
1
= n
2
, N
t
3
t
1
= n
2
+n
3
, ..., N
t
k+1
t
1
= n
2
+ +n
k+1
) =
P(N
t
1
= n
1
)P(N
t
2
t
1
= n
2
, N
t
3
t
1
N
t
2
t
1
= n
3
, ..., N
t
k+1
t
k
N
t
k
t
1
= n
k+1
) =
P(N
t
1
= n
1
)P(N
s
1
= n
2
, N
s
2
N
s
1
= n
3
, ..., N
s
k
N
s
k
1
= n
k+1
) =
P(N
t
1
= n
1
)P(N
s
1
= n
2
)P(N
s
2
s
1
= n
3
) P(N
s
k
s
k
1
= n
k+1
) =
P(N
t
1
= n
1
)P(N
t
2
t
1
= n
2
)P(N
t
3
t
2
= n
3
) P(N
t
k+1
t
k
= n
k+1
).
3
a
etapa: (Conclusion) Hemos visto que la condicion 1 implica
P(N
t
i
N
t
i1
= n
i
, 1 i k) =
k

i=1
P(N
t
i
t
i1
= n
i
)
si o = t
0
< t
1
< < t
k
. Ya vimos tambien que
P(N
t
= n) = e
t/
(t/)
n
n!
, n = 0, 1, 2, ...
21
Veamos que de ambas cosas se sigue la condicion 2. En efecto, si 0 s < t, entonces
P(N
t
N
s
= n) =

m=0
P(N
s
= m, N
t
N
s
= n) =

m=0
P(N
s
= m)P(N
ts
= n) =

m=0
e
s/
(s/)
m
m!
e
(ts)/
_
ts

_
n
n!
=
e
t/
_
ts

_
n
n!

m=0
(s/)
m
m!
= e
(ts)/
_
ts

_
n
n!
,
es decir, N
t
N
s
tiene distribucion de Poisson de parametro (t s)/, la misma que N
ts
.
Ademas, si 0 = t
0
< t
1
< < t
k
, entonces
P(
k
i=1
N
t
i
N
t
i1
= n
i
) =
k

i=1
P(N
t
i
t
i1
= n
i
) =
k

i=1
P(N
t
i
N
t
i1
= n
i
),
lo que prueba que los incrementos son independientes.
Corolario 8. Las distribuciones nitodimensionales del proceso de Poisson (N
t
)
t0
son
P(
k
j=1
N
t
j
= n
j
) =
k

j=1
e

t
j
t
j1

_
t
j
t
j1

_
n
j
n
j1
(n
j
n
j1
)!
si 0 = t
0
< t
1
< < t
k
y 0 = n
0
n
1
n
k
.
Demostracion. Basta notar que

k
j=1
N
t
j
= n
j
= N
t
1
= n
1
, N
t
2
N
t
1
= n
2
n
1
, ..., N
t
k
N
t
k1
= n
k
n
k1

y aplicar el teorema anterior.


Corolario 9. La funcion de covarianzas del proceso de Poisson (N
t
)
t0
es
K(s, t) =
1

mn(s, t), s, t 0.
Demostracion. Supongamos 0 s t. Entonces
K(s, t) = Cov (N
s
, N
t
) = E[(N
s
E(N
s
))(N
t
E(N
t
))] = E
_
_
N
s

s

_
_
N
t

t

__
.
Pero
_
N
s

s

_
_
N
t

t

_
=
_
N
s

s

__
N
s

s

_
+
_
N
s

s

_
__
N
t

_
N
s

s

_
_
y la independencia de los incrementos prueba que
K(s, t) = Var (N
s
) =
s

.
22
Ejemplo 2. (Movimiento browniano o proceso de Wienner)
El movimiento browniano es un proceso estocastico real (B
t
)
t0
gaussiano tal que
E(B
t
) = 0, t 0, y con funcion de covarianzas
K(s, t) =
2
mn(s, t), s, t 0
donde
2
> 0.
Se puede probar que K es, efectivamente, una funcion de covarianzas teniendo en cuenta
que coincide con la funcion de covarianzas del proceso de Poisson de promedio
2
. De ello
se deduce que dos procesos estocasticos pueden tener la misma funcion de covarianzas
mientras que sus distribuciones nitodimensionales son muy distintas (se podra hacer
tambien una demostracion directa de este hecho construyendo el movimiento browniano
mediante el teorema de extension de Kolmogorov y calculando su funcion de covarianzas,
para lo cual necesitaramos de algunas suposiciones y resultados auxiliares).
Notese que E(B
2
0
) = K(0, 0) = 0 y, entonces B
0
= O Pc.s.. Por otra parte, si
0 t
1
< t
2
t
3
< t
4
, entonces
E[(B
t
2
B
t
1
)(B
t
4
B
t
3
)] = E(B
t
2
B
t
4
) E(B
t
2
B
t
3
) E(B
t
1
B
t
4
) +E(B
t
1
B
t
3
)
= K(t
2
, t
4
) K(t
2
, t
3
) K(t
1
, t
4
) +K(t
1
, t
3
) =
2
(t
2
t
2
t
1
+t
1
) = 0.
Analogamente, si 0 t
1
< t
2
t
3
< t
4
t
2n1
< t
2n
, las v.a. B
t
2
B
t
1
, B
t
4

B
t
3
, ..., B
t
2n
B
t
2n1
son incorreladas. Puesto que
_
_
_
_
_
1 1 0 0 0 0
0 0 1 1 0 0
.
.
.
0 0 0 0 1 1
_
_
_
_
_
_
_
_
_
_
B
t
1
B
t
2
.
.
.
B
t
2n
_
_
_
_
_
=
_
_
_
_
_
B
t
2
B
t
1
B
t
4
B
t
3
.
.
.
B
t
2n
B
t
2n1
_
_
_
_
_
la distribucion conjunta de dichas v.a. es normal ndimensional y, por tanto, son indepen-
dientes.
Hemos probado que el movimiento browniano tiene incrementos independientes. Ademas,
cada incremento B
t+h
B
t
, con h > 0, tiene distribucion normal de media 0 y varianza
E[(B
t+h
B
t
)
2
] = K(t +h, t +h) 2K(t, t +h) +K(t, t) =
2
h.
Luego la distribucion de B
t+h
B
t
no depende de t, es decir, el proceso tiene incrementos
estacionarios.
Observaciones. 1)El movimiento browniano o proceso de Wiener fue estudiado por
primera vez por Wiener. Imaginemos una partcula sumergida en un uido y bombardea-
da por las moleculas del mismo (que se suponen en movimiento termico). La partcula
describe un movimiento que fue descrito en 1826 por el botanico ingles Brown. Einstein
y Smoluchovsky y, sobre todo, Wiener sentaron las bases matematicas adecuadas para
el estudio del movimiento de dicha partcula. Consideremos una sola componente de ese
movimiento -supongamos que estamos interesados en la componente vertical- y denotemos
B
t
la altura de la misma en el instante t respecto a un plano horizontal. El hecho de que
B
0
= 0 es solo una convencion: la partcula comienza el movimiento en 0. La independencia
de los incrementos se interpreta como sigue: los desplazamientos B
t
i
B
t
i1
, 1 i k1,
23
que la partcula sufre en los intervalos [t
i1
, t
i
] no inuyen de modo alguno en el despla-
zamiento B
t
k
B
t
k1
que sufre en el intervalo [t
k1
, t
k
]. Que B
t
tenga media cero reeja
que la partcula tiene la misma predisposicion a moverse hacia arriba que hacia abajo. La
varianza crece como la longitud h del intervalo: con el tiempo se hacen mas frecuentes las
grandes desviaciones de la partcula.
2) Consideremos ahora un recorrido aleatorio con un gran n umero de pasos siendo el
tama no de cada paso muy peque no; ese recorrido aleatorio puede parecer una aproximacion
razonable para el movimiento de la partcula descrito en la observacion anterior. Veamoslo
intuitivamente: supongamos que la partcula comienza en 0 y salta cada t segundos
moviendose una distancia x hacia arriba con probabilidad 1/2 o hacia abajo con la
misma probabilidad (solo consideramos una componente del movimiento). Si X
n
(t) es
la posicion de la partcula en el instante t = nt, entonces X
n
(t) es la suma de v.a.r.
independientes Y
1
, ..., Y
n
donde
P(Y
i
= x = P(Y
i
= x) =
1
2
, 1 i n.
Entonces, Var[X
n
(t)] = n(x)
2
=
t
t
(x)
2
y
X
n
(t) =
Y
1
+ +Y
n

nx

nx = Z
n

nx
donde Z
n
tiene media cero y varianza 1. Supongamos ahora que x 0 y t 0
de tal forma que el proceso lmite no sea trivial (si tomamos x = t y hacemos que
t 0 entonces E[X
n
(t)] y Var[X
n
(t)] convergen ambos a 0 y el lmite sera trivial),
por ejemplo, supongamos que se verica lo anterior y que, cuando
(x)
2
t

t0

2
> 0.
Entonces, el teorema lmite central prueba que X
n
(t) converge en distribucion a una v.a.
normal N(0,
2
t), digamos X
n
(t)
d

n
B
t
. Si 0 t
1
< < t
k
, un argumento analo-
go prueba la convergencia en distribucion de (X
n
(t
1
), ..., X
n
(t
k
)) a (B
t
1
, ..., B
t
k
), como
queramos probar.
Lecci

on 4: C

alculo de Segundo Orden


A lo largo de esta leccion, (X
t
)
tT
sera un L
2
proceso, con T un intervalo de R. Inten-
taremos desarrollar una teora en la que sea posible hablar de continuidad, diferenciacion
e integracion del proceso. Puesto que el conocimiento de la funcion de covarianzas no re-
vela propiedad alguna de este tipo de las trayectorias, desarrollaremos esos conceptos en
sentido L
2
.
Lema 10. Sean (Y
n
)
n
, (Z
m
)
m
, Y y Z variables aleatorias en L
2
. Si Y
n
L
2
Y y Z
m
L
2

Z entonces E(Y
n
Z
m
)
n,m
E(Y Z).
Demostracion. Es simplemente el enunciado de que el producto escalar en L
2
es con-
tinuo en ambas variables.
El siguente resultado muestra como la existencia de un lmite L
2
puede deducirse de la
existencia de lmites de sucesiones en C.
Teorema 11. Sean (Y
s
)
sT
un L
2
proceso y s
0
T. Son equivalentes
(i) Existe Y L
2
tal que Y
s
L
2

ss
0
Y .
(ii) Existe un n umero complejo L tal que para cada par de sucesiones s
n
s
0
y s

m
s
0
,
se tiene que E(Y
s
n
Y
s

m
)
n,m
L
Demostracion. (i)=(ii). Si Y
s
L
2

ss
0
Y , entonces, por el lema anterior,
E(Y
s
n
Y
s

m
)
n,m
L.
(ii)=(i). Sea L C vericando (ii). Elijamos s
n
s
0
. Entonces
E[[Y
s
n
Y
s
m
[
2
] = E[(Y
s
n
Y
s
m
)(Y
s
n
Y
s
m
)]
n,m
0
por hipotesis. Siendo L
2
completo, (Y
s
n
)
n
converge en L
2
a un lmite Y . Si tomamos otra
sucesion t
n
s
0
, entonces
|Y
t
n
Y |
2
|Y
t
n
Y
s
n
|
2
+|Y
s
n
Y |
2
y
E[[Y
t
n
Y
s
n
[
2
] = E(Y
t
n
Y
t
n
) E(Y
t
n
Y
s
n
) E(Y
s
n
Y
t
n
) +E(Y
s
n
Y
s
n
) = L L L +L = 0.
Luego Y
t
n
L
2
Y y el resultado se sigue de ah.
Como siempre, K denotara la funcion de covarianzas del L
2
proceso (X
t
)
tT
y m la funcion
de medias: m(t) = m
t
= E(X
t
), t T.
Definiciones. (L
2
continuidad, L
2
diferenciabilidad) El proceso (X
t
)
tT
se dice L
2

continuo en el punto t T si y solo si X


t+h
L
2

h0
X
t
. El proceso se dice L
2
diferenciable
en t T si (X
t+h
X
t
)/h converge en L
2
a un lmite X

t
cuando h 0.
24
25
Teorema 12. Supongamos que m es continua en T. Entonces el proceso (X
t
)
tT
es
L
2
continuo en t T si y solo si K es continua en (t, t).
Demostracion. Puesto que (X
t
)
tT
es L
2
continuo si y solo si (X
t
m
t
)
t
es L
2
continuo
y que (X
t
m
t
)
t
tiene funcion de covarianzas K, podemos suponer m 0. Si el proceso
es L
2
continuo en t T entonces
X
t+h
L
2

h0
X
t
, X
t+h

L
2

0
X
t
y, por el lema anterior, K(t +h, t +h

)
h,h

0
K(t, t). Luego K es continua en (t, t).
Recprocamente, si K es continua en (t, t) entonces
E[[X
t+h
X
t
[
2
] = E[(X
t+h
X
t
)(X
t+h
X
t
)] =
K(t +h, t +h) K(t, t +h) K(t, t +h) +K(t, t)
h0
0.
Corolario 13. Si K es continua en (t, t) para todo t T, entonces K es continua en
(s, t) para todos s, t T.
Demostracion. Suponemos que m 0. Por el teorema anterior, X
s+h
L
2

h0
X
s
y
X
t+h

L
2

0
X
t
. Por el lema, K(s +h, t +h

)
h,h

0
K(s, t).
En el caso estacionario se obtienen resultados analogos.
Teorema 14. Sea (X
t
)
tT
un L
2
proceso estacionario con funcion de covarianzas K =
K(t), t u v : u, v T.
a) Si el proceso es L
2
continuo en un punto s entonces K es continua en el origen.
b) Si K es continua en el origen entonces K es continua en todo punto y el proceso es
L
2
continuo en cada punto t T.
Demostracion. a) Tenemos que X
s+t
L
2

t0
X
s
y X
s
L
2

t0
X
s
y, por el lema,
K(t)
t0
K(0).
b) Puesto que E[[X
t+h
X
t
[
2
] = K(0) K(h) K(h) +K(0)
h0
0 el proceso es
continuo en cada punto t. Entonces, X
s+t+h
L
2

h0
X
s+t
y X
s
L
2

h0
X
s
y, por el lema,
K(t +h)
h0
K(t).
En el siguiente resultado relacionamos la L
2
diferenciabilidad del proceso y la diferencia-
bilidad de la funcion de covarianzas en el caso estacionario.
Teorema 15. Sea (X
t
)
tT
un L
2
proceso estacionario con funcion de covarianzas K =
K(t). Si el proceso es L
2
diferenciable en todo punto t T entonces K es dos veces
diferenciable en T y (X

t
)
tT
es un L
2
proceso estacionario con funcion de covarianzas
K

(t).
26
Demostracion. Puesto que X
s+t
L
2

h0
X
s+t
y
X
s+h
X
s
h
L
2

h0
X

s
se sigue del lema
que
K(t h) K(t)
h

h0
E(X
s+t
X

s
).
Entonces K es diferenciable en cada punto t T y
K

(t) = E(X
s+t
X

s
).
Por otra parte, puesto que
X
s+t+h
X
s+t
h

L
2

0
X

s+t
y X

s
L
2

0
X

s
se sigue del lema y de lo anterior que
K

(t +h

) +K

(t)
h

0
E(X

s+t
X

s
).
Existe pues K

(t) para cada t T y vale E(X

s+t
X

s
).
Introducimos ahora la nocion de integracion en sentido L
2
.
Definici on. (L
2
integral) Sea (X
t
)
atb
, (a, b R), un L
2
proceso con funcion de
covarianzas K y funcion de medias m, y sea g : [a, b] C una aplicacion. Denamos
_
b
a
g(t)X
t
dt como sigue:
Sea = a = t
0
< t
1
< < t
n
= b una particion de [a, b] con [[ = max
1in
[t
i

t
i1
[; hagamos
I() =
n

k=1
g(t
k
)X
t
k
(t
k
t
k1
)
Es claro que I() L
2
. Si I() converge en L
2
a alguna v.a. I cuando [[ 0 diremos
que
I =
_
b
a
g(t)X
t
dt.
El siguiente teorema da una condicion suciente para la L
2
integrabilidad.
Teorema 16. Si m y g son continuas en [a, b] y K es continua en [a, b][a, b], entonces
g(t)X
t
es L
2
integrable en [a, b].
Demostracion. Podemos suponer m 0. Sean = a = s
0
< s
1
< < s
m
= b y

= a = t
0
< t
1
< < t
n
= b. Entonces
I()I(

) =
m

j=1
n

k=1
g(s
j
)g(t
k
)X
s
j
X
t
k
(s
j
s
j1
)(t
k
t
k1
);
por tanto,
E[I()I(

)] =
m

j=1
n

k=1
g(s
j
)g(t
k
)K(s
j
, t
k
)(s
j
s
j1
)(t
k
t
k1
)
es una suma que aproxima a una integral de Riemann. El teorema que sigue al lema de
esta leccion prueba que I() converge en L
2
a un lmite I cuando [[ 0.
27
Observaciones. 1) La hipotesis de continuidad de g puede ser debilitada a continuidad
c.s. respecto a la medida de Lebesgue.
2) El teorema anterior es un caso particular del siguiente resultado: Si f es una funcion
continua denida en [a, b] y a valores en un espacio de Banach, entonces la integral de
Riemann
_
b
a
f(t)dt existe. Este resultado se puede probar imitando una de las pruebas
clasicas de la existencia de la integral de Riemann de una funcion real continua en [a, b].
En nuestro caso la aplicacion f es t [a, b] g(t)X
t
L
2
.
Veamos algunas propiedades de la L
2
integral.
Teorema 17. Si m 0, g y h son continuas en [a, b] y K es continua en [a, b] [a, b],
entonces
E
_
_
b
a
g(s)X
s
ds
_
b
a
h(t)X
t
dt
_
=
_
b
a
_
b
a
g(s)h(t)K(s, t)dsdt.
Ademas
E
__
b
a
g(s)X
s
ds
_
= E
__
b
a
h(t)X
t
dt
_
= 0.
Demostracion. Sean
I() =
m

j=1
g(s
j
)X
s
j
(s
j
s
j1
),
J(

) =
n

k=1
h(t
k
)X
t
k
(t
k
t
k1
),
I =
_
b
a
g(s)X
s
ds y J =
_
b
a
h(t)X
t
dt.
Por el teorema anterior,
I()
L
2
I, J(

)
L
2
J.
Por el lema, E[I()J(

)] E[IJ]. Se prueba, como en el teorema anterior, que


E[I()J(

)]
_
b
a
_
b
a
g(s)h(t)K(s, t)dsdt
lo que prueba la primera armacion.
Por otra parte, I()
L
2
I y 1
L
2
1 y, por el lema, E[I()] E[I]. Pero E[I()] 0
y, por tanto, E[I] = 0. Analogamente, E[J] = 0.
Teorema 18. Si m 0, h es continua en [a, b] y K es continua en [a, b] [a, b],
entonces
E
_
X
s
_
b
a
h(t)X
t
dt
_
=
_
b
a
K(s, t)h(t)dt.
28
Demostracion. Sean J(

) =

n
k=1
h(t
k
)X
t
k
(t
k
t
k1
) y J =
_
b
a
h(t)X
t
dt. Entonces
J(

)
L
2
J. Como en el teorema anterior,
E[X
s
J(

)]
_
b
a
K(s, t)h(t)dt
de donde se sigue el resultado.
Ejemplos. 1) Consideremos v.a.r. X
t
, t R, independientes con media cero y va-
rianza com un
2
. Entonces (X
t
)
tR
es un L
2
proceso estacionario (en sentido amplio, se
sobreentiende siempre en este captulo) con covarianza
K(t) = K(t, 0) = E(X
0
X
t
) = 0 0 = 0 si t ,= 0,
K(0) = K(0, 0) = E(X
2
0
) = Var (X
0
) =
2
.
Se sigue de los resultados precedentes que el proceso no es L
2
continuo.
2) (Movimiento browniano) El movimiento browniano (B
t
)
t0
es L
2
continuo pero no
L
2
diferenciable. Es L
2
continuo pues K(s, t) =
2
mn(s, t) es continua.
Por otra parte, del teorema que sigue al lema se sigue que
E[(X
t+h
X
t
)(X
t+h
X
t
)]
hh

converge a un unico lmite nito cuando h y h

tienden a cero si y solo si


X
t+h
X
t
h
converge a un lmite en L
2
cuando h 0. En nuestro caso,
B
t+h
B
t
h
converge a un lmite
en L
2
cuando h tiende a cero si y solo si
[K(t +h, t +h

) K(t, t +h

) K(t, t +h) +K(t, t)]


hh

converge a un lmite nito cuando h, h

0. Puesto que K(s, t) =


2
mn(s, t), tomando
h = h

> 0 se obtiene que la expresion anterior es igual a

2
t +h t t +t
h
2
=

2
h
que converge a innito cuando h tiende a cero. Luego (B
t
)
t0
no es L
2
diferenciable.
Lecci

on 5: Desarrollo de KarhunenLo
`
eve.
Sea (X
t
)
atb
, a, b R, un L
2
proceso con media cero y funcion de covarianzas continua
K. Nos preguntamos por la posibilidad de obtener un desarrollo ortogonal de X
t
:
X
t
=

k=1
Z
k
e
k
(t), a t b,
donde la serie converge en L
2
; deseamos que las Z
k
sean v.a. en L
2
de media cero y
ortogonales, es decir, tales que E(Z
j
Z
k
) = 0 si j ,= k; deseamos tambien que las funciones
e
k
: T C sean ortonormales, es decir, que
_
b
a
e
j
(t)e
k
(t)dt =
_
0 si j ,= k
1 si j = k
As, si

n
j=1
Z
j
e
j
(s)
L
2

n
X
s
y

n
k=1
Z
k
e
k
(t)
L
2

n
X
t
, el lema de la leccion anterior
prueba que
E[
n

j,k=1
Z
j
Z
k
e
j
(s)e
k
(t)]
n
K(s, t)
es decir,
K(s, t) =

k=1

k
e
k
(s)e
k
(t)
donde
k
= E([Z
k
[
2
). Supuesto que podemos integrar termino a termino, tendramos
_
b
a
K(s, t)e
n
(t)dt =
n
e
n
(s), a s b.
Entonces, si un desarrollo como el anterior existe, las funciones e
k
aparecen como auto-
vectores (autofunciones) del operador integral asociado con la funcion de covarianzas del
proceso, y las varianzas
k
de las v.a. Z
k
son los autovalores del operador. Notese que si

n
,= 0 entonces e
n
es continua (dividir la ultima expresion por
n
y utilizar el teorema
de la convergencia dominada).
Antes de probar que un desarrollo tal es posible necesitaremos algunos resultados sobre
teora de espacios de Hilbert.
Sea K una funcion de covarianzas continua, es decir, una aplicacion K : [a, b][a, b]
C continua, simetrica y semidenida positiva. Sea A : L
2
[a, b] L
2
[a, b] el operador
integral en L
2
[a, b] asociado a K, denido en un punto x L
2
[a, b] por
(Ax)(s) =
_
b
a
K(s, t)x(t)dt, a s b.
Las autofunciones de A (es decir, los puntos x L
2
[a, b] tales que Ax = x para alg un
C) engendran L
2
[a, b], es decir, el mas peque no subespacio cerrado de L
2
[a, b] que
contiene las autofunciones de A es el propio L
2
[a, b]. El operador A tiene a lo mas una
cantidad numerable de autovalores, todos ellos reales, con 0 como unico posible punto
lmite. Los autovalores no nulos son mayores que cero por ser K semidenida positiva. El
29
30
subespacio engendrado por las autofunciones correspondientes a un autovalor mayor que
cero es nito dimensional.
Sea e
n
: n = 1, 2, ... una base ortonormal para el subespacio engendrado por las
autofunciones correspondientes a autovalores no nulos. Si tomamos la base de forma que
e
n
es un autovector correspondiente al autovalor
n
, el teorema de Mercer prueba que
K(s, t) =

n=1

n
e
n
(s)e
n
(t), (s, t) [a, b]
2
,
donde la serie es absolutamente convergente y converge ademas uniformemente en ambas
variables. (Ver Riesz and Sz. Nagy: Funtional Analysis, 1955, o Assh, R.B.: Information
Theory, 1965, para los resultados precedentes).
Estamos ya en condiciones de establecer el teorema que deseabamos.
Teorema 19. (KarhunenLo`eve) Sea (X
t
)
atb
, a, b R, un L
2
proceso con media
cero y funcion de covarianzas continua K. Sea (e
n
)
n=1,2,...
una base ortonormal del subes-
pacio cerrado engendrado por las autofunciones de los autovalores no nulos del operador
integral asociado a K, donde e
n
es un autovector correspondiente al autovalor
n
. Entonces
X
t
=

n=1
Z
n
e
n
(t), a t b,
donde Z
n
=
_
b
a
X
t
e
n
(t)dt, y las Z
n
son v.a. ortogonales con media cero y varianzas
E([Z
n
[
2
) =
n
. La serie converge en L
2
a X
t
uniformemente en t [a, b], en otras pa-
labras,
sup
t[a,b]
E[[X
t

k=1
Z
k
e
k
(t)[
2
]
n
0.
Demostracion. El teorema 16 prueba que
_
b
a
X
t
e
n
(t)dt dene una v.a. Z
n
en L
2
. El
teorema 17 prueba que E(Z
n
) = 0 y que
E(Z
j
Z
k
) =
_
b
a
e
j
(s)
_
b
a
K(s, t)e
k
(t)dtds
=
k
_
b
a
e
j
(s)e
k
(s)ds =
_
0 si j ,= k

k
si j = k
Sea S
n,t
=

n
k=1
Z
k
e
k
(t). Entonces
E[[X
t
S
n,t
[
2
] = E([X
t
[
2
) 2Re E(X
t
S
n,t
) +E[[S
n,t
[
2
] (8)
= K(t, t) 2Re

n
k=1
E(X
t
Z
k
)e
k
(t) +

n
k=1

k
[e
k
(t)[
2
. (9)
Por el teorema 18, E(X
t
Z
k
) =
_
b
a
K(t, u)e
k
(u)du =
k
e
k
(t). Entonces,
E[[X
t
S
n,t
[
2
] = K(t, t)
n

k=1

k
[e
k
(t)[
2

n
0
uniformemente en t [a, b], por el teorema de Mercer.
31
Para un proceso gaussiano el teorema de KarhunenLo`eve toma una forma especial; ne-
cesitamos el siguiente resultado previo:
Teorema 20. Para n = 1, 2, ..., sean I
n
1
, ..., I
n
p
v.a. complejas con distribucion con-
junta normal. Supongamos que I
n
j
L
2
I
j
, cuando n , 1 j p. Entonces I
1
, ..., I
p
tienen distribucion conjunta normal.
Demostracion. Puesto que la L
2
convergencia de v.a. complejas es equivalente a la
L
2
convergencia de sus partes real e imaginaria, podemos suponer reales todas las v.a.
consideradas. La funcion caracterstica conjunta de I
n
1
, ..., I
n
p
es
h
n
(u
1
, ..., u
p
) = E[exp(i
p

j=1
u
j
I
n
j
)]
= exp[i
p

j=1
u
j
b
n
j
] exp[
1
2
p

j,m=1
u
j

n
jm
u
m
]
donde b
n
j
= E(I
n
j
) y
n
jm
= Cov (I
n
j
, I
n
m
). El lema 10 prueba que b
n
j
b
j
= E(I
j
) y

n
jm

jm
= Cov (I
j
, I
m
). Entonces
(10) h
n
(u
1
, ..., u
p
) exp(i
p

j=1
u
j
b
j
] exp[
1
2
p

j,m=1
u
j

n
jm
u
m
],
para cada (u
1
, ..., u
p
) R
p
.
Pero u
1
I
n
1
+ +u
p
I
n
p
converge a u
1
I
1
+ +u
p
I
p
en L
2
y, entonces, en probabilidad
y, entonces, en distribucion. Por el teorema de L`evy, la funcion caracterstica de u
1
I
n
1
+
+u
p
I
n
p
converge puntualmente a la funcion caracterstica de u
1
I
1
+ +u
p
I
p
, es decir,
E[exp(it
p

j=1
u
j
I
n
j
)]
n
E[exp(it
p

j=1
u
j
I
j
)], t R,
y, en particular, para t = 1. Por tanto,
h
n
(u
1
, ..., u
p
) h(u
1
, ..., u
p
),
donde h es la funcion caracterstica conjunta de I
1
, ..., I
p
. De esto y de (10) se sigue que
I
1
, ..., I
p
tienen distribucion conjunta normal.
Teorema 21. (KarhunenLo`eve para procesos gaussianos) En las hipotesis del teore-
ma de KarhunenLo`eve, si ademas (X
t
)
t
es un proceso gaussiano, entonces las Z
k
forman
una sucesion gaussiana, es decir, Z
1
, ..., Z
k
tienen distribucion conjunta normal para cada
k 1. Si las v.a. X
t
son reales, entonces las Z
k
son independientes.
Demostracion. Sea I
j
() =

n
m=1
X
t
m
e
j
(t
m
)(t
m
t
m1
), j = 1, ..., p, una suma apro-
ximada a Z
j
=
_
b
a
X
t
e
j
(t)dt. De las propiedades de la distribucion normal multivariante se
sigue que I
1
(), ..., I
p
() tienen distribucion conjunta normal. Pero I
j
()
L
2
Z
j
cuando
32
[[ 0, 1 j p. Luego Z
1
, ..., Z
p
tienen distribucion conjunta normal por el teorema
anterior.
En el caso real, puesto que E(Z
j
Z
k
) = Cov(Z
j
, Z
k
) = 0 si j ,= k (las Z
k
son
ortogonales), las Z
j
son dos a dos incorreladas y, entonces, independientes.
Observacion. As pues, para un proceso gaussiano real, el desarrollo de Karhunen
Lo`eve es una serie de v.a. independientes. Puesto que la serie converge en L
2
(por tanto,
en distribucion), para cada t jo, la serie converge con probabilidad 1. Existe pues un suceso
N
t
de probabilidad 0 tal que, para cada / N
t
,

n=1
Z
n
()e
n
(t) converge a X
t
(). Son
demasiados N
t
como para poder concluir de ah que existe un suceso N de probabilidad
nula tal que

n=1
Z
n
()e
n
(t) converge a X
t
(), / N, t. No obstante, se prueba que
existe un suceso N de probabilidad 0 tal que, para cada / N,

n=1
Z
n
()e
n
(t) converge
a X
t
() para casi todo t (medida de Lebesgue).
Ejemplo 3. Sea K(s, t) = mn(s, t), s, t [0, 1] (si suponemos ademas que el proceso
es gaussiano obtenemos un movimiento browniano restringido a [0, 1]). Para encontrar los
autovalores del operador integral asociado a K, debemos resolver la ecuacion integral
_
1
0
mn(s, t)e(t)dt = e(s), 0 s 1,
es decir,
(11)
_
s
0
te(t)dt +s
_
1
s
e(t)dt = e(s), 0 s 1.
Si ,= 0, entonces e es continua y podemos derivar con respecto a s para obtener
(12)
_
1
s
e(t)dt = e

(s).
Derivemos de nuevo para obtener
(13) e(s) = e

(s).
Si = 0, el desarrollo anterior da e(s) = 0 c.s. con lo cual 0 no es un autovalor.
La solucion de la ecuacion diferencial anterior es
(14) e(s) = Asin
s

+Bcos
s

.
Hagamos s = 0 en (19) para obtener e(0) = 0; luego B = 0 en (30).
Hagamos ahora s = 1 en (27) para obtener e

(1) = 0. Luego
cos
1

= 0, o
1

= (2n 1)

2
, n = 1, 2, ...
Los autovalores son entonces

n
=
4
(2n 1)
2
/
2
33
y las autofunciones ortonormalizadas son
e
n
(t) =

2 sin
2n 1
2
t, n = 1, 2, ...
Finalmente, haciendo Z

n
= Z
n
/

, donde las Z
n
son como en el teorema de Karhunen
Lo`eve, se obtiene
X
t
=

2

n=1
Z

n
sin(n
1
2
)t
(n
1
2
)
donde las Z

n
son ortogonales con media 0 y varianza 1. En el caso gaussiano son inde-
pendientes y, entonces, para cada t la serie converge c.s.. De hecho puede probarse (ver
problema 1.4.5. en Ash, Gardner) que existe un suceso nulo N tal que si / N, entonces

2
2
n

k=1
Z

k
()
(k
1
2
)
sin(k
1
2
)t
converge cuando n , digamos a Y
t
(), uniformemente para t [0, 1]. Entonces, si
/ N, Y
t
() es continua en t y si hacemos Y
t
() = 0 para / N y todo t, entonces Y
t
()
es continua en t para todo . Ahora bien, para cada t, X
t
() = Y
t
() para casi todo y, en
ese sentido, (X
t
)
0t1
es equivalente a (Y
t
)
0t1
; en particular, los dos procesos tienen las
mismas distribuciones nitodimensionales y, entonces, la misma funcion de covarianzas.
He aqu otra forma de probar la existencia de un movimiento browniano con trayectorias
continuas.
Lecci

on 6: Problemas de Estimaci

on.
Sea (X
t
)
tT
un L
2
proceso, y sea S = L
2
X
t
, t T el subespacio cerrado engendrado
por las X
t
, es decir, S consiste en todos los L
2
lmites de combinaciones lineales nitas de
X

t
s. Podemos pensar en S como en el espacio de todas las v.a. que se obtienen por una
operacion lineal en las X
t
. As pues, las L
2
derivadas y las L
2
integrales de (X
t
)
tT
, si
existen, estan en S.
Por otra parte, la aplicacion
X = (X
t
)
tT
: (, /, P) (R
T
,
T
), (o C
T
, B(C
T
))
denida por X() = (X
t
())
tT
para cada es medible. Sea /
X
= X
1
(
T
) la
algebra engendrada por X. Es sabido que una aplicacion Z : R es /
X
medible
si y solo si existe una v.a.r. g : (R
T
,
T
) (R, ) tal que Z = g X (algo analogo es
tambien cierto en el caso complejo). Diremos de Z que es una funcion Borel medible de
X en ese caso. Denotemos S
0
= L
2
(, /
X
, P) (es decir, la clase de las funciones medibles
de X que pertenecen a L
2
).
Consideraremos dos problemas de estimacion. Sea Y una v.a.r. en L
2
(, /, P):
1) Encontrar el elemento

Y de S mas proximo a Y , es decir,

Y S e |

Y Y | =
nf
WS
|W Y |. Entonces

Y es el mejor estimador de Y basado en una operacion lineal
de las X
t
.
2) Encontrar el elemento Y

de S
0
mas proximo a Y . Entonces Y

es el mejor estimador
de Y basado en una operacion Borel medible arbitraria de las X
t
.
Dicho de otro modo,

Y es la proyeccion ortogonal de Y sobre S, caracterizada como el
elemento de S (identicamos v.a. que coinciden c.s.) tal que Y

Y S. Equivalentemente,
Y

Y es ortogonal a todas las X
t
, es decir,
E(Y X
t
) = E(

Y X
t
), t T.
Ejemplo 4. Sea X
n
= Z
n
+W
n
, n Z; interpretaremos Z como una se nal
2
W como
un ruidono deseable. Supongamos que (Z
n
)
n
y (W
n
)
n
son estacionarios con media cero y
funciones de covarianzas K
Z
y K
W
. Supongamos tambien que Z
n
y W
m
son incorreladas
para todo par n, m Z. Pretendemos estimar una v.a. Y a partir de una combinacion
lineal en X
r
, X
r1
, ..., X
rM
. As pues, en este caso, T = r, r 1, ..., r M y S consiste
en todas las combinaciones lineales

M
j=0
c
j
X
rj
. Por ejemplo, si Y = Z
r+
, N, > 0,
tenemos un problema de prediccion; si Y = Z
r
tenemos un problema de suavizacion.
Puesto que

Y S podemos escribir

Y =

M
j=0
h
j
X
rj
para algunas constantes h
0
, ..., h
M
.

Y queda caracterizado por las condiciones


E(Y X
ri
) = E(

Y X
ri
), i = 0, 1, ..., M
o bien
E(Y X
ri
) =
M

j=0
K
X
(i j)h
j
, i = 0, 1, ...M.
Si Y = Z
r+
entonces
E(Y X
ri
) = E(Z
r+
[Z
ri
+W
ri
] = K
Z
( +i);
34
35
ademas K
X
= K
Z
+K
W
. Entonces, las ecuaciones que determinan

Y son
_

_
K
X
(0) K
X
(1) K
X
(M)
K
X
(1) K
X
(0) K
X
(M + 1)
.
.
.
.
.
.
K
X
(M) K
X
(M 1) K
X
(0)
_

_
_

_
h
0
h
1
.
.
.
h
M
_

_
=
_

_
K
Z
()
K
Z
( + 1)
.
.
.
K
Z
( +M)
_

_
.
Notese que si K
X
es singular (de modo que X
r
, ..., X
rM
son linealmente dependientes)
existen innitas soluciones a esa ecuacion, pero todas ellas corresponden (c.s.) al mismo

Y puesto que

Y es unico en virtud del teorema de la proyeccion ortogonal. En vista de
la dependencia lineal, cada elemento de S puede representarse de muchas formas como
combinacion lineal de X
r
, ..., X
rM
.
Consideremos ahora el segundo problema. Se verica que Y

= E(Y [/
X
) (que se denota
tambien por E(Y [X) sin que ello nos lleve a confusion).
En efecto, Y

es la proyeccion de Y sobre S
0
y, por tanto, < Y, Z >=< Y

, Z > ,
Z S
0
. En particular, si A /
X
y Z = I
A
,
_
A
Y dP =
_
A
Y

dP;
ademas Y

S
0
y, por tanto, es /
X
medible.
Notese que S S
0
y, entonces, |Y Y

| |Y

Y |.
Existe un caso particularmente importante en el que

Y = Y

, con lo cual el mejor


estimador lineal coincide con el mejor estimador.
Teorema 22. Si Y X
t
: t T es un proceso gaussiano y todas las variables
tienen media cero entonces

Y = Y

.
Demostracion. Puesto que

Y S,

Y es L
2
lmite de alguna sucesion de combinaciones
lineales nitas de X

t
s, digamos
Y
n
=
r
n

j=1
c
n
j
X
t
n
j
L
2


Y .
Dados t
1
, ..., t
m
, Y Y
n
, X
t
1
, ..., X
t
m
tienen distribucion conjunta normal (pues el vec-
tor Y Y
n
, X
t
1
, ..., X
t
m
se obtiene multiplicando el vector Y, X
t
1
, ..., X
t
m
por una ma-
triz y este ultimo tiene distribucion conjunta normal) y, entonces, por el teorema ??
Y

Y , X
t
1
, ..., X
t
m
tienen distribucion conjunta normal. Luego Y

Y X
t
: t T es
un proceso gaussiano.
Fijemos t
1
, ..., t
n
. Puesto que Y

Y es ortogonal a todas las X


t
, la matriz de covarianzas
de Y

Y , X
t
1
, ..., X
t
n
tiene la forma
K =
_

_
a 0 0 0
0 b
11
b
12
b
1n
0 b
21
b
22
b
2n
.
.
.
.
.
.
0 b
n1
b
n2
b
nn
_

_
.
36
Si a = Var (Y

Y ) = 0, entonces Y =

Y c.s. y, entonces, Y S S
0
, con lo cual
Y = Y

c.s. y, habremos terminado. Supongamos ahora a > 0. Si B = (b


ij
)
i,j=1,...,n
es no
singular, K
1
es de la misma forma que K. Se sigue de la forma de la densidad conjunta de
Y

Y , X
t
1
, ..., X
t
n
que Y

Y y X
t
1
, ..., X
t
n
son independientes. Si B es singular, el mismo
argumento prueba que Y

Y y X
s
1
, ..., X
s
r
son independientes, donde X
s
1
, ..., X
s
r
es un
subconjunto libre maximal de X
t
1
, ..., X
t
n
. Puesto que, en ese caso (X
t
1
, ..., X
t
n
) es una
funcion lineal de (X
s
1
, ..., X
s
r
), Y

Y y (X
t
1
, ..., X
t
n
) son independientes tambien en el caso
B singular. Puesto que t
1
, ..., t
n
son arbitrarios, Y

Y y X son independientes. Entonces
E(Y

Y [/
X
) = E(Y

Y ) = 0 (pues Y y las X
t
tienen media 0). Pero

Y S S
0
y,
entonces,

Y es /
X
medible. Se sigue pues que E(

Y [/
X
) =

Y . Luego Y

= E(Y [/
X
) =

Y .
Lecci

on 7: El filtro de Kalman.
Consideremos el siguiente modelo para un proceso estocastico:
X(k + 1) = (k)X(k) +U(k), k = 0, 1, 2, ...
donde X(k) y U(k) son v.a. ndimensionales y (k) es una matriz cuadrada de orden
n conocida. Si X(k) representa el estado del sistema en el instante k, X(k + 1) es una
transformacion lineal conocida de X(k) mas un ruido aleatorio U(k). Supondremos que
las U(k) tienen media 0 y son ortogonales: E[U(j)U

(k)] = Q(k)
jk
donde

denota el
traspuesto conjugado,
jk
es la delta de Kronecker y Q(k) es una matriz de orden n
semidenida positiva.
Supondremos tambien que no podemos observar directamente X(k) pero que, en su
lugar, observamos un proceso V (k) relacionado con X(k) mediante:
V (k) = H(k)X(k) +W(k), k = 0, 1, 2, ...
donde V (k) y W(k) son v.a. mdimensionales y H(k) una matriz de orden mn conocida.
As V (k), la observacion en el instante k, es una conocida transformacion lineal de X(k)
mas un ruido aleatorio W(k). Supondremos tambien que las W(k) tienen media 0 y son
ortogonales: E[W(j)W

(k)] = R(k)
jk
.
Supondremos nalmente que X(0) y los procesos ruido (U(k))
k
y (W(k))
k
son mu-
tuamente ortogonales, es decir, para cada j, k = 0, 1, 2, ..., E[U(j)W

(k)], E[X(0)U

(j)] y
E[X(0)W

(k)] son matrices nulas.


Antes de continuar con el problema planteado por Kalman veamos algunos conceptos
y resultados utiles a la hora de resolver dicho problema.
Pretendemos encontrar el estimador de mnimos cuadrados

X(k) de X(k) basado en
las observaciones anteriores V (0), ..., V (k 1). As

X(k) sera el vector ndimensional
cuya iesima componente,

X
i
(k), es la proyeccion ortogonal de la iesima componente
de X(k), X
i
(k), sobre el subespacio de L
2
(, /, P) generado por las componentes de
V (0), ..., V (k 1).
Definici on. (Estimador lineal de mnima varianza) Sean X L
n
2
(, /, P) e Y
L
m
2
(, /, P). El estimador lineal de mnima varianza de X basado en Y es una v.a. n
dimensional de cuadrado sumable

X L
n
2
(, /, P) tal que
1)

X = K Y para alguna matriz escalar K de orden n m.
2) |

X X| es mnimo entre todos los estimadores de X de la forma C Y siendo C
una matriz de orden n m.
Observaciones. 1) En L
n
2
(, /, P) la operacion < X, Y > E(X
t
Y ) es un producto
interior y L
n
2
(, /, P) dotado con dicha operacion es un espacio de Hilbert.
2) Si M es un subespacio cerrado de L
2
(, /, P) entonces M
n
es un subespacio cerrado
de L
n
2
(, /, P).
3)

X = (

X
1
, ...,

X
n
) es la proyeccion de X = (X
1
, ..., X
n
) sobre M
n
si y solo si

X
i
es
la proyeccion de X
i
sobre M, para cada i.
Teorema 23. (GaussMarkov) Sean X e Y v.a. n y mdimensionales de cuadrado
sumable. Entonces el estimador lineal de mnima varianza de X basado en Y es

X = K Y
donde K = E(XY
t
)E(Y Y
t
)
1
, si E(Y Y
t
) es inversible. Ademas
E[(

X X)(

X X)
t
] = E(XX
t
) KE(Y X
t
).
37
38
Demostracion. Denotemos por M el subespacio lineal de L
2
(, /, P) generado por
las componentes Y
1
, ..., Y
m
de Y . Para cada i 1, ..., n, sea

X
i
la proyeccion de la
coordenada iesima X
i
de X sobre M.

X
i
sera de la forma

X
i
=
m

j=1
k
ij
Y
j
.
Puesto que

X
i
X
i
M, 1 i n, se tiene que
0 = E[(X
i

m

j=1
k
ij
Y
j
)Y
r
], 1 r m,
es decir,
E(X
i
Y
r
) =
m

j=1
k
ij
E(Y
j
Y
r
), 1 r m,
que en forma matricial se puede expresar como
_
_
_
E(X
i
Y
1
)
.
.
.
E(X
i
Y
m
)
_
_
_
=
_
_
_
_
E(Y
1
Y
1
)
.
.
. E(Y
1
Y
m
)
.
.
.
.
.
.
E(Y
m
Y
1
) E(Y
m
Y
m
)
_
_
_
_
_
_
_
k
i1
.
.
.
k
im
_
_
_
de donde se deduce que
_
_
_
k
i1
.
.
.
k
im
_
_
_
=
_
_
_
_
E(Y
1
Y
1
)
.
.
. E(Y
1
Y
m
)
.
.
.
.
.
.
E(Y
m
Y
1
) E(Y
m
Y
m
)
_
_
_
_
1 _
_
_
E(X
i
Y
1
)
.
.
.
E(X
i
Y
m
)
_
_
_
o bien
(k
i1
, ..., k
i,m
) = (< Y
1
, X
i
>, ..., < Y
m
, X
i
>)
_
_
_
_
< Y
1
, Y
1
>
.
.
. < Y
1
, Y
m
>
.
.
.
.
.
.
< Y
m
, Y
1
> < Y
m
, Y
m
>
_
_
_
_
1
.
Si K = (k
ij
)
i,j
, entonces
K = E(XY
t
)E(Y Y
t
)
1
como queramos probar.
Para calcular la covarianza error (que no la matriz de covarianzas del error

X X),
notemos que
E[(

X X)(

X X)
t
] = E[(

X X)

X
t
] E[(

X X)X
t
].
Pero

X X M
n
y, por tanto, E[(

X X)Y
t
] = 0. Entonces,
(15) E[(

X X)

X
t
] = E[(

X X)(KY )
t
] = E[(

X X)Y
t
]K
t
= 0
Luego
E[((

X X)(

X X)
t
] =E[(

X X)X
t
] =
= E(XX
t
) E(

XX
t
) =E(XX
t
) KE(Y X
t
)
39
Antes de demostrar el teorema de actualizacion estatica veamos un lema tecnico.
Lema 24. Sean X L
n
2
(, /, P), Y
2
L
m
2
(, /, P), M
1
un subespacio cerrado de
L
2
(, /, P) y M
2
el subespacio engendrado por las componentes de Y
2
. Denotemos por

X
1
la proyeccion de X sobre M
n
1
y por

Y
2
la proyeccion de Y
2
sobre M
m
1
, y hagamos

Y
2
= Y
2


Y
2
. Entonces, la proyeccion de X sobre (M
1
+M
2
)
n
viene dada por

X
2
=

X
1
+E(X

Y
t
2
)E(

Y
2

Y
t
2
)
1

Y
2
supuesto que la matriz E(

Y
2

Y
t
2
) es inversible.
Demostracion. Puesto que

Y
2
:= Y
2

Y
2
, se deduce que

Y
2
M
m
1
. Entonces

Y
2i
M
1
,
1 i m, donde

Y
2i
denota la componente iesima de

Y
2
. Sea

M
2
el subespacio vectorial
engendrado por las componentes de

Y
2
. Entonces

M
2
M
1
en L
2
(, /, P). Por tanto,

M
n
2
M
n
1
en L
n
2
(, /, P).
Por otra parte, puesto que

Y
2
= Y
2


Y
2
, cada componente de

Y
2
es la suma de un
vector de M
2
y otro de M
1
; as pues, cada vector en

M
2
es la suma de un vector de M
2
y
otro de M
1
, es decir,
(16)

M
2
M
1
+M
2
.
Ademas Y
2
=

Y
2
+

Y
2
y un argumento similar prueba que
(17) M
2
M
1
+

M
2
.
Sumando M
1
a cada miembro en (16) y (17) se obtiene
M
1
+M
2
= M
1
+

M
2
.
Entonces
(M
1
+M
2
)
n
= (M
1
+

M
2
)
n
= M
n
1
+

M
n
2
,
donde la ultima igualdad se sigue de que si x
1
, ..., x
n
M
1
e y
1
, ..., y
n


M
2
, (x
1
+
y
1
, ..., x
n
+y
n
) = (x
1
, ..., x
n
) + (y
1
, ..., y
n
) M
n
1
+

M
n
2
.
Puesto que

M
n
2
M
n
1
, la proyeccion de X sobre (M
1
+M
2
)
n
= M
n
1
+

M
n
2
, que es igual
a

X
2
, es la suma de la proyeccion de X sobre M
n
1
(que es

X
1
) mas la proyeccion de X
sobre

M
n
2
(que, por el teorema de GaussMarkov es igual a E(X

Y
t
2
)E(

Y
2

Y
t
2
)
1

Y
2
), lo que
acaba la prueba.
Nota: Se ha usado que si M y N son subespacios cerrados y m y n son las proyecciones
de X sobre M y N respectivamente, entonces, m+n es la proyeccion de X sobre M +N.
En efecto, dicha proyeccion existe pues M +N es un subespacio cerrado. Por otra parte,
si (x
k
) es una sucesion en M + N convergente a x entonces x
k
= m
k
+ n
k
(m
k
M,
n
k
N), para cada k N y
|x
k
x
k
|
2
= |m
k
m
k
|
2
+|n
k
n
k
|
2

k,k

0,
40
que prueba que (m
k
) converge a m M y (n
k
) converge a n N y x = m+n M +N.
Ademas, para cada m

M y n

N,
< X mn, m

+n

> =< X m, m

> + < X m, n

> < n, n

> < n, m

>
=< X m, n

> < n, n

>
=< X n, n

> < m, n

> .
Luego, m+n es la proyeccion de X sobre M +N.
Lema 25. (Teorema de actualizacion estatica) Supongamos que los vectores aleatorios
X e Y
2
estan relacionados por
Y
2
= HX +W
donde H es una matriz escalar m n y W un vector aleatorio tal que R = E(WW
t
)
es conocida. Ademas, supongamos que

X
1
es el estimador lineal de mnima varianza de
X basado en un vector aleatorio Y
1
tal que E(Y
1
Y
t
1
) es inversible, y que

X
1
y P
1
=
E[(X

X
1
)(X

X
1
)
t
] son conocidos. Supongamos en n que
E(XW
t
) = 0 y E(Y
1
W
t
) = 0.
Si Y =
_
Y
1
Y
2
_
, entonces el estimador lineal de mnima varianza

X
2
de X basado en Y
viene dado por

X
2
=

X
1
+P
1
H
t
(HP
1
H
t
+R)
1
(Y
2
H

X
1
),
si HP
1
H +R es inversible, y el nuevo error covarianza P
2
= E[(X

X
2
)(X

X
2
)
t
] viene
dado por
P
2
= P
1
P
1
H
t
[HP
1
H
t
+R]
1
HP
1
.
Demostracion. Sea M
1
el subespacio generado por las componentes de Y
1
. Por el teo-
rema de GaussMarkov, la proyeccion

Y
2
de Y
2
sobre M
m
1
viene dada por

Y
2
= E(Y
2
Y
t
1
)E(Y
1
Y
t
1
)
1
Y
1
.
Puesto que Y
2
= HX +W, se sigue que

Y
2
=E[(HX +W)Y
t
1
]E(Y
1
Y
t
1
)
1
Y
1
=[HE(XY
t
1
) +E(WY
t
1
)]E(Y
1
Y
t
1
)
1
Y
1
=HE(XY
t
1
)E(Y
1
Y
t
1
)
1
Y
1
;
entonces,

Y
2
= H

X
1
.
Hagamos

Y
2
= Y
2


Y
2
. Por el lema anterior,

X
2
=

X
1
+E(X

Y
t
2
)E(

Y
2

Y
t
2
)
1

Y
2
.
Puesto que

Y
2
= H

X
1
e Y
2
= HX +W, se tiene que

Y
2
= Y
2


Y
2
= H(X

X
1
) +W.
41
Entonces
E(X

Y
t
2
) =E[X(H(X

X
1
) +W)
t
]
=E[X(X

X
1
)
t
H
t
] +E(XW
t
)
=E[X(X

X
1
)
t
]H
t
.
Puesto que X

X
1
M
n
1
, se tiene que X
i


X
1i
M
1
, i. Pero

X
1j
M
1
, j. Luego
X
i


X
1i


X
1j
, i, j. Por tanto, E[

X
1
(X

X
1
)
t
] = 0. Se deduce que
E(X

Y
t
2
) = E[(X

X
1
)(X

X
1
)
t
]H
t
= P
1
H
t
.
Analogamente,
E(

Y
2

Y
t
2
) =E[(H(X

X
1
) +W)(H(X

X
1
) +W)
t
]
=HE[(X

X
1
)(X

X
1
)
t
]H
t
+HE[(X

X
1
)W
t
]
+E[W(X

X
1
)
t
]H
t
+E(WW
t
).
Ahora,

X
1
= KY
1
donde K es la matriz escalar del teorema de GaussMarkov. Entonces
0 = K 0 = KE(Y
1
W
t
) = E(KY
1
W
t
) = E(

X
1
W
t
).
Por hipotesis E(XW
t
) = 0. Entonces
E(

Y
2

Y
t
2
) = HP
1
H
t
+R.
Luego

X
2
=

X
1
+P
1
H
t
(HP
1
H
t
+R)
1
(Y
2
H

X
1
),
que es la primera parte del lema.
Denotemos M = (HP
1
H
t
+R)
1
. Notemos que M = M
t
. Entonces

X
2
=

X
1
+P
1
H
t
M(Y
2
H

X
1
)
y
P
2
=E[(X

X
2
)(X

X
2
)
t
]
=E[(X

X
1
P
1
H
t
M

Y
2
)(X

X
1
P
1
H
t
M

Y
2
)
t
]
=E[(X

X
1
)(X

X
1
)
t
] P
1
H
t
ME[

Y
2
(X

X
1
)
t
]
E[(X

X
1
)

Y
2
)
t
]MHP
1
+P
1
H
t
ME(

Y
2

Y
t
2
)MHP
1
=P
1
P
1
H
t
ME[(H(X

X
1
) +W)(X

X
1
)
t
]
E[(X

X
1
)(H(X

X
1
) +W)
t
]MHP
1
+PH
t
ME[

Y
2

Y
t
2
]MHP
1
=P
1
P
1
H
t
MHP
1
P
1
H
t
MHP
1
+P
1
H
t
MM
1
MHP
1
=P
1
2P
1
H
t
MHP
1
+P
1
H
t
MHP
1
=P
1
P
1
H
t
MHP
1
Luego
P
2
= P
1
P
1
H
t
(HP
1
H
t
+R)
1
HP
1
.
42
A partir de ahora consideraremos el modelo que denamos al comienzo de esta leccion.
El teorema que sigue proporciona formulas recursivas para el estimador lineal de mnimos
cuadrados de X(k) basado en las observaciones anteriores y la covarianza error producida
por dicha estimacion.
Teorema 26. (Kalman, 1960) Sean

X(k[j) la proyeccion de X(k) sobre M
n
j
, donde
M
j
es el subespacio de L
2
(, /, P) generado por las componentes de V (0), V (1), ..., V (j)
y
P(k[j) = E
_
_

X(k[j) X(k)
__

X(k[j) X(k)
_
t
_
.
Entonces, si K(k) es la matriz de ganancia de Kalman denida por
K(k + 1) = P(k + 1[k)H(k + 1)
t
_
H(k + 1)P(k + 1[k)H(k + 1)
t
+R(k + 1)

1
se verican las siguientes igualdades
(a)

X(k + 1[k + 1) = (k)

X(k[k) +K(k + 1)
_
V (k + 1) H(k + 1)(k)

X(k[k)
_
(b) P(k[k) = [I K(k)H(k)] P(k[k 1)
(c) P(k + 1[k) = (k)P(k[k)(k)
t
+Q(k), y
(d)

X(k + 1[k) = (k)

X(k[k) = (k)

X(k[k 1) +(k)K(k)
_
V (k) H(k)

X(k[k 1)
_
.
Demostracion. Denotemos Y
j
=
_
_
_
_
_
V (0)
V (1)
.
.
.
V (j)
_
_
_
_
_
. De acuerdo con el teorema de Gauss
Markov se tiene que

X(k[k) = E
_
X(k)Y
t
k
_
E
_
Y
k
Y
t
k
_
+
Y
k
.
Por hipotesis U(k) es ortogonal, para j k, a X(j) y a W(j) y, por tanto,
(18) E
_
U(k)Y
t
j

= 0, si j k.
Ahora bien, teniendo en cuenta la igualdad anterior,

X(k + 1[k) = E
_
X(k + 1)Y
t
k

E
_
Y
k
Y
t
k

+
Y
k
= E
_
((k)X(k) +U(k)) Y
t
k

E
_
Y
k
Y
t
k

+
Y
k
= (k)E
_
X(k)Y
t
k
_
E
_
Y
k
Y
t
k
_
+
Y
k
Luego,

X(k + 1[k) = (k)

X(k[k).
43
Por tanto,
P(k + 1[k) = E
_
_

X(k + 1[k) X(k + 1)
__

X(k + 1[k) X(k + 1)
_
t
_
= E
_
_
(k)
_

X(k[k) X(k)
_
U(k)
__
(k)
_

X(k[k) X(k)
_
U(k)
_
t
_
= (k)E
_
_

X(k[k) X(k)
__

X(k[k) X(k)
_
t
_
(k)
t
(k)E
__

X(k[k) X(k)
_
U(k)
t
_
E
_
U(k)
_

X(k[k) X(k)
_
t
_
(k)
t
+E
_
U(k)U(k)
t

= (k)P(k[k)(k)
t
+Q(k)
pues los dos terminos centrales son nulos por ser U(k) ortogonal a Y
j
para j k.
Esto prueba (c).
Aplicando el apartado (a) del teorema de actualizacion estatica (tomando Y
1
= Y
k
, Y
2
=
V (k+1), H = H(k+1), X = X(k+1), W = W(k+1), R = R(k+1),

X
1
=

X(k+1[k), P
1
=
P(k + 1[k)) se obtiene
(19)

X(k + 1[k + 1) =

X(k + 1[k) +K(k + 1)
_
V (k + 1) H(k + 1)

X(k + 1[k)
_
,
es decir, se verica el apartado (a).
Ademas, por el teorema de actualizacion estatica se tiene que
P(k + 1[k + 1) = P(k + 1[k) K(k + 1)H(k + 1)P(k + 1[k);
de aqu reemplazando k por k 1 se obtiene el apartado (b).
El apartado (d) se obtiene de (19) (reemplazando k por k 1) teniendo en cuenta que

X(k + 1[k) = (k)



X(k[k).
Observacion. Por induccion se prueba que

X(j +k[j) = (j +k 1)(j +k 2) (j + 1)



X(j + 1[j).
Captulo II
AN

ALISIS DE LAS TRAYECTORIAS DE PROCESOS


ESTOC

ASTICOS A TIEMPO CONTINUO


II.8. Separabilidad: Criterio de separabilidad. Condicion suciente para la continuidad
de las trayectorias de un proceso separable. Teorema de separabilidad.
II.9. Medibilidad: Procesos medibles y progresivamente medibles. Teorema de medibi-
lidad.
II.10. Analisis de las trayectorias en el movimiento browniano unidimensional:
Continuidad y diferenciabilidad de las trayectorias en el movimiento browniano.
II.11. Ley del logaritmo iterado: Aplicacion al movimiento browniano: Ley del
logaritmo iterado. Ley del logaritmo iterado para el movimiento browniano.
Referencias captulo II: Ash, Gardner (1975).
44
45
Lecci

on 8: Separabilidad.
En la leccion de introduccion veamos un ejemplo de dos procesos estocasticos con las
mismas distribuciones nitodimensionales uno de los cuales tena todas sus trayectorias
continuas y el otro, todas discontinuas. El estudio de las trayectorias es posible para
procesos con propiedades especiales como son las de separabilidad y medibilidad que se
introducen en este captulo.
El objetivo es, dado un proceso estocastico (X
t
)
tT
, encontrar otro proceso que sea
separable y medible y que tenga las mismas distribuciones nitodimensionales que el
anterior.
En lo que sigue todos los procesos estocasticos tendran espacio de estados (S, o), donde
S es un espacio metrico compacto y o es su algebra de Borel. El espacio temporal
sera un subconjunto de R (aunque todos los resultados siguen siendo ciertos si T es un
subconjunto de un espacio metrico separable). Utilizaremos indistintamente las notaciones
X
t
() o X(t, ) para denotar el valor de X
t
en .
Definici on. Un proceso estocastico (X
t
)
tT
se dice separable si existen un subconjun-
to denso y numerable T
0
T (llamado conjunto separante) y un suceso A de probabilidad
nula tales que si / A y t T existe una sucesion (t
n
)
nN
T
0
tal que t
n

n
t y
X(t
n
, )
n
X(t, ). Diremos tambien que (X
t
)
tT
es (T
0
, A)separable.
Observacion. Se pretende con esta denicion que el comportamiento de las trayectorias
en T quede determinado por su comportamiento en un conjunto numerable T
0
.
Teorema 27. (Criterio de separabilidad) Son equivalentes las proposiciones siguien-
tes:
(i) (X
t
)
tT
es separable.
(ii) Existen un conjunto denso y numerable T
0
T y un conjunto A de probabilidad
nula tales que para cada / A, cada compacto K S y cada intervalo I de R se
verica
[X(t, ) K, t T
o
I] = [X(t, ) K, t T I] .
Demostracion. (i)(ii). Sea / A y X(t, ) K, t T
0
I, entonces, t T I, por
la hipotesis de separabilidad, existira (t
n
)
n
T
0
I tal que t
n
t y X(t
n
, ) X(t, ).
Puesto que X(t
n
, ) K, n y K es cerrado, se tiene que X(t, ) K.
(ii) (i). Supongamos ahora que se verica (ii). Si el proceso no es (T
0
, A)separable,
existira / A y t T de forma que para cada sucesion (t
n
)
n
en T
0
convergente a t se
tiene que X(t
n
, ) no converge a X(t, ). Deben existir entonces un intervalo abierto I
que contiene a t y > 0 tales que d (X(t, ), X(t

, )) > , t

T
0
I (pues en otro caso,
I intervalo abierto, t tal que > 0, t

I
T
0
I tal que d (X(t, ), X(t

I
, )) , y
tomando I
n
=]t
1
n
, t +
1
n
[ obtendramos una sucesion t

n
T
0
I
n
-convergente entonces
a t- tal que d (X(t, ), X(t

n
, ))
1
n
, n, en contra de lo dicho). Sea K el compacto
K = y S : d(y, X(t, )) ,
entonces X(t

, ) K, t

T
0
I y, por hipotesis, X(t

, ) K, t

T
0
I y, en
particular, X(t, ) K, lo que es una contradiccion.
46
Corolario 28. Si (X
t
)
tT
es (T
0
, A)separable y f : S S es continua entonces
(f X
t
)
tT
es (T
0
, A)separable.
Demostracion. Consecuencia inmediata de la denicion (o del teorema anterior).
El comportamiento de una funcion continua en T queda determinado por sus valores en
un subconjunto denso y numerable T
0
de T y, por tanto, cabe esperar que un proceso con
trayectorias continuas sea separable.
Teorema 29. Si existe un suceso A de modo que, para / A, X(, ) es una fun-
cion continua en T, entonces (X
t
)
tT
es (T
0
, A)separable para cada subconjunto denso y
numerable T
0
de T.
Demostracion. Si / A y t T entonces, para cada sucesion (t
n
)
n
en T
0
convergente
a t se verica que X(t
n
, ) X(t, ).
Observacion. Si T es un intervalo de R, el mismo resultado se obtiene si reemplazamos
continuidad por continuidad a la derecha (teniendo en cuenta que si T tiene extremo
superior y, T
0
debe contener a y).
Bajo ciertas condiciones, T
0
puede ser un conjunto denso y numerable arbitrario.
Teorema 30. Sea (X
t
)
tT
un proceso real separable y continuo en probabilidad (i.e.,
X
t

tt
0
X
t
0
en probabilidad). Entonces cualquier subconjunto denso y numerable T
0
de
T sirve como conjunto separante.
Demostracion. Supongamos que (X
t
)
tT
es (T

0
, A)separable y sea T
0
un subconjunto
denso y numerable de T. Si t T, sea (t
n
)
n
una sucesion en T
0
convergente a t. Por
hipotesis, X
t
n
converge en probabilidad a X
t
y, por tanto, existe una subsucesion (X
t
n
k
)
k
convergente a X
t
c.s., digamos, existe A
t
suceso de probabilidad nula tal que
X
t
n
k
()
k
X
t
() si / A
t
.
Sea B = A A
t
: t T

0
y tomemos / B y t
0
T. Existe, por hipotesis, una sucesion
t

n
en T

0
convergente a t
0
tal que
X(t

n
, )
n
X(t
0
, ).
Puesto que / A
t

n
existe t

n
T
0
tal que [t

n
t

n
[ 1/n y [X(t

n
, ) X(t

n
, )[ 1/n.
Entonces (t

n
)
n
es una sucesion en T
0
convergente a t
0
y tal que
X(t

n
, )
n
X(t
0
, ).
Observaciones. 1) La L
2
continuidad de un proceso estocastico implica la continuidad
en probabilidad del mismo, es decir, que para todo > 0 y t T, P([X
t+h
X
t
[ > )
h0
0. Ello se sigue de la desigualdad de Chevyshev pues,
P([X
t+h
X
t
[ > )
1

2
|X
t+h
X
t
|
2
2
.
2) Si (f
n
)
n
es una sucesion de v.a.r. convergente en probabilidad a f entonces admite una
subsucesion convergente a f puntualmente.
47
Aplicamos ya la nocion de separabilidad al estudio de las trayectorias.
Lema 31. Sea (X
t
)
tT
un proceso (T
0
, A)separable. Sean / A y t
0
un punto de acu-
mulacion de T, y supongamos que existe lm
tt
0
,tT
0
X(t, ). Entonces existe lm
tt
0
,tT
X(t, )
y los dos lmites coinciden.
Demostracion. De no existir lm
tt
0
,tT
X(t, ) podramos encontrar sucesiones t
n

t
0
y t

n
t
0
y > 0 tales que d(X(t
n
, ), X(t

n
, )) , para cada n N (se prueba
sin dicultad que para que exista lm
tt
0
,tT
X(t, ) es necesario y suciente que > 0
exista > 0 de modo que si 0 < [t t
0
[ < , 0 < [t

t
0
[ < , t, t

T entonces
d(X(t, ), X(t

, )) < ; este es el llamado criterio de Cauchy y de el se sigue lo dicho).


Por la hipotesis de separabilidad podemos elegir, para cada n N puntos u
n
, u

n
T
0
tales que [u
n
t
n
[ < 1/n, [u

n
t

n
[ < 1/n y d(X(t

n
, ), X(u

n
, )) < 1/n.
Se sigue de ello que u
n
, u

n

n
t
0
y, para n grande,
d(X(u
n
, ), X(u

n
, ))
d(X(t
n
, ), X(t

n
, )) d(X(t
n
, ), X(u
n
, )) d(X(t

n
, ), X(u

n
, ))

2
n
>

2
en contra de que existe lm
tt
0
,tT
0
X(t, ). Siendo T
0
denso podemos elegir una sucesion
(t
n
)
n
en T
0
convergente a t
0
, lo que prueba que ambos lmites coinciden.
El siguiente teorema establece una condicion suciente para garantizar la continuidad de
casi todas las trayectorias de un proceso separable. Lo utilizaremos en particular para
probar la continuidad de las trayectorias de un movimiento browniano separable.
Teorema 32. Sea (X
t
)
atb
un proceso separable. Supongamos que existen n umeros
reales r, c, > 0 de forma que, si h > 0 es sucientemente peque no, entonces
E[[X
t+h
X
t
[
r
] ch
1+h
, t [a, b] tal que t +h [a, b].
Entonces casi todas las trayectorias son continuas; en otras palabras, para casi todo ,
X(, ) es continua en [a, b].
Demostracion. Sin perdida de generalidad podemos suponer a = 0 y b = 1 (en otro
caso trabajese con el proceso Y
t
= X
a+(ba)t
). Tomemos un n umero positivo K tal que
rK > 0. Entonces, se sigue de la desigualdad de Chebyshev que
(20) P[[X
t+h
X
t
[ > h
K
]
1
h
rK
E[[X
t+h
X
t
[
r
] ch
1+rK

h0
0.
En particular el proceso es continuo en probabilidad.
Un resultado anterior nos permite utilizar como conjunto separante T
0
cualquier sub-
conjunto denso y numerable de [0, 1]. Tomaremos como T
0
los racionales diadicos:
T
0
=
j
2
n
: 0 j 2
n
; n = 1, 2, ....
48
Notese que
P
_
max
0j2
n
1

Xj+1
2
n
X j
2
n

2
nK
_

2
n
1

j=0
P
_

Xj+1
2
n
X j
2
n

2
nK
_

2
n
c2
n(1+rK)
= c2
n(rK)
.
Para cada n N, sea
A
n
=
_
max
0j2
n
1

Xj+1
2
n
X j
2
n

2
nK
_
.
Entonces

n=1
P(A
n
) < + y por el lema de BorelCantelli
4
, P(B) = 0 siendo B =
lmsupA
n
(:=
nN

in
A
i
).
As pues, si / B entonces existe un N() tal que si n N() entonces

Xj+1
2
n
() X j
2
n
()

<
1
2
nk
, j = 0, 1, ..., 2
n
1. (21)
Fijemos / B, n N() y sea s un racional diadico en el intervalo
_
j
2
n
,
j+1
2
n
_
. Entonces
s admite una representacion de la forma
s =
j
2
n
+
a
1
2
n+1
+ +
a
m
2
n+m
con a
1
, ..., a
m
0, 1.
Para r = 0, ..., m hagamos
b
r
=
j
2
n
+
a
1
2
n+1
+ +
a
r
2
n+r
(b
o
=
j
2
n
, b
m
= s).
Entonces

X(s, ) X(
j
2
n
, )


m1

r=0

X
b
r+1
() X
b
r
()

.
Notese que [b
r
, b
r+1
[= si a
r+1
= 0 y
[b
r
, b
r+1
[=
_
l
2
n+r+1
,
l + 1
2
n+r+1
_
, (para alg un l 0, 1, ..., 2
n+r+1
1)
si a
r+1
= 1. Se deduce de (21) que

X(s, ) X(
j
2
n
, )


m1

r=0
2
(n+r+1)K
(22)
2
nK

r=0
2
(r+1)K
M2
nK
(23)
4
Lema de BorelCantelli: Sean (, A, P) un espacio de probabilidad y (A
n
)
n
una coleccion de sucesos
de A. Si

n
P(A
n
) < , entonces, P(lmsup
n
A
n
) = 0. En el caso de que

n
P(A
n
) = se obtiene
que P(lmsup
n
A
n
) = 1
49
para una cierta constante M que tomaremos 1.
Dado > 0 tomemos N
1
N tal que M2
nK
< /3 si n N
1
, puesto que M 1 se
tiene ademas que 2
nK
< /3 si n N
1
. Si t
1
, t
2
T
0
y [t
1
t
2
[ < mn(2
N
1
, 2
N()
),
entonces a lo mas un racional diadico de rango n = maxN
1
, N() (es decir, de la forma
j/2
n
, 0 j 2
n
) puede estar entre t
1
y t
2
y entonces, se sigue de (21) y de (22) que
[X(t
1
, ) X(t
2
, )[ < .
En efecto, pueden ocurrir para alg un j 0, 1, ..., 2
n
1 uno de los dos casos siguientes:
j
2
n
< t
1
<
j + 1
2
n
< t
2
o
j
2
n
< t
1
< t
2
<
j + 1
2
n
;
en el primero de ellos,
[X(t
1
, ) X(t
2
, )[
[X(t
1
, ) X(
j
2
n
, )[ +[X(
j
2
n
, ) X(
j + 1
2
n
, )[ +[X(
j + 1
2
n
, ) X(t
2
, )[ <

3
+

3
+

3
=
y en el segundo caso,
[X(t
1
, ) X(t
2
, )[ [X(t
1
, ) X(
j
2
n
, )[ +[X(t
2
, ) X(
j
2
n
, )[ < .
Queda as probado que casi todas las trayectorias son uniformemente continuas en T
0
y, por tanto, tienen una extension continua a T = [0, 1]. El lema anterior y la hipotesis
de separabilidad prueban que esa extension debe coincidir con la trayectoria original; en
efecto, si t
0
T y / AB entonces lm
tt
0
,tT
0
X(t, ) = f

(t
0
) donde f

es la extension
continua mencionada; por el lema, existe tambien lm
tt
0
,tT
X(t, ) y coincide con f

(t
0
);
por la hipotesis de separabilidad existe una sucesion(t
n
)
n
en T
0
convergente a t
0
tal que
X(t
n
, ) converge a X(t
0
, ) y, entonces,
[f

(t
0
) X(t
0
, )[ [X(t
0
, ) X(t
n
, )[ +[X(t
n
, ) f

(t
0
)[
n
0.
Luego lm
tt
0
,tT
X(t, ) = X(t
0
, ).
As pues, casi todas las trayectorias son continuas en [0, 1].
Observacion. Una propiedad basica de los procesos separables es que muchos conjuntos
en cuya denicion interviene una cantidad no numerable de valores de t son medibles. Por
ejemplo, si (X
t
)
tT
es separable entonces : X(, ) es continua en t
0
, t
0
T
0
,
y : X(, ) es uniformemente continua en T son medibles, es decir, estan en la
complecion de / respecto a P. En efecto: si el proceso es (T
0
, A)separable, entonces
: X(, ) es continua en t
0
=

n=1

_
m=1

tT
0
,|tt
0
|<1/m
/ A : d(X(t, ), X(t
0
, )) < 1/n
50
y
: X(, ) es uniformemente continua en T =

n=1

_
m=1

t
1
,t
2
T
0
,|t
1
t
2
|<1/m
/ A : d(X(t
1
, ), X(t
2
, )) < 1/n .
Si B entonces
: d(X(t
1
, ), X(t
2
, )) B = : (X(t
1
, ), X(t
2
, )) d
1
(B) /
por continuidad de d. Puesto que que A : X(, ) es continua en t
0
A y P(A) =
0, el resultado se sigue. Debe notarse tambien que esos conjuntos no estan en general en
la algebra
T
que proporciona el teorema de Kolmogorov.
En muchas ocasiones el proceso (X
t
)
tT
se construye por medio de sus distribuciones
nitodimensionales aplicando el teorema de extension de Kolmogorov. A pesar de que
(X
t
)
tT
no es necesariamente separable, probaremos a continuacion que siempre existe un
proceso (Y
t
)
tT
separable denido en el mismo espacio de probabilidad que (X
t
)
tT
y que
es una modicacion del mismo, es decir, para cada t T, X
t
= Y
t
, Pc.s.. En particular,
ambos procesos tienen las mismas distribuciones nitodimensionales.
Teorema 33. (de separabilidad) Sea (X
t
)
tT
un proceso estocastico con espacio de
estados (S, o), donde S es un espacio metrico compacto y o = B(S). Supongamos que
T R (o, mas generalmente, que T es un subconjunto de un espacio metrico separable).
Entonces existe una modicacion separable de (X
t
)
tT
.
Demostracion. Dividiremos la demostracion en tres partes.
a)Veremos en primer lugar que existe un subconjunto numerable T
0
en T y, para
cada t T, un conjunto A
t
de probabilidad nula tal que si / A
t
entonces X(t, )
X(t

, ) : t

T
0
.
En efecto, puesto que S admite una base numerable de abiertos, cada cerrado (i.e.,
compacto) de S es interseccion numerable de complementarios de abiertos de la base,
es decir, existe una sucesion (K
n
)
n
de compactos en S tal que cada compacto de S es
interseccion de ciertos K

n
s. Sea

n
= nf
t
1
,...,t
r
T,r=1,2,...
PX
t
i
K
n
, 1 i r.
Considerando una sucesion de aproximaciones al nmo
n
y tomando la union de los
correspondientes conjuntos t
1
, ..., t
r
obtenemos un subconjunto numerable T
n
de T de
modo que

n
= P(X
t
K
n
, t T
n
).
Fijemos t T y hagamos A
n
(t) = X
t
K
n
, t

T
n
; X
t
/ K
n
. Entonces P(A
n
(t)) = 0
pues, si no,
P(X
t
K
n
, t

T
n
) > P(X
t
K
n
, t

T
n
; X
t
K
n
)
y podramos reemplazar T
n
por T
n
t para contradecir que
n
es el nmo
Por denicion de A
n
(t), si / A
n
(t), entonces
[X(t

, ) K
n
, t

T] = [X(t, ) K
n
]. (24)
51
Sean A
t
=

n=1
A
n
(t) y T
0
=

n=1
T
n
. Si K es unn compacto de S y / A
t
entonces se
verica
[X(t

, ) K, t

T
0
] = [X(t, ) K
n
]. (25)
En efecto, escribamos K =

j=1
K
n
j
, si / A
t
y X(t

, ) K para cada t

T
0
entonces
X(t

, ) K
n
j
, t

T
0
y, por (24), X(t, ) K
n
j
, y siendo eso cierto para cada j N se
tiene que X(t, ) K. Finalmente, si / A
t
, hagamos K = X(t

, ) : t? T
0
. Entonces
X(t

, ) K, t

T
0
y, por (25), X(t, ) K.
b) Probemos ahora que el proceso (X
t
)
tT
es separable si y solo si existen un suceso
A de probabilidad nula y un subconjunto denso y numerable T
0
de T tal que si / A
entonces
(t, X(t, )) : t T I (t

, X(t

, )) : t

T
0
I
para cada intervalo abierto I de R.
Supongamos que se verica esta ultima condicion y veamos que el proceso es entonces
separable. Para ello tomemos un compacto K en S, un intervalo abierto I de R y un / A
tales que X(t

, ) K, t

T
0
I. Entonces
(t, X(t, )) : t T I (t

, X(t

, )) : t

T
0
I
I K = I K = I K
y, por tanto, X(t, ) K, t T I; el criterio de separabilidad (teorema 27) prueba que
el proceso es separable.
Recprocamente, supongamos que el proceso es (T
0
, A)separable; tomemos un inter-
valo abierto I de R y un punto t T I tal que t / T
0
(si t T
0
no hay nada que
probar). Si / A podemos encontrar una sucesion de puntos t
n
T
0
I tal que t
n
T
y X(t
n
, ) X(t, ). Entonces
(t
n
, X(t
n
, ))
n
(t, X(t, )).
Consecuentemente, (t, X(t, )) (t

, X(t

, ) : t

T
0
I.
c) (Demostracion del teorema de separabilidad). Debemos encontrar una modicacion
separable de (X
t
)
tT
.
Sea J un intervalo con extremos racionales. Por a) existen un conjunto numerable
T(J) T J y sucesos A
t
(J) de probabilidad nula para cada t T J tales que
si / A
t
(J) entonces X(t, ) X(t

, ) : t

T(J). (Si T es un subconjunto de un


espacio metrico separable tomese un subconjunto denso y numerable D y como conjuntos
J las bolas abiertas centradas en Dy con radio racional) Hagamos
A
t
=
tJ
A
t
(J), T

0
=
J
T(J)
y sea T
0
la union de T

0
y un conjunto denso y numerable jo de T. As, T
0
tambien es
denso y numerable en T.
Ahora bien, si t T J y / A
t
entonces / A
t
(J) y, por tanto,
X(t, ) X(t

, ) : t

T(J) X(t

, ) : t

T
0
J =: K(J, ). (26)
Entonces, si t T y / A
t
se tiene X(t, ) K(J, ), t J y, por tanto,
X(t, )
tJ
K(J, ) =: K(t, );
52
K(t, ) es un compacto no vaco (Si / A
t
entonces X(t, ) K(t, ) y K(t, ) es enton-
ces no vaco. Por otra parte, si A
t
y = K(t, ) =
tJ
K(J, ) =
tJ
X(t

, ) : t

T
0
J
entonces existen J
1
, ..., J
n
tales que t J
i
, 1 i n, y
n
i=1
K(J
i
, ) = -por compacidad-
en contra de que K(
n
i=1
J
i
, ) =
n
i=1
K(J
i
, )).
Se dene un nuevo proceso (Y
t
)
tT
como sigue. Si / A
t
entonces Y
t
() := X
t
().
Si A
t
, sea Y
t
() un punto cualquiera de K(t, ). Puesto que P(A
t
) = 0, t, (Y
t
)
tT
es una modicacion de (X
t
)
tT
(notese que Y
t
es Pmedible, es decir, medible respecto
a la complecion de / respecto de P). Hagamos A =
tT
0
A
t
. Para probar que (Y
t
)
tT
es (T
0
, A)separable utilizaremos el apartado b) de la demostracion. Sean / A e I un
intervalo abierto tal que t T I. Entonces existe un intervalo J con extremos racionales
contenido en I tal que t T J. Si / A
t
entonces
Y (t, ) = X(t, ) K(J, ) = X(t

, ) : t

T
0
J
X(t

, ) : t

T
0
I = Y (t

, ) : t

T
0
I
pues / A
t
si t

T
0
. Si A
t
entonces
Y (t, ) K(t, ) K(J, ) Y (t

, ) : t

T
0
I
como antes. Puesto que t t

: t

T
0
I se sigue que
(t, Y (t, )) : t T I Y (t

, ) : t

T
0
I
lo que acaba la prueba.
Observacion. Si el proceso (X
t
)
tT
, mas que a valores en un compacto, es Rvalorado,
podemos tomar como S el espacio metrico compacto R. As, la modicacion (Y
t
)
tT
puede
tomar ocasionalmente los valores + y . No obstante, puesto que para cada t T se
tiene X
t
= Y
t
, Pc.s., Y
t
es nita c.s., a t jo.
Lecci

on 9: Medibilidad.
En esta leccion estudiamos la nocion de medibilidad. Para situar el problema, suponga-
mos que (X
t
)
tI
, I intervalo de R, es un proceso estocastico real; nos preguntamos si las
trayectorias son (casi todas) Lebesgue integrables en I. Utilizando el teorema de Fubini
se tiene
_

_
I
[X(t, )[dtdP() =
_
I
_

[X
t
()[dP(dt =
_
I
E[[X
t
[]dt.
As, si
_
I
E[[X
t
[]dt < +entonces
_
I
[X
t
()[dt es nita para casi todo , como queramos.
La dicultad de este argumento estriba en que para aplicar el teorema de Fubini necesi-
tamos que X(t, ) sea medible en ambas variables.
El problema consiste en construir una modicacion medible del proceso dado, conser-
vando la separabilidad si es posible.
Para este problema consideramos por simplicidad procesos Rvalorados en los que
T = [0, +[. Ademas, con un peque no esfuerzo adicional, desarrollaremos una propiedad
algo mas fuerte como es la de medibilidad progresiva, util en teora de procesos de Markov.
Definici on. (Procesos medibles y progresivamente medibles) Sea (X
t
)
t0
un proceso
estocastico que supondremos adaptado a la familia (/
t
)
t0
de subalgebras de / en
el sentido de que /
s
/
t
si s < t y que X
t
es /
t
medible, t. Si no se especican
explcitamente las /
t
tomaremos /
t
:= (X
s
: s t), es decir, la mas peque na algebra
que hace medibles las v.a. X
s
, s t. El proceso se dice progresivamente medible si para
cada t > 0 la aplicacion
(s, ) [0, t] X(s, ) R
es B[0, t] /
t
medible. El proceso se dice medible si la aplicacion
(s, ) [0, +[ X(s, ) R
es B[0, +[/
t
medible.
Observaciones. !) Un proceso progresivamente medible es medible. En efecto, si B
entonces
(s, ) : X(s, ) B =

n=0
(s, ) : 0 s n, X(s, ) B
y (s, ) : 0 s n, X(s, ) B B[0, n]/
n
. Puesto que B[0, n]/
n
B[0, +]/
queda probada la armacion.
2) Las trayectorias de un proceso medible son medibles. Ademas, el teorema de Fu-
bini prueba que si
_
T
E[[X
t
[]dt < + entonces casi todas las trayectorias son Lebesgue
integrables en T.
A diferencia del teorema de separabilidad, el de medibilidad progresiva requiere la hipotesis
adicional de continuidad con probabilidad, hipotesis que la verica, por ejemplo, un L
2

proceso con media y funcion de covarianzas continua.


Teorema 34. Sea (X
t
)
t0
un proceso estocastico real adaptado a la familia (/
t
)
t0
de subalgebras de /. Si el proceso es continuo en probabilidad, existe una modicacion
(Y
t
)
t0
de (X
t
)
t0
adaptada tambien a la familia (/
t
)
t0
y que es progresivamente medible.
53
54
Probaremos antes un lema que introduce una metrica correspondiente a la convergencia
en probabilidad.
Lema 35. Sea g : [0, +[ [0, +[ una funcion medible, acotada, creciente, continua
en 0 y tal que g(x + y) g(x) + g(y), para cada x, y 0, g(0) = 0 y g(x) > 0 si x > 0.
(Por ejemplo, g(x) = x/(1 + x) o g(x) = mn(1, x)). Si X e Y son v.a.r. en (, /, P) se
dene
d(X, Y ) = E[g([X Y [)].
Entonces d es una metrica en el espacio M de las v.a.r. en (, /, P) si identicamos
funciones en M que coinciden c.s.. Ademas, la dconvergencia equivale a la convergencia
en probabilida.
Demostracion. Es sencillo ver que d es una metrica. Por otra parte, si > 0 y X M
entonces
P ([X[ ) P (g([X[) g())
1
g()
E[g([X[)].
Puesto que g() > 0 si > 0, la dconvergencia implica convergencia en probabilidad.
Ademas
E[g([X[)] =
_
{|X|<}
g([X[)dP +
_
{|X|}
g([X[)dP g() + (sup[g[)P([X[ ).
Siendo g acotada y g()
0
g(0) = 0, la convergencia en probabilidad implica la
dconvergencia.
Demostracion. (Teorema) Sea M el espacio de las v.a.r. en (, /, P) -identicando
funciones que coinciden Pc.s.- provisto de la metrica
d(X, Y ) = E[mn([X Y [, 1)];
como sabemos, dconvergencia equivale a convergencia en probabilidad. Por la hipotesis
de continuidad en probabilidad, la aplicacion
t [0, +[ X
t
M
es continua. Para cada entero positivo n, esa aplicacion es uniformemente continua en
[0, n] y, por tanto, existe
n
> 0 tal que si t, t

[0, n] y [t t

[
n
entonces
d(X
t
, X
t
) 2
n
.
Podemos suponer que (
n
)
n
es una sucesion decreciente a 0. Construyamos para cada
n N una particion
0 = t
(n)
0
< t
(n)
1
< < t
(n)
a
n
= n
de [0, n] de modo que
max
0ja
n
1
[t
(n)
j+1
t
(n)
j
[
n
.
Supondremos que t
(n)
j
: 0 j a
n
t
(n+1)
j
: 0 j a
n+1
. Para n N se dene
X
n
(t) =
_
X
t
(n)
j1
si t
(n)
j1
t t
(n)
j
, 1 j a
n
X
n
si t n
El resto de la demostracion se divide en varias etapas:
55
(a) Veamos, en primer lugar, que
d(X
n
(t), X
n+1
(t)) 2
n
, t < n.
En efecto, si t < n entonces existen enteros j, k tales que t
(n)
j1
t < t
(n)
j
y t
(n+1)
k1

t < t
(n+1)
k
.
Necesariamente [t
(n)
j1
t
(n+1)
k1
[
n
de donde se sigue el resultado.
(b) Para cada t 0, X
n
(t) converge Pc.s.. Para probarlo escribamos
P
_
[X
n
(t) X
n+1
(t)[ n
2
_
= P
_
[X
n
(t) X
n+1
(t)[ 1 n
2
_
n
2
d(X
n
(t), X
n+1
(t))
n
2
2
n
, si n > t por (a).
(la primera desigualdad es debida a la desigualdad de Chebyshev). Puesto que

n
2
2
n
< + el lema de BorelCantelli prueba que
P
_

nn

kn
_
[X
k
(t) X
k+1
(t)[ <
1
k
2
__
= 1,
es decir, con probabilidad 1 se verica que [X
n
(t) X
n+1
(t)[ <
1
n
2
si n es grande; se
sigue de ah que, para casi todo , (X
n
(t)())
n
es de Cauchy y, entonces, convergente.
(c) La aplicacion
(s, ) [0, t] X
n
(s)( := X
n
(s, ) R
es B[0, t] /
t
medible si n > t. n efecto, podemos escribir
X
n
(s, ) =
a
n

j=1
X
t
(n)
j1
()I
[t
(n)
j1
,t
(n)
j
[
(s, ) +X
n
()I
[n,+[
(s, ).
Restringiendo X
n
(, ) a [0, t], la suma anterior queda truncada siendo el ultimo
sumando
X
t
(n)
j1
()I
[t
(n)
j1
,t]
(s, )
si t
(n)
j1
t < t
(n)
j
. Puesto que X
t
(n)
j1
() (como funcion de ) es /
t
(n)
j1
/
t
medible,
queda probada nuestra armacion.
(d) Se dene
Y (t, ) = lmsup
n
X
n
(t, ), , t 0.
Entonces (Y
t
)
t0
es una modicacion de (X
t
)
t0
.
En efecto, dados t 0 y n N (n > t) existe j
n
1, ..., a
n
tal que t
(n)
j
n
1
t <
t
(n)
j
n
. Es claro que t
(n)
j
n
1

n
t y, por hipotesis, X
n
(t) = X
t
(n)
j
n
1

n
X
t
en
probabilidad. Por otra parte, se sigue de (b) que X
n
(t) converge Pc.s. y el lmite
c.s. no puede ser otro que Y
t
. Puesto que la convergencia en probabilidad implica la
convergencia puntual de una subsucesion, se sigue que Y
t
= X
t
, Pc.s. (notese que
Y
t
puede tomar los valores ).
56
(e) Veamos que (Y
t
)
t0
es progresivamente medible.
Se sigue de (c) y de la denicion de Y
t
que la aplicacion
(s, ) [0, t] Y (s, ) R
es lmite superior de funciones B[0, t] /
t
medibles.
(f) Se tiene que el proceso (Y
t
)
t0
es separable.
Sea T
0
= t
(n)
j
: j = 1, 2, ..., a
n
, n = 1, 2, .... Entonces Y (t, ) = lmsup
n
x
n(t, ) y, para t jo y n grande, X
n
(t, ) = X(t
(n)
j1
, ) para alg un j = j(n), donde
t
(n)
j1
t < t
(n)
j
. Por denicion de Y (t, ), existe una sucesion creciente n
k
en N tal
que
X(t
(n
k
)
j(n
k
)1
, )
n
Y (t, ).
Pero X(t
(n
k
)
j(n
k
)1
, ) = Y (t
(n
k
)
j(n
k
)1
, ), pues si s es uno de los puntos de una particion
(lo es entonces tambien de todas las siguientes) entonces X
n
(s) = X
s
para n grande
y, por tanto, Y
s
= X
s
. Puesto que t
(n
k
)
j(n
k
)1

k
t, la condicion de separabilidad
se verica (el conjunto nulo A es, en este caso, el vaco).
Lecci

on 10: An

alisis de las trayectorias en un movimiento


browniano.
En esta leccion analizaremos el movimiento browniano unidimensional es decir, un proceso
estocastico (B
t
)
t0
gaussiano con media 0 y funcion de covarianzas K(s, t) =
2
mn(s, t).
En lecciones anteriores veamos que el movimiento browniano puede verse como lmi-
te de recorridos aleatorios cuando el tama no de cada salto tiende a 0. Sin embargo, el
movimiento browniano tiene muchas propiedades que no posee el recorrido aleatorio.
Por el teorema de separabilidad, existe una version separable del movimiento brow-
niano. Restringiremos nuestra atencion a esta ultima. A partir de ahora, (B
t
)
t0
sera un
movimiento browniano separable y utilizaremos indistintamente las notaciones B
t
() y
B(t, ) para el valor de B
t
en .
Antes de empezar n a estudiar las trayectorias de (B
t
)
t0
, recordemos que una v.a. real
X denida en un espacio de probabilidad (, /, P) se dice simetrica si para cada A
se tiene que P(X A) = P(X A), es decir, si P
X
= P
X
. La siguiente proposicion
muestra una caracterizacion de las v.a. simetricas.
Proposici on 36. Sea X una v.a.r. denida en un espacio de probabilidad (, /, P).
Entonces X es simetrica si y solo si su funcion caracterstica
X
es Rvalorada.
Demostracion. Si
X
es Rvalorada entonces

X
(t) = E(e
itX
) = E(e
itX
)
X
(t) =
X
(t).
Luego X y X tienen la misma distribucion y entonces para cada B , P(X B) =
P(X B), es decir, X es simetrica.
Recprocamente, si P
X
= P
X
y g es una funcion impar P
X
integrable entonces
_
R
g(x)dP
X
(x) =
_

g(X())dP() =
_

g(X())dP() =
_
R
g(x)dP
X
(x)
con lo cual
_
R
g(x)dP
X
(x) = 0. Tomando g(x) = sentx se tiene

X
(t) = E(cos tx +isentx) = E(cos tx) R.
El siguiente teorema prueba que casi todas las trayectorias del movimiento browniano
(B
t
)
t0
son continuas.
Teorema 37. Para casi todo , B(, ) es continua en [0, ).
Demostracion. Puesto que B
t+h
B
t
tiene distribucion normal con media 0 y varianza

2
h, se tiene
E[[B
t+h
B
t
[
r
] = E
_

B
t+h
B
t

r
_

r
h
r/2
= ch
r/2
,
donde c =
r
E[[Z[
r
], siendo Z una v.a. con distribucion normal N(0, 1). Por el teorema
32 (tomando r como un n umero mayor que 2) aplicado a cada intervalo de la forma [0, n],
con n un n umero entero positivo, se tiene que para casi todo , B(, ) es continua en
[0, n]. Siendo n arbitrario, se verica que, para casi todo , B(, ) es continua en [0, ).
57
58
Los teoremas que veremos a continuacion son la llave de muchas propiedades de las tra-
yectorias del movimiento browniano.
Teorema 38. Dado a > 0 se verica que
P
_
max
0st
B
s
> a
_
= 2PB
t
> a.
Demostracion. Para la demostracion de este resultado nos basaremos en la igualdad
P
_
max
0st
B
s
> a, B
t
> a
_
= P
_
max
0st
B
s
> a, B
t
< a
_
que probaremos posteriormente. Teniendo en cuenta que la distribucion de B
t
es absoluta-
mente continua y que, por tanto P(B
t
= a) = 0, se tiene que la suma de los dos miembros
de la igualdad anterior es P max
0st
B
s
> a y, por tanto,
P
_
max
0st
B
s
> a, B
t
> a
_
=
1
2
P
_
max
0st
B
s
> a
_
.
Puesto que
_
max
0st
B
s
> a, B
t
> a
_
= B
t
> a
se tiene que
P
_
max
0st
B
s
> a
_
= 2PB
t
> a.
Los dos siguientes resultados proporcionan caracterizaciones de las trayectorias del movi-
miento browniano en entornos de innito y de 0. Concretamente, el primero de ellos prueba
que, en un entorno de innito, las trayectorias son no acotadas superior ni inferiormente
y tienen siempre una raz tan proxima a innito como queramos. En el segundo teorema
se prueba que, en un entorno de cero, las trayectorias son acotadas y tienen una raz tan
proxima a cero como queramos.
Teorema 39.
P
_
sup
t0
B
t
= +
_
= P
_
nf
t0
B
t
=
_
= 1.
Como consecuencia de ello, para casi todo , B(, ) es no acotada y tiene un cero en
[M, ), para cada M > 0.
Demostracion. Si a > 0 se tiene que
P
_
sup
t0
B
t
> a
_
P
_
sup
0st
B
s
> a
_
P
_
max
0st
B
s
> a
_
= 2PB
t
> a
pues siendo B(, ) continua, para casi todo , en el compacto [0, t] se alcanza el supremo
en alg un punto de ese compacto y, por tanto, coincide con el maximo. Ahora bien, como
B
t
sigue una distribucion normal N(0,
2
t),
P[B
t
> a] = P
_
B
t

t
> a
_
= 1 F

_
a

t
_
59
siendo F

la funcion de distribucion de la distribucion normal N(0, 1). Siendo a > 0 y por


la continuidad por la derecha de F

, se tiene que, cuando t , F

(a/(

t)) tiende a
F

(0) = 1/2.
De todo lo anterior se deduce que
P
_
sup
t0
B
t
> a
_
= 1
y, por tanto,
P
_
sup
t0
B
t
= +
_
= P
_

a=1
_
sup
t0
B
t
> a
_
_
= lm
a
P
_
sup
t0
B
t
> a
_
= 1.
Por otra parte,
P
_
nf
t0
B
t
=
_
= P
_
sup
t0
(B
t
) = +
_
= 1
pues (B
t
)
t0
es tambien un movimiento browniano separable.
Veamos ahora la consecuencia. Que, para casi todo , B(, ) no esta acotada es trivial.
Veamos entonces que, con probabilidad 1, para cada M > 0, B(, ) tiene un cero en
[M, ). Supongamos que no, es decir, que existe un suceso A probabilidad mayor que
cero tal que, si A, B(, ) no tiene ning un cero en [M, ). En ese caso, sucedera
que, para casi todo de A, B(, ) tiene un cero en [0, M] (pues, siendo el nmo y el
supremo y + respectivamente, y las trayectorias casi todas continuas, estas tienen
que cortar al eje de abcisas). Ademas para casi todo de A, la trayectoria de es continua
y, por tanto, acotada sobre el compacto [0, M]. Puesto que, para todo A, tiene que
suceder que B(t, ) > 0, t [M, ) o bien que B(t, ) < 0, t [M, ) y que, como
acabamos de probar, la trayectoria de es acotada en [0, M], tendra que suceder que
P [nf
t0
B
t
= ] < 1 o bien que P
_
sup
t0
B
t
= +

< 1 en contra de la tesis del


teorema.
Teorema 40. Si h > 0, entonces
P
_
max
0sh
B
s
> 0
_
= P
_
mn
0sh
B
s
< 0
_
= 1.
Como consecuencia de ello, para casi todo , B(, ) tiene un cero en (0, h], para todo
h > 0.
Demostracion. Por el teorema 38 se tiene que, si a > 0
P
_
max
0sh
B
s
> 0
_
P
_
max
0sh
B
s
> a
_
= 2P[B
h
> a] = 2[1 F

(a/(

h)]
a0
+ 1
donde F

denota la funcion de distribucion de la distribucion normal N(0, 1).


Luego,
P
_
max
0sh
B
s
> 0
_
= 1.
60
De forma analoga que en el teorema anterior, teniendo en cuenta que (B
t
)
t0
es un
movimiento browniano separable, se tiene que
P
_
mn
0sh
B
s
< 0
_
= P
_
max
0sh
(B
s
) > 0
_
= 1.
Para la consecuencia, se tiene que
P
_
max
0sh
B
s
> 0, h > 0
_
= P
_

n=1
_
max
0sh
B
s
> 0
_
_
= lm
n
P
_
max
0sh
B
s
> 0
_
= 1.
Ademas,
P
_
mn
0sh
B
s
< 0, h > 0
_
= P
_

n=1
_
mn
0sh
B
s
< 0
_
_
= lm
n
P
_
mn
0sh
B
s
< 0
_
= 1.
Ahora bien, puesto que B(, ) es continua, para casi todo , en [0, ) y, en particular en
[0, h], por las igualdades probadas anteriormente, nos damos cuenta que B(, ) tiene que
tomar valores positivos y negativos en [0, h] para casi todo y, por el teorema de Bolzano,
para casi todo , B(, ) tiene, al menos, un cero en (0, h], para cada h > 0.
El siguiente teorema prueba que las trayectorias del movimiento browniano (B
t
)
t0
no son
diferenciables par casi ninguna observacion.
Teorema 41. Para casi todo , la trayectoria B(, ) no es diferenciable en ning un
punto. Concretamente, si
D = : B(t, ) es diferenciable para al menos un t [0, )
entonces D esta incluido en un suceso de probabilidad nula.
Demostracion. Fijemos un constante k > 0 y denimos el conjunto
A = A(k) =
_
: lmsup
[B(t +h, ) B(t, )[
h
< k para al menos un t [0, 1)
_
.
Si A, entonces existe un t [0, 1) tal que
lmsup
[B(t +h, ) B(t, )[
h
< k
y, por tanto, la trayectoria B(, ) se encuentra, en un entorno de t, en el abanicode
pendiente k que sale de B(t, ). Podemos tomar un entero positivo m y un j 1, ..., m
tales que (j 1)/m t < j/m de tal forma que si t s (j +3)/m entonces B(s, ) caiga
dentro del abanico anteriormente se nalado. As, si A = A(k) entonces se verican
1.

B
_
j + 1
m
,
_
B
_
j
m
,
_


3k
m
2.

B
_
j + 2
m
,
_
B
_
j + 1
m
,
_


5k
m
61
3.

B
_
j + 3
m
,
_
B
_
j + 2
m
,
_


7k
m
En efecto, para la primera desigualdad se tiene

B
_
j + 1
m
,
_
B
_
j
m
,
_

B
_
j + 1
m
,
_
B(t, )

B(t, ) B
_
j
m
,
_

2k
m
+
k
m
=
3k
m
Las otras dos desigualdades se prueban de forma analoga.
Ademas se tiene que dados a > 0, t 0 y h > 0,
P [[B(t +h, ) B(t, )[ < a] = P
_
[B(t +h, ) B(t, )[

h
<
a

h
_
=
P
_

h
<
B(t +h, ) B(t, )

h
<
a

h
_
=
_ a

h
1
2
exp
_

x
2
2
_
dx
_ a

h
1
2
dx =
2a

2h
Para cada m N y cada j 1, ..., m se dene A
m
j
como el conjunto de las observaciones
que satisfacen las tres desigualdades anteriores. Entonces, por la independencia de los
incrementos, y la desigualdad anterior, se tiene
P(A
m
j
)
2(3k/m)

_
2(1/m)

2(5k/m)

_
2(1/m)

2(7k/m)

_
2(1/m)
= cm
3/2
para cierta constante positiva c.
Si A
m
=
m
j=1
A
m
j
, entonces
P(A
m
) = P
_

m
j=1
A
m
j
_

m

j=1
P(A
m
j
)
m

j=1
cm
3/2
= cm
1/2
.
Para el caso particular de que m sea de la forma n
4
para alg un n N se tiene que
P(A
n
4) c/n
2
. Luego la serie

n=1
P(A
n
4) es convergente. Ademas, por el lema de
BorelCantelli se tiene que P(lmsup
n
A
n
4) = 0. Pero
A = A(k) lminf
m
A
m
lminf
n
A
n
4 lmsup
n
A
n
4
(la primera contencion es debida a que A(k) A
m
j
A
m
para el m y el j que jabamos
al principio y que si m

> m, A(k) A
m
; siendo lminf
m
A
m
=

n=1

j=n
A
j
se verica
lo deseado). As tendramos que P[A(k)] = 0.
Si denimos ahora
D
0
= : B(t, ) es diferenciable para al menos un t [0, 1)
se tiene que D
0

k=1
A(k) y, por tanto, que D
0
esta incluido en un suceso de probabilidad
nula.
62
Si denotamos ahora
D
n
= : B(t, ) es diferenciable para al menos un t [n, n + 1)
tendramos que D =

n=1
D
n
. Ademas para cada n N se verica la siguiente igualdad
D
n
= : B(n +) B(n) es diferenciable para al menos un t [0, 1).
Puesto que (B(n +t) B(n))
t0
es tambien un movimiento browniano separable se tiene
que cada D
n
esta incluido en un suceso de probabilidad nula y, por tanto, D esta incluido
en un suceso de probabilidad nula, como queramos probar.
Lecci

on 11: Ley del logaritmo iterado: aplicaci

on al movimiento
browniano.
Sea Y
1
, Y
2
, ... una sucesion de v.a.r. independientes e identicamente distribuidas con media
0. La ley fuerte de los grandes n umeros prueba que, si X
n
= Y
1
+ +Y
n
, entonces X
n
/n
converge a 0 c.s.. As para cada k > 0, podemos decir que [X
n
[ es menor que kn para n
sucientemente grande o, lo que es lo mismo, que X
n
oscila con una amplitud menor que
kn. Pero podramos estar interesados en obtener mayor informacion sobre esta oscilacion;
por ejemplo, podemos preguntarnos si [X
n
[ es menor que k

n eventualmente. Este tipo


de cuestiones son las que nos vamos a plantear en esta leccion, especialmente en el caso
de que nuestras v.a. esten normalmente distribuidas, para poder aplicar los resultados al
movimiento browniano.
Concretamente, probaremos que la oscilacion de puede medirse mediante f(n) =
(2
2
nlnlnn)
1/2
, donde
2
es la varianza com un de las Y
k
. Veamos, en primer lugar dos
lemas previos.
Lema 42. Sean Y
1
, Y
2
, ... v.a.r. independientes y normalmente distribuidas todas ellas
con media 0 y varianza 1 y sea X
n
=

n
k=1
Y
k
, n = 1, 2.... Entonces, para casi todo ,
lmsup
n
X
n
()
(2nlnlnn)
1/2
1.
Demostracion. Fijemos un n umero > 1, y sean n
k
=
k
, k = r, r + 1, r + 2, ... donde
r es el menor entero positivo tal que
r
3 (de forma que (lnlnn
k
)
1/2
este bien denido
para k r). Sea
A
k
= : X
n
( > (2nlnlnn)
1/2
para alg un n (n
k
, n
k+1
],
y tomemos a(n) = (2nlnlnn)
1/2
: Entonces
P(A
k
) P[X
n
> a(n
k
) para alg un n n
k+1
]
= P
_
max
1n[n
k+1
]
X
n
> a(n
k
)
_
2P
_
X
[n
k+1
]
> a(n
k
)

por un problema

2
_
[n
k+1
]

2a(n
k
)
exp
_
a
2
(n
k
)
2[n
k+1
]
_
por otro problema

n
k+1

2a(n
k
)
exp
_
a
2
(n
k
)
2n
k+1
_
c explnln
k

= c

explnk = c

donde c = 1/(2lnln3)
1/2
y c

= c explnln.
Pero la serie

k
k

es convergente y, por tanto, tambien lo es la serie



k
P(A
k
) y,
por el lema de BorelCantelli
5
se tiene que P(lmsup
k
A
k
) = 0 o, lo que es lo mismo,
5
Lema de BorelCantelli: Sean (, A, P) un espacio de probabilidad y (A
n
)
n
una coleccion de sucesos
de A. Si

n
P(A
n
) < , entonces, P(lmsup
n
A
n
) = 0. En el caso de que

n
P(A
n
) = se obtiene
que P(lmsup
n
A
n
) = 1
63
64
que solo ocurren con probabilidad 1 una cantidad nita de A

k
s. De ello se deduce que,
para n sucientemente grande, X
n
(2nlnlnn)
1/2
c.s.. Puesto que esto ocurre para
= 1 + 1/m, m = 1, 2, ... concluimos que
P( > 1, X
n
(2nlnlnn)
1/2
eventualmente) = 1
es decir, para casi todo ,
lmsup
n
X
n
()
(2nlnlnn)
1/2
1.
Lema 43. Bajo las hipotesis del lema anterior se verica
lmsup
n
X
n
(2nlnln n)
1/2
= 1 c.s..
Demostracion. Si < 1, queremos probar que, con probabilidad 1,
X
n
()
(2nlnlnn)
1/2
>
para n sucientemente grande.
Aplicando el lema anterior a (X
n
) se obtiene que, con probabilidad 1, X
n

2(2 lnlnn)
1/2
para n sucientemente grande. As, si m
k
= M
k
, (M > 1), se tiene que,
para k sucientemente grande,
X
m
k1
2(2 lnlnm
k1
)
1/2
c.s..
Sea Z
k
= X
m
k
X
m
k1
, entonces
X
m
k
Z
k
2(2 lnlnm
k1
)
1/2
c.s.
para k sucientemente grande y, para obtener la tesis, sera suciente probar que, para k
sucientemente grande,
Z
k
> (2m
k
lnlnm
k
)
1/2
+ 2(2 lnlnm
k1
)
1/2
c.s..
Tomemos

(, 1). Entonces, para alg un M se tiene que

[2(M
k
M
k1
) lnlnM
k
]
1/2
> (2M
k
lnln M
k
)
1/2
+ 2(2M
k1
lnlnM
k1
)
1/2
, k
(pues el cociente
(2M
k
lnlnM
k
)
1/2
+ 2(2M
k1
lnlnM
k1
)
1/2

[2(M
k
M
k1
) lnlnM
k
]
1/2
es menor que

_
1
1
M
_
1/2
+
2

(M 1)
1/2
que converge a /

< 1 cuando M .
Teniendo en cuenta lo anterior, sera suciente probar que, para k sucientemente
grande,
Z
k
>

[2(M
k
M
k1
) lnlnM
k
]
1/2
, c.s..
65
Ahora, como Z
k
tiene distribucion normal N(0, M
k
M
k1
) se tiene que
P(Z
k
>

[2(M
k
M
k1
) lnlnM
k
]
1/2
)
1

(2 lnlnM
k
)
1/2
exp
2
lnln M
k

c
(lnk)
1/2
k

c
k lnk
pues

< 1.
Pero

k
1/(k lnk) = y, por tanto,

k
P(Z
k
>

[2(M
k
M
k1
) lnlnM
k
]
1/2
) = .
Finalmente, el resultado se obtiene mediante la aplicacion de la segunda parte del lema
de BorelCantelli.
Veamos ahora el resultado para variables normales.
Teorema 44. Sea X
n
=

n
k=1
, n = 1, 2, ..., donde Y
1
, Y
2
, ... son v.a.r. independientes
y normalmente distribuidas todas ellas con media 0 y varianza
2
. Entonces, para casi
todo ,
lmsup
n
X
n
()
(2
2
nlnlnn)
1/2
= 1
y
lminf
n
X
n
()
(2
2
nlnlnn)
1/2
= 1.
Demostracion. Para la primera igualdad, basta aplicar el lema anterior a la sucesion
(X
n
/)
n
y, para la segunda, basta aplicar el mismo lema a (X
n
/)
n
.
Teorema 45. (Ley del logaritmo iterado para el movimiento browniano) Sea (B
t
)
t0
un movimiento browniano separable. Entonces, para casi todo ,
lmsup
t
B
t
()
(2
2
t lnlnn)
1/2
= 1
y
lminf
t
B
t
()
(2
2
t lnlnn)
1/2
= 1.
Demostracion. Podemos suponer sin perdida de generalidad que
2
= 1 (en caso con-
trario, consideraramos (B
t
/)). La armacion para el lmite inferior se obtendra de la
del lmite superior considerando (B
t
), de tal forma que es suciente probar la primera
igualdad.
Teniendo en cuenta la igualdad
B
n
= B
1
+ (B
2
B
1
) + (B
3
B
2
) + + (B
n
B
n1
)
tenemos B
n
expresado como suma de n v.a.r. independientes y normalmente distribuidas
todas ellas con media 0 y varianza 1 y, por el teorema anterior,
lmsup
n
B
n
()
(2nlnlnn)
1/2
= 1, c.s.
66
y, por tanto,
lmsup
t
B
t
()
(2t lnlnn)
1/2
1, c.s..
Ademas,
max
ntn+1
B(t) = B(n) + max
ntn+1
[B(t) B(n)]
y
P
_
max
ntn+1
[B(t) B(n)] > a
_
= P
_
max
0t1
B(t) > a
_
= 2P(B(1) > a)
2

2a
e
a
2
/2
.
Sea a = n
1/4
; entonces, e
a
2
/2
= e

n/2
. Puesto que

n
e

n/2
< , el lema de Borel
Cantelli prueba que, con probabilidad 1, para n sucientemente grande,
max
ntn+1
[B(t) B(n)] n
1/4
.
As, si

> 1, > 0 tenemos que, para n sucientemente grande, con probabilidad 1,


max
ntn+1
B(t) <

(2nlnlnn)
1/2
+n
1/4
< (

+)(2nlnlnn)
1/2
(

+)(2t lnlnt)
1/2
si n t n + 1.
As pues, si > 1, tenemos que, para n sucientemente grande,
B(t) < (2t lnlnt)
1/2
y, por tanto,
lmsup
t
B
t
()
(2t lnlnn)
1/2
1, c.s..
Captulo III
ALGUNOS TIPOS ESPECIALES DE PROCESOS
ESTOC

ASTICOS A TIEMPO CONTINUO


III.13. Cadenas de Markov en tiempo continuo: Procesos de Markov: Cadenas de
Markov en tiempo continuo. Propiedades de la matriz de transicion. Clasicacion
d los estados. Construccion de una cadena de Markov a partir de su generador
innitesimal. Interpretacion de los elementos de Q. Procesos de nacimiento puro.
Procesos de nacimiento y muerte.
III.14. Procesos con incrementos independientes:
III.15. Martingalas a tiempo continuo:
III.16. Tiempos de parada:
Referencias captulo III: Ash, Gardner (1975).
67
68
Lecci

on 12: Procesos de Markov. Cadenas de Markov en tiempo


continuo
Definici on. Sean T un conjunto de ndices totalmente ordenado, X
t

tT
un proceso
estocastico en (, /, P) con espacios de estados (S, o) y /
t

tT
una familia de sub--
algebras de /. Supongamos que X
t

tT
es un proceso adaptado a la familia /
t

tT
, i.e.
/
s
/
t
si s t y X
t
es /
t
-medible para cada t T. Diremos que X
t

tT
es un proceso
de Markov relativo a /
t

tT
si para cada B o y cada s, t T, s < t,
(27) P(X
t
B [ /
s
) = P(X
t
B [ X
s
) c.s.
Observaciones. 1) La propiedad (27) se llama propiedad de Markov. Hemos escrito,
P( [ X
s
), pero en realidad pensaremos en P( [ X
s
) X
s
o bien P( [ X
1
s
(o)).
2) Equivalente a la propiedad de Markov es la siguiente propiedad: para s < t y g :
(S, o) (R, ) tal que E[g X
t
] sea nita, se verique:
(28) E[g X
t
[ /
s
] = E[g X
t
[ X
s
] c.s.
3) Si se arma que X
t

tT
es un proceso de Markov, sin hacer referencia a ninguna familia
de sub--algebras, se supone que nos estamos reriendo a /
s
= (X
t
: t s). En este
caso, la propiedad de Markov es,
P(X
t
B [ X
r
, r s) = P(X
t
B [ X
s
) c.s para todo B o
Intuitivamente, podemos decir que un proceso de Markov es un proceso que tiene la
propiedad de que dado el valor de X
t
, los valores de X
s
, s > t, no dependen de los valores
de X
u
, u < t, esto es, que la probabilidad de cualquier comportamiento futuro del proceso,
cuando se conoce exactamente su presente, no se ve alterado, no depende de la informacion
adicional relativa a su comportamiento pasado.
Proposici on 46. Sea X
t

tT
un proceso de Markov relativo a /
t

tT
y A (X
r
, r
t) entonces
P(A [ /
t
) = P(A [ X
t
) c.s.
Demostracion. Denimos ( = A (X
r
, r t) : P(A [ /
t
) = P(A [ X
t
) c.s..
Se trata de probar que los conjuntos de la forma X
1
(B), siendo X = (X
r
, r t)
y B

rt
o, pertenecen a (, y haciendo uso del Teorema de la clase monotona se
concluye (( es una clase monotona, es decir estable frente a uniones numerables crecientes
e intersecciones numerables decrecientes que contiene a los conjuntos de la forma X
1
(B),
luego contiene a la sigma-lgebra generada por estos conjuntos esta es, (X
r
, r t)).
Definici on. Una cadena de Markov es un proceso de Markov con espacio de estados
discreto. Cuando el espacio temporal sea un conjunto numerable o nito hablaremos de
cadenas de Markov en tiempo discreto (CMTD) y en otro caso hablaremos de cadenas de
Markov en tiempo continuo (CMTC). Generalmente T = [0, ).
Centrando nuestra atencion en las CMTCs, con T = [0, ), la propiedad de Markov,
es mas habitual encontrarla en la forma: Para todo n 2, t
1
, . . . , t
n
T tales que 0
t
1
< t
2
< . . . < t
n
, e i
1
, . . . , i
n
S se verica:
P(X
t
n
= i
n
[ X
t
1
= i
1
, . . . , X
t
n1
= i
n1
) = P(X
t
n
= i
n
[ X
t
n1
= i
n1
)
69
siempre que el miembro de la izquierda este bien denido. Teniendo en cuenta la Propo-
sicion 46, se deduce que para cualquier m 0 y t
1
, . . . , t
n+m
T tales que 0 t
1
< . . . <
t
n
< . . . < t
n+m
y cualesquiera i
1
, . . . , i
n
, . . . , i
n+m
S se verica
P(X
t
r
= i
r
, n r n +m [ X
t
1
= i
1
, . . . , X
t
n1
= i
n1
)
coincide con
P(X
t
r
= i
r
, n r n +m [ X
t
n1
= i
n1
)
Definici on. Diremos que una CMTC tiene probabilidades de transicion estacionarias
si
P(X
t+s
= j [ X
s
= i)
cuando esten bien denidas, son independientes de s, cualesquiera que sean i, j S. A la
funcion
(29) P
ij
(t) = P(X
t+s
= j [ X
s
= i), t > 0
la llamaremos funcion de probabilidad de transicion desde el estado i al j y a la matriz
P(t) = (P
ij
(t))
i,jS
, t > 0, matriz de probabilidad de transicion.
Observacion. Observemos que nos referimos con el termino matriz de probabilidad
de transicion o mas abreviadamente matriz de transicion a un conjunto de funciones
(P
ij
())
i,jS
denida sobre (0, ).
De ahora en adelante cuando hablemos de una CMTC la supondremos con probabili-
dades de transicion estacionarias.
Ejemplos: 1) Consideremos una maquina que puede estar operativa o no operativa. Si
la maquina esta operativa, esta falla y pasa a estar no operativa, despues de un tiempo
exp(1/), es decir, que la variable, T, que mide el tiempo que transcurre hasta que se
produce un fallo en el funcionamiento de la maquina se distribuye seg un una distribucion
de probabilidad exp(1/). Una vez que la maquina falla, el fallo no tiene arreglo y la
maquina permanece no operativa. Sea X
t
una variable que indique el estado de la maquina
en el tiempo t, establecemos que,
X
t
=
_
0 si la maquina no esta operativa en el tiempo t
1 si la maquina esta operativa en el tiempo t
Veamos que X
t

t0
es una CMTC con probabilidades de transicion estacionarias. Es
claro que el proceso es una CMTC, pues el conocimiento del estado futuro de la maquina
depende del conocimiento del estado de la maquina mas actualizado. Por otra parte,
P(X
t+s
= 0 [ X
s
= 0) = 1 y P(X
t+s
= 1 [ X
s
= 0) = 0
Ahora, X
s
= 1 si y solo si T > s y ademas si X
s
= 1 entonces X
u
= 1, para 0 u s.
Luego
P(X
t+s
= 1 [ X
s
= 1) =
P(X
t+s
= 1 X
s
= 1)
P(X
s
= 1)
= P(T > s +t [ T > s) = P(T > t) = exp(t)
70
Por tanto X
t

t0
es una CMTC con probabilidades de transicion estacionarias y matriz
de transicion, t > 0
P(t) =
_
1 0
1 exp(t) exp(t)
_
2) El proceso de Poisson es una CMTC con probabilidades de transicion estacionarias.
Propiedades de la matriz de transicion
Vamos a ir analizando las principales propiedades de la matriz de transicion de una CMTC.
Proposici on 47. La matriz de transicion P(t) de una CMTC tiene las siguientes
propiedades:
a) P
ij
(t) 0, t > 0
b)

j
P
ij
(t) = 1, t > 0
c) P
ij
(t +s) =

k
P
ik
(t)P
kj
(s), t, s > 0
Observacion. Las condicion c) es conocida como la ecuacion de Chapman-Kolmogorov.
Proposici on 48. Sea X
t

t0
una CMTC. Si 0 t
0
< t
1
< . . . < t
n
, se verica que
(30) P(X
t

= i

, 1 n [ X
t
0
= i
0
) =
n

=1
P
i
1
i

(t

t
1
)
Observaciones. 1) Denotamos p(t) = p
i
(t), i S siendo p
i
(t) = P(X
t
= i),

i
p
i
(t) =
1, t 0. A la distribucion p(0) la llamaremos distribucion inicial. Una CMTC queda
completamente determinada por su distribucion inicial y la matriz de probabilidad de
transicion P(t) puesto que se verica que p(t) = p(0)P(t), t 0.
2) Dada una matriz de transicion P(t) = (P
ij
(t))
i,jS
, t > 0 vericando a)-c) de la Pro-
posicion 47 y una distribucion arbitraria p
i
, i S, existe una CMTC X
t

tT
vericando
(29) y p
i
= P(X
0
= i), y en consecuencia (30). (Chung pag. 141)
3) Observemos que las expresiones que se obtienen para las probabilidades que intervie-
nen en una CMTC son muy parecidas a las obtenidas para CMTD; la principal diferencia
consiste en que en el tiempo continuo no hay una unidad de tiempo, que represente el
mnimo lapso de tiempo entre dos instantes consecutivos, y en funcion de la cual se pue-
dan expresar las probabilidades de transicion en mas etapas. Debido a ello no basta con
una unica matriz de transicion sino que se necesita una para cada t (recordar observacion
denicion 3).
Definici on. La matriz de transicion P(t) se llamara estandar si lm
t0
P
ij
(t) =
ij
,
i, j S
Demostramos a continuacion la continuidad de P
ij
(t) en (0, ) para una matriz estandar.
Teorema 49. Si la matriz de transicion es estandar, para cualesquiera i, j S se
verica que P
ij
(t) es una funcion uniformemente continua en t (0, ).
71
La demostracion en los apuntes.
Observacion. En general se verica, que P
ij
(t) son continuas en (0, ) si y solo si
existe lm
t0
P
ij
(t). La demostracion puede verse en Chung(1967), pag. 123.
De ahora en adelante asumimos que la matriz de transicion P(t) de la CMTC es
estandar y en consecuencia, P
ij
(t) son continuas en (0, ). Para una matriz de transicion
estandar es natural extender la denicion de P
ij
(t) a P
ij
(0), as pues, pondremos:
P
ij
(0) =
ij
Teorema 50.
a) P
ii
(t) > 0 para todo t 0 e i S.
b) Si P
ij
(t
0
) > 0 entonces P
ij
(t) > 0, para todo t t
0
.
Demostracion. a) Observemos que
P
ii
(t) =

kS
P
ik
_
t
n
_
P
ki
_
n 1
n
t
_
P
ii
_
t
n
_
P
ii
_
n 1
n
t
_
.
La desigualdad anterior es independiente del valor de n N. Por lo tanto,
P
ii
(t) (P
ii
(t/n))
n
, para todo n N.
Luego, jado t > 0, como P
ii
(h) 1, cuando h 0, podemos tomar n sucientemente
grande para que P
ii
(t/n) > 0, y por tanto P
ii
(t) > 0.
b) Para todo t > t
0
, P
ij
(t) =

k
P
ik
(t
0
)P
kj
(t t
0
) P
ij
(t
0
)P
jj
(t t
0
) > 0.
Teorema 51. Para todo i ,= j, P
ij
(t) > 0, t > 0 o P
ij
(t) = 0, t > 0.
La demostracion puede verse en Chung(1967), pag. 127.
Estudiamos a continuacion, las propiedades de diferenciabilidad de P
ij
(t) en t = 0.
Obviamente nosotros solo consideraremos derivadas por la derecha de cero.
Teorema 52. Para cada i,
P

ii
(0) = lm
t0
1 P
ii
(t)
t
existe aunque puede ser innito.
La demostracion puede verse en Karlin y Taylor(1981), pag. 139.
Teorema 53. Para i y j, i ,= j,
P

ij
(0) = lm
t0
P
ij
(t)
t
existe y es nito.
72
La demostracion puede verse en Karlin y Taylor(1981), pag. 141.
Observaciones. 1) Si S es nito, P

ii
(0) no pueden ser innito. En efecto,
1 P
ii
(t)
t
=

k=i
P
ij
(t)
t
de donde se deduce que
P

ii
(0) =

k=i
P

ij
(0).
2) Denotaremos q
ij
= P

ij
(0), i ,= j y q
i
= P

ii
(0). Es habitual tambien usar la notacion
q
ii
= q
i
. La matriz (q
ij
) = (P

ij
(0)) se llama Q-matriz asociada a la CMTC o matriz o
generador innitesimal de la CMTC.
3) En general se verica que
(31)

j=i
q
ij
q
i
para todo i
En efecto: Se tiene que

j=i
P
ij
(h) = 1 P
ii
(h). Luego para cualquier N nito,
N

j=1,j=i
P
ij
(h) 1 P
ii
(h)
Dividiendo por h, h 0, se sigue que

N
j=1,j=i
q
ij
q
i
, puesto que N es arbitrario y
todos los terminos son positivos, se sigue (31).
Definici on. Una CMTC se dice que es conservativa si

j=i
q
ij
= q
i
< para todo i S.
Ahora vamos a probar que para una CMTC conservativa no solo todas las P
ij
(t) son
diferenciables, si q
i
< (i 0), sino que satisfacen un conjunto de ecuaciones diferenciales
conocidas como las ecuaciones atrasadas (backward) de Kolmogorov. Aunque para la
diferenciabilidad de P
ij
(t) no es necesario que la matriz sea conservativa, ahora bien la
demostracion es mas facil bajo esta suposicion. De hecho,
Teorema 54. (Ecuaciones atrasadas de Kolmogorov) Para una CMTC conservativa
se verica para todo i, j y t 0,
(32) P

ij
(t) =

k=i
q
ik
P
kj
(t) q
i
P
ij
(t)
Demostracion.
P
ij
(s +t) P
ij
(t) =

k
P
ik
(s)P
kj
(t) P
ij
(t)
=

k=i
P
ik
(s)P
kj
(t) + (P
ii
(s) 1)P
ij
(t)
73
Dividiendo por s, s 0, se sigue:
P

ij
(t) =

k=i
q
ik
P
kj
(t) q
i
P
ij
(t) para todo i
Para derivar estas ecuaciones rigurosamente nosotros debemos probar que
lm
s0
+
1
s

k=i
P
ik
(s)P
kj
(t) =

k=i
q
ik
P
kj
.
Ahora,
lminf
s0
+
1
s

k=i
P
ik
(s)P
kj
(t) lminf
s0
+
1
s
N

k=1,k=i
P
ik
(s)P
kj
(t) =
N

k=1,k=i
q
ik
P
kj
para cualquier N > 0, por lo que
lminf
s0
+
1
s

k=i
P
ik
(s)P
kj
(t)

k=i
q
ik
P
kj
.
Por otra parte, para N > i,

k=i
P
ik
(s)P
kj
(t)
N

k=1,k=i
P
ik
(s)P
kj
(t)+

k=N+1
P
ik
(s) =
N

k=1,k=i
P
ik
(s)P
kj
(t)+1P
ii
(s)
N

k=1,k=i
P
ik
(s).
Dividiendo por s y tomando lmsup
s0
+ en ambos lados obtenemos
lmsup
s0
+
1
s

k=i
P
ik
(s)P
kj
(t)
N

k=1,k=i
q
ik
P
kj
(t) +q
i

N

k=1,k=i
q
ik
.
Tomando N y usando que la matriz es conservativa, tenemos que,
lmsup
s0
+
1
s

k=i
P
ik
(s)P
kj
(t)

k=i
q
ik
P
kj
(t).
Observacion. El recproco tambien es cierto i.e. si se satisfacen las ecuaciones atrasadas
de Kolmogorov la matriz Q es conservativa. El sentido de llamar ecuaciones atrasadas a
las ecuaciones diferenciales obtenidas en el Teorema previo es porque en el calculo de la
distribucion de probabilidad del estado en el tiempo s + t condicionamos sobre el estado
(todos los posibles) atras en un tiempo s. Esto es, empezamos nuestra demostracion con:
P
ij
(s +t) =

k
P(X
s+t
= j [ X
0
= i, X
t
= k)P(X
t
= k [ X
0
= i)
=

k
P
ik
(t)P
kj
(s)
De forma similar podemos obtener,
74
Teorema 55. (Ecuaciones adelantadas forward de Kolmogorov) Bajo ciertas con-
diciones de regularidad,
(33) P

ij
(t) =

k=j
P
ik
(t)q
kj
P
ij
(t)q
j
para todo i, j
Observacion. La demostracion sigue pasos analogos a la anterior. Ahora bien no vamos
a profundizar en la condiciones de regularidad que han de vericarse para que sea cierto la
conmutatividad entre el lmite y la suma debido a una mayor complejidad en las mismas.
Calculo de las funciones de probabilidad de transicion
Las ecuaciones atrasadas y adelantadas de Kolmogorov son sistemas de ecuaciones dife-
renciales de primer orden lineales y con coecientes constantes (que son los terminos de la
matriz P

(0)), acompa nados por la condicion inicial P(0) = Id.



Estas tienen como solucion
unica,
(34) P(t) = e
Qt
deniendo como la exponencial de una matriz Qt como sigue
e
Qt
= Id +

n=1
(Qt)
n
n!
.
Ahora bien, esta expresion para la exponencial de Qt es numericamente intratable. Al-
ternativamente, supongamos que el espacio de estado de la cadena es nito, p.e. S =
0, 1, . . . , N. La funcion de probabilidades de transicion viene dada por (34). Sean
j
,
j = 0, 1, . . . , N, los autovalores de Q (i.e. las soluciones de det(q Id) = 0) y supongamos
que Q puede se escrita como Q = HJH
1
para alguna matriz H no singular, donde J
es la matriz diagonal con los elementos de la diagonal
j
. Si existe tal matriz H, se dice
que la matriz Q es diagonalizable. Una condicion suciente para que la matriz Q sea dia-
gonalizable es que todos los autovalores sean distintos. En el caso de que la matriz Q sea
diagonalizable entonces la columna i-esima de la matriz H es el autovector por la derecha,
denotemosle
i
, de
i
i.e. Q
i
=
i

i
. En consecuencia
P(t) = He
Jt
H
1
siendo e
Jt
una matriz diagonal cuyos elementos de la diagonal son e

i
t
.
En el caso innito, no se puede dar una forma explcita para la solucion de las ecuaciones
de Kolmogorov, estas constituyen cuando son validas y se saben resolver, un metodo para
determinar las matrices de transicion P(t) a partir de la la matriz de derivadas en el origen
P

(0).
Ejemplos:
1) Caso nito. Problema de fallos. 2) Caso innito. Denicion equivalente de Proceso
de Poisson. Un proceso de Poisson es una cadena de Markov con espacios de estados
S = 0, 1, . . . y probabilidades de transicion estacionarias vericando,
1. P
i i+1
(h) = h +o(h) h 0
+
, i 0
2. P
i i
(h) = 1 h +o(h) h 0
+
, i 0
75
3. P
i j
(0) =
ij
4. X
0
= 0
Clasicacion de los estados
Para cada h > 0 ja, la matriz (P
ij
(h)) es la matriz de transicion de la CMTD, (
h
=
X
nh
, n 0, i.e. que corresponde a observar el proceso unicamente en los instantes
m ultiplos de la unidad de tiempo h. Su matriz de transicion en n pasos son dadas por
(P
ij
(nh)). La relacion entre la CMTC X
t

tT
y las CMTDs (
h
, h > 0 son muy util a la
hora de clasicar los estados.
Definici on. Diremos que i conduce a j, y lo denotamos i j si existe un t > 0 tal
que P
ij
(t) > 0. Diremos que i comunica con j, y lo denotamos i j, si i j y j i.
Observacion. Teniendo en cuenta el Teorema 50, a) se sigue que i i y por tanto
todas las CMTDs son a periodicas. A partir del apartado b), se verica que si i j
para X
t

tT
entonces i j para (
h
, h > 0, el recproco es trivial. Luego la nocion de
comunicacion para la CMTC es equivalentes a la de las CMTDs (
h
, h > 0. En particular
la clasicacion de todos los estados dentro de clases de estados comunicantes es la misma
para la CMTC y todas las CMTDs (
h
, h > 0.
Definici on. Un estado i S se dice que es recurrente para la CMTC si
_

0
P
ii
(t)dt =
En caso contrario se denominara transitorio.
Teorema 56.
a)
_

0
P
ii
(t)dt = si y solo si

n=0
P
ii
(nh) = para alg un h > 0
y en tal caso para cualquier h > 0. Es decir que i es recurrente si y solo si lo es en
alguna cadena (
h
, y en tal caso lo es para todas.
b) La descomposicion de S en estados transitorios y recurrentes, divididos a su vez en
subcadenas cerradas e irreducibles, es la misma para cualquiera de las cadenas (
h
.
Demostracion. a) Dado h > 0, sea (h) = mn
r[0,h]
P
ii
(r). Observemos que
mn
r[0,h]
P
ii
(t +r) P
ii
(t) mn
r[0,h]
P
ii
(r) = P
ii
(t)(h)
por tanto

n
(h) = mn
r[nh,(n+1)h]
P
ii
(r) P
ii
(nh)(h)
76
Analogamente, puesto que
P
ii
(t) P
ii
(t r)(h)
tenemos que

n
(h) = max
t[nh,(n+1)h]
P
ii
(t)
P
ii
((n + 1)h)
(h)
As que
_
Nh
0
P
ii
(t)dt h
N1

n=0

n
(h) h(h)
N1

n=1
P
ii
(nh)
y
_
Nh
0
P
ii
(t)dt h
N1

n=1

n
(h)
h
(h)
N

n=1
P
ii
(nh)
De donde se deduce, al tender N que
_

0
P
ii
(t)dt = si y solo si

n=0
P
ii
(nh) =
Como la demostracion es valida para cualquier h, se tiene a).
b) La descomposicion de los estados recurrentes en subcadenas cerradas e irreducibles
para las cadenas de Markov, se haca estableciendo las clases de equivalencia de la relacion
i j. Ahora bien, seg un el resultado del Teorema 51, jados i y j de S, P
ij
(t) = 0 para
todo t > 0 o P
ij
(t) > 0 para todo t > 0, y obviamente lo mismo para P
ji
(t), por tanto se
deduce b).
Resulta del Teorema anterior que el teorema de descomposicion que se enuncia para
CMTDs, es valido sin ninguna variacion para CMTCS.
Observacion. Analicemos mas detenidamente el concepto de recurrencia. Sea
S
i
= t 0 : X
t
= i
i.e. conjunto de los instantes en que el proceso ocupa el estado i. Sea
i
una variable
aleatoria que representa la longitud total de tiempo que el proceso permanece en el estado
i, a lo largo de su evolucion, y que podemos expresar

i
=
_

0
I
S
i
(t)dt
siendo
I
S
i
(t) =
_
1 si t S
i
0 si t , S
i
As pues, aplicando el Teorema de Fubbini,
E[
i
[ X
0
= j] =
_

i
(w)P(dw [ X
0
= j) =
_

_

0
I
S
i
(w)
(t)dtP(dw [ X
0
= j)
=
_

0
__

I
S
i
(w)
(t)P(dw [ X
0
= j)
_
dt.
77
Ahora bien,
w : t S
i
(w) = w : X
t
(w) = i.
Luego puesto que,
P
ji
(t) = P(X
t
= i [ X
0
= j) = E[I
{X
t
=i}
[ X
0
= j] =
_

I
{X
t
=i}
(w)P(dw [ X
0
= j)
se verica que
E[
i
[ X
0
= j] =
_

0
P
ji
(t)dt
Luego
_

0
P
ji
(t)dt representa el tiempo total esperado que el proceso permanece en i
cuando su posicion inicial es j. En estos terminos i es recurrente si y solo si el tiempo
total esperado de permanencia en i partiendo de i es innito. Ademas se puede probar
(ver Chung pag. 185) que
P(S
i
es un conjunto no acotado [ X
0
= i) = P(
i
= [ X
0
= i)
y o bien la probabilidad es igual a cero o a uno seg un sea
_

0
P
ii
(t)dt nita o innita.
Comportamiento asintotico
Vamos a ver a continuacion como se comportan las matrices de transicion P(t) cuando
t .
Teorema 57. Para cada i, j en S existe
(35) lm
t
P
ij
(t) =
ij
.
Corolario 58. Para todo s > 0 se verica
= P(s) = P(s) =
Definici on. Una distribucion de probabilidad =
i

iS
sobre S es una distribucion
estacionaria para una CMTC con matriz de transicion P(t), t 0, si P(t) = , para
t 0 i.e.

j
=

i
P
ij
(t), para todo t 0 y j S
Proposici on 59. Si para alg un i S es
ii
,= 0, entonces
ij

jS
es una distribucion
estacionaria para la CMTC.
Demostracion. Teniendo en cuenta el corolario anterior bastara probar que en tal
situacion

jS

ij
= 1.
Por una parte puesto que

jS
P
ij
(t) = 1, t > 0
78
es claro que

jS

ij
1.
Por otra parte consideremos
u
i
= sup
kS

ki
y tendremos que

ji
=

jk

ki

jk
u
i
+
ji
(
ii
u
i
)
es decir,

ji
(1 +u
i

ii
) u
i

jk
u
i
o bien como
u
i
,= 0, u
i
=
ii
Entonces

ii
=

kS

ik

ki

ik
u
i
=
ii

ik
con lo cual

ik
1
Definici on. Diremos que i es un estado recurrente positivo si
ii
> 0 en (35).
Corolario 60. Las las de la matriz lmite correspondientes a estados recurrentes
positivos son distribuciones estacionarias frente a P(s), s > 0.
Observaciones. 1) Si
T
i
es el tiempo de permanencia en i durante el intervalo de tiempo
[0, T], tendramos que
E[
T
i
[ X
0
= j] =
_
T
0
P
ji
(t)dt
con lo cual lm
T
1
T
_
T
0
P
ji
(t)dt =
ji
representa la proporcion lmite de tiempo que hay
que esperar permanecer en i si la evolucion empieza en j.
2)La nocion de recurrente positivo para la CMTC es la misma que para la existente
en las CMTDs (
h
, y por lo tanto de ah la denicion.
Para la determinacion de la matriz resulta comodo emplear el siguiente resultado.
Corolario 61. Si se cumplen las ecuaciones atrasadas de Kolmogorov entonces lm
t
p

ij
(t) =
0 y Q = 0. Si se cumplen las del futuro entonces tambien se verica Q = 0.
Demostracion. La ecuacion atrasada de Kolmogorov es
p

ij
(t) =

kS
p

ik
(0)p
kj
(t).
79
Observemos que la serie del segundo miembro es absolutamente convergente puesto que

kS
[p

ik
(0)[p
kj
(t)

kS
[p

ik
(0)[ = 2p

ii
(0).
Entonces cuando t , de lo anterior se sigue que
lm
t
p

ij
(t) =

kS
p

ik
(0)
kj
lo cual prueba que lm
t
p

ij
(t) existe. Ademas puesto que p
ij
(t) converge a una constante,
ha de ser
lm
t
p

ij
(t) = 0
En las ecuaciones diferenciales de Kolmogorov queda entonces
0 = Q = Q.
Construccion de una cadena de Markov a partir de su generador innitesimal
Supongamos que tenemos un conjunto de n umeros no negativos (q
ij
) que satisfacen la
propiedad:

j=i
q
ij
q
i
para todo i.
Para unicar la notacion escribimos q
ii
= q
i
. Nos preguntamos si existe una cadena de
Markov en tiempo continuo, i.e. una matriz de transicion estandar P = (P
ij
(t)), para la
cual
P

ij
(0) = q
ij
, j ,= i
y P

ii
(0) = q
i
. Si asumimos que

j=i
q
ij
= q
i
< para todo i, se verica que cualquier
cadena de Markov asociada con los (q
ij
) debe al menos satisfacer las ecuaciones atrasadas
atras. La importancia practica de este hecho es porque a menudo una cadena de Markov
se dene de manera que uno sea capaz de derivar las ecuaciones hacia atras. Y luego tratar
de resolverlas para calcular la matriz de transicion completa. Hasta el presente momento
resultados denitivos para el caso general no son conocidos. Si es conocido que bajo el
supuesto de que

j=i
q
ij
= q
i
< para todo i, existe al menos una matriz de transicion
asociada y que si existe mas de una entonces existen innitas de ellas. En Chung(1967)
y Cinlar(1975), se prueba que si con probabilidad una la CMTC realiza un n umero nito
de transiciones en un intervalo nito de tiempo (tales CMTC se llaman regulares) s que
la matriz innitesimal Q (junto con la distribucion inicial) identican unvocamente una
CMTC. Si se tiene un conocimiento mas implcito de la matriz Q se puede profundizar mas
en la existencia del mismo. En general, el problema de clasicar el generador innitesimal
y su proceso asociado es complicado.
Interpretacion de los elementos de Q
Sea i tal que 0 < q
i
< . Sea t > 0 jo y n > 0 un entero positivo arbitrario.
Supongamos que el proceso empieza en el estado i. Entonces consideremos
P(X

= i, para = 0, t/n, 2t/n, 3t/n, . . . , t [ X


0
= i) = [P
ii
(t/n)]
n
.
80
Puesto que
1 P
ii
(t)
t
= q
i
+o(1),
tenemos que
[P
ii
(t/n)]
n
= [1 t/nq
i
+o(t/n)]
n
= expnlog[1
tq
i
n
+o(t/n)].
Usamos la expansion para el logaritmo de la forma log(1 x) = x + (x)x
2
valido
para [x[ 1/2 y [[ 1, con x = tq
i
/n + o(t/n) y haciendo tender n , obtenemos
que
lm
n
[P
ii
(t/n)]
n
= exp(q
i
t).
Nosotros podemos considerar que
lmP(X

= i, para = 0, t/n, 2t/n, 3t/n, . . . , t [ X


0
= i)
justo como
P(X

= i para todo 0 < t [ X


0
= i).
(Armacion que se basa en el concepto de separabilidad)
Se prueba que
P(X

= i, para todo 0 t [ X
t
= i) = exp(q
i
t)
Es decir exp(q
i
t) es la probabilidad de permanecer en el estado i durante al menos una
longitud de tiempo t. En otras palabras la distribucion del tiempo de espera en el estado
i es una distribucion exponencial con parametro 1/q
i
. Luego el razonamiento expresado
arriba nos conduce al siguiente Teorema. Denotando por T
i
a la duracion de la permanencia
en el estado i, es decir, T
i
=nft/X
t
,= i.
Teorema 62. Para todo i S,
P(T
i
t [ X
0
= i) = P(X
s
= i para todo s [0, t] [ X
0
= i) = expq
i
t.
Un estado i vericando 0 < q
i
< se llama estable. En este caso el tiempo de espera
en el estado i es una variable aleatoria cuya distribucion es una autentica distribucion ex-
ponencial y por tanto las transiciones ocurren en tiempo nito. Diremos que es absorbente
si q
i
= 0, lo cual obviamente implica que una vez que se entra en el estado i el proceso
permanece all para siempre. Un estado i es instantaneo si q
i
= . El valor esperado en tal
estado es cero, de ah el nombre, puesto que el tiempo de permanencia es cero. La teora
sobre cadenas de Markov con estados instantaneos es complicada. Vale la pena apreciar los
problemas tecnicos inherentes en tales procesos, ahora bien cabe destacar que la mayora
de las cadenas de Markov en tiempo continuo que surgen en la practica tienen solo estados
estables. De hecho en la mayora de los casos de interes el proceso bajo estudio es de-
nido especicando los parametros innitesimales como datos conocidos. Para completar
la teora, es entonces necesario establecer la existencia de un proceso que posea la matriz
innitesimal descrita.
Centrando la atencion a las cadenas de Markov en tiempo continuo con solo estados
estables, vamos a establecer un signicado intuitivo a las cantidades q
ij
. De hecho si
81
el procesos es conservativo los elementos q
ij
/q
i
(i ,= j) pueden interpretarse como las
probabilidades condicionadas de que ocurra una transicion del estado i al j. Para ver esto,
consideremos
R
ij
(h) = P(X
h
= j [ X
0
= i, X
h
,= i), j ,= i
y calculemos el lm
h0
R
ij
(h). Esta es la probabilidad de una transicion desde el estado
i al j, dado que un transicion ha ocurrido. El hecho de hacer tender h a cero hay que
entenderlo pensando que la transicion de un estado a otro es instantanea, el instante en el
que se produce el salto, estamos en un tiempo t en i, dejamos de estar en i para estar en
j, ocurriendo este salto en un tiempo instantaneo. No podemos decir hablando en tiempo
continuo cuando hemos dejado de estar en i para pasar a j, ese salto es instantaneo de
ah hacer tender h a cero.
As pues si denotamos P
ij
la probabilidad de una transicion desde el estado i al j,
tenemos que:
q
ij
= P
ij
q
i
i ,= j
Puesto que q
i
es la tasa en la cual el proceso abandona el estado i, se sigue que q
ij
es
la tasa que cuando en el estado i se produzca una transicion sea al estado j. De hecho
llamaremos a q
ij
tasa de transicion de i a j.
Luego si denimos como sucesion de tiempos de salto de X
t

t0
a la sucesion J
n

n0
denida recursivamente por J
0
= 0,
J
n+1
=nft J
n
: X
t
,= X
J
n
n = 0, 1, . . .
(dondenf = ) y sucesion de tiempos de permanencia de X
t

t0
a la sucesion S
n

n1
denida por
S
n
=
_
J
n
J
n1
si J
n1
< +
si J
n1
= +
Finalmente denimos tambien el proceso o cadena de saltos, Y
n
= X
J
n
, n = 0, 1, . . . (si
J
n+1
= para alg un n denimos X

= X
J
n
, en otro caso X

queda sin denir). De lo


expresado anteriormente se deduce que:
Proposici on:Sea i S tal que q
i
> 0. Se verica que S
n+1
, condicionado a que
Y
n
= i, sigue una distribucion exponencial de parametro 1/q
i
.
Proposici on: Sea i S tal que q
i
> 0. Se verica que P(Y
n+1
= j[Y
n
= i) = q
ij
/q
i
,
j ,= i.
En la practica es mas habitual modelizar el comportamiento de un sistema por medio
de una CMTC a partir del conocimiento de la matriz innitesimal. Ejemplo: Una tpica
realizacion de un proceso: Consideremos un sistema con un espacio de estados contable.
Para cada par de estados (i, j) (i ,= j) tenemos asociado un suceso E
ij
. Cuando el sistema
entra en el estado i, su proxima transicion esta gobernada por los sucesos E
ij
como sigue:
Supongamos que el sistema entra en el estado i en el tiempo t. Entonces E
ij
esta establecido
que ocurrira en el tiempo t + T
ij
, donde T
ij
es una variable aleatoria exponencialmente
distribuida con parametro 1/q
ij
, q
ij
0 (Si q
ij
= 0, entonces E
ij
no ocurre.) Ademas las
variables aleatorias T
ij

j=i
son mutuamente independientes y tambien independientes de
la historia del proceso hasta el tiempo t. Supongamos que j es tal que T
ij
= mn
k=i
T
ik
,
i.e. E
ij
es el primer suceso que tiene lugar despues de que el sistema se mueva del estado
82
i. Entonces el sistema permanece en i hasta t + T
ij
y entonces se mueve a j. Todos los
demas sucesos son cancelados. Un nuevo conjunto de sucesos se establecen, y el proceso
continua. Modelizamos la realizacion de este sistema por medio de una CMTC. Sea X
t
el
estado del sistema en el tiempo t. Si denimos q
i
=

j=i
q
ij
, veamos que q
i
es el parametro
asociado a la distribucion exponencial del tiempo de permanencia en el estado i. El tiempo
de permanencia en el estado i coincide mn
k=i
T
ik
. Teniendo en cuenta que las variables
aleatorias T
ik

k=i
son mutuamente independiente y T
ik
exp(1/q
ik
), se sigue:
P(mn
k=i
T
ik
x) = 1 P(mn
k=i
T
ik
> x) = 1

k=i
(1 P(T
ik
x))
= 1 exp(

k=i
q
ik
x) = 1 exp(q
i
x)
Veamos como calcularamos la probabilidad de que haya una transicion del estadio i al
estado j, P
ij
:
P
ij
= P(T
ij
= mn
k=i
T
ik
) = P(T
il
T
ij
> 0, l ,= j, i) = E(P(T
il
T
ij
> 0, l ,= j, i [ T
ij
))
= E(

l=j,i
P(T
il
T
ij
> 0 [ T
ij
))
Sea l ,= j, i,
P(T
il
T
ij
> 0 [ T
ij
)(x) = E(I
{T
il
T
ij
>0}
[ T
ij
)(x) =
_
I
(0,)
(u
l
)dP
U
l
|T
ij
=x
(u
l
)
=
_

0
f
U
l
|T
ij
=x
(u
l
)du
l
donde U
l
= T
il
T
ij
. Ahora, calculemos la f
U
l
|T
ij
=x
(u
l
). Realizamos el cambio bidimesional
de (T
il
, T
ij
), a (U
l
, T
ij
). Obtenemos que
f
(U
l
,T
ij
)
(u
l
, x) = f
T
il
(u
l
+x)f
T
ij
(x)
luego
f
(U
l
,T
ij
)
(u
l
, x) = q
il
exp(q
il
(u
l
+x))q
ij
exp(q
ij
x), x > 0, u
l
+x > 0
De donde,
f
U
l
|T
ij
=x
(u
l
) = q
il
exp(q
il
(u
l
+x)), u
j
> x, x > 0
Para x > 0,
_

0
f
U
l
|T
ij
=x
(u
l
)du
l
=
_

0
q
il
exp(q
il
(u
l
+x))I
{u
l
>x}
(u
l
)du
l
=
_

0
q
il
exp(q
il
(u
l
+x))du
l
= exp(q
il
x)
Luego

l=j,i
P(T
il
T
ij
> 0 [ T
ij
)(x) =

l=j,i
exp(q
il
x)
83
Y por lo tanto
P
ij
=
_

l=j,i
P(T
il
T
ij
> 0 [ T
ij
)(x)dP
T
ij
(x) =
_

0

l=j,i
exp(q
il
x)q
ij
exp(q
ij
x)dx
=
_

0
q
ij
exp(

l=i
q
il
x)dx =
q
ij

l=i
q
il
Lecci

on 13: Procesos con Incrementos Independientes


Los procesos que estudiaremos en esta leccion constituyen una util fuente de ejemplos de
procesos de Markov a tiempo continuo.
Comenzamos esta seccion con el concepto de distribuciones innitamente divisibles que
esta estrechamente relacionado con los procesos con incrementos independientes, como
veremos posteriormente.
Definici on. (Distribuciones innitamente divisibles) Una v.a. X (o su funcion de
distribucion F o su funcion caracterstica h) se dice innitamente divisible si, para cada
n, X tiene la misma distribucion que la suma de n v.a. independientes e identicamente
distribuidas. En otras palabras si, para cada n, podemos escribir h = (h
n
)
n
, donde h
n
es
la funcion caracterstica de una v.a.
Ejemplos. (Ejemplos de v.a. innitamente divisibles)
1) La distribucion de Poisson: Si X P(), P(X = k) = e

k
/k!, k = 0, 1, ... y su
funcion caracterstica es de la forma

X
(t) = E[e
itX
] = e
(e
it
1)
.
Es conocido que si X
1
, ...X
n
son v.a.r. independientes tales que X
i
P(
i
), entonces

n
i=1
X
i
tiene distribucion de Poisson P(

n
i=1

i
). De ah se sigue que, para cada
n, X tiene la misma distribucion que

n
i=1
X
i
, siendo las X
i
independientes y tales
que X
i
P(/n).
2) La distribucion gamma: Si X G(, ), su funcion caracterstica es

X
(t) = (1 it)

.
Para cada n N, podemos expresar

X
(t) = [(1 it)
/n
]
n
= [
n
(t)]
n
donde
n
es la funcion caracterstica de una distribucion gamma G(/n, )
Teorema 63. Sean h, h
1
, h
2
funciones caractersticas innitamente divisibles enton-
ces, tambien lo son
(i) h
1
h
2
(ii) h (conjugado complejo de h)
(iii) [h[
2
Demostracion. Si h
i
= (h
in
)
n
, i = 1, 2, entonces h
1
h
2
= (h
1n
h
2n
)
n
, con lo que queda
probado (i) puesto que h
1n
h
2n
es la funcion caracterstica de la suma de dos v.a. indepen-
dientes con funciones caractersticas h
1n
y h
2n
. Si X tiene funcion caracterstica h entonces
X tiene funcion caracterstica h, as si h = (h
n
)
n
, entonces h = (h
n
)
n
y h es innitamente
divisible si lo es h. Puesto que [h[
2
= hh, [h[
2
es tambien innitamente divisible.
84
85
Definici on. (Procesos con incrementos independientes) Sea (X
t
)
t0
un proceso es-
tocastico real. Se dice que dicho proceso tiene incrementos independientes si cualesquiera
que sean 0 < t
1
< < t
n
, X
0
, X
t
1
X
0
, X
t
2
X
t
1
, ..., X
t
n
X
t
n1
son independientes.
Observaciones. 1) Si (X
t
)
t0
tiene incrementos independientes e Y
t
= X
t
X
0
,
entonces, X
0
e (Y
t
)
t0
son independientes y el proceso (Y
t
)
t0
tambien tiene incre-
mentos independientes.
2) Recprocamente, si (Y
t
)
t0
tiene incrementos independientes, Y
0
0 y denimos
X
t
= X
0
+Y
t
, siendo X
0
una v.a.r. independiente de (Y
t
)
t0
entonces (X
t
)
t0
tiene
incrementos independientes.
3) Como consecuencia de 1) y 2), en el estudio de procesos con incrementos indepen-
dientes no hay perdida de generalidad si restamos la v.a. inicial X
0
.
Definici on. (Procesos con incrementos independientes y estacionarios) Si (X
t
)
t0
tiene incrementos independientes y X
t
X
s
tiene la misma distribucion que X
t+h
X
s+h
para todos s, t, h 0, s < t, se dice que el proceso tiene incrementos independientes y
estacionarios.
Teorema 64. Sea (X
t
)
t0
un proceso estocastico con incrementos independientes y
estacionarios, e Y
t
= X
t
X
0
. Entonces para cada s < t, Y
t
Y
s
es innitamente divisible.
Si h
t
es la funcion caracterstica de Y
t
y h
t
(u) es continua (o mas generalmente Borel
medible) en t para cada u jo, entonces
h
t
(u) = [h
1
(u)]
t
= exp[t log h
1
(u)],
donde log signica el unico logaritmo continuo de h
1
tal que log h
1
(0) = 0. Recpro-
camente, si h
1
es una funcion caracterstica innitamente divisible, existe un proceso es-
tocastico (Y
t
)
t0
con incrementos independientes y estacionarios tal que, para cada t, Y
t
tiene funcion caracterstica h
t
1
.
Demostracion. Si (X
t
)
t0
tiene incrementos independientes, entonces, para cada n N
Y (t) Y (s) =
n

k=1
_
Y
_
s +
k(t s)
n
_
Y
_
s +
(k 1)(t s)
n
__
,
de forma que Y (t) Y (s) es innitamente divisible. Puesto que Y (s +t) = Y (s) +(Y (s +
t) Y (s)), y que por la estacionaridad de los incrementos Y (s +t) Y (s) tiene la misma
distribucion que Y (t), se tiene que, siendo independientes los incrementos, h
s+t
(u) =
h
s
(u)h
t
(u), para cada u. Como para u jo h
t
(u) es Borel-medible en t, h
t
(u) tiene que ser
de la forma A(u) exp[B(u)t].
Puesto que Y (0) 0, hagamos t = 0 para obtener que A(u) = 1. Haciendo ahora t = 1
se obtiene que h
1
(u) = e
B(u)
, de forma que B(u) es un logaritmo de h
1
(u). Si la funcion B
fuese discontinua en alg un u
0
entonces h
t
sera discontinua en u
0
para cada t, en contra de
que h
t
es una funcion caracterstica y toda funcion caracterstica es continua. As pues, B
es continua, y siendo log h
1
y B dos logaritmos continuos de la misma funcion h
1
, se tiene
que B(u) = log h
1
(u) + i2k para alg un entero k. Por lo tanto, h
t
(u) = exp[t log h
1
(u)],
como deseabamos.
86
Recprocamente, sea h
1
una funcion caracterstica innitamente divisible y veamos
que, para cada t 0, la funcion h
t
1
es una funcion caracterstica. Siendo h
1
innitamente
divisible, dado q entero positivo, se tiene que h
1
= h
q
, para alguna funcion caracterstica
h. Pero h
1
= [exp(q
1
log h
1
)]
q
y, por tanto, h = exp(q
1
log h
1
) y, dado un n umero p
entero positivo, h
p
= exp[pq
1
log h
1
] = h
p/q
1
. Siendo h una funcion caracterstica, tambien
lo es h
p
= h
p/q
1
.
Hemos probado que, para todo racional positivo p/q, h
p/q
1
es una funcion caracterstica.
Dado t 0 existe una sucesion de racionales positivos p
n
/q
n
convergente a t. Se tiene
entonces que, para cada u jo, h
p
n
/q
n
1
(u) converge a h
t
1
(u). El teorema de L`evy prueba
entonces que h
t
1
es una funcion caracterstica.
Sea ahora (Y
t
)
t0
un proceso estocastico tal que, para cada 0 t
1
< t
2
< < t
n
, la
distribucion conjunta de Y
t
1
, ..., Y
t
n
queda especicada por el hecho de que los incrementos
Y
t
1
, Y
t
2
Y
t
1
, ..., Y
t
n
Y
t
n1
sean independientes y que cada incremento Y
t
k
Y
t
k1
tenga
funcion caracterstica (h
1
)
t
k
t
k1
. Esta especicacion satisface la condicion de consistencia
(CC) y el teorema de extension de Kolmogorov prueba la existencia de tal proceso, lo que
acaba la demostracion.
Ejemplos. (Ejemplos de aplicacion)
1) Sea h
1
(u) = exp[u
2

2
/2] la funcion caracterstica de una v.a. con distribucion
normal N(0,
2
). Entonces, h
t
1
(u) = e
u
2

2
t/2
, de forma que Y
s+t
Y
s
es normal
N(0,
2
t). Puesto que Y
t
1
, Y
t
2
Y
t
1
, ..., Y
t
n
Y
t
n1
son v.a. normales e independientes,
(Y
t
1
, Y
t
2
, ..., Y
t
n
) es normal y el proceso (Y
t
)
t0
es gaussiano. La funcion de covarian-
zas viene dada por
E(Y
s
Y
t
) = E[Y
s
(Y
t
Y
s
+Y
s
)] = E(Y
2
s
) =
2
s, s t,
de forma que (Y
t
)
t0
es un movimiento browniano. El proceso (X
0
+Y
t
)
t0
donde X
0
e (Y
t
)
t0
son independientes recibe el nombre de movimiento browniano con inicio
en X
0
.
2) Para h
1
(u) = e
|u|
, se tiene que h
t
1
(u) = e
t|u|
, e Y
t
tiene distribucion de Cauchy de
parametro t, cuya densidad es
f
t
(y) = t/(t
2
+y
2
).
El proceso (Y
t
)
t0
que se obtiene recibe el nombre de proceso de Cauchy.
3) Si h
1
(u) = exp[(e
iu
1)], h
t
1
(u) = exp[t(e
iu
1)], de forma que Y
t
tiene distribucion
de Poisson de parametro t; ademas, si 0 t
1
< < t
n
, Y
t
1
, Y
t
2
Y
t
1
, ..., Y
t
n

Y
t
n1
son independientes e Y
t
k
Y
t
k1
tiene distribucion de Poisson con parametro
(t
k
t
k1
). As pues, el proceso (Y
t
)
t0
que se obtiene es el proceso de Poisson de
promedio .
Lema 65. Si X
n
=

n
k=1
Y
k
, n = 1, 2, ... donde las Y
k
son v.a. independientes, entonces
(X
n
)
n
es un proceso de Markov.
87
Demostracion. Si C, D , entonces
P(X
n1
C, Y
n
D[Y
1
, ..., Y
n1
) = P(X
n1
C, Y
n
D[X
n1
)
ya que, por una parte,
P(X
n1
C, Y
n
D[Y
1
, ..., Y
n1
) = E(I
C
(X
n1
)I
D
(Y
n
)[Y
1
, ..., Y
n1
) = I
C
(X
n1
)E[I
D
(Y
n
)]
y, por otra
P(X
n1
C, Y
n
D[X
n1
) = E[I
C
(X
n1
)I
D
(Y
n
)[X
n1
] = I
C
(X
n1
)E[I
D
(Y
n
)].
De ello se sigue que
P[(X
n1
, Y
n
) A[Y
1
, ...Y
n
] = P[(X
n1
, Y
n
) A[X
n1
]
para cada A B(R
2
). In particular, si B , entonces
P(X
n1
+Y
n
B[Y
1
, ..., Y
n
) = P(X
n1
+Y
n
B[X
n1
).
De lo anterior se sigue el resultado pues (X
1
, ..., X
n
) = (Y
1
, ..., Y
n
) y X
n
= X
n1
+Y
n
.
Teorema 66. Todo proceso (X
t
)
t0
con incrementos independientes es un proceso de
Markov.
Demostracion. Si 0 t
1
< t
2
< < t
n
, entonces
X
t
n
=
n

k=1
(X
t
k
X
t
k1
) =
n

k=1
Y
k
,
donde las Y
k
son independientes. Por el lema anterior,
P(X
t
n
B[X
t
1
, ..., X
t
n
) = P(X
t
n
B[X
t
n1
).
Teniendo en cuenta que si (X
t
)
tI
0
es un proceso de Markov para todo subconjunto nito
I
0
de [0, +) tambien lo es (X
t
)
t0
, con lo que queda demostrado el resultado.
Lecci

on 14: Martingalas a Tiempo Continuo


En esta leccion extendemos el concepto de martingala al caso de parametro continuo y
estudiaremos ciertas propiedades de sus trayectorias.
Definici on. Sean (, /, P) un espacio de probabilidad, T un conjunto totalmente
ordenado y (X
t
)
tT
un proceso estocastico real adaptado a la familia de sub--algebras
de /, (/
t
)
tT
(i.e., tal que si s < t, /
s
/
t
y que cada X
t
es /
t
medible). Diremos
que (X
t
)
t
es una martingala respecto a (/
t
)
t
o que (X
t
, A
t
)
t
es una martingala (resp.
submartingala o supermartingala) si X
t
es Pintegrable, para cada t T, y
E(X
t
[/
s
) = X
s
(resp., E(X
t
[/
s
) X
s
o E(X
t
[/
s
) X
s
),
para cada s < t, s, t T. Diremos que (X
t
)
t
es una martingala cuando lo sea respecto a
la familia de sub--algebras ((X
s
: s t))
t
.
Observaciones. 1) Si (X
t
)
tT
es una martingala respecto a una familia (/
t
)
tT
, tambien
lo es respecto a la familia ((X
s
: s t))
tT
. En efecto, teniendo en cuenta que /
s
/
t
,
s t, tenemos que /
t
hace medibles a todas las v.a. X
s
con s t, y por tanto, (X
s
:
s t) /
t
. As pues, si t

> t,
E[X
t
[(X
s
: s t)] = E[E(X
t
[/
t
)[(X
s
: s t)] = E[X
t
[(X
s
: s t)] = X
t
.
2) Si (X
t
)
tI
es una martingala para cada subconjunto nito I de T, entonces (X
t
)
tT
es
tambien una martingala. En efecto, sean s < t y consideremos r
1
< r
2
< < r
n
= s < t;
Siendo, por hipotesis, X
r
1
, X
r
2
, ..., X
r
n
, X
t
una martingala, se tiene que, para cada A
(X
r
1
, X
r
2
, ..., X
r
n
, X
t
),
_
A
X
t
dP =
_
A
E(X
t
[X
r
1
, X
r
2
, ..., X
r
n
)dP =
_
A
X
r
n
dP =
_
A
X
s
dP,
y una aplicacion del teorema de la clase monotona probara que esa igualdad es cierta para
cada A (X
s
: s t).
3) A modo de recproco, si (X
t
)
tT
es una martingala, entonces tambien lo es (X
t
)
tI
para cada subconjunto I de T.
4) Se pueden enunciar resultados analogos a los de 2) y 3) para sub y supermartingalas.
Teorema 67. Si (X
t
)
t0
es un proceso estocastico con incrementos independientes y
E([X
t
[) < +, para cada t, entonces (X
t
E(X
t
))
t0
es una martingala.
Demostracion. Si (X
t
)
t0
tiene incrementos independientes, tambien los tendra [X
t

E(X
t
)]
t0
, por lo que podemos suponer, sin perdida de generalidad, que E(X
t
) = 0,
para cada t. Si 0 t
1
< t
2
< < t
n
< t
n+1
, entonces X
0
, X
t
1
X
0
, ..., X
t
n+1
X
t
n
son independientes, y as lo son X
t
n+1
X
t
n
y (X
0
, X
t
1
X
0
, ..., X
t
n
X
t
n1
). Siendo
(X
t
1
, ..., X
t
n
) funcion medible de (X
0
, X
t
1
X
0
, ..., X
t
n
X
t
n1
), se tiene que X
t
n+1
X
t
n
y (X
t
1
, ..., X
t
n
) son independientes, y as
E[X
t
n+1
[X
t
1
, ..., X
t
n
] = X
t
n
+E[X
t
n+1
X
t
n
[X
t
1
, ..., X
t
n
] = X
t
n
+E[X
t
n+1
X
t
n
] = X
t
n
.
88
89
A continuacion estudiaremos el comportamiento de las trayectorias para sub y supermar-
tingalas. Solo probaremos los resultados para submartingalas pues cambiando X
t
por X
t
se obtienen los correspondientes para supermartingalas.
Lema 68. (1) Sea X
1
, ..., X
n
una submartingala. Si 0, entonces
P( max
1in
X
i
)
_
{max
1in
X
i
}
X
n
dP E(X
+
n
).
(2) Si X
1
, ..., X
n
es una supermartingala y 0, entonces
P( max
1in
X
i
) E(X
1
) +E(X

n
).
Teorema 69. Sean T un intervalo de R y (X
t
)
tT
una submartingala separable. En-
tonces, para casi todo , la trayectoria de , X(, ), es acotada en cada subintervalo
acotado de T.
Demostracion. Siendo (X
t
)
t
separable, existen un conjunto denso y numerable T
0
T
y un suceso A de probabilidad nula tales que, para cada t T, existe una sucesion (t
n
)
n
en T
0
convergente a t y tal que X(t
n
, ) converge a X(t, ), para cada / A.
Si t
1
, ..., t
n
T
0
y > 0, siendo X
t
1
, ..., X
t
n
una submartingala y por el lema anterior
se tiene que
P
_
max
1in
X
t
i
>
_

1

E[X
+
t
n
], y
P
_
mn
1in
X
t
i
<
_
= P
_
max
1in
(X
t
i
) >
_

1

_
E(X
t
1
) E[(X
t
n
)

=
1

_
E(X
t
1
) +E(X
+
t
n
)

pues X
t
1
, ..., X
t
n
es una submartingala.
As, si [c, d] es un subintervalo de T y tomamos t
1
, ..., t
n
[c, d] T
0
, siendo (X
t
)
t
una
submartingala se tiene que E(X
c
) E(X
t
1
) y E(X
+
t
n
) E(X
+
d
) (pues X
+
t
1
, ..., X
+
t
n
, X
+
d

es una submartingala). De esto y de lo anterior se obtiene que
P
_
max
1in
X
t
i
>
_

1

E[X
+
d
], y P
_
mn
1in
X
t
i
<
_

1

_
E(X
c
) +E(X
+
d
)

.
Como el conjunto T
0
[c, d] es numerable, podemos tomar una enumeracion t
1
, t
2
, ... del
mismo y, haciendo tender t
n
a innito en las desigualdades anteriores se tiene que
P
_
sup
tT
0
[c,d]
X
t
>
_

1

E[X
+
d
], y P
_
nf
tT
0
[c,d]
X
t
<
_

1

_
E(X
c
) +E(X
+
d
)

.
Por separabilidad, podemos reemplazar T
0
por T para obtener
P
_
sup
tT
0
[c,d]
X
t
= +
_
= lm

P
_
sup
tT
0
[c,d]
X
t
>
_
lm

E(X
+
d
= 0 y
90
P
_
nf
tT
0
[c,d]
X
t
=
_
= lm

P
_
nf
tT
0
[c,d]
X
t
<
_
lm

_
E(X
c
) +E(X
+
d
)

= 0.
Como consecuencia de lo anterior,
P : X(, ) esta acotado en cada subintervalo acotado de T
= P
_

n=1
: X(, ) esta acotado en [n, n] T
_
= 1.
Teorema 70. Sean T un intervalo de R y (X
t
)
tT
una submartingala separable. En-
tonces, para casi todo , X(, ) no tiene discontinuidades oscilatorias, es decir,
X(t
+
, ) = lm
t

t
+
X(t

, ) y X(t

, ) = lm
t

X(t

, )
existen para todo t T.
Demostracion. Sean t
1
, ..., t
n
[c, d] T
0
, t
1
< < t
n
. Si a < b denotaremos U
a,b
la
v.a. que a cada le asocia el n umero de saltos desde debajo de a hasta encima de b en
la sucesion X
t
1
(), ..., X
t
n
(). Como X
t
1
, ..., X
t
n
es una submartingala, el teorema de
Doob prueba que
E(U
a,b
)
1
b a
E
_
(X
t
n
a)
+


1
b a
E
_
(X
d
a)
+

siendo cierta la ultima desigualdad por ser [(X


t
a)
+
]
t
una submartingala.
Hagamos tender n a innito para concluir que, para casi todo , el n umero de saltos a lo
largo de [a, b] por la sucesion X
t
() : t T
0
[c, d] es nito. De ello se deduce que existe
un suceso de probabilidad nula A tal que, si / A, la sucesion X
t
() : t T
0
[c, d]
tiene un n umero nito de saltos a lo largo de [a, b], para todos racionales a y b con a < b.
Por separabilidad, lo anterior es tambien cierto para X
t
() : t T [c, d].
Supongamos ahora que f : T R es una funcion que no tiene lmite por la izda en un
punto t; entonces podramos encontrar una sucesion (t
n
)
n
convergente a t por la izquierda
y tal que lminf
n
f(t
n
) = u < v = lmsup
n
f(t
n
). Tomemos dos racionales a y b tales que
u < a < b < v. Entonces, f(t
n
) sera menor que a innitas veces y mayor que b innitas
veces y, por tanto, f tendra un n umero innito de saltos desde debajo de a hasta encima
de b. Tomemos f = X(, ) denida en T [c, d] para concluir que para cada / A, la
funcion anterior posee lmite a la izquierda en cada t T [c, d]. La armacion para el
lmite por la derecha se hara de forma analoga. Siendo c y d arbitrarios se obtiene que,
para casi todo , X(, ) tiene lmites a la izquierda y a la derecha en todo t T.
Lecci

on 15: Tiempos de Parada


El concepto de tiempo de parada esta ntimamente relacionado con la teora de martin-
galas. En un principio solo se introdujo relacionado con procesos a tiempo discreto, pero
aqu daremos la denicion para el caso de parametro continuo y discutiremos la relacion
con el concepto de medibilidad progresiva.
Definiciones. a) Sean (, /, P) un e.p. y (/
t
)
t0
una sucesion creciente de sub--
algebras de /, es decir, tal que si s < t, /
s
/
t
. Un tiempo de parada para (/
t
)
t0
es
una funcion T : [0, +] tal que, para cada t 0, T t /
t
.
b) Dado un proceso estocastico (X
t
)
t0
denido en (, /, P), un tiempo de parada
para (X
t
)
t0
es un tiempo de parada para la sucesion de -algebras (/
t
)
t0
, siendo /
t
=
(X
s
: s t), para cada t.
c) Si A /, diremos que A en anterior a T si A T t /
t
, para cada t 0.
Denotaremos /
T
la coleccion de todos los sucesos anteriores a T; es facil probar que /
T
es una -algebra.
Teorema 71. a) Si S y T son tiempos de parada tambien lo son S T = mn(S, T)
y S T = max(S, T). En particular, si t 0 y T es un tiempo de parada, tambien lo es
T t.
b) Si T es un tiempo de parada, entonces T : (, /
T
) ([0, +], B([0, +])) es una
v.a., es decir, T es /
T
-medible.
c) Sean T un tiempo de parada y S una v.a.r. no negativa con S T. Si S es /
T
-
medible entonces S es un tiempo de parada.
d) Si S y T son tiempos de parada y A /
S
entonces A S T /
T
.
e) Si S y T son tiempos de parada y S T entonces /
S
/
T
.
Demostracion. a) Si t 0,
S T t = S t T t /
t
y
S T t = S t T t /
t
b) Si r es un n umero real,
T r T t = T r t /
rt
/
t
.
As pues, para cada r R, T r /
T
.
c) Si t 0,
S t = S t T t.
Siendo S /
T
-medible, S t /
T
y, por tanto, S t T t /
t
. Luego S es un
tiempo de parada para (/
t
)
t0
.
d) Se tiene que
A S T T t = A S T T t S T T t,
pero AS T /
t
(pues A /
S
y T t /
t
. Ademas T t r = T r t
/
rt
/
t
y, de forma analoga, S t r /
t
. As pues, T t y S t son /
t
-medibles
y, de todo lo anterior se sigue que
A S T T t /
t
, t 0 i.e.
91
92
A S T /
T
.
e) Si A /
S
entonces A = A = A S T /
T
por d).
Si (X
t
)
t0
es un proceso adaptado a (/
t
)
t0
y T es un tiempo de parada nito para
(/
t
)
t0
es natural considerar el valor X
T
del proceso cuando ocurren paradas; si T() = t
denimos X
T
() = X
t
(). Sera deseable que X
T
fuese una v.a.. Veamos que para un
proceso progresivamente medible eso se verica.
Teorema 72. Sea (X
t
)
t0
un proceso progresivamente medible adaptado a la familia
de -algebras (/
t
)
t0
. Si T es un tiempo de parada nito para (/
t
)
t0
entonces X
T
es
/
T
-medible.
Demostracion. Queremos probar que si B entonces X
T
B /
T
. Pero
X
T
B T t = X
Tt
B T t
y es suciente probar que X
Tt
B /
t
, para cada t, en otras palabras, que X
Tt
es /
t
-
medible para cada t. Pero X
Tt
es la composicion de la funcion ((T t)(), ), que es
una funcion medible de (, /
t
) en ([0, t] , B([0, t]) /
t
), y la funcion (s, ) X
s
(),
que es una funcion medible de ([0, t] , B([0, t]) /
t
) en (R, B(R)), por la hipotesis de
medibilidad progresiva.

También podría gustarte