Está en la página 1de 94

DE

AMPLIACION

PROCESOS ESTOCASTICOS

Paloma Perez Fern


andez
5o
de
Matem
a
ticas

i
Indice

Captulo I: TEORIA L2 DE PROCESOS ESTOCASTICOS


Leccion 1: Introduccion. . . . . . . . . . . . . . . . . . .
Leccion 2: Funciones de Covarianza. . . . . . . . . . . .
Leccion 3: Ejemplos. . . . . . . . . . . . . . . . . . . . .
Leccion 4: Calculo de Segundo Orden. . . . . . . . . . .
Leccion 5: Desarrollo de KarhunenLo`eve. . . . . . . . .
Leccion 6: Problemas de Estimacion. . . . . . . . . . . .
Leccion 7: El filtro de Kalman. . . . . . . . . . . . . . .

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

1
2
9
16
24
29
34
37

Captulo II: ANALISIS


DE LAS TRAYECTORIAS DE PROCESOS ESTOCASTICOS A TIEMPO CONTINUO
Leccion 8: Separabilidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Leccion 9: Medibilidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Leccion 10: Analisis de las trayectorias en un movimiento browniano. . . . . . . .
Leccion 11: Ley del logaritmo iterado: aplicacion al movimiento browniano. . . .

44
45
53
57
63

Captulo III: ALGUNOS TIPOS ESPECIALES DE PROCESOS ESTOCASTICOS


A
TIEMPO CONTINUO
Leccion 12: Procesos de Markov. Cadenas de Markov en tiempo continuo. . . . .
Leccion 13: Procesos con Incrementos Independientes. . . . . . . . . . . . . . . .
Leccion 14: Martingalas a Tiempo Continuo. . . . . . . . . . . . . . . . . . . . .
Leccion 15: Tiempos de Parada. . . . . . . . . . . . . . . . . . . . . . . . . . . . .

67
68
84
88
91

Captulo I

TEORIA L2 DE PROCESOS ESTOCASTICOS

I.1. Introducci
on: Introduccion a la teora de procesos estocasticos: Definiciones de
proceso estocastico y distribuciones finito-dimensionales; teorema de extension de
Kolmogorov; procesos equivalentes y modificacion de un proceso. La distribucion
normal en Rn .
I.2. Funciones de Covarianza: L2 procesos y funciones de covarianza. Estacionaridad.
Caracterizacion analtica de las funciones de covarianza: Teoremas de Herglotz y
Bochner.
I.3. Ejemplos de L2 procesos: Proceso de Poisson. Movimiento browniano o Proceso
de Wiener.
I.4. C
alculo de segundo orden: L2 continuidad, L2 diferenciabilidad, L2 integraci
on.
I.5. Desarrollo de KarhunenLo`
eve: Teorema de KarhunenLo`eve. Versi
on del teorema para procesos gaussianos. Ejemplo.
I.6. Problemas de estimaci
on: Estimaciones basadas en operaciones lineales o en
operaciones Borelmedibles de las Xt . Relaciones entre ambas. Ejemplo.
I.7. El filtro de Kalman: Estimador lineal de mnima varianza: teorema de Gauss
Markov. Teorema de actualizacion estatica. El filtro de Kalman: teorema de Kalman.
Referencias captulo I: Ash, Gardner (1975), Catlin (1989).

n 1: Introduccio
n.
Leccio
n. (Proceso estocastico) Sean T un conjunto de ndices, (, A, P ) un espacio
Definicio
de probabilidad y (0 , A0 ) un espacio medible. Un proceso estocastico (sobre T ) es una
familia (Xt )tT de v.a. definidas en (, A, P ) y a valores en (0 , A0 ). Cuando deseemos
mas precision, llamaremos proceso estocastico la cuaterna
(, A, P, (Xt )tT ).
suele llamarse espacio muestral del proceso. 0 es el espacio de los estados. Para cada
, la aplicacion t T Xt () se llamara trayectoria de . T suele llamarse espacio
temporal del proceso.
Observaciones. 1) La nocion de proceso estocastico constituye un modelo matematico
para representar el estado de un sistema dependiente de un parametro (generalmente, el
tiempo t) y del azar. Un tal modelo se presenta de forma natural como una aplicacion
(t, ) X(t, ) definida en T y a valores en 0 que describe los estados del sistema.
En un instante t fijo, el estado del sistema depende u
nicamente del azar, y queda descrito
por el hecho de que X(t, ) es una v.a. que en la definicion anterior hemos denotado por
Xt . Por ello, Xt suele llamarse estado del sistema en el instante t.
2) Puede darse una definicion mas general de proceso estocastico haciendo depender
del tiempo el espacio de estados (es decir, suponiendo que Xt es una v.a. en y a valores
en un cierto espacio medible (t , At )). Este no sera, sin embargo, normalmente el caso.
Incluso, el espacio de los estados (0 , A0 ) es frecuentemente un espacio discreto o un espacio
eucldeo. Si (0 , A0 ) = (R, R) diremos que (Xt ) es un proceso estocastico real.
3) Normalmente T sera un subconjunto de R: bien un intervalo de R (casi siempre
sera un intervalo de [0, +[) en el caso de parametro continuo, bien un intervalo de Z
(casi siempre de N) en el caso de parametro discreto.
n. (Distribuciones finito-dimensionales de un proceso) Si (Xt ) es un proceso
Definicio
estocastico como en la definicion anterior, llamaremos distribuciones finito-dimensionales
a las distribuciones conjuntas de las subfamilias finitas de (Xt )tT . As, si t1 , . . . , tn T ,
0
la distribucion de probabilidad P(t1 ,...,tn ) definida para C A n por
P(t1 ,...,tn ) (C) = P [(Xt1 , . . . , Xtn ) C]
es una distribucion finito-dimensional del proceso.
Observaci
on. La familia de las distribuciones finito-dimensionales de un proceso constituye uno de los aspectos mas importantes del mismo pues esta familia determina el
proceso en alg
un sentido a precisar posteriormente y, porque en la practica, realizando un
n
umero suficientemente grande de pruebas independientes, es posible estimar con precision
arbitraria probabilidades del tipo P(t1 ,...,tn ) (C) y, en general, nada mas se puede obtener
de las observaciones.
Nuestro objetivo inmediato consiste en obtener el teorema de extension de Kolmogorov
que resuelve el problema de caracterizar el proceso en terminos de sus distribuciones finitodimensionales. Notemos en primer lugar que las distribuciones finito-dimensionales del

3
proceso (Xt ) satisfacen lo siguiente:
i) Si es una permutacion en {1, . . . , n} y H1 , . . . , Hn A0 , entonces los sucesos
{(Xt1 , . . . , Xtn ) H1 Hn } y {(Xt(1) , . . . , Xt(n) ) H(1) H(n) }
coinciden y, en particular
P(t1 ,,...,tn ) (H1 Hn ) = P(t(1) ,...,t(n) ) (H(1) H(n) ).
ii) P(t1 ,...,tn1 ) (H1 Hn1 ) = P(t1 ,...,tn ) (H1 Hn1 0 ).
La condicion i) anterior nos permite considerar u
nicamente las distribuciones finitodimensionales de la forma P(t1 ,,...,tn ) tales que t1 < . . . < tn (si T no fuese un subconjunto de R, considerar en T un orden total arbitrario), pues estas determinan todas las
demas. Fijemos algunas notaciones mas comodas. Si V = {t1 , . . . , tn } es un subconjunto finito de T con t1 < . . . < tn denotaremos por PV la probabilidad P(t1 ,...,tn ) ; si
U = {ti1 , . . . , tir } V y ti1 < . . . < tir , entonces denotaremos por pr(V,U ) la aplicacion
a la apli(xt1 , . . . , xtn ) Rn (xti1 , . . . , xtir ) Rr . Si V es como antes, prV denotar
T
n
cacion x R (xt1 , . . . , xtn ) R . De acuerdo con estas notaciones, la condicion ii)
anterior afirma que la distribucion de probabilidad de la v.a. pr(V,{t1 ,...,tn1 }) respecto a
PV es P(t1 ,...,tn1 ) . De i) e ii) se sigue tambien que si V y U son como antes entonces PU
es la distribucion de probabilidad de pr(V,U ) respecto a PV .
La construccion estandar de procesos estocasticos utiliza espacios producto.
n. Sea T un conjunto no vaco y supongamos que, para cada t T , (t , At )
Definicio
Q
es un espacio medible. Denotaremos = tT t . Llamaremos cilindro medible n-dimensional
en a un subconjunto de de la forma
c(B) = { : (t1 , . . . , tn ) B}
Q
donde B ni=1 Ati (se dice tambien que c(B) es un cilindro de base B). Si B = B1
Bn donde
Bi Ati , 1 i n, diremos que c(B) es un rectangulo medible. Denotaremos
Q
por tT At la -algebra en engendrada por los cilindros medibles en .
Observaciones. 1) Con las notaciones de la definicion anterior, tanto la familia de los
cilindros medibles en como la de las uniones finitas de rectangulos medibles en son
algebras en que engendran la -algebra producto.
2) Si todos los espacios medibles (t , At ) coinciden con un cierto espacio medible
(, A), el espacio medible producto lo denotaremos por (T , AT ).
Pretendemos ahora construir en (RT , RT ) una probabilidad a partir de probabilidades
P(t1 ,...,tn ) en Rn definidas para cada coleccion creciente de ndices t1 < . . . < tn y cada
n N, supuesto que estas probabilidades satisfacen una cierta condicion de consistencia.
Antes de enunciar y probar el teorema de extension de Kolmogorov recordaremos
algunos conceptos y resultados de teora de la medida que necesitaremos en la demostracion de ese teorema: si A0 es un algebra de partes de un conjunto , una funcion
de conjuntos : A0 [0, +] se dice numerablemente aditiva si para cada sucesion
finita o infinita numerable y disjunta (An )n en A0 tal que n An A0 se verifica que

4
P
(n An ) = n (An ). Se prueba que si es una medida finitamente aditiva en el algebra
A0 y es continua por arriba en el vaco (es decir, para cada sucesion (An ) en A0 decreciente a se verifica que lmn (An ) = 0) entonces es numerablemente aditiva. El teorema
de extension de Caratheodory afirma que si es una medida (es decir, una funcion de
conjuntos numerablemente aditiva) en un algebra A0 y si es finita, entonces admite
una u
nica extension a una medida en la algebra (A0 ) engendrada por A0 . Necesitaremos tambien el siguiente resultado: Si es una medida finita en la
algebra Rn de
Borel en Rn , entonces es interiormente regular, es decir, para cada boreliano B en Rn ,
(B) = sup{(K) : K compacto B}.
Teorema 1. (De extension de Kolmogorov: 1a versi
on) Sea T un conjunto no vaco y
supongamos que, para cada subconjunto finito no vaco V de T , PV es una probabilidad en
Rn si V tiene n elementos. Supongamos que estas probabilidades satisfacen la condicion
de consistencia:
(CC) Para cada subconjunto U no vaco de V la distribucion de probabilidad de pr(V,U )
respecto a PV es PU .
Entonces existe una u
nica probabilidad P en RT tal que, para cada subconjunto finito
V de T , la distribucion de prV respecto a P coincide con PV , es decir, tal que para cada
n N, cada sucesion finita creciente t1 < . . . < tn en T y cada H Rn se verifica que
P ({x RT : (xt1 , . . . , xtn ) H} = P(t1 ,...,tn ) (H).
Demostraci
on. Si A es un cilindro n-dimensional de la forma
A = {x RT : (xt1 , . . . , xtn ) H}
con t1 < . . . < tn y H Rn definimos P (A) = P(t1 ,...,tn ) (H). Debemos probar en primer
lugar que esta definicion no depende de la representaci
on del cilindro A. Supuesto que
tambien A = {x RT : (xs1 , . . . , xsm ) H 0 } con s1 < . . . < sm y H 0 Rm , hagamos
{u1 , . . . , ur } = {t1 , . . . , tn } {s1 , . . . , sm }
con r max(m, n) y u1 < . . . < ur ; sean tambien 1 m1 < . . . < mn r tales que
ti = umi , 1 i n. Entonces
A = {x RT : (xt1 , . . . , xtn ) H}
= {x RT : (xum1 , . . . , xumn ) H}
= {x RT : (xu1 , . . . , xur ) H1 }
1
donde H1 = {(xu1 , . . . , xur ) Rr : (xum1 , . . . , xumn ) H}, es decir, H1 = pr(V,U
) (H)
donde V = {u1 , . . . , ur } y U = {um1 , . . . , umn } = {t1 , . . . , tn }. La condicion de consistencia
prueba que P(t1 ,...,tn ) (H) = PV (H1 ). Analogamente se prueba que P(s1 ,...,sm ) (H 0 ) = PV (H10 )
donde H10 = {(xu1 , . . . , xur ) Rr : (xs1 , . . . , xsm ) H 0 } = H1 . Luego la definicion de
P (A) es correcta. Sean ahora A y B cilindros medibles disjuntos. Puesto que todo cilindro
k-dimensional puede considerarse obviamente como m-dimensional para cada m k,
podemos suponer que los ndices que definen A y B son los mismos:

A = {x RT : (xt1 , . . . , xtn ) HA },

B = {x RT : (xt1 , . . . , xtn ) HB }.

5
Siendo A B = debe ser HA HB = y, entonces
P (A B) = P(t1 ,...,tn ) (HA HB ) = P (A) + P (B)
que prueba que P es finitamente aditiva en el algebra A0 de los cilindros medibles. Se
sigue tambien que P (RT ) = 1. Si probamos que P es numerablemente aditiva en A0 ,
el teorema de extension de Caratheodory asegurara la existencia de una extension de P
a una probabilidad en RT . Basta para ello probar que si (An )n es una sucesion en A0
decreciente a entonces lmn P (An ) = 0. Supongamos que, por el contrario, existe > 0
tal que P (An ) para cada n N. Podemos suponer sin perdida de generalidad que
existe una sucesion (tn )n en T tal que
An = {x RT : (xt1 , . . . , xtn ) Hn }
con Hn Rn para cada n N. Entonces P (An ) = P(t1 ,...,tn ) (Hn ), n. La regularidad
interior de las P(t1 ,...,tn ) prueba que existen compactos Kn Hn tales que
P(t1 ,...,tn ) (Hn \ Kn ) < /2n+1 ,

n.

Si Bn = {x : (xt1 , . . . , xtn ) Kn } entonces P (An \ Bn ) < /2n+1 . Sea Cn = nk=1 Bk .


Entonces Cn Bn An y P (An \ Cn ) < /2. Luego P (Cn ) > /2 > 0 y, en particular,
Cn 6= . Sea x(n) Cn , n N. Si n k entonces x(n) Cn Ck Bk y, por tanto,
(n)

(n)

(xt1 , . . . , xtk ) Kk .
(n)

Puesto que Kk es acotado, la sucesion (xtk )nN es acotada para cada k N. Por un
(n )

procedimiento diagonal, elijamos n1 < n2 < . . . en N tales que lmi xtk i exista para cada
(n )

k N. Sea x RT tal que xtk = lmi xtk i para cada k. Entonces, para cada k N,
(n )

(n )

(xt1 , . . . , xtk ) = lm(xt1 i , . . . , xtk i ) Kk .


i

Luego x Bk Ak , k, en contra de que k Ak = . De esta contradicci


on se sigue que
P admite una extension a una probabilidad en RT que satisface la tesis por definicion.
Finalmente, si P y Q son dos probabilidades en RT satisfaciendo el teorema, entonces
coinciden sobre los cilindros medibles y, por tanto, en RT por la unicidad en el teorema
de Caratheodory.
Observaci
on. Supongamos que Pt es una probabilidad
Qn en R para cada t T . Aplicando
el teorema anterior a las probabilidades producto i=1 Pti se obtiene un teorema de la
medida producto en el caso de una cantidad arbitraria de factores.
Consideremos ahora las aplicaciones coordenadas Zt : x RT xt R. Si (PV )V finito T
es una familia de probabilidades que satisface las hipotesis del teorema anterior y si P es
la probabilidad en RT que proporciona dicho teorema, entonces para cada n N, cada
sucesion finita creciente t1 < . . . < tn en T y cada H Rn se verifica que
P [(Zt1 , . . . , Ztn ) H] = P(t1 ,...,tn ) (H).
As pues, (RT , RT , P, (Zt )tT ) es un proceso estocastico cuyas distribuciones finito-dimensionales
son precisamente las PV . Podemos entonces enunciar el siguiente teorema, que asegura la
existencia de un proceso estocastico con unas distribuciones finito-dimensionales dadas de
antemano (supuesto que estas verifican una condicion de consistencia).

6
Teorema 2. (de extension de Kolmogorov: 2a versi
on) Si (PV )V finito T es una familia de probabilidades que satisfacen la condicion de consistencia (1) del teorema anterior, entonces existe un proceso estocastico (, A, P, (Xt )tT ) cuyas distribuciones finitodimensionales son precisamente las PV .
Demostraci
on. Consideremos las aplicaciones coordenadas Zt : x RT xt R.
Dichas aplicaciones son medibles. Si (PV )V finito T es una familia de distribuciones de
probabilidad satisfaciendo la condicion de consistencia del teorema anterior y si P es la
probabilidad en RT cuya existencia se asegura en ese teorema entonces, si n N y si
t1 < . . . < tn se tiene que
P ({x RT : (Zt1 (x), . . . , Ztn (x)) H}) = P(t1 ,...,tn ) (H)
para cada H Rn lo que prueba que (RT , RT , P, (Zt )tT ) es un proceso estocastico cuyas
distribuciones finito-dimensionales son precisamente las PV .
Las definiciones siguientes precisan hasta que punto un proceso estocastico queda determinado por sus distribuciones finito-dimensionales.
n. a) Consideremos dos procesos estocasticos reales sobre el mismo espaDefinicio
cio temporal (, A, P, (Xt )tT ) y (0 , A0 , P 0 , (Xt0 )tT ). Diremos que dichos procesos son
equivalentes si
P (Xt1 A1 , . . . , Xtn An ) = P 0 (Xt01 A1 , . . . , Xt0n An )
para cada subconjunto finito {t1 , . . . , tn } de T y cada familia finita A1 , . . . , An en R.
b) Sean (Xt )tT e (Yt )tT dos procesos estocasticos reales en el mismo espacio probabilstico (, A, P ) y sobre el mismo espacio temporal T . Diremos que (Yt ) es una modificacion de (Xt ) si Xt = Yt P -c.s. para cada t T . Diremos que dichos procesos son
P -indistinguibles si existe A A tal que P (A) = 0 y Xt () = Yt () para cada Ac y
cada t T .
Veamos algunas observaciones interesantes sobre lo que hemos visto hasta ahora.
Observaciones. 1) Hemos definido un proceso estocastico como una familia (Xt )tT de
v.a. (supongamoslas reales) en (, A, P ). Hemos observado tambien que podemos mirar
este proceso como una aplicacion X : (t, ) T X(t, ) R donde, para
cada t, X(t, ) es una v.a.r. en . Una tercera va puede ser la siguiente: consideremos la
aplicacion X que a cada asocia la aplicacion t T Xt (); X, as definida es
una aplicacion de en el conjunto RT de las aplicaciones de T en R. Es facil ver que una
aplicacion F : (, A) (RT , RT ) es una v.a. sii Zt (F ) lo es para cada t T , donde Zt
denota (y denotara en lo que sigue) como antes la aplicacion coordenada t-esima en RT .
Por tanto, podemos pensar en un proceso estocastico real tambien como una v.a. X de
(, A, P ) en (RT , RT ). Visto de este modo, el proceso recibe a veces el nombre de funcion
aleatoria.
2) (Proceso canonico asociado a un proceso dado) Sea (, A, P, (Xt )tT ) un proceso estocastico real sobre T . Denotemos por X la v.a. de (, A) en RT definida por
X()(t) = Xt (). Consideremos la distribucion de probabilidad P X en RT de X respecto a P . Consideremos en fin las aplicaciones Zt de la observaci
on anterior. El proceso

7
estocastico (RT , RT , P X , (Zt )tT ) se llama proceso canonico asociado al proceso (Xt ). Es
claro que todo proceso estocastico real es equivalente a su proceso canonico y que dos
procesos reales son equivalentes sii tienen el mismo proceso canonico asociado.
3) Ya hemos observado anteriormente que las distribuciones finito-dimensionales de
un proceso estocastico real constituyen uno de los aspectos fundamentales del mismo en
virtud del teorema de Kolmogorov (que asegura unicidad salvo equivalencia). No obstante,
la nocion de distribucion finito-dimensional resulta ser insuficientemente precisa a la hora
de abordar algunas cuestiones interesantes tambien en teora de procesos estocasticos
como posibles propiedades de regularidad de las trayectorias (p. ej., continuidad de las
trayectorias si T es un intervalo de R). Hagamos, p. ej., = [0, 1] = T , A = R([0, 1]) y
sea P la medida de Lebesgue en [0, 1]; consideremos dos procesos reales (Xt )tT y (Yt )tT
definidos en para t T y por
(
= 1 si t =
Xt () = 0 e Yt () =
= 0 si t 6= .
Dichos procesos tienen entonces las mismas distribuciones finito-dimensionales (es decir,
son equivalentes); incluso, uno es modificacion del otro. Sin embargo, Xt tiene todas sus
trayectorias continuas (es decir, para cada , la aplicacion t Xt () es continua) mientras que las del segundo son discontinuas. Este mismo ejemplo prueba que la nocion de
modificacion de un proceso tampoco es lo suficientemente precisa en este tipo de problemas. La nocion de procesos indistinguibles da la mayor precision posible desde el punto
de vista probabilstico: dos procesos indistinguibles son realmente el mismo proceso. Notemos aqu que, a veces, se llama equivalencia de procesos lo que aqu hemos llamado
modificacion de un proceso.
Para finalizar esta leccion haremos un repaso de algunos aspectos de la distribucion
Normal en Rn . A la hora de construir procesos gaussianos, en general, y el movimiento
browniano, en particular, tendremos que hacer referencia a la distribucion normal multivariante.
En lo que sigue utilizaremos la siguiente notacion matricial: los puntos u de Rn y las
v.a. ndimensionales X se consideraran como vectores columna y usaremos los smbolos
ut y X t para los correspondientes vectores fila.
n. Una v.a. ndimensional X, definida en alg
un espacio de probabilidad
Definicio
(, A, P ), se dice normal si su funcion caracterstica es de la forma
tX

: u Rn (u) = E[eiu

1
] = exp{iut b ut Cu}
2

donde b Rn y C es una matriz real cuadrada de orden n simetrica y semidefinida positiva


(i.e., C = C t y ut Cu 0, u Rn ). Se dice, en concreto, que X tiene una distribucion
normal de media b y matriz de covarianzas C y se escribe X Nn (b, C).
Observaciones. 1) Sean A una matriz de orden m n, b Rm y X 0 una v.a. n
dimensional cuyas componentes son v.a.r. independientes y normalmente distribuidas con
media cero. Sea X = AX 0 + b. Entonces X es una v.a. mdimensional normal de media b
y matriz de covarianzas C = ADAt , donde D es la matriz diagonal en la que los elementos
de la diagonal son las varianzas k de las Xk0 , 1 k n.

8
2) A modo de recproco, si X es una v.a. normal ndimensional Nn (b, C), entonces
existen una matriz cuadrada A de orden n que podemos elegir ortogonal y una v.a. n
dimensional X 0 cuyas componentes son v.a.r. independientes normalmente distribuidas
con media cero tales que X = AX 0 + b.
En efecto, siendo C simetrica es diagonalizable y existe entonces una matriz ortogonal
A tal que D := At CA es diagonal (los elementos de la diagonal son los autovalores de C).
Tomando X 0 = At (X b), se tiene que X = AX 0 + b (A es ortogonal, i.e., A1 = At ). Calculando la funcion caracterstica de X 0 se prueba que sus componentes son independientes
y normales con media cero.
3) Se sigue de 2) que si X Nn (b, C) entonces X tiene media b y matriz de covarianzas
C.
4) Un argumento analogo al utilizado en 2) prueba la existencia de v.a. ndimensionales
con funcion caracterstica exp{iut b 21 ut Cu}, siendo b Rn y C una matriz cuadrada de
orden n simetrica y semidefinida positiva.
5) Se prueba que una v.a. n dimensional X es normal si y solo si ut X es una v.a.r.
normal (posiblemente degenerada) para cada u Rn .

n 2: Funciones de Covarianza.
Leccio
En lo que sigue, (, A, P ) sera un espacio de probabilidad en el que estaran definidas
todas las v.a. que consideremos, salvo que explcitamente se indique otra cosa. Supondremos conocidos la definicion de proceso estocastico, la nocion de distribuciones finito
dimensionales y el teorema de extension de Kolmogorov.
n. (L2 proceso estocastico) Un L2 proceso estocastico es una familia (Xt )tT
Definicio
de v.a. reales o complejas tales que k Xt k22 = E(|Xt |2 ) < , t T .
A partir de ahora solo consideraremos L2 procesos estocasticos.
n. (Funcion de covarianzas) La funcion de covarianzas de un L2 proceso
Definicio
estocastico es la aplicacion
K : (s, t) T T K(s, t) = Cov (Xs , Xt ) = E[(Xs m(s))(Xt m(t))]
donde m(t) = E(Xt ), t T .
Observaciones. 1) K(s, t) es, entonces, el producto escalar (en L2 (, A, P ; C)) de Xs
m(s) y Xt m(t).
2) Es claro que K(s, t) = E(Xs Xt ) m(s)m(t).
3) Por la desigualdad de CauchySchwartz, se tiene que
|K(s, t)|2 k Xs m(s) k22 k Xt m(t) k22 = K(s, s)K(t, t).
Definiciones. (Estacionariedad) Supongamos que T es un intervalo de R.
a) El L2 proceso (Xt )tT se dice estacionario en sentido amplio si m(t) es constante
para todo t y K(s, t) = K(s + h, t + h), para todos s, t y h tales que s, t, s + h, t + h T .
Dicho de otro modo, si m(t) es constante en T y K(s, t) solo depende de s y t a traves de
s t. En ese caso, escribiremos K(t) = K(s + t, s).
b) El proceso (Xt )tT se dice estrictamente estacionario si las distribuciones finito
dimensionales tienen la propiedad:
P (Xt1 ,...,Xtn ) = P (Xt1 +h ,...,Xtn +h )
para todos n = 1, 2, ... y t1 , ..., tn , h tales que t1 < < tn y ti , ti + h T , 1 i n.
Observaciones. 1) Para un proceso estacionario en sentido amplio, haciendo m(t) = m,
t T , la desigualdad de CauchySchwartz prueba que
|K(t)| K(0) = E[|Xs m|2 ] t, s T.
2) Si (Xt )tT es un proceso estrictamente estacionario, entonces la distribucion conjunta
de Xt1 , ..., Xtn solo depende de los ti a traves de las diferencias t2 t1 , t3 t2 , ..., tn tn1 .
3) Todo proceso estrictamente estacionario es estacionario en sentido amplio. En efecto,
Z
Z
(Xs ,Xt )
E(Xs Xt ) = xydP
(x, y) = xydP (Xs+h ,Xt+h ) (x, y) = E(Xs+h Xt+h )
9

10
y, analogamente,
E(Xt ) = E(Xt+h ).
4) El recproco de 3) no es, en cambio, cierto. Supongamos, por ejemplo, los Xt reales independientes con media 0 y varianza 1. Entonces, K(t) = E(Xs+t Xs ) = E(Xs+t )E(Xs ) =
0, si t 6= 0 y K(0) = 1. Pero el proceso no es necesariamente estrictamente estacionario:
podemos tomar, por ejemplo, Xt con distribucion normal N (0, 1) si t 0 y Xt uniformemente distribuida (en un intervalo apropiado) si t > 0, con lo cual P Xt depende de
t.
5) Convencion: En este captulo, estacionario significara estacionario en sentido amplio.
6) Una funcion de covarianzas satisface siempre K(s, t) = K(t, s). En el caso estacionario ello se traduce en K(t) = K(t). Entonces, K(t, t) = K(t, t) es real y, en el
caso estacionario, K(0) es real. As pues, la funcion de covarianzas de un L2 proceso es
simetrica (i.e., K(t, s) = K(s, t)).
Veamos que, tambien, K es semidefinida positiva, es decir, n N, t1 , ..., tn T ,
a1 , ..., an C,
n
X
aj K(tj , tk )ak
j,k=1

es real y mayor o igual que 0; notese, en efecto, que si Xt = Xt E(Xt ), entonces,


2

n
n
n
X
X

aj K(tj , tk )ak = E
aj Xtj ak Xtk = E
aj Xtj 0.
j=1

j,k=1
j,k=1
Veamos, a continuacion, que el ser K simetrica y semidefinida positiva es condicion suficiente para que exista un L2 proceso estocastico cuya funcion de covarianzas es K.
Teorema 3. Sea K = K(s, t), s, t T , una funcion Cvalorada en T T que es
simetrica y semidefinida positiva. Existe entonces un L2 proceso (Xt )tT cuya funcion de
covarianzas es K (T es un conjunto de ndices arbitrario; no tiene porque ser un subconjunto de R).
Demostraci
on. Supongamos en primer lugar que K es Rvalorada. Dados t1 , ..., tn T
con t1 < < tn , sea Pt1 ,...,tn una distribucion normal ndimensional con media cero y
matriz de covarianzas (K(tj , tk ))nj,k=1 . Si i1 , ..., ip {1, ..., n} e i1 < < ip entonces la
distribucion de la v.a.
(x1 , ..., xn ) Rn (xi1 , ..., xip ) Rp
respecto a Pt1 ,...,tn es la distribucion Pti1 ,...tip normal pdimensional de media cero y matriz
de covarianzas (K(tij , tik ))pj,k=1 .
Entonces, la condicion de consistencia de Kolmogorov se verifica es para la familia
(Pt1 ,...tn )t1 <<tn ,n1 as definida y el teorema de extension de Kolmogorov acaba la prueba
en este caso.
En el caso complejo hagamos K = K1 + iK2 . Si cj = aj + ibj , 1 j n,
n
X
j,k=1

cj K(tj , tk )ck =

n
X
j,k=1

K1 (tj , tk )(aj ak + bj bk ) +

n
X
k,j=1

K2 (tj , tk )(aj bk ak bj )

11
(nos quedamos solo con la parte real pues sabemos que K es semidefinida positiva). La
suma anterior se puede expresar matricialmente como dt Ld donde

aj
si 1 j n
dj =
y
bjn si n + 1 j 2n

L=

(K1 (tj , tk )nj,k=1 ) (K2 (tj , tk )nj,k=1 )


(K2 (tj , tk )nj,k=1 ) (K1 (tj , tk )nj,k=1 )

Notese que el elemento (n + j, k), 1 j, k n, de L es K2 (tj , tk ) = K2 (tk , tj ) por ser


K simetrica; entonces L es tambien simetrica. Ademas, siendo K semidefinida positiva, L
tambien lo es. Sean, ahora, Yt1 , ..., Ytn , Zt1 , ..., Ztn v.a.r. con distribucion conjunta normal
de media cero y matriz de covarianzas L/2. Hagamos Xtj = Ytj iZtj , 1 j n.
Entonces las Xtj son v.a. complejas con distribucion conjunta normal (i.e., las partes
reales e imaginarias Yt1 , ..., Ytn , Zt1 , ..., Ztn de las Xtj tienen distribucion conjunta normal)
con matriz de covarianzas (K(tj , tk )nj,k=1 ). La condicion de consistencia de Kolmogorov se
prueba en este caso de forma analoga al caso real y el teorema de extension de Kolmogorov
acabara la prueba.
Observaciones. 1) Convendremos en lo sucesivo que, salvo que se indique lo contrario,
un vector aleatorio gaussiano consiste en v.a. reales (y no complejas) con distribucion
conjunta normal.
2) Llamaremos proceso gaussiano a todo proceso estocastico cuyas distribuciones finito
dimensionales sean todas normales. Para un proceso gaussiano de media cero, la funcion de
covarianzas determina completamente todas las distribuciones finitodimensionales con lo
cual, estacionaridad en sentido amplio es equivalente a estacionaridad estricta para estos
procesos.
3) No cabe hacer afirmacion alguna sobre unicidad en el teorema anterior. De hecho,
la demostracion prueba que para cada L2 proceso existe un proceso gaussiano complejo
con la misma funcion de covarianzas que aquel.
4) Si T es un intervalo real y (Xt )tT es un L2 proceso estacionario con covarianza
K = K(t) = Cov
Pn [Xs+t , Xs ], entonces K es simetrica (i.e., K(t) = K(t)) y semidefinida
positiva (i.e., j,k=1 aj K(tj tk )ak 0, t1 , ..., tn T , a1 , ..., an C, n 1). Recprocamente, sean T un intervalo real e I = {u v : u, v T }. Si K es una funcion compleja,
definida en I, simetrica y semidefinida positiva, entonces existe un L2 proceso estacionario
(Xt )tT con funcion de covarianzas K; en efecto, si hacemos K (s, t) = K(s t), s, t T ,
entonces K es simetrica y semidefinida positiva y, por tanto, existe un L2 proceso (Xt )tT
tal que
Cov (Xs+t , Xs ) = K (s + t, s) = K(t).
En lo que sigue, T sera o bien Z (en el caso de parametro discreto) o bien R (en el caso de
parametro continuo). Pretendemos obtener una caracterizacion analtica de las funciones
de covarianza estacionarias; concretamente, la clase de las funciones de covarianza de L2
procesos estacionarios coincide exactamente con la clase de las transformadas de Fourier
de medidas finitas en B([, ]) para el caso discreto y en R para el caso continuo.
Necesitaremos algunas propiedades de funciones semidefinidas positivas.
Lema 4. Si K es una funcion compleja semidefinida positiva en T (= Z o R), entonces:

12
(a) K(0) 0;
(b) K(u) = K(u), es decir, K es automaticamente simetrica;
(c) |K(u)| K(0), y
(d) |K(u) K(v)|2 2K(0)[K(0) Re K(u v)], con lo cual, si T = R y K es continua
en 0, entonces es uniformemente continua en R.
Demostraci
on. Recordemos que el que K sea semidefinida positiva significa que
(1)

n
X

zj K(tj , tk )zk 0,

t1 , ..., tn T,

z1 , ..., zn C,

n N.

j,k=1

(a) Basta tomar n = 1, z1 = 1 y t1 = 0 en la expresion anterior.


(b) Tomando n = 2, z1 = z2 = i, t1 = 0 y t2 = u, se obtiene de (1) que 2K(0) +
K(u) + K(u) 0, con lo cual, en virtud de (a), K(u) + K(u) es real y, entonces,
Im K(u) = Im K(u). Tomando ahora n = 2, z1 = 1, z2 = i, t1 = u y t2 = 0, se
sigue de (1) que 2K(0) + iK(u) iK(u) 0, con lo cual, i(K(u) K(u)) es real
y K(u) K(u) es imaginario puro y, entonces, Re K(u) = Re K(u). En definitiva,
K(u) = K(u).
(c)El resultado es claro si K(u) = 0. Si no, tomemos n = 2, z1 = 1, z2 = x/K(u),
t1 = u y t2 = 0 en (1), donde x es un n
umero real arbitrario. Utilizando (b) se obtiene
K(0) 2x +

K(0)x2
0.
|K(u)|2

Puesto que x es arbitrario, el discriminante de esa forma cuadratica debe ser no positivo,
lo que prueba (c).
(d) Tomemos n = 3, z1 = 1, z2 = z, z3 = z, t1 = 0 y t2 = u, t3 = v en (1), donde z
es un n
umero complejo arbitrario. Entonces
0

K(0) + zK(u) zK(v) + zK(u) + |z|2 K(0)


|z|2 K(u v) zK(v) |z|2 K(v u) + |z|2 K(0)

= K(0) + 2Re (z[K(u) K(v)]) + 2|z|2 [K(0) Re K(u v)].


Si K(u) K(v) = |K(u) K(v)|ei , tomemos z = xei , x real. Entonces,
0 K(0) + 2x|K(u) K(v)| + 2x2 [K(0) Re K(u v)].
Siendo ello cierto para cada x R, el discriminante no puede ser estrictamente positivo y
la desigualdad buscada queda probada.
Consideremos, en primer lugar, el caso discreto.
Teorema 5. (Teorema de Herglozt) Una funcion K : Z C es la funcion de covarianzas de un L2 proceso estacionario si y solo si existe una medida finita en B([, ])
tal que
Z

K(n) =

einu d(u),

n Z.

13
Demostraci
on. Si K es una funcion de covarianzas entonces es semidefinida positiva y,
por tanto, para cada N 1 y cada x R,
GN (x) :=

N
1 X ijx ikx
e
e
K(j k) 0.
2N
j,k=1

Puesto que el n
umero de pares (j, k) en {1, ..., N }2 tales que j k = m es N |m| si
m {N, ..., 1, 0, 1, ..., N } entonces
GN (x) =

X
1
(N |m|)eimx K(m) 0.
2N
|m|<N

Podemos definir entonces una medida N en B([, ]) cuya densidad respecto a la medida
de Lebesgue en [, ] es GN ; entonces, si n Z,
Z

einu dN (u) =

1
2N

|m|<N (N

(1

|m|)K(m)

|n|
N )K(n)

ei(nm)x dx

si |n| < N
en otro caso

Las medidas N estan concentradas en el intervalo compacto [, ] y N ([, ]) =


K(0),N 1. Se sigue del teorema de Prokhorov 1 que existe una subsucesion (Nk )k que
converge debilmente a una medida finita en B([, ]). Haciendo tender k a infinito se
sigue de que
Z
Z

einu dNk (u) k

que

K(n) =

einu d(u)

einu d(u).

Recprocamente, si K(n) =
n
X

einu d(u), entonces


Z

zj zk K(nj nk ) =

j,k=1

n
X

zj einj u |2 d(u) 0.

j=1

Luego K es semidefinida positiva y, por el lema anterior, simetrica. De la observaci


on 4)
anterior se sigue que K es la funcion de covarianzas de un L2 proceso estacionario.
Consideremos ahora el caso continuo.
1

ConvergenciaRdebil de medidas:R Dadas , 1 , 2 , ... medidas finitas en R, diremos que (n )n converge


debilmente a si R f dn n R f d para cada funci
on continua y acotada f : R R. Si X, X1 , X2 , ...
son v.a.r. se dice que (Xn )n converge en distribuci
on a X si P Xn converge debilmente a P X .
Teorema de Prokhorov: Sea A un conjunto de medidas finitas en R y supongamos que existe M tal que
(R) M , A. Entonces A es relativamente compacto (en el sentido de que a cada sucesi
on se le
pueda extraer una subsucesi
on debilmente convergente a una medida finita) si y s
olo si > 0, existe K
compacto de R tal que (K c ) , A.

14
Teorema 6. (Teorema de Bochner) Una aplicacion K : R C continua en el origen
es la funcion de covarianzas de un L2 proceso estacionario si y solo si existe una medida
finita en B(R) tal que
Z
K(t) =
eitu d(u), t T.
R

Demostraci
on. Si K es la funcion de covarianzas de un L2 proceso estacionario, es
semidefinida positiva. Entonces, para cada n N, la funcion K(/2n ) es semidefinida
positiva en Z; por el teorema anterior, existe una medida finita n en B([, ]) tal que,
para cada k Z,
Z
K(k/2n ) =
eikx dn (x).

Hagamos

Z
fn (u) =

exp[i2n ux]dn (x),

u R.

Entonces fn es la funcion caracterstica de una medida concentrada en [2n , 2n ]; notese


para ello que si f es la funcion caracterstica de una v.a.r. X y g(u) = f (2n u), entonces
g(u) = E[exp(iu2n X)], con lo cual g es la funcion caracterstica de 2n X.
En particular, fn es semidefinida positiva y, puesto que k2n = k2mn 2m ,
(2)

fm (k2n ) = K(k2n ),

m n, k Z.

Probemos que (fm )m converge puntualmente a K. La clave de esa demostracion es probar que fm es una familia uniformemente equicontinua en R; supuesto probado eso, el
teorema de AscoliArcela2 garantiza la existencia de una subsucesion (fnj )j convergente
puntualmente a un lmite continuo f (usar el teorema de AscoliArcela en cada intervalo
compacto [p, p], p = 1, 2, ... y construir los fnj por diagonalizacion). Por el teorema de
Levy3 f es una funcion caracterstica. Pero por (27), f y K coinciden sobre los racionales
diadicos y, por el apartado d) del lema 10, K es continua en R; entonces f = K en R.
K es pues una funcion caracterstica, es decir, podemos escribir
Z
eitx d(x)

K(t) =
R

para alguna meida finita .


El recproco se prueba de forma analoga al teorema de Herglotz.
Solo queda, para concluir la demostracion, probar que la sucesion (fm )m es uniformemente equicontinua en R. Notemos que si u, v R podemos escribir u v = (k + )2m
2

Teorema de AscoliArcela: Sea un espacio compacto Haussdorff. Un subconjunto A de C(, C)


es relativamente compacto (equiv., relativamente secuencialmente compacto) si y s
olo si es puntualmente
acotado y equicontinuo (i.e., > 0, > 0 : x, y , d(x, y) = |f (x) f (y)| , f A).
3
Teorema de L
evy: Sea (Fn )n una sucesi
on de funciones de distribuci
on en R y (hn )n la sucesi
on de
sus funciones caractersticas. Si Fn converge en distribuci
on a F , donde F es una funci
on de distribuci
on
con funci
on caracterstica h, entonces hn converge puntualmente a h. Recprocamente, si hn converge
puntualmente a una funci
on compleja h continua en el origen, entonces h es la funci
on caracterstica de
alguna funci
on de distribuci
on acotada F y Fn converge en distribuci
on a F .

15
para alg
un k Z tal que |k2m | |u v| y || 1. Entonces por el lema 10 (d) y usando
la desigualdad triangular,
(3)

|fm (u) fm (v)|2 fm (0)[fm (0) Re fm (u v)]

(4)

2fm (0)|fm (0) Re fm (k2m )| + 2fm (0)|Re fm (k2m ) Re fm (u v)|

Por (27), el primer termino de (28) es igual a 2K(0)|K(0) Re K(k2m )|; puesto que K
es continua en 0 y que |k2m | |u v|, ese termino se puede hacer menor o igual que
2 /2 si |u v| es suficientemente peque
no, digamos si |u v| < . El cuadrado del segundo
sumando es a lo mas
4K 2 (0)|fm (k2m ) fm (u v)|2
8K 3 (0)[fm (0) Re fm (u v k2m )]
3

por el lema 10 (d)

= 8K (0)[fm (0) Re fm (2 )]
Z
3
= 8K (0)
[1 cos x]dn (x)
por definicion de fm

Z
8K 3 (0)
[1 cos x]dn (x) pues cos x cos x si || 1 y |x|

= 8K 3 (0)[fm (0) Re fm (2m )]


3

= 8K (0)[K(0) Re K(2

)]

por definicion de fm
por (27)

Puesto que K es continua en 0, se sigue que el segundo sumando en (28) se hace menor
o igual que 2 /2 si m es grande, digamos m M . As, si m M y |u v| , |fm (u)
fm (v)| . Por el lema 10 (d), cada fj , j M , es uniformemente continua en R. Luego,
(fm )m es una familia uniformemente equicontinua.
Observaci
on. Resumiendo, se ha probado que si K : T C es una aplicacion, las
siguientes proposiciones son equivalentes:
(a) K es semidefinida positiva y continua en 0 (la continuidad en 0 es automatica si
T = Z).
(b) K es la funcion de covarianzas de un L2 proceso estacionario y K es continua en 0.
(c) K es la funcion caracterstica de una medida finita , definida en B([, ]) si T = Z
y en B(R) si T = R.
La equivalencia de (a) y (b) fue probada en la observaci
on anterior. (b) y (c) son equivalentes por los teoremas de Herglotz y Bochner. Notese que en (c) la medida esta determinada
por K.

n 3: Ejemplos.
Leccio
A continuacion presentamos dos ejemplos de L2 procesos estocasticos a tiempo continuo: el proceso de Poisson (en el que las v.a. son discretas) y el movimiento browniano
(en el que las v.a. son absolutamente continuas).
Antes de empezar a ver el primer ejemplo recordaremos algunas propiedades de la
distribucion exponencial, distribucion que es de gran utilidad en la construccion del proceso
de Poisson. Sea X una v.a.r. en un espacio de probabilidad (, A, P ) con distribucion
exponencial de parametro , es decir,
P (X > x) = ex/ ,

x 0.

Entonces P (X > x) > 0 para cada x R y, si x, y 0, se verifica


(5)

P (X > x + y|X > x) = P (X > y).

Pensemos en X como el tiempo de espera hasta la ocurrencia de un cierto suceso (por


ejemplo, la llegada de un cliente a una ventanilla). La ecuacion (5) atribuye al tiempo
de espera un mecanismo de perdida de memoria en el sentido de que, si despues de un
cierto tiempo x el suceso a
un no ha ocurrido, el tiempo que falta para que ocurra se
distribuye condicionalmente de la misma forma que X. Es conocido que eso caracteriza la
distribucion exponencial, es decir, si P (X > x) > 0, x 0 y si se verifica (5), entonces
existe > 0 tal que X tiene distribucion exponencial de parametro (para probarlo,
denotemos F la funcion de distribucion de X y hagamos U = 1 F ; entonces U (t) > 0,
t 0 y U (t + s) = U (t)U (s), t, s 0; se sigue de ah que U (0) = 1; tomar R tal
que U (1) = e1/ y probar que U (t) = et/ , primero si t N, luego si t = 1/n, despues
si t Q+ y, en fin, si t 0; notar que > 0).
Ejemplo 1. (Proceso de Poisson): Consideremos ahora una sucesion de sucesos
(por ejemplo, llamadas a una central). Denotemos T1 el tiempo de espera para el primer
suceso, T2 el tiempo de espera desde la ocurrencia del primer suceso hasta la ocurrencia
del segundo, y as sucesivamente. El modelo formal consiste en una sucesion T1 , T2 , ... de
v.a.r. definidas en alg
un espacio de probabilidad (, A, P ). Sn = T1 + + Tn , n 1,
representa el tiempo de espera hasta la ocurrencia de n sucesos; es conveniente escribir
S0 = 0. Si asumimos que dos sucesos no pueden ocurrir simult
aneamente, la sucesion Sn
debe ser estrictamente creciente y si solo un n
umero finito de sucesos puede ocurrir en
cada intervalo acotado de tiempo entonces Sn debe converger a +, es decir, para cada
observacion se debe verificar
(1) 0 = S0 () < S1 () < S2 () <

sup Sn () = +
n

o, equivalentemente,
(2) Ti () > 0, i 1 y

Tn () = +.

Observaci
on. Supondremos que (1) y (2) se verifican para cada observaci
on . Si
solo se verificasen sobre un conjunto A de probabilidad 1, podemos redefinir Tn () = 1
si
/ A y entonces (1) y (2) se verifican para cada sin que resulten afectadas las
distribuciones conjuntas de las Tn y Sn .
16

17
Consideremos la siguiente condicion:
n 0: Para cada , (1) y (2) se verifican.
Condicio
El n
umero Nt de sucesos que ocurren en el intervalo de tiempo [0, t] es el mayor entero
n tal que Sn t, es decir,
Nt () := max{n 0 : Sn () t}.
Entonces Nt () N (pues sup Sn () = +). Se verifica que Nt () = 0 si t < S1 () =
T1 (); en particular, N0 0. El n
umero de sucesos que ocurren en el intervalo ]s, t], s < t,
es el incremento Nt Ns . La relacion basica entre Nt y Sn viene dada por
{ : Nt () n} = { : Sn () t}.
Se sigue de ello sin dificultad que
{ : Nt () = n} = { : Sn () t < Sn+1 ()},
lo que prueba que las Nt son v.a.. Notese que
NSn () () = n y SNt () () t < SNt ()+1 ().
Observaci
on. (Nt )t0 es, entonces un proceso estocastico. La condicion 0 implica que,
para cada , Nt () es un entero no negativo si t 0, que N0 () = 0 y lmt Nt () =
; ademas, Nt () como funcion de t es no decreciente y continua por la derecha y, si t0 es
una discontinuidad de la trayectoria de , el salto Nt0 () supt<t0 Nt () es exactamente
igual a 1.
A modo de recproco, supongamos que (Nt )t0 es un proceso estocastico con las propiedades precedentes y hagamos
Sn () = nf{t 0 : Nt () n} y Tn () = Sn () Sn1 ().
Entonces (1) y (2) se verifican.
Nos proponemos estudiar la distribucion conjunta de las Nt bajo condiciones en los tiempos
de espera Tn . El modelo mas frecuente supone las Tn independientes y atribuye al tiempo
de espera el mecanismo de perdida de memoria de la ecuacion (5). Es decir, asumiremos
la condicion siguiente:
n 1: Las Tn son independientes y exponencialmente distribuidas con parameCondicio
tro .
Observaciones. 1) Asumida la condicion 1 se verifica que P (Tn > 0) = 1, n, y que
n1 Sn n con probabilidad 1, en virtud de la ley fuerte de los grandes n
umeros;
as pues, (1) y (2) se verifican con probabilidad 1 bajo la condicion 1.
2) Recordemos que la distribucion exponencial de parametro es la distribucion gamma G(1, ). Siendo las Tn independientes se verifica que Sn tiene distribucion gamma
G(n, ) y entonces,
P (Nt n) = P (Sn t) =

X
i=n

et/

(t/)i
i!

18
(la densidad de la distribucion G(n, ) es
fn (t) = [n (n 1)!]1 tn1 et/ I]0,[ (t).
i
P
Pn1 t/ (t/)i
t/ (t/) = 1
Derivando
se obtiene que esa es, efectivamente,
i=n e
i=0 e
i!
i!
la funcion de distribucion de Sn ).
Por tanto,
(t/)n
P (Nt = n) = et/
n!
, es decir, Nt tiene distribucion de Poisson de parametro (media) t/.

Podemos mejorar la afirmacion de la observaci


on 2) anterior considerando la siguiente
condicion:
n 2: (i) Si 0 < t1 < t2 < < tk , entonces los incrementos Nt1 , Nt2
Condicio
Nt1 , ..., Ntk Ntk1 son independientes y
(ii) Los incrementos individuales tienen distribucion de Poisson:
ts n
P (Nt Ns = n) = e

ts

n!

, n = 0, 1, 2, ..., 0 s < t.

n. (Proceso de Poisson) Un proceso estocastico (Nt )t0 que satisfaga la


Definicio
condicion 2 se llamara un proceso de Poisson de promedio 1/.
El resultado principal que probaremos afirma que la condicion 1 implica la condicion 2
(asumida la condicion 0). En su demostracion haremos uso de los tiempos de espera a
partir de un instante t 0 dado, que introducimos a continuaci
on.
Fijemos t 0 y consideremos los sucesos que ocurren despues del instante t. Ya conocemos las relaciones
Ns () = n Sn () s < Sn+1 (),
NSn () () = n,
SNt () () t < SNt ()+1 ().
La tercera de estas relaciones afirma que el tiempo que transcurre desde el instante t
hasta la ocurrencia del siguiente suceso es SNt ()+1 () t; el tiempo de espera entre
las ocurrencias del primer y segundo sucesos despues del instante t es TNt ()+2 (); y
as sucesivamente. As pues,
(t)

(t)

(t)

T1 = SNt +1 t, T2 = TNt +2 , T3 = TNt +3 , ...


definen los tiempos de espera sucesivos a partir del instante t.
Puesto que Nt () n Sn () t se verifica que
Nt+s () Nt () m

Nt+s () Nt () + m

SNt ()+m () t + s

(t)
T1 () + Tm
() s.

(t)

Se deduce de ello que


(6)

(t)

(t)
Nt+s Nt = max{m N0 : T1 + + Tm
s}

19
y de (6) se sigue que
(t)

(t)

(t)

(t)
{Nt+s Nt = m} = {T1 + + Tm
s < T1 + + Tm+1 }.

Debe notarse que, fijo t 0, Nt+s Nt est


a definido para s 0 en terminos de la sucesion
(t)
Tn , n 1, del mismo modo que Ns esta definido en terminos de la sucesion original Tn .
Teorema 7. Bajo la condicion 0, la condicion 1 implica la condicion 2.
Demostraci
on. Dividiremos la demostracion en varias etapas.
1a etapa: Veamos, en primer lugar, que n 0, j 1, H Rj ,
(t)

(t)

P [Nt = n, (T1 , ..., Tj ) H] = P (Nt = n)P [(T1 , ..., Tj ) H].


Supongamos primero que j = 1 y H =]y, +[. Entonces,
(t)

P (Nt = n, T1 > y) = P (Sn t < Sn+1 , Sn+1 t > y)


= P (Sn t, Sn + Tn+1 > t + y)
= P (Sn ,Tn+1 ) ({(u, v) R2 : u t, u + v > t + y})
= (P Sn P Tn+1 )({(u, v) R2 : u t, u + v > t + y})
Z tZ
dP Tn+1 (v)dP Sn (u)
=
t+yu

P (Tn+1 > t + y u)dP Sn (u)


0
Z t
y/
=e
P (Tn+1 > t u)dP Sn (u)

=e

y/

P (Sn t, Sn + Tn+1 > t)

= P (Nt = n)ey/ = P (Nt = n)P (T1 > y).


En el caso de que j 1 y H =

Qj

k=1 ]yk , +[,


(t)

(t)

P (Nt = n, T1 > y1 , ..., Tj

> yj ) =

P (Sn t < Sn+1 , Sn+1 t > y1 , Tn+2 > y2 , ..., Tn+j > yj ) =
P (Sn t < Sn+1 , Sn+1 t > y1 ) P (Tn+2 > y2 ) ... P (Tn+j > yj ) =
P (Nt = n)P (T1 > y1 )P (T2 > y2 ) P (Tj > yj ) =
P (Nt = n)P [(T1 , ..., Tj ) H]
Q
Luego, la tesis de la 1a etapa es cierta si H = jk=1 ]yk , +[. Puesto que los borelianos H
de esa forma engendran Rj , queda probada la 1a etapa.
2a etapa: Veamos ahora que si 0 = t0 < t1 < < tk , entonces
P (Nti Nti1 = ni , 1 i k) =

k
Y
i=1

P (Nti ti1 = ni ).

20
Probaremos, en primer lugar, que si s1 , ..., sn > 0 entonces
(7)

P (Nt = n, Nt+si Nt = mi , 1 i n) = P (Nt = n)P (Nsi = mi , 1 i n)

y a partir de ah lo que queremos. En efecto, notese que


ni=1 { : Nsi () = mi } = { : (T1 (), ..., Tj ()) H}
donde j = max{mi : 1 i n} + 1 y
H = {x Rj : x1 + + xmi si < x1 + + xmi +1 , 1 i n}.
Del mismo modo, usando (6) se obtiene
(t)

(t)

ni=1 { : Nt+si () Nt () = mi } = { : (T1 (), ..., Tj ()) H}


y, de lo probado en la 1a etapa, se sigue que
P (Nt = n, Nt+si Nt = mi , 1 i n) = P (Nt = n)P (Nsi = mi , 1 i n),
como queramos probar. A partir de esto y por induccion sobre k probaremos que si
0 = t0 < t1 < < tk , entonces
P (Nti Nti1 = ni , 1 i k) =

k
Y

P (Nti ti1 = ni ).

i=1

En efecto, eso se sigue trivialmente de (7) en el caso k = 2. Supuesto cierto para k


probemoslo para k + 1
P (Nt1 = n1 , Nt2 Nt1 = n2 , Nt3 Nt2 = n3 , ..., Ntk+1 Ntk = nk+1 ) =
P (Nt1 = n1 , Nt2 Nt1 = n2 , Nt3 Nt1 = n2 + n3 , ..., Ntk+1 Nt1 = n2 + + nk+1 ) =
P (Nt1 = n1 )P (Nt2 t1 = n2 , Nt3 t1 = n2 + n3 , ..., Ntk+1 t1 = n2 + + nk+1 ) =
P (Nt1 = n1 )P (Nt2 t1 = n2 , Nt3 t1 Nt2 t1 = n3 , ..., Ntk+1 tk Ntk t1 = nk+1 ) =
P (Nt1 = n1 )P (Ns1 = n2 , Ns2 Ns1 = n3 , ..., Nsk Nsk1 = nk+1 ) =
P (Nt1 = n1 )P (Ns1 = n2 )P (Ns2 s1 = n3 ) P (Nsk sk1 = nk+1 ) =
P (Nt1 = n1 )P (Nt2 t1 = n2 )P (Nt3 t2 = n3 ) P (Ntk+1 tk = nk+1 ).
3a etapa: (Conclusion) Hemos visto que la condicion 1 implica
P (Nti Nti1 = ni , 1 i k) =

k
Y

P (Nti ti1 = ni )

i=1

si o = t0 < t1 < < tk . Ya vimos tambien que


P (Nt = n) = et/

(t/)n
, n = 0, 1, 2, ...
n!

21
Veamos que de ambas cosas se sigue la condicion 2. En efecto, si 0 s < t, entonces
P (Nt Ns = n) =

P (Ns = m, Nt Ns = n) =

m=0

P (Ns = m)P (Nts = n) =

m=0

m=0
ts n
X (s/)m
t/

n!

m!

m=0

ts n
m
s/ (s/)
(ts)/

=e

m!
(ts)/

n!

ts n

n!

es decir, Nt Ns tiene distribucion de Poisson de parametro (t s)/, la misma que Nts .


Ademas, si 0 = t0 < t1 < < tk , entonces
P (ki=1 {Nti Nti1 = ni }) =

k
Y

P (Nti ti1 = ni ) =

i=1

k
Y

P (Nti Nti1 = ni ),

i=1

lo que prueba que los incrementos son independientes.


Corolario 8. Las distribuciones finitodimensionales del proceso de Poisson (Nt )t0
son

P (kj=1 {Ntj = nj }) =

k
Y

tj tj1

j=1

tj tj1

nj nj1

(nj nj1 )!

si 0 = t0 < t1 < < tk y 0 = n0 n1 nk .


Demostraci
on. Basta notar que
kj=1 {Ntj = nj } = {Nt1 = n1 , Nt2 Nt1 = n2 n1 , ..., Ntk Ntk1 = nk nk1 }
y aplicar el teorema anterior.
Corolario 9. La funcion de covarianzas del proceso de Poisson (Nt )t0 es
K(s, t) =

1
mn(s, t),

s, t 0.

Demostraci
on. Supongamos 0 s t. Entonces

s
t
K(s, t) = Cov (Ns , Nt ) = E[(Ns E(Ns ))(Nt E(Nt ))] = E Ns
Nt
.

Pero

t
s
s
s
t
s
s
Nt
= Ns
Ns
+ Ns
Nt
Ns
Ns

y la independencia de los incrementos prueba que


K(s, t) = Var (Ns ) =

s
.

22
Ejemplo 2. (Movimiento browniano o proceso de Wienner)
El movimiento browniano es un proceso estocastico real (Bt )t0 gaussiano tal que
E(Bt ) = 0, t 0, y con funcion de covarianzas
K(s, t) = 2 mn(s, t),

s, t 0

donde 2 > 0.
Se puede probar que K es, efectivamente, una funcion de covarianzas teniendo en cuenta
que coincide con la funcion de covarianzas del proceso de Poisson de promedio 2 . De ello
se deduce que dos procesos estocasticos pueden tener la misma funcion de covarianzas
mientras que sus distribuciones finitodimensionales son muy distintas (se podra hacer
tambien una demostracion directa de este hecho construyendo el movimiento browniano
mediante el teorema de extension de Kolmogorov y calculando su funcion de covarianzas,
para lo cual necesitaramos de algunas suposiciones y resultados auxiliares).
Notese que E(B02 ) = K(0, 0) = 0 y, entonces B0 = O P c.s.. Por otra parte, si
0 t1 < t2 t3 < t4 , entonces
E[(Bt2 Bt1 )(Bt4 Bt3 )] = E(Bt2 Bt4 ) E(Bt2 Bt3 ) E(Bt1 Bt4 ) + E(Bt1 Bt3 )
= K(t2 , t4 ) K(t2 , t3 ) K(t1 , t4 ) + K(t1 , t3 ) = 2 (t2 t2 t1 + t1 ) = 0.
Analogamente, si 0 t1 < t2 t3 < t4 t2n1 < t2n , las v.a. Bt2 Bt1 , Bt4
Bt3 , ..., Bt2n Bt2n1 son incorreladas. Puesto que

1 1 0 0 0 0
Bt1
Bt2 Bt1
0 0 1 1 0 0 Bt Bt Bt

2
4
3

..
..
..

.
.
.
0

1 1

Bt2n

Bt2n Bt2n1

la distribucion conjunta de dichas v.a. es normal ndimensional y, por tanto, son independientes.
Hemos probado que el movimiento browniano tiene incrementos independientes. Ademas,
cada incremento Bt+h Bt , con h > 0, tiene distribucion normal de media 0 y varianza
E[(Bt+h Bt )2 ] = K(t + h, t + h) 2K(t, t + h) + K(t, t) = 2 h.
Luego la distribucion de Bt+h Bt no depende de t, es decir, el proceso tiene incrementos
estacionarios.
Observaciones. 1)El movimiento browniano o proceso de Wiener fue estudiado por
primera vez por Wiener. Imaginemos una partcula sumergida en un fluido y bombardeada por las moleculas del mismo (que se suponen en movimiento termico). La partcula
describe un movimiento que fue descrito en 1826 por el botanico ingles Brown. Einstein
y Smoluchovsky y, sobre todo, Wiener sentaron las bases matematicas adecuadas para
el estudio del movimiento de dicha partcula. Consideremos una sola componente de ese
movimiento -supongamos que estamos interesados en la componente vertical- y denotemos
Bt la altura de la misma en el instante t respecto a un plano horizontal. El hecho de que
B0 = 0 es solo una convencion: la partcula comienza el movimiento en 0. La independencia
de los incrementos se interpreta como sigue: los desplazamientos Bti Bti1 , 1 i k 1,

23
que la partcula sufre en los intervalos [ti1 , ti ] no influyen de modo alguno en el desplazamiento Btk Btk1 que sufre en el intervalo [tk1 , tk ]. Que Bt tenga media cero refleja
que la partcula tiene la misma predisposicion a moverse hacia arriba que hacia abajo. La
varianza crece como la longitud h del intervalo: con el tiempo se hacen mas frecuentes las
grandes desviaciones de la partcula.
2) Consideremos ahora un recorrido aleatorio con un gran n
umero de pasos siendo el
tama
no de cada paso muy peque
no; ese recorrido aleatorio puede parecer una aproximaci
on
razonable para el movimiento de la partcula descrito en la observaci
on anterior. Veamoslo
intuitivamente: supongamos que la partcula comienza en 0 y salta cada 4t segundos
moviendose una distancia 4x hacia arriba con probabilidad 1/2 o hacia abajo con la
misma probabilidad (solo consideramos una componente del movimiento). Si Xn (t) es
la posicion de la partcula en el instante t = n4t, entonces Xn (t) es la suma de v.a.r.
independientes Y1 , ..., Yn donde
1
P (Yi = 4x = P (Yi = 4x) = , 1 i n.
2
Entonces, Var[Xn (t)] = n(4x)2 =
Xn (t) =

t
2
4t (4x)

Y1 + + Yn

n4x = Zn n4x
n4x

donde Zn tiene media cero y varianza 1. Supongamos ahora que 4x 0 y 4t 0


de tal forma que el proceso lmite no sea trivial (si tomamos 4x = 4t y hacemos que
4t 0 entonces E[Xn (t)] y Var[Xn (t)] convergen ambos a 0 y el lmite sera trivial),
por ejemplo, supongamos que se verifica lo anterior y que, cuando
(4x)2
4t0 2 > 0.
4t
Entonces, el teorema lmite central prueba que Xn (t) converge en distribucion a una v.a.
d

normal N (0, 2 t), digamos Xn (t) n Bt . Si 0 t1 < < tk , un argumento analogo prueba la convergencia en distribucion de (Xn (t1 ), ..., Xn (tk )) a (Bt1 , ..., Btk ), como
queramos probar.

n 4: Ca
lculo de Segundo Orden
Leccio
A lo largo de esta leccion, (Xt )tT ser
a un L2 proceso, con T un intervalo de R. Intentaremos desarrollar una teora en la que sea posible hablar de continuidad, diferenciacion
e integracion del proceso. Puesto que el conocimiento de la funcion de covarianzas no revela propiedad alguna de este tipo de las trayectorias, desarrollaremos esos conceptos en
sentido L2 .
L2

L2

Lema 10. Sean (Yn )n , (Zm )m , Y y Z variables aleatorias en L2 . Si Yn Y y Zm


Z entonces E(Yn Zm ) n,m E(Y Z).
Demostraci
on. Es simplemente el enunciado de que el producto escalar en L2 es continuo en ambas variables.
El siguente resultado muestra como la existencia de un lmite L2 puede deducirse de la
existencia de lmites de sucesiones en C.
Teorema 11. Sean (Ys )sT un L2 proceso y s0 T . Son equivalentes
L2

(i) Existe Y L2 tal que Ys ss0 Y .


(ii) Existe un n
umero complejo L tal que para cada par de sucesiones sn s0 y s0m s0 ,
se tiene que E(Ysn Ys0m ) n,m L
L2

Demostraci
on. (i)=(ii). Si Ys ss0 Y , entonces, por el lema anterior,
E(Ysn Ys0m ) n,m L.
(ii)=(i). Sea L C verificando (ii). Elijamos sn s0 . Entonces
E[|Ysn Ysm |2 ] = E[(Ysn Ysm )(Ysn Ysm )] n,m 0
por hipotesis. Siendo L2 completo, (Ysn )n converge en L2 a un lmite Y . Si tomamos otra
sucesion tn s0 , entonces
kYtn Y k2 kYtn Ysn k2 + kYsn Y k2
y
E[|Ytn Ysn |2 ] = E(Ytn Ytn ) E(Ytn Ysn ) E(Ysn Ytn ) + E(Ysn Ysn ) = L L L + L = 0.
L2

Luego Ytn Y y el resultado se sigue de ah.


Como siempre, K denotara la funcion de covarianzas del L2 proceso (Xt )tT y m la funcion
de medias: m(t) = mt = E(Xt ), t T .
Definiciones. (L2 continuidad, L2 diferenciabilidad) El proceso (Xt )tT se dice L2
L2

continuo en el punto t T si y solo si Xt+h h0 Xt . El proceso se dice L2 diferenciable


en t T si (Xt+h Xt )/h converge en L2 a un lmite Xt0 cuando h 0.
24

25
Teorema 12. Supongamos que m es continua en T . Entonces el proceso (Xt )tT es
L2 continuo en t T si y solo si K es continua en (t, t).
Demostraci
on. Puesto que (Xt )tT es L2 continuo si y solo si (Xt mt )t es L2 continuo
y que (Xt mt )t tiene funcion de covarianzas K, podemos suponer m 0. Si el proceso
es L2 continuo en t T entonces
L2

L2

Xt+h h0 Xt ,

Xt+h0 h0 0 Xt

y, por el lema anterior, K(t + h, t + h0 ) h,h0 0 K(t, t). Luego K es continua en (t, t).
Recprocamente, si K es continua en (t, t) entonces
E[|Xt+h Xt |2 ] = E[(Xt+h Xt )(Xt+h Xt )] =
K(t + h, t + h) K(t, t + h) K(t, t + h) + K(t, t) h0 0.
Corolario 13. Si K es continua en (t, t) para todo t T , entonces K es continua en
(s, t) para todos s, t T .
L2

Demostraci
on. Suponemos que m 0. Por el teorema anterior, Xs+h h0 Xs y
L2

Xt+h0 h0 0 Xt . Por el lema, K(s + h, t + h0 ) h,h0 0 K(s, t).


En el caso estacionario se obtienen resultados analogos.
Teorema 14. Sea (Xt )tT un L2 proceso estacionario con funcion de covarianzas K =
K(t), t {u v : u, v T }.
a) Si el proceso es L2 continuo en un punto s entonces K es continua en el origen.
b) Si K es continua en el origen entonces K es continua en todo punto y el proceso es
L2 continuo en cada punto t T .
L2

L2

Demostraci
on. a) Tenemos que Xs+t t0 Xs y Xs t0 Xs y, por el lema,
K(t) t0 K(0).
b) Puesto que E[|Xt+h Xt |2 ] = K(0) K(h) K(h) + K(0) h0 0 el proceso es
L2

L2

continuo en cada punto t. Entonces, Xs+t+h h0 Xs+t y Xs h0 Xs y, por el lema,


K(t + h) h0 K(t).
En el siguiente resultado relacionamos la L2 diferenciabilidad del proceso y la diferenciabilidad de la funcion de covarianzas en el caso estacionario.
Teorema 15. Sea (Xt )tT un L2 proceso estacionario con funcion de covarianzas K =
K(t). Si el proceso es L2 diferenciable en todo punto t T entonces K es dos veces
diferenciable en T y (Xt0 )tT es un L2 proceso estacionario con funcion de covarianzas
K 00 (t).

26
L2

L2

Demostraci
on. Puesto que Xs+t h0 Xs+t y s+hh s h0 Xs0 se sigue del lema
que
K(t h) K(t)
h0 E(Xs+t Xs0 ).
h
Entonces K es diferenciable en cada punto t T y
K 0 (t) = E(Xs+t Xs0 ).
Por otra parte, puesto que
Xs+t+h0 Xs+t L2
0
h0 0 Xs+t
h0
se sigue del lema y de lo anterior que

L2

y Xs0 h0 0 Xs0

K 0 (t + h0 ) + K 0 (t)
0
h0 0 E(Xs+t
Xs0 ).
h0
0 X 0 ).
Existe pues K 00 (t) para cada t T y vale E(Xs+t
s

Introducimos ahora la nocion de integraci


on en sentido L2 .
n. (L2 integral) Sea (Xt )atb , (a, b R), un L2 proceso con funcion de
Definicio
covarianzas K y funcion de medias m, y sea g : [a, b] C una aplicacion. Definamos
Rb
a g(t)Xt dt como sigue:
Sea = {a = t0 < t1 < < tn = b} una particion de [a, b] con || = max1in |ti
ti1 |; hagamos
n
X
g(tk )Xtk (tk tk1 )
I() =
k=1

Es claro que I()


que

L2 .

Si I() converge en L2 a alguna v.a. I cuando || 0 diremos


Z
I=
a

g(t)Xt dt.

El siguiente teorema da una condicion suficiente para la L2 integrabilidad.


Teorema 16. Si m y g son continuas en [a, b] y K es continua en [a, b][a, b], entonces
g(t)Xt es L2 integrable en [a, b].
Demostraci
on. Podemos suponer m 0. Sean = {a = s0 < s1 < < sm = b} y
0 = {a = t0 < t1 < < tn = b}. Entonces
I()I(0 )

n
m X
X

g(sj )g(tk )Xsj Xtk (sj sj1 )(tk tk1 );

j=1 k=1

por tanto,
E[I()I(0 )]

n
m X
X

g(sj )g(tk )K(sj , tk )(sj sj1 )(tk tk1 )

j=1 k=1

es una suma que aproxima a una integral de Riemann. El teorema que sigue al lema de
esta leccion prueba que I() converge en L2 a un lmite I cuando || 0.

27
Observaciones. 1) La hipotesis de continuidad de g puede ser debilitada a continuidad
c.s. respecto a la medida de Lebesgue.
2) El teorema anterior es un caso particular del siguiente resultado: Si f es una funcion
continua definida en [a, b] y a valores en un espacio de Banach, entonces la integral de
Rb
Riemann a f (t)dt existe. Este resultado se puede probar imitando una de las pruebas
clasicas de la existencia de la integral de Riemann de una funcion real continua en [a, b].
En nuestro caso la aplicacion f es t [a, b] g(t)Xt L2 .
Veamos algunas propiedades de la L2 integral.
Teorema 17. Si m 0, g y h son continuas en [a, b] y K es continua en [a, b] [a, b],
entonces
"Z
# Z Z
Z b
b
b
b
E
g(s)Xs ds
h(t)Xt dt =
g(s)h(t)K(s, t)dsdt.
a

Ademas

Z b

g(s)Xs ds = E
h(t)Xt dt = 0.

E
a

Demostraci
on. Sean
I() =

m
X

g(sj )Xsj (sj sj1 ),

j=1

J(0 ) =

n
X

h(tk )Xtk (tk tk1 ),

k=1

Z
I=
a

g(s)Xs ds y J =

h(t)Xt dt.

Por el teorema anterior,


L2

I() I,

L2

J(0 ) J.

Por el lema, E[I()J(0 )] E[IJ]. Se prueba, como en el teorema anterior, que


Z bZ
E[I()J(0 )]

g(s)h(t)K(s, t)dsdt
a

lo que prueba la primera afirmacion.


L2

L2

Por otra parte, I() I y 1 1 y, por el lema, E[I()] E[I]. Pero E[I()] 0
y, por tanto, E[I] = 0. Analogamente, E[J] = 0.
Teorema 18. Si m 0, h es continua en [a, b] y K es continua en [a, b] [a, b],
entonces
" Z
# Z
b
b
E Xs
h(t)Xt dt =
K(s, t)h(t)dt.
a

28
Demostraci
on. Sean J(0 ) =

Pn

k=1 h(tk )Xtk (tk

L2

tk1 ) y J =

Rb
a

h(t)Xt dt. Entonces

J(0 ) J. Como en el teorema anterior,


Z
E[Xs

J(0 )]

K(s, t)h(t)dt
a

de donde se sigue el resultado.


Ejemplos. 1) Consideremos v.a.r. Xt , t R, independientes con media cero y varianza com
un 2 . Entonces (Xt )tR es un L2 proceso estacionario (en sentido amplio, se
sobreentiende siempre en este captulo) con covarianza
K(t) = K(t, 0) = E(X0 Xt ) = 0 0 = 0 si t 6= 0,
K(0) = K(0, 0) = E(X02 ) = Var (X0 ) = 2 .
Se sigue de los resultados precedentes que el proceso no es L2 continuo.
2) (Movimiento browniano) El movimiento browniano (Bt )t0 es L2 continuo pero no
2
L diferenciable. Es L2 continuo pues K(s, t) = 2 mn(s, t) es continua.
Por otra parte, del teorema que sigue al lema se sigue que
E[(Xt+h Xt )(Xt+h0 Xt )]
hh0
converge a un u
nico lmite finito cuando h y h0 tienden a cero si y solo si
Xt+h Xt
h
converge a un lmite en L2 cuando h 0. En nuestro caso,
en L2 cuando h tiende a cero si y solo si

Bt+h Bt
h

converge a un lmite

[K(t + h, t + h0 ) K(t, t + h0 ) K(t, t + h) + K(t, t)]


hh0
converge a un lmite finito cuando h, h0 0. Puesto que K(s, t) = 2 mn(s, t), tomando
h = h0 > 0 se obtiene que la expresion anterior es igual a
2

t+htt+t
2
=
h2
h

que converge a infinito cuando h tiende a cero. Luego (Bt )t0 no es L2 diferenciable.

n 5: Desarrollo de KarhunenLoe
`ve.
Leccio
Sea (Xt )atb , a, b R, un L2 proceso con media cero y funcion de covarianzas continua
K. Nos preguntamos por la posibilidad de obtener un desarrollo ortogonal de Xt :
Xt =

Zk ek (t),

a t b,

k=1

donde la serie converge en L2 ; deseamos que las Zk sean v.a. en L2 de media cero y
ortogonales, es decir, tales que E(Zj Zk ) = 0 si j 6= k; deseamos tambien que las funciones
ek : T C sean ortonormales, es decir, que

Z b
0 si j 6= k
ej (t)ek (t)dt =
1 si j = k
a
P
P
L2
L2
As, si nj=1 Zj ej (s) n Xs y nk=1 Zk ek (t) n Xt , el lema de la leccion anterior
prueba que
n
X
Zj Zk ej (s)ek (t)] n K(s, t)
E[
j,k=1

es decir,
K(s, t) =

k ek (s)ek (t)

k=1

donde k = E(|Zk

|2 ).

Supuesto que podemos integrar termino a termino, tendramos


Z
a

K(s, t)en (t)dt = n en (s), a s b.

Entonces, si un desarrollo como el anterior existe, las funciones ek aparecen como autovectores (autofunciones) del operador integral asociado con la funcion de covarianzas del
proceso, y las varianzas k de las v.a. Zk son los autovalores del operador. Notese que si
n 6= 0 entonces en es continua (dividir la u
ltima expresion por n y utilizar el teorema
de la convergencia dominada).
Antes de probar que un desarrollo tal es posible necesitaremos algunos resultados sobre
teora de espacios de Hilbert.
Sea K una funcion de covarianzas continua, es decir, una aplicacion K : [a, b][a, b]
C continua, simetrica y semidefinida positiva. Sea A : L2 [a, b] L2 [a, b] el operador
integral en L2 [a, b] asociado a K, definido en un punto x L2 [a, b] por
Z
(Ax)(s) =

K(s, t)x(t)dt, a s b.
a

Las autofunciones de A (es decir, los puntos x L2 [a, b] tales que Ax = x para alg
un
C) engendran L2 [a, b], es decir, el mas peque
no subespacio cerrado de L2 [a, b] que
contiene las autofunciones de A es el propio L2 [a, b]. El operador A tiene a lo mas una
cantidad numerable de autovalores, todos ellos reales, con 0 como u
nico posible punto
lmite. Los autovalores no nulos son mayores que cero por ser K semidefinida positiva. El
29

30
subespacio engendrado por las autofunciones correspondientes a un autovalor mayor que
cero es finito dimensional.
Sea {en : n = 1, 2, ...} una base ortonormal para el subespacio engendrado por las
autofunciones correspondientes a autovalores no nulos. Si tomamos la base de forma que
en es un autovector correspondiente al autovalor n , el teorema de Mercer prueba que
K(s, t) =

n en (s)en (t), (s, t) [a, b]2 ,

n=1

donde la serie es absolutamente convergente y converge ademas uniformemente en ambas


variables. (Ver Riesz and Sz. Nagy: Funtional Analysis, 1955, o Assh, R.B.: Information
Theory, 1965, para los resultados precedentes).
Estamos ya en condiciones de establecer el teorema que deseabamos.
Teorema 19. (KarhunenLo`eve) Sea (Xt )atb , a, b R, un L2 proceso con media
cero y funcion de covarianzas continua K. Sea (en )n=1,2,... una base ortonormal del subespacio cerrado engendrado por las autofunciones de los autovalores no nulos del operador
integral asociado a K, donde en es un autovector correspondiente al autovalor n . Entonces
Xt =

Zn en (t), a t b,

n=1

Rb

donde Zn = a Xt en (t)dt, y las Zn son v.a. ortogonales con media cero y varianzas
E(|Zn |2 ) = n . La serie converge en L2 a Xt uniformemente en t [a, b], en otras palabras,
n
X
Zk ek (t)|2 ] n 0.
sup E[|Xt
t[a,b]

k=1

Demostraci
on. El teorema 16 prueba que
teorema 17 prueba que E(Zn ) = 0 y que
E(Zj Zk )
= k
Sea Sn,t =
(8)
(9)

Pn

k=1 Zk ek (t).

E[|Xt Sn,t |2 ]

=
Rb
a

Rb

Xt en (t)dt define una v.a. Zn en L2 . El

Rb

K(s, t)ek (t)dtds

0 si j 6= k
ej (s)ek (s)ds =
k si j = k
a

ej (s)

Rb

Entonces

= E(|Xt |2 ) 2Re E(Xt Sn,t ) + E[|Sn,t |2 ]


P
P
= K(t, t) 2Re nk=1 E(Xt Zk )ek (t) + nk=1 k |ek (t)|2 .

Por el teorema 18, E(Xt Zk ) =

Rb
a

K(t, u)ek (u)du = k ek (t). Entonces,

E[|Xt Sn,t |2 ] = K(t, t)

n
X

k |ek (t)|2 n 0

k=1

uniformemente en t [a, b], por el teorema de Mercer.

31
Para un proceso gaussiano el teorema de KarhunenLo`eve toma una forma especial; necesitamos el siguiente resultado previo:
Teorema 20. Para n = 1, 2, ..., sean I1n , ..., Ipn v.a. complejas con distribucion conL2

junta normal. Supongamos que Ijn Ij , cuando n , 1 j p. Entonces I1 , ..., Ip


tienen distribucion conjunta normal.
Demostraci
on. Puesto que la L2 convergencia de v.a. complejas es equivalente a la
L2 convergencia de sus partes real e imaginaria, podemos suponer reales todas las v.a.
consideradas. La funcion caracterstica conjunta de I1n , ..., Ipn es
hn (u1 , ..., up ) = E[exp(i
= exp[i

p
X

uj Ijn )]

j=1
p
X

1
uj bnj ] exp[

j=1

p
X

n
uj jm
um ]

j,m=1

n = Cov (I n , I n ). El lema 10 prueba que bn b = E(I ) y


donde bnj = E(Ijn ) y jm
j
j
m
j
j
n
jm jm = Cov (Ij , Im ). Entonces

(10)

hn (u1 , ..., up ) exp(i

p
X
j=1

p
1 X
n
uj jm
um ],
uj bj ] exp[
2
j,m=1

para cada (u1 , ..., up ) Rp .


Pero u1 I1n + + up Ipn converge a u1 I1 + + up Ip en L2 y, entonces, en probabilidad
y, entonces, en distribucion. Por el teorema de L`evy, la funcion caracterstica de u1 I1n +
+ up Ipn converge puntualmente a la funcion caracterstica de u1 I1 + + up Ip , es decir,
E[exp(it

p
X

uj Ijn )]

n E[exp(it

j=1

p
X

uj Ij )], t R,

j=1

y, en particular, para t = 1. Por tanto,


hn (u1 , ..., up ) h(u1 , ..., up ),
donde h es la funcion caracterstica conjunta de I1 , ..., Ip . De esto y de (10) se sigue que
I1 , ..., Ip tienen distribucion conjunta normal.
Teorema 21. (KarhunenLo`eve para procesos gaussianos) En las hipotesis del teorema de KarhunenLo`eve, si ademas (Xt )t es un proceso gaussiano, entonces las Zk forman
una sucesion gaussiana, es decir, Z1 , ..., Zk tienen distribucion conjunta normal para cada
k 1. Si las v.a. Xt son reales, entonces las Zk son independientes.
P
Demostraci
on. Sea Ij () = nm=1 Xtm ej (tm )(tm tm1 ), j = 1, ..., p, una suma aproRb
ximada a Zj = a Xt ej (t)dt. De las propiedades de la distribucion normal multivariante se
L2

sigue que I1 (), ..., Ip () tienen distribucion conjunta normal. Pero Ij () Zj cuando

32
|| 0, 1 j p. Luego Z1 , ..., Zp tienen distribucion conjunta normal por el teorema
anterior.
En el caso real, puesto que E(Zj Zk ) = Cov(Zj , Zk ) = 0 si j 6= k (las Zk son
ortogonales), las Zj son dos a dos incorreladas y, entonces, independientes.
Observaci
on. As pues, para un proceso gaussiano real, el desarrollo de Karhunen
Lo`eve es una serie de v.a. independientes. Puesto que la serie converge en L2 (por tanto,
en distribucion), para cada t fijo, la serie converge con
P probabilidad 1. Existe pues un suceso
Nt de probabilidad 0 tal que, para cada
/ Nt ,
n=1 Zn ()en (t) converge a Xt (). Son
demasiados N
Pt como para poder concluir de ah que existe un suceso N de probabilidad
nula tal que
/ N , t. No
n=1 Zn ()en (t) converge a Xt (),
P obstante, se prueba que
existe un suceso N de probabilidad 0 tal que, para cada
/ N,
n=1 Zn ()en (t) converge
a Xt () para casi todo t (medida de Lebesgue).
Ejemplo 3. Sea K(s, t) = mn(s, t), s, t [0, 1] (si suponemos ademas que el proceso
es gaussiano obtenemos un movimiento browniano restringido a [0, 1]). Para encontrar los
autovalores del operador integral asociado a K, debemos resolver la ecuacion integral
Z

mn(s, t)e(t)dt = e(s),

0 s 1,

es decir,
Z
(11)

te(t)dt + s

e(t)dt = e(s),

0 s 1.

Si 6= 0, entonces e es continua y podemos derivar con respecto a s para obtener


Z

(12)

e(t)dt = e0 (s).

Derivemos de nuevo para obtener


e(s) = e00 (s).

(13)

Si = 0, el desarrollo anterior da e(s) = 0 c.s. con lo cual 0 no es un autovalor.


La solucion de la ecuacion diferencial anterior es
s
s
e(s) = A sin + B cos .

(14)

Hagamos s = 0 en (19) para obtener e(0) = 0; luego B = 0 en (30).


Hagamos ahora s = 1 en (27) para obtener e0 (1) = 0. Luego
1
cos = 0,

= (2n 1) , n = 1, 2, ...
2

Los autovalores son entonces


n =

4
/ 2
(2n 1)2

33
y las autofunciones ortonormalizadas son
en (t) =

2n 1
2 sin
t, n = 1, 2, ...
2

Finalmente, haciendo Zn = Zn / , donde las Zn son como en el teorema de Karhunen


Lo`eve, se obtiene

X
sin(n 12 )t
Xt = 2
Zn
(n 21 )
n=1
donde las Zn son ortogonales con media 0 y varianza 1. En el caso gaussiano son independientes y, entonces, para cada t la serie converge c.s.. De hecho puede probarse (ver
problema 1.4.5. en Ash, Gardner) que existe un suceso nulo N tal que si
/ N , entonces
n

2
X
Zk ()
1
2
sin(k )t
1
2
(k 2 )
k=1

converge cuando n , digamos a Yt (), uniformemente para t [0, 1]. Entonces, si

/ N , Yt () es continua en t y si hacemos Yt () = 0 para


/ N y todo t, entonces Yt ()
es continua en t para todo . Ahora bien, para cada t, Xt () = Yt () para casi todo y, en
ese sentido, (Xt )0t1 es equivalente a (Yt )0t1 ; en particular, los dos procesos tienen las
mismas distribuciones finitodimensionales y, entonces, la misma funcion de covarianzas.
He aqu otra forma de probar la existencia de un movimiento browniano con trayectorias
continuas.

n 6: Problemas de Estimacio
n.
Leccio
Sea (Xt )tT un L2 proceso, y sea S = L2 {Xt , t T } el subespacio cerrado engendrado
por las Xt , es decir, S consiste en todos los L2 lmites de combinaciones lineales finitas de
Xt0 s. Podemos pensar en S como en el espacio de todas las v.a. que se obtienen por una
operacion lineal en las Xt . As pues, las L2 derivadas y las L2 integrales de (Xt )tT , si
existen, estan en S.
Por otra parte, la aplicacion
X = (Xt )tT : (, A, P ) (RT , RT ),

(
o CT , B(CT ))

definida por X() = (Xt ())tT para cada es medible. Sea AX = X 1 (RT ) la
algebra engendrada por X. Es sabido que una aplicacion Z : R es AX medible
si y solo si existe una v.a.r. g : (RT , RT ) (R, R) tal que Z = g X (algo analogo es
tambien cierto en el caso complejo). Diremos de Z que es una funcion Borel medible de
X en ese caso. Denotemos S0 = L2 (, AX , P ) (es decir, la clase de las funciones medibles
de X que pertenecen a L2 ).
Consideraremos dos problemas de estimacion. Sea Y una v.a.r. en L2 (, A, P ):
1) Encontrar el elemento Y de S m
as proximo a Y , es decir, Y S e kY Y k =

nf W S kW Y k. Entonces Y es el mejor estimador de Y basado en una operacion lineal


de las Xt .
2) Encontrar el elemento Y de S0 m
as proximo a Y . Entonces Y es el mejor estimador
de Y basado en una operacion Borel medible arbitraria de las Xt .
Dicho de otro modo, Y es la proyecci
on ortogonal de Y sobre S, caracterizada como el
elemento de S (identificamos v.a. que coinciden c.s.) tal que Y Y S. Equivalentemente,
Y Y es ortogonal a todas las Xt , es decir,
E(Y Xt ) = E(Y Xt ),

t T.

Ejemplo 4. Sea Xn = Zn + Wn , n Z; interpretaremos Z como una se


nal W como
un ruidono deseable. Supongamos que (Zn )n y (Wn )n son estacionarios con media cero y
funciones de covarianzas KZ y KW . Supongamos tambien que Zn y Wm son incorreladas
para todo par n, m Z. Pretendemos estimar una v.a. Y a partir de una combinacion
lineal en Xr , Xr1 , ..., XrM . As pues,
PM en este caso, T = {r, r 1, ..., r M } y S consiste
en todas las combinaciones lineales j=0 cj Xrj . Por ejemplo, si Y = Zr+ , N, > 0,
tenemos un problema de prediccion; siP
Y = Zr tenemos un problema de suavizacion.

Puesto que Y S podemos escribir Y = M


j=0 hj Xrj para algunas constantes h0 , ..., hM .

Y queda caracterizado por las condiciones


2

E(Y Xri ) = E(Y Xri ), i = 0, 1, ..., M


o bien
E(Y Xri ) =

M
X

KX (i j)hj , i = 0, 1, ...M.

j=0

Si Y = Zr+ entonces
E(Y Xri ) = E(Zr+ [Zri + Wri ] = KZ ( + i);
34

35
ademas KX = KZ + KW . Entonces,

KX (0) KX (1)

KX (1) KX (0)

..
.

las ecuaciones que determinan


KX (M )
h0


KX (M + 1)
h1
..
=
..
.

.
KX (M ) KX (M 1) KX (0)
hM

Y son
KZ ()
KZ ( + 1)
..
.

KZ ( + M )

Notese que si KX es singular (de modo que Xr , ..., XrM son linealmente dependientes)
existen infinitas soluciones a esa ecuacion, pero todas ellas corresponden (c.s.) al mismo
Y puesto que Y es u
nico en virtud del teorema de la proyecci
on ortogonal. En vista de
la dependencia lineal, cada elemento de S puede representarse de muchas formas como
combinacion lineal de Xr , ..., XrM .
Consideremos ahora el segundo problema. Se verifica que Y = E(Y |AX ) (que se denota
tambien por E(Y |X) sin que ello nos lleve a confusion).
En efecto, Y es la proyeccion de Y sobre S0 y, por tanto, < Y, Z >=< Y , Z > ,
Z S0 . En particular, si A AX y Z = IA ,
Z
Z
Y dP =
Y dP ;
A

ademas Y S0 y, por tanto, es AX medible.


Notese que S S0 y, entonces, kY Y k kY Y k.
Existe un caso particularmente importante en el que Y = Y , con lo cual el mejor
estimador lineal coincide con el mejor estimador.
Teorema 22. Si {Y } {Xt : t T } es un proceso gaussiano y todas las variables
tienen media cero entonces Y = Y .
Demostraci
on. Puesto que Y S, Y es L2 lmite de alguna sucesion de combinaciones
lineales finitas de Xt0 s, digamos
Yn =

rn
X

L
cnj Xtnj Y .

j=1

Dados t1 , ..., tm , Y Yn , Xt1 , ..., Xtm tienen distribucion conjunta normal (pues el vector Y Yn , Xt1 , ..., Xtm se obtiene multiplicando el vector Y, Xt1 , ..., Xtm por una matriz y este u
ltimo tiene distribucion conjunta normal) y, entonces, por el teorema ??
Y Y , Xt1 , ..., Xtm tienen distribucion conjunta normal. Luego {Y Y } {Xt : t T } es
un proceso gaussiano.
Fijemos t1 , ..., tn . Puesto que Y Y es ortogonal a todas las Xt , la matriz de covarianzas
de Y Y , Xt1 , ..., Xtn tiene la forma

a 0
0
0
0 b11 b12 b1n

K = 0 b21 b22 b2n .

..
..

.
.
0 bn1 bn2

bnn

36
Si a = Var (Y Y ) = 0, entonces Y = Y c.s. y, entonces, Y S S0 , con lo cual
Y = Y c.s. y, habremos terminado. Supongamos ahora a > 0. Si B = (bij )i,j=1,...,n es no
singular, K 1 es de la misma forma que K. Se sigue de la forma de la densidad conjunta de
Y Y , Xt1 , ..., Xtn que Y Y y Xt1 , ..., Xtn son independientes. Si B es singular, el mismo
argumento prueba que Y Y y Xs1 , ..., Xsr son independientes, donde {Xs1 , ..., Xsr } es un
subconjunto libre maximal de {Xt1 , ..., Xtn }. Puesto que, en ese caso (Xt1 , ..., Xtn ) es una
funcion lineal de (Xs1 , ..., Xsr ), Y Y y (Xt1 , ..., Xtn ) son independientes tambien en el caso
B singular. Puesto que t1 , ..., tn son arbitrarios, Y Y y X son independientes. Entonces
E(Y Y |AX ) = E(Y Y ) = 0 (pues Y y las Xt tienen media 0). Pero Y S S0 y,
entonces, Y es AX medible. Se sigue pues que E(Y |AX ) = Y . Luego Y = E(Y |AX ) = Y .

n 7: El filtro de Kalman.
Leccio
Consideremos el siguiente modelo para un proceso estocastico:
X(k + 1) = (k)X(k) + U (k), k = 0, 1, 2, ...
donde X(k) y U (k) son v.a. ndimensionales y (k) es una matriz cuadrada de orden
n conocida. Si X(k) representa el estado del sistema en el instante k, X(k + 1) es una
transformacion lineal conocida de X(k) mas un ruido aleatorio U (k). Supondremos que
las U (k) tienen media 0 y son ortogonales: E[U (j)U (k)] = Q(k)jk donde denota el
traspuesto conjugado, jk es la delta de Kronecker y Q(k) es una matriz de orden n
semidefinida positiva.
Supondremos tambien que no podemos observar directamente X(k) pero que, en su
lugar, observamos un proceso V (k) relacionado con X(k) mediante:
V (k) = H(k)X(k) + W (k), k = 0, 1, 2, ...
donde V (k) y W (k) son v.a. mdimensionales y H(k) una matriz de orden mn conocida.
As V (k), la observacion en el instante k, es una conocida transformacion lineal de X(k)
mas un ruido aleatorio W (k). Supondremos tambien que las W (k) tienen media 0 y son
ortogonales: E[W (j)W (k)] = R(k)jk .
Supondremos finalmente que X(0) y los procesos ruido (U (k))k y (W (k))k son mutuamente ortogonales, es decir, para cada j, k = 0, 1, 2, ..., E[U (j)W (k)], E[X(0)U (j)] y
E[X(0)W (k)] son matrices nulas.
Antes de continuar con el problema planteado por Kalman veamos algunos conceptos
y resultados u
tiles a la hora de resolver dicho problema.

Pretendemos encontrar el estimador de mnimos cuadrados X(k)


de X(k) basado en

las observaciones anteriores V (0), ..., V (k 1). As X(k) sera el vector ndimensional
i (k), es la proyecci
cuya iesima componente, X
on ortogonal de la iesima componente
de X(k), Xi (k), sobre el subespacio de L2 (, A, P ) generado por las componentes de
V (0), ..., V (k 1).
n. (Estimador lineal de mnima varianza) Sean X Ln2 (, A, P ) e Y
Definicio
El estimador lineal de mnima varianza de X basado en Y es una v.a. n
Ln (, A, P ) tal que
dimensional de cuadrado sumable X
2
= K Y para alguna matriz escalar K de orden n m.
1)X
Xk es mnimo entre todos los estimadores de X de la forma C Y siendo C
2) kX
una matriz de orden n m.
Lm
2 (, A, P ).

Observaciones. 1) En Ln2 (, A, P ) la operacion < X, Y > E(X t Y ) es un producto


interior y Ln2 (, A, P ) dotado con dicha operacion es un espacio de Hilbert.
2) Si M es un subespacio cerrado de L2 (, A, P ) entonces M n es un subespacio cerrado
de Ln2 (, A, P ).
= (X
1 , ..., X
n ) es la proyecci
i es
3) X
on de X = (X1 , ..., Xn ) sobre M n si y solo si X
la proyeccion de Xi sobre M , para cada i.
Teorema 23. (GaussMarkov) Sean X e Y v.a. n y mdimensionales de cuadrado
= K Y
sumable. Entonces el estimador lineal de mnima varianza de X basado en Y es X
t
t
1
t
donde K = E(XY )E(Y Y ) , si E(Y Y ) es inversible. Ademas
X)(X
X)t ] = E(XX t ) KE(Y X t ).
E[(X
37

38
Demostraci
on. Denotemos por M el subespacio lineal de L2 (, A, P ) generado por
i la proyecci
las componentes Y1 , ..., Ym de Y . Para cada i {1, ..., n}, sea X
on de la

coordenada iesima Xi de X sobre M . Xi ser


a de la forma
i =
X

m
X

kij Yj .

j=1

i Xi M , 1 i n, se tiene que
Puesto que X
0 = E[(Xi

m
X

kij Yj )Yr ], 1 r m,

j=1

es decir,
E(Xi Yr ) =

m
X

kij E(Yj Yr ), 1 r m,

j=1

que en forma matricial se puede expresar como


..
E(Xi Y1 )
E(Y1 Y1 )
.


..
.

=
..
.
E(Xi Ym )
E(Ym Y1 )
de donde se deduce

ki1
..
.
kim

que

..
.

E(Y1 Y1 )

..
=
.
E(Ym Y1 )

o bien

ki1
E(Y1 Ym )
.

..
..
.
kim
E(Ym Ym )
1

E(Y1 Ym )

..

.
E(Ym Ym )

E(Xi Y1 )

..

.
E(Xi Ym )

..
.

< Y1 , Y1 >
..
(ki1 , ..., ki,m ) = (< Y1 , Xi >, ..., < Ym , Xi >)

.
< Ym , Y1 >
Si K = (kij )i,j , entonces

1
< Y1 , Ym >

..

.
< Ym , Ym >

K = E(XY t )E(Y Y t )1

como queramos probar.


X),
Para calcular la covarianza error (que no la matriz de covarianzas del error X
notemos que
X)(X
X)t ] = E[(X
X)X
t ] E[(X
X)X t ].
E[(X
X M n y, por tanto, E[(X
X)Y t ] = 0. Entonces,
Pero X
(15)

X)X
t ] = E[(X
X)(KY )t ] = E[(X
X)Y t ]K t = 0
E[(X

Luego
X)(X
X)t ] = E[(X
X)X t ] =
E[((X
t ) =E(XX t ) KE(Y X t )
= E(XX t ) E(XX

39
Antes de demostrar el teorema de actualizacion estatica veamos un lema tecnico.
Lema 24. Sean X Ln2 (, A, P ), Y2 Lm
2 (, A, P ), M1 un subespacio cerrado de
L2 (, A, P ) y M2 el subespacio engendrado por las componentes de Y2 . Denotemos por
1 la proyeccion de X sobre M n y por Y2 la proyecci
X
on de Y2 sobre M1m , y hagamos
1
Ye2 = Y2 Y2 . Entonces, la proyecci
on de X sobre (M1 + M2 )n viene dada por
2 = X
1 + E(X Ye2t )E(Ye2 Ye2t )1 Ye2
X
supuesto que la matriz E(Ye2 Ye2t ) es inversible.
Demostraci
on. Puesto que Ye2 := Y2 Y2 , se deduce que Ye2 M1m . Entonces Ye2i M1 ,
f2 el subespacio vectorial
1 i m, donde Ye2i denota la componente iesima de Ye2 . Sea M
e
f
engendrado por las componentes de Y2 . Entonces M2 M1 en L2 (, A, P ). Por tanto,
fn M n en Ln (, A, P ).
M
2
1
2
Por otra parte, puesto que Ye2 = Y2 Y2 , cada componente de Ye2 es la suma de un
f2 es la suma de un vector de M2 y
vector de M2 y otro de M1 ; as pues, cada vector en M
otro de M1 , es decir,
(16)

f2 M1 + M2 .
M

Ademas Y2 = Ye2 + Y2 y un argumento similar prueba que


(17)

f2 .
M2 M1 + M

Sumando M1 a cada miembro en (16) y (17) se obtiene


f2 .
M1 + M2 = M1 + M
Entonces
f2 )n = M n + M
fn ,
(M1 + M2 )n = (M1 + M
1
2
f2 , (x1 +
donde la u
ltima igualdad se sigue de que si x1 , ..., xn M1 e y1 , ..., yn M
n
n
f .
y1 , ..., xn + yn ) = (x1 , ..., xn ) + (y1 , ..., yn ) M1 + M
2
n
n
n
n
f M , la proyecci
fn
Puesto que M
o
n
de
X
sobre
(M
1 + M2 ) = M1 + M2 , que es igual
2
1
2 , es la suma de la proyeccion de X sobre M n (que es X
1 ) mas la proyecci
aX
on de X
1
n
f (que, por el teorema de GaussMarkov es igual a E(X Ye t )E(Ye2 Ye t )1 Ye2 ), lo que
sobre M
2
2
2
acaba la prueba.
Nota: Se ha usado que si M y N son subespacios cerrados y m y n son las proyecciones
de X sobre M y N respectivamente, entonces, m + n es la proyecci
on de X sobre M + N .
En efecto, dicha proyeccion existe pues M + N es un subespacio cerrado. Por otra parte,
si (xk ) es una sucesion en M + N convergente a x entonces xk = mk + nk (mk M ,
nk N ), para cada k N y
kxk xk0 k2 = kmk mk0 k2 + knk nk0 k2 k,k0 0,

40
que prueba que (mk ) converge a m M y (nk ) converge a n N y x = m + n M + N .
Ademas, para cada m0 M y n0 N ,
< X m n, m0 + n0 > =< X m, m0 > + < X m, n0 > < n, n0 > < n, m0 >
=< X m, n0 > < n, n0 >
=< X n, n0 > < m, n0 > .
Luego, m + n es la proyeccion de X sobre M + N .
Lema 25. (Teorema de actualizacion estatica) Supongamos que los vectores aleatorios
X e Y2 estan relacionados por
Y2 = HX + W
donde H es una matriz escalar m n y W un vector aleatorio tal que R = E(W W t )
1 es el estimador lineal de mnima varianza de
es conocida. Ademas, supongamos que X
1 y P1 =
X basado en un vector aleatorio Y1 tal que E(Y1 Y1t ) es inversible, y que X
t
1 )(X X
1 ) ] son conocidos. Supongamos en fin que
E[(X X
E(XW t ) = 0

y E(Y1 W t ) = 0.

Y1
2 de X basado en Y
Si Y =
, entonces el estimador lineal de mnima varianza X
Y2
viene dado por
2 = X
1 + P1 H t (HP1 H t + R)1 (Y2 H X
1 ),
X
2 )(X X
2 )t ] viene
si HP1 H + R es inversible, y el nuevo error covarianza P2 = E[(X X
dado por
P2 = P1 P1 H t [HP1 H t + R]1 HP1 .
Demostraci
on. Sea M1 el subespacio generado por las componentes de Y1 . Por el teorema de GaussMarkov, la proyeccion Y2 de Y2 sobre M1m viene dada por
Y2 = E(Y2 Y1t )E(Y1 Y1t )1 Y1 .
Puesto que Y2 = HX + W , se sigue que
Y2 =E[(HX + W )Y1t ]E(Y1 Y1t )1 Y1
=[HE(XY1t ) + E(W Y1t )]E(Y1 Y1t )1 Y1
=HE(XY1t )E(Y1 Y1t )1 Y1 ;
1.
entonces, Y2 = H X
Hagamos Ye2 = Y2 Y2 . Por el lema anterior,
2 = X
1 + E(X Ye2t )E(Ye2 Ye2t )1 Ye2 .
X
1 e Y2 = HX + W , se tiene que
Puesto que Y2 = H X
1 ) + W.
Ye2 = Y2 Y2 = H(X X

41
Entonces
1 ) + W )t ]
E(X Ye2t ) =E[X(H(X X
1 )t H t ] + E(XW t )
=E[X(X X
1 )t ]H t .
=E[X(X X
1 M n , se tiene que Xi X
1i M1 , i. Pero X
1j M1 , j. Luego
Puesto que X X
1
t

Xi X1i X1j , i, j. Por tanto, E[X1 (X X1 ) ] = 0. Se deduce que


1 )(X X
1 )t ]H t = P1 H t .
E(X Ye2t ) = E[(X X
Analogamente,
1 ) + W )(H(X X
1 ) + W )t ]
E(Ye2 Ye2t ) =E[(H(X X
1 )(X X
1 )t ]H t + HE[(X X
1 )W t ]
=HE[(X X
1 )t ]H t + E(W W t ).
+ E[W (X X
1 = KY1 donde K es la matriz escalar del teorema de GaussMarkov. Entonces
Ahora, X
1 W t ).
0 = K 0 = KE(Y1 W t ) = E(KY1 W t ) = E(X
Por hipotesis E(XW t ) = 0. Entonces
E(Ye2 Ye2t ) = HP1 H t + R.
Luego

2 = X
1 + P1 H t (HP1 H t + R)1 (Y2 H X
1 ),
X

que es la primera parte del lema.


Denotemos M = (HP1 H t + R)1 . Notemos que M = M t . Entonces
2 = X
1 + P1 H t M (Y2 H X
1)
X
y
2 )(X X
2 )t ]
P2 =E[(X X
1 P1 H t M Ye2 )(X X
1 P1 H t M Ye2 )t ]
=E[(X X
1 )(X X
1 )t ] P1 H t M E[Ye2 (X X
1 )t ]
=E[(X X
1 )Ye2 )t ]M HP1 + P1 H t M E(Ye2 Ye2t )M HP1
E[(X X
1 ) + W )(X X
1 )t ]
=P1 P1 H t M E[(H(X X
1 )(H(X X
1 ) + W )t ]M HP1
E[(X X
+ P H t M E[Ye2 Ye2t ]M HP1
=P1 P1 H t M HP1 P1 H t M HP1 + P1 H t M M 1 M HP1
=P1 2P1 H t M HP1 + P1 H t M HP1
=P1 P1 H t M HP1
Luego
P2 = P1 P1 H t (HP1 H t + R)1 HP1 .

42
A partir de ahora consideraremos el modelo que definamos al comienzo de esta leccion.
El teorema que sigue proporciona formulas recursivas para el estimador lineal de mnimos
cuadrados de X(k) basado en las observaciones anteriores y la covarianza error producida
por dicha estimacion.

Teorema 26. (Kalman, 1960) Sean X(k|j)


la proyecci
on de X(k) sobre Mjn , donde
Mj es el subespacio de L2 (, A, P ) generado por las componentes de V (0), V (1), ..., V (j)
y

.
P (k|j) = E X(k|j) X(k) X(k|j) X(k)
Entonces, si K(k) es la matriz de ganancia de Kalman definida por

1
K(k + 1) = P (k + 1|k)H(k + 1)t H(k + 1)P (k + 1|k)H(k + 1)t + R(k + 1)
se verifican las siguientes igualdades
h
i
+ 1|k + 1) = (k)X(k|k)

(a) X(k
+ K(k + 1) V (k + 1) H(k + 1)(k)X(k|k)
(b) P (k|k) = [I K(k)H(k)] P (k|k 1)
(c) P (k + 1|k) = (k)P (k|k)(k)t + Q(k), y
h
i

(d) X(k + 1|k) = (k)X(k|k) = (k)X(k|k 1) + (k)K(k) V (k) H(k)X(k|k 1) .

Demostraci
on. Denotemos Yj =

V (0)
V (1)
..
.

. De acuerdo con el teorema de Gauss

V (j)
Markov se tiene que

X(k|k)
= E X(k)Ykt E Yk Ykt Yk .

Por hipotesis U (k) es ortogonal, para j k, a X(j) y a W (j) y, por tanto,


(18)

E U (k)Yjt = 0,

si j k.

Ahora bien, teniendo en cuenta la igualdad anterior,

+ 1|k) = E X(k + 1)Y t E Yk Y t + Yk


X(k
k
k


+
= E ((k)X(k) + U (k)) Ykt E Yk Ykt Yk


+
= (k)E X(k)Ykt E Yk Ykt Yk
+ 1|k) = (k)X(k|k).

Luego, X(k

43
Por tanto,
P (k + 1|k) = E

t
+ 1|k) X(k + 1) X(k
+ 1|k) X(k + 1)
X(k

= E (k) X(k|k) X(k) U (k) (k) X(k|k) X(k) U (k)

= (k)E X(k|k) X(k) X(k|k) X(k)


(k)t
h

X(k) U (k)t
(k)E X(k|k)

E U (k) X(k|k) X(k)


(k)t + E U (k)U (k)t
= (k)P (k|k)(k)t + Q(k)
pues los dos terminos centrales son nulos por ser U (k) ortogonal a Yj para j k.
Esto prueba (c).
Aplicando el apartado (a) del teorema de actualizacion estatica (tomando Y1 = Yk , Y2 =
1 = X(k+1|k),

V (k+1), H = H(k+1), X = X(k+1), W = W (k+1), R = R(k+1), X


P1 =
P (k + 1|k)) se obtiene
h
i
+ 1|k + 1) = X(k
+ 1|k) + K(k + 1) V (k + 1) H(k + 1)X(k
+ 1|k) ,
(19)
X(k
es decir, se verifica el apartado (a).
Ademas, por el teorema de actualizacion estatica se tiene que
P (k + 1|k + 1) = P (k + 1|k) K(k + 1)H(k + 1)P (k + 1|k);
de aqu reemplazando k por k 1 se obtiene el apartado (b).
El apartado (d) se obtiene de (19) (reemplazando k por k 1) teniendo en cuenta que

X(k + 1|k) = (k)X(k|k).


Observaci
on. Por induccion se prueba que
+ k|j) = (j + k 1)(j + k 2) (j + 1)X(j
+ 1|j).
X(j

Captulo II

ANALISIS
DE LAS TRAYECTORIAS DE PROCESOS

ESTOCASTICOS
A TIEMPO CONTINUO

II.8. Separabilidad: Criterio de separabilidad. Condicion suficiente para la continuidad


de las trayectorias de un proceso separable. Teorema de separabilidad.
II.9. Medibilidad: Procesos medibles y progresivamente medibles. Teorema de medibilidad.
II.10. An
alisis de las trayectorias en el movimiento browniano unidimensional:
Continuidad y diferenciabilidad de las trayectorias en el movimiento browniano.
on al movimiento browniano: Ley del
II.11. Ley del logaritmo iterado: Aplicaci
logaritmo iterado. Ley del logaritmo iterado para el movimiento browniano.
Referencias captulo II: Ash, Gardner (1975).

44

45

n 8: Separabilidad.
Leccio
En la leccion de introduccion veamos un ejemplo de dos procesos estocasticos con las
mismas distribuciones finitodimensionales uno de los cuales tena todas sus trayectorias
continuas y el otro, todas discontinuas. El estudio de las trayectorias es posible para
procesos con propiedades especiales como son las de separabilidad y medibilidad que se
introducen en este captulo.
El objetivo es, dado un proceso estocastico (Xt )tT , encontrar otro proceso que sea
separable y medible y que tenga las mismas distribuciones finitodimensionales que el
anterior.
En lo que sigue todos los procesos estocasticos tendran espacio de estados (S, S), donde
S es un espacio metrico compacto y S es su
algebra de Borel. El espacio temporal
sera un subconjunto de R (aunque todos los resultados siguen siendo ciertos si T es un
subconjunto de un espacio metrico separable). Utilizaremos indistintamente las notaciones
Xt () o X(t, ) para denotar el valor de Xt en .
n. Un proceso estocastico (Xt )tT se dice separable si existen un subconjunDefinicio
to denso y numerable T0 T (llamado conjunto separante) y un suceso A de probabilidad
nula tales que si
/ A y t T existe una sucesion (tn )nN T0 tal que tn n t y
X(tn , ) n X(t, ). Diremos tambien que (Xt )tT es (T0 , A)separable.
Observaci
on. Se pretende con esta definicion que el comportamiento de las trayectorias
en T quede determinado por su comportamiento en un conjunto numerable T0 .
Teorema 27. (Criterio de separabilidad) Son equivalentes las proposiciones siguientes:
(i) (Xt )tT es separable.
(ii) Existen un conjunto denso y numerable T0 T y un conjunto A de probabilidad
nula tales que para cada
/ A, cada compacto K S y cada intervalo I de R se
verifica
[X(t, ) K, t To I] = [X(t, ) K, t T I] .
Demostraci
on. (i) (ii). Sea
/ A y X(t, ) K, t T0 I, entonces, t T I, por
la hipotesis de separabilidad, existira (tn )n T0 I tal que tn t y X(tn , ) X(t, ).
Puesto que X(tn , ) K, n y K es cerrado, se tiene que X(t, ) K.
(ii) (i). Supongamos ahora que se verifica (ii). Si el proceso no es (T0 , A)separable,
existira
/ A y t T de forma que para cada sucesion (tn )n en T0 convergente a t se
tiene que X(tn , ) no converge a X(t, ). Deben existir entonces un intervalo abierto I
que contiene a t y > 0 tales que d (X(t, ), X(t0 , )) > , t0 T0 I (pues en otro caso,
I intervalo abierto, t tal que > 0, t0I T0 I tal que d (X(t, ), X(t0I , )) , y
tomando In =]t n1 , t + n1 [ obtendramos una sucesion t0n T0 In -convergente entonces
a t- tal que d (X(t, ), X(t0n , )) n1 , n, en contra de lo dicho). Sea K el compacto
K = {y S : d(y, X(t, )) },
entonces X(t0 , ) K, t0 T0 I y, por hipotesis, X(t0 , ) K, t0 T0 I y, en
particular, X(t, ) K, lo que es una contradicci
on.

46
Corolario 28. Si (Xt )tT es (T0 , A)separable y f : S S es continua entonces
(f Xt )tT es (T0 , A)separable.
Demostraci
on. Consecuencia inmediata de la definicion (o del teorema anterior).
El comportamiento de una funcion continua en T queda determinado por sus valores en
un subconjunto denso y numerable T0 de T y, por tanto, cabe esperar que un proceso con
trayectorias continuas sea separable.
/ A, X(, ) es una funTeorema 29. Si existe un suceso A de modo que, para
cion continua en T , entonces (Xt )tT es (T0 , A)separable para cada subconjunto denso y
numerable T0 de T .
Demostraci
on. Si
/ A y t T entonces, para cada sucesion (tn )n en T0 convergente
a t se verifica que X(tn , ) X(t, ).
Observaci
on. Si T es un intervalo de R, el mismo resultado se obtiene si reemplazamos
continuidad por continuidad a la derecha (teniendo en cuenta que si T tiene extremo
superior y, T0 debe contener a y).
Bajo ciertas condiciones, T0 puede ser un conjunto denso y numerable arbitrario.
Teorema 30. Sea (Xt )tT un proceso real separable y continuo en probabilidad (i.e.,
Xt tt0 Xt0 en probabilidad). Entonces cualquier subconjunto denso y numerable T0 de
T sirve como conjunto separante.
Demostraci
on. Supongamos que (Xt )tT es (T00 , A)separable y sea T0 un subconjunto
denso y numerable de T . Si t T , sea (tn )n una sucesion en T0 convergente a t. Por
hipotesis, Xtn converge en probabilidad a Xt y, por tanto, existe una subsucesion (Xtnk )k
convergente a Xt c.s., digamos, existe At suceso de probabilidad nula tal que
Xtnk () k Xt () si
/ At .
Sea B = A {At : t T00 } y tomemos
/ B y t0 T . Existe, por hipotesis, una sucesion
0
0
tn en T0 convergente a t0 tal que
X(t0n , ) n X(t0 , ).
Puesto que
/ At0n existe t00n T0 tal que |t0n t00n | 1/n y |X(t0n , ) X(t00n , )| 1/n.
00
Entonces (tn )n es una sucesion en T0 convergente a t0 y tal que
X(t00n , ) n X(t0 , ).
Observaciones. 1) La L2 continuidad de un proceso estocastico implica la continuidad
en probabilidad del mismo, es decir, que para todo > 0 y t T , P (|Xt+h Xt | > ) h0
0. Ello se sigue de la desigualdad de Chevyshev pues,
P (|Xt+h Xt | > )

1
kXt+h Xt k22 .
2

2) Si (fn )n es una sucesion de v.a.r. convergente en probabilidad a f entonces admite una


subsucesion convergente a f puntualmente.

47
Aplicamos ya la nocion de separabilidad al estudio de las trayectorias.
Lema 31. Sea (Xt )tT un proceso (T0 , A)separable. Sean
/ A y t0 un punto de acumulacion de T , y supongamos que existe lmtt0 ,tT0 X(t, ). Entonces existe lmtt0 ,tT X(t, )
y los dos lmites coinciden.
Demostraci
on. De no existir lmtt0 ,tT X(t, ) podramos encontrar sucesiones tn
t0 y t0n t0 y > 0 tales que d(X(tn , ), X(t0n , )) , para cada n N (se prueba
sin dificultad que para que exista lmtt0 ,tT X(t, ) es necesario y suficiente que > 0
exista > 0 de modo que si 0 < |t t0 | < , 0 < |t0 t0 | < , t, t0 T entonces
d(X(t, ), X(t0 , )) < ; este es el llamado criterio de Cauchy y de el se sigue lo dicho).
Por la hipotesis de separabilidad podemos elegir, para cada n N puntos un , u0n T0
tales que |un tn | < 1/n, |u0n t0n | < 1/n y d(X(t0n , ), X(u0n , )) < 1/n.
Se sigue de ello que un , u0n n t0 y, para n grande,
d(X(un , ), X(u0n , ))
d(X(tn , ), X(t0n , )) d(X(tn , ), X(un , )) d(X(t0n , ), X(u0n , ))
2

>
n
2
en contra de que existe lmtt0 ,tT0 X(t, ). Siendo T0 denso podemos elegir una sucesion
(tn )n en T0 convergente a t0 , lo que prueba que ambos lmites coinciden.
El siguiente teorema establece una condicion suficiente para garantizar la continuidad de
casi todas las trayectorias de un proceso separable. Lo utilizaremos en particular para
probar la continuidad de las trayectorias de un movimiento browniano separable.
umeros
Teorema 32. Sea (Xt )atb un proceso separable. Supongamos que existen n
reales r, c, > 0 de forma que, si h > 0 es suficientemente peque
no, entonces
E[|Xt+h Xt |r ] ch1+h , t [a, b] tal que t + h [a, b].
Entonces casi todas las trayectorias son continuas; en otras palabras, para casi todo ,
X(, ) es continua en [a, b].
Demostraci
on. Sin perdida de generalidad podemos suponer a = 0 y b = 1 (en otro
caso trabajese con el proceso Yt = Xa+(ba)t ). Tomemos un n
umero positivo K tal que
rK > 0. Entonces, se sigue de la desigualdad de Chebyshev que
(20)

P [|Xt+h Xt | > hK ]

1
hrK

E[|Xt+h Xt |r ] ch1+rK h0 0.

En particular el proceso es continuo en probabilidad.


Un resultado anterior nos permite utilizar como conjunto separante T0 cualquier subconjunto denso y numerable de [0, 1]. Tomaremos como T0 los racionales diadicos:
T0 = {

j
: 0 j 2n ; n = 1, 2, ...}.
2n

48
Notese que

max

0j2n 1
n 1
2X

j=0

X
X j+1
n
2

P X j+1
X
n
2

j
2n

nK

j 2
n

2nK

2n c2n(1+rK) = c2n(rK) .
Para cada n N, sea

An =

max

0j2n 1

X
X j+1
n
2

nK
.
j 2
n

P
4
Entonces
n=1 P (An ) < + y por el lema de BorelCantelli , P (B) = 0 siendo B =
lm sup An (:= nN in Ai ).
As pues, si
/ B entonces existe un N () tal que si n N () entonces

()

X
(21)
, j = 0, 1, ..., 2n 1.
j () <
X j+1
n
n
2
2
2nk
h
h
Fijemos
/ B, n N () y sea s un racional diadico en el intervalo 2jn , j+1
. Entonces
n
2
s admite una representacion de la forma
s=

j
a1
am
+ n+1 + + n+m
n
2
2
2

con a1 , ..., am {0, 1}.

Para r = 0, ..., m hagamos


br =
Entonces

j
a1
ar
+
+ + n+r
2n 2n+1
2

(bo =

j
, bm = s).
2n

m1

X(s, ) X( j , )
Xb () Xb () .
r
r+1

n
2
r=0

Notese que [br , br+1 [= si ar+1 = 0 y

l
l+1
[br , br+1 [= n+r+1 , n+r+1 ,
2
2

(para

alg
un l {0, 1, ..., 2n+r+1 1})

si ar+1 = 1. Se deduce de (21) que


(22)

m1

X (n+r+1)K

X(s, ) X( j , )
2

2n
r=0

(23)

2nK

2(r+1)K M 2nK

r=0
4
Lema
)n una colecci
on de sucesos
Pde BorelCantelli: Sean (, A, P ) un espacio de probabilidad y (AnP
de A. Si n P (An ) < , entonces, P (lm supn An ) = 0. En el caso de que n P (An ) = se obtiene
que P (lm supn An ) = 1

49
para una cierta constante M que tomaremos 1.
Dado > 0 tomemos N1 N tal que M 2nK < /3 si n N1 , puesto que M 1 se
tiene ademas que 2nK < /3 si n N1 . Si t1 , t2 T0 y |t1 t2 | < mn(2N1 , 2N () ),
entonces a lo mas un racional diadico de rango n = max{N1 , N ()} (es decir, de la forma
j/2n , 0 j 2n ) puede estar entre t1 y t2 y entonces, se sigue de (21) y de (22) que
|X(t1 , ) X(t2 , )| < .
En efecto, pueden ocurrir para alg
un j {0, 1, ..., 2n 1} uno de los dos casos siguientes:
j
j+1
< t1 < n < t2
n
2
2

j
j+1
< t1 < t2 < n ;
n
2
2

en el primero de ellos,
|X(t1 , ) X(t2 , )|
j
j
j+1
j+1
|X(t1 , ) X( n , )| + |X( n , ) X( n , )| + |X( n , ) X(t2 , )| <
2
2
2
2

+ + =
3 3 3
y en el segundo caso,
|X(t1 , ) X(t2 , )| |X(t1 , ) X(

j
j
, )| + |X(t2 , ) X( n , )| < .
n
2
2

Queda as probado que casi todas las trayectorias son uniformemente continuas en T0
y, por tanto, tienen una extension continua a T = [0, 1]. El lema anterior y la hipotesis
de separabilidad prueban que esa extension debe coincidir con la trayectoria original; en
efecto, si t0 T y
/ AB entonces lmtt0 ,tT0 X(t, ) = f (t0 ) donde f es la extension
continua mencionada; por el lema, existe tambien lmtt0 ,tT X(t, ) y coincide con f (t0 );
por la hipotesis de separabilidad existe una sucesion(tn )n en T0 convergente a t0 tal que
X(tn , ) converge a X(t0 , ) y, entonces,
|f (t0 ) X(t0 , )| |X(t0 , ) X(tn , )| + |X(tn , ) f (t0 )| n 0.
Luego lmtt0 ,tT X(t, ) = X(t0 , ).
As pues, casi todas las trayectorias son continuas en [0, 1].
Observaci
on. Una propiedad basica de los procesos separables es que muchos conjuntos
en cuya definicion interviene una cantidad no numerable de valores de t son medibles. Por
ejemplo, si (Xt )tT es separable entonces { : X(, ) es continua en t0 }, t0 T0 ,
y { : X(, ) es uniformemente continua en T } son medibles, es decir, estan en la
complecion de A respecto a P . En efecto: si el proceso es (T0 , A)separable, entonces

{ : X(, ) es continua en t0 } =
\
{
/ A : d(X(t, ), X(t0 , )) < 1/n}

n=1 m=1 tT0 ,|tt0 |<1/m

50
y
{ : X(, ) es uniformemente continua en T } =
[

\
\
{
/ A : d(X(t1 , ), X(t2 , )) < 1/n} .
n=1 m=1 t1 ,t2 T0 ,|t1 t2 |<1/m

Si B R entonces
{ : d(X(t1 , ), X(t2 , )) B} = { : (X(t1 , ), X(t2 , )) d1 (B)} A
por continuidad de d. Puesto que que { A : X(, ) es continua en t0 } A y P (A) =
0, el resultado se sigue. Debe notarse tambien que esos conjuntos no estan en general en
la algebra RT que proporciona el teorema de Kolmogorov.
En muchas ocasiones el proceso (Xt )tT se construye por medio de sus distribuciones
finitodimensionales aplicando el teorema de extension de Kolmogorov. A pesar de que
(Xt )tT no es necesariamente separable, probaremos a continuaci
on que siempre existe un
proceso (Yt )tT separable definido en el mismo espacio de probabilidad que (Xt )tT y que
es una modificacion del mismo, es decir, para cada t T , Xt = Yt , P c.s.. En particular,
ambos procesos tienen las mismas distribuciones finitodimensionales.
Teorema 33. (de separabilidad) Sea (Xt )tT un proceso estocastico con espacio de
estados (S, S), donde S es un espacio metrico compacto y S = B(S). Supongamos que
T R (o, mas generalmente, que T es un subconjunto de un espacio metrico separable).
Entonces existe una modificacion separable de (Xt )tT .
Demostraci
on. Dividiremos la demostracion en tres partes.
a)Veremos en primer lugar que existe un subconjunto numerable T0 en T y, para
cada t T , un conjunto At de probabilidad nula tal que si
/ At entonces X(t, )
{X(t0 , ) : t0 T0 }.
En efecto, puesto que S admite una base numerable de abiertos, cada cerrado (i.e.,
compacto) de S es interseccion numerable de complementarios de abiertos de la base,
es decir, existe una sucesion (Kn )n de compactos en S tal que cada compacto de S es
interseccion de ciertos Kn0 s. Sea
n =

nf

t1 ,...,tr T,r=1,2,...

P {Xti Kn , 1 i r}.

Considerando una sucesion de aproximaciones al nfimo n y tomando la union de los


correspondientes conjuntos {t1 , ..., tr } obtenemos un subconjunto numerable Tn de T de
modo que
n = P ({Xt Kn , t Tn }).
Fijemos t T y hagamos An (t) = {Xt0 Kn , t0 Tn ; Xt
/ Kn }. Entonces P (An (t)) = 0
pues, si no,
P (Xt0 Kn , t0 Tn ) > P (Xt0 Kn , t0 Tn ; Xt Kn )
y podramos reemplazar Tn por Tn {t} para contradecir que n es el nfimo
Por definicion de An (t), si
/ An (t), entonces
(24)

[X(t0 , ) Kn , t0 T ] = [X(t, ) Kn ].

51

Sean At =
/ At entonces se
n=1 An (t) y T0 = n=1 Tn . Si K es unn compacto de S y
verifica

(25)

[X(t0 , ) K, t0 T0 ] = [X(t, ) Kn ].

En efecto, escribamos K =
/ At y X(t0 , ) K para cada t0 T0 entonces
j=1 Knj , si
X(t0 , ) Knj , t0 T0 y, por (24), X(t, ) Knj , y siendo eso cierto para cada j N se
tiene que X(t, ) K. Finalmente, si
/ At , hagamos K = {X(t0 , ) : t? T0 }. Entonces
0
0
X(t , ) K, t T0 y, por (25), X(t, ) K.
b) Probemos ahora que el proceso (Xt )tT es separable si y solo si existen un suceso
A de probabilidad nula y un subconjunto denso y numerable T0 de T tal que si
/ A
entonces
{(t, X(t, )) : t T I} {(t0 , X(t0 , )) : t0 T0 I}
para cada intervalo abierto I de R.
Supongamos que se verifica esta u
ltima condicion y veamos que el proceso es entonces
separable. Para ello tomemos un compacto K en S, un intervalo abierto I de R y un
/A
tales que X(t0 , ) K, t0 T0 I. Entonces
{(t, X(t, )) : t T I} {(t0 , X(t0 , )) : t0 T0 I}
I K =I K =I K
y, por tanto, X(t, ) K, t T I; el criterio de separabilidad (teorema 27) prueba que
el proceso es separable.
Recprocamente, supongamos que el proceso es (T0 , A)separable; tomemos un intervalo abierto I de R y un punto t T I tal que t
/ T0 (si t T0 no hay nada que
probar). Si
/ A podemos encontrar una sucesion de puntos tn T0 I tal que tn T
y X(tn , ) X(t, ). Entonces
(tn , X(tn , )) n (t, X(t, )).
Consecuentemente, (t, X(t, )) {(t0 , X(t0 , ) : t0 T0 I}.
c) (Demostracion del teorema de separabilidad). Debemos encontrar una modificacion
separable de (Xt )tT .
Sea J un intervalo con extremos racionales. Por a) existen un conjunto numerable
T (J) T J y sucesos At (J) de probabilidad nula para cada t T J tales que
si
/ At (J) entonces X(t, ) {X(t0 , ) : t0 T (J)}. (Si T es un subconjunto de un
espacio metrico separable tomese un subconjunto denso y numerable D y como conjuntos
J las bolas abiertas centradas en Dy con radio racional) Hagamos
At = tJ At (J),

T00 = J T (J)

y sea T0 la union de T00 y un conjunto denso y numerable fijo de T . As, T0 tambien es


denso y numerable en T .
Ahora bien, si t T J y
/ At entonces
/ At (J) y, por tanto,
(26)

X(t, ) {X(t0 , ) : t0 T (J)} {X(t0 , ) : t0 T0 J} =: K(J, ).

Entonces, si t T y
/ At se tiene X(t, ) K(J, ), t J y, por tanto,
X(t, ) tJ K(J, ) =: K(t, );

52
K(t, ) es un compacto no vaco (Si
/ At entonces X(t, ) K(t, ) y K(t, ) es entonces no vaco. Por otra parte, si At y = K(t, ) = tJ K(J, ) = tJ {X(t0 , ) : t0 T0 J}
entonces existen J1 , ..., Jn tales que t Ji , 1 i n, y ni=1 K(Ji , ) = -por compacidaden contra de que K(ni=1 Ji , ) = ni=1 K(Ji , )).
Se define un nuevo proceso (Yt )tT como sigue. Si
/ At entonces Yt () := Xt ().
Si At , sea Yt () un punto cualquiera de K(t, ). Puesto que P (At ) = 0, t, (Yt )tT
es una modificacion de (Xt )tT (notese que Yt es P medible, es decir, medible respecto
a la complecion de A respecto de P ). Hagamos A = tT0 At . Para probar que (Yt )tT
es (T0 , A)separable utilizaremos el apartado b) de la demostracion. Sean
/ A e I un
intervalo abierto tal que t T I. Entonces existe un intervalo J con extremos racionales
contenido en I tal que t T J. Si
/ At entonces
Y (t, ) = X(t, ) K(J, ) = {X(t0 , ) : t0 T0 J}
{X(t0 , ) : t0 T0 I} = {Y (t0 , ) : t0 T0 I}
pues
/ At0 si t0 T0 . Si At entonces
Y (t, ) K(t, ) K(J, ) {Y (t0 , ) : t0 T0 I}
como antes. Puesto que t {t0 : t0 T0 I} se sigue que
{(t, Y (t, )) : t T I} {Y (t0 , ) : t0 T0 I}
lo que acaba la prueba.
Observaci
on. Si el proceso (Xt )tT , mas que a valores en un compacto, es Rvalorado,
podemos tomar como S el espacio metrico compacto R. As, la modificacion (Yt )tT puede
tomar ocasionalmente los valores + y . No obstante, puesto que para cada t T se
tiene Xt = Yt , P c.s., Yt es finita c.s., a t fijo.

n 9: Medibilidad.
Leccio
En esta leccion estudiamos la nocion de medibilidad. Para situar el problema, supongamos que (Xt )tI , I intervalo de R, es un proceso estocastico real; nos preguntamos si las
trayectorias son (casi todas) Lebesgue integrables en I. Utilizando el teorema de Fubini
se tiene
Z Z
Z Z
Z
|X(t, )|dtdP () =
|Xt ()|dP (dt = E[|Xt |]dt.
R

As, si I E[|Xt |]dt < + entonces I |Xt ()|dt es finita para casi todo , como queramos.
La dificultad de este argumento estriba en que para aplicar el teorema de Fubini necesitamos que X(t, ) sea medible en ambas variables.
El problema consiste en construir una modificacion medible del proceso dado, conservando la separabilidad si es posible.
Para este problema consideramos por simplicidad procesos Rvalorados en los que
T = [0, +[. Ademas, con un peque
no esfuerzo adicional, desarrollaremos una propiedad
algo mas fuerte como es la de medibilidad progresiva, u
til en teora de procesos de Markov.
n. (Procesos medibles y progresivamente medibles) Sea (Xt )t0 un proceso
Definicio
estocastico que supondremos adaptado a la familia (At )t0 de subalgebras de A en
el sentido de que As At si s < t y que Xt es At medible, t. Si no se especifican
explcitamente las At tomaremos At := (Xs : s t), es decir, la mas peque
na
algebra
que hace medibles las v.a. Xs , s t. El proceso se dice progresivamente medible si para
cada t > 0 la aplicacion
(s, ) [0, t] X(s, ) R
es B[0, t] At medible. El proceso se dice medible si la aplicacion
(s, ) [0, +[ X(s, ) R
es B[0, +[At medible.
Observaciones. !) Un proceso progresivamente medible es medible. En efecto, si B R
entonces
{(s, ) : X(s, ) B} =
n=0 {(s, ) : 0 s n, X(s, ) B}
y {(s, ) : 0 s n, X(s, ) B} B[0, n]An . Puesto que B[0, n]An B[0, +]A
queda probada la afirmacion.
2) Las trayectorias
R de un proceso medible son medibles. Ademas, el teorema de Fubini prueba que si T E[|Xt |]dt < + entonces casi todas las trayectorias son Lebesgue
integrables en T .
A diferencia del teorema de separabilidad, el de medibilidad progresiva requiere la hipotesis
adicional de continuidad con probabilidad, hipotesis que la verifica, por ejemplo, un L2
proceso con media y funcion de covarianzas continua.
Teorema 34. Sea (Xt )t0 un proceso estocastico real adaptado a la familia (At )t0
de subalgebras de A. Si el proceso es continuo en probabilidad, existe una modificacion
(Yt )t0 de (Xt )t0 adaptada tambien a la familia (At )t0 y que es progresivamente medible.
53

54
Probaremos antes un lema que introduce una metrica correspondiente a la convergencia
en probabilidad.
Lema 35. Sea g : [0, +[ [0, +[ una funcion medible, acotada, creciente, continua
en 0 y tal que g(x + y) g(x) + g(y), para cada x, y 0, g(0) = 0 y g(x) > 0 si x > 0.
(Por ejemplo, g(x) = x/(1 + x) o g(x) = mn(1, x)). Si X e Y son v.a.r. en (, A, P ) se
define
d(X, Y ) = E[g(|X Y |)].
Entonces d es una metrica en el espacio M de las v.a.r. en (, A, P ) si identificamos
funciones en M que coinciden c.s.. Ademas, la dconvergencia equivale a la convergencia
en probabilida.
Demostraci
on. Es sencillo ver que d es una metrica. Por otra parte, si > 0 y X M
entonces
1
P (|X| ) P (g(|X|) g())
E[g(|X|)].
g()
Puesto que g() > 0 si > 0, la dconvergencia implica convergencia en probabilidad.
Ademas
Z
Z
E[g(|X|)] =
g(|X|)dP +
g(|X|)dP g() + (sup |g|)P (|X| ).
{|X|<}

{|X|}

Siendo g acotada y g() 0 g(0) = 0, la convergencia en probabilidad implica la


dconvergencia.
Demostraci
on. (Teorema) Sea M el espacio de las v.a.r. en (, A, P ) -identificando
funciones que coinciden P c.s.- provisto de la metrica
d(X, Y ) = E[mn(|X Y |, 1)];
como sabemos, dconvergencia equivale a convergencia en probabilidad. Por la hipotesis
de continuidad en probabilidad, la aplicacion
t [0, +[ Xt M
es continua. Para cada entero positivo n, esa aplicacion es uniformemente continua en
[0, n] y, por tanto, existe n > 0 tal que si t, t0 [0, n] y |t t0 | n entonces
d(Xt , Xt0 ) 2n .
Podemos suponer que (n )n es una sucesion decreciente a 0. Construyamos para cada
n N una particion
(n)
(n)
0 = t0 < t1 < < ta(n)
=n
n
de [0, n] de modo que
max

0jan 1
(n)

Supondremos que {tj

(n)

(n)

|tj+1 tj | n .
(n+1)

: 0 j an } {tj
: 0 j an+1 }. Para n N se define
(
(n)
(n)
Xt(n) si tj1 t tj , 1 j an
j1
Xn (t) =
Xn
si t n

El resto de la demostracion se divide en varias etapas:

55
(a) Veamos, en primer lugar, que
d(Xn (t), Xn+1 (t)) 2n , t < n.
(n)

(n)

En efecto, si t < n entonces existen enteros j, k tales que tj1 t < tj


t<

(n+1)
tk
.
(n)

(n+1)

y tk1

(n+1)

Necesariamente |tj1 tk1 | n de donde se sigue el resultado.


(b) Para cada t 0, Xn (t) converge P c.s.. Para probarlo escribamos

P |Xn (t) Xn+1 (t)| n2 = P |Xn (t) Xn+1 (t)| 1 n2


n2 d(Xn (t), Xn+1 (t))

n2
,
2n

si n > t por

(a).

(la primera desigualdad es debida a la desigualdad de Chebyshev). Puesto que


P n2
2n < + el lema de BorelCantelli prueba que

1
P nn kn |Xk (t) Xk+1 (t)| < 2
= 1,
k
es decir, con probabilidad 1 se verifica que |Xn (t) Xn+1 (t)| < n12 si n es grande; se
sigue de ah que, para casi todo , (Xn (t)())n es de Cauchy y, entonces, convergente.
(c) La aplicacion
(s, ) [0, t] Xn (s)( := Xn (s, ) R
es B[0, t] At medible si n > t. n efecto, podemos escribir
Xn (s, ) =

an
X
j=1

Xt(n) ()I[t(n) ,t(n) [ (s, ) + Xn ()I[n,+[ (s, ).


j1

j1 j

Restringiendo Xn (, ) a [0, t], la suma anterior queda truncada siendo el u


ltimo
sumando
Xt(n) ()I[t(n) ,t] (s, )
j1

si

(n)
tj1

t<

(n)
tj .

j1

Puesto que Xt(n) () (como funcion de ) es At(n) At medible,


j1

j1

queda probada nuestra afirmacion.


(d) Se define

Y (t, ) = lm sup Xn (t, ),


n

, t 0.

Entonces (Yt )t0 es una modificacion de (Xt )t0 .


(n)

En efecto, dados t 0 y n N (n > t) existe jn {1, ..., an } tal que tjn 1 t <
(n)

(n)

tjn . Es claro que tjn 1 n t y, por hipotesis, Xn (t) = Xt(n)

jn 1

n Xt en

probabilidad. Por otra parte, se sigue de (b) que Xn (t) converge P c.s. y el lmite
c.s. no puede ser otro que Yt . Puesto que la convergencia en probabilidad implica la
convergencia puntual de una subsucesion, se sigue que Yt = Xt , P c.s. (notese que
Yt puede tomar los valores ).

56
(e) Veamos que (Yt )t0 es progresivamente medible.
Se sigue de (c) y de la definicion de Yt que la aplicacion
(s, ) [0, t] Y (s, ) R
es lmite superior de funciones B[0, t] At medibles.
(f) Se tiene que el proceso (Yt )t0 es separable.
(n)

Sea T0 = {tj

: j = 1, 2, ..., an , n = 1, 2, ...}. Entonces Y (t, ) = lm supn x


(n)

n(t, ) y, para t fijo y n grande, Xn (t, ) = X(tj1 , ) para alg


un j = j(n), donde
(n)

(n)

tj1 t < tj . Por definicion de Y (t, ), existe una sucesion creciente nk en N tal
que
(n )
X(tj(nkk )1 , ) n Y (t, ).
(n )

(n )

Pero X(tj(nkk )1 , ) = Y (tj(nkk )1 , ), pues si s es uno de los puntos de una particion


(lo es entonces tambien de todas las siguientes) entonces Xn (s) = Xs para n grande
(n )
y, por tanto, Ys = Xs . Puesto que tj(nkk )1 k t, la condicion de separabilidad
se verifica (el conjunto nulo A es, en este caso, el vaco).

n 10: Ana
lisis de las trayectorias en un movimiento
Leccio
browniano.
En esta leccion analizaremos el movimiento browniano unidimensional es decir, un proceso
estocastico (Bt )t0 gaussiano con media 0 y funcion de covarianzas K(s, t) = 2 mn(s, t).
En lecciones anteriores veamos que el movimiento browniano puede verse como lmite de recorridos aleatorios cuando el tama
no de cada salto tiende a 0. Sin embargo, el
movimiento browniano tiene muchas propiedades que no posee el recorrido aleatorio.
Por el teorema de separabilidad, existe una versi
on separable del movimiento browniano. Restringiremos nuestra atencion a esta u
ltima. A partir de ahora, (Bt )t0 sera un
movimiento browniano separable y utilizaremos indistintamente las notaciones Bt () y
B(t, ) para el valor de Bt en .
Antes de empezar n a estudiar las trayectorias de (Bt )t0 , recordemos que una v.a. real
X definida en un espacio de probabilidad (, A, P ) se dice simetrica si para cada A R
se tiene que P (X A) = P (X A), es decir, si P X = P X . La siguiente proposicion
muestra una caracterizacion de las v.a. simetricas.
n 36. Sea X una v.a.r. definida en un espacio de probabilidad (, A, P ).
Proposicio
Entonces X es simetrica si y solo si su funcion caracterstica X es Rvalorada.
Demostraci
on. Si X es Rvalorada entonces
X (t) = E(eitX ) = E(eitX )X (t) = X (t).
Luego X y X tienen la misma distribucion y entonces para cada B R, P (X B) =
P (X B), es decir, X es simetrica.
Recprocamente, si P X = P X y g es una funcion impar P X integrable entonces
Z
Z
Z
Z
g(x)dP X (x) =
g(X())dP () = g(X())dP () = g(x)dP X (x)
R

con lo cual

R g(x)dP

X (x)

= 0. Tomando g(x) = sen tx se tiene

X (t) = E(cos tx + isen tx) = E(cos tx) R.


El siguiente teorema prueba que casi todas las trayectorias del movimiento browniano
(Bt )t0 son continuas.
Teorema 37. Para casi todo , B(, ) es continua en [0, ).
Demostraci
on. Puesto que Bt+h Bt tiene distribucion normal con media 0 y varianza
se tiene

Bt+h Bt r r r/2
r
h = chr/2 ,

E[|Bt+h Bt | ] = E
h

2 h,

donde c = r E[|Z|r ], siendo Z una v.a. con distribucion normal N (0, 1). Por el teorema
32 (tomando r como un n
umero mayor que 2) aplicado a cada intervalo de la forma [0, n],
con n un n
umero entero positivo, se tiene que para casi todo , B(, ) es continua en
[0, n]. Siendo n arbitrario, se verifica que, para casi todo , B(, ) es continua en [0, ).
57

58
Los teoremas que veremos a continuacion son la llave de muchas propiedades de las trayectorias del movimiento browniano.
Teorema 38. Dado a > 0 se verifica que

P max Bs > a = 2P {Bt > a}.


0st

Demostraci
on. Para la demostracion de este resultado nos basaremos en la igualdad

P max Bs > a, Bt > a = P m


ax Bs > a, Bt < a
0st

0st

que probaremos posteriormente. Teniendo en cuenta que la distribucion de Bt es absolutamente continua y que, por tanto P (Bt = a) = 0, se tiene que la suma de los dos miembros
de la igualdad anterior es P {max0st Bs > a} y, por tanto,

1
ax Bs > a .
P max Bs > a, Bt > a = P m
0st
0st
2
Puesto que

max Bs > a, Bt > a

0st

se tiene que

= {Bt > a}

max Bs > a = 2P {Bt > a}.

0st

Los dos siguientes resultados proporcionan caracterizaciones de las trayectorias del movimiento browniano en entornos de infinito y de 0. Concretamente, el primero de ellos prueba
que, en un entorno de infinito, las trayectorias son no acotadas superior ni inferiormente
y tienen siempre una raz tan proxima a infinito como queramos. En el segundo teorema
se prueba que, en un entorno de cero, las trayectorias son acotadas y tienen una raz tan
proxima a cero como queramos.
Teorema 39.

P sup Bt = + = P nf Bt = = 1.
t0

t0

Como consecuencia de ello, para casi todo , B(, ) es no acotada y tiene un cero en
[M, ), para cada M > 0.
Demostraci
on. Si a > 0 se tiene que

P sup Bt > a P sup Bs > a P max Bs > a = 2P {Bt > a}


t0

0st

0st

pues siendo B(, ) continua, para casi todo , en el compacto [0, t] se alcanza el supremo
en alg
un punto de ese compacto y, por tanto, coincide con el maximo. Ahora bien, como
Bt sigue una distribucion normal N (0, 2 t),

Bt
a

>a =1F

P [Bt > a] = P
t
t

59
siendo F la funcion de distribucion de la distribucion normal N (0, 1). Siendo
a > 0 y por
la continuidad por la derecha de F , se tiene que, cuando t , F (a/( t)) tiende a
F (0) = 1/2.
De todo lo anterior se deduce que

P sup Bt > a = 1
t0

y, por tanto,
"

\
P sup Bt = + = P
sup Bt > a
= lm P sup Bt > a = 1.
t0

Por otra parte,

a=1

t0

t0

P nf Bt = = P sup(Bt ) = + = 1
t0

t0

pues (Bt )t0 es tambien un movimiento browniano separable.


Veamos ahora la consecuencia. Que, para casi todo , B(, ) no esta acotada es trivial.
Veamos entonces que, con probabilidad 1, para cada M > 0, B(, ) tiene un cero en
[M, ). Supongamos que no, es decir, que existe un suceso A probabilidad mayor que
cero tal que, si A, B(, ) no tiene ning
un cero en [M, ). En ese caso, sucedera
que, para casi todo de A, B(, ) tiene un cero en [0, M ] (pues, siendo el nfimo y el
supremo y + respectivamente, y las trayectorias casi todas continuas, estas tienen
que cortar al eje de abcisas). Ademas para casi todo de A, la trayectoria de es continua
y, por tanto, acotada sobre el compacto [0, M ]. Puesto que, para todo A, tiene que
suceder que B(t, ) > 0, t [M, ) o bien que B(t, ) < 0, t [M, ) y que, como
acabamos de probar, la trayectoria de es acotada en [0, M ], tendra que suceder que
P [nf t0 Bt = ] < 1 o bien que P supt0 Bt = + < 1 en contra de la tesis del
teorema.
Teorema 40. Si h > 0, entonces

P max Bs > 0 = P mn Bs < 0 = 1.


0sh

0sh

Como consecuencia de ello, para casi todo , B(, ) tiene un cero en (0, h], para todo
h > 0.
Demostraci
on. Por el teorema 38 se tiene que, si a > 0

P max Bs > 0 P max Bs > a = 2P [Bh > a] = 2[1 F (a/( h)] a0+ 1
0sh

0sh

donde F denota la funcion de distribucion de la distribucion normal N (0, 1).


Luego,

P m
ax Bs > 0 = 1.
0sh

60
De forma analoga que en el teorema anterior, teniendo en cuenta que (Bt )t0 es un
movimiento browniano separable, se tiene que

P mn Bs < 0 = P m
ax (Bs ) > 0 = 1.
0sh

Para la consecuencia, se tiene que


"

max Bs > 0, h > 0 = P

0sh

0sh


\
n=1

m
ax Bs > 0
= lm P max Bs > 0 = 1.

0sh

0sh

Ademas,

"

\
mn Bs < 0, h > 0 = P
mn Bs < 0
= lm P mn Bs < 0 = 1.

0sh

n=1

0sh

0sh

Ahora bien, puesto que B(, ) es continua, para casi todo , en [0, ) y, en particular en
[0, h], por las igualdades probadas anteriormente, nos damos cuenta que B(, ) tiene que
tomar valores positivos y negativos en [0, h] para casi todo y, por el teorema de Bolzano,
para casi todo , B(, ) tiene, al menos, un cero en (0, h], para cada h > 0.
El siguiente teorema prueba que las trayectorias del movimiento browniano (Bt )t0 no son
diferenciables par casi ninguna observaci
on.
Teorema 41. Para casi todo , la trayectoria B(, ) no es diferenciable en ning
un
punto. Concretamente, si
D = { : B(t, ) es diferenciable para al menos un t [0, )}
entonces D esta incluido en un suceso de probabilidad nula.
Demostraci
on. Fijemos un constante k > 0 y definimos el conjunto

|B(t + h, ) B(t, )|
< k para al menos un t [0, 1) .
A = A(k) = : lm sup
h
Si A, entonces existe un t [0, 1) tal que
lm sup

|B(t + h, ) B(t, )|
<k
h

y, por tanto, la trayectoria B(, ) se encuentra, en un entorno de t, en el abanicode


pendiente k que sale de B(t, ). Podemos tomar un entero positivo m y un j {1, ..., m}
tales que (j 1)/m t < j/m de tal forma que si t s (j +3)/m entonces B(s, ) caiga
dentro del abanico anteriormente se
nalado. As, si A = A(k) entonces se verifican

3k
j+1
j
1. B
, B
,
m
m
m

5k
j+2
j+1
2. B
, B
,
m
m
m

61

7k
j
+
3
j
+
2
3. B
, B
,
m
m
m
En efecto, para la primera desigualdad se tiene

B j + 1 , B j , B j + 1 , B(t, ) + B(t, ) B j ,

m
m
m
m
2k
k
3k

+
=
m
m
m
Las otras dos desigualdades se prueban de forma analoga.
Ademas se tiene que dados a > 0, t 0 y h > 0,

|B(t + h, ) B(t, )|
a

P [|B(t + h, ) B(t, )| < a] = P


< =
h
h

a
B(t + h, ) B(t, )
a

P <
< =
h
h
h
2
Z a
Z a
h

h
1
x
1
2a
exp
dx
dx =
a
a
2
2
2
2h


h
h
Para cada m N y cada j {1, ..., m} se define Amj como el conjunto de las observaciones
que satisfacen las tres desigualdades anteriores. Entonces, por la independencia de los
incrementos, y la desigualdad anterior, se tiene
2(3k/m)
2(5k/m)
2(7k/m)
P (Amj ) p
p
p
= cm3/2
2(1/m) 2(1/m) 2(1/m)
para cierta constante positiva c.
Si Am = m
j=1 Amj , entonces
m
m
X

X
P (Am ) = P m
A

P
(A
)

cm3/2 = cm1/2 .
mj
j=1 mj
j=1

j=1

Para el caso particular de que m


sea de la forma n4 para alg
un n N se tiene que
P
2
P (An4 ) c/n . Luego la serie
P
(A
)
es
convergente.
Adem
as, por el lema de
4
n
n=1
BorelCantelli se tiene que P (lm supn An4 ) = 0. Pero
A = A(k) lm inf Am lm inf An4 lm sup An4
m

(la primera contencion es debida a que A(k) Amj Am para el m y el j que fijabamos

al principio y que si m0 > m, A(k) Am0 ; siendo lm inf m Am =


n=1 j=n Aj se verifica
lo deseado). As tendramos que P [A(k)] = 0.
Si definimos ahora
D0 = { : B(t, ) es diferenciable para al menos un t [0, 1)}
a incluido en un suceso de probabilidad
se tiene que D0
k=1 A(k) y, por tanto, que D0 est
nula.

62
Si denotamos ahora
Dn = { : B(t, ) es diferenciable para al menos un t [n, n + 1)}
tendramos que D =
as para cada n N se verifica la siguiente igualdad
n=1 Dn . Adem
Dn = { : B(n + ) B(n) es diferenciable para al menos un t [0, 1)}.
Puesto que (B(n + t) B(n))t0 es tambien un movimiento browniano separable se tiene
que cada Dn esta incluido en un suceso de probabilidad nula y, por tanto, D est
a incluido
en un suceso de probabilidad nula, como queramos probar.

n 11: Ley del logaritmo iterado: aplicacio


n al movimiento
Leccio
browniano.
Sea Y1 , Y2 , ... una sucesion de v.a.r. independientes e identicamente distribuidas con media
0. La ley fuerte de los grandes n
umeros prueba que, si Xn = Y1 + + Yn , entonces Xn /n
converge a 0 c.s.. As para cada k > 0, podemos decir que |Xn | es menor que kn para n
suficientemente grande o, lo que es lo mismo, que Xn oscila con una amplitud menor que
kn. Pero podramos estar interesados en obtener mayor informacion sobre esta oscilacion;

por ejemplo, podemos preguntarnos si |Xn | es menor que k n eventualmente. Este tipo
de cuestiones son las que nos vamos a plantear en esta leccion, especialmente en el caso
de que nuestras v.a. esten normalmente distribuidas, para poder aplicar los resultados al
movimiento browniano.
Concretamente, probaremos que la oscilacion de puede medirse mediante f (n) =
(2 2 n ln ln n)1/2 , donde 2 es la varianza com
un de las Yk . Veamos, en primer lugar dos
lemas previos.
Lema 42. Sean Y1 , Y2 , ... v.a.r. independientes
y normalmente distribuidas todas ellas
P
con media 0 y varianza 1 y sea Xn = nk=1 Yk , n = 1, 2.... Entonces, para casi todo ,
lm sup
n

Xn ()
1.
(2n ln ln n)1/2

umero > 1, y sean nk = k , k = r, r + 1, r + 2, ... donde


Demostraci
on. Fijemos un n
r es el menor entero positivo tal que r 3 (de forma que (ln ln nk )1/2 este bien definido
para k r). Sea
Ak = { : Xn ( > (2n ln ln n)1/2 para alg
un n (nk , nk+1 ]},
y tomemos a(n) = (2n ln ln n)1/2 : Entonces
P (Ak ) P [Xn > a(nk ) para alg
un n nk+1 ]

=P
max Xn > a(nk )
1n[nk+1 ]

2P X[nk+1 ] > a(nk )


por un problema
p
2

2 [nk+1 ]
a (nk )

exp
por otro problema
2[nk+1 ]
2a(nk )
2

2 nk+1
a (nk )

exp
2nk+1
2a(nk )
c exp{ ln ln k }
= c0 exp{ ln k} = c0 k
donde c = 1/(2P
ln ln 3)1/2 y c0 = c exp{ ln ln }.
P
Pero la serie k k es convergente y, por tanto, tambien lo es la serie k P (Ak ) y,
por el lema de BorelCantelli5 se tiene que P (lm supk Ak ) = 0 o, lo que es lo mismo,
5
Lema
)n una colecci
on de sucesos
Pde BorelCantelli: Sean (, A, P ) un espacio de probabilidad y (AnP
de A. Si n P (An ) < , entonces, P (lm supn An ) = 0. En el caso de que n P (An ) = se obtiene
que P (lm supn An ) = 1

63

64
que solo ocurren con probabilidad 1 una cantidad finita de A0k s. De ello se deduce que,
para n suficientemente grande, Xn (2n ln ln n)1/2 c.s.. Puesto que esto ocurre para
= 1 + 1/m, m = 1, 2, ... concluimos que
P ( > 1, Xn (2n ln ln n)1/2 eventualmente) = 1
es decir, para casi todo ,
lm sup
n

Xn ()
1.
(2n ln ln n)1/2

Lema 43. Bajo las hipotesis del lema anterior se verifica


lm sup
n

Xn
= 1 c.s..
(2n ln ln n)1/2

Demostraci
on. Si < 1, queremos probar que, con probabilidad 1,
Xn ()
>
(2n ln ln n)1/2
para n suficientemente grande.
Aplicando el lema anterior a (Xn ) se obtiene que, con probabilidad 1, Xn
2(2 ln ln n)1/2 para n suficientemente grande. As, si mk = M k , (M > 1), se tiene que,
para k suficientemente grande,
Xmk1 2(2 ln ln mk1 )1/2 c.s..
Sea Zk = Xmk Xmk1 , entonces
Xmk Zk 2(2 ln ln mk1 )1/2 c.s.
para k suficientemente grande y, para obtener la tesis, sera suficiente probar que, para k
suficientemente grande,
Zk > (2mk ln ln mk )1/2 + 2(2 ln ln mk1 )1/2 c.s..
Tomemos 0 (, 1). Entonces, para alg
un M se tiene que
0 [2(M k M k1 ) ln ln M k ]1/2 > (2M k ln ln M k )1/2 + 2(2M k1 ln ln M k1 )1/2 , k
(pues el cociente
(2M k ln ln M k )1/2 + 2(2M k1 ln ln M k1 )1/2
0 [2(M k M k1 ) ln ln M k ]1/2
es menor que

1 1/2
2
1
+ 0 (M 1)1/2
M

que converge a /0 < 1 cuando M .


Teniendo en cuenta lo anterior, sera suficiente probar que, para k suficientemente
grande,
Zk > 0 [2(M k M k1 ) ln ln M k ]1/2 , c.s..

65
Ahora, como Zk tiene distribucion normal N (0, M k M k1 ) se tiene que
1
exp{02 ln ln M k }
P (Zk > 0 [2(M k M k1 ) ln ln M k ]1/2 )
20 (2 ln ln M k )1/2
c
02

k
1/2
(ln k)
c

pues 0 < 1.
k ln k
P
P
Pero k 1/(k ln k) = y, por tanto, k P (Zk > 0 [2(M k M k1 ) ln ln M k ]1/2 ) = .
Finalmente, el resultado se obtiene mediante la aplicacion de la segunda parte del lema
de BorelCantelli.
Veamos ahora el resultado para variables normales.
P
Teorema 44. Sea Xn = nk=1 , n = 1, 2, ..., donde Y1 , Y2 , ... son v.a.r. independientes
y normalmente distribuidas todas ellas con media 0 y varianza 2 . Entonces, para casi
todo ,
Xn ()
=1
lm sup
n (2 2 n ln ln n)1/2
y
Xn ()
= 1.
lm inf
n (2 2 n ln ln n)1/2
Demostraci
on. Para la primera igualdad, basta aplicar el lema anterior a la sucesion
(Xn /)n y, para la segunda, basta aplicar el mismo lema a (Xn /)n .
Teorema 45. (Ley del logaritmo iterado para el movimiento browniano) Sea (Bt )t0
un movimiento browniano separable. Entonces, para casi todo ,
lm sup
t

y
lm inf
t

Bt ()
2
(2 t ln ln n)1/2

Bt ()
2
(2 t ln ln n)1/2

=1

= 1.

Demostraci
on. Podemos suponer sin perdida de generalidad que 2 = 1 (en caso contrario, consideraramos (Bt /)). La afirmacion para el lmite inferior se obtendra de la
del lmite superior considerando (Bt ), de tal forma que es suficiente probar la primera
igualdad.
Teniendo en cuenta la igualdad
Bn = B1 + (B2 B1 ) + (B3 B2 ) + + (Bn Bn1 )
tenemos Bn expresado como suma de n v.a.r. independientes y normalmente distribuidas
todas ellas con media 0 y varianza 1 y, por el teorema anterior,
lm sup
n

Bn ()
= 1, c.s.
(2n ln ln n)1/2

66
y, por tanto,
lm sup
t

Bt ()
1, c.s..
(2t ln ln n)1/2

Ademas,
max B(t) = B(n) +

ntn+1

max [B(t) B(n)]

ntn+1

max [B(t) B(n)] > a

ntn+1

=P

m
ax B(t) > a

0t1

2
2
= 2P (B(1) > a)
ea /2 .
2a

P
2
Sea a = n1/4 ; entonces, ea /2 = e n/2 . Puesto que n e n/2 < , el lema de Borel
Cantelli prueba que, con probabilidad 1, para n suficientemente grande,
max [B(t) B(n)] n1/4 .

ntn+1

As, si 0 > 1, > 0 tenemos que, para n suficientemente grande, con probabilidad 1,
max B(t) < 0 (2n ln ln n)1/2 + n1/4

ntn+1

< (0 + )(2n ln ln n)1/2 (0 + )(2t ln ln t)1/2 si n t n + 1.


As pues, si > 1, tenemos que, para n suficientemente grande,
B(t) < (2t ln ln t)1/2
y, por tanto,
lm sup
t

Bt ()
1, c.s..
(2t ln ln n)1/2

Captulo III

ALGUNOS TIPOS ESPECIALES DE PROCESOS

ESTOCASTICOS
A TIEMPO CONTINUO

III.13. Cadenas de Markov en tiempo continuo: Procesos de Markov: Cadenas de


Markov en tiempo continuo. Propiedades de la matriz de transicion. Clasificacion
d los estados. Construccion de una cadena de Markov a partir de su generador
infinitesimal. Interpretacion de los elementos de Q. Procesos de nacimiento puro.
Procesos de nacimiento y muerte.
III.14. Procesos con incrementos independientes:
III.15. Martingalas a tiempo continuo:
III.16. Tiempos de parada:
Referencias captulo III: Ash, Gardner (1975).

67

68

n 12: Procesos de Markov. Cadenas de Markov en tiempo


Leccio
continuo
n. Sean T un conjunto de ndices totalmente ordenado, {Xt }tT un proceso
Definicio
estocastico en (, A, P ) con espacios de estados (S, S) y {At }tT una familia de sub-algebras de A. Supongamos que {Xt }tT es un proceso adaptado a la familia {At }tT , i.e.
As At si s t y Xt es At -medible para cada t T . Diremos que {Xt }tT es un proceso
de Markov relativo a {At }tT si para cada B S y cada s, t T , s < t,
(27)

P (Xt B | As ) = P (Xt B | Xs )

c.s.

Observaciones. 1) La propiedad (27) se llama propiedad de Markov. Hemos escrito,


P ( | Xs ), pero en realidad pensaremos en P ( | Xs ) Xs o bien P ( | Xs1 (S)).
2) Equivalente a la propiedad de Markov es la siguiente propiedad: para s < t y g :
(S, S) (R, R) tal que E[g Xt ] sea finita, se verifique:
(28)

E[g Xt | As ] = E[g Xt | Xs ]

c.s.

3) Si se afirma que {Xt }tT es un proceso de Markov, sin hacer referencia a ninguna familia
de sub--algebras, se supone que nos estamos refiriendo a As = (Xt : t s). En este
caso, la propiedad de Markov es,
P (Xt B | Xr , r s) = P (Xt B | Xs )

c.s para todo B S

Intuitivamente, podemos decir que un proceso de Markov es un proceso que tiene la


propiedad de que dado el valor de Xt , los valores de Xs , s > t, no dependen de los valores
de Xu , u < t, esto es, que la probabilidad de cualquier comportamiento futuro del proceso,
cuando se conoce exactamente su presente, no se ve alterado, no depende de la informacion
adicional relativa a su comportamiento pasado.
n 46. Sea {Xt }tT un proceso de Markov relativo a {At }tT y A (Xr , r
Proposicio
t) entonces
P (A | At ) = P (A | Xt ) c.s.
Demostraci
on. Definimos C = {A (Xr , r t) : P (A | At ) = P (A | Xt ) c.s.}.
Se trataQde probar que los conjuntos de la forma X 1 (B), siendo X = (Xr , r t)
y B rt S, pertenecen a C, y haciendo uso del Teorema de la clase monotona se
concluye (C es una clase monotona, es decir estable frente a uniones numerables crecientes
e intersecciones numerables decrecientes que contiene a los conjuntos de la forma X 1 (B),
luego contiene a la sigma-lgebra generada por estos conjuntos esta es, (Xr , r t)).
n. Una cadena de Markov es un proceso de Markov con espacio de estados
Definicio
discreto. Cuando el espacio temporal sea un conjunto numerable o finito hablaremos de
cadenas de Markov en tiempo discreto (CMTD) y en otro caso hablaremos de cadenas de
Markov en tiempo continuo (CMTC). Generalmente T = [0, ).
Centrando nuestra atencion en las CMTCs, con T = [0, ), la propiedad de Markov,
es mas habitual encontrarla en la forma: Para todo n 2, t1 , . . . , tn T tales que 0
t1 < t2 < . . . < tn , e i1 , . . . , in S se verifica:
P (Xtn = in | Xt1 = i1 , . . . , Xtn1 = in1 ) = P (Xtn = in | Xtn1 = in1 )

69
siempre que el miembro de la izquierda este bien definido. Teniendo en cuenta la Proposicion 46, se deduce que para cualquier m 0 y t1 , . . . , tn+m T tales que 0 t1 < . . . <
tn < . . . < tn+m y cualesquiera i1 , . . . , in , . . . , in+m S se verifica
P (Xtr = ir , n r n + m | Xt1 = i1 , . . . , Xtn1 = in1 )
coincide con
P (Xtr = ir , n r n + m | Xtn1 = in1 )
n. Diremos que una CMTC tiene probabilidades de transicion estacionarias
Definicio
si
P (Xt+s = j | Xs = i)
cuando esten bien definidas, son independientes de s, cualesquiera que sean i, j S. A la
funcion
(29)

Pij (t) = P (Xt+s = j | Xs = i),

t>0

la llamaremos funcion de probabilidad de transicion desde el estado i al j y a la matriz


P (t) = (Pij (t))i,jS , t > 0, matriz de probabilidad de transicion.
Observaci
on. Observemos que nos referimos con el termino matriz de probabilidad
de transicion o mas abreviadamente matriz de transicion a un conjunto de funciones
(Pij ())i,jS definida sobre (0, ).
De ahora en adelante cuando hablemos de una CMTC la supondremos con probabilidades de transicion estacionarias.
Ejemplos: 1) Consideremos una maquina que puede estar operativa o no operativa. Si
la maquina esta operativa, esta falla y pasa a estar no operativa, despues de un tiempo
exp(1/), es decir, que la variable, T , que mide el tiempo que transcurre hasta que se
produce un fallo en el funcionamiento de la maquina se distribuye seg
un una distribucion
de probabilidad exp(1/). Una vez que la maquina falla, el fallo no tiene arreglo y la
maquina permanece no operativa. Sea Xt una variable que indique el estado de la maquina
en el tiempo t, establecemos que,

0 si la maquina no esta operativa en el tiempo t


Xt =
1 si la maquina esta operativa en el tiempo t
Veamos que {Xt }t0 es una CMTC con probabilidades de transicion estacionarias. Es
claro que el proceso es una CMTC, pues el conocimiento del estado futuro de la maquina
depende del conocimiento del estado de la maquina mas actualizado. Por otra parte,
P (Xt+s = 0 | Xs = 0) = 1 y P (Xt+s = 1 | Xs = 0) = 0
Ahora, Xs = 1 si y solo si T > s y ademas si Xs = 1 entonces Xu = 1, para 0 u s.
Luego
P (Xt+s = 1 | Xs = 1) =

P (Xt+s = 1 Xs = 1)
= P (T > s + t | T > s) = P (T > t) = exp(t)
P (Xs = 1)

70
Por tanto {Xt }t0 es una CMTC con probabilidades de transicion estacionarias y matriz
de transicion, t > 0

1
0
P (t) =
1 exp(t) exp(t)
2) El proceso de Poisson es una CMTC con probabilidades de transicion estacionarias.
Propiedades de la matriz de transici
on
Vamos a ir analizando las principales propiedades de la matriz de transicion de una CMTC.
n 47. La matriz de transicion P (t) de una CMTC tiene las siguientes
Proposicio
propiedades:
a) Pij (t) 0, t > 0
P
b)
j Pij (t) = 1, t > 0
P
c) Pij (t + s) = k Pik (t)Pkj (s), t, s > 0
Observaci
on. Las condicion c) es conocida como la ecuacion de Chapman-Kolmogorov.
n 48. Sea {Xt }t0 una CMTC. Si 0 t0 < t1 < . . . < tn , se verifica que
Proposicio
(30)

P (Xt = i , 1 n | Xt0 = i0 ) =

n
Y

Pi1 i (t t1 )

=1

P
Observaciones. 1) Denotamos p(t) = {pi (t), i S} siendo pi (t) = P (Xt = i), i pi (t) =
1, t 0. A la distribucion p(0) la llamaremos distribucion inicial. Una CMTC queda
completamente determinada por su distribucion inicial y la matriz de probabilidad de
transicion P (t) puesto que se verifica que p(t) = p(0)P (t), t 0.
2) Dada una matriz de transicion P (t) = (Pij (t))i,jS , t > 0 verificando a)-c) de la Proposicion 47 y una distribucion arbitraria pi , i S, existe una CMTC {Xt }tT verificando
(29) y pi = P (X0 = i), y en consecuencia (30). (Chung pag. 141)
3) Observemos que las expresiones que se obtienen para las probabilidades que intervienen en una CMTC son muy parecidas a las obtenidas para CMTD; la principal diferencia
consiste en que en el tiempo continuo no hay una unidad de tiempo, que represente el
mnimo lapso de tiempo entre dos instantes consecutivos, y en funcion de la cual se puedan expresar las probabilidades de transicion en mas etapas. Debido a ello no basta con
una u
nica matriz de transicion sino que se necesita una para cada t (recordar observaci
on
definicion 3).
n. La matriz de transicion P (t) se llamara estandar si lmt0 Pij (t) = ij ,
Definicio
i, j S
Demostramos a continuacion la continuidad de Pij (t) en (0, ) para una matriz estandar.
Teorema 49. Si la matriz de transicion es estandar, para cualesquiera i, j S se
verifica que Pij (t) es una funcion uniformemente continua en t (0, ).

71
La demostracion en los apuntes.
Observaci
on. En general se verifica, que Pij (t) son continuas en (0, ) si y solo si
existe lmt0 Pij (t). La demostracion puede verse en Chung(1967), pag. 123.
De ahora en adelante asumimos que la matriz de transicion P (t) de la CMTC es
estandar y en consecuencia, Pij (t) son continuas en (0, ). Para una matriz de transicion
estandar es natural extender la definicion de Pij (t) a Pij (0), as pues, pondremos:
Pij (0) = ij
Teorema 50.
a) Pii (t) > 0 para todo t 0 e i S.
b) Si Pij (t0 ) > 0 entonces Pij (t) > 0, para todo t t0 .
Demostraci
on. a) Observemos que

X
t
n1
t
n1
Pik
Pii (t) =
Pki
t Pii
Pii
t .
n
n
n
n
kS

La desigualdad anterior es independiente del valor de n N. Por lo tanto,


Pii (t) (Pii (t/n))n , para todo n N.
Luego, fijado t > 0, como Pii (h) 1, cuando h 0, podemos tomar n suficientemente
grande para que Pii (t/n) > 0, y por
P tanto Pii (t) > 0.
b) Para todo t > t0 , Pij (t) = k Pik (t0 )Pkj (t t0 ) Pij (t0 )Pjj (t t0 ) > 0.
Teorema 51. Para todo i 6= j, Pij (t) > 0, t > 0 o Pij (t) = 0, t > 0.
La demostracion puede verse en Chung(1967), pag. 127.

Estudiamos a continuacion, las propiedades de diferenciabilidad de Pij (t) en t = 0.


Obviamente nosotros solo consideraremos derivadas por la derecha de cero.
Teorema 52. Para cada i,
Pii0 (0) = lm

t0

1 Pii (t)
t

existe aunque puede ser infinito.


La demostracion puede verse en Karlin y Taylor(1981), pag. 139.
Teorema 53. Para i y j, i 6= j,
Pij0 (0) = lm

t0

existe y es finito.

Pij (t)
t

72
La demostracion puede verse en Karlin y Taylor(1981), pag. 141.
Observaciones. 1) Si S es finito, Pii0 (0) no pueden ser infinito. En efecto,
P
1 Pii (t)
k6=i Pij (t)
=
t
t
de donde se deduce que
Pii0 (0) =

Pij0 (0).

k6=i

Pij0 (0),

2) Denotaremos qij =
i 6= j y qi = Pii0 (0). Es habitual tambien usar la notacion
qii = qi . La matriz (qij ) = (Pij0 (0)) se llama Q-matriz asociada a la CMTC o matriz o
generador infinitesimal de la CMTC.
3) En general se verifica que
X
qij qi
para todo i
(31)
j6=i

En efecto: Se tiene que

j6=i Pij (h)

= 1 Pii (h). Luego para cualquier N finito,

N
X

Pij (h) 1 Pii (h)

j=1,j6=i

P
Dividiendo por h, h 0, se sigue que N
j=1,j6=i qij qi , puesto que N es arbitrario y
todos los terminos son positivos, se sigue (31).
n. Una CMTC se dice que es conservativa si
Definicio
X
qij = qi <
para todo i S.
j6=i

Ahora vamos a probar que para una CMTC conservativa no solo todas las Pij (t) son
diferenciables, si qi < (i 0), sino que satisfacen un conjunto de ecuaciones diferenciales
conocidas como las ecuaciones atrasadas (backward) de Kolmogorov. Aunque para la
diferenciabilidad de Pij (t) no es necesario que la matriz sea conservativa, ahora bien la
demostracion es mas facil bajo esta suposicion. De hecho,
Teorema 54. (Ecuaciones atrasadas de Kolmogorov) Para una CMTC conservativa
se verifica para todo i, j y t 0,
X
(32)
Pij0 (t) =
qik Pkj (t) qi Pij (t)
k6=i

Demostraci
on.
Pij (s + t) Pij (t) =

Pik (s)Pkj (t) Pij (t)

X
k6=i

Pik (s)Pkj (t) + (Pii (s) 1)Pij (t)

73
Dividiendo por s, s 0, se sigue:
X
Pij0 (t) =
qik Pkj (t) qi Pij (t) para todo i
k6=i

Para derivar estas ecuaciones rigurosamente nosotros debemos probar que


X
1X
Pik (s)Pkj (t) =
qik Pkj .
s

lm

s0+

k6=i

k6=i

Ahora,
lm inf
s0+

1X
1
Pik (s)Pkj (t) lm inf
+
s
s
s0
k6=i

N
X

N
X

Pik (s)Pkj (t) =

k=1,k6=i

qik Pkj

k=1,k6=i

para cualquier N > 0, por lo que


lm inf
s0+

X
1X
qik Pkj .
Pik (s)Pkj (t)
s
k6=i

k6=i

Por otra parte, para N > i,


X
k6=i

N
X

Pik (s)Pkj (t)

Pik (s)Pkj (t)+

k=N +1

k=1,k6=i

N
X

Pik (s) =

Pik (s)Pkj (t)+1Pii (s)

N
X

k=1,k6=i

k=1,k6=i

Dividiendo por s y tomando lm sups0+ en ambos lados obtenemos


lm sup
s0+

1X
Pik (s)Pkj (t)
s
k6=i

N
X

N
X

qik Pkj (t) + qi

qik .

k=1,k6=i

k=1,k6=i

Tomando N y usando que la matriz es conservativa, tenemos que,


lm sup
s0+

X
1X
Pik (s)Pkj (t)
qik Pkj (t).
s
k6=i

k6=i

Observaci
on. El recproco tambien es cierto i.e. si se satisfacen las ecuaciones atrasadas
de Kolmogorov la matriz Q es conservativa. El sentido de llamar ecuaciones atrasadas a
las ecuaciones diferenciales obtenidas en el Teorema previo es porque en el calculo de la
distribucion de probabilidad del estado en el tiempo s + t condicionamos sobre el estado
(todos los posibles) atras en un tiempo s. Esto es, empezamos nuestra demostracion con:
Pij (s + t) =

P (Xs+t = j | X0 = i, Xt = k)P (Xt = k | X0 = i)

Pik (t)Pkj (s)

De forma similar podemos obtener,

Pik (s).

74
Teorema 55. (Ecuaciones adelantadas forward de Kolmogorov) Bajo ciertas condiciones de regularidad,
X
(33)
Pij0 (t) =
Pik (t)qkj Pij (t)qj para todo i, j
k6=j

Observaci
on. La demostracion sigue pasos analogos a la anterior. Ahora bien no vamos
a profundizar en la condiciones de regularidad que han de verificarse para que sea cierto la
conmutatividad entre el lmite y la suma debido a una mayor complejidad en las mismas.
C
alculo de las funciones de probabilidad de transici
on
Las ecuaciones atrasadas y adelantadas de Kolmogorov son sistemas de ecuaciones diferenciales de primer orden lineales y con coeficientes constantes (que son los terminos de la

matriz P 0 (0)), acompa


nados por la condicion inicial P (0) = Id. Estas
tienen como solucion
u
nica,
P (t) = eQt

(34)

definiendo como la exponencial de una matriz Qt como sigue


Qt

= Id +

X
(Qt)n
n=1

n!

Ahora bien, esta expresion para la exponencial de Qt es numericamente intratable. Alternativamente, supongamos que el espacio de estado de la cadena es finito, p.e. S =
{0, 1, . . . , N }. La funcion de probabilidades de transicion viene dada por (34). Sean j ,
j = 0, 1, . . . , N , los autovalores de Q (i.e. las soluciones de det(q Id) = 0) y supongamos
que Q puede se escrita como Q = HJH 1 para alguna matriz H no singular, donde J
es la matriz diagonal con los elementos de la diagonal j . Si existe tal matriz H, se dice
que la matriz Q es diagonalizable. Una condicion suficiente para que la matriz Q sea diagonalizable es que todos los autovalores sean distintos. En el caso de que la matriz Q sea
diagonalizable entonces la columna i-esima de la matriz H es el autovector por la derecha,
denotemosle i , de i i.e. Qi = i i . En consecuencia
P (t) = HeJt H 1
siendo eJt una matriz diagonal cuyos elementos de la diagonal son ei t .
En el caso infinito, no se puede dar una forma explcita para la solucion de las ecuaciones
de Kolmogorov, estas constituyen cuando son validas y se saben resolver, un metodo para
determinar las matrices de transicion P (t) a partir de la la matriz de derivadas en el origen
P 0 (0).
Ejemplos:
1) Caso finito. Problema de fallos. 2) Caso infinito. Definicion equivalente de Proceso
de Poisson. Un proceso de Poisson es una cadena de Markov con espacios de estados
S = {0, 1, . . .} y probabilidades de transicion estacionarias verificando,
1. Pi

i+1 (h)

= h + o(h)

2. Pi i (h) = 1 h + o(h)

h 0+ , i 0
h 0+ , i 0

75
3. Pi j (0) = ij
4. X0 = 0
Clasificaci
on de los estados
Para cada h > 0 fija, la matriz (Pij (h)) es la matriz de transicion de la CMTD, Ch =
{Xnh , n 0}, i.e. que corresponde a observar el proceso u
nicamente en los instantes
m
ultiplos de la unidad de tiempo h. Su matriz de transicion en n pasos son dadas por
(Pij (nh)). La relacion entre la CMTC {Xt }tT y las CMTDs Ch , h > 0 son muy u
til a la
hora de clasificar los estados.
n. Diremos que i conduce a j, y lo denotamos i j si existe un t > 0 tal
Definicio
que Pij (t) > 0. Diremos que i comunica con j, y lo denotamos i ! j, si i j y j i.
Observaci
on. Teniendo en cuenta el Teorema 50, a) se sigue que i ! i y por tanto
todas las CMTDs son a periodicas. A partir del apartado b), se verifica que si i j
para {Xt }tT entonces i j para Ch , h > 0, el recproco es trivial. Luego la nocion de
comunicacion para la CMTC es equivalentes a la de las CMTDs Ch , h > 0. En particular
la clasificacion de todos los estados dentro de clases de estados comunicantes es la misma
para la CMTC y todas las CMTDs Ch , h > 0.
n. Un estado i S se dice que es recurrente para la CMTC si
Definicio
Z
Pii (t)dt =
0

En caso contrario se denominara transitorio.


Teorema 56.
R
a) 0 Pii (t)dt = si y solo si

Pii (nh) =

para alg
un h > 0

n=0

y en tal caso para cualquier h > 0. Es decir que i es recurrente si y solo si lo es en


alguna cadena Ch , y en tal caso lo es para todas.
b) La descomposicion de S en estados transitorios y recurrentes, divididos a su vez en
subcadenas cerradas e irreducibles, es la misma para cualquiera de las cadenas Ch .
Demostraci
on. a) Dado h > 0, sea (h) = mnr[0,h] Pii (r). Observemos que
mn Pii (t + r) Pii (t) mn Pii (r) = Pii (t)(h)

r[0,h]

r[0,h]

por tanto
n (h) =

mn

r[nh,(n+1)h]

Pii (r) Pii (nh)(h)

76
Analogamente, puesto que
Pii (t) Pii (t r)(h)
tenemos que
n (h) =
As que

Z
0

max

t[nh,(n+1)h]

Nh

Pii (t)dt h

N
1
X

Pii (t)

Pii ((n + 1)h)


(h)

n (h) h(h)

N
1
X

n=0

n=1

N
1
X

Pii (nh)

h X
Pii (t)dt h
Pii (nh)
n (h)
(h)
0
n=1
n=1
R
De donde se deduce, al tender N que 0 Pii (t)dt = si y solo si
Nh

Pii (nh) =

n=0

Como la demostracion es valida para cualquier h, se tiene a).


b) La descomposicion de los estados recurrentes en subcadenas cerradas e irreducibles
para las cadenas de Markov, se haca estableciendo las clases de equivalencia de la relacion
i ! j. Ahora bien, seg
un el resultado del Teorema 51, fijados i y j de S, Pij (t) = 0 para
todo t > 0 o Pij (t) > 0 para todo t > 0, y obviamente lo mismo para Pji (t), por tanto se
deduce b).

Resulta del Teorema anterior que el teorema de descomposicion que se enuncia para
CMTDs, es valido sin ninguna variacion para CMTCS.
Observaci
on. Analicemos mas detenidamente el concepto de recurrencia. Sea
Si = {t 0 : Xt = i}
i.e. conjunto de los instantes en que el proceso ocupa el estado i. Sea i una variable
aleatoria que representa la longitud total de tiempo que el proceso permanece en el estado
i, a lo largo de su evolucion, y que podemos expresar
Z
i =
ISi (t)dt
0

siendo

ISi (t) =

1
0

si t Si
si t
6 Si

As pues, aplicando el Teorema de Fubbini,


Z
Z Z
E[i | X0 = j] =
i (w)P (dw | X0 = j) =
ISi (w) (t)dtP (dw | X0 = j)

Z Z
=
ISi (w) (t)P (dw | X0 = j) dt.
0

77
Ahora bien,
{w : t Si (w)} = {w : Xt (w) = i}.
Luego puesto que,
Z
Pji (t) = P (Xt = i | X0 = j) = E[I{Xt =i} | X0 = j] =
se verifica que

Z
E[i | X0 = j] =

I{Xt =i} (w)P (dw | X0 = j)

Pji (t)dt

R
Luego 0 Pji (t)dt representa el tiempo total esperado que el proceso permanece en i
cuando su posicion inicial es j. En estos terminos i es recurrente si y solo si el tiempo
total esperado de permanencia en i partiendo de i es infinito. Ademas se puede probar
(ver Chung pag. 185) que
P (Si es un conjunto no acotado | X0 = i) = P (i = | X0 = i)
R
y o bien la probabilidad es igual a cero o a uno seg
un sea 0 Pii (t)dt finita o infinita.
Comportamiento asint
otico
Vamos a ver a continuacion como se comportan las matrices de transicion P (t) cuando
t .
Teorema 57. Para cada i, j en S existe
(35)

lm Pij (t) = ij .

Corolario 58. Para todo s > 0 se verifica


= P (s) = P (s) =
n. Una distribucion de probabilidad = {i }iS sobre S es una distribucion
Definicio
estacionaria para una CMTC con matriz de transicion P (t), t 0, si P (t) = , para
t 0 i.e.
X
i Pij (t), para todo t 0 y j S
j =
i

n 59. Si para alg


Proposicio
un i S es ii 6= 0, entonces {ij }jS es una distribucion
estacionaria para la CMTC.
Demostraci
on. Teniendo en cuenta el corolario anterior bastara probar que en tal
situacion
X
ij = 1.
jS

Por una parte puesto que

X
jS

Pij (t) = 1, t > 0

78
es claro que

ij 1.

jS

Por otra parte consideremos


ui = sup ki
kS

y tendremos que
ji =

jk ki

jk ui + ji (ii ui )

es decir,
ji (1 + ui ii ) ui

jk ui

o bien como
ui 6= 0, ui = ii
Entonces
ii =

ik ki

ik

kS

con lo cual

ik ui = ii

ik 1

n. Diremos que i es un estado recurrente positivo si ii > 0 en (35).


Definicio
Corolario 60. Las filas de la matriz lmite correspondientes a estados recurrentes
positivos son distribuciones estacionarias frente a P (s), s > 0.
Observaciones. 1) Si iT es el tiempo de permanencia en i durante el intervalo de tiempo
[0, T ], tendramos que
Z T
E[iT | X0 = j] =
Pji (t)dt
0

RT

con lo cual lmT T1 0 Pji (t)dt = ji representa la proporcion lmite de tiempo que hay
que esperar permanecer en i si la evoluci
on empieza en j.
2)La nocion de recurrente positivo para la CMTC es la misma que para la existente
en las CMTDs Ch , y por lo tanto de ah la definicion.
Para la determinacion de la matriz resulta comodo emplear el siguiente resultado.
Corolario 61. Si se cumplen las ecuaciones atrasadas de Kolmogorov entonces lmt p0ij (t) =
0 y Q = 0. Si se cumplen las del futuro entonces tambien se verifica Q = 0.
Demostraci
on. La ecuacion atrasada de Kolmogorov es
X
p0ij (t) =
p0ik (0)pkj (t).
kS

79
Observemos que la serie del segundo miembro es absolutamente convergente puesto que
X
X
|p0ik (0)|pkj (t)
|p0ik (0)| = 2p0ii (0).
kS

kS

Entonces cuando t , de lo anterior se sigue que


X
lm p0ij (t) =
p0ik (0)kj
t

kS

lo cual prueba que lmt p0ij (t) existe. Ademas puesto que pij (t) converge a una constante,
ha de ser
lm p0ij (t) = 0
t

En las ecuaciones diferenciales de Kolmogorov queda entonces


0 = Q = Q.
Construcci
on de una cadena de Markov a partir de su generador infinitesimal
Supongamos que tenemos un conjunto de n
umeros no negativos (qij ) que satisfacen la
propiedad:
X
qij qi para todo i.
j6=i

Para unificar la notacion escribimos qii = qi . Nos preguntamos si existe una cadena de
Markov en tiempo continuo, i.e. una matriz de transicion estandar P = (Pij (t)), para la
cual
Pij0 (0) = qij ,
j 6= i
P
y Pii0 (0) = qi . Si asumimos que j6=i qij = qi < para todo i, se verifica que cualquier
cadena de Markov asociada con los (qij ) debe al menos satisfacer las ecuaciones atrasadas
atras. La importancia practica de este hecho es porque a menudo una cadena de Markov
se define de manera que uno sea capaz de derivar las ecuaciones hacia atras. Y luego tratar
de resolverlas para calcular la matriz de transicion completa. Hasta el presente momento
resultados definitivos
P para el caso general no son conocidos. Si es conocido que bajo el
supuesto de que j6=i qij = qi < para todo i, existe al menos una matriz de transicion
asociada y que si existe mas de una entonces existen infinitas de ellas. En Chung(1967)
y Cinlar(1975), se prueba que si con probabilidad una la CMTC realiza un n
umero finito
de transiciones en un intervalo finito de tiempo (tales CMTC se llaman regulares) s que
la matriz infinitesimal Q (junto con la distribucion inicial) identifican unvocamente una
CMTC. Si se tiene un conocimiento mas implcito de la matriz Q se puede profundizar mas
en la existencia del mismo. En general, el problema de clasificar el generador infinitesimal
y su proceso asociado es complicado.
Interpretaci
on de los elementos de Q
Sea i tal que 0 < qi < . Sea t > 0 fijo y n > 0 un entero positivo arbitrario.
Supongamos que el proceso empieza en el estado i. Entonces consideremos
P (X = i, para = 0, t/n, 2t/n, 3t/n, . . . , t | X0 = i) = [Pii (t/n)]n .

80
Puesto que

1 Pii (t)
= qi + o(1),
t

tenemos que
[Pii (t/n)]n = [1 t/nqi + o(t/n)]n = exp{n log[1

tqi
+ o(t/n)]}.
n

Usamos la expansion para el logaritmo de la forma log(1 x) = x + (x)x2 valido


para |x| 1/2 y || 1, con x = tqi /n + o(t/n) y haciendo tender n , obtenemos
que
lm [Pii (t/n)]n = exp(qi t).
n

Nosotros podemos considerar que


lm P (X = i, para = 0, t/n, 2t/n, 3t/n, . . . , t | X0 = i)
justo como
P (X = i para todo 0 < t | X0 = i).
(Afirmacion que se basa en el concepto de separabilidad)
Se prueba que
P (X = i, para todo 0 t | Xt = i) = exp(qi t)
Es decir exp(qi t) es la probabilidad de permanecer en el estado i durante al menos una
longitud de tiempo t. En otras palabras la distribucion del tiempo de espera en el estado
i es una distribucion exponencial con parametro 1/qi . Luego el razonamiento expresado
arriba nos conduce al siguiente Teorema. Denotando por Ti a la duracion de la permanencia
en el estado i, es decir, Ti = nf{t/Xt 6= i}.
Teorema 62. Para todo i S,
P (Ti t | X0 = i) = P (Xs = i para todo s [0, t] | X0 = i) = exp{qi t}.
Un estado i verificando 0 < qi < se llama estable. En este caso el tiempo de espera
en el estado i es una variable aleatoria cuya distribucion es una autentica distribucion exponencial y por tanto las transiciones ocurren en tiempo finito. Diremos que es absorbente
si qi = 0, lo cual obviamente implica que una vez que se entra en el estado i el proceso
permanece all para siempre. Un estado i es instant
aneo si qi = . El valor esperado en tal
estado es cero, de ah el nombre, puesto que el tiempo de permanencia es cero. La teora
sobre cadenas de Markov con estados instant
aneos es complicada. Vale la pena apreciar los
problemas tecnicos inherentes en tales procesos, ahora bien cabe destacar que la mayora
de las cadenas de Markov en tiempo continuo que surgen en la practica tienen solo estados
estables. De hecho en la mayora de los casos de interes el proceso bajo estudio es definido especificando los parametros infinitesimales como datos conocidos. Para completar
la teora, es entonces necesario establecer la existencia de un proceso que posea la matriz
infinitesimal descrita.
Centrando la atencion a las cadenas de Markov en tiempo continuo con solo estados
estables, vamos a establecer un significado intuitivo a las cantidades qij . De hecho si

81
el procesos es conservativo los elementos qij /qi (i 6= j) pueden interpretarse como las
probabilidades condicionadas de que ocurra una transicion del estado i al j. Para ver esto,
consideremos
Rij (h) = P (Xh = j | X0 = i, Xh 6= i), j 6= i
y calculemos el lmh0 Rij (h). Esta es la probabilidad de una transicion desde el estado
i al j, dado que un transicion ha ocurrido. El hecho de hacer tender h a cero hay que
entenderlo pensando que la transicion de un estado a otro es instant
anea, el instante en el
que se produce el salto, estamos en un tiempo t en i, dejamos de estar en i para estar en
j, ocurriendo este salto en un tiempo instant
aneo. No podemos decir hablando en tiempo
continuo cuando hemos dejado de estar en i para pasar a j, ese salto es instant
aneo de
ah hacer tender h a cero.
As pues si denotamos Pij la probabilidad de una transicion desde el estado i al j,
tenemos que:
qij = Pij qi i 6= j
Puesto que qi es la tasa en la cual el proceso abandona el estado i, se sigue que qij es
la tasa que cuando en el estado i se produzca una transicion sea al estado j. De hecho
llamaremos a qij tasa de transicion de i a j.
Luego si definimos como sucesion de tiempos de salto de {Xt }t0 a la sucesion {Jn }n0
definida recursivamente por J0 = 0,
Jn+1 = nf{t Jn : Xt 6= XJn }

n = 0, 1, . . .

(donde nf = ) y sucesion de tiempos de permanencia de {Xt }t0 a la sucesion {Sn }n1


definida por

Jn Jn1 si Jn1 < +


Sn =

si Jn1 = +
Finalmente definimos tambien el proceso o cadena de saltos, Yn = XJn , n = 0, 1, . . . (si
Jn+1 = para alg
un n definimos X = XJn , en otro caso X queda sin definir). De lo
expresado anteriormente se deduce que:
n:Sea i S tal que qi > 0. Se verifica que Sn+1 , condicionado a que
Proposicio
Yn = i, sigue una distribuci
on exponencial de par
ametro 1/qi .

n: Sea i S tal que qi > 0. Se verifica que P (Yn+1 = j|Yn = i) = qij /qi ,
Proposicio
j 6= i.
En la practica es mas habitual modelizar el comportamiento de un sistema por medio
de una CMTC a partir del conocimiento de la matriz infinitesimal. Ejemplo: Una tpica
realizacion de un proceso: Consideremos un sistema con un espacio de estados contable.
Para cada par de estados (i, j) (i 6= j) tenemos asociado un suceso Eij . Cuando el sistema
entra en el estado i, su proxima transicion esta gobernada por los sucesos Eij como sigue:
Supongamos que el sistema entra en el estado i en el tiempo t. Entonces Eij est
a establecido
que ocurrira en el tiempo t + Tij , donde Tij es una variable aleatoria exponencialmente
distribuida con parametro 1/qij , qij 0 (Si qij = 0, entonces Eij no ocurre.) Ademas las
variables aleatorias {Tij }j6=i son mutuamente independientes y tambien independientes de
la historia del proceso hasta el tiempo t. Supongamos que j es tal que Tij = mnk6=i {Tik },
i.e. Eij es el primer suceso que tiene lugar despues de que el sistema se mueva del estado

82
i. Entonces el sistema permanece en i hasta t + Tij y entonces se mueve a j. Todos los
demas sucesos son cancelados. Un nuevo conjunto de sucesos se establecen, y el proceso
continua. Modelizamos la realizacion de este sistema
P por medio de una CMTC. Sea Xt el
estado del sistema en el tiempo t. Si definimos qi = j6=i qij , veamos que qi es el parametro
asociado a la distribucion exponencial del tiempo de permanencia en el estado i. El tiempo
de permanencia en el estado i coincide mnk6=i Tik . Teniendo en cuenta que las variables
aleatorias {Tik }k6=i son mutuamente independiente y Tik exp(1/qik ), se sigue:
P (mn Tik x) = 1 P (mn Tik > x) = 1
k6=i

k6=i

(1 P (Tik x))

k6=i

X
= 1 exp(
qik x) = 1 exp(qi x)
k6=i

Veamos como calcularamos la probabilidad de que haya una transicion del estadio i al
estado j, Pij :
Pij

= P (Tij = mn{Tik }) = P (Til Tij > 0, l 6= j, i) = E(P (Til Tij > 0, l 6= j, i | Tij ))
k6=i
Y
P (Til Tij > 0 | Tij ))
= E(
l6=j,i

Sea l 6= j, i,
Z
P (Til Tij > 0 | Tij )(x) = E(I{Til Tij >0} | Tij )(x) =
Z
=
fUl |Tij =x (ul )dul

I(0,) (ul )dP Ul |Tij =x (ul )

donde Ul = Til Tij . Ahora, calculemos la fUl |Tij =x (ul ). Realizamos el cambio bidimesional
de (Til , Tij ), a (Ul , Tij ). Obtenemos que
f(Ul ,Tij ) (ul , x) = fTil (ul + x)fTij (x)
luego
f(Ul ,Tij ) (ul , x) = qil exp(qil (ul + x))qij exp(qij x), x > 0, ul + x > 0
De donde,
fUl |Tij =x (ul ) = qil exp(qil (ul + x)), uj > x, x > 0
Para x > 0,
Z
0

Z
fUl |Tij =x (ul )dul =

Z0

=
0

Luego

Y
l6=j,i

qil exp(qil (ul + x))I{ul >x} (ul )dul


qil exp(qil (ul + x))dul = exp(qil x)

P (Til Tij > 0 | Tij )(x) =

Y
l6=j,i

exp(qil x)

83
Y por lo tanto
Z Y
Z
Pij =
P (Til Tij > 0 | Tij )(x)dP Tij (x) =
Z
=
0

l6=j,i

qij exp(

X
l6=i

qil x)dx = P

qij

l6=i qil

Y
l6=j,i

exp(qil x)qij exp(qij x)dx

n 13: Procesos con Incrementos Independientes


Leccio
Los procesos que estudiaremos en esta leccion constituyen una u
til fuente de ejemplos de
procesos de Markov a tiempo continuo.
Comenzamos esta seccion con el concepto de distribuciones infinitamente divisibles que
esta estrechamente relacionado con los procesos con incrementos independientes, como
veremos posteriormente.
n. (Distribuciones infinitamente divisibles) Una v.a. X (o su funcion de
Definicio
distribucion F o su funcion caracterstica h) se dice infinitamente divisible si, para cada
n, X tiene la misma distribucion que la suma de n v.a. independientes e identicamente
distribuidas. En otras palabras si, para cada n, podemos escribir h = (hn )n , donde hn es
la funcion caracterstica de una v.a.
Ejemplos. (Ejemplos de v.a. infinitamente divisibles)
1) La distribucion de Poisson: Si X P (), P (X = k) = e k /k!, k = 0, 1, ... y su
funcion caracterstica es de la forma
X (t) = E[eitX ] = e(e

it 1)

Es
tales que Xi P (i ), entonces
Pnconocido que si X1 , ...Xn son v.a.r. independientes
Pn
X
tiene
distribuci
o
n
de
Poisson
P
(

).
De
ah se sigue que, para cada
i
i
i=1
i=1
P
n, X tiene la misma distribucion que ni=1 Xi , siendo las Xi independientes y tales
que Xi P (/n).
2) La distribucion gamma: Si X G(, ), su funcion caracterstica es
X (t) = (1 it) .
Para cada n N, podemos expresar
X (t) = [(1 it)/n ]n = [n (t)]n
donde n es la funcion caracterstica de una distribucion gamma G(/n, )
Teorema 63. Sean h, h1 , h2 funciones caractersticas infinitamente divisibles entonces, tambien lo son
(i) h1 h2
(ii) h (conjugado complejo de h)
(iii) |h|2
Demostraci
on. Si hi = (hin )n , i = 1, 2, entonces h1 h2 = (h1n h2n )n , con lo que queda
probado (i) puesto que h1n h2n es la funcion caracterstica de la suma de dos v.a. independientes con funciones caractersticas h1n y h2n . Si X tiene funcion caracterstica h entonces
X tiene funcion caracterstica h, as si h = (hn )n , entonces h = (hn )n y h es infinitamente
divisible si lo es h. Puesto que |h|2 = hh, |h|2 es tambien infinitamente divisible.
84

85
n. (Procesos con incrementos independientes) Sea (Xt )t0 un proceso esDefinicio
tocastico real. Se dice que dicho proceso tiene incrementos independientes si cualesquiera
que sean 0 < t1 < < tn , X0 , Xt1 X0 , Xt2 Xt1 , ..., Xtn Xtn1 son independientes.
Observaciones.
1) Si (Xt )t0 tiene incrementos independientes e Yt = Xt X0 ,
entonces, X0 e (Yt )t0 son independientes y el proceso (Yt )t0 tambien tiene incrementos independientes.
2) Recprocamente, si (Yt )t0 tiene incrementos independientes, Y0 0 y definimos
Xt = X0 + Yt , siendo X0 una v.a.r. independiente de (Yt )t0 entonces (Xt )t0 tiene
incrementos independientes.
3) Como consecuencia de 1) y 2), en el estudio de procesos con incrementos independientes no hay perdida de generalidad si restamos la v.a. inicial X0 .
n. (Procesos con incrementos independientes y estacionarios) Si (Xt )t0
Definicio
tiene incrementos independientes y Xt Xs tiene la misma distribucion que Xt+h Xs+h
para todos s, t, h 0, s < t, se dice que el proceso tiene incrementos independientes y
estacionarios.
Teorema 64. Sea (Xt )t0 un proceso estocastico con incrementos independientes y
estacionarios, e Yt = Xt X0 . Entonces para cada s < t, Yt Ys es infinitamente divisible.
Si ht es la funcion caracterstica de Yt y ht (u) es continua (o mas generalmente Borel
medible) en t para cada u fijo, entonces
ht (u) = [h1 (u)]t = exp[t log h1 (u)],
donde log significa el u
nico logaritmo continuo de h1 tal que log h1 (0) = 0. Recprocamente, si h1 es una funcion caracterstica infinitamente divisible, existe un proceso estocastico (Yt )t0 con incrementos independientes y estacionarios tal que, para cada t, Yt
tiene funcion caracterstica ht1 .
Demostraci
on. Si (Xt )t0 tiene incrementos independientes, entonces, para cada n N

n
X
k(t s)
(k 1)(t s)
Y (t) Y (s) =
Y s+
Y s+
,
n
n
k=1

de forma que Y (t) Y (s) es infinitamente divisible. Puesto que Y (s + t) = Y (s) + (Y (s +


t) Y (s)), y que por la estacionaridad de los incrementos Y (s + t) Y (s) tiene la misma
distribucion que Y (t), se tiene que, siendo independientes los incrementos, hs+t (u) =
hs (u)ht (u), para cada u. Como para u fijo ht (u) es Borel-medible en t, ht (u) tiene que ser
de la forma A(u) exp[B(u)t].
Puesto que Y (0) 0, hagamos t = 0 para obtener que A(u) = 1. Haciendo ahora t = 1
se obtiene que h1 (u) = eB(u) , de forma que B(u) es un logaritmo de h1 (u). Si la funcion B
fuese discontinua en alg
un u0 entonces ht sera discontinua en u0 para cada t, en contra de
que ht es una funcion caracterstica y toda funcion caracterstica es continua. As pues, B
es continua, y siendo log h1 y B dos logaritmos continuos de la misma funcion h1 , se tiene
que B(u) = log h1 (u) + i2k para alg
un entero k. Por lo tanto, ht (u) = exp[t log h1 (u)],
como deseabamos.

86
Recprocamente, sea h1 una funcion caracterstica infinitamente divisible y veamos
que, para cada t 0, la funcion ht1 es una funcion caracterstica. Siendo h1 infinitamente
divisible, dado q entero positivo, se tiene que h1 = hq , para alguna funcion caracterstica
h. Pero h1 = [exp(q 1 log h1 )]q y, por tanto, h = exp(q 1 log h1 ) y, dado un n
umero p
p/q
p
1
entero positivo, h = exp[pq log h1 ] = h1 . Siendo h una funcion caracterstica, tambien
p/q
lo es hp = h1 .
p/q

Hemos probado que, para todo racional positivo p/q, h1 es una funcion caracterstica.
Dado t 0 existe una sucesion de racionales positivos pn /qn convergente a t. Se tiene
p /q
entonces que, para cada u fijo, h1n n (u) converge a ht1 (u). El teorema de L`evy prueba
entonces que ht1 es una funcion caracterstica.
Sea ahora (Yt )t0 un proceso estocastico tal que, para cada 0 t1 < t2 < < tn , la
distribucion conjunta de Yt1 , ..., Ytn queda especificada por el hecho de que los incrementos
Yt1 , Yt2 Yt1 , ..., Ytn Ytn1 sean independientes y que cada incremento Ytk Ytk1 tenga
funcion caracterstica (h1 )tk tk1 . Esta especificacion satisface la condicion de consistencia
(CC) y el teorema de extension de Kolmogorov prueba la existencia de tal proceso, lo que
acaba la demostracion.
Ejemplos. (Ejemplos de aplicacion)
1) Sea h1 (u) = exp[u2 2 /2] la funcion caracterstica de una v.a. con distribucion
2 2
normal N (0, 2 ). Entonces, ht1 (u) = eu t/2 , de forma que Ys+t Ys es normal
N (0, 2 t). Puesto que Yt1 , Yt2 Yt1 , ..., Ytn Ytn1 son v.a. normales e independientes,
(Yt1 , Yt2 , ..., Ytn ) es normal y el proceso (Yt )t0 es gaussiano. La funcion de covarianzas viene dada por
E(Ys Yt ) = E[Ys (Yt Ys + Ys )] = E(Ys2 ) = 2 s,

s t,

de forma que (Yt )t0 es un movimiento browniano. El proceso (X0 +Yt )t0 donde X0
e (Yt )t0 son independientes recibe el nombre de movimiento browniano con inicio
en X0 .
2) Para h1 (u) = e|u| , se tiene que ht1 (u) = et|u| , e Yt tiene distribucion de Cauchy de
parametro t, cuya densidad es
ft (y) = t/(t2 + y 2 ).
El proceso (Yt )t0 que se obtiene recibe el nombre de proceso de Cauchy.
3) Si h1 (u) = exp[(eiu 1)], ht1 (u) = exp[t(eiu 1)], de forma que Yt tiene distribucion
de Poisson de parametro t; ademas, si 0 t1 < < tn , Yt1 , Yt2 Yt1 , ..., Ytn
Ytn1 son independientes e Ytk Ytk1 tiene distribucion de Poisson con parametro
(tk tk1 ). As pues, el proceso (Yt )t0 que se obtiene es el proceso de Poisson de
promedio .
P
Lema 65. Si Xn = nk=1 Yk , n = 1, 2, ... donde las Yk son v.a. independientes, entonces
(Xn )n es un proceso de Markov.

87
Demostraci
on. Si C, D R, entonces
P (Xn1 C, Yn D|Y1 , ..., Yn1 ) = P (Xn1 C, Yn D|Xn1 )
ya que, por una parte,
P (Xn1 C, Yn D|Y1 , ..., Yn1 ) = E(IC (Xn1 )ID (Yn )|Y1 , ..., Yn1 ) = IC (Xn1 )E[ID (Yn )]
y, por otra
P (Xn1 C, Yn D|Xn1 ) = E[IC (Xn1 )ID (Yn )|Xn1 ] = IC (Xn1 )E[ID (Yn )].
De ello se sigue que
P [(Xn1 , Yn ) A|Y1 , ...Yn ] = P [(Xn1 , Yn ) A|Xn1 ]
para cada A B(R2 ). In particular, si B R, entonces
P (Xn1 + Yn B|Y1 , ..., Yn ) = P (Xn1 + Yn B|Xn1 ).
De lo anterior se sigue el resultado pues (X1 , ..., Xn ) = (Y1 , ..., Yn ) y Xn = Xn1 + Yn .
Teorema 66. Todo proceso (Xt )t0 con incrementos independientes es un proceso de
Markov.
Demostraci
on. Si 0 t1 < t2 < < tn , entonces
Xtn =

n
n
X
X
Yk ,
(Xtk Xtk1 ) =
k=1

k=1

donde las Yk son independientes. Por el lema anterior,


P (Xtn B|Xt1 , ..., Xtn ) = P (Xtn B|Xtn1 ).
Teniendo en cuenta que si (Xt )tI0 es un proceso de Markov para todo subconjunto finito
I0 de [0, +) tambien lo es (Xt )t0 , con lo que queda demostrado el resultado.

n 14: Martingalas a Tiempo Continuo


Leccio
En esta leccion extendemos el concepto de martingala al caso de parametro continuo y
estudiaremos ciertas propiedades de sus trayectorias.
n. Sean (, A, P ) un espacio de probabilidad, T un conjunto totalmente
Definicio
ordenado y (Xt )tT un proceso estocastico real adaptado a la familia de sub--algebras
de A, (At )tT (i.e., tal que si s < t, As At y que cada Xt es At medible). Diremos
que (Xt )t es una martingala respecto a (At )t o que (Xt , At )t es una martingala (resp.
submartingala o supermartingala) si Xt es P integrable, para cada t T , y
E(Xt |As ) = Xs

(resp.,

E(Xt |As ) Xs

o E(Xt |As ) Xs ),

para cada s < t, s, t T . Diremos que (Xt )t es una martingala cuando lo sea respecto a
la familia de sub--algebras ((Xs : s t))t .
Observaciones. 1) Si (Xt )tT es una martingala respecto a una familia (At )tT , tambien
lo es respecto a la familia ((Xs : s t))tT . En efecto, teniendo en cuenta que As At ,
s t, tenemos que At hace medibles a todas las v.a. Xs con s t, y por tanto, (Xs :
s t) At . As pues, si t0 > t,
E[Xt0 |(Xs : s t)] = E[E(Xt0 |At )|(Xs : s t)] = E[Xt |(Xs : s t)] = Xt .
2) Si (Xt )tI es una martingala para cada subconjunto finito I de T , entonces (Xt )tT es
tambien una martingala. En efecto, sean s < t y consideremos r1 < r2 < < rn = s < t;
Siendo, por hipotesis, {Xr1 , Xr2 , ..., Xrn , Xt } una martingala, se tiene que, para cada A
(Xr1 , Xr2 , ..., Xrn , Xt ),
Z
Z
Z
Z
Xt dP =
E(Xt |Xr1 , Xr2 , ..., Xrn )dP =
Xrn dP =
Xs dP,
A

y una aplicacion del teorema de la clase monotona probara que esa igualdad es cierta para
cada A (Xs : s t).
3) A modo de recproco, si (Xt )tT es una martingala, entonces tambien lo es (Xt )tI
para cada subconjunto I de T .
4) Se pueden enunciar resultados analogos a los de 2) y 3) para sub y supermartingalas.
Teorema 67. Si (Xt )t0 es un proceso estocastico con incrementos independientes y
E(|Xt |) < +, para cada t, entonces (Xt E(Xt ))t0 es una martingala.
Demostraci
on. Si (Xt )t0 tiene incrementos independientes, tambien los tendra [Xt
E(Xt )]t0 , por lo que podemos suponer, sin perdida de generalidad, que E(Xt ) = 0,
para cada t. Si 0 t1 < t2 < < tn < tn+1 , entonces X0 , Xt1 X0 , ..., Xtn+1 Xtn
son independientes, y as lo son Xtn+1 Xtn y (X0 , Xt1 X0 , ..., Xtn Xtn1 ). Siendo
(Xt1 , ..., Xtn ) funcion medible de (X0 , Xt1 X0 , ..., Xtn Xtn1 ), se tiene que Xtn+1 Xtn
y (Xt1 , ..., Xtn ) son independientes, y as
E[Xtn+1 |Xt1 , ..., Xtn ] = Xtn + E[Xtn+1 Xtn |Xt1 , ..., Xtn ] = Xtn + E[Xtn+1 Xtn ] = Xtn .
88

89
A continuacion estudiaremos el comportamiento de las trayectorias para sub y supermartingalas. Solo probaremos los resultados para submartingalas pues cambiando Xt por Xt
se obtienen los correspondientes para supermartingalas.
Lema 68.

(1) Sea X1 , ..., Xn una submartingala. Si 0, entonces


Z
P ( max Xi )
Xn dP E(Xn+ ).
1in

{m
ax1in Xi }

(2) Si X1 , ..., Xn es una supermartingala y 0, entonces


P ( max Xi ) E(X1 ) + E(Xn ).
1in

Teorema 69. Sean T un intervalo de R y (Xt )tT una submartingala separable. Entonces, para casi todo , la trayectoria de , X(, ), es acotada en cada subintervalo
acotado de T .
Demostraci
on. Siendo (Xt )t separable, existen un conjunto denso y numerable T0 T
y un suceso A de probabilidad nula tales que, para cada t T , existe una sucesion (tn )n
en T0 convergente a t y tal que X(tn , ) converge a X(t, ), para cada
/ A.
Si t1 , ..., tn T0 y > 0, siendo Xt1 , ..., Xtn una submartingala y por el lema anterior
se tiene que

1
P max Xti > E[Xt+n ], y
1in

1
ax (Xti ) >
E(Xt1 ) E[(Xtn ) ]
P mn Xti < = P m
1in
1in

1
E(Xt1 ) + E(Xt+n )

pues {Xt1 , ..., Xtn } es una submartingala.


As, si [c, d] es un subintervalo de T y tomamos t1 , ..., tn [c, d] T0 , siendo (Xt )t una
submartingala se tiene que E(Xc ) E(Xt1 ) y E(Xt+n ) E(Xd+ ) (pues {Xt+1 , ..., Xt+n , Xd+ }
es una submartingala). De esto y de lo anterior se obtiene que

1
1
+
E(Xc ) + E(Xd+ ) .
P max Xti > E[Xd ], y P mn Xti <
1in
1in

Como el conjunto T0 [c, d] es numerable, podemos tomar una enumeraci


on t1 , t2 , ... del
mismo y, haciendo tender tn a infinito en las desigualdades anteriores se tiene que

1
1
+
P
sup Xt > E[Xd ], y P
nf Xt <
E(Xc ) + E(Xd+ ) .

tT0 [c,d]
tT0 [c,d]
Por separabilidad, podemos reemplazar T0 por T para obtener

!
P

sup
tT0 [c,d]

Xt = +

= lm P

sup
tT0 [c,d]

Xt >

1
E(Xd+ = 0

lm

90

nf

tT0 [c,d]

Xt = = lm P

1
E(Xc ) + E(Xd+ ) = 0.
nf Xt < lm

tT0 [c,d]

Como consecuencia de lo anterior,


P { : X(, ) esta acotado en cada subintervalo acotado de T }

!
\
=P
{ : X(, ) esta acotado en [n, n] T } = 1.
n=1

Teorema 70. Sean T un intervalo de R y (Xt )tT una submartingala separable. Entonces, para casi todo , X(, ) no tiene discontinuidades oscilatorias, es decir,
X(t+ , ) = lm X(t0 , ) y
t0 t+

X(t , ) = lm X(t0 , )
t0 t

existen para todo t T .


Demostraci
on. Sean t1 , ..., tn [c, d] T0 , t1 < < tn . Si a < b denotaremos Ua,b la
v.a. que a cada le asocia el n
umero de saltos desde debajo de a hasta encima de b en
la sucesion Xt1 (), ..., Xtn (). Como {Xt1 , ..., Xtn } es una submartingala, el teorema de
Doob prueba que
E(Ua,b )

1
1
E (Xtn a)+
E (Xd a)+
ba
ba

siendo cierta la u
ltima desigualdad por ser [(Xt a)+ ]t una submartingala.
Hagamos tender n a infinito para concluir que, para casi todo , el n
umero de saltos a lo
largo de [a, b] por la sucesion {Xt () : t T0 [c, d]} es finito. De ello se deduce que existe
un suceso de probabilidad nula A tal que, si
/ A, la sucesion {Xt () : t T0 [c, d]}
tiene un n
umero finito de saltos a lo largo de [a, b], para todos racionales a y b con a < b.
Por separabilidad, lo anterior es tambien cierto para {Xt () : t T [c, d]}.
Supongamos ahora que f : T R es una funcion que no tiene lmite por la izda en un
punto t; entonces podramos encontrar una sucesion (tn )n convergente a t por la izquierda
y tal que lm inf n f (tn ) = u < v = lm supn f (tn ). Tomemos dos racionales a y b tales que
u < a < b < v. Entonces, f (tn ) sera menor que a infinitas veces y mayor que b infinitas
veces y, por tanto, f tendra un n
umero infinito de saltos desde debajo de a hasta encima
de b. Tomemos f = X(, ) definida en T [c, d] para concluir que para cada
/ A, la
funcion anterior posee lmite a la izquierda en cada t T [c, d]. La afirmacion para el
lmite por la derecha se hara de forma analoga. Siendo c y d arbitrarios se obtiene que,
para casi todo , X(, ) tiene lmites a la izquierda y a la derecha en todo t T .

n 15: Tiempos de Parada


Leccio
El concepto de tiempo de parada esta ntimamente relacionado con la teora de martingalas. En un principio solo se introdujo relacionado con procesos a tiempo discreto, pero
aqu daremos la definicion para el caso de parametro continuo y discutiremos la relacion
con el concepto de medibilidad progresiva.
Definiciones. a) Sean (, A, P ) un e.p. y (At )t0 una sucesion creciente de sub-algebras de A, es decir, tal que si s < t, As At . Un tiempo de parada para (At )t0 es
una funcion T : [0, +] tal que, para cada t 0, {T t} At .
b) Dado un proceso estocastico (Xt )t0 definido en (, A, P ), un tiempo de parada
para (Xt )t0 es un tiempo de parada para la sucesion de -algebras (At )t0 , siendo At =
(Xs : s t), para cada t.
c) Si A A, diremos que A en anterior a T si A {T t} At , para cada t 0.
Denotaremos AT la coleccion de todos los sucesos anteriores a T ; es facil probar que AT
es una -algebra.
Teorema 71. a) Si S y T son tiempos de parada tambien lo son S T = mn(S, T )
y S T = max(S, T ). En particular, si t 0 y T es un tiempo de parada, tambien lo es
T t.
b) Si T es un tiempo de parada, entonces T : (, AT ) ([0, +], B([0, +])) es una
v.a., es decir, T es AT -medible.
c) Sean T un tiempo de parada y S una v.a.r. no negativa con S T . Si S es AT medible entonces S es un tiempo de parada.
d) Si S y T son tiempos de parada y A AS entonces A {S T } AT .
e) Si S y T son tiempos de parada y S T entonces AS AT .
Demostraci
on. a) Si t 0,
{S T t} = {S t} {T t} At y
{S T t} = {S t} {T t} At
b) Si r es un n
umero real,
{T r} {T t} = {T r t} Art At .
As pues, para cada r R, {T r} AT .
c) Si t 0,
{S t} = {S t} {T t}.
Siendo S AT -medible, {S t} AT y, por tanto, {S t} {T t} At . Luego S es un
tiempo de parada para (At )t0 .
d) Se tiene que
A {S T } {T t} = A {S T } {T t} {S T T t},
pero A {S T } At (pues A AS y {T t} At . Ademas {T t r} = {T r t}
Art At y, de forma analoga, {S t r} At . As pues, T t y S t son At -medibles
y, de todo lo anterior se sigue que
A {S T } {T t} At , t 0 i.e.
91

92
A {S T } AT .
e) Si A AS entonces A = A = A {S T } AT por d).
Si (Xt )t0 es un proceso adaptado a (At )t0 y T es un tiempo de parada finito para
(At )t0 es natural considerar el valor XT del proceso cuando ocurren paradas; si T () = t
definimos XT () = Xt (). Sera deseable que XT fuese una v.a.. Veamos que para un
proceso progresivamente medible eso se verifica.
Teorema 72. Sea (Xt )t0 un proceso progresivamente medible adaptado a la familia
de -algebras (At )t0 . Si T es un tiempo de parada finito para (At )t0 entonces XT es
AT -medible.
Demostraci
on. Queremos probar que si B R entonces {XT B} AT . Pero
{XT B} {T t} = {XT t B} {T t}
y es suficiente probar que {XT t B} At , para cada t, en otras palabras, que XT t es At medible para cada t. Pero XT t es la composicion de la funcion ((T t)(), ), que es
una funcion medible de (, At ) en ([0, t] , B([0, t]) At ), y la funcion (s, ) Xs (),
que es una funcion medible de ([0, t] , B([0, t]) At ) en (R, B(R)), por la hipotesis de
medibilidad progresiva.

También podría gustarte