Está en la página 1de 45

NOTAS DEL CURSO DE PROBABILIDAD II 2010/2011

ALESSANDRO FERRIERO

Indice
1. Teora de la medida 2
1.1. Espacios medibles 2
1.2. Espacios de medidas 2
1.3. Teorema de extension 4
2. Integral de Lebesgue 6
2.1. Denicion 6
2.2. Teoremas de convergencias 8
2.3. Teorema de Radon-Nikodym 11
3. Distribuciones 12
3.1. Distribucion de una variable aleatoria 12
3.2. Principales distribuciones 14
3.3. Momentos 16
3.4. Desigualdades de Jensen, Markov y Chebichev 16
3.5. Teorema de cambio de espacio de integracion 17
4. Independencia 18
4.1. Denicion y propiedades 18
4.2. Ley 0-1 de Kolmogorov 21
5. Convergencias estocasticas 21
5.1. Convergencia en media de orden p y convergencia debil 21
5.2. Relaciones entre diferentes tipos de convergencias 23
6. Leyes de los grandes n umeros 27
6.1. Leyes debiles 27
6.2. Teoremas de Kolmogorov 29
7. Funcion caracterstica 32
7.1. Propiedades basicas 32
7.2. Aplicaciones 35
7.3. Teorema de continuidad de Levy 35
8. Teorema central del lmite 37
8.1. Teorema de Levy 37
8.2. Teorema de Lindeberg-Feller 38
9. Esperanza condicionada y martingalas 39
9.1. Probabilidad y esperanza condicionada 39
9.2. Propiedades basicas 41
9.3. Martingalas 41
9.4. Teorema de convergenca de martingalas 43
Referencias 45
1
2 ALESSANDRO FERRIERO
1. Teora de la medida
1.1. Espacios medibles. Sea un conjunto no vaco.
Denicion 1.1.1. Un coleccion de subconjuntos de es un algebra sobre si:
1. ;
2. E E
c
:= E ;
3. E
1
, E
2
E
1
E
2
.
De (1) y (2) sigue que =
c
y, por (2) y (3),
E
1
, . . . , E
n

n
i=1
E
i
= (E
1
(E
2
. . . (E
n1
E
n
))) ,
E
1
, . . . , E
n
E
1
E
n
= (E
c
1
E
c
n
)
c
.
Denicion 1.1.2. Un coleccion de subconjuntos de es un -algebra sobre
si es un algebra y si
E
i

iN

i=1
E
i
:= [n N : E
n
.
De (2) de la Denicion 1 y de la Denicion 2, sigue que
E
i

iN

i=1
E
i
:= [ E
n
, n N = (

i=1
E
c
i
)
c
.
Las -algebras triviales sobre cualquier conjunto son denidas por = ,
y = T().
Se observe que si es un algebra no implica que es tambien una -algebra.
De hecho, se considere por ejemplo := R y sea la coleccion de conjuntos de R
denido como
:=
n
i=1
(a
i
, b
i
][a
i
, b
i
R := R , i 1, . . . , n, n N.
Se puede probar que es un algebra pero no es una -algebra porque los conjuntos
formados por un solo punto,
c =

i=1
(c 1/i, c + 1/i],
no estan contenidos en .
Denicion 1.1.3. Sea ( una coleccion de conjuntos de . La -algebra generada
por ( es la -algebra m as peque na que contiene (. Es decir,
(() := [ es una -algebra, (.
Se puede demostrar que si

A
son -algebras sobre , entonces
A

es una -algebra sobre .


Denicion 1.1.4. Una pareja (, ) donde es una -algebra sobre se llama
espacio medible. Un conjunto E in se llama conjunto -medible de .
1.2. Espacios de medidas. Sea un conjunto no vaco y sea
0
un algebra
sobre .
Denicion 1.2.1. Un funcion de conjuntos
0
:
0
[0, ] es aditiva si, por
E
1
, E
2

0
,
E
1
E
2
=
0
(E
1
E
2
) =
0
(E
1
) +
0
(E
2
).
Si
0
es aditiva, entonces por E
1
, . . . , E
n

0
,
E
i
E
j
= , i ,= j 1, . . . , n

0
(E
1
E
n
) =
0
(E
1
(E
2
. . . (E
n1
E
n
))) =
0
(E
1
) + +
0
(E
n
).
NOTAS DEL CURSO DE PROBABILIDAD II 2010/2011 3
Denicion 1.2.2. Un funcion de conjuntos :
0
[0, ] es numerablemente
aditiva si, por E
i

iN

0
disjuntos por pareja (E
i
E
j
= , i ,= j N) tales
que

i=1
E
i

0
,
(

i=1
E
i
) =

i=1
(E
i
).
Se puede demostrar que una funcion de conjuntos numerablemnte aditiva es
aditiva. El contrario no es cierto. De hecho, se considere por ejemplo := 1/2
n
[n
N, := T() y, por E , card(E) < ,

0
(E) :=

xE
x,

0
() := 0, y
0
(E) := , por E , card(E) = ,. Entonces
0
es aditiva pero
no es numerablemnte aditiva porque
=
0
() =
0
_

_
n=1
1/2
n

_
,=

n=1

0
(1/2
n
) =

n=1
1/2
n
= 1.
Denicion 1.2.3. Una tripleta (, , ) donde es una -algebra sobre y es
un funcion de conjuntos numerablemente aditiva se llama espacio de medida. La
funcion es una medida sobre (, ).
Una medida satisfache las siguientes propiedades:
1. () = 0;
2. E
1
, E
2
, E
1
E
2
(E
1
) (E
2
);
3. E
i

iN
(

i=1
E
i
)

i=1
(E
i
);
4. E
i

iN
, E
i
E
i+1
, i N (

i=1
E
i
) = lm
n
(E
n
);
5. E
i

iN
, E
i
E
i+1
, i N, n N : (E
n
) < (

i=1
E
i
) = lm
n
(E
n
).
Estas propiedades se demuestran usando la denicion de medida y usando los
conjuntos medibles disjuntos por pareja F
i

iN
denidos por F
1
:= E
1
y F
i
:=
E
i
(F
i1
F
1
), i 2.
Notese que en la propiedad 5. se pide que exista un E
n
con medida nita sino el
resultado es falso. De hecho, por ejemplo, se considere := N, (E) := card(E),
por E := T(N). Sea E
i
:= j N[j i. Entonces (

i=1
E
i
) = () = 0 pero
(E
i
) = , i N. As que (

i=1
E
i
) ,= lm
n
(E
i
) en este caso.
Denicion 1.2.4. Un espacio de medida (, , ) es nito si
() <
y es -nito si
i

iN
tal que =

i=1

i
y
(
i
) < , i N.
Observacion. Por que no podemos medir directamente todos los subconjuntos de
un conjunto ?
Si es un conjunto numerable, por ejemplo = N, entonces si se puede denir
una medida sobre todos los subconjuntos de de manera razonable, es decir sobre
(, := T()). Por ejemplo (E) := card(E), E .
Mientras, si es un conjunto no numerable, por ejemplo = R, entonces no se
puede denir una medida sobre todos los subconjuntos de de manera razonable.
4 ALESSANDRO FERRIERO
Eso depende por el hecho que, por a

[0, ),

:= sup
_

I
a

[I , card(I) <
_
<
solo si a

[a

,= 0 es a lo sumo numerable. Para demostrarlo, se considere la


decomposicion de [0, ) = 0

i=1
[1/(i + 1), 1/i) [1, ). Si a

[0, )
es no numerable, existe n N tal que [1/(n + 1), 1/n) contiene una cantidad no
numerable de numeros a

. Entonces

sup
_

I
a

[I [1/(n + 1), 1/n), card(I) <


_
supcard(I)/(n + 1)[I [1/(n + 1), 1/n), card(I) < = .
1.3. Teorema de extensi on.
Denicion 1.3.1. Sea un conjunto. Una coleccion o de subconjuntos de se
llama -sistema si
E
1
, E
2
o E
1
E
2
o.
Proposicion 1.3.2. Sea := (o). Sean
1
y
2
dos medidas sobre (, ) tales
que
1
() =
2
() < y
1
=
2
sobre o. Entonces
1
=
2
sobre .
Demostracion. Se considere la coleccion
J := E [
1
(E) =
2
(E).
Demostramos que J es una -algebra. De hecho, J por denicion.
Sea E J; entonces

1
(E
c
) =
1
()
1
(E) =
2
()
2
(E) =
2
(E
c
)
y pues E
c
J.
Sea E
i

iN
J y sea F
1
:= E
1
y F
i
:= E
i
(F
i1
F
1
); entonces
1
(F
i
) =

2
(F
i
), i N, F
i
F
j
= , i ,= j N,

i=1
E
i
=

i=1
F
i
y

1
(

i=1
E
i
) =
1
(

i=1
F
i
) =

i=1

1
(F
i
) =

i=1

2
(F
i
) =
2
(

i=1
F
i
) =
2
(

i=1
E
i
).
Por denicion, J o. Entonces, J = (o) y
1
=
2
sobre .
Teorema 1.3.3 (Caratheodory). Sea un conjunto y
0
un algebra sobre .
Si
0
es una funcion de conjuntos numerablemente aditiva sobre
0
, entonces
existe una medida sobre (, := (
0
)) tal que
=
0
sobre
0
.
Si
0
() < , entonces la exstension es unica.
Demostracion. Se considere la funcion de conjuntos : T() [0, ] denida por
(E) := inf

i=1

0
(E
i
)[E
i

iN

0
es un recubrimiento por E.
Se observe que, por denicion, si E
0
, entonces (E)
0
(E). Por otro lado,
por > 0, existe un recubrimiento E
i

iN

0
de E tal que
(E) +

i=1

0
(E
i
).
NOTAS DEL CURSO DE PROBABILIDAD II 2010/2011 5
Sin perdida de generalidad, se puede asumir que E
i

iN
son disjuntos por pareja.
Denimos el recubrimiento E
i
E
iN

0
por E. Pues

i=1
(E
i
E) = E
0
y

i=1

0
(E
i
)

i=1

0
(E
i
E) =
0
(

i=1
(E
i
E)) =
0
(E).
Pues (E) +
0
(E), > 0, y entonces (E)
0
(E). Entonces, si E
0
,
(E) =
0
(E).
La funcion de conjuntos se llama medida exterior si es numerablemente suba-
ditiva, es decir
(

i=1
E
i
)

i=1
(E
i
).
Demostramos que es una medida exterior. Sea > 0. Por denicion, para cada
E
i
, existe un recubrimiento E
i
j

jN

0
de E
i
tal que

j=1

0
(E
i
j
) (E
i
) +/2
i
.
Entonces, E
i
j

j,iN

0
es un recubrimiento de

i=1
E
i
y

i=1

j=1

0
(E
i
j
)

i=1
(E
i
) +.
Por denicion (

i=1
E
i
)

i=1

j=1

0
(E
i
j
) y pues
(

i=1
E
i
)

i=1
(E
i
) +.
Se considere la coleccion
/ := E [ (A) (A E) + (A E
c
), A .
Demostramos que (, /, ) es un espacio de medida. Es trivial ver que /
(notese que () = 0) y que si E /, entonces E
c
/. Sea E
i

iN
/,
entonces
(A) (A E
1
) + (A E
c
1
)
(A E
1
E
2
) + (A E
1
E
c
2
) + (A E
c
1
E
2
) + (A E
c
1
E
c
2
)
((A E
1
E
2
) (A E
1
E
c
2
) (A E
c
1
E
2
)) + (A E
c
1
E
c
2
)
= (A (E
1
E
2
)) + (A (E
1
E
2
)
c
).
Pues, E
1
E
2
/ y entonces / es un algebra. Sean F
i

iN
/ disjuntos
por pareja denido por F
1
:= E
1
, F
i
:= E
i
(F
i1
F
1
). Sean A
j
:=

i=j
F
i
,
E := F
j
. Por denicion de /,
(

i=j
F
i
) (F
j
) + (

i=j+1
F
i
).
Entonces, para todos j N,
(

i=1
F
i
)
j

i=1
(F
i
) + (

i=j+1
F
i
)
j

i=1
(F
i
).
6 ALESSANDRO FERRIERO
Pues, como es tambien numerablemente subaditiva,
(

i=1
F
i
) =

i=1
(F
i
).
Entonces
(A) sup
nN
[ (A (
n
i=1
E
i
)) + (A (
n
i=1
E
i
)
c
)]
sup
nN
(A (
n
i=1
F
i
)) + (A (

i=1
E
i
)
c
)
= sup
nN

n
i=1
(A F
i
) + (A (

i=1
E
i
)
c
)
=

i=1
(A F
i
) + (A (

i=1
E
i
)
c
) = (A (

i=1
F
i
)) + (A (

i=1
E
i
)
c
)
= (A (

i=1
E
i
)) + (A (

i=1
E
i
)
c
)
Eso demuestra que

i=1
E
i
/ y pues / es un -algebra, y que es una medida
sobre (, /).
Demostramos que
0
/. Si E
0
, sea E
i

iN

0
un recubrimiento de
A . Entonces, E
i
E
iN

0
y E
i
E
c

iN

0
son respectivamente
recubrimientos de A E y de A E
c
. Pues

i=1

0
(E
i
) =

i=1

0
(E
i
E) +

i=1

0
(E
i
E
c
) (A E) + (A E
c
).
Pues (A) (A E) + (A E
c
) y entonces E / y
0
/.
La unicidad sigue por el hecho que un algebra es un -sistema y pues
0
es un
-sistema.
Denicion 1.3.4. Sea := R
n
y :=conjuntos abiertos de R
n
. Se llama -
algebra de Borel sobre R
n
la -algebra generada por o. Es decir,
B(R
n
) := ().
Se considere el agebra de la union nita de paralelepipedos abiertos a izquierda
serrado a derecha de (0, 1]
n
R
n
. Se dene una funcion de conjuntos numerable-
mente aditiva en (0, 1]
n
por

0
(
n
i=1
P
i
) :=
n

i=1
Vol(P
i
).
Por el teorema de Caratheodory,
0
se extende de forma unica a una medida m
sobre ((0, 1]
n
, B((0, 1]
n
)). Esta medida se llama medida de Lebesgue en (0, 1]
n
. Esta
dene de manera unica una medida invariante por traslacion sobre (R
n
, B(R
n
)).
Se puede demostrar que B(R
n
) = ((, x
1
] (, x
n
][x
1
, . . . , x
n
R).
2. Integral de Lebesgue
2.1. Denicion. Sea (, , ) un espacio de medida.
Denicion 2.1.1. Una funcion f de a R
n
es medible si, para todos B B(R
n
),
f
1
(B) .
La funciones medibles estan a la base de la teoria del integral.
Proposicion 2.1.2. Composicion, suma, producto, sup, inf, lmites de funciones
medibles son funciones medibles.
NOTAS DEL CURSO DE PROBABILIDAD II 2010/2011 7
Se note que la composici on se aplica cuando f : R
n
y g : R
n
R
m
.
Entonces g f() = g(f()) : R
m
. Sobre el espacio R
n
se considera siempre
la -algebra de los Borelianos sino especicado diversamente.
Si E
i

n
i=1
es una particion de , la funcion simple s : R denida por
s() :=
n

i=1
a
i

Ei
(),
a
i
R, es medible. La funcion
Ei
es la funcion indicadora de E
i
y es la funcion
igual a 1 sobre E
i
y igual a 0 sobre E
c
i
.
Proposicion 2.1.3. Una funcion medible f : [0, ] se puede escribir come
sup de funciones simples s
n

nN
, s
n
s
n+1
f.
Demostracion. Se considere E
i
:= f
1
([(i 1)/2
n
, i/2
n
)), E
2
2n
+1
:= f
1
([2
n
, ]).
Entonces [0, ] =
2
2n
i=1
[(i 1)/2
n
, i/2
n
) [2
n
, ] y
s
n
:=
2
2n
+1

i=1
i 1
2
n

Ei
es una funcion simple. Es facil ver que f() = sup
nN
s
n
() = lm
n
s
n
().
Se dene el integral de una funcion simple s como
_

s()d() =
_

sd :=
n

i=1
a
i
(E
i
).
Se dene el integral de una funcion medible no negativa f como
_

fd := sup
nN
_

s
n
d = lm
n
_

s
n
d,
donde s
n
es una sucesion de funciones simples que converge a f. Se puede demostrar
que ese valor no depende por la sucesions
n

nN
.
Si f es una funcion medibles con valores en R, se dene su integral como
_

fd :=
_

f
+
d
_

d,
donde f
+
:= maxf, 0, f

:= mnf, 0, siempre que


_

f
+
d,
_

d no sean
ambos .
Una funcion medible f se dice integrable si
_

[f[d < .
Se dene, por E ,
_
E
fd :=
_

f
E
d.
Proposicion 2.1.4. El integral es funcional lineal sobre las funciones medibles. Es
decir,
_

(af +bg)d = a
_

fd +b
_

gd,
donde a, b R, f, g medibles. Tambien, [f[ = f
+
+f

es medible y

fd

[f[d () sup

[f[.
Demostracion. Se usan directamente las deniciones.
8 ALESSANDRO FERRIERO
2.2. Teoremas de convergencias.
Denicion 2.2.1. Una sucesion de funciones medibles f
n

nN
converge casi se-
guro a una funci on medible f si existe Z , (Z) = 0, tal que, para todo Z
c
,
lm
n
f
n
() = f().
Se escribe que f
n
c.s.
f.
Denicion 2.2.2. Una sucesion de funciones medibles f
n

nN
converge en medida
a una funcion medible f si para todo > 0
lm
n
([[f
n
() f()[ ) = 0.
Se escribe que f
n

f.
Proposicion 2.2.3. Sea una medida nita. Si f
n
f casi seguro, entonces
f
n
f en medida.
Demostracion. Sea > 0. Si f
n
f casi seguro, entonces

n=1

i=n
[[f
i
() f()[ Z.
Entonces, por la numerable aditividad de la medida
lm
n
(

i=n
[[f
i
() f()[ ) = 0.
Pues ([[f
n
() f()[ ) (

i=n
[[f
i
() f()[ ) 0, por n
.
Se note que la hipotesis de medida nita es necesaria. Si no fuera as, el resultado
sera falso. De hecho, se considere := R, := m la medida de Lebesgue en R.
Entonces, f
n
:=
(n,n+1)
converge casi seguro a f := 0, pero ([f
n
[ ) = 1,
n N, (0, 1).
El resultado que es verdad en el caso () = es que si f
n
f casi seguro,
entonces f
n
converge en medida sobre cualquier subconjunto de medida nita de
a f. Es decir, f
n

E
f
E
en medida, para todos E , (E) < .
En espacios con medida nita, la convergencia casi seguro es mas fuerte que la
convergencia en medida. La convergencia en medida no implica pero la convergencia
casi seguro. Considere, por ejemplo, := [0, 1] y I
1
:= [0, 1/2], I
2
:= (1/2, 1],
I
3
:= [0, 1/3], I
4
:= (1/3, 2/3], I
5
:= (2/3, 1], I
6
:= [0, 1/4], . . . . Pues
In

nN
converge en medida a 0 pero no converge casi seguro.
Proposicion 2.2.4. Si f
n
f en medida, entonces existe k
n

nN
tal que f
kn
f
casi seguro.
Demostracion. Sea n N. Existe k
n
N tal que
([[f
kn
() f()[ 1/2
n
) 1/2
n
.
Pues

n=1
([[f
kn
() f()[ 1/2
n
) <
y entonces, por Borel-Cantelli,
(

n=1

i=n
[[f
kn
() f()[ 1/2
n
) = 0.
NOTAS DEL CURSO DE PROBABILIDAD II 2010/2011 9
Es decir que por todo Z
c
, donde Z :=

n=1

i=n
[[f
kn
() f()[ 1/2
n
,
exists n N tal que
[f
ki
() f()[ < 1/2
i
,
para todo i n. Entonces, f
kn
() f().
Lema 2.2.5 (Borel-Cantelli). Sea E
i

iN
tal que

i=1
(E
i
) < ,
entonces
(

n=1

i=n
E
i
) = 0.
Demostracion. Por la numerable subaditivitad de la medida,
(

n=1

i=n
E
i
) (

i=n
E
i
)

i=n
(E
i
), para todo n N.
El resultado sigue tomando el lmite por n .
Se dene
lmsup
n
E
n
:=

n=1

i=n
E
i
= [ E
i
para innitos i N,
lminf
n
E
n
:=

n=1

i=n
E
i
= [n N : E
i
para todos i n.
Se demuestra que
(lminf
n
E
n
) lminf
n
(E
n
),
y si es nita tambien
(lmsup
n
E
n
) lmsup
n
(E
n
).
Un sucesion de funciones medibles f
n

nN
es (c.s.) acotada si esiste M > 0 tal
que
([[f
n
()[ M) = 0,
para todo n N.
Teorema 2.2.6 (Teorema de convergencia acotada). Sea de medida nita. Sea
f
n

nN
una sucesi on de funciones medibles acotada que converge in medida a f.
Entonces,
lm
n
_

[f
n
f[d = 0.
Demostracion. Sea > 0. Entonces,
_

[f
n
f[d =
_
{|fnf|}
[f
n
f[d +
_
{|fnf|<}
[f
n
f[d
2M([f
n
f[ ) +().
El resultado sigue tomando el limite por n .
Teorema 2.2.7 (Lema de Fatou). Sea f
n

nN
una sucesion de funciones medibles
no negativas que converge in medida sobre cualquier subconjunto de medida nita
de a f. Entonces,
_

fd lminf
n
_

f
n
d.
10 ALESSANDRO FERRIERO
Demostracion. Sea g f una funcion medible, acotada y tal que ([g[ > 0) <
. Sea g
n
:= mng, f
n
. La sucesion g
n

nN
es tambien acotada y converge en
medida a g. Por el teorema de convergencia acotada
_

gd = lm
n
_

g
n
d.
Como g
n
f
n
,
lm
n
_

g
n
d lminf
n
_

f
n
d.
Como g es cualquier funcion 0 g f, de
_

fd = sup
0gf
_

gd lminf
n
_

f
n
d
sigue el resultado.
Se note que tambien,
_

lminf
n
f
n
d lminf
n
_

f
n
d.
De hecho, por la denicion de lmite inferior y de integral,
_

lminf
n
f
n
d =
_

sup
nN
nf
kn
f
k
d = sup
nN
_

nf
kn
f
k
d
sup
nN
nf
kn
_

f
k
d = lminf
n
_

f
n
d.
Teorema 2.2.8 (Teorema de convergencia monotona). Sea f
n

nN
una sucesion
de funciones medibles no negativas, f
n
f
n+1
, que converge casi seguro a f. En-
tonces,
lm
n
_

f
n
d =
_

fd.
Demostracion. Como f
n
f
n+1
, entonces lmsup
n
_

f
n
d
_

fd. Por el
lema de Fatou,
_

fd lminf
n
_

f
n
d,
y entonces
lmsup
n
_

f
n
d
_

fd lminf
n
_

f
n
d.
Eso implica el resultado
Teorema 2.2.9 (Teorema de convergencia dominada). Sea f
n

nN
una sucesion
de funciones medibles que converge en medida sobre cualquier subconjunto de me-
dida nita de a f y [f
n
[ g, donde g es integrable. Entonces,
lm
n
_

f
n
d =
_

fd.
Demostracion. La subseciones g +f
n

nN
y g f
n

nN
son no negativas y con-
vergen en medida sobre cualquier subconjunto de medida nita de a g+f y gf.
Por el lema de Fatou,
lminf
n
_

(g +f
n
)d
_

(g +f)d.
NOTAS DEL CURSO DE PROBABILIDAD II 2010/2011 11
Como g es integrable, eso implica
lminf
n
_

f
n
d
_

fd.
Usando g f
n

nN
, se prueba de la misma forma que
lmsup
n
_

f
n
d
_

fd.
El resultado sigue de las dos desigualdades.
Se note que tambien, si [f
n
[ g, donde g es integrable,
_

lmsup
n
f
n
d lmsup
n
_

f
n
d.
De hecho g f
n
0, n N y, por Fatou,
_

lminf
n
[g f
n
]d lminf
n
_

[g f
n
]d,
y por la integrabilidad de g sigue el resultado.
2.3. Teorema de Radon-Nikodym.
Denicion 2.3.1. Sean y dos medidas sobre (, ). La medida es absolu-
tamente continua con respecto a si para todos Z con (Z) = 0 implica que
(Z) = 0. Se escribe que .
Proposicion 2.3.2. Si es una medida nita, si y solo si para todo > 0,
existe > 0 tal que
E , (E) (E) .
Demostracion. Si la propiedad en el enunciado es verdad, pues (E) = 0 implica
que (E) , > 0. Pues (E) = 0 y .
Supongamos que la propiedad en el enunciado es falsa. Pues existe > 0 y
E
i

iN
tal que (E
i
) 1/2
i
y (E
i
) , para todos i N. Sea E :=
lmsup
n
E
n
. Por Borel-Cantelli, (E) = 0 pero, como es nita,
(E) lmsup
n
(E
n
) .
Entonces no es absolutamente continua con respecto a .
Se note que si f es una funcion integrable no negativa denida en (, , ), la
funciones de conjuntos denida por, E ,
(E) :=
_
E
fd
es una medida sobre (, ). La medida es absolutamente continua con respecto
a .
Denicion 2.3.3. Sean y dos medidas sobre (, ). La medida son singulares
si existen dos conjuntos medibles S

y S

tales que S

= ,
(S
c

) = 0, (S
c

) = 0.
Se escribe .
12 ALESSANDRO FERRIERO
El suporto de una medida supp() es denido como aquel conjunto en tal que
si E , E supp(), entonces (E) = (supp()), y si E , E supp(),
entonces (E) < (supp()).
Dos medidas singulares tienen suportes disjuntos.
Teorema 2.3.4 (Radon-Nikodym). Sean y medidas -nitas sobre (, ).
Existen dos medidas
a
y
s
tales que
a
,
s
y
=
a
+
s
.
Ademas existe una funcion medible no negativa f unica en casi todos puntos tal que

a
(E) =
_
E
fd, para todos E .
Si es absolutamente continua con respecto a , entonces
s
= 0.
La idea de tras del teorema de Radon-Nikodym es que, si , entonces existe
para -casi todos el lmite de (E
n
)/(E
n
) =: f() por (E
n
) 0, E
n
.
Pues la funcion f se llama tambien la derivada de Radon-Nikodym de con respecto
de ,
f =
d
d
.
(Se puede demostrar el teorema de Radon-Nikodym usando el lema de recubrim-
iento de Vitali y la proposici on arriba para mostrar que existe lm(E
n
)/(E
n
),
por (E
n
) 0, E
n
.)
3. Distribuciones
3.1. Distribucion de una variable aleatoria.
Proposicion 3.1.1. Una funcion F : R
n
R continua a derecha, es decir F(y)
F(x), si y x, y
i
x
i
, i 1, . . . , n, y tal que para todos paralelepipedos
P = (a
1
, b
1
] (a
n
, b
n
],

P
F :=

xV (P)
sgn(x)F(x) 0, donde sgn(x) := (1)
#{a en x}
,
y V (P) son los vertices de P, dene en manera unica una medida sobre (R
n
, B(R
n
)).
Demostracion. Se considere la funcion de conjuntos denida sobre las algebra de
las uniones nitas de paralelepidedos de (0, 1]
n

0
(
n
i=1
P
i
) :=
n

i=1

Pi
F.
Por la segunda propiedad del enunciado, esta funcion es no negativa. Por la primera
propiedad, se demuestra tambien que es numerbalemente aditiva. Entonces, por el
teroema de extension de Caratheodory, se puede extender
0
a una medida sobre
((0, 1]
n
, B((0, 1]
n
)). Para extender a (R
n
, B(R
n
)), sea C
i

iN
un particion en
cubos de R
n
. Pues, por E B(R
n
),
(E) :=

i=1
(E C
i
).
Esto demuestra el resultado.
NOTAS DEL CURSO DE PROBABILIDAD II 2010/2011 13
El integral de Lebesgue-Stieltjes de una funcion medible (Boreliana) no negativa
g : R
n
[0, ] se dene como
_
R
n
g(x)dF(x) :=
_
R
n
g(x)d
F
(x),
donde F es una funcion que satisfache las dos propiedades de la proposicion arriba
y
F
es la medida denida por F.
Denicion 3.1.2. Una funcion F que satisfache las dos propiedades de la proposi-
cion arriba y tal que lm
(x1,...,xn)(,...,)
F(x) = 1 y lm
xi
F(x) = 0, i =
1, . . . , n, se llama funcion de distribuci on sobre R
n
.
Sea (, , P) es un espacio de probabilidad, es decir un espacio de medida tal
que P() = 1.
Una funcion medible X : R
n
se llama variable aleatoria multidimensional, o
vector aleatorio. Si X tiene valor en R, X se llama simplemente variable aleatoria.
Denicion 3.1.3. La funcion de distribucion de un vector aleatorio X = (X
1
, . . . , X
n
)
se dene como
F
X
(x
1
, . . . , x
n
) := P( [X
1
() x
1
, . . . , X
n
() x
n
).
Se escribe que X F
X
.
Se demuestra que F
X
es efectivamente una funcion de distribucion sobre R
n
seg un la denicion arriba.
Una funcion de distribucion F es absolutamente continua si la medida aso-
ciada
F
es absolutamente continua con respecto de la medida de Lebsegue de R
n
.
En este caso, por el teorema de Radon-Nikodym, existe una funcion integrable no
negativa f tal que

F
(E) =
_
E
f(x)dx, E B(R
n
).
En particular,
F(x
1
, . . . , x
n
) =
F
((, x
1
] (, x
n
]) =
_
(,x1](,xn]
f(y)dy
y, por el teorema fundamental del calculo,
f(x) =

n
F
x
1
. . . x
n
(x), x R
n
.
Se note que por el teorema de integracion iterada de Tonelli,
_
(,x1](,xn]
f(y)dy =
_
(,x1]
. . .
_
(,xn]
f(y)dy
1
. . . dy
n
Si n = 1, simplemente f = dF/dx en R.
Una funcion de distribucion F es singular si la medida asociada
F
es singular
con respecto de la medida de Lebsegue de R
n
. Es esta caso, existe un boreliano Z
de medida de Lebesgue m nula tal que
F
(Z
c
) = 0.
Un ejemplo de funcion de distribucion singular es F(x) =
[0,)
(x) por x R.
La medida asociada es la delta de Dirac en 0,
F
=
x
.
Otro ejemplo de funcion de distribucion singular es la F concentrada en el con-
junto de Cantor. Es decir, C es el intervalo [0, 1] menos (1/3, 2/3), menos el intervalo
central de tama no 1/3
2
de (0, 1/3) y (2/3, 1), menos el intervalo central de tama no
14 ALESSANDRO FERRIERO
1/3
3
de los cuatros intervalos que quedan, menos ... La F es igual a 0 sobre (, 0]
y 1 sobre [1, ), es igual a 1/2 sobre [1/3, 2/3), es igual a 1/4 sobre [1/9, 2/9) y
3/4 sobre [7/9, 8/9), ... La medida asociada
F
es tal que
F
(C
c
) = 0,
F
(C) = 1
y m(C) = 0. Se demuestra que F es continua.
Una funcion de distribuci on F es discreta si existe un conjunto numerable
N R
n
tal que
F
(N
c
) = 0.
La funcion de distribucion
[0,)
es discreta. Sea q
i

iN
un orden de los numeros
racionales en R. Sea a
i

iN
tal que a
i
> 0 y

i=1
a
i
= 1. Entonces, F(x) :=

i=1
a
i

[qi,)
(x) es discreta.
Si F es discreta entonces F es singular. Pero hay F singulares que no son disc-
retas: un ejemplo es la F concentrada en el conjunto de Cantor denida arriba.
Notese que cualquier funcion de distribucion F es continua desde la derecha.
Si ademas F es absolutamente continua, pues F es tambien continua.
Mientras, si F es discreta, entonces F es discontinua por lo menos en un punto
y a lo sumo en una cantidad numerable de puntos (si fuera discontinua en una
cantidad no numerable de puntos implicara que x R
n
: F(x) = ).
Si F es singular, F puede ser continua, o discontinua a lo sumo en una cantidad
numerable de puntos.
Por Radon-Nikodym, por cualquier funcion de distribucion F, existen una fun-
cion absolutamente continua F
a
y una singular F
s
tal que F = F
a
+ F
s
sobre
R
n
. Es decir, F
a
(x
1
, . . . , x
n
) =
a
F
((, x
1
] (, x
n
]) y F
s
(x
1
, . . . , x
n
) =

s
F
((, x
1
] (, x
n
]), x
1
, . . . , x
n
R donde
a
F
y
s
F
son respectivamente la
parte absolutamente continua y la parte singular de la medida de Lebesgue-Stieltjes

F
asociada a F con respecto a la medida de Lebesgue m de R
n
.
3.2. Principales distribuciones. Sea X : R una variable aleatoria sobre
un espacio de probabilidad (, , P).
Bernoulli: X tiene distribucion de Bernoulli de parametro p [0, 1], X
B(1, p), si
P(X = 1) = p, P(X = 0) = 1 p.
Momentos: E(X) = p, Var(X) = p(1 p).
Aplicaciones: experimentos aleatorios binarios.
Poisson: X tiene distribucion de Poisson de parametro > 0, X P(),
si
P(X = k) = e

k
k!
, k 0 N.
Momentos: E(X) = , Var(X) = .
Aplicaciones: n umero de sucesos que se producen en un periodo de tiempo.
Binomial: X tiene distribucion Binomial de parametro p [0, 1], n N,
X B(n, p), si
P(X = k) =
_
n
k
_
p
k
(1 p)
nk
, k 0, 1, . . . , n.
Momentos: E(X) = np, Var(X) = np(1 p).
Aplicaciones: n umero de sucesos en n pruebas de Bernoulli independi-
entes. El lmite de Binomiales independientes con parametro p
n
, np
n
,
es una Poisson.
NOTAS DEL CURSO DE PROBABILIDAD II 2010/2011 15
Binomial negativa: X tiene distribucion Binomial negativa de parametro
p [0, 1], n N, X BN(n, p), si
P(X = k) =
_
k 1
n 1
_
p
n
(1 p)
kn
, k n, n + 1, . . . .
Momentos: E(X) = n/p, Var(X) = n(1 p)/p
2
.
Aplicaciones: n umero de pruebas para obtener n sucesos en pruebas de
Bernoulli independientes. La BN(1, p) se llama distribucion Geometrica.
Uniforme: X tiene distribucion unforme sobre [a, b], X U(a, b), si
f(x) =
[a,b]
(x)/(b a), x [a, b].
Momentos: E(X) = (a +b)/2, Var(X) = (b a)
2
/12.
Aplicaciones: si X es v.a. con F
X
continua, entonces F
X
(X) U(0, 1).
Normal: X tiene distribucion Normal con parametros R, > 0, X
N(, ), si
f(x) = e
[(x)/]
2
/2
/(

2), x R.
Momentos: E(X) = , Var(X) =
2
.
Aplicaciones: suma de v.a. independientes.
LogNormal: X tiene distribucion Lognormal de parametros R, > 0,
X LogNormal(, ), si
f(x) = e
[(log x)/]
2
/2
/(x

2), x 0.
Momentos: E(X) = e
+
2
/2
, Var(X) = (e

2
1)e
2+
2
.
Aplicaciones: si X tiene distribucion Lognormal, entonces log X tiene dis-
tribucion Normal. Producto de v.a. independientes.
Exponencial: X tiene distribucion exponencial de parametro > 0, X
Exp(), si
f(x) = e
x
, x 0.
Momentos: E(X) = 1/, Var(X) = 1/
2
.
Aplicaciones: tiempo de espera hasta el primer suceso.
Gamma: X tiene distribucion Gamma de parametros > 0, s > 0, X
Gamma(, s), si
f(x) =

s
(s)
e
x
x
s1
, x 0.
Momentos: E(X) = s/, Var(X) = s/
2
.
Aplicaciones: si s N, tiempo de espera hasta s sucesos (distribucion
de Erlang). Si = 1/2, s = n/2, n N, se llama distribucion
2
con n
grados de libertad, que es la distribucion de la varianza de la suma de N
v.a. independientes.
Pareto: X tiene distribucion de Pareto de parametros > 1, x
0
> 0, X
Pareto(, x
0
), si
f(x) =
x

0
x
+1
, x x
0
.
Momentos: E(X) = /( 1), Var(X) = [x
0
/( 1)]
2
/( 2), > 2.
Aplicaciones: distribucion de la riqueza en el mundo.
16 ALESSANDRO FERRIERO
Cauchy: X tiene distribucion de Cauchy de parametros > 0, R,
X Cauchy(, ), si
f(x) = 1/[(1 + (x )
2
/
2
)], x R.
Momentos: no tiene momentos nitos.
Aplicaciones: distribucion de la tengente de Y donde Y tiene distribu-
cion uniforme en [/2, /2]. El coeciente de dos v.a. normales estandar
independientes tiene distribucion de Cauchy.
3.3. Momentos. Sea X : R una variable aleatoria sobre un espacio de
probabilidad (, , P).
La esperanza de X es denida como
E(X) :=
_

X()dP().
Como el integral es un operador lineal, E es un operador lineal.
Denicion 3.3.1. Para todos n umeros interos k 2, se dene el momento k-esimo
de X como
E(X
k
) =
_

X
k
()dP().
Los momentos centrados son denidos como E([X E(X)]
k
). El segundo mo-
mento centrado se llama varianza, el tercero se llama asimetra (y el cuarto se
llama curtosis). Ellos describen respectivamente la dispersion y la asimetra de una
distribucion. La varianza es igual tambien a Var(X) = E(X
2
) E(X)
2
.
Si X : R
n
es un vector aleatorio, la denicion de momentos no se aplica.
Por k = 2, se dene la matrice de covarianzas de X como la matriz
(E([X
i
E(X
i
)][X
j
E(X
j
)]))
i,k{1,...,n}
.
Sean X, Y dos variables aleatoria. Deniendo la covarianza ente X y Y come
Cov(X, Y ) := E([X E(X)][Y E(Y )]) = E(XY ) E(X)E(Y ), se tiene que
Cov(X, X) = Var(X) y
Var(X +Y ) = Var(X) + Var(Y ) + 2Cov(X, Y ).
3.4. Desigualdades de Jensen, Markov y Chebichev. Sea : R
n
R una
funcion convexa. Es decir,
(ax + (1 a)y) a(x) + (1 a)(y), x, y R
n
, a [0, 1].
Se note que una funcion convexa es continua y, entonces, medible.
Proposicion 3.4.1 (Desigualdad de Jensen). Sea X : R
n
un vector aleatorio
y : R
n
R una funcion convexa. Entonces,
(E(X)) E((X)).
Demostracion. Por la convexidad de ,
(X()) (E(X)) +(E(X)) [X() E(X)], .
NOTAS DEL CURSO DE PROBABILIDAD II 2010/2011 17
Entonces, tomando el integral a la izquierda y a la derecha y recordando que la
intergal es lineal,
E((X)) =
_

(X())dP()
(E(X))
_

dP() +(E(X))
__

X()dP() E(X)
_
= (E(X)).
Sigue el resultado.
Proposicion 3.4.2 (Desigualdad de Markov). Sea : R
n
[0, ) una funcion
medible. Sea A B(R
n
) y X : R
n
un vector aleatorio. Entonces,
P(X A) nf
xA
(x) E((X)
{XA}
) E((X)).
Demostracion. Sigue directamente tomando el integral sobre X A a la izquier-
da y a la derecha de
nf
xA
(x) (X()), X A
y usando que E(Y
E
) E(Y ), para todos v.a. no negativas Y y E .
Proposicion 3.4.3 (Desigualdad de Chebichev). Sea X : R
n
un vector
aleatorio. Entonces,
P([X[ a) E([X[
2
)/a
2
, a 0.
Demostracion. Sigue desde la desigualdad de Markov con (x) := [x[
2
, x R
n
, y
A := x R
n
[[x[ a.
3.5. Teorema de cambio de espacio de integracion.
Denicion 3.5.1. Sean (
1
,
1
) y (
2
,
2
) dos espacios medibles. Se llama tran-
formacion de espacios medibles una funcion T :
1

2
tal que T
1
(E)
1
,
para todos E
2
.
Si
1
es una medida sobre (
1
,
1
), entonces se demuestra que

2
(E
2
) :=
1
(T
1
(E
2
)), E
2

2
,
es una medida sobre (
2
,
2
).
Teorema 3.5.2. Sea f :
2
R
n
una funcion medible y T :
1

2
una
transformacion de espacios medibles. Entonces, g := f T :
1
R
n
es medible.
Ademas, f es integrable con respecto a
1
si y solo si g es integrable con respecto a

2
:=
1
T
1
y
_
1
g(
1
)d
1
(
1
) =
_
2
f(
2
)d
2
(
2
).
Demostracion. Sea f :=
E2
, donde E
2

2
. Entonces, g =
T
1
(E2)
y
_
1

T
1
(E2)
d
1
=
1
(T
1
(E
2
)) =
2
(E
2
) =
_
2

E2
d
2
.
Si la igualdad es verdadera por la funcion indicadora de conjuntos, por linealidad
del integral, la igualdad sigue siendo cierta por funciones simples.
Por convergencia monotona, sigue verdad por funciones medibles no negativas.
El resultado por una funcione medible real sigue considerando sus partes positiva
y negativa.
18 ALESSANDRO FERRIERO
El resultado por cualquier funcion vectorial sigue directamente por la denicion
de integral, es decir
_

fd = (
_

f
1
d, . . . ,
_

f
n
d).
Sea X un vector aleatorio sobre (, , P) con distribucion F
X
. Entonces, por el
teorema de arriba,
_

X()dP() =
_
R
n
xdF
X
(x).
En este caso
1
:= ,
2
:= R
n
, f := id y T := X (la medida P X
1
coincide con
P
F
X
porque coinciden sobre el -sistema (, b
1
] (, b
n
][b
1
, . . . , b
n
R).
Si X es una variable aleatoria y f(x) := x
k
, x R, k N, entonces
E(X
k
) =
_
R
x
k
dF
X
(x).
4. Independencia
4.1. Denicion y propiedades. Sea (, , P) un espacio de probabilidad.
Se note que la -algebra en un espacio de probabilidad representa el conjunto
de las informaciones disponibles. Es decir, es el conjunto de los eventos de los que
conocemos la probabilidad de ocurrencia.
Denicion 4.1.1. Los eventos E
1
, . . . , E
n
son independientes si
P(
n
i=1
E
i
) =
n

i=1
P(E
i
) = P(E
1
) P(E
n
).
Si E
1
y E
2
son independientes, entonces tambien E
c
1
y E
2
son independientes.
De hecho,
P(E
c
1
E
2
) = P(E
2
) P(E
1
E
2
) = P(E
2
) P(E
1
)P(E
2
) = P(E
c
1
)P(E
2
).
Una propiedad anaologa es verdad tambien en el caso de n eventos independientes.
Denicion 4.1.2. Las sub -algebras
1
, . . . ,
n
son independientes si, para
todos E
i

i
, i = 1, . . . , n, E
1
, . . . , E
n
son independientes.
Si X es un vector aleatorio sobre , se puede denir la -algebra generada por
X como la -algebra mas peque na tal que X es medible. Es decir,
(X) := X
1
(B)[B B(R
n
).
Claramente, (X) . Como B(R
n
) = (

n
i=1
(, b
i
][(b
1
, . . . , b
n
) R
n
), sigue
que
(X) = (X
1
_
n

i=1
(, b
i
]
_
[(b
1
, . . . , b
n
) R
n
).
Denicion 4.1.3. Las v.a. X
1
, . . . , X
n
son independientes si las sub -algebras
(X
1
), . . . , (X
n
) son independientes.
Por denicion, si X
1
, . . . , X
n
son independientes y f
i
son funciones borelianas,
entonces f
1
(X
1
), . . . , f
n
(X
n
) son independientes. De hecho, (f
i
(X
i
)) (X
i
).
Sean X, Y dos vectores aleatorios. Se puede demostrar que si (Y ) (X),
entonces existe una funcion boreliana f : X() Y (), X(), Y () R
n
, tal que
Y = f(X).
Entonces, si (Y ) = (X), existe una funcion boreliana con inversa boreliana
f : X() Y (), tal que Y = f(X) y X = f
1
(Y ).
NOTAS DEL CURSO DE PROBABILIDAD II 2010/2011 19
Lema 4.1.4. Sean
1
, . . . ,
n
sub -algebras tales que
i
= (o
i
), i =
1, . . . , n, donde o
i
son -sistemas.
Entonces,
1
, . . . ,
n
son independientes si y solo si los eventos E
1
, . . . , E
n
son
independientes, para todos E
i
o
i
, i = 1, . . . , n.
Demostracion. Si
1
, . . . ,
n
son independientes, entonces por denicion E
1
, . . . , E
n
son independientes, para todos E
i
o
i
, i = 1, . . . , n.
Supongamos E
1
, . . . , E
n
son independientes, para todos E
i
o
i
, i = 1, . . . , n.
Fijamos E
i
, o
i
, i = 1, . . . , n 1. Entonces las funciones de conjuntos
E
n
P(E
1
E
n
), E
n
P(E
1
) P(E
n
), E
n

n
,
son medidas nitas sobre (,
n
) que coinciden sobre el -sistema o
n
. Entonces,
por la proposicion 1.3.2, las dos medidas coinciden sobre (o
n
) =
n
. Entonces,
E
1
, . . . , E
n
son independientes, para todos E
i
o
i
, i = 1, . . . , n 1, E
n

n
.
Por iteracion del procedimiento arriba, sigue el resultado
Por este lema, las v.a. X
1
, . . . , X
n
son independientes si y solo si
P(X
1
x
1
, . . . , X
n
x
n
) = P(X
1
x
1
) P(X
n
x
n
),
para todos x
1
, . . . , x
n
R. Eso es igual a decir que, por X = (X
1
, . . . , X
n
),
F
X
(x
1
, . . . , x
n
) = F
X1
(x
1
) F
Xn
(x
n
),
para todos x
1
, . . . , x
n
R. Si F
Xi
, i = 1, . . . , n, son absolutamente continuas,
entonces por Radon-Nikodym sigue que
f
X
(x
1
, . . . , x
n
) = f
X1
(x
1
) f
Xn
(x
n
),
para casi todos x
1
, . . . , x
n
R.
Lema 4.1.5 (Segundo lema de Borel-Cantelli). Si E
i

iN
es una sucesion de
eventos independientes, entonces

i=1
P(E
i
) = P(lmsup
n
E
n
) = P(

n=1

i=n
E
i
) = 1.
Demostracion. Se note que, por la independencia, P(
m
i=n
E
c
i
) =

m
i=n
P(E
c
i
), para
todos n m N. Por monotona, podemos tomar el limite por m a izquierda
y a la derecha. Entonces,
P(

i=n
E
c
i
) =

i=n
P(E
c
i
),
para todos n N. Como e
x
1 x, x R, tenemos que
P(

i=n
E
c
i
) =

i=n
P(E
c
i
) =

i=n
[1 P(E
i
)] exp (

i=n
P(E
i
)).
Entonces, por la subaditividad de la medida y las hipotesis del lema,
P(

i=1

i=n
E
c
i
)

i=1
P(

i=n
E
c
i
) = 0.
Eso implica el resultado como

n=1

i=n
E
i
= (

i=1

i=n
E
c
i
)
c
.
20 ALESSANDRO FERRIERO
Se observe que la hipotesis de independencias de los eventos en el segundo lema
de Borel-Cantelli es necesaria sino el resultado es falso. Por ejemplo, si E es
un evento tal que 1 > P(E) > 0, entonces E
n
:= E, n N, dene una sucesion
de eventos no independientes tal que

i=1
P(E
i
) = , pero P(lmsup
n
E
n
) =
P(E) ,= 1.
Proposicion 4.1.6. Sean X y Y dos v.a. integrables y independientes. Entonces,
XY es integrable y
E(XY ) = E(X)E(Y ).
Ademas, si X, Y tienen segundo momento nitos, entonces
Cov(X, Y ) = 0, Var(X +Y ) = Var(X) + Var(Y ).
Demostracion. Descomponiendo X = X
+
X

, podemos reducirnos a demostrar


el resultado por X y Y no negativas.
Sean s
X
n
=

n
i=1
a
i

Ai
y s
Y
n
=

n
i=1
b
i

Bi
funciones simples que convergen de
manera monotona a X y Y respectivamente. Entonces, por la hipotesis de indepen-
dencia,
E(s
X
n
s
Y
n
) =
n

i=1
n

j=1
a
i
b
j
P(A
i
B
j
) =
n

i=1
n

j=1
a
i
b
j
P(A
i
)P(B
j
) = E(s
X
n
)E(s
Y
n
).
El resultado sigue por n .
Como Cov(X, Y ) = E(XY ) E(X)E(Y ) y Var(X + Y ) = Var(X) + Var(Y ) +
2Cov(X, Y ), entonces Cov(X, Y ) = 0 y Var(X +Y ) = Var(X) + Var(Y ).
Se dene la correlacion entre dos variables aleatorias X, Y la cantidad
Corr(X, Y ) :=
Cov(X, Y )
Var(X)Var(Y )
=
E([X E(X)][Y E(Y )])
E([X E(X)[
2
)
1/2
E([Y E(Y )[
2
)
1/2
.
Teorema 4.1.7 (Desigualdad de Cauchy-Schwarz). Sean X, Y dos variables aleato-
rias tales que E([X[
2
), E([Y [
2
) < . Entonces,
E([XY [) E([X[
2
)
1/2
E([Y [
2
)
1/2
.
Demostracion. Sea a R. Entonces,
0 E([[X[ a[Y [[
2
) = E([X[
2
) +a
2
E([Y [
2
) 2aE([XY [).
Sea a := E([XY [)/E([Y [
2
). Sigue que
0 E([X[
2
) +E([XY [)
2
/E([Y [
2
) 2E([XY [)
2
/E([Y [
2
).
Entonces, E([XY [)
2
/E([Y [
2
) E([X[
2
), y sigue el resultado.
Por la desigualdad de Cauchy-Schwarz, 1 Corr(X, Y ) 1.
La correlacion Corr(X, Y ) representa el angulo entre las v.a. X y Y cuandio
miramos a X y Y como vectores de L
2
(, , P).
Cuando la correlacion es 0, entonces los dos vectores son perpendiculares y
Var(X +Y ) = Var(X) + Var(Y ) no es nada mas que el teorema de Pitagora.
Cuando la correlacion es 1 o 1, los dos vectores estan alineados. Si es 1, entonces
Std(X + Y ) = Std(X) + Std(Y ), donde Std(X) := Var(X)
1/2
es la longitud del
vector X, o en terminos probabilisticos, la desviacion estandar de X. Si es 1,
entonces Std(X +Y ) = Std(X) Std(Y ).
Dos variable aleatorias independientes son no correladas, es decir tienen cor-
relacion nula. Pero dos v.a. no correladas pueden no ser independientes. Ejemplo,
NOTAS DEL CURSO DE PROBABILIDAD II 2010/2011 21
sea X una v.a. con distribucion uniforme en [1, 1], entonces X y Y := [X[ tienen
correlacion 0 pero no son independientes.
4.2. Ley 0-1 de Kolmogorov. Si X
i

iN
es una sucesion de v.a., se llama
-algebra terminal (o de cola, tail -algebra) de X
i

iN
la -algebra
T :=

n=1
(X
n
, X
n+1
, . . . ),
donde (X
n
, X
n+1
, . . . ) es la -algebra mas peque na por la que X
n
, X
n+1
, . . . son
medibles.
Los eventos lm
n
X
n
,

n=1
X
n
y lm
n

n
i=1
X
i
/n son ejem-
plos de eventos que partenecen a T , y X = lm
n

n
i=1
X
i
/n es un ejemplo de
v.a. sobre (, T ).
Se note que X =

n=1
X
n
no es una v.a. sobre (, T ), es decir no es medible
con respecto de T .
Teorema 4.2.1 (Ley 0-1 de Kolmogorov). Si X
i

iN
es una sucesion de v.a.
independientes, entonces P es trivial sobre T . Es decir,
1. P(E) = 0 o P(E) = 1, para todos E T ,
2. si X es una variable aleatoria sobre (, T ), entonces existe c [, ] tal
que P(X = c) = 1.
Demostracion. Para 1., sean T
n
:= (X
n
, X
n+1
, . . . ) y A
n
:= (X
1
, . . . , X
n1
). Es-
tas dos -algebras son independientes porque los -sistemas X
1
x
1
, . . . , X
n1

x
n1
y

m=n
X
n
x
n
, . . . , X
m
x
m
son independientes y A
n
, T
n
son rispec-
tivemente las -algebras generadas por ellos.
Como T T
n
, entonces A
n
y T son independientes, n 2. Entonces, como la
-algebra T
1
es generada por el -sistema

n=2
A
n
, T
1
y T son independientes.
Como T T
1
, eso implica que T es indipendiente consigo misma. Entonces,
P(E) = P(E E) = P(E)P(E), E T .
Entonces, P(E) = 0 o P(E) = 1.
Para demostrar 2., se note que P(X x) = 0 o P(X x) = 1, para todos x R.
Entonces, sea
c := supx R[P(X x) = 0.
Si c = , entonces P(X = ) = 1. Si c = , entonces P(X = ) = 1. Si
c R, entonces P(X c 1/n) = 0, n N, que implica
P(

n=1
X c 1/n) = P(X < c) = 0.
Tambien, P(X c + 1/n) = 1, n N, que implica
P(

n=1
X c + 1/n) = P(X c) = 1.
Entonces, P(X = c) = 1.
5. Convergencias estocasticas
5.1. Convergencia en media de orden p y convergencia debil.
Denicion 5.1.1. La sucesion X
n

nN
de vectores aleatorios convergen en media
de orden p, p 1, a X si
lm
n
E([X
n
X[
p
) = 0.
Se escribe que X
n
p
X.
22 ALESSANDRO FERRIERO
Se note que la norma p en L
p
(, , P) es igual a | |
p
= E([ [
p
)
1/p
. Por Jensen,
|X|
p
|X|
q
, 1 p < q .
Entonces, si 1 p < q , X
n
q
X X
n
p
X.
Denicion 5.1.2. La sucesi on P
n

nN
de probabilidades sobre (R
n
, B(R
n
)) con-
vergen debil a P si
lm
n
_
R
n
fdP
n
=
_
R
n
fdP, f C
b
(R
n
),
donde C
b
(R
n
) es el espacio de las funciones continuas y acotadas sobre R
n
. Se
escribe que P
n
w
P.
Teorema 5.1.3 (Teorema de Portmanteau). Sea P
n

nN
una sucesion de proba-
bilidades sobre (R
n
, B(R
n
)). La siguientes armaciones son equivalentes:
1. P
n
w
P;
2. lminf
n
P
n
(G) P(G), para todos abiertos G R
n
;
3. lmsup
n
P
n
(K) P(K), para todos serrados K R
n
;
4. lm
n
P
n
(H) = P(H), para todos los conjuntos de continuidad H por P,
es decir, H B(R
n
) tal que P(

H H

) = 0.
Demostracion. Demostramos que 1. 2. Sea f
k
(x) := k mn1/k, dist(x, G
c
),
x R
n
, k N. Se puede vericar que f
k
son continuas, acotadas y
lm
k
f
k
(x) =
G
(x), x R
n
.
Como f
k

G
, P
n
(G)
_
R
n
f
k
dP
n
, k, n N. Entonces, por 1.,
lminf
n
P
n
(G)
_
R
n
f
k
dP, k N.
Entonces, por Fatou, lminf
n
P
n
(G) P(G).
Demostramos que 2. 3. Esto sigue de arriba considerando G = K
c
.
Demostramos que 3. 4. Claramante 3. implica 2. considerando K = G
c
. Sea
H de continuidad por P. Entonces, por 2. y 3.,
P(H

) lminf
n
P
n
(H

) lmsup
n
P
n
(

H) P(

H).
Como P(

H) = P(H

), sigue el resultado.
Demostramos que 4. 1. Sea f C
b
(R
n
). Se considere, por t R, el conjunto
serrado C
t
:= x R
n
[f(x) = t. Como R
n
es de medida nita por P, entonces
existe a lo sumo una cantidad numerable de t tales que P(C
t
) > 0.
Sea N := t R[P(C
t
) > 0 y sea s
k
: R
n
R N una funcion simple,
s
k
=

k
2
i=1
a
i

Hi
, donde H
i
:= f
1
([a
i
, a
i+1
)), [a
i+1
a
i
[ 1/k.
Entonces, P(

H
i
H

i
) = P(C
ai
C
ai+1
) = 0 y, por 4.,
lm
n
_
R
n
s
k
dP
n
=
_
R
n
s
k
dP.
Sea s
k

kN
una sucesion de funciones simples con valores en R N tal que s
+
k
,
s

k
convergen casi seguro respectivamente a f
+
, f

. Entonces, por convergencia


monotona, por linealidad del integral y como
sup
nN

_
R
n
(f s
k
)dP
n

max[a
i+1
a
i
[[i = 1, . . . , k
2
1 1/k,
NOTAS DEL CURSO DE PROBABILIDAD II 2010/2011 23
sigue el resultado.
Denicion 5.1.4. La sucesion X
n

nN
de vectores aleatorios converge en dis-
tribucion a X si
lm
n
F
Xn
(x) = F
X
(x),
en todos puntos x R
n
de continuidad por F
X
. Se escribe que X
n
d
X.
Por el teorema de Portmanteau, X
n
d
X si y solo si P
F
Xn
w
P
F
X
.
Se recuerda que la convergencias de variables aleatorias en probabilidad y casi
seguro estan denidas en la seccion 2.
5.2. Relaciones entre diferentes tipos de convergencias.
Teorema 5.2.1. Valen las siguientes relaciones entre los diferentes tipos de con-
vergencia: sea X
n

nN
una sucesi on de vectores aleatorios sobre (, , P),
X
n
1
X

X
n
P
X X
n
d
X.

X
n
c.s.
X
Demostracion. Ya demostramos en la proposicion 2.2.3 que X
n
c.s.
X X
n
P
X.
Demostramos que X
n
1
X X
n
P
X. De hecho, sea > 0, por Markov con
(x) := [x[, x R
n
, y A

:= x R
n
[[x[ ,
P([X
n
X[ ) E([X
n
X[)/ 0, n .
Entonces, sigue el resultado.
Demostramos que X
n
P
X X
n
d
X. Sea > 0 y x = (x
1
, . . . , x
n
R
n
.
Entonces,
F
X
k
(x
1
, . . . , x
n
) = P(X
1
k
x
1
, . . . , X
n
k
x
n
)
= P(X
1
k
x
1
, . . . , X
n
k
x
n
X
1
x
1
+, . . . , X
n
x
n
+)
+P(X
1
k
x
1
, . . . , X
n
k
x
n
(X
1
> x
1
+ X
n
> x
n
+))
F
X
(x
1
+, . . . , x
n
+) +P([X
k
X[ > ).
De forma parecida, F
X
(x
1
, . . . , x
n
) F
X
k
(x
1
, . . . , x
n
) + P([X
k
X[ > ).
Entonces,
F
X
(x
1
, . . . , x
n
) P([X
k
X[ > )
F
X
k
(x
1
, . . . , x
n
) F
X
(x
1
+, . . . , x
n
+) +P([X
k
X[ > ).
Tomando el lmite en k,
F
X
(x
1
, . . . , x
n
) lminf
k
F
X
k
(x
1
, . . . , x
n
)
lmsup
k
F
X
k
(x
1
, . . . , x
n
) F
X
(x
1
+, . . . , x
n
+).
Si F
X
es continua en x, entonces, por 0, sigue el resultado.
24 ALESSANDRO FERRIERO
Las implicaciones en el otro sentido son falsa en general. De hecho, en seccion 2
hay un controejemplo que muestra que
X
n
P
X , X
n
c.s.
X.
El mismo controejemplo muestra que X
n
1
X , X
n
c.s.
X.
Tambien,
X
n
P
X , X
n
1
X
en general. Considere, por ejemplo, := [0, 1] y I
n
:= [0, 1/n]. Pues n
In

nN
converge en medida a 0 pero no converge en media de orden 1 a 0.
Tambien, por 1 p < q,
X
n
p
X , X
n
q
X
en general. Considere, por ejemplo, := [0, 1] y I
n
:= [0, 1/n]. Pues n
1/q

In

nN
converge en en media de orden p a 0 pero no converge en media de orden q a 0.
Tambien,
X
n
d
X , X
n
P
X
en general. Considere := [1, 1], X una v.a. con distribucion uniforme sobre
[1, 1] y X
n
:= X, n N. Como X y X tienen la misma distribucion,
X
n
d
X,
pero claramente, X
n
P
, X porque P([X
n
(X)[ ) = P(2[X[ ) = 1 /2.
Teorema 5.2.2 (Teorema de representacion de Skorokhod). Si X
n

nN
y X son
vectores aleatorios tales que
X
n
d
X,
entonces existe un espacio de probabilidad (
0
,
0
, P
0
) y vectores aleatorios Y
n

nN
y Y tales que
1. Y
n

nN
y Y tiene la misma distribucion de X
n

nN
y X;
2. Y
n
c.s.
Y .
Demostracion. Damos una idea de la demostracion en el caso de variables aleatorias
(y no vectores aleatorios).
Sea
0
:= (0, 1),
0
:= B((0, 1)) y P
0
:= m la medida de Lebesgue en R. Los
vectores aleatorios de la representacion de Skorokhod son, por x (0, 1),
Y
n
(x) :=nfy R[x F
Xn
(y)
y
Y (x) :=nfy R[x F
X
(y),
donde Y
n
y Y son basicamente las funciones inversas de F
Xn
y F
X
. El resultado es
una verca de 1. y 2.
Lema 5.2.3. Se tiene que:
1. si X
n
d
c, c funcion constante, entonces X
n
P
c;
2. si X
n
P
X y E([X
n
[
q
) c, n N, entonces X
n
p
X, 1 p < q;
3. si por todos > 0,

n=1
P([X
n
X[ ) < , entonces X
n
c.s.
X.
NOTAS DEL CURSO DE PROBABILIDAD II 2010/2011 25
Demostracion. Demostramos 1. Sea > 0. Entonces
P([X
k
c[ > )
P(X
1
k
> c
1
+ X
n
k
> c
n
+ X
1
k
< c X
n
k
< c )
= 1 P(X
1
k
c
1
+, . . . , X
n
k
c
n
+, X
1
k
c , . . . , X
n
k
c )
1
(c1,c1+](cn,cn+]
F
X
k
.
Por la convergencia en distribucion a una costante,
lm
k

(c1,c1+](cn,cn+]
F
X
k
=
(c1,c1+](cn,cn+]
F
c
,
y
(c1,c1+](cn,cn+]
F
c
= 1. Entonces, lm
k
P([X
k
c[ > ) = 0, y sigue
el resultado.
Demostramos 2. Como X
n
P
X, ya demostramos que entonces existe una sub-
sucesion X
kn
c.s.
X. Pues, como E([X
n
[
q
) c, n N, tambien E([X[
q
) c.
Sea > 0. Tenemos que, por Jensen,
E([X
n
X[
p
)
E([X
n
X[
p

{|XnX|}
) +E([X
n
X[
p

{|XnX|<}
)
E([X
n
X[
q
)
p/q
P([X
n
X[ )
1p/q
+
p
2
p/q
c
p
P([X
n
X[ )
1p/q
+
p
.
Como 1 p/q > 0, la convergencia en probabilidad implica que
lm
n
E([X
n
X[
p
)
p
,
y sigue el resultado por 0.
Demostramos 3. Sea > 0. Por Borel-Cantelli, P(

n=1

k=n
[X
k
X[ ) = 0.
Entonces,
P(

n=1

k=n
[X
k
X[ < ) = 1.
Como [X
n
() X() =

m=1

n=1

k=n
[X
k
X[ < 1/m, y la in-
tereseccion de conjuntos numerables de probabilidad 1 tiene probabilidad 1, sigue
el resultado.
Ya hemos visto que la convergencia casi seguro no implica la convergencia en
media de orden 1 (y entonces tampoco de orden p, p > 1), y tampoco vale la
implicacion en el otro sentido. Pero vale un resultado por subsucesiones:
Proposicion 5.2.4. Si X
n

nN
y X son vectores aleatorios tales que
X
n
1
X,
entonces existe una subsucesion X
kn

nN
X
n

nN
tal que X
kn
c.s.
X.
Demostracion. Sea > 0. Para todos n N, exists k
n
N tal que
E([X
kn
X[) 1/2
n
.
Entonces, por Markov,

n=1
P([X
kn
X[ )

n=1
E([X
kn
X[)/ 1/ < .
El resultado sigue por el punto 3. del lema arriba.
La convergencia casi segura implica pero la convergencia en media de orden 1
bajo la hipotesis que E([X
n
[) E([X[):
26 ALESSANDRO FERRIERO
Teorema 5.2.5 (Schee). Sea X
n

nN
una sucesion de vectores aleatorios inte-
grables tales que X
n
c.s.
X. Entonces, E([X
n
X[
p
) 0 si y solo si E([X
n
[
p
)
E([X[
p
), p 1.
Demostracion. Si E([X
n
X[
p
) 0, entonces [E([X
n
[
p
) E([X[
p
)[ 2
p1
E([X
n

X[
p
) 0.
En el otro sentido, sea 1 > > 0, por el teorema de convergencia dominada
aplicado a [[X
n
[
p
[X[
p
[
{|Xn|
p
(1)|X|
p
}

nN
y a [X[
p

{|Xn|
p
>(1)|X|
p
}

nN
y
como E([X
n
[
p
) E([X[
p
),
E([[X
n
[
p
[X[
p
[)
= E([[X
n
[
p
[X[
p
[
{|Xn|
p
(1)|X|
p
}
) +E([[X
n
[
p
[X[
p
[
{|Xn|
p
>(1)|X|
p
}
)
E([[X
n
[
p
[X[
p
[
{|Xn|
p
(1)|X|
p
}
)
+E([X
n
[
p

{|Xn|
p
>(1)|X|
p
}
) (1 )E([X[
p

{|Xn|
p
>(1)|X|
p
}
)
+E([X[
p

{|Xn|
p
>(1)|X|
p
}
)
E([[X
n
[
p
[X[
p
[
{|Xn|
p
(1)|X|
p
}
)
+E([X
n
[
p
) E([X[
p

{|Xn|
p
>(1)|X|
p
}
)
+2E([X[
p

{|Xn|
p
>(1)|X|
p
}
) 2E([X[
p
).
Como es es verdad para dotos 1 > > 0, sigue que E([[X
n
[
p
[X[
p
[) 0.
Ahora, por el teorema inverso del teorema de convergencia dominada, todas
la subsucesiones X
kn

nN
X
n

nN
, admiten una subsucesion X
hn

nN

X
kn

nN
tal que [X
hn
[
p
c.s.
[X[
p
y [X
hn
[
p
[Y [, n N, siendo E([Y [) < .
Ademas, por hipothesis, X
hn
c.s.
X. Entonces, como [X
hn
X[
p
2
p1
([Y [+[X[
p
),
para todos n N, donde E([[Y [ + [X[
p
[) < , por el teorema de convergencia
dominada,
lm
n
E([X
hn
X[
p
) = 0.
Como esto es cierto para toda subsucesiones X
kn

nN
X
n

nN
, sigue que
lm
n
E([X
n
X[
p
) = 0.
Sin la hipotesis E([X
n
[
p
) E([X[
p
) el resultato es falso. Se considere, por ejem-
plo, := [0, 1] y I
n
:= [0, 1/n]. Pues n
In

nN
converge casi seguro a 0 pero no
converge en media de orden 1 a 0.
Los dos fenomenos que diferencian la convergencia casi seguro y en media de
orden p son las oscilaciones y las concentraciones.
Si hay oscilaciones, entonces no hay convergencia casi seguro pero si se puede
haber convergencia en media. Ejemplo de la seccion 2.
Mientras, si hay concentraciones, no hay convergencia en media pero si se puede
haber convergencia casi segura. Ejemplo arriba.
Lema 5.2.6 (Teorema inverso del teorema de convergencia dominada). Sea f
n

nN
una subseci on de funciones integrables sobre (, , ) tales que
|f
n
f|
1
0.
Entonces, existe una funcion integrable g y una subsucesi on f
hn

nN
f
n

nN
tal que f
hn
c.s.
f y [f
hn
[ g, n N.
Demostracion. Ya demostramos que existe una subsucesion f
kn

nN
f
n

nN
tal que f
kn
c.s.
f. Para todos n N, existe h
n
k
n
[n N tal que
|f
hn
f|
1
1/2
n
.
NOTAS DEL CURSO DE PROBABILIDAD II 2010/2011 27
Sea
g := [f[ +

n=1
[f
hn
f[.
Entonces, por denicion, g [f[ +[f
hn
f[ [f
hn
[, n N, y
|g|
1
|f|
1
+

n=1
|f
hn
f|
1
|f|
1
+

n=1
1/2
n
|f|
1
+ 1.
Sigue el resultado.
6. Leyes de los grandes n umeros
La leyes de los grandes n umeros tienen como objeto la convergencia de la sucesion
S
n
/n
nN
, S
n
:=
n

k=1
X
k
,
es decir, la sucesion de las medias de las primeras n variables aleatorias. Las leyes
debiles tratan la convergencia en probabilidad mientras las leyes fuertes tratan la
convergencia casi segura.
6.1. Leyes debiles. Dos variables aleatorias X, Y se dicen no correladas si tiene
correlacion Corr(X, Y ) = 0.
Teorema 6.1.1 (Ley debil de Chebichev). Si X
n

nN
es un sucesion de variables
aleatorias no correladas y tal que E([X
n
[
2
) < c, n N, entonces
S
n
E(S
n
)
n
2
0.
Demostracion. Por Jensen, E([X
k
[) E([X
k
[
2
)
1/2
c
1/2
, k N. Como [E(X
k
)[
E([X
k
[), y como X
k

kN
son no correladas,
E([S
n
E(S
n
)[
2
) = E([

n
k=1
[X
k
E(X
k
)][
2
)
=

n
k=1
E([X
k
E(X
k
)[
2
) =

n
k=1
[E([X
k
[
2
) E(X
k
)
2
] nc.
Entonces,
E([S
n
E(S
n
)[
2
/n
2
) c/n 0, n 0
y sigue el resultado.
Como la convergencia en media de orden p, p 1, implica la convergencia en
probabilidad, y la convergencia casi segura por una subsucesion, por la ley debil de
Chebichev, [S
n
E(S
n
)]/n
P
0 y existe k
n

nN
N : [S
kn
E(S
kn
)]/k
n
c.s.
0
Ademas, como la convergencia en probabilidad implica la convergencia en distribu-
cion, entonces [S
n
E(S
n
)]/n
d
0.
En realidad bajo las mismas hypothesis de la ley debil de Chebichev se puede
demostrar la convergencia casi segura de [S
n
E(S
n
)]/n, es decir una ley fuerte.
Teorema 6.1.2 (Ley fuerte de Rajchman). Si X
n

nN
es un sucesion de variables
aleatorias no correladas y tal que E([X
n
[
2
) < c, n N, entonces
S
n
E(S
n
)
n
c.s.
0.
28 ALESSANDRO FERRIERO
Demostracion. Sea > 0. Por la desigualdad de Chebichev y la desiguldad de-
mostrada en la ley debil de Chebichev,
P([S
n
2 E(S
n
2)[ n
2
) E([S
n
2 E(S
n
2)[
2
)/(n
2
)
2
c/(n)
2
.
Entonces,

n=1
P([S
n
2 E(S
n
2)[ n
2
)

n=1
c/(n)
2
< ,
y, por el punto 3. del lema 5.2.3,
S
n
2 E(S
n
2)
n
2
c.s.
0.
Sea ahora, para todos n N,
D
n
:= max
n
2
k<(n+1)
2
[S
k
E(S
k
)S
n
2 +E(S
n
2)[ = max
n
2
<k<(n+1)
2

i=n
2
+1
[X
i
E(X
i
)]

.
Entonces, como max[a
1
[, . . . , [a
m
[
_
a
2
1
+ +a
2
m
,
E([D
n
[
2
)
n
2
+2n

k=n
2
+1
k

i=n
2
+1
E([X
i
E(X
i
)[
2
) 2n
n
2
+2n

i=n
2
+1
E([X
i
E(X
i
)[
2
) 4n
2
c,
y, por la desigualdad de Chebichev, para todos > 0, P(D
n
n
2
) 4c/(n)
2
.
Entonces, por el punto 3. del lema 5.2.3,
D
n
n
2
c.s.
0.
Entonces, para k = n
2
, . . . , (n + 1)
2
1, para todos n N,
[S
k
E(S
k
)[
k

[S
n
2 E(S
n
2)[ +D
n
n
2
,
y sigue el resultado.
En el seguiente teorema, relajamos la hypothesis sobre X
n

nN
, es decir no
pedimos mas que el segundo momento de las X
n
sea uniformemente acotado. En
campio, pedimos que las X
n
sean independientes (que es mas que no correladas) y
que tengan la misma distribucion.
Teorema 6.1.3 (Ley debil de Khintchine). Si X
n

nN
es un sucesion de vari-
ables aleatorios independientes por parejas, integrables y identicamente distribuidas,
entonces
S
n
E(S
n
)
n
P
0.
O, de forma equivalente, S
n
/n
P
E(X
1
).
Demostracion. Se note que E(S
n
) = nE(X
1
). Entonces, [S
n
E(S
n
)]/n = S
n
/n
E(X
1
) y
[S
n
E(S
n
)]/n
P
0 S
n
/n
P
E(X
1
).
Sea k N y X
k
n
:= X
n

{|Xn|k}
, Y
k
n
:= X
n

{|Xn|>k}
, n N. Por Jensen,
E([S
n
/n E(X
1
)[) = E([(1/n)

n
i=1
X
k
i
+ (1/n)

n
i=1
Y
k
i
E(X
1
)[)
E([(1/n)

n
i=1
X
k
i
E(X
k
1
)[
2
)
1/2
+E([(1/n)

n
i=1
Y
k
i
E(X
1
) +E(X
k
1
)[)
E([(1/n)

n
i=1
X
k
i
E(X
k
1
)[
2
)
1/2
+ 2E([Y
k
1
[).
NOTAS DEL CURSO DE PROBABILIDAD II 2010/2011 29
Como X
k
n

nN
es una sucesion de v.a. no correladas y tal que E([X
k
n
[
2
) k
2
,
n N, por la ley debil de Chebichev,
lm
n
E([(1/n)
n

i=1
X
k
i
E(X
k
1
)[
2
)
1/2
= 0.
Entonces, para todos k N,
lmsup
n
E([S
n
/n E(X
1
)[) 2E([Y
k
1
[).
Como, por la integrabilidad de X
1
, lm
k
E([Y
k
1
[) 0, la desigualdad de arriba
implica que
0 lm
n
E([S
n
/n E(X
1
)[) lmsup
n
E([S
n
/n E(X
1
)[) = 0.
Sigue el resultado porque la convergenca en media de orden 1 implica la conver-
gencia en probabilidad.
6.2. Teoremas de Kolmogorov.
Teorema 6.2.1 (Desigualdad de Kolmogorov). Sea X
n

nN
una sucesi on de vari-
ables aleatorios independientes tal que E(X
n
) = 0, E(X
2
n
) < , n N. Entonces,
para todos > 0,
P( m ax
1in
[S
i
[ )
n

i=1
E(X
2
i
)/
2
.
Demostracion. Sean E
i
:= [S
1
[ < , . . . , [S
i1
[ < , [S
i
[ , i = 1, . . . , n. En-
tonces,
max
1in
[S
i
[ =
n
i=1
E
i
.
Por Chebichev, y por la independencia de S
n
S
i
con S
i

Ei
P(E
i
) E(S
2
i

Ei
)/
2
E([S
2
i
+ (S
n
S
i
)
2
]
Ei
)/
2
= E([S
2
i
+ 2S
i
(S
n
S
i
) + (S
n
S
i
)
2
]
Ei
)/
2
= E(S
2
n

Ei
)/
2
.
Entonces,
P( max
1in
[S
i
[ )
n

i=1
E(S
2
n

Ei
)/
2
= E(S
2
n

n
i=1
Ei
)/
2
E(S
2
n
)/
2
.
Como E(S
2
n
) =

n
i=1
E(X
2
i
), sigue el resultado.
Se note que si cambiamos max
1in
[S
i
[ con [S
n
[, por la hypothesis de indepen-
dencia, la desigualdad del enunciado sera simplemente la desigualdad de Chebichev.
Por ejemplo, si las X
i
son no negativas, entonces la desigualdad del enunciado es
simplemente la desigualdad de Chebichev.
Teorema 6.2.2. Sea X
n

nN
una sucesion de variables aleatorias independientes.
Entonces,

n=1
E([X
n
[
2
) <

n=1
[X
n
E(X
n
)] converge c.s.
30 ALESSANDRO FERRIERO
Demostracion. Por la desigualdad de Kolmogorov, para todos > 0 y k N,
P( max
kik+n

j=k
[X
j
E(X
j
)]

)
k+n

j=k
E([X
j
[
2
)/
2

j=k
E([X
j
[
2
)/
2
.
Entonces, para todos k N,
P(sup
ik

i
j=k
[X
j
E(X
j
)]

> )
sup
nN
P(max
kik+n

i
j=k
[X
j
E(X
j
)]

j=k
E([X
j
[
2
)/
2
,
y entonces
P(nf
kN
sup
ik

i
j=k
[X
j
E(X
j
)]

> )
P(sup
ik

i
j=k
[X
j
E(X
j
)]

> )

j=k
E([X
j
[
2
)/
2
.
Como la desigualdad es cierta para todos k N y como la serie

n=1
E([X
n
[
2
) < ,
sigue que, para todos > 0,
P(nf
kN
sup
ik

j=k
[X
j
E(X
j
)]

> ) nf
kN

j=k
E([X
j
[
2
)/
2
= 0.
Entonces,
nf
kN
sup
ik

j=k
[X
j
E(X
j
)]

c.s.
= 0,
y pues

k
n=1
[X
n
E(X
n
)]
kN
es una sucesion de Cauchy para casi todos puntos
y entonces

n=1
[X
n
E(X
n
)] converge c.s.
Ahora demostramos un lema sobre la convergencia de series de n umeros que se
usa en la demostracion de la ley fuerte de Kolmogorov.
Lema 6.2.3 (Kronecker). Sea x
n

nN
R. Si

n=1
x
n
/n converge, entonces
1
n
n

i=1
x
i
0.
Demostracion. Sea u
n
:=

n
i=1
x
i
/i y u

:= lm
n
u
n
, u
0
:= 0. Entonces,
n

i=1
x
i
=
n

i=1
i(u
i
u
i1
) = nu
n

n

i=1
u
i1
Sea > 0 y N N tal que u
k
u

, k N. Entonces,
lminf
n
1
n
n

i=1
u
i1
lminf
n
_
1
n
N

i=1
u
i1
+
n N
n
(u

)
_
0 +u

.
Como eso es verdad para todos > 0, sigue que lminf
n
(1/n)

n
i=1
u
i1
u

.
De forma parecida se puede demostrtar que lmsup
n
(1/n)

n
i=1
u
i1
u

y
entonces que
lm
n
1
n
n

i=1
u
i1
= u

.
NOTAS DEL CURSO DE PROBABILIDAD II 2010/2011 31
Por la primera igualdad de la demostracion, sique que
1
n
n

i=1
x
i
= u
n

1
n
n

i=1
u
i1
u

= 0.
Sigue el resultado.
Se note que si

n=1
x
n
converge, entonces x
n
0. Ademas si x
n
0 entonces la
sucesion de las medias (1/n)

n
i=1
x
i

nN
converge a 0, es decir x
n

nN
converge
segundo Cesaro a 0 (esta implicacion esta demostrada en el lema de Kronecker).
Entonces,

n=1
x
n
converge
1
n
n

i=1
x
i
0.
Lo que se pruebe en en el lema de Kronecker es algo de mas fuerte porque si

n=1
x
n
converge, entonces tambien

n=1
x
n
/n converge. Pero la implicacion contraria es
falsa: por ejemplo, x
n
:= 1/n.
Por el teorema 6.2.2 y el lema de Kronecker, sigue que

n=1
E([X
n
[
2
)
n
2
<
S
n
E(S
n
)
n
c.s.
0,
donde X
n

nN
son variables aleatorias independientes.
Teorema 6.2.4 (Ley fuerte de Kolmogorov). Sea X
n

nN
una sucesion de vari-
ables aleatorias independientes y identicamente distribuidas. Entonces,
1. E([X
1
[) < [S
n
E(S
n
)]/n
c.s.
0;
2. E([X
1
[) = lmsup
n
[S
n
[/n
c.s.
= .
Demostracion. Demostramos 1. Sea Y
n
:= X
n

{|Xn|n}
, n N. Entonces, Y
n

nN
son independientes y, usando que las X
n

nN
son identicamente distribuidas,

n=1
E([Y
n
E(Y
n
)[
2
)/n
2

n=1
E([Y
n
[
2
)/n
2
=

n=1
E([X
n
[
2

{|Xn|n}
)/n
2
=

n=1
E([X
1
[
2

{|X1|n}
)/n
2
=

n=1

n
i=1
E([X
1
[
2

{i1<|X1|i}
)/n
2
=

i=1

n=i
E([X
1
[
2

{i1<|X1|i}
)/n
2

i=1
E([X
1
[
{i1<|X1|i}
)i

n=i
1/n
2
2E([X
1
[) < ,
como, i N,
i

n=i
1/n
2
i
_

i
mn1, (x 1)
2
dx = 2
{1}
(i) +i(i 1)
1

N\{1}
(i) 2.
Entonces, por el teorema 6.2.2 y el lema de Kronecker, sigue que
1
n
n

i=1
[Y
i
E(Y
i
)]
c.s.
0.
Ahora, usando que las X
n

nN
son identicamente distribuidas,
E(Y
n
) = E(X
n

{|Xn|n}
) = E(X
1

{|X1|n}
) E(X
1
), n ,
32 ALESSANDRO FERRIERO
y tambien

n=1
P(Y
n
,= X
n
) =

n=1
P([X
n
[ > n)
=

n=1
P([X
1
[ > n) =

n=1

i=n
P(i + 1 [X
1
[ > i)
=

i=1

i
n=1
P(i + 1 [X
1
[ > i) =

i=1
iP(i + 1 [X
1
[ > i)

i=1
E([X
1
[
{i+1|X1|>i}
) = E([X
1
[
{|X1|>1}
) E([X
1
[) < .
Entonces, Por Borel-Cantelli, P(lmsup
n
X
n
,= Y
n
) = 0. Es decir, pasando al
complementar, para casi todos , existe n N tal que X
k
() = Y
k
(), k n.
De eso sigue que
lm
n
1
n
n

i=1
Y
n
c.s.
= lm
n
1
n
n

i=1
X
n
.
Entonces, como E(Y
n
) E(X
1
), tambien E(Y
n
) converge a E(X
1
) segundo Cesaro,
es decir (1/n)

n
i=1
E(Y
i
) E(X
1
), y
lm
n
S
n
E(S
n
)
n
= lm
n
S
n
n
E(X
1
)
c.s.
= lm
n
1
n
n

i=1
[Y
i
E(Y
i
)]
c.s.
= 0
Esto demuestra 1.
Demostramos 2. Sea c > 0. Como X
n

nN
son identicamente distribuidas,

n=1
P([X
n
[ > cn)
=

n=1
P([X
1
[ > cn) =

n=1

i=n
P(c(i + 1) [X
1
[ > ci)
=

i=1

i
n=1
P(c(i + 1) [X
1
[ > ci)
=

i=1
P(c(i + 1) [X
1
[ > ci)i
c
1

i=1
E([X
1
[
{c(i+1)|X1|>ci}
)
= c
1
E([X
1
[
{|X1|>c}
) c
1
[E([X
1
[) c] = .
Como X
n

nN
son independitentes, por el segundo lema de Borel-Cantelli,
P(lmsup
n
[X
n
[ > cn) = 1.
Es decir, para todos Z
c
, P(Z
c
) = 0, existe k
n

nN
N tal que
[S
kn
() S
kn1
()[ = [X
kn
()[ > ck
n
, n N.
Entonces o [S
kn
()[ > ck
n
/2 o [S
kn1
()[ > ck
n
/2 > c(k
n1
)/2. En ambos caso,
sigue que lmsup
n
[S
n
()[/n > c. Como esto es verdad para todos c N, sigue
que para todos Z, Z :=
cN
Z
c
, P(Z) = 0,
lmsup
n
[S
n
()[/n = .
Esto demuestra 2.
7. Funcion caracterstica
7.1. Propiedades basicas.
Denicion 7.1.1. Sea X una v.a. sobre (, , P) con funcion de distribucion F.
Se dene la funcion caracterstica de X la funcion : R C,
(t) := E(e
itX
) =
_

e
itX
dP =
_
R
e
itx
dF(x) =
_
R
e
itx
d
F
(x).
NOTAS DEL CURSO DE PROBABILIDAD II 2010/2011 33
Es decir, es la trasformada de Fourier-Stieltjes de la medida de Lebesgue-Stieltjes

F
asociada a F.
La parte real y la parte imaginaria de son respectivamente
1()(t) =
_
R
cos(tx)d
F
(x), ()(t) =
_
R
sin(tx)d
F
(x).
La funcion caracterstica de una distribucion F satisfache las propiedades
siguientes:
[[ 1, (0) = 1, (t) = (t), t R;
es uniformemente continua sobre R; de hecho,
[(t +) (t)[
_
R
[e
itx
[[e
ix
1[d
F
(x) =
_
R
[e
ix
1[d
F
(x) 0,
por convergencia dominada, como lm
0
[e
ix
1[
c.s.
= 0 y [e
ix
1[ 2,
x R.
para a, b R, la funcion caracterstica de aX +b,
aX+b
, es igual a

aX+b
(t) =
X
(at)e
itb
y
X
(t) =
X
(t), t R;
para
n

nN
[0, ),

n=1

n
= 1, la funcion

n=1

n
es la funcion
caracterstica de S

n=1

n
F
n
;
si
1
, . . . ,
n
son funciones caractersticas respectivamente de las v.a. in-
dependientes X
1
, . . . , X
n
, entonces

n
i=1

i
es la funcion caracterstica de
X
1
+ +X
n
; de hecho, t R

X1++Xn
(t) = E(e
it(X1++Xn)
)
= E(e
itX1
e
itXn
) = E(e
itX1
) E(e
itXn
) =

n
i=1

i
(t).
Denicion 7.1.2. Se dene la convolucion de dos funciones de distribucion como
F
1
F
2
(x) =
_
R
F
1
(x y)dF
2
(y), x R.
Se puede vericar que la convolucion es conmutativa (por integracion por parte)
y asociativa. Ademas, F
1
F
2
es una distribucion.
Si F
1
y F
2
tienen densidad f
1
, f
2
, entonces F
1
F
2
tiene densidad igual a f
1
f
2
,
f
1
f
2
(x) =
_
R
f
1
(x y)f
2
(y)dy, x R.
Se note que, para a, b R,

F1F2
((a, b]) =
_
R
[F
1
(b y) F
1
(a y)]dF
2
(y),
y entonces, para cualquier g integrables con respecto de
F1F2
,
_
R
g(x)d
F1F2
(x) =
_
R
_
R
g(x)dF
1
(x y)dF
2
(y) =
_
R
_
R
g(z +y)dF
1
(z)dF
2
(y).
Proposicion 7.1.3. Si X
1
y X
2
son dos v.a. independientes, entonces
F
X1+X2
= F
X1
F
X2
.
34 ALESSANDRO FERRIERO
Demostracion. Sea x R. Por Fubini y por la independencia de X
1
y X
2
,
F
X1+X2
(x) = P(X
1
+X
2
x) =
_
R
2

{z+yx}
(z, y)dF
(X1,X2)
(z, y)
=
_
R
_
R

{z+yx}
(z, y)dF
X1
(z)dF
X2
(y) =
_
R
_
xy

dF
X1
(z)dF
X2
(y).
Sigue el resultado.
De la proposicion y por el hecho que la funcion caracterstica de v.a. indepen-
dientes es el producto de las funciones caractersticas, sigue que la funcion carac-
terstica de F
1
F
2
es igual al producto de las funciones caractersticas, i.e.

F1F2
=
F1

F2
.
Teorema 7.1.4 (Formula de inversion). Sea F una distribuci on sobre R. Entonces,
para x < y R,

F
((x, y)) +

F
(x)
2
+

F
(y)
2
= lm
T
1
2
_
T
T
e
itx
e
ity
it
(t)dt.
Demostracion. Se note que

e
it(zx)
e
it(zy)
it

_
y
x
e
itz
dz

[x y[
y
_
R
_
T
T
[x y[dtdF(z) 2T[x y[.
Entonces, por Tonelli,
1
2
_
T
T
e
itx
e
ity
it
(t)dt =
1
2
_
T
T
e
itx
e
ity
it
_
R
e
itz
dF(z)dt
=
_
R
_
T
T
e
it(zx)
e
it(zy)
2it
dtdF(z) =
_
R
_
T
0
sin(t(z x)) sin(t(z y))
t
dtdF(z).
Por otro lado, por Tonelli y por integracion por partes,
_

0
sin(t)
t
dt =
_

0
sin(t)
_

0
e
tx
dxdt =
_

0
_

0
e
tx
sin(t)dtdx
=
_

0

2
+x
2
dx = sgn()[arctan(x)]
x=
x=0
= sgn()

2
,
donde sgn() =
(0,)
() +
(,0)
(), y, para todos x 0,
0 sgn()
_
x
0
sin(t)
t
dt =
_
x
0
sin t
t
dt
=
nx

i=1
(1)
n1
_
n
(n1)
[ sin t[
t
dt + (1)
nx
_
x
nx
[ sin t[
t
dt
_

0
sin t
t
dt
como
_
n
(n1)
([ sin t[/t)dt decrecen con n.
Entonces, por convergencia dominada,
lm
T
1
2
_
T
T
e
itx
e
ity
it
(t)dt =
_
R
sgn(z x) sgn(z y)
2
dF(z)
=

F
(x)
2
+
F
((x, y)) +

F
(y)
2
.
Sigue el resultado.
NOTAS DEL CURSO DE PROBABILIDAD II 2010/2011 35
Por la formula de inversion, si dos distribuciones F
1
y F
2
son tales que
F1
=
F2
,
entonces F
1
= F
2
.
7.2. Aplicaciones. Ejemplos de funciones caractersticas son los siguientes:
si F =
x
, entonces (t) = e
ixt
;
si F = B(1, p), entonces (t) = 1 p +pe
it
;
si F = B(n, p), entonces (t) = (1 p +pe
it
)
n
;
si F = P(), entonces (t) = e
(e
it
1)
;
si F = Exp(), entonces (t) = 1/(1 it/);
si F = U(a, a), entonces (t) = sin(at)/(at);
si F = N(, ), entonces (t) = e
it
2
t
2
/2
;
si F = Cauchy(, ), entonces (t) = e
it|t|
;
si F = (, s), entonces (t) = 1/(1 it/)
s
.
La funcion caracterstica de una distribucion F
X
con momentos nitos hasta el
orden k se puede derivar con continuidad hasta el orden k sobre R. Ademas,
E(X
k
) = (i)
k
d
X
dt
k
(0).
De hecho, por convergencia dominada
1
,
d
X
dt
k
(t) =
d
dt
k
_
R
e
itx
dF
X
(x) = i
k
_
R
x
k
e
itx
dF
X
(x) = i
k
E(X
k
e
itX
),
y entonces
d
X
dt
k
(0) = i
k
_
R
x
k
dF
X
(x) = i
k
E(X
k
).
7.3. Teorema de continuidad de Levy. Para demostrar el teorema de con-
tinuidad de Levy, usamos un lema de Helly-Bray sobre la compacidad en los espacio
de distribuciones.
Lema 7.3.1 (Helly-Bray). Sea F
n

nN
una sucesion de distribuciones sobre R.
Entonces, existe una funcion continua a la derecha, no decreciente F y tal que
F : R [0, 1], y una subsucesion F
kn

nN
F
n

nN
tal que
lm
n
F
kn
(x) = F(x),
en todos puntos x R de continuidad por F.
Demostracion. Para demostrar el lema, usamos una tecnica clasica conocida como
construcion diagonal.
Sean Q = q
k

kN
los numeros racionales en R. La sucesion F
n
(q
1
)
nN
[0, 1]
es acotada. Entonces, existe un subsucesion F
k
1
n
(q
1
)
nN
F
n
(q
1
)
nN
tal que
lm
n
F
k
1
n
(q
1
) = H(q
1
).
De manera similar, la sucesion F
k
1
n
(q
2
)
nN
tiene una subsucesion F
k
2
n
(q
2
)
nN

F
k
1
n
(q
2
)
nN
tal que
lm
n
F
k
2
n
(q
2
) = H(q
2
).
1
Como |x|
k1
|e
itx
||e
ix
1|/ 2|x|
k
, para todos 1, x R, y
lm
0
i
k1
x
k1
[e
i(t+)x
e
itx
]/ = i
k
x
k
e
itx
.
36 ALESSANDRO FERRIERO
Iterando el procedimiento, obtenemos que F
k
n
n

nN
es una subsucesion de F
n

nN
tal que
lm
n
F
k
n
n
(q) = H(q),
para todos q Q. Claramente, 0 H 1 y H es no decreciente. Para x R,
F(x) := lm
qx
+
H(q).
Claramente, 0 F 1, F es no decreciente y es continua a la derecha. Se puede
vericar que vale el lema.
La funcion F en el lema de Helly-Bray es casi una funcion de distribucion sobre
R. Lo unico que le falta para ser una distribucion es que lm
x
F(x) = 0,
lm
x
F(x) = 1.
Para garantizar que la F en el lema de Helly-Bray sea una funcion de distribucion
es suciente imponer la seguiente condicion sobre F
n

nN
: para todos > 0, existe
M > 0 tal que, F
n
(M) F
n
(M) > 1 , n N.
Teorema 7.3.2 (Levy). Sea X
n

nN
una sucesion de v.a. sobre (R; B(R)).
Entonces, X
n
converge en distribuci on a X si y solo si
Xn
converge puntual-
mente a una funci on continua en 0. Entonces, es la funcion caracterstica de
X.
Demostracion. Si X
n
converge en distribucion a X, entonces, como la convergencia
en distribucion es equivalente a la convergencia debil de las probabilidades asoci-
adas, si elegimos f
t
C
b
(R), f
t
(x) := e
itx
, x R, t R, sigue que
lm
n

Xn
k
(t) = lm
n
E(e
itX
kn
) = E(e
itX
) =
X
(t),
y como
X
es uniformemente continua es en particular continua en 0. Esto demues-
tra la implicacion del enunciado en un sentido.
Supongamos ahora que
Xn
converge puntualmente a una funcion continua
en 0.
Supongamos ademas que F
Xn

nN
satisfache la hyp`othesis de arriba. Es decir,
para todos > 0, existe M > 0 tal que, F
Xn
(M) F
Xn
(M) > 1 , n
N. Entonces, para el lema de Helly-Bray, existe una subsucesion F
X
kn

nN

F
Xn

nN
y una distribucion F tal que
F
X
kn
(x) F(x),
para todos puntos x R de continuidad por F. Sea X es una v.a. con distribucion
F
X
= F (existe siempre por el teorema de representacion). Otra vez, como la con-
vergencia en distribucion es equivalente a la convergencia debil de las probabilidades
asociadas, si elegimos f
t
C
b
(R), f
t
(x) := e
itx
, t R, sigue que
lm
n

X
kn
(t) = lm
n
E(e
itX
kn
) = E(e
itX
) =
X
(t).
Por hypothesis,
X
= .
Supongamos ahora por absurdo que X
n
no converge a X en distribucion. En-
tonces, existen un punto x R de continuidad por F
X
, una subsucesion X
hn

nN

X
n

nN
y > 0 tal que
[F
X
hn
(x) F
X
(x)[ , n N.
Por el lema de Helly-Barry, existe una subsucesion de F
X
hn

nN
que converge a
una distribucon

F y tambien (como arriba)
Xn
k

X
puntualmente. Entonces,
NOTAS DEL CURSO DE PROBABILIDAD II 2010/2011 37

X
= =
X
. Como la funcion caracterstica esta denida de forma unica a partir
de la funcion de distribucion, tiene que ser F
X
= F
X
. Esto contradice [F
X
hn
(x)
F
X
(x)[ , n N. Sigue el resultado si demostramos que, para todos > 0, existe
M > 0 tal que, F
Xn
(M) F
Xn
(M) > 1 , n N.
Sea > 0. Como

Xn
(t) +
Xn
(t) =
_
R
2 cos(tx)dF
Xn
(x)
es real y acotada por 2 sobre R, entonces (t) + (t) es tambien real y acotada
por 2 sobre R. Como por hypothesis es continua en 0, existe > 0 tal que
[(0) (t)[ = [1 (t)[ /4, [t[ . Entonces,
1

_

0
[2 (t) (t)]dt /2.
Por el teorema de convergencia dominada, existe N N tal que n N,
1

_

0
[2
Xn
(t)
Xn
(t)]dt .
Entonces, para todos n N,

1

_
R
(1 e
itx
)dF
Xn
(x)dt =
1

_
R
_

(1 e
itx
)dtdF
Xn
(x)
= 2
_
R
[1 sin(x)/(x)]dF
Xn
(x) 2
_
{|x|2/}
[1 1/[x[]dF
Xn
(x)

_
{|x|2/}
dF
Xn
(x) = P
Xn
([x[ 2/).
Sigue el resultado.
8. Teorema central del lmite
8.1. Teorema de Levy. El teorem central del lmite es uno de los resultados
mas importante de las matematicas. El objeto del teroema central del lmite es,
como en le caso de las leyes de los grandes n umeros, es la sucesion de las sumas
parciales de v.a.
S
n
:=
n

i=1
X
i
.
Por la leyes de los grandes n umeros (debil o fuerte), ya sabemos que, bajo algunas
condiciones sobre X
n

nN
,
[S
n
E(S
n
)]/n
P
0,
y entonces, si E(X
i
) = 0,
S
n
/n
d

[0,)
.
Que occurre si dividimos S
n
por una sucesion que diverge a innito mas lenta-
mente que n?
Teorema 8.1.1 (Levy). Sea X
n

nN
una sucesi on de v.a. independientes y iden-
ticamente distribuidas con E(X
1
) = 0 y
2
:= E([X
1
[
2
) < . Entonces,
1

n
n

i=1
X
i
d
N(0, ).
38 ALESSANDRO FERRIERO
Demostracion. Sea t R. Entonces,

X1
(t) =
_
R
e
itx
dF
X1
(x) =
_
R

k=0
(itx)
k
k!
dF
X1
(x)
= 1
t
2

2
2
+
_
R

k=3
(itx)
k
k!
dF
X1
(x) = 1
t
2

2
2
+o(t
2
),
donde o(t
2
) es una funcion de t tal que [o(t
2
)[/t
2
0, t 0. De hecho,

k=3
(itx)
k
k!

_
tx
0
i

k=2
(iy)
k
k!
dy

_
tx
0
i
_
y
0
i

k=1
(iz)
k
k!
dzdy

_
tx
0
i
_
y
0
i
_
z
0
ie
iw
dwdzdy

_
tx
0
_
y
0

_
z
0
ie
iw
dw

dzdy

_
tx
0
_
y
0
mn2, [z[dzdy
_
tx
0
mn2[y[, [y[
2
/2dy
mn[tx[
2
, [tx[
3
/6 t
2
mn[x[
2
, [t[[x[
3
/6.
Sea S
n
:=

n
i=1
X
i
. Entonces,

Sn/(

n)
(t) =
Sn
(t/(

n)) = [
X1
(t/(

n))]
n
=
_
1
t
2
2n
+o(1/n)
_
n
e
t
2
/2
.
De hecho, para todos n t
2
y [o(1/n)[ 1/2, se tiene que [1 t
2
/(2n)[ 1 y,
como (a
n
b
n
) = (a b)(a
n1
+a
n2
b + +b
n1
), entonces

_
1
t
2
2n
+o(1/n)
_
n
e
t
2
/2

[1
t
2
2n
+o(1/n) e
t
2
/(2n)
[n = [o(1/n)[n 0.
Como (t) = e
t
2
/2
es la funcion caracterstica de la distribucion normal N(0, 1),
el resultado sigue por el teorema de continuidad de Levy.
8.2. Teorema de Lindeberg-Feller. El teorema central de Lindeberg-Feller no
asume que las v.a. sean identicamente distribuidas.
Teorema 8.2.1 (Lindeberg-Feller). Sea X
n,m

n,mN
una sucesion de v.a. inde-
pendientes tal que E(X
n,m
) = 0. Supongamos que
1. lm
n

n
m=1
E([X
n,m
[
2
) =
2
;
2. para todos > 0, lm
n

n
m=1
E([X
n,m
[
2

{|Xn,m|}
) = 0.
Entonces,
n

m=1
X
n,m
d
N(0, ).
Para ver que el teorema lmite central de Levy es un caso particular del teorema
de Lindeberg-Feller, sea Y
n

nN
una sucesion de v.a. independientes y identica-
mente distribuidas con E(Y
1
) = 0 y
2
:= E([Y
1
[
2
) < . Consideramos X
n,m
=
Y
m
/

n. Entonces,
n

m=1
E([X
n,m
[
2
) =
n

m=1
E([Y
1
[
2
/n) =
2
, n N,
NOTAS DEL CURSO DE PROBABILIDAD II 2010/2011 39
y
n

m=1
E([X
n,m
[
2

{|Xn,m|}
) =
n

m=1
E([Y
1
[
2

{|Y1|

n}
/n) = E([Y
1
[
2

{|Y1|

n}
) 0.
Entonces, por el teorema de Lindeberg-Feller,
n

m=1
X
n,m
=
1

n
n

m=1
Y
m
d
N(0, ),
que es el mismo resultado del teorema central del lmite de Levy.
El teorema de Lindeberg-Feller dice que la suma de muchos efectos independi-
entes esta distribuido aproximadamente come una normal.
9. Esperanza condicionada y martingalas
9.1. Probabilidad y esperanza condicionada. Sea (, , P) un espacio de
probabilidad y sean E, F dos eventos en .
Se dene la probabilidad condicionada de E condicionada F, i.e. E[F, P(F) >
0, como la probabilidad
P(E[F) :=
P(E F)
P(F)
.
La probabilidad de E condicionada F representa la probabilidad de ocurrencia del
evento E en presencia del evento F. En otras palabras, si ocurre el evento F, P(E[F)
es la probabilidad que ocurra tambien el evento E.
Si E y F son independientes, entonces es logico esperar que P(E[F) = P(E). Es
decir, la ocurrencia del evento F no afecta la ocurrencia del evento E. De hecho
as es:
P(E[F) =
P(E F)
P(F)
=
P(E)P(F)
P(F)
= P(E).
Se note que en general P(E[F) ,= P(F[E).
Fijado F , podemos cambiar la probabilidad P sobre (, ) por la probabil-
idad P
F
:= P([F), i.e.
P
F
(E) := P(E[F), E .
Es decir, miramos a cualquier evento E en presencia del evento F. Esto dene un
espacio de probabilidad (, , P
F
).
Ahora, si X es un vector aleatorio sobre (, ), E([X[) < , entonces denimos
la esperanza condicionada de X con respecto al evento F como
E(X[F) :=
_

XdP
F
=
1
P(F)
_
F
XdP = E(X
F
)/P(F).
Por ejemplo, cuando X =

n
i=1
a
i

Ei
es una v.a. simple, entonces E(X[F) no es
nada mas que
E(X[F) =
n

i=1
a
i
P
F
(E
i
) =
n

i=1
a
i
P(E
i
[F).
Ahora, si T es un sub -algebra de , puedo denir 2n medidas

i
(F) := E(X

i
[F)P(F), F T, i = 1, . . . , n.
40 ALESSANDRO FERRIERO
Si P(F) = 0, entonces

i
(F) := 0. Por el teorema de Radon-Nikodym, existen 2n
funciones no negativas T-medibles f

i
tales que

i
(F) =
_
F
Y

i
dP, i = 1, . . . , n.
Se dene entonces la esperanza condicionada de X con respecto a la -algebra
T como el vector aleatorio T-medible
E(X[T) := Y = (Y
+
1
Y

1
, . . . , Y
+
n
Y

n
).
Cuando X =

n
i=1
a
i

Ei
es una v.a. simple, entonces
(F) = (
+
1
(F)

1
(F), . . . ,
+
n
(F)

n
(F))
= E(X[F)P(F) =

n
i=1
a
i
P(E
i
F) = E(X
F
).
Es decir,
E(E(X[T)
F
) = E(X
F
), F T.
Usando la maquinaria estandar, se demuestra que esta igualdad es cierta para
cualquier v.a. X.
Denicion 9.1.1. Se dene la esperanza condicionada de X con respecto a la
-algebra T como el vector aleatorio T-medible Y = E(X[T) tal que
E(Y
F
) = E(X
F
), F T.
Se dene la esperanza condicionada de X con respecto al vector aleatorio Y
como el vector aleatorio (Y )-medible
E(X[Y ) := E(X[(Y )).
Si Y =

n
i=1
b
i

Fi
es una v.a. simple, entonces
E(X[Y )() = E(X[
n

i=1

Fi
()), .
De hecho, (Y ) = (F
1
, . . . , F
n
) y P(F) = 0, F (Y ) si y solo si F = .
Proposicion 9.1.2. Si X y Y son variables aleatorias tales que F
(X,Y )
tiene den-
sidad f
(X,Y )
, entonces
E(X[Y ) =
_
R
xf
X|Y
(x, Y )dx, f
X|Y
(x, y) :=
_
f
(X,Y )
(x, y)/f
Y
(y), f
Y
(y) ,= 0,
0, f
Y
(y) = 0.
Demostracion. Sean x, y R. Entonces,
P
{Y y}
(X x) = P(X x, Y y)/P(Y y) = F
(X,Y )
(x, y)/F
Y
(y)
y por Fubini
E(X[Y y)P(Y y) =
_
R
xdF
(X,Y )
(x, y) =
_
R
xd
_
y

F
(X,Y )
y
(x, z)dz
=
_
R
_
y

2
F
(X,Y )
yx
(x, z)dzdx =
_
y

_
R
xf
(X,Y )
(x, z)dxdz
=
_
y

_
R
xf
X|Y
(x, z)f
Y
(z)dxdz
Entonces, como las medidas

(F) :=
_
F
_
R

xf
X|Y
(x, Y ())dxdP(), F (Y ),
NOTAS DEL CURSO DE PROBABILIDAD II 2010/2011 41
coinciden respectivamente con

(F) = E(X

[F)P(F), F (Y ), sobre un -
sistema, y la densidades de

son Y

() :=
_
R

xf
X|Y
(x, Y ())dx, sigue que

y el resultado.
9.2. Propiedades basicas. Se note que la esperanza condizionada satisfache las
siguientes propiedades:
E(aX +bY [T)
c.s.
= aE(X[T) +bE(Y [T), a, b R;
si X
n

nN
es un sucesion de v.a. no negativas, X
n
c.s.
X, 0 X
n
X
n+1
,
n N, entonces E(X
n
[T)
c.s.
E(X[T);
de hecho, por el teorema de convergencia monotona, E(X
n
[F) E(X[F),
F T;
si X
n

nN
es un sucesion de v.a. 0 X
n
, n N, entonces
E(lminf
n
X
n
[T)
c.s.
lminf
n
E(X
n
[T);
sigue del lema de Fatou aplicado a E(X
n
[F), F T;
si X
n

nN
es un sucesion de v.a., X
n
P
X, [X
n
[ [Y [, n N, E([Y [) <
, entonces E(X
n
[T)
c.s.
E(X[T);
sigue del teorema de convergencia dominada aplicado a E(X
n
[F), F T;
si : R
n
R es una funcion convexa, E([(X)[) < , entonces
(E(X[T))
c.s.
E((X)[T);
sigue de la desigualdad de Jensen aplicada a E((X)[F), F T; como
corolario sigue que E([E(X[T)[
p
)
1/p
E([X[
p
)
1/p
, p 1;
E(E(X[T)) = E(X);
de hecho, E(E(X[T)
F
) = E(X
F
), F T;
si X es T-medible, entonces E(X[T)
c.s.
= X;
de hecho, E(Z
F
) = 0, F T, donde Z := E(X[T) X es T-medible.
Entonces, Z
c.s.
= 0;
si ( es una sub -algebra de T, entonces E(E(X[T)[()
c.s.
= E(X[();
de hecho, E(E(X[T)
G
) = E(X
G
), G ( T;
si X es independiente de T, entonces E(X[T)
c.s.
= E(X);
de hecho, P
F
= P, y entonces E(X[F) = E(X), F T;
si Z es T-medible, entonces E(ZX[T)
c.s.
= ZE(X[T);
de hecho, si X =

n
i=1
a
i

Ei
es simple, entonces
E(ZX[F) =

n
i=1
a
i
E(Z
Ei
[F) =

n
i=1
a
i
ZE(
Ei
[F E
i
)P(E
i
[F)
= Z

n
i=1
a
i
ZE(
Ei
[F E
i
)P(E
i
[F) = ZE(X[F).
9.3. Martingalas. Sea (, , P) un espacio de probabilidad.
Se llama ltracion una sucesion creciente
n

nN
se sub -algebras de , es
decir,

n

n+1
, n N.
Entonces, (, ,
n

nN
, P) es un espacio ltrado. Denimos tamiben

:= (

n=1

n
).
42 ALESSANDRO FERRIERO
La idea es que las informaciones disponibles en el tiempo n consisten en los
valores de X, para todas v.a. X medibles con respecto de
n
. Pues normalmente

n
= (W
1
, , W
n
),
donde W
n

nN
es un proceso stocastico discreto, es decir una sucesion de v.a.
Un proceso X
n

nN
es adaptado a la ltracion
n

nN
si X
n
es
n
medible,
para todos n N. En el caso
n
= (W
1
, , W
n
), entonces existe una funcion
boreliana f
n
: R
n
R
k
tal que X
n
= f
n
(W
1
, . . . , W
n
), n N.
Denicion 9.3.1. Un proceso X
n

nN
se llama martingala con respecto de
n

nN
si
1. X
n

nN
es adaptado a la ltracion
n

nN
;
2. E([X
n
[) < , n N;
3. E(X
n+1
[
n
)
c.s.
= X
n
, n N.
Por las propiedades de la esperaza condicionada,
E(X
n+k
[
n
)
c.s.
= E(E(X
n+k
[
n+k1
)[
n
)
c.s.
= E(X
n+k1
[
n
)
c.s.
=
c.s.
= X
n
.
Se dene supermartingala un proceso como en la denicion donde 3. esta rem-
plazada por
E(X
n+1
[
n
)
c.s.
X
n
, n N.
Es decir, una supermartingala decrece en media. Se dene submartingala un
proceso como en la denicion donde 3. esta remplazada por
E(X
n+1
[
n
)
c.s.
X
n
, n N.
Es decir, una submartingala crece en media.
Se note que X
n

nN
es una supermartinagala si y solo si X
n

nN
es una
submartingala, y X
n

nN
es una martingala si y solo si es una sub y una super
martingala.
Un ejemplo de martingala es dado por la suma de v.a. independientes con media
zero. Es decir, si
n
:= (X
1
, . . . , X
n
), X
n

nN
v.a. independientes, entonces
E(S
n+1
[
n
) = E(S
n
[
n
) +E(X
n+1
[
n
) = S
n
+E(X
n+1
) = S
n
.
Entonces S
n

nN
es una martingala con respecto de
n

nN
.
Otro ejemplo de martingala es dado por es producto de v.a. independientes
con media uno. Es decir, si
n
:= (X
1
, . . . , X
n
), X
n

nN
v.a. independientes,
entonces
E(S
n+1
[
n
) = E(S
n
X
n+1
[
n
) = S
n
E(X
n+1
[
n
) = S
n
E(X
n+1
) = S
n
.
Entonces S
n

nN
es una martingala con respecto de
n

nN
.
Como ultimo ejemplo, sea
n

nN
una ltracion sobre (, ) y sea X L
1
(, , P).
Entonces, U
n
:= E(X[
n
)
nN
es una martingala con respecto de
n

nN
. De
hecho,
E(U
n+1
[
n
) = E(E(X[
n+1
)[
n
) = E(X[
n
) = U
n
.
Pensemos ahora en el proceso X
n

nN
como el proceso de ganancia en diferentes
juegos. Supongamos que X
n
X
n1
representa las ganancias netas por unidad de
apuestas en un juego n que jugamos al tiempo n. Es decir, si A
n
es nuestra apuesta
en el juego n, la ganancia neta es A
n
(X
n
X
n1
).
Como no es posible conocer el futuro, cualquiera estrategia decidimos utilizar
para elegir nuestras apuestas A
n
esa puede depender solo de las informaciones
NOTAS DEL CURSO DE PROBABILIDAD II 2010/2011 43
disponibles hasta el tiempo n, es decir de
n1
:= (X
1
, . . . , X
n1
). Entonces,
supongamos que A
n
es
n1
medible, n N.
Las ganancias totale hasta el tiempo n es
G
n
:= (A X)
n
:=
n

i=1
A
i
(X
i
X
i1
),
donde X
0
:= 0 y A X es la transformada en martingala de X por A. Esto es el
analogo discreto del integral estocastico
_
AdX.
Proposicion 9.3.2. Sea X
n

nN
una sucesion de v.a. sobre (, ) y sea A
n

nN
un proceso adaptado a
n1

nN
,
0
:= , . Supongamos que [A
n
[ < ,
n N o que E([A
n
[
2
), E([X
n
[
2
) < , n N.
1. Si A
n
son no negativas, entonces si X
n

nN
es una supermartingala (sub-
martingala), entonces (A X)
n

nN
es una supermartingala (submartin-
gala);
2. si X
n

nN
es una martingala, entonces (A X)
n

nN
es una martingala.
Demostracion. Se note que
E(G
n+1
[
n
) G
n
= E(G
n+1
G
n
[
n
) = E(A
n+1
(X
n+1
X
n
)[
n
)
= A
n+1
E(X
n+1
X
n
[
n
) = A
n+1
[E(X
n+1
[
n
) X
n
].
Entonces, siguen 1. y 2. directamente de la denicion.
La proposicion arriba dice que no podemos encontrar ninguna estrategia que
vuelva los juegos a nuestro favor. Es decir, que si el juego es justo, i.e. X
n

nN
martingala
[E(X
n+1
[
n
) X
n
] = 0,
o desfavorable para nosotros, i.e. X
n

nN
supermartingala
[E(X
n+1
[
n
) X
n
] 0,
las ganancias G
n
van a tener la misma propiedad independientemente de la estrate-
gia elegida para A
n
.
9.4. Teorema de convergenca de martingalas. Sea X
n

nN
una sucesion
de v.a. y sean a < b dos numeros en R. Elegimos como estrategia de nuestras
apuestas A
n
la siguiente
A
n
:=
{An1=1}

{Xn1b}
+
{An1=0}

{Xn1<a}
, n 2,
y A
1
:= 0. En palabras, empezamos a apostar 1 cuando X
n
es menor que a y
dejamos de apostar cuando X
n
es mayor que b.
Denimos el numero U
N
[a, b]() como el n umero maximo de veces que X
n
()
ha cruzado [a, b] antes de N, es decir
U
N
[a, b]() := maxk N : 0 s
1
< t
1
< s
2
< t
2
< . . . < s
k
< t
k
N :
X
si
() < a, X
ti
() > b, i = 1, . . . , k.
Si denimos G := AX, entonces sigue directamente de la denicion de U
N
[a, b]()
que
G
N
() (b a)U
N
[a, b]() [X
N
() a]

.
44 ALESSANDRO FERRIERO
De hecho, si K := mnN, i > t
U
N
[a,b]()
: X
i
< a,
G
N
() =

N
i=1
A
i
(X
i
X
i1
) =

K
i=1
A
i
(X
i
X
i1
) +X
N
X
K

U
N
[a,b]()
i=1
(X
ti
X
si
) +X
N
a
(b a)U
N
[a, b]() [X
N
() a]

.
Lema 9.4.1 (Doob). Si X
n

nN
es una super martingala, entonces
(b a)E(U
N
[a, b]) E([X
n
a]

).
Demostracion. Como X
n
es una super martingala y A
n
son non negativas, sigue
que G
n
es una super martingala. Entonces, como G
1
= 0,
E(G
N
) = E(E(G
N
[
1
)) E(G
1
) = 0,
y, por la desigualdad antes del lema, sigue que
0 E(G
N
) (b a)E(U
N
[a, b]) E([X
n
a]

).
Sigue el lema.
Se note que U
N
[a, b]
NN
es una sucesion no negativa no decreciente.
Corolario 9.4.2. Si X
n

nN
es una super martingala tal que E([X
n
[) c, n
N, entonces U

[a, b] := lm
N
U
N
[a, b] es tal que
(b a)E(U

[a, b]) [a[ + sup


nN
E([X
n
[) <
y entonces P(U

[a, b] = ) = 0.
Demostracion. Sigue directamente del lema de Doob que, N N,
(b a)E(U
N
[a, b]) E([X
n
a]

) [a[ +E([X
N
[) [a[ +c.
Entonce, por convergencia monotona,
(b a)E(U

[a, b]) = lm
N
(b a)E(U
N
[a, b]) < ,
y entonces tambien P(U

[a, b] = ) = 0.
Teorema 9.4.3 (Teorema de convergencia de Doob). Sea X
n

nN
una super
martingala tal que E([X
n
[) c, n N.
Entonces, existe nito el lmite de X
n
en casi todos puntos.
Demostracion. Se note que
:= : X
n
() no converge en R
= : lminf
n
X
n
() < lmsup
n
X
n
()
=

a,bQ,a<b
: lminf
n
X
n
() < a < b < lmsup
n
X
n
()
=:

a,bQ,a<b
[a, b].
Los conjuntos [a, b] estan contenidos en : U

[a, b] = . Entonces, por


el corolario arriba, P([a, b]) = 0 y tambien P() = 0. Es decir, existe el lmite de
X
n
en casi todos puntos. Por el lema de Fatou,
E( lm
n
[X
n
[) = E(lminf
n
[X
n
[) lminf
n
E([X
n
[) c,
y entonces P(lm
n
[X
n
[ = ) = 0. Es decir, existe nito el lmite de X
n
en casi
todos puntos.
NOTAS DEL CURSO DE PROBABILIDAD II 2010/2011 45
Se note que X
n

nN
una super martingala no negativa, entonces automatica-
mente E([X
n
[) c, n N, porque
E([X
n
[) = E(X
n
) = E(E(X
n
[
1
)) E(X
1
), n N.
Referencias
[1] K. Chung, A course in probability theory, Third Edition, Academic Press (2001).
[2] R. Durrett, Probability. Theory and examples, Fourth Edition, Cambridge University Press
(2010).
[3] G. Grimmett, D. Stirzaker, Probability and random processes, Third Edition, Oxford Univer-
sity Press (2001).
[4] S. Varadhan, Probability theory, Lecture Notes, CIMS, New York (2000).
[5] D. Williams, Probability with martingales, Cambridge University Press (1991).
Alessandro Ferriero
uam icmat
Departamento de Matematicas
Universidad Autonoma de Madrid
Campus de Cantoblanco
28049 Madrid
alessandro.ferriero@uam.es

También podría gustarte