Está en la página 1de 97

ndice general

1. Espacio de probabilidad. 3
1.1. -lgebra de conjuntos. . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2. Espacio de probabilidad. . . . . . . . . . . . . . . . . . . . . . . . 5
1.3. Apndice y notas histricas. . . . . . . . . . . . . . . . . . . . . . 9
2. Probabilidad condicional e independencia. 13
2.1. Probabilidad condicional. . . . . . . . . . . . . . . . . . . . . . . 13
2.2. Independencia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3. Notas histricas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3. Variable Aleatoria. 20
3.1. Propiedades. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.2. Funcin de distribucin de una variable aleatoria. . . . . . . . 22
3.3. Variables Aleatorias Discretas. . . . . . . . . . . . . . . . . . . . 24
3.4. Ejemplos de Variables discretas. . . . . . . . . . . . . . . . . . . 24
3.5. Variables aleatorias absolutamente continuas. . . . . . . . . . . 29
3.6. Ejemplos de variables absolutamente continuas. . . . . . . . . 30
3.7. Variables aleatorias mixtas. . . . . . . . . . . . . . . . . . . . . . 31
4. Distribucin conjunta. 32
4.1. Propiedades. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.2. Vectores aleatorios discretos. . . . . . . . . . . . . . . . . . . . . 34
4.3. Vectores aleatorios absolutamente continuos. . . . . . . . . . . 36
4.3.1. Propiedades. . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.4. Independencia de variables aleatorias. . . . . . . . . . . . . . . . 39
4.5. Mtodo del Jacobiano. . . . . . . . . . . . . . . . . . . . . . . . . 44
5. Integral de Riemann-Stieltjes. 46
5.1. Propiedades. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.2. Mtodos de integracin. . . . . . . . . . . . . . . . . . . . . . . . 52
5.3. Extensin a funciones complejas e integrales impropias. . . . 53
5.4. Aplicaciones a la teora de la probabilidad. . . . . . . . . . . . 53
5.5. Integrales de Riemann-Stieltjes mltiples. . . . . . . . . . . . . 55
5.5.1. Aplicaciones a la teora de la probabilidad. . . . . . . . 56
1
ndice general
5.5.2. Integrales mltiples impropias. . . . . . . . . . . . . . . . 56
6. Valor esperado. 57
6.1. Denicin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
6.2. Ejemplos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
6.3. Propiedades. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
6.4. Teoremas de convergencia. . . . . . . . . . . . . . . . . . . . . . . 63
6.4.1. Teorema de convergencia montona. . . . . . . . . . . . 63
6.4.2. Teorema de convergencia dominada. . . . . . . . . . . . . 64
6.4.3. Aplicaciones. . . . . . . . . . . . . . . . . . . . . . . . . . . 65
7. Espacios L
p
. 67
7.1. Denicin y propiedades. . . . . . . . . . . . . . . . . . . . . . . . 67
7.2. Varianza de una variable aleatoria. . . . . . . . . . . . . . . . . 68
7.3. Covarianza y coeciente de correlacin. . . . . . . . . . . . . . . 71
7.4. Variables i.i.d. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
8. Convergencia en probabilidad, casi segura y en distribucin. 75
8.1. Convergencia en probabilidad y casi segura. . . . . . . . . . . . 75
8.2. Leyes de los grandes nmeros. . . . . . . . . . . . . . . . . . . . 78
8.2.1. Aplicaciones. . . . . . . . . . . . . . . . . . . . . . . . . . . 81
8.3. Convergencia en distribucin. . . . . . . . . . . . . . . . . . . . . 83
9. Funciones caractersticas. 86
9.1. Propiedades. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
9.2. Frmula de inversin. . . . . . . . . . . . . . . . . . . . . . . . . . 89
9.3. Caracterizacin de la convergencia en distribucin. . . . . . . 91
9.4. Teorema Central del Lmite. . . . . . . . . . . . . . . . . . . . . . 95
2
Captulo 1
Espacio de probabilidad.
1.1. -lgebra de conjuntos.
Denicin 1.1. -lgebra de subconjuntos de .
Dado un conjunto = , diremos que / 2

es una -lgebra de subconjuntos de


si cumple los siguientes axiomas:
i) /.
ii) Si A / entonces A
c
/.
iii) Si A
n

nN
/, entonces
+
n=1
A
n
/.
En todos los teoremas que siguen a continuacin se considera dada / una -lgebra
de subconjuntos de .
Teorema 1.2.
/.
Demostracin.
Como / entonces por ii) =
c
/.
Teorema 1.3. A
1
, A
2
, ..., A
n
/ entonces
n
i=1
A
i
/.
Demostracin.
Basta usar el axioma iii) en el caso en que A
n+1
= A
n+2
= ... = /, entonces en
este caso se tiene que
+
n=1
A
n
=
n
i=1
A
i
/.
Teorema 1.4. Si A
n

nN
/, entonces
+
n=1
A
n
/.
Demostracin.
Como A
n
/ cualquiera sea n, entonces por ii) A
c
n
/ para todo n. Entonces por
iii)
+
n=1
A
c
n
/, y por lo tanto
+
n=1
A
n
=

+
n=1
A
c
n

c
/.
Teorema 1.5. Si A, B /, entonces A B /.
3
Captulo 1. Espacio de probabilidad.
Demostracin.
Basta observar que A B = A B
c
/ ya que A, B
c
/, e interseccin nita de
elementos de /, pertenece a /.
Teorema 1.6. Si /

es -lgebra de conjuntos sobre para todo I, siendo I


una familia cualquiera de ndices, entonces
I
/

es -lgebra de conjuntos sobre


.
Demostracin.
Deno / =
I
/

.
i) /

para todo I, entonces /.


ii) Si A /, entonces A /

para todo I, entonces A


c
/

para todo I,
luego A
c
/.
iii) Si A
n

nN
/, entonces A
n

nN
/

para todo I, entonces


+
n=1
A
n
/

para todo I, entonces


+
n=1
A
n
/.
Ejemplo 1.7. , es -lgebra de conjuntos sobre , cualquiera sea el conjunto
.
Ejemplo 1.8. 2

es -lgebra de conjuntos sobre , cualquiera sea el conjunto .


Ejemplo 1.9. Si A es tal que A , entonces , , A, A
c
es -lgebra de
conjuntos sobre , cualquiera sea el conjunto .
Denicin 1.10. -lgebra generada por una familia de subconjuntos de . Dada
T una familia de subconjuntos de , al conjunto
A : AF
/ le llamaremos -lgebra
engendrada por T y la notaremos por (T) .
La -lgebra generada por una familia de subconjuntos de , siempre existe y adems
es la menor -lgebra generada por una familia de subconjuntos de que contiene
a T .
Denicin 1.11. -lgebra de Borel en R. Consideramos T = A R : A es abierto .
Llamaremos -lgebra de Borel en R a (1) .
Teorema 1.12. Si denimos 1
1
= (a, b) R : a < b ; 1
2
= [a, b) R : a < b ;
1
3
= (a, b] R : a < b ; 1
4
= (a, +) R : a R ; 1
5
= [a, +) R : a R ;
1
6
= (, a) R : a R ; 1
7
= (, a] R : a R . Entonces
(1) = (1
1
) = (1
2
) = (1
3
) = (1
4
) = (1
5
) = (1
6
) = (1
7
) .
Demostracin.
Probaremos a modo de ejemplo que (1
1
) = (1
2
), para lo cual basta ver que
1
1
(1
2
) y que 1
2
(1
1
).
Efectivamente, (a, b) =

n:a+1/n<b
[a + 1/n, b), lo cual prueba que (1
1
) (1
2
).
Adems, [a, b) =

+
n=1
(a 1/n, b), lo cual prueba la otra inclusin.
Se deja como ejercicio vericar las dems igualdades. Para trabajar con (1), tener
en cuenta que todo abierto en R se puede escribir como una unin numerable de
4
Captulo 1. Espacio de probabilidad.
intervalos abiertos.
De manera similar se dene la -lgebra de Borel en R
k
, como la -lgebra generada
por los abiertos de R
k
, o sea como la menor -lgebra que contiene a todos los abiertos
de R
k
. A los conjuntos de esta -lgebra, se les llama borelianos.
1.2. Espacio de probabilidad.
Denicin 1.13. Espacio de probabilidad.
Dado = , diremos que la terna (, /, P) es un espacio de probabilidad sobre
si y slo / es una -lgebra de conjuntos sobre , y P es una funcin P : / [0, 1]
que cumple los siguientes axiomas:
i) P () = 1,
ii) si la familia de sucesos A
n

nN
/ son disjuntos dos a dos (A
i
A
j
= para
todos i = j), entonces P

+
n=1
A
n

+
n=1
P (A
n
) .
En todos los teoremas que siguen se considera dado el espacio de probabilidad (, /, P).
Teorema 1.14.
P () = 0.
Demostracin.
Consideramos la familia de sucesos disjuntos A
1
= , A
2
= A
3
= ... = , luego
aplicamos el axioma ii) y obtenemos
P

+
n=1
A
n

= P () = P () +
+

n=2
P ()
por lo tanto

+
n=2
P () = 0. Si fuera P () = 0, se tendra que la serie sera diver-
gente y no podra ser cierta la igualdad anterior. Entonces P () = 0.
Teorema 1.15. Si A
1
, A
2
, ..., A
n
/ y son disjuntos dos a dos, entonces P (
n
i=1
A
i
) =

n
i=1
P (A
i
) .
Demostracin.
Se aplica el axioma ii) teniendo en cuenta que si se agregan los conjuntos A
n+1
=
A
n+2
= ... = , se obtiene que
P

+
n=1
A
n

=
n

i=1
P (A
i
) +
+

i=n+1
P (A
i
) =
n

i=1
P (A
i
)
pero P

+
n=1
A
n

= P (
n
i=1
A
i
) de donde se deduce el resultado.
Teorema 1.16. Si A, B /, entonces P (B A) = P (B) P (A B) .
Demostracin.
Escribimos la unin disjunta (B A) (A B) = B. Luego, aplicando el axioma ii)
obtenemos que P (B A) + P (A B) = P (B), de donde se deduce el resultado.
5
Captulo 1. Espacio de probabilidad.
Corolario 1.17. Si A, B / son tales que A B, entonces
1. P (B A) = P (B) P (A).
2. P (A) P (B) .
Demostracin.
1. Es inmediato a partir de la propiedad anterior, si se observa que AB = A.
2. Es inmediato ya que P (B) P (A) = P (B A) 0.
Teorema 1.18. Si A, B /, entonces P (A B) = P (A) +P (B) P (A B) .
Demostracin.
Escribimos A B = (A B) (B A) (A B), unin disjunta, entonces
P (A B) = P (A B) + P (B A) + P (A B) =
P (A) P (A B) + P (B) P (A B) +P (A B)
de donde se deduce el resultado.
Teorema 1.19. Si A
1
, A
2
, ..., A
n
/ entonces
P (
n
i=1
A
i
) =
n

k=1
(1)
k1

1i
1
<i
2
<...<i
k
n
P (A
i
1
A
i
2
... A
i
k
) .
Demostracin.
Se deja como ejercicio.
Teorema 1.20. Si A
1
, A
2
, ..., A
n
/, entonces P (
n
i=1
A
i
)

n
i=1
P (A
i
) .
Demostracin.
Se deja como ejercicio.
Teorema 1.21. Propiedad de continuidad de las probabilidades.
1. Si la familia de sucesos A
n

nN
/ es tal que: A
1
A
2
A
3
... entonces
P

+
n=1
A
n

= lmP (A
n
) .
2. Si la familia de sucesos A
n

nN
/ es tal que: A
1
A
2
A
3
... entonces
P

+
n=1
A
n

= lmP (A
n
) .
Demostracin.
6
Captulo 1. Espacio de probabilidad.
1. Denimos la familia de sucesos B
n
= A
n
A
n1
para n = 1, 2, 3... Sobre-
entenderemos que A
0
= . Como A
n1
A
n
cualquiera sea n, entonces
P (A
n
A
n1
) = P (A
n
) P (A
n1
) . Por otro lado B
n

nN
/, es una
familia disjunta de sucesos, por lo que aplicando el axioma iii) se obtiene que
P

+
n=1
B
n

=
+

n=1
P (B
n
) =
+

n=1
P (A
n
A
n1
) =
+

n=1
[P (A
n
) P (A
n1
)]
= lmP (A
n
) .
2. Tomando complementos obtenemos que A
c
1
A
c
2
A
c
3
..., luego aplicando
la parte anterior, se obtiene que P

+
n=1
A
c
n

= lmP (A
c
n
) . O sea que
P

+
n=1
A
n

= 1 P

+
n=1
A
n

=
lm[1 P (A
n
)] .
Entonces
P

+
n=1
A
n

= lmP (A
n
) .
Teorema 1.22. Si la familia de sucesos A
n

nN
/ es tal que P (A
n
) = 1 para
todo n, entonces P

+
n=1
A
n

= 1.
Demostracin.
Debemos probar que P

+
n=1
A
n

= P

+
n=1
A
c
n

= 0. A partir de la propiedad 7
y tomando lmite obtenemos
P

+
n=1
A
c
n

n=1
P (A
c
n
) = 0.
Denicin 1.23. Lmites superior e inferior de una sucesin de conjuntos.
Dados (, /, P) espacio de probabilidad y A
n

nN
/, se denen el lmite superior
e inferior de la sucesin de sucesos como
limsup A
n
: =
+

n=1
+

k=n
A
k
y liminf A
n
: =
+

n=1
+

k=n
A
k
.
respectivamente.
Se deja como ejercicio vericar las siguientes propiedades.
1. limsup A
n
= w : w A
n
para innitos valores de n (ocurren innitos
A
n
).
2. liminf A
n
=
w : w A
n
para todo n, salvo a lo sumo para una cantidad nita de ndices
(ocurren A
n
para todos los valores de n salvo a lo sumo una cantidad nita).
7
Captulo 1. Espacio de probabilidad.
3. liminf A
n
limsup A
n
.
4. Como la sucesin B
n
=
+

k=n
A
k
es decreciente, entonces P (limsup A
n
) =
lim P

k=n
A
k

.
5. Como la sucesin B
n
=
+

k=n
A
k
es creciente, entonces P (liminf A
n
) =limP

k=n
A
k

.
6. Si A
n

nN
es una sucesin creciente de sucesos, entonces liminf A
n
= limsup
A
n
=
+

n=1
A
n
.
7. Si A
n

nN
es una sucesin decreciente de sucesos, entonces liminf A
n
= limsup
A
n
=
+

n=1
A
n
.
Observacin 1.24. La denicin de lmite superior e inferior de una familia de
conjuntos se dene de igual modo aunque no estemos en un espacio de probabilidad.
Teorema 1.25. Dados (, /, P) espacio de probabilidad y una sucesin A
n

nN

/, entonces se cumple que
P (liminf A
n
)
(1)
liminfP ( A
n
)
(2)
limsupP (A
n
)
(3)
P (limsup A
n
) .
Demostracin.
Para la desigualdad (3), vemos que para todo n se tiene que
+

k=n
A
k
A
n
, entonces
P (limsup A
n
) = limP

k=n
A
k

limsupP (A
n
) .
Un razonamiento anlogo prueba la desigualdad (1).
La desigualdad (2) es evidente.
Ejemplo 1.26. Si es un conjunto innito numerable, es decir = w
1
, w
2
, ..., w
n
, ...
entonces si consideramos la sucesin p
n

nN
tal que p
n
0 para todo n N y

+
n=1
p
n
= 1, y denimos P : 2

[0, 1] tal que para todo A 2

, P(A) =

n : x
n
A
p
n
, entonces se cumple que la terna

, 2

, P

es un espacio de probabi-
lidad. Observamos que segn esta denicin se tiene que P (w
n
) = p
n
para todo
n.
Ejemplo 1.27. Modelo de equiprobabilidad. Si es nito, denimos P : 2

[0, 1] tal que P(A) =


n(A)
n()
siendo n(A) la cantidad de elementos que tiene el con-
junto A. Observamos que en este caso, se tiene que si = w
1
, w
2
, ..., w
n
entonces
P (w
i
) = 1/n para todo i = 1, 2, 3, ..., n, lo cual signica que todo elemento de
es igualmente probable.
8
Captulo 1. Espacio de probabilidad.
En general, cuando es nito o innito numerable, si no se aclara nada al respecto
se sobreentiende que la -lgebra considerada es 2

. En numerosas ocasiones se est


en presencia de un espacio muestral nito donde cada elemento tiene la misma
probabilidad.
Ejemplo 1.28. Se tiran 3 dados y se desea calcular la probabilidad de que salga al
menos un 2 en las 3 tiradas.
En este caso, = (i, j, k) : i, j, k 1, 2, 3, 4, 5, 6 . Para calcular n() observamos
que para la terna (i, j, k) tenemos 6 valores posibles de i, por cada valor de i tenemos
6 valores posibles para j por lo que existen 6
2
= 36 pares (i, j) , y por cada uno de
estos 36 pares tenemos 6 posibles valores de k, as obtenemos 6
3
= 216 ternas en .
Por otro lado, para el suceso A = sale al menos un 2 en las 3 tiradas", podemos
realizar la descomposicin A = BCD donde B = sale exactamente dos veces el 2
en las 3 tiradas", C = sale exactamente un 2 en las 3 tiradas", D = sale las 3 veces el
2 en las 3 tiradas". Esta unin es disjunta por lo que P (A) = P (B) +P (C) +P (D) .
Para calcular P (B) observamos que si el 2 sale en el primer lugar, tenemos 5
2
ternas,
pero el 2 puede salir en el segundo o en el tercer lugar, por lo que en total tendremos
n(B) = 35
2
= 75 y entonces P (B) = 75/216. Razonando similarmente, obtenemos
P (C) = 3 5/216 mientras que P (D) = 1/216, entonces P (A) = 91/216. Hubiera
sido ms sencillo observar que A
c
= no sale ningn 2 en las 3 tiradas", entonces
tenemos 555 ternas donde esto ocurre, entonces P (A
c
) = 125/216 y por lo tanto
P (A) = 1 125/216 = 91/216.
Ejemplo 1.29. Si se tiran 24 veces dos dados, es ms ventajoso apostar por la
aparicin de al menos un doble 6, o no? En este caso, el total de casos posibles son
36 36 ... 36
. .. .
24 veces
= 36
24
, mientras que si denimos el suceso A = no aparece ningn
doble 6 en las 24 tiradas", tenemos que n(A) = 35 35 ... 35
. .. .
24 veces
= 35
24
y por lo
tanto P (A) = (35/36)
24
= 0,508 por lo que es ms conveniente apostar a que no
aparece ningn doble 6 en 24 tiradas.
1.3. Apndice y notas histricas.
Comentario sobre la necesidad de trabajar con sigmas lgebras sobre es-
pacios muestrales no numerables.
Dado un conjunto = , se dice que / es un lgebra de subconjuntos de si y slo
si cumple los siguientes axiomas:
1. /;
2. Si A / entonces A
c
/;
3. Si A, B / entonces A B /.
9
Captulo 1. Espacio de probabilidad.
En el caso en que = (0, 1), entonces se verica directamente que el conjunto I
formado por uniones nitas de conjuntos de la forma: (a, b]; (0, b]; (a, 1) con a, b
(0, 1) forman un lgebra de subconjuntos de (0, 1).
Por otro lado, tambin se puede vericar directamente que la funcin P : I [0, 1]
tal que P (A) = longitud de A, cualquiera sea A I, es una funcin que cumple ser
nitamente aditiva, tal que P ((0, 1)) = 1.
Un teorema importante de teora de la medida, el teorema de Carathodory nos
dice que si tenemos una terna (, I; P) donde P es una funcin P : I [0, 1] que
cumple que P () = 1 y adems es nitamente aditiva ( o sea que P (A B) =
P (A) + P (B) siempre que A, B I sean tales que A B = ), entonces existe
una nica funcin P

tal que (, (I) , P

) es un espacio de probabilidad, tal que


P

(A) = P (A) para todo A I. Dicho de otra manera, si tenemos una funcin de
probabilidad nitamente aditiva, denida sobre un lgebra I de subconjuntos de ,
entonces puede ser extendida de manera nica sobre la -lgebra generada por I.
Volviendo al ejemplo del espacio (0, 1) y el lgebra I, entonces sabemos que (I) =
B
(0,1)
. Usando estas ideas veremos que existen conjuntos no borelianos. Denimos la
relacin en (0, 1), xRy si y slo si x y Q. Se verica en forma inmediata que la
misma dene una relacin de equivalencia en (0, 1) . Por lo tanto queda el conjunto
(0, 1) particionado en clases de equivalencia. Elegimos un elemento de cada clase, y
con ella formamos un conjunto que llamamos A. O sea que podemos escribir (0, 1) =

I
A

, donde la unin es disjunta, y adems x, y A

si y slo si x y Q. Para
cada I elegimos a

de manera arbitraria (esto puede ser realizado gracias


al axioma de eleccin), entonces denimos el conjunto A =
I
a

. Veremos a
partir del teorema de extensin de Carathodory que A no es boreliano. Para cada
racional q Q (0, 1) denimos el conjunto A
q
= x +q : x A, x +q 1
x +q 1 : x A, x +q > 1 . Observando que los A
q
son los trasladados por q del
conjunto A, deducimos que si A fuera boreliano, entonces tambin lo sera A
q
para
cada q Q (0, 1) . Observamos adems que para todo q Q (0, 1) se cumple que
P (A
q
) = P (A).
Por otro lado, se cumple que (0, 1) =
qQ(0,1)
A
q
, adems la unin es disjunta. Por
lo tanto, extendiendo por Carathodory la funcin P a la -lgebra generada por I
que es la -lgebra de Borel en (0, 1), obtendramos que
1 = P ((0, 1)) =

qQ(0,1)
P (A
q
) = 0
lo cual es absurdo.
Observacin 1.30. Este resultado adems de demostrar que existen conjuntos no
borelianos, nos permite demostrar tambin que cuando = (0, 1) , es imposible de-
nir una funcin de probabilidad sobre todos los subconjuntos de (0, 1), de tal modo de
que la probabilidad de un intervalo incluido en (0, 1) sea la longitud del mismo.
Por lo tanto si queremos trabajar con un espacio de probabilidad donde se elije un
punto al azar en el intervalo (0, 1), de tal modo que la probabilidad de un intervalo
incluido en (0, 1) sea la longitud del mismo, no nos quedar ms remedio que de-
10
Captulo 1. Espacio de probabilidad.
nirlo como la longitud sobre los intervalos, y luego va el teorema de Carathodory,
extenderlo a la -lgebra de Borel sobre (0, 1).
Un poco de historia.
Como fue visto en el ejemplo 1.29, la probabilidad de la aparicin de al menos un
doble seis cuando se tira 24 veces un par de dados, es 0,492, por lo tanto es levemente
desfavorable a apostar a que no sale ningn doble 6. Dada la proximidad de este valor
a 1/2, sin saber realizar este clculo, difcilmente podramos prever si era favorable o
desfavorable apostar a este evento, por el simple hecho de repetirlo muchas veces y
contabilizar su frecuencia. Esta situacin se le present a Antoine de Gombaud (ca-
ballero de Mer), noble francs quien en 1654 interesado en resolver este problema,
se lo plante a Blaise Pascal, quien comenz a cartearse con Pierre de Fermat, para
discutir y llegar a la solucin del problema. Si bien los juegos de azar, son tan antiguos
como la humanidad, y es natural pensar que los primeros matemticos babilnicos y
griegos ya trabajaron y por lo tanto obtuvieron ciertos resultados probabilsticos, se
considera que ste intercambio de correspondencia entre de Fermat y Pascal motiv
el inicio de la teora de la probabilidad, o al menos el comienzo de la construccin
de los principios de la misma. Christian Huygens (quien fuera maestro de Leibnitz),
enterado de esta correspondencia, en 1657 public lo que es conocido como el primer
libro de teora de probabilidades: De Ratiociniis in Ludo Aleae, que se trata de un
libro de problemas de juegos de azar.
Anterior en el tiempo a esta correspondencia y a Huygens, vale la pena destacar que
el matemtico italiano Gerolamo Cardano en el siglo XVI ya haba resuelto algunos
problemas de juegos de azar, e incluso escribi un tratado sobre probabilidad, Liber
de ludo aleae, pero el mismo fue publicado casi un siglo despus de su muerte, en
1663.
El primero en dar la denicin clsica de probabilidad (casos favorables sobre casos
posibles) fue James Bernoulli (1654-1705), en una obra fundamental para el desarrollo
de la teora de la probabilidad: Ars Conjectandi (El arte de conjeturar), esta obra
fue publicada en 1713. En 1812, Pierre Simon de Laplace, en su libro Thorie analy-
tique des probabilits, introduce numerosas ideas y tcnicas para resolver problemas
de azar.
De manera un tanto irregular, numerosos matemticos aportaron nuevas ideas a la
teora, se plantearon nuevos problemas, y se desarrollaron nuevos conceptos, pero an
quedaba una denicin que sea adecuada y satisfactoria a situaciones donde est pre-
sente el azar, pero que no tienen que ver con juegos de azar, ni pueden ser repetidos
en idnticas condiciones muchas veces. Esta falta de una denicin precisa hizo que
muchos matemticos se desencantaran y consideraran a la probabilidad no como
una teora matemtica, y se alejaron de ella.
Durante los tres siglos en que se busc una denicin adecuada y amplia para la
probabilidad, hubieron distintas escuelas, como la clsica, la frecuencista y la subje-
tivista que tuvieron distintas controversias entre si, ya que todas daban deniciones
que no eran totalmente satisfactorias.
La escuela clsica es la que acotaba los problemas probabilsticos a los casos en que
es nito con resultados equiprobables, por lo que denan probabilidad como el
11
Captulo 1. Espacio de probabilidad.
nmero casos favorables sobre el nmero de casos posibles. Claramente esta deni-
cin no es aplicable a muchas situaciones que se dan en la prctica, tanto porque a
veces es innito, como cuando los elementos del mismo no son equiprobables. Otros
denieron lo que se llama interpretacin frecuencista, que dice que para calcular la
probabilidad de un evento se lo debe repetir n veces, y entonces es el lmite cuando
n tiende a ininto del nmero de veces que ocurre el evento dividido el nmero de
repeticiones del experimento (n). Nuevamente es claro que esta interpretacin tiene
el defecto de que muchas veces el experimento no puede ser repetido en idnticas
condiciones, y adems, no se pueden hacer innitos experimentos. Por otro lado, el
lmite no es el lmite usual, hay que denir otro concepto de lmite, ya que el azar
no permitira asegurarnos un n tal que a partir del mismo, la probabilidad del suceso
diste de la frecuencia observada tan poco como se quiera. Esta escuela est basada
en la ley de los grandes nmeros que veremos ms adelante.
Por ltimo los subjetivistas, decan que la probabilidad estaba dado por un carcter
subjetivo, en el sentido de que la probabilidad de un suceso, es el grado de conanza
que se tiene de que el mismo ocurra. De esta manera dos personas distintas pue-
den tener probabilidades diferentes para un mismo suceso, puesto que sus grados de
conanza de que el mismo ocurra son distintos. Incluso una misma persona, en otro
momento puede llegar a tener una valoracin distinta de la ocurrencia de un suceso
y por lo tanto cambiar su grado de conanza. Esta escuela tuvo por precursores a
Bruno de Finetti y Leonard Savage.
Hubo que esperar hasta 1933 cuando Andrei Nikolayevich Kolmogorov, en su mo-
nografa titulada Grundbegrie der Wahrscheinlichkeitsrechnung (Fundamentos de
Probabilidad) planteara la denicin axiomtica de espacio de probabilidad, dndose
cuenta a partir de la teora de la medida y de los trabajos de Borel y Lebesgue, que
calcular probabilidades, es una forma de medir. Se puede decir que a partir de este
trabajo, denitivamente y para todos los matemticos, la probabilidad pas a ser un
tema de matemtica, y adems concluy con todas las discusiones sobre la denicin
de probabilidad, ya que todas ellas quedaron como casos particulares de un espacio
de probabilidad.
Si bien un espacio de probabilidad es un caso particular de espacio de medida, tiene
conceptos y formas intuitivas de pensar problemas probabilsticos (como la proba-
bilidad condicional y el concepto de independencia, que sern vistos en el prximo
captulo) que la independizan en muchos aspectos de la teora de la medida.
12
Captulo 2
Probabilidad condicional e
independencia.
2.1. Probabilidad condicional.
Supongamos que participamos de un juego en el que se tira una moneda sucesiva-
mente dos veces, y nosotros apostamos a que salen ambas caras. La probabilidad
que tenemos de ganar la apuesta es 1/4. Ahora bien, si ya se lanz la primer mo-
neda y sali cara, ahora nuestra probabilidad de ganar pas a ser 1/2. Se obser-
va que en este caso, se agreg informacin sobre el experimento. En este ejemplo,
= (C, C); (N, C); (C, N); (N, N) y si le llamamos A = (C, C) (salen ambas
caras) y B = (C, C); (C, N) (la primera sali cara), como dijimos P(A) = 1/4 pero
la probabilidad de que ganemos la apuesto sabiendo que el primer lanzamiento sali
cara, lo anotaremos como P(A/B) y vale P(A/B) = 1/4. Como se ve en este caso, al
cambiar la informacin que tenemos sobre el experimento, observamos que cambi el
espacio muestral. Al calcular P(A/B) pensamos el calcular la probabilidad de A, su-
poniendo que el espacio muestral es B. Si estamos en el modelo de equiprobabilidad,
calcularamos P(A/B) =
n(AB)
n(B)
ya que ahora nuestros casos posibles son el total de
elementos de B, esto es n(B) y los casos favorables son aquellos en los que ocurre
el suceso A (de entre los que ocurren B), esto es n(A B), por lo tanto observamos
que en el modelo de equiprobabilidad la manera general de calcular la probabilidad
condicional sera as:
P(A/B) =
n(A B)/n()
n(B)/n()
=
P(A B)
P(B)
.
Este clculo (y otros) motivan la siguiente denicin.
Denicin 2.1. Si (, /, P) es un espacio de probabilidad, dados A, B / donde
P (B) > 0. Denimos P (A/B) =
P(AB)
P(B)
.
La notacin P (A/B), la leemos como la probabilidad de que ocurra A, sabiendo que
ocurre B. En todos los teoremas que siguen se considera dado (, /, P) un espacio
de probabilidad.
13
Captulo 2. Probabilidad condicional e independencia.
Teorema 2.2. P (A B) = P (A/B) P (B) cualesquiera sean A, B / tal que
P (B) > 0.
Demostracin.
Evidente a partir de la denicin.
Teorema 2.3. P (A/B) =
P(B/A)P(A)
P(B)
cualesquiera sean A, B / tales que P (A) > 0
y P (B) > 0.
Demostracin.
P (A/B) =
P (A B)
P (B)
=
P (B/A) P(A)
P (B)
.
Teorema 2.4. Si la familia B
n

nN
/ es tal que
i) B
i
B
j
= para todos i = j (es decir que son sucesos disjuntos dos a dos), ii)

+
n=1
B
n
= iii)P(B
n
) > 0 para todo n N. Entonces cualquiera sea A / se tiene
que
1. Frmula de probabilidades totales.
P (A) =
+

n=1
P (A/B
n
) P (B
n
) .
2. Frmula de Bayes. Para A tal que P (A) > 0,
P (B
k
/A) =
P (A/B
k
) P (B
k
)

+
n=1
P (A/B
n
) P (B
n
)
para todo k N.
Demostracin.
1. Dado A, de ii) deducimos que A =
+
n=1
(A B
n
) unin disjunta, entonces
P (A) =
+

n=1
P (A B
n
) =
+

n=1
P (A/B
n
) P (B
n
) .
2. Dado cualquier k N, tenemos por aplicacin de la propiedad 2 que
P (B
k
/A) =
P (A/B
k
) P (B
k
)
P(A)
y luego usando la frmula de probabilidades totales se obtiene que
P (B
k
/A) =
P (A/B
k
) P (B
k
)

+
n=1
P (A/B
n
) P (B
n
)

14
Captulo 2. Probabilidad condicional e independencia.
Observacin 2.5. Este teorema sigue siendo vlido si la particin de en unin de
los B
n
es nita.
Teorema 2.6. Si B / es tal que P (B) > 0. Denimos /
B
= A B : A / y
P
B
: /
B
[0, 1], tal que P
B
(A) = P (A/B) . Entonces (B, /
B
, P
B
) es un espacio de
probabilidad.
Demostracin. Se deja como ejercicio chequear que /
B
es una -lgebra de con-
juntos sobre B y que P
B
dene una probabilidad sobre B.
Teorema 2.7. Si A, B, C / con P (B) > 0, entonces
1. P (A
c
/B) = 1 P (A/B) .
2. P (A C/B) = P (A/B) +P (C/B) P (A C/B) .
Demostracin. Ambas frmulas son consecuencias directas de la propiedad anterior.
Teorema 2.8. Si A
1
, A
2
, ..., A
n
/ cumplen que P (A
1
A
2
... A
n1
) > 0 en-
tonces
P (A
1
A
2
... A
n
) = P (A
1
) P (A
2
/A
1
) P (A
3
/A
1
A
2
) ...P (A
n
/A
1
A
2
... A
n1
) .
Demostracin. Se deja como ejercicio.
Ejemplo 2.9. Supongamos que se dispone de un bolillero con 44 bolillas numeradas
del 1 al 44. Se extraen 5 sucesivamente sin reponerse cada bolilla exprada. Se supone
que apostamos a que salen los nmeros 5,13,16,18,33. Deseamos calcular la proba-
bilidad de que acertemos al menos 2 de los 5 extrados. En este caso, para calcular
los casos posibles, se ve que para la primer bolilla hay 44 posibles nmeros, para la
segunda 43 (todos menos el que sali en el primer lugar), para la siguiente 42, luego
41 y luego 40, as tenemos 44 43 42 41 40 casos posibles. Para los favorables,
calculamos los del complemento. Observamos que si le llamamos A = salen al menos
dos de los 5 apostados", entonces A
c
= B C donde B =no sale ninguno de los 5
apostados
2
C =sale exactamente uno de los 5 apostados". La unin es disjunta por
lo que P (A
c
) = P (B) +P (C) . Los casos posibles para B son 39 38 37 36 35
mientras que para C tenemos que 5 39 38 37 36 son todas las posibilidades
en que acertamos en la primera extraccin y no acertamos en las 4 restantes, a esos
hay que sumarles los que acertamos en la segunda y erramos en las restantes, etc,
etc, como cada uno de esos casos son 5 39 38 37 36 entonces el total de casos
favorables para C son 5 39 38 37 36 5, de esta forma
P (A) = 1
39 38 37 36 35 + 5 39 38 37 36 5
44 43 42 41 40
= 0, 0911.
Este mismo clculo podra haberse realizado mediante el uso de la propiedad ante-
rior. Para calcular P (B) , llammosle A
1
=no acierto la primer bolilla extrada",
15
Captulo 2. Probabilidad condicional e independencia.
A
2
=no acierto la primer bolilla extrada",...,A
5
=no acierto la quinta bolilla ex-
trada". Entonces P (A
1
) = 39/44, P (A
2
/A
1
) = 38/43, P (A
3
/A
1
A
2
) = 37/42,
P (A
4
/A
1
A
2
A
3
) = 36/41 y P (A
5
/A
1
A
2
A
3
A
4
) = 35/40, as se tiene
P (B) = P (A
1
A
2
A
3
A
4
A
5
) =
39 38 37 36 35
44 43 42 41 40
Para P (C) lo separamos como suma de acertar exactamente la primera, ms acertar
exactamente la segunda, etc y denimos adecuadamente los conjuntos A
1
, A
2
, A
3
, A
4
, A
5
y se procede de manera anloga.
Ejemplo 2.10. Se tiene una urna compuesta por 3 bolillas azules, 2 blancas y una
roja, y una segunda urna compuesta por 3 blancas y 3 azules. Se extrae una bolilla
de la urna uno, se la deposita en la segunda y luego se extrae una bolilla de esta
segunda urna. Calculemos las probabilidades de: A =la segunda bolilla extrada es
azul", B =la primer bolilla extrada es azul, sabiendo que la segunda fue blanca".
En este caso, aplicamos la propiedad de probabilidades totales quedando P (A) =
P (A/1
a
blanca) P (1
a
blanca)+P (A/1
a
azul) P (1
a
azul)+P (A/1
a
roja) P (1
a
roja) =
4
7
3
6
+
3
7
3
6
+
3
7
1
6
= 0, 571.
Para B, usamos el teorema de Bayes quedando P (B) = P (1
a
azul / 2
a
blanca) =
P ( 2
a
b / 1
a
b) P (1
a
b)
P ( 2
a
b / 1
a
b) P (1
a
b) +P ( 2
a
b / 1
a
a) P (1
a
a) +P ( 2
a
b / 1
a
r) P (1
a
roja)
=
4
7
3
6
4
7
2
6
+
3
7
3
6
+
3
7
1
6
= 0, 6.
2.2. Independencia.
Denicin 2.11. Dado (, /, P) un espacio de probabilidad, se dice que la fami-
lia de sucesos A

I
donde I es una familia cualquiera de ndices, son sucesos
independientes si y slo si, para todo F I nito, se cumple que
P


F
A

F
P (A

) .
Observacin 2.12. Si la familia de sucesos se reduce a dos, entonces la denicin
anterior nos dice que A y B son independientes si y slo si P (A B) = P (A) P (B) ,
lo cual en el caso en que P (B) > 0 es equivalente a pedir que se cumpla que
P (A/B) = P (A), pero la ventaja que tiene la denicin dada es que no requiere
que los sucesos tengan probabilidad positiva.
16
Captulo 2. Probabilidad condicional e independencia.
Observacin 2.13. Si la familia de sucesos se reduce a 3, digamos A, B y C, en-
tonces los mismos son independientes si y slo si se cumplen las siguientes cuatro
condiciones:
1. P(A B) = P(A)P(B)
2. P(A C) = P(A)P(C)
3. P(B C) = P(B)P(C)
4. P(A B C) = P(A)P(B)P(C)
Observacin 2.14. Observamos que en el caso anterior, para pedir que los tres
sucesos A, B y C sean independientes, se requiere que sean independientes de a pares,
que son las condiciones 1,2 y 3, pero a esto se le debe agregar la condicin 4 ya que
las condiciones 1,2 y 3 (como se ver en el siguiente ejemplo) no aseguran que A sea
independiente del suceso BC. Se puede chequear sin dicultad que las 4 condiciones
que determinan la independencia de A, B y C aseguran la independencia de A con
B C y la de A con B C
c
etc.
Se deja como ejercicio vericar el siguiente ejemplo, donde se muestra que tres sucesos
pueden ser independientes tomados de a dos, pero no ser independientes.
Ejemplo 2.15. Se tira un par de dados, uno azul y uno verde. Denimos A =en el
dado azul sale el 5, B =en el dado verde sale el 3, C =la suma de los resultados
de ambos dados es un nmero par. Entonces A, B y C son independientes tomados
de a pares, pero A, B y C no son independientes.
Teorema 2.16. Dado (, /, P) un espacio de probabilidad, si una familia de sucesos
A

I
son independientes, entonces tambin lo son la familia B

I
, donde para
cada I, se tiene que, o bien B

= A

, o bien B

= A
c

.
Teorema 2.17. Lema de Borel Cantelli. Dados (, /, P) espacio de probabilidad
y la sucesin A
n

nN
/, entonces
1. Si

+
n=1
P (A
n
) < + entonces
P (limsup A
n
) = 0.
2. Si

+
n=1
P (A
n
) = + y adems A
n

nN
son independientes, entonces
P (limsup A
n
) = 1.
Demostracin.
1. P (limsup A
n
) =lim P

k=n
A
k



+
k=n
P (A
n
) 0 puesto que la serie es
convergente.
17
Captulo 2. Probabilidad condicional e independencia.
2. Como P (limsup A
n
) =lim P

k=n
A
k

, basta probar que lim P

k=n
A
c
k

0.
Para cada m > n tenemos que
P

k=n
A
c
k

k=n
A
c
k

=
m

k=n
P (A
c
k
) =
m

k=n
[1 P (A
k
)] .
Ahora, usando que 1 x e
x
para todo x 0, se deduce que
m

k=n
[1 P (A
k
)]
m

k=n
e
P(A
k
)
= e

P
m
k=n
P(A
k
)

m+
0.
Ejemplo 2.18. Supongamos que se elije al azar un nmero en el intervalo (0, 1)
Cul es la probabilidad de que aparezcan innitos 4 en su expansin decimal? Y la
probabilidad de que el 44 aprezca innitas veces?
Para responder a la primer pregunta, denimos los sucesos A
n
=el 4 aparece en el
n-simo lugar en su expansin decimal, entonces la sucesin A
n

nN
est forma-
da por sucesos independientes, adems, P(A
n
) = 1/10 cualquiera sea n, entonces

+
n=1
P(A
n
) = + y por lo tanto la probabilidad de que aparezca el 4 innitas
veces es 1. Para responder la otra pregunta, procedemos de forma similar, denimos
B
n
=el 4 aparece en el n-simo lugar y en el siguiente en su expansin decimal,
en este caso P(B
n
) = 1/100 para todo n, pero los B
n
no son independientes. De
todas formas si consideramos la subsucesin de sucesos B
2n

nN
, ahora si, tenemos
una sucesin de sucesos independientes y como

+
n=1
P(B
2n
) = +, tenemos que
la probabilidad de que aparezca el 44 inintas veces en un lugar par seguido de uno
impar es 1, pero ste ltimo suceso est incluido en el suceso de que el 44 aparece
inntas veces, se entonces la probabilidad de que el 44 aparezca innitas veces es 1
tambin.
2.3. Notas histricas.
El ejemplo anterior es conocido como el teorema de los innitos monos. Emil Borel en
su trabajo Mcanique Statistique et Irrversibilit en 1913 armaba que si se pone
a un milln de monos durante 10 horas a teclear una mquina de escribir (como una
manera de decir que se eligen al azar letras del alfabeto, tantas como pueda teclear
durante 10 horas un mono), es extremadamente improbable que sea posible encontrar
una secuencia de letras tecleadas que sean el desarrollo de un libro por ms pequeo
que sea. Ahora, de acuerdo al ejemplo que acabamos de desarrollar, hemos probado
que si a un solo mono se le da tiempo innito, entonces hay probabilidad 1 de que
en algn momento escriba la obra completa de Shakespeare, por ejemplo. Slo basta
cambiar el conjunto de los 10 dgitos por los smbolos del alfabeto, y la tirada 44 por
la de la obra completa de Shakespeare que es nita.
Thomas Bayes naci en Inglaterra en 1702 y muri en 1761. Se sabe muy poco de su
vida, ya que no se dedic activamente a la matemtica, no se vincul mayormente con
18
Captulo 2. Probabilidad condicional e independencia.
otros matemticos de su poca, y por lo tanto no se destac tanto mientras estuvo
con vida. Sus aportes a la teora de la probabilidad fueron enormes, ya que fue el
primero que deni y trabaj el concepto de probabilidad condicional, en tiempos
en que todos los clculos probabilsticos estaban restringidos a juegos de azar y los
clculos eran realizados segn el modelo de equiprobabilidad.
Tambin es esencial su aporte a la denicin que utiliza de probabilidad, que fue
olvidada hasta el siglo XX, y que fue retomada recin en 1937 por Bruno De Finetti,
uno de los primeros precursores de la teora subjetiva de la probabilidad.
Todos estos aportes fueron publicados en un trabajo titulado An Essay Towards
Solving a Problem in Doctrine of Chances publicado en 1763 (2 aos despus de su
muerte), y el hoy llamado teorema de Bayes, fue publicado en 1764 en las Philosop-
hical Transactions Vol 53, que es la base de la hoy llamada inferencia bayesiana. Es
curioso que Bayes no haya intentado publicar sus trabajos, tanto su teorema como su
trabajo publicado en 1763, fueron encontrados por amigos suyos luego de su muerte.
19
Captulo 3
Variable Aleatoria.
Denicin 3.1. Dado un espacio de probabilidad

, /, P

. Diremos que X :
R
k
es una variable aleatoria en R
k
si y slo si, se cumple que para cada A boreliano
se cumple que
X
1
(A) /.
Cuando k > 1, tambin es llamado vector aleatorio.
Observacin 3.2. Dado que la -lgebra de Borel est engendrada por los conjuntos
abiertos, basta vericar que X
1
(A) /, para todo A abierto (o para todo A en
algn generador de la -lgebra de Borel).
Observacin 3.3. Si es nito o innito numerable, cualquier funcin X : R
k
es vector aleatorio, ya que en estos casos, consideramos como -lgebra a 2

.
Observacin 3.4. Toda constante, es vector aleatorio, cualquiera sea

, /, P

es-
pacio de probabilidad, ya que el conjunto X
1
(A) es si la constante est en A o
vaco si no, en ambos casos X
1
(A) /.
En varias ocasiones, es conveniente trabajar con funciones a valores en R = R
+, . Para dichos casos ser conveniente extender la -lgebra de Borel a B
R
.
Por suerte es posible hacerlo de una forma sencilla.
Si le llamamos B a la -lgebra de Borel en R, denimos B
R
=
BA +, : A B A + : A B A : A B .
Se deja como ejercicio probar que B
R
es una -lgebra de Borel sobre R.
Frecuentemente para simplicar la notacin, se suele escribir el conjunto X
1
(A) =
w : X(w) A mediante la simple escritura de X A . As, por ejemplo al
conjunto X
1
((, a]) lo denotaremos por X a .
3.1. Propiedades.
Teorema 3.5. Dado X = (X
1
, X
2
, ..., X
k
) : R
k
. Entonces, X es vector aleatorio
si y slo si X
1
, X
2
, ..., X
k
son variables aleatorias en R.
20
Captulo 3. Variable Aleatoria.
Demostracin.
Comenzamos observando que cualesquiera sean los conjuntos A
1
, A
2
, ..., A
k
, se tiene
que
X
1
(A
1
A
2
... A
k
) =
k

i=1
X
1
i
(A
i
) .
) Si A es un boreliano en R, entonces
X
1
i
(A) = X
1

R R... R A
....
lugar i
R... R

/.
Entonces X
i
es variable aleatoria.
) Cualesquiera sean a
1
, a
2
, ..., a
k
R se tiene que
X
1
((, a
1
) (, a
2
) ... (, a
k
)) =
k

i=1
X
1
i
((, a
i
)) /
ya que cada conjunto que intersectamos pertenece a /, entonces X es vector aleatorio
en R
k
.
Teorema 3.6. Si X : R
k
es vector aleatorio y g : R
k
R
n
es continua, entonces
Y = g(X) es vector aleatorio en R
n
.
Demostracin.
Dado un abierto A en R
n
, entonces g
1
(A) es abierto por la continuidad de g, por lo
que
Y
1
(A) = (goX)
1
(A) = X
1

g
1
(A)

/.
Teorema 3.7. Si X, Y : R son variables aleatorias, entonces tambin lo son
X, X +Y y XY.
Demostracin.
Es consecuencia inmediata de la propiedad anterior, ya que (X, Y ) es vector aleatorio
en R
2
, y lo componemos con las funciones continuas g : R
2
R denidas como
g(x, y) = x, g(x, y) = x + y y g(x, y) = xy respectivamente.
Teorema 3.8. Si X
n
: R es variable aleatoria para todo n N, entonces
tambin lo son las variables Y : R+ tal que Y =supX
1
, X
2
, ..., X
n
, ... y
Z : R tal que Z =infX
1
, X
2
, ..., X
n
, ... .
Demostracin.
Basta observar que si tenemos una sucesin de nmeros reales x
n

nN
, entonces,
cualesquiera sea a R + se tiene que
sup x
1
, x
2
, ..., x
n
, ... a x
n
a para todo n.
21
Captulo 3. Variable Aleatoria.
Entonces
Y
1
((, a]) =
+

n=1
X
1
n
((, a]) /.
Entonces Y es variable aleatoria. Por otro lado, como Z = supX
1
, X
2
, ..., X
n
, ...,
se deduce de lo recin probado que Z tambin es variable aleatoria.
Teorema 3.9. Si X
n
: R es variable aleatoria para todo n N, entonces tambin
lo son las variables limsupX
n
: R + y liminfX
n
: R .
Demostracin.
Es consecuencia inmediata de la propiedad anterior ya que
limsup X
n
= inf
n
sup
kn
X
k
, y liminf X
n
= sup
n
inf
kn
X
k
.
3.2. Funcin de distribucin de una variable aleato-
ria.
Denicin 3.10. Funcin de distribucin de una variable aleatoria.
Dados un espacio de probabilidad

, /, P

y X : R una variable aleatoria,


denimos la funcin F
X
: R R como F
X
(x) = P (X x) para cada x R.
Observacin 3.11. Para todo x R se tiene que X x = X
1
((, x]) /,
por ser X variable aleatoria.
En todas las propiedades que siguen se sobreentiende que tenemos un espacio de
probabilidad

, /, P

y X : R una variable aleatoria.


Teorema 3.12. F
X
es montona creciente.
Demostracin.
Si a < b entonces X a X b, entonces P (X a) P (X b) , por lo que
F
X
(a) F
X
(b).
Teorema 3.13. lim
x+
F
X
(x) = 1.
Demostracin.
Como F
X
es montona creciente, basta restringirse a una sucesin particular que
tienda a +, por ejemplo lim
n+
F
X
(n).
Observamos que A
n
= X n es una sucesin creciente de sucesos, tal que
+

n=1
A
n
=
, entonces por la propiedad de continuidad de las probabilidades se tiene que
lim
n+
F
X
(n) = lim
n+
P (A
n
) = P

n=1
A
n

= P () = 1.
22
Captulo 3. Variable Aleatoria.
Teorema 3.14. lim
x
F
X
(x) = 0.
Demostracin.
Razonamos anlogamente al caso anterior, por lo que basta considerar lim
n+
F
X
(n).
Consideramos ahora A
n
= X n decrece a
+

n=1
A
n
= , por lo que se deduce que
lim
n+
F
X
(n) = lim
n+
P (A
n
) = P

+
n=1
A
n

= P () = 0.
Teorema 3.15. F
X
es continua por derecha.
Demostracin.
Nuevamente, basta ver que lim
n+
F
X
(a+1/n) = F
X
(a). La sucesin A
n
= X a + 1/n
decrece a
+

n=1
A
n
= X a, de donde se obtiene el resultado.
Teorema 3.16. Si denimos F
X
(x

) = P(X < x), entonces para cualquier x R


se tiene que F
X
(a

) = lim
xa

F
X
(x).
Demostracin.
Similar a la anterior, se deja como ejercicio.
Observacin 3.17. Del teorema anterior se deduce que P(X = x) = F
X
(x)
F
X
(x

), por lo que la probabilidad de que X tome un valor determinado, viene dado


por el salto de la funcin de distribucin en dicho x.
Notas.
1. Dado un espacio de probabilidad sobre un conjunto , (, /, P) y tenemos una
variable aleatoria en l X : R, la misma nos permite denir naturalmente
un espacio de probabilidad donde el espacio muestral sea R. El mismo sera
(R, B, F
X
). Aqu hay un detalle tcnico y es el hecho de que F
X
debe estar
denido en cualquier boreliano de R, pero un teorema de teora de la medida
nos asegura que al ser F
X
creciente y positiva, y estar denida en los conjuntos
de la forma (, x] para todo x R que generan la -lgebra de Borel, existe
una nica extensin de F
X
a dicha -lgebra.
2. Recprocamente, si tenemos una funcin F : R R, que cumple las siguientes
condiciones: i) F es montona creciente, ii) lim
x+
F(x) = 1, iii) lim
x
F(x) = 0,
iv) F es continua por derecha entonces, un teorema de teora de la medida nos
dice que existe un espacio de probabilidad

, /, P

y una variable aleatoria X


denida sobre este espacio tal que F
X
= F.
23
Captulo 3. Variable Aleatoria.
3.3. Variables Aleatorias Discretas.
Denicin 3.18. Variables aleatorias discretas.
Dado un espacio de probabilidad

, /, P

. Diremos que X : R es una variable


aleatoria discreta si y slo si existe un subconjunto A
X
de R numerable, tal que
P (X A
X
) = 1.
Denicin 3.19. Si X es discreta y se considera A
X
tal que P (X = x) > 0 para
todo x A
X
, al conjunto A
X
le llamaremos Rec(X) .
Observacin 3.20. X A
X
es un suceso ya que al ser A
X
numerable, entonces
A
X
=

+
n=1
x
n
por lo que X A
X
=

+
n=1
X = x
n
/ ya que los puntos
aislados son borelianos.
Denicin 3.21. Funcin de probabilidad. Si X es discreta, denimos p
X
:
R R tal que p
X
(x) = P (X = x) para cada x R.
Observacin 3.22. Cuando X es discreta, slo una cantidad numerable de valores
de x son tales que P (X = x) > 0 por lo que alcanza denir p
X
(x) para los x
Rec(X).
Observacin 3.23. Cuando X es discreta, se tiene que

xRec(X)
p
X
(x) = 1.
Observacin 3.24. Cuando X es discreta, entonces
F
X
(x) =

tRec(X) : t[x]
p
X
(t).
3.4. Ejemplos de Variables discretas.
Ejemplo 3.25. Variable Bernoulli de parmetro p. Notacin: X Ber(p) .
Si consideramos

, /, P

espacio de probabilidad cualquiera, A / tal que P (A) =


p (0, 1) y denimos X : R tal que X(w) =

1 si w A
0 si w / A
diremos que
en este caso X distribuye Ber(p) . La funcin de probabilidad queda en este caso
p
X
(x) =

p si x = 1
1 p si x = 0
. Se suele decir que si ocurre A es xito y si no fracaso,
entonces p se interpreta como la probabilidad de xito.
Ejemplo 3.26. Variable Binomial de parmetros n y p. Notacin: X Bin(n, p) .
Si repetimos de manera independiente experimentos de Bernoulli con probabilidad
de xito p en cada prueba y denimos para cada i = 1, 2, 3, , ..., n
X
i
=

1 si hay xito en la i-sima prueba


0 si no
.
24
Captulo 3. Variable Aleatoria.
Entonces diremos que X = X
1
+X
2
+... +X
n
(cantidad de xitos en las n pruebas),
distribuye Bin(n, p). En este caso es claro que Rec(X) = 0, 1, 2, ..., n y para obtener
la funcin de probabilidad, observamos que si x 0, 1, 2, ..., n, entonces P (X = x)
signica la probabilidad de obtener x xitos (y por lo tanto nx fracasos). En primer
lugar calculamos la probabilidad de que salga xito las primeras x veces y fracaso las
siguientes n x veces. Este suceso es A
1
A
2
... A
x
A
c
x+1
... A
c
n
donde A
i
=
sale xito la vez i-sima. Como las pruebas son independientes, la probabilidad de
esta interseccin es igual al producto de las mismas. Siendo p la probabilidad de cada
xito, se deduce que la probabilidad de obtener xito las primeras x veces y fracaso las
restantes es igual a p
x
(1 p)
nx
. Ahora, si consideramos los x xitos y nx fracasos
en cualquier otro orden, la probabilidad ser tambin p
x
(1 p)
nx
, por lo tanto la
probabilidad de obtener x xitos y nx fracasos, ser p
x
(1 p)
nx
multiplicado por
la cantidad de maneras en que se pueden combinar los x xitos y n x fracasos, de
todas las maneras posibles. Para obtener dicho nmero, debemos elegir x lugares de
entre los n para ubicar los xitos (en los restantes lugares van los fracasos), por lo
que el total de formas posibles es C
n
x
. Entonces se obtuvo que
p
X
(x) = C
n
x
p
x
(1 p)
nx
para todo x 0, 1, 2, ..., n .
Ejemplo 3.27. Variable Geomtrica de parmetro p. Notacin: X Geo(p) .
En este caso se realizan de manera independiente pruebas de Bernoulli hasta obtener
el primer xito. Aqu se dene la variable X = cantidad de fracasos. En este caso,
se tiene que Rec(X) = 0, 1, 2, ... . Adems, si x 0, 1, 2, ..., el suceso X = x
signica que las primeras x veces hubo fracaso y luego hubo xito. La probabilidad
en este caso es (nuevamente usando que las pruebas son independientes) (1 p)
x
p,
por lo que
p
X
(x) = (1 p)
x
p para todo x 0, 1, 2, ... .
Observacin 3.28. Para el mismo experimento, se puede denir la variable X =
cantidad de pruebas, tambin llamada con distribucin geomtrica y para la que se
obtiene con el mismo argumento su funcin de probabilidad como
p
X
(x) = (1 p)
x1
p para todo x 1, 2, 3, ... .
Ejemplo 3.29. Variable Binomial Negativa de parmetros r, p. Notacin:
X Bin Neg(r, p) .
En este caso se realizan de manera independiente pruebas de Bernoulli hasta obtener
el r-simo xito. Aqu se dene la variable X = cantidad de fracasos. En este caso,
se tiene que Rec(X) = 0, 1, 2, ... . Adems, si x 0, 1, 2, ..., el suceso X = x
signica que las primeras x + r 1 veces, hubo r 1 xitos y x fracasos, y adems
en la prueba x + r hubo xito. Entonces la probabilidad del suceso X = x es la
probabilidad de que las primeras x +r 1 veces, hubo r 1 xitos y x fracasos, que
es (razonando como en la binomial) C
x+r1
r1
p
r1
(1 p)
x
multiplicado por p. Entonces
p
X
(x) = C
x+r1
r1
p
r
(1 p)
x
para todo x 0, 1, 2, ... .
25
Captulo 3. Variable Aleatoria.
Observacin 3.30. Al igual que lo visto para la geomtrica, si denimos la variable
X = cantidad de pruebas, tambin se llama binomial negativa, y su funcin de
probabilidad queda
p
X
(x) = C
x1
r1
p
r
(1 p)
xr
para todo x r, r + 1, r + 2, ... .
Ejemplo 3.31. Variable Hipergeomtrica de parmetros N
1
, N
2
, n. Notacin:
X Hiper(N
1
, N
2
, n) .
En este caso se considera una poblacin de N elementos, dividida en dos grupos,
cuyos totales son N
1
y N
2
. N
1
+ N
2
= N. Se realizan n extracciones sin reposicin
de objetos de esta poblacin. Le llamaremos xito cda vez que una extraccin sea
de entre entre el grupo de los N
1
y fracaso en caso contrario. Denimos en este
caso X = cantidad de xitos entre las n extracciones. Observamos que Rec(X) =
x N : max 0, N
2
n x min n, N
1
. El total de las formas posibles que
hay de extraer n objetos de un total de N, sin reposicin y sin importar el orden, es
C
N
n
. Anlogamente, tenemos C
N
1
x
formas de elegir entre los N
1
elementos x, y por cada
una de estas c ombinaciones tenemos C
N
2
nx
formas de elegir entre los N
2
elementos,
los restantes n x, por lo tanto, tendremos C
N
1
x
C
N
2
nx
casos favorables,entonces
p
X
(x) =
C
N
1
x
C
N
2
nx
C
N
n
para todo x Rec(X).
Ejemplo 3.32. Variable Poisson de parmetro . Notacin: X Poisson() .
Esta variable suele ser til para modelar diversos fenmenos, por ejemplo aquellos
en los cuales se mide la cantidad de sucesos que ocurren en un intervalo de tiempo.
Rec(X) = 0, 1, 2, ... . Ejempos de estos fenmenos pueden ser dados por la cantidad
de autos que pasan por un determinado puente en un intervalo de tiempo, rompimien-
to de cromosomas, desintegracin de partculas, etc. Bajo ciertas hiptesis sobre el
experimento es posible demostrar que existe un valor de > 0 tal que p
X
(x) =
e

x
x!
.
Veremos en lo que sigue la deduccin de la frmula que nos da la funcin de pro-
babilidad, de una variable aleatoria Poisson con parmetro > 0. Para realizar la
deduccin de la frmula, ser conveniente utilizar la siguiente denicin.
Denicin 3.33. Dado > 0, si f : (, ) R es tal que lim
h0
f(h)
h

= 0 diremos que
f es o(h

).
Observacin 3.34. o(h

) es una funcin que representa un innitsimo de orden


mayor que h

cuando h 0.
Se deja como ejercicio, vericar las siguientes propiedades concernientes al lgebra de
funciones o(h

).
o(h

) o(h

) = o(h

).
Si f es una funcin acotada, entonces f(h)o(h

) = o(h

).
26
Captulo 3. Variable Aleatoria.
o(h

) = o(h

) para cualquier .
Consideramos una familia de variables aleatorias discretas X
t

t>0
que toman valores
en 0, 1, 2, 3, ... . Le llamaremos p
n
(t) = P (X
t
= n) . Supondremos las siguientes
hiptesis sobre las variables X
t
.
1. H1: Las funciones p
n
son derivables en todo punto 0 < p
0
(1) < 1 p
0
(0) =
P (X
0
= 0) = 0 (el proceso arranca en 0).
2. H2: La distribucin de X
t+h
X
t
es igual a la de X
h
para todos t, h > 0 (el
proceso tiene incrementos estacionarios).
3. H3: Las variables X
t
2
X
t
1
y X
t
4
X
t
3
son independientes cualesquiera sean
0 < t
1
< t
2
< t
3
< t
4
(el proceso tiene incrementos independientes).
4. H4: P(X
t
2) = o(t).
H2 signica que la distribucin de X
t+h
X
t
, slo depende de h (no de t). Si X
t+h
X
t
cuenta la cantidad de sucesos que se observan en el intervalo [t, t + h], la distribucin
de esta variable es igual a la de X
h
que es la cantidad de sucesos que se observan en
el intervalo [0, h] .
H3 signica que la cantidad de sucesos que se observan en el intervalo [t
1
, t
2
] es inde-
pendiente de la cantidad de sucesos que se observan en [t
3
, t
4
] siendo estos intervalos
disjuntos entre si.
H4 signica que para valores pequeos de t, la probabilidad de observar 2 o ms suce-
sos en un intervalo de longitud t es un innitsimo de mayor orden que la probabilidad
de observar un slo suceso en el mismo intervalo.
Lema 3.35. Si se cumplen las condiciones H1, H2, H3 y H4 entonces existe > 0
tal que p
0
(t) = e
t
.
Demostracin.
Para cada t > 0, partimos el intervalo [0, t] en n subintervalos

i1
n
t,
it
n

(i = 1, 2, 3, ..., n)
de longitud constante e igual a
t
n
. Entonces, decir que en el intervalo [0, t], no se ob-
servaron sucesos, es equivalente a decir que en todos los subintervalos

i1
n
t,
it
n

no se
observaron sucesos.
p
0
(t) = P (X
t
= 0) = P

X
t/n
= 0; X
2t/n
X
t/n
= 0; ...; X
t
X
(n1)t/n
= 0

H3
=
P

X
t/n
= 0)P(X
2t/n
X
t/n
= 0)...P(X
t
X
(n1)t/n
= 0

H2
=

PX
t/n
= 0)

n
= [p
0
(t/n)]
n
.
Entonces obtuvimos que p
0
(t) = [p
0
(t/n)]
n
para todo t > 0. Entonces, para todo
m natural tenemos que p
0
(mt) = [p
0
(mt/n)]
n
, pero por otro lado como el intervalo
[0, mt] lo podemos partir en m intervalos de igual longitud t, tambin se cumple que
p
0
(mt) = [p
0
(t)]
m
. Entonces [p
0
(t)]
m
= [p
0
(mt/n)]
n
, por lo que [p
0
(t)]
m/n
= p
0
(mt/n)
27
Captulo 3. Variable Aleatoria.
para todos t > 0, m y n naturales. Hacemos t = 1 y obtenemos [p
0
(1)]
m/n
= p
0
(m/n)
para todos m y n naturales. Tomando lmites, se deduce que [p
0
(1)]
t
= p
0
(t) para
todo t > 0. Asumiendo que 0 < p
0
(1) < 1, existe > 0, tal que p
0
(1) = e

y
entonces p
0
(t) = e
t
para todo t > 0.
Teorema 3.36. Bajo las hiptesis H1, H2, H3 y H4, se cumple que
p
n
(t) =
e
t
(t)
n
n!
para todo t > 0 y n = 0, 1, 2, 3, ...
Demostracin.
Sabemos que p
0
(t) = e
t
= 1 t + o(t). Como adems por H4 P (X
t
2) = o(t),
se deduce que
p
1
(t) = P (X
t
= 1) = 1 p
0
(t) P (X
t
2) = t +o(t).
Entonces para cada h > 0 tenemos que
p
n
(t +h) = P (X
t+h
= n) =
P (X
t
= n; X
t+h
X
t
= 0) + P (X
t
= n 1; X
t+h
X
t
= 1) +
n

i=2
P (X
t
= n i; X
t+h
X
t
= i) .
Ahora, observamos que
n

i=2
P (X
t
= n i; X
t+h
X
t
= i) P (X
t+h
X
t
2) = 1 p
0
(h) p
1
(h) = o(h).
Entonces
p
n
(t +h) = P (X
t
= n; X
t+h
X
t
= 0) +P (X
t
= n 1; X
t+h
X
t
= 1) + o(h)
H3
=
P (X
t
= n)P(X
t+h
X
t
= 0) +P (X
t
= n 1)P(X
t+h
X
t
= 1) +o(h)
H2
=
p
n
(t)p
h
(0) +p
n1
(t) p
1
(t) +o(h) =
p
n
(t) (1 h +o(h)) +p
n1
(t) (h +o(h)) + o(h).
Y como p
n1
(t) y p
n
(t) son probabilidades, son acotadas, por lo que multiplicadas
por o(h) dan o(h) y por lo tanto podemos asegurar que
p
n
(t +h) = p
n
(t) (1 h) + p
n1
(t) h +o(h).
Si restamos a ambos trminos p
n
(t) y dividimos entre h obtenemos
p
n
(t +h) p
n
(t)
h
= p
n1
(t) p
n
(t) +
o(h)
h
28
Captulo 3. Variable Aleatoria.
si ahora tomamos lmite cuando h 0 obtenemos la relacin
p

n
(t) = p
n1
(t) p
n
(t) .
Observemos que conociendo la funcin p
n1
(t), tenemos una ecuacin diferencial
lineal de primer orden con condicin inicial p
n
(0) = 0. Como conocemos p
0
(t) = e
t
,
podemos hallar p
1
(t), luego p
2
(t) y as sucesivamente. Se deja como ejercicio vericar
por induccin que la solucin es p
n
(t) =
e
t
(t)
n
n!
.
Observacin 3.37. La ecuacin p

n
(t) = p
n1
(t) p
n
(t) en el caso n = 0 queda
p

0
(t) = p
0
(t) que junto con la condicin inicial p
0
(0) = 0 da por solucin p
0
(t) =
e
t
. Por lo tanto si en H1 no pedimos que 0 < p
0
(1) < 1 y a cambio pedimos que
p
1
(t) = t + o(t), obtenemos una demostracin del resultado, sin necesidad del lema
previo.
3.5. Variables aleatorias absolutamente continuas.
Denicin 3.38. Variables aleatorias absolutamente continuas.
Dado un espacio de probabilidad

, /, P

. Diremos que X : R es una variable


aleatoria absolutamente continua si y slo si existe una funcin f
X
: R R tal que
f
X
(x) 0 para todo x R y F
X
(x) =

f
X
(t)dt. A la funcin f
X
se le denomina
densidad de X.
Teorema 3.39. Si X es absolutamente continua y A es un boreliano cualquiera,
entonces
P(X A) =

A
f
X
.
La demostracin del teorema surge de la teora de la medida, pero es evidente si
consideramos como conjunto A a un intervalo (a, b] cualquiera, ya que sabemos que
P(X (a, b]) = F
X
(b) F
X
(a) =

f
X

f
X
=

b
a
f
X
.
Como los conjuntos de la forma (a, b] generan la -lgebra de Borel, por un argumento
de teora de medida se extiende la igualdad para todo A boreliano.
Observacin 3.40. Cuando decimos

A
f
X
, nos estamos reriendo a la integral de
Lebesgue, ya que la integral de Riemann est denida nicamente sobre intervalos,
de todas formas la integral de Lebesgue coincide con la de Riemann sobre intervalos.
Observacin 3.41. Si X es absolutamente continua, entonces

f
X
= 1.
29
Captulo 3. Variable Aleatoria.
Observacin 3.42. Si X es absolutamente continua entonces
P(X = a) = 0 cualquiera sea a.
Observacin 3.43. Si X es absolutamente continua entonces F
X
es continua ya que
F
X
(x

) = F
X
(x) P(X = x) = F
X
(x).
Observacin 3.44. Si x es punto de continuidad de f
X
, entonces F
X
es derivable
en x y adems F

X
(x) = f
X
(x).
Observacin 3.45. Dada una funcin de densidad, si cambiamos la denicin de la
misma en un conjunto de puntos de medida nula, no cambia la funcin de distribucin,
ya que la integral sobre este conjunto valdr cero.
Observacin 3.46. Si f : R R es tal que f(x) 0 para todo x R y cumple

f(x)dx = 1, entonces existe un espacio de probabilidad



, /, P

y una varia-
ble aleatoria X absolutamente continua tal que f
X
= f. Lo anterior se debe a que
deniendo F : R R tal que F(x) =

f(t)dt, entonces, F es montona crecien-


te, continua en todo punto, con lmites 1 y 0 a + y respectivamente. Luego
aplicamos el teorema de existencia de un espacio de probabilidad para estos casos.
3.6. Ejemplos de variables absolutamente continuas.
Ejemplo 3.47. Variable uniforme en el intervalo [a, b] . Notacin: X U [a, b] .
Cuando X es tal que f
X
(x) =

1
ba
si x (a, b)
0 si x / (a, b)
se dice que X tiene distribucin
uniforme en el intervalo [a, b] . En este caso F
X
(x) =

0 si x a
xa
ba
si a x b
1 si x b
y se
observa que si elegimos c, d, e, f tales que a < c < d < b, a < e < f < b, con
d c = f e, entonces
P (c < X < d) = F
X
(d) F
X
(c) =
d c
b a
=
f e
b a
= P (e < X < f)
por lo que intervalos incluidos en [a, b] de igual longitud tienen igual probabilidad.
Ejemplo 3.48. Variable Exponencial de parmetro > 0. Notacin: X Exp() .
Cuando X es tal que f
X
(x) =

0 si x < 0
e

si x 0
se dice que X tiene distribucin
exponencial de parmetro . En este caso F
X
(x) =

0 si x < 0
1 e

si x 0
.
Ejemplo 3.49. Variable Normal de parmetros y
2
> 0. Notacin: X
N (,
2
) .
30
Captulo 3. Variable Aleatoria.
Cuando X es tal que f
X
(x) =
1

2
2
e
1
2
2
(
x

)
2
se dice que X tiene distribucin
normal con media y varianza
2
. Veremos que sta funcin es una densidad. Da-
do que es positiva, basta ver que integra uno. Observamos que haciendo el cam-
bio de variable t =
x

, obtenemos que
1

2
2

e
1
2
2
(x)
2
dx =
1

e
1
2
t
2
dt,
por lo que bastar con probar que es equivalente a probar que
1

e
1
2
t
2
dt =
1. Calculemos

R
2
e
1
2
(
x
2
+y
2
)
dxdy. Dado que la integral es convergente, es igual a
lim
n+

D
n
e
1
2
(
x
2
+y
2
)
dxdy siendo D
n
= (x, y) R
2
: x
2
+y
2
n
2
.
Pasando a coordenadas polares, obtenemos que

D
n
e
1
2
(
x
2
+y
2
)
dxdy =

2
0
d

n
0
e
r
2
/2
rdr = 2

1 e
n
2
/2

2.
Por lo tanto, tenemos que
2 =

R
2
e
1
2
(
x
2
+y
2
)
dxdy =

e
x
2
/2
dx

e
y
2
/2
dy =

e
x
2
/2
dx

2
entonces,

e
x
2
/2
dx =

2.
3.7. Variables aleatorias mixtas.
Existen variables aleatorias que no son discretas ni absolutamente continuas. A este
tipo de variables se les suele llamar mixtas. Para construir un ejemplo de una variable
de este tipo, basta considerar una funcin de R en R, con lmites 0 y 1 a menos y
ms innito respectivamente, creciente y continua por derecha, tal que tenga un slo
punto de discontinuidad, con un salto menor estricto que 1. Un ejemplo concreto de
esta situacin se puede obtener en el siguiente ejemplo.
Ejemplo 3.50. Dada X U (0, 1), denimos Y =maxX, 1/2 .
F
Y
(y) = P (Y y) = P (max X, 1/2 y) = P (X y, 1/2 y) =

P (X y) si 1/2 y
P () si 1/2 > y
=

F
X
(y) si 1/2 y
0 si 1/2 > y
=

0 si y < 1/2
y si 1/2 y 1
1 si y > 1
Por lo tanto, observando que P(Y = 1/2) = F
Y
(1/2) F
Y
(1/2

) = 1/2 (lo cual nos


asegura que Y no es absolutamente continua) y que P(Y = y) = 0 para todo y = 1/2
se deduce que Y tampoco puede ser discreta.
31
Captulo 4
Distribucin conjunta.
Denicin 4.1. Dadas X
1
, X
2
, ..., X
k
variables aleatorias sobre un espacio de pro-
babilidad (, /, P) , se dene la distribucin del vector aleatorio (X
1
, X
2
, ..., X
k
) (o
tambin la distribucin conjunta de las variables X
1
, X
2
, ..., X
k
) como la funcin
F
X
1
,X
2
,...,X
k
: R
k
R tal que
F
X
1
,X
2
,...,X
k
(x
1
, x
2
, ..., x
k
) := P (X
1
x
1
, X
2
x
2
, ..., X
k
x
k
) .
Como siempre, el suceso X
1
x
1
, X
2
x
2
, ..., X
k
x
k
es la abreviacin de
w : X
1
(w) x
1
; X
2
(w) x
2
; ....; X
k
(w) x
k
=
k

i=1
X
1
i
((, x
i
]) .
Veremos en lo que sigue diversas propiedades de las distribuciones conjuntas.
4.1. Propiedades.
Teorema 4.2. Fijado i, mirando F
X
1
,X
2
,...,X
k
: R R como funcin nicamente de
la variable x
i
(dejando las dems jas), entonces F
X
1
,X
2
,...,X
k
es continua por derecha
y montona creciente.
Teorema 4.3. lim
x
1
,x
2
,...,x
k
+
F
X
1
,X
2
,...,X
k
(x
1
, x
2
, ..., x
k
) = 1.
Teorema 4.4. lim
algn x
i

F
X
1
,X
2
,...,X
k
(x
1
, x
2
, ..., x
k
) = 0.
Teorema 4.5. lim
x
1
+
F
X
1
,X
2
,...,X
k
(x
1
, x
2
, ..., x
k
) = F
X
2
,...,X
k
(x
2
, ..., x
k
).
Observacin 4.6. Usando esta propiedad, k 1 veces, obtenemos la distribucin de
cada variable X
i
haciendo tender todas las dems a +.
Teorema 4.7.
lim
x
1
,x
2
,...,x
i1
,x
i+1
,...,x
k
+
F
X
1
,X
2
,...,X
k
(x
1
, x
2
, ..., x
k
) = F
X
i
(x
i
) para todo i = 1, 2, 3, ..., k.
32
Captulo 4. Distribucin conjunta.
Las demostraciones de estas propiedades se realizan de manera similar al caso univa-
riado, haremos como ejemplo el teorema 1.3.
Dado que F
X
1
,X
2
,...,X
k
es montona creciente como funcin de cada variable, basta
hallar el lmite sobre alguna sucesin en particular en cada variable. Por ello, deni-
mos los conjuntos A
n
=
k

i=1
X
1
i
((, n]) . Observamos que la sucesin de conjuntos
A
n

nN
crece a , luego por la propiedad de continuidad de las probabilidades se
deduce que
lim
n+
F
X
1
,X
2
,...,X
k
(n, n, ..., n) = lim
n+
P (A
n
) = P

n=1
A
n

= P () = 1.
Teorema 4.8. Si para cada p R
k
, i = 1, 2, 3, ..., k y h
1
, h
2
, ..., h
k
R
+
denimos el
operador
(i)
h
i
F
X
(p) = F
X
(p +h
i
e
i
) F
X
(p), (donde e
1
, e
2
, ..., e
k
son los vectores de
la base cannica de R
k
) entonces

(k)
h
k

(k1)
h
k1
...
(1)
h
1
F
X
(p) 0.
Observamos que en el caso bivariado, tenemos que
P (a < X b; c < Y d) = F
X,Y
(b, d) F
X,Y
(b, c) F
X,Y
(a, d) +F
X,Y
(a, c) .
Demostracin.
Se deja como ejercicio. Sugerencia, probar por induccin que

(k)
h
k

(k1)
h
k1
...
(1)
h
1
F
X
(p) =

1
,
2
,...,
k
{0,1}
(1)
k
P
k
i=1

i
F
X
(p
1
+
1
h
1
, p
2
+
2
h
2
, ..., p
k
+
k
h
k
) =
P (p
1
< X
1
p
1
+ h
1
, p
1
< X
2
p
2
+h
2
, ..., p
k
< X
k
p
k
+h
k
) 0.
Como en el caso univariado, podramos preguntarnos cundo una funcin F : R
k

R es la funcin de distribucin de un vector (X


1
, X
2
, ..., X
k
) en cierto espacio de
probabilidad. Nuevamente, deniramos la terna

R
k
, B, P

deniendo P

(A) de tal
modo que
P

((, x
1
] (, x
2
] ... (, x
k
]) = F (x
1
, x
2
, ..., x
k
). Para ello necesitamos
nuevamente del teorema de extensin de medidas. Esto es posible cuando F cumple
las siguientes propiedades: i) F es continua por derecha y montona creciente como
funcin de cada una de sus variables, ii) lim
x
1
,x
2
,...,x
k
+
F (x
1
, x
2
, ..., x
k
) = 1, iii)
lim
algn x
i

F (x
1
, x
2
, ..., x
k
) = 0, iv)
(k)
h
k

(k1)
h
k1
...
(1)
h
1
F (p) 0 para todo p R
k
y
h
1
, h
2
, ..., h
k
R
+
.
Observacin 4.9. En el caso en que k = 1, se tiene que la condicin iv) se cumple
automticamente ya que queda F(b) F(a) para a < b condicin que se satisface al
ser F montona creciente.
33
Captulo 4. Distribucin conjunta.
Teorema 4.10. Si F : R
k
R cumple las propiedades i) ii) iii) y iv) entonces,
existe un espacio de probabilidad (, /, P) y un vector aleatorio (X
1
, X
2
, ..., X
k
) tales
que F
X
1
,X
2
,...,X
k
= F.
4.2. Vectores aleatorios discretos.
Denicin 4.11. Vectores aleatorios discretos.
Dado un espacio de probabilidad (, /, P), se dice que el vector aleatorio (X
1
, X
2
, ..., X
k
) :
R
k
es discreto si y slo si existe A R
k
numerable tal que P ((X
1
, X
2
, ..., X
k
) A) =
1.
Veremos ahora que un vector aleatorio es discreto si y slo si todas sus variables
componentes son discretas.
Teorema 4.12. Dado un espacio de probabilidad (, /, P), entonces el vector alea-
torio (X
1
, X
2
, ..., X
k
) es discreto si y slo si X
i
es discreta para todo i = 1, 2, 3, ..., k.
Demostracin.
) Existe A R
k
numerable tal que P ((X
1
, X
2
, ..., X
k
) A) = 1. Entonces deni-
mos A
1
:=
1
(A) , A
2
:=
2
(A) , ..., A
k
:=
k
(A) como las proyecciones sobre cada
una de las componentes, es decir
i
: R
k
R tal que
i
(x
1
, x
2
, ..., x
k
) = x
i
para cada
i = 1, 2, 3, ..., k.
Observando que, para todo i = 1, 2, 3, ..., k, se tiene que (X
1
, X
2
, ..., X
k
) A
X
i
A
i
, entonces
1 = P ((X
1
, X
2
, ..., X
k
) A) P (X
i
A
i
) ,
entonces X
i
es discreta.
) Como todas las X
i
son discretas, entonces existen conjuntos A
1
, A
2
, ..., A
k
R
numerables tales que P (X
i
A
i
) = 1 para todo i = 1, 2, 3, ..., k. Entonces denimos
A = A
1
A
2
... A
k
es numerable (por ser producto cartesiano nito de conjuntos
numerables) y adems, como interseccin nita de conjuntos de probabilidad 1 tiene
probabilidad 1, nos queda
P ((X
1
, X
2
, ...X
k
) A) = P

i=1
X
i
A
i

= 1.
Entonces (X
1
, X
2
, ...X
k
) es discreto.
De manera anloga a las variables discretas, y dado que un vector discreto toma
valores en un conjunto numerable con probabilidad 1, tiene sentido denir a funcin
de probabilidad conjunta, como la probabilidad de tomar cada uno de los valores de
su recorrido.
Denicin 4.13. Si X = (X
1
, X
2
, ..., X
k
) es discreto, entonces le llamamos recorrido
de X al conjunto Rec(X) = x = (x
1
, x
2
, ..., x
k
) R
k
tales que P(X = x) > 0.
34
Captulo 4. Distribucin conjunta.
Denicin 4.14. Funcin de probabilidad conjunta. Si X = (X
1
, X
2
, ..., X
k
) es
discreto, denimos para cada x R
k
,
p
X
1
,X
2
,...,X
k
(x
1
, x
2
, ..., x
k
) = P(X
1
= x
1
, X
2
= x
2
, ..., X
k
= x
k
).
a la que le llamaremos funcin de probabilidad conjunta de las variables X
1
, X
2
, ..., X
k
.
Observacin 4.15. Si A es boreliano en R
k
, entonces
P(X A) =

xARec(X)
p
X
1
,X
2
,...,X
k
(x
1
, x
2
, ..., x
k
).
Observacin 4.16.

xRec(X)
p
X
1
,X
2
,...,X
k
(x
1
, x
2
, ..., x
k
) = 1.
Ejemplo 4.17. Vector multinomial.
Supongamos un experimento donde se repiten de forma independiente n pruebas, don-
de en cada una de ellas hay k resultados posibles, digamos E
1
, E
2
, ..., E
k
. La probabili-
dad en cada prueba de que se observe el resultado E
i
es p
i
, para i = 1, 2, 3, ..., k, donde
p
1
+ p
2
+ ... + p
k
= 1. Se denen para este experimento las variables X
1
, X
2
, ..., X
k
,
como X
i
= cantidad de pruebas entre las n en que se obtuvo el resultado E
i
para
i = 1, 2, 3, ..., k. Se dice en estos casos que el vector (X
1
, X
2
, ..., X
k
) tiene distribucin
multinomial con parmetros n, p
1
, p
2
, ..., p
k
.
Notacin. (X
1
, X
2
, ..., X
k
) Mult(n, p
1
, p
2
, ..., p
k
) .
Vamos a deducir su funcin de probabilidad puntual.
Fijemos x
1
, x
2
, ..., x
k
0, 1, 2, ..., n tales que x
1
+ x
2
+ ... + x
k
= n. El suceso
X
1
= x
1
, X
2
= x
2
, ..., X
k
= x
k
signica que de entre las n pruebas, x
1
veces se ob-
tuvo E
1
como resultado, x
2
veces se obtuvo E
2
,..., x
k
veces se obtuvo E
k
. La proba-
bilidad de que las primeras x
1
veces se obtenga E
1
, las siguientes x
2
veces se obtenga
E
2
, y as sucesivamente hasta que las ltimas x
k
veces se obtenga E
k
, es, debido a
la independencia de cada prueba, igual a p
x
1
1
p
x
2
2
...p
x
k
k
. Si intercambiamos de lugar el
orden donde salen las x
1
veces E
1
, x
2
veces E
2
, .... x
k
veces E
k
, la probabilidad ser
tambin p
x
1
1
p
x
2
2
...p
x
k
k
ya que x
1
veces aparecer el factor p
1
, x
2
veces p
2
, ..., x
k
veces
p
k
. Por lo tanto la probabilidad de X
1
= x
1
, X
2
= x
2
, ..., X
k
= x
k
ser p
x
1
1
p
x
2
2
...p
x
k
k
multiplicado por la cantidad de formas de elegir x
1
lugares para ubicar las veces en
que sale E
1
, x
2
lugares para ubicar las veces en que sale E
2
,..., x
k
lugares para ubicar
las veces en que sale E
k
. Para obtener este nmero, debemos primero elegir x
1
lugares
entre los n para ubicar los E
1
, esto se puede realizar de C
n
x
1
formas, luego nos quedan
nx
1
lugares, disponibles, de los cuales debemos elegir x
2
para ubicar los E
2
, lo cual
se puede realizar de C
nx
1
x
2
formas, luego quedan n x
1
x
2
lugares disponibles, de
los cuales debemos elegir x
3
para ubicar los E
3
, lo que se puede realizar de C
nx
1
x
2
x
3
formas, y as seguimos sucesivamente.
Al nal, el nmero de todas las combinaciones posibles es C
n
x
1
C
nx
1
x
2
C
nx
1
x
2
x
3
....C
x
k
x
k
=
n!
x
1
!x
2
!...x
k
!
. As obtuvimos que para todos x
1
, x
2
, ..., x
k
0, 1, 2, ..., n tales que x
1
+
35
Captulo 4. Distribucin conjunta.
x
2
+... +x
k
= n,
P (X
1
= x
1
, X
2
= x
2
, ..., X
k
= x
k
) =
n!
x
1
!x
2
!...x
k
!
p
x
1
1
p
x
2
2
...p
x
k
k
.
Observacin 4.18. Si (X
1
, X
2
, ..., X
k
) Mult(n, p
1
, p
2
, ..., p
k
), entonces X
i
Bin(n, p
i
)
para i = 1, 2, 3, ..., k.
4.3. Vectores aleatorios absolutamente continuos.
Denicin 4.19. Vectores aleatorios absolutamente continuos.
Dado un espacio de probabilidad (, /, P), se dice que el vector aleatorio (X
1
, X
2
, ..., X
k
) :
R
k
es absolutamente continuo, si y slo si existe f
X
1
,X
2
,...,X
k
: R
k
R tal que:
i) f
X
1
,X
2
,...,X
k
(x
1
, x
2
, ..., x
k
) 0 para todo (x
1
, x
2
, ..., x
k
) R
k
,
ii) F
X
1
,X
2
,...,X
k
(x
1
, x
2
, ..., x
k
) =

x
1

x
2

...

x
k

f
X
1
,X
2
,...,X
k
(u
1
, u
2
, ..., u
k
)du
1
du
2
...du
k
.
A la funcin f
X
1
,X
2
,...,X
k
se la denomina densidad del vector (X
1
, X
2
, ..., X
k
), o tambin
densidad conjunta de las variables X
1
, X
2
, ..., X
k
.
En R
2
, se tiene que para todo (x, y) R
2
(por aplicacin del teorema de Fubini),
F
X,Y
(x, y) =

f
X,Y
(u, v)dv

du =

f
X,Y
(u, v)du

dv.
4.3.1. Propiedades.
Teorema 4.20. Dado un espacio de probabilidad (, /, P). Si el vector aleatorio
(X
1
, X
2
, ..., X
k
) : R
k
es absolutamente continuo con densidad f
X
1
,X
2
,...,X
k
, en-
tonces, para todo boreliano A R
k
se cumple que
P ((X
1
, X
2
, ..., X
k
) A) =

A
f
X
1
,X
2
,...,X
k
(x
1
, x
2
, ..., x
k
)dx
1
dx
2
...dx
k
.
Demostracin.
Nuevamente el resultado se sigue del teorema de existencia y unicidad de extensin
de medidas, ya que la propiedad es vlida para todo boreliano de la forma
A = (, x
1
] (, x
2
] ... (, x
k
]
y dado que los mismos generan la -lgebra de Borel en R
k
se concluye la demostracin.
Observacin 4.21. El signicado de

. . .

A
f es el de la integral de Lebesgue, que
en el caso en que el boreliano A es un producto cartesiano de intervalos o una unin
disjunta de productos cartesianos de intervalos, entonces dicha integral coincide con
la de Riemann.
36
Captulo 4. Distribucin conjunta.
Observacin 4.22. Si el boreliano A tiene medida de Lebesgue nula, entonces
P (X A) = 0.
Teorema 4.23. Dado un espacio de probabilidad (, /, P). Si el vector aleatorio
(X
1
, X
2
, ..., X
k
) : R
k
es absolutamente continuo con densidad f
X
1
,X
2
,...,X
k
, en-
tonces,

k
F
X
1
,X
2
,...,X
k
x
1
x
2
...x
k
(x
1
, x
2
, ..., x
k
) = f
X
1
,X
2
,...,X
k
(x
1
, x
2
, ..., x
k
)
igualdad vlida para todos los (x
1
, x
2
, ..., x
k
) R
k
salvo en un conjunto de medida
nula.
Demostracin.
Basta derivar sucesivamente a la funcin
F
X
1
,X
2
,...,X
k
(x
1
, x
2
, ..., x
k
) =

x
1

x
2

...

x
k

f
X
1
,X
2
,...,X
k
(u
1
, u
2
, ..., u
k
)du
1
du
2
...du
k
respecto a x
1
, x
2
, ..., x
k
en todo punto de continuidad de f
X
1
,X
2
,...,X
k
, el conjunto de
puntos donde se puede realizar esta operacin es el de puntos de continuidad de
f
X
1
,X
2
,...,X
k
que son todos salvo un conjunto de medida nula.
En lo que sigue, responderemos a la siguiente pregunta: (X
1
, X
2
, ..., X
k
) es absolu-
tamente continuo, es equivalente a decir que cada X
i
es absolutamente continua para
i = 1, 2, 3, ..., k?
Teorema 4.24. Dado el vector aleatorio (X
1
, X
2
, ..., X
k
) : R
k
denido sobre un
espacio de probabilidad (, /, P).
Si el vector aleatorio (X
1
, X
2
, ..., X
k
) es absolutamente continuo, entonces X
i
es ab-
solutamente continua para todo i = 1, 2, 3, ..., k.
Adems la densidad de X
i
es
f
X
i
(u
i
) =

R
k1
f
X
1
,X
2
,...,X
k
(u
1
, u
2
, ..., u
k
)du
1
du
2
...du
i1
du
i+1
...du
k
.
Demostracin.
Sabemos que lim
x
1
,x
2
,...,x
i1
,x
i+1
,...,x
k
+
F
X
1
,X
2
,...X
k
(x
1
, x
2
, ..., x
k
) = F
X
i
(x
i
) para todo i =
1, 2, 3, ..., k, entonces
lim
x
1
,x
2
,...,x
i1
,x
i+1
,...,x
k
+
F
X
1
,X
2
,...,X
k
(x
1
, x
2
, ..., x
k
) =
lim
x
1
,x
2
,...,x
i1
,x
i+1
,...,x
k
+

x
1

x
2

...

x
k

f
X
1
,X
2
,...,X
k
(u
1
, u
2
, ..., u
k
)du
1
du
2
..du
k
=
(aplicando Fubini)

x
i

. . .

R
k1
f
X
1
,X
2
,...,X
k
(u
1
, u
2
, ..., u
k
)du
1
du
2
...du
i1
du
i+1
...du
k

du
i
37
Captulo 4. Distribucin conjunta.
Entonces
F
X
i
(x
i
) =

x
i

. . .

R
k1
f
X
1
,X
2
,...,X
k
(u
1
, u
2
, ..., u
k
)du
1
du
2
...du
i1
du
i+1
...du
k

du
i
de donde se deduce el resultado.
Observacin 4.25. En el caso particular en dimensin 2, el teorema anterior nos
dice que si (X, Y ) es absolutamente continuo con densidad f
X,Y
, entonces X e Y son
absolutamente continuas con densidades
f
X
(x) =

f
X,Y
(x, y)dy, y f
Y
(y) =

f
X,Y
(x, y)dx.
El recproco del teorema anterior no tiene por qu cumplirse, para ello consideremos
el siguiente ejemplo.
Denimos (X, Y ) vector en R
2
, tal que (X, Y ) toma valores en la diagonal del cua-
drado [0, 1] [0, 1] con distribucin uniforme. Es decir, si denimos el conjunto
D =

(x, y) [0, 1]
2
: y = x

, entonces para todo I D intervalo, se cumple que


P ((X, Y ) A) = long(I)/

2. Observamos en este caso que el vector (X, Y ) no es


absolutamente continuo, ya que toma valores en un segmento con probabilidad uno.
Como un segmento tiene medida nula, toda integral doble sobre dicho conjunto va-
le 0. Entonces, si (X, Y ) admitiera densidad, se tendra que 1 = P ((X, Y ) A) =

A
f
X,Y
(x, y) = 0. Se deja como ejercicio, hallar la distribucin conjunta de (X, Y )
y deducir que tanto X como Y tienen distribucin uniforme en [0, 1] y por lo tanto
X e Y son absolutamente continuas.
Nuevamente, para que una funcin f : R
k
R sea la funcin de densidad de un
vector (X
1
, X
2
, ..., X
k
) en algn espacio de probabilidad, se debe cumplir que:
i) f(x) 0 para todo x R
k
(alcanza que sea para todo x salvo en un conjunto de
medida nula) y
ii)

+

...

f
X
1
,X
2
,...,X
k
(x
1
, x
2
, ..., x
k
)dx
1
dx
2
...dx
k
= 1,
ya que a partir de estas dos condiciones, deniendo
F (x
1
, x
2
, ..., x
k
) =

x
1

x
2

...

x
k

f
X
1
,X
2
,...,X
k
(u
1
, u
2
, ..., u
k
)du
1
du
2
...du
k
se deducen de manera inmediata las 4 condiciones que requiere la funcin F para ser
la distribucin de cierto vector aleatorio en cierto espacio de probabilidad.
Ejemplo 4.26. Vector normal multivariado.
Dados un vector (
1
,
2
, ...,
k
) R
k
y una matriz

de dimensiones kk, simtrica


y denida positiva, se dice que el vector (X
1
, X
2
, ..., X
k
) tiene distribucin normal
multivariada con parmetros (,

) si su densidad viene dada por la frmula


f
X
(x) = f
X
1
,X
2
,...,X
k
(x
1
, x
2
, ..., x
k
) =
1

det (

)
e
1
2
(x)
P
1
(x)
T
.
38
Captulo 4. Distribucin conjunta.
Observacin 4.27. En el caso particular en que k = 1 queda la distribucin normal
de parmetros (,
2
) .
Para vericar que sta funcin integra 1, basta realizar en la misma el cambio de
variable t = (x )A
1
siendo A una matriz tal que A
2
=

(una raz cuadrada de

) y luego observar que



...

R
k
1

k
e
1
2
tt
T
dt
1
dt
2
...dt
k
=
1

k

...

R
k
e
1
2
(
t
2
1
+t
2
2
+...+t
2
k
)
dt
1
dt
2
...dt
k
=
1

e
1
2
t
2
1
dt
1

e
1
2
t
2
2
dt
2
...

e
1
2
t
2
k
dt
k
= 1
ya que qued un producto de k integrales donde cada funcin integrando es la
densidad normal (0, 1) que integra 1.
Se puede probar que cuando X = (X
1
, X
2
, ..., X
k
) es normal multivariado, entonces
la distribucin de cada X
i
es N(
i
,
2
i
) para i = 1, 2, 3..., k.
El caso particular en que k = 2, se llama tambin normal bivariada, y en este caso si
= (
1
,
2
) y

=


2
1

1,2

1,2

2
2

, obtenemos la frmula
f
X,Y
(x, y) =
e
1
2
(

2
1

2
2

2
1,2
)
(
x
2

2
2
+y
2

2
1
+
2
1

2
2
+
2
2

2
1
2xy
1,2
+2x
2

1,2
+2y
1

1,2
2x
2
2

1
2y
2
1

2
2
1

1,2)
2

2
1

2
2

2
1,2

.
4.4. Independencia de variables aleatorias.
Denicin 4.28. Dado

, /, P

espacio de probabilidad, se dice que las varia-


bles aleatorias X
1
, X
2
, ..., X
k
son independientes si y slo si para todos A
1
, A
2
, ..., A
k
borelianos, se cumple que
P (X
1
A
1
, X
2
A
2
, ..., X
k
A
k
) = P (X
1
A
1
) P (X
2
A
2
) ...P (X
k
A
k
) .
Observacin 4.29. Se observa que slo sta igualdad ya implica que las variables
tomadas de a dos o de a tres, etc son indpendientes, ya que por ejemplo para ver que
X
1
y X
2
son independientes, basta considerar A
3
= A
4
= ... = A
k
= con lo que
obtenemos P (X
1
A
1
, X
2
A
2
) = P (X
1
A
1
) P (X
2
A
2
) .
Teorema 4.30. Dado

, /, P

espacio de probabilidad, entonces las variables alea-


torias X
1
, X
2
, ..., X
k
son independientes si y slo si se cumple que
F
X
1
,X
2
,...,X
k
(x
1
, x
2
, ..., x
k
) = F
X
1
(x
1
) F
X
2
(x
2
) ...F
X
k
(x
k
) para todo (x
1
, x
2
, ..., x
k
) R
k
.
39
Captulo 4. Distribucin conjunta.
Demostracin.
) Basta considerar los borelianos A
1
= (, x
1
] , A
2
= (, x
2
] , ..., A
k
= (, x
k
],
entonces
P (X
1
A
1
, X
2
A
2
, ..., X
k
A
k
) = F
X
1
,X
2
,...,X
k
(x
1
, x
2
, ..., x
k
)
mientras que
P (X
1
A
1
) P (X
2
A
2
) ...P (X
k
A
k
) = F
X
1
(x
1
) F
X
2
(x
2
) ...F
X
k
(x
k
)
y como las variables son independientes, se obtiene la igualdad buscada.
) La igualdad F
X
1
,X
2
,...,X
k
(x
1
, x
2
, ..., x
k
) = F
X
1
(x
1
) F
X
2
(x
2
) ...F
X
k
(x
k
) para todo
(x
1
, x
2
, ..., x
k
) R
k
implica que se cumple que P (X
1
A
1
, X
2
A
2
, ..., X
k
A
k
) =
P (X
1
A
1
) P (X
2
A
2
) ...P (X
k
A
k
) para los borelianos en R
k
de la forma A
1

A
2
... A
k
= (, x
1
] (, x
2
] ... (, x
k
] . Luego, como esta familia de
borelianos (al variar x
1
, x
2
, ..., x
k
) generan la -lgebra de Borel en R
k
, por extensin,
se deduce que la propiedad es vlida para todos A
1
, A
2
, ..., A
k
borelianos.
Dado que en el caso discreto determinar la distribucin conjunta es equivalente a
determinar la funcin de probabilidad conjunta, y en el caso absolutamente continuo,
determinar la funcin de distribucin es equivalente a determinar la densidad conjunta
(salvo conjuntos de medida nula), se tienen los siguientes corolarios.
Corolario 4.31. En el caso discreto, se tiene que las variables aleatorias X
1
, X
2
, ..., X
k
son independientes si y slo si se cumple que
p
X
1
,X
2
,...,X
k
(x
1
, x
2
, ..., x
k
) = p
X
1
(x
1
) p
X
2
(x
2
) ...p
X
k
(x
k
)
para todo (x
1
, x
2
, ..., x
k
) R
k
.
Demostracin.
) Cualesquiera sean los reales x
1
, x
2
, ..., x
k
basta considerar los borelianos A
1
=
x
1
, A
2
= x
2
, ..., A
k
= x
k
y usar la denicin de independencia.
) Dados los reales x
1
, x
2
, ..., x
k
, se tiene que F
X
1
,X
2
,...,X
k
(x
1
, x
2
, ..., x
k
) =

t
1
Rec(X
1
) : t
1
x
1
...

t
k
Rec(X
k
) : t
k
x
k
p
X
1
,X
2
,...,X
k
(t
1
, t
2
, ..., t
k
) =

t
1
Rec(X
1
) : t
1
x
1
...

t
k
Rec(X
k
) : t
k
x
k
p
X
1
(x
1
) p
X
2
(x
2
) ...p
X
k
(x
k
) =

t
1
Rec(X
1
) : t
1
x
1
p
X
1
(x
1
)

t
2
Rec(X
2
) : t
2
x
2
p
X
2
(x
2
) ...

t
k
Rec(X
k
) : t
k
x
k
p
X
k
(x
k
) =
F
X
1
(x
1
)F
X
2
(x
2
)...F
X
k
(x
k
).
40
Captulo 4. Distribucin conjunta.
Corolario 4.32. En el caso absolutamente continuo, Si (X
1
, X
2
, ..., X
k
) es vector
absolutamente continuo, se tiene que las variables aleatorias X
1
, X
2
, ..., X
k
son inde-
pendientes si y slo si se cumple que
f
X
1
,X
2
,...,X
k
(x
1
, x
2
, ..., x
k
) = f
X
1
(x
1
) f
X
2
(x
2
) ...f
X
k
(x
k
)
para todo (x
1
, x
2
, ..., x
k
) R
k
punto de continuidad def
X
1
,X
2
,...,X
k
.
Demostracin.
) F
X
1
,X
2
,...,X
k
(x
1
, x
2
, ..., x
k
) = F
X
1
(x
1
)F
X
2
(x
2
)...F
X
k
(x
k
), para todo (x
1
, x
2
, ..., x
k
)
R
k
punto de continuidad de f
X
1
,X
2
,...,X
k
, si derivamos sucesivamente de ambos la-
dos de la igualdad, primero respecto de x
1
luego respecto de x
2
... y por ltimo res-
pecto de x
k
, del lado izquierdo queda f
X
1
,X
2
,...,X
k
(x
1
, x
2
, ..., x
k
) y del derecho queda
f
X
1
(x
1
)f
X
2
(x
2
)...f
X
k
(x
k
), por lo tanto la igualdad se obtiene en todo punto de R
k
,
salvo en un conjunto de medida nula.
)
F
X
1
,X
2
,...,X
k
(x
1
, x
2
, ..., x
k
) =

x
1

x
2

...

x
k

f
X
1
(u
1
)f
X
2
(u
2
)...f
X
k
(u
k
)du
1
du
2
...du
k
=

x
1

f
X
1
(u
1
)du
1

x
2

f
X
2
(u
2
)du
2
...

x
k

f
X
k
(u
k
)du
k
=
F
X
1
(x
1
)F
X
2
(x
2
)...F
X
k
(x
k
).
Denicin 4.33. Dado

, /, P

espacio de probabilidad, se dice que la familia de


variables aleatorias X
t

tI
donde I es una familia arbitraria de ndices si y slo si
para todo F I nito, se cumple que X
t

tF
son independientes.
Ejemplo 4.34. Si el vector X = (X
1
, X
2
, ..., X
k
) es normal multivariado, con par-
metros (,

), donde la matriz

es diagonal, es decir cuando
i,j
= 0 para todos
i = j, observamos que
(x )
1

(x )
T
=
k

i=1

x
i

2
por lo que la densidad conjunta queda
f
X
1
,X
2
,...,X
k
(x
1
, x
2
, ..., x
k
) =
1

2
2
1

2
2
...
2
k
e
P
k
i=1

x
i

2
=
k

i=1
1

2
2
i
e
1
2

x
i

2
por lo que se deduce que X
1
, X
2
, ..., X
k
son independientes cuyas distribuciones son
X
i
N (
i
,
2
i
) para i = 1, 2, 3, ..., k. Ms adelante se ver el signicado de los
parmetros (,

) .
41
Captulo 4. Distribucin conjunta.
Teorema 4.35. Convolucin de dos variables aleatorias.
Dadas dos variables aleatorias independientes X, Y : R denidas sobre un espa-
cio de probabilidad (, /, P) . Consideremos la variable Z = X +Y.
Entonces:
(i) Si X e Y son discretas, entonces Z es discreta y adems
p
Z
(z) =

xRec(X) zxRec(Y )
p
X
(x)p
Y
(z x).
(ii) Si (X, Y ) es absolutamente continuo, entonces Z es absolutamente continua y
adems
f
Z
(z) =

f
X
(x)f
Y
(z x)dx.
Demostracin.
(i)
p
Z
(z) = P (Z = z) = P (X + Y = z) =

xRec(X)
P (X +Y = z; X = x) =

xRec(X)
P (Y = z x; X = x) =

xRec(X), zxRec(Y )
P (Y = z x) P (X = x) =

xRec(X) zxRec(Y )
p
X
(x)p
Y
(z x).
(ii) Si le llamamos A = (x, y) R
2
: x +y z, entonces
F
Z
(z) = P (Z z) = P (X +Y z) =

A
f
X,Y
(x, y)dxdy =

A
f
X
(x)f
Y
(y)dxdy =

zx

f
X
(x)f
Y
(y)dy

dx =

zx

f
Y
(y)dy

f
X
(x)dx
ahora realizando en la integral en y el cambio de variable t = y +x y nos queda

f
Y
(t x)dt

f
X
(x)dx =

f
X
(x)f
Y
(t x)dx

dt.
Por lo tanto Z es absolutamente continua con densidad
f
Z
(z) =

f
X
(x)f
Y
(z x)dx.
42
Captulo 4. Distribucin conjunta.
Ejemplo 4.36. Si X N (
1
, a
2
) , Y N (
2
, b
2
) son independientes, entonces
Z = X +Y N (
1
+
2
, a
2
+b
2
) .
Basta probarlo para el caso
1
=
2
= 0, ya que si X N (,
2
) ,entonces X = +T
donde T N (0,
2
) .
Aplicamos entonces la frmula de la convolucin y obtenemos que
f
Z
(z) =

f
X
(x)f
Y
(z x)dx = f
Z
(z) =
1
2ab

e
x
2
2a
2
e
(zx)
2
2b
2
dx =
1
2ab
e
z
2
2(a
2
+b
2
)

e
1
2a
2
b
2

a
2
+b
2

za
2

a
2
+b
2

2
dx.
Luego de hacer el cambio de variable t =
1
ab

a
2
+b
2

za
2

a
2
+b
2

, obtenemos que la
ltima integral es igual a
1
2

a
2
+b
2
e
z
2
2(a
2
+b
2
)

e
t
2
2
dx =
1

2 (a
2
+b
2
)
e
z
2
2(a
2
+b
2
)
que es la funcin de densidad correspondiente a una variable con distribucin N (0, a
2
+ b
2
) .
Observamos que de esta propiedad, se deduce que toda combinacin lineal de variables
normales independientes es normal.
Ejemplo 4.37. Si X Bin(n, p), Y Bin(m, p) son independientes, entonces Z =
X +Y Bin(n +m, p) .
En este caso,
p
Z
(z) = P (Z = z) = P (X +Y = z) =
n+m

x=0
P (Y = z x) P (X = x) =

x : xn, zxm
C
m
zx
p
zx
(1 p)
mz+x
C
n
x
p
x
(1 p)
nx
=

x : xn, zxm
C
m
zx
C
n
x
p
z
(1 p)
n+mz
= p
z
(1 p)
n+mz

x : xn, zxm
C
m
zx
C
n
x
Ahora, teniendo en cuenta el coeciente que multiplica al trmino t
z
cuando desarro-
llamos (1 +t)
n
(1 +t)
m
= (1 +t)
n+m
, obtenemos la igualdad

x : xn, zxm
C
m
zx
C
n
x
= C
n+m
x
Por lo tanto
p
Z
(z) = C
n+m
x
p
z
(1 p)
n+mz
.
43
Captulo 4. Distribucin conjunta.
4.5. Mtodo del Jacobiano.
Frecuentemente, conocemos la distribucin de un vector aleatorio X y debemos tra-
bajar con una funcin del mismo, digamos Y = g(X). Si el vector X es absolutamente
continuo y la funcin g es diferenciable deseamos saber si Y es tambin absolutamen-
te continuo, y si lo es, obtener una frmula que nos permita hallar la densidad de Y .
El siguiente teorema apunta en esa direccin.
Teorema 4.38. Dados

, /, P

espacio de probabilidad, X = (X
1
, X
2
, ..., X
k
) :
R
k
vector aleatorio y g : U V donde U, V son abiertos de R
k
tales que
P (X U) = 1, g es biyectiva y diferenciable con detJ
g
(x) = 0 para todo x U.
Si X es absolutamente continuo entonces Y = g(X) es absolutamente continuo con
densidad conjunta dada por
f
Y
(y) = f
X

g
1
(y)

1
[detJ
g
(g
1
(y))[
1
V
(y).
Demostracin.
Basta ver que para todo boreliano B en R
k
, se puede expresar P (Y B) como una
integral sobre el conjunto B de cierta funcin, la cual ser necesariamente (salvo
conjuntos de medida nula) la densidad del vector Y.
P (Y B) = P (g(X) B) = P

X g
1
(B)

g
1
(B)U
f
X
(x)dx
1
dx
2
...dx
k
.
Ahora, realizando el cambio de variable y = g(x) en la integral nos queda

BV
f
X
(g
1
(y))
1
[detJ
g
(g
1
(y))[
dy
1
dy
2
...dy
k
=

B
f
X

g
1
(y)

1
[detJ
g
(g
1
(y))[
1
V
(y)dy
1
dy
2
...dy
k
.
En el caso particular en que k = 1 tenemos el siguiente corolario.
Corolario 4.39. Dados

, /, P

espacio de probabilidad, X : R variable


aleatoria y g : U V donde U, V son abiertos de R tales que P (X U) = 1, g es
biyectiva y derivable, con g

(x) = 0 para todo x U.


Si X es absolutamente continua entonces Y = g(X) es absolutamente continua con
densidad dada por
f
Y
(y) = f
X

g
1
(y)

1
[g

(g
1
(y))[
1
V
(y).
Ejemplo 4.40. Como aplicacin veremos que si X, Z N (0, 1) independientes, y
denimos Y = [Z[ entonces probaremos que X
2
+Y
2
Exp( = 1/2) .
44
Captulo 4. Distribucin conjunta.
En primer lugar observamos que, para y > 0, se tiene que F
Y
(y) = P ([Z[ y) =
P (y Z y) = F
Z
(y)F
Z
(y) = 2F
Z
(y)1, por lo tanto f
Y
(y) = 2f
Z
(y)1
{y>0}
=
2

2
e
y
2
2
1
{y>0}
. Tambin vemos que P

(X, Y ) R R
+

= 1.
Consideramos la funcin g : R R
+
V siendo V = (u, v) R
2
: v > u
2
tal
que g(x, y) = (x, x
2
+y
2
) . Esta funcin es invertible y su inversa es g
1
(w, t) =

w,

t w
2

. detJ
g
(x, y) = 2y.
Dado que X e Y son independientes, se tiene que su densidad conjunta es f
X,Y
(x, y) =
f
X
(x)f
Y
(y) =
1

e
1
2
(
x
2
+y
2
)
1
{y>0}
.
La densidad conjunta de (W, T) = g (X, Y ) = (X, X
2
+Y
2
) ser entonces
f
W,T
(w, t) = f
X,Y
(g
1
(w, t))
1
[detJ
g
(g
1
(w, t))[
1
V
(w, t) =
1

e
t
2
1
2

t w
2
1
V
(w, t).
Hallamos la densidad de T = X
2
+Y
2
a partir de la densidad conjunta como
f
T
(t) =

f
W,T
(w, t)du
si t>0
=

t
1

e
v
2
1
2

t w
2
dw
luego, realizando el cambio de variable u =

tsen obtenemos f
T
(t) =
1
2
e
t/2
y, dado
que para t < 0, se tiene f
T
(t) = 0, se deduce que
f
T
(t) =
1
2
e
t/2
1
{t>0}
por lo que V = X
2
+Y
2
Exp( = 1/2) .
Ejercicio.
Si X e Y son independientes con distribucin exponencial de parmetro = 1. Hallar
la densidad conjunta del vector (X +Y, X Y ) .
45
Captulo 5
Integral de Riemann-Stieltjes.
Dadas funciones g, F : [a, b] R que cumplan ciertos requisitos, deniremos la
expresin

b
a
g(x)dF(x) de tal manera que cuando consideremos el caso particular
en que F(x) = x nos quede la denicin clsica de integral de Riemann. Denimos
una particin del intervalo [a, b] como el conjunto nito P = a = x
0
, x
1
, ...., x
n
= b
donde x
i1
< x
i
para todo i = 1, 2, ..., n. Junto con la particin, elegimos para cada
i = 1, 2, ..., n, puntos intermedios c
i
[x
i1
, x
i
] . Es decir que dar la particin P
equivale a dar los puntos de subdivisin x
i
y los puntos intermedios c
i
.
Denicin 5.1. Dadas g, F : [a, b] R y P particin (con sus correspondientes
puntos intermedios c
i
), denimos la suma parcial de Riemann-Stieltjes como
S (P, g, F) =
n

i=1
g (c
i
) (F (x
i
) F (x
i1
)) .
Observamos que cuando F(x) = x, si le pedimos a g que sea integrable Riemann,
dichas sumas se acercarn indenidamente al valor

b
a
g(x)dx conforme anemos
sucientemente la particin, en esa direccin apuntaremos.
Denicin 5.2. Dada P particin en [a, b] denimos |P| =mxx
i
x
i1
, i = 1, 2, ..., n
y le llamaremos norma de la particin.
Denicin 5.3. Dadas g, F : [a, b] R , diremos que lim
P0
S (P, g, F) = I si y slo
si dado > 0, existe > 0 tal que para toda P particin de [a, b] (con sus correspon-
dientes puntos intermedios c
i
) con |P| < , se cumple que [S (P, g, F) I[ < .
Denicin 5.4. Integral de Riemann-Stieltjes.
Dadas g, F : [a, b] R , si existe y es nito lim
P0
S (P, g, F) = I , diremos que la
integral de Riemann-Stieltjes de g respecto de F en el intervalo [a, b] existe y vale I.
Notacin:

b
a
gdF =

b
a
g(x)dF(x).
46
Captulo 5. Integral de Riemann-Stieltjes.
Observacin 5.5. En el caso particular en que F(x) = x, la denicin coincide con
la denicin de funcin integrable Riemann en [a, b] .
Se deja como ejercicio vericar el enunciado de los ejemplos que siguen.
Ejemplo 5.6. Si F(x) = k constante, entonces cualquiera sea g : [a, b] R existe

b
a
gdF y adems

b
a
gdF = 0.
Ejemplo 5.7. Si g : [a, b] R es continua, F(x) = 1
[a,c]
=

0 si x [a, c]
1 si no
con
c (a, b) existe

b
a
gdF y adems

b
a
gdF = g(c).
Ejemplo 5.8. Si g(x) = F(x) = 1
[a,c]
=

0 si x [a, c]
1 si no
con c (a, b) entonces
no existe

b
a
gdF .
Ejemplo 5.9. Si g(x) = k constante, entonces existe

b
a
gdF para cualquier F y vale

b
a
kdF(x) = k (F(b) F(a)) .
Veremos en lo que sigue un par de caracterizaciones para la existencia de

b
a
gdF.
Teorema 5.10. Los siguientes enunciados son equivalentes.
(a) Existe lim
P0
S (P, g, F) y vale I (nito).
(b) Condicin de Cauchy.
Dado > 0, existe > 0 tal que si P y Q son dos particiones de [a, b] tales que
|P| < y |Q| < , se cumple que [S (P, g, F) S (Q, g, F)[ < .
(c) Para toda sucesinP
n
de particiones en [a, b] tales que |P
n
| 0 se cumple
que lim
n+
S (P
n
, g, F) = I.
Demostracin.
(a) (b) Dado > 0, existe > 0 tal que para toda P particin de [a, b] (con sus co-
rrespondientes puntos intermedios c
i
) tal que |P| < , se cumple que [S (P, g, F) I[ <
/2. Entonces si tomamos P y Q dos particiones de [a, b] tales que |P| < y |Q| < ,
se cumplir que
[S (P, g, F) S (Q, g, F)[ [S (P, g, F) I[ +[S (Q, g, F) I[ < /2 +/2 = .
(b) (c) Fijamos P
n
sucesin de particiones en [a, b] tales que |P
n
| 0. Dado
> 0, tomamos el > 0 de la condicin de Cauchy, y por lo tanto existir un n
0
tal que
|P
n
| < para todo n n
0
. Entonces si consideramos n, m n
0
, obtendremos que
[ S (P
n
, g, F) S (P
m
, g, F)[ < por lo que la sucesin S (P
n
, g, F) es de Cauchy,
entonces existir I R tal que lim
n+
S (P
n
, g, F) = I.
Observamos que el valor de I depende de la eleccin de la sucesin de particiones,
faltara probar que el lmite es el mismo cualquiera sea la sucesin de particiones.
47
Captulo 5. Integral de Riemann-Stieltjes.
Consideremos entonces P

n
otra sucesin de particiones en [a, b] tales que |P

n
| 0
y sea I

tal que lim


n+
S (P

n
, g, F) = I

. Consideramos entonces la siguiente suce-


sin de particiones: P
1
, P

1
, P
2
, P

2
, ..., P
n
, P

n
, .... entonces es claro que esta nueva su-
cesin, llammosle Q
n
, cumple que |Q
n
| 0 y por lo tanto existe I

tal que
lim
n+
S (Q
n
, g, F) = I

. Pero S (P
n
, g, F) y S (P

n
, g, F)son subsucesiones de
S (Q
n
, g, F) y por lo tanto I = I

= I

.
(c) (a) Supongamos por absurdo que (a) no es cierto, entonces existe > 0
tal que para todo > 0, existe una particin P

, tal que [S (P

, g, F) I[ .
Tomando = 1/n, encontramos una sucesin de particiones P
n
tal que para todo
n, [S (P
n
, g, F) I[ entonces lim
n+
S (P
n
, g, F) = I .
Teorema 5.11. Si g : [a, b] R es continua y F : [a, b] R es montona, entonces
existe

b
a
gdF.
Demostracin.
Probaremos que se cumple la condicin de Cauchy. Fijamos > 0. Como g es unifor-
memente continua en [a, b] existe > 0 tal que si [x y[ < entonces [g(x) g(y)[ <

F(b)F(a)
.Tomamos una particin P = a, x
1
, x
2
, ..., x
n1
, b con puntos intermedios
c
i
[x
i1
, x
i
] i = 1, 2, ..., n y una particin Q = a, y
1
, y
2
, ..., y
m1
, b con puntos
intermedios d
i
[y
i1
, y
i
] i = 1, 2, ..., m. S (P, g, F) =

n
i=1
g(c
i
) (F(x
i
) F(x
i1
)),
S (Q, g, F) =

m
i=1
g(d
i
) (F(y
i
) F(y
i1
)) .
Unimos los puntos que forman la particin P con la de Q, a la que le llamamos
a, z
1
, z
2
, ..., z
k1
, b (k n + m1 pues algunos puntos de P pueden coincidir con
algunos de Q). Podemos escribir entonces
S (P, g, F) =
k

i=1
g(c

i
) (F(z
i
) F(z
i1
)) y S (Q, g, F) =
k

i=1
g(d

i
) (F(z
i
) F(z
i1
))
donde los c

i
son los mismos que los c
i
(ms explcitamente, cuando [z
j1
, z
j
]
[c
i1
, c
i
] entonces c

j
= c
i
). Anlogamente, d

i
son los mismos que los d
i
. Observa-
mos que[c

i
d

i
[ < si le pedimos a las particiones P y Q, |P| < /2 y |Q| < /2 .
Entonces
[S (P, g, F) S (Q, g, F)[ =

i=1
(g(c

i
) g(d

i
)) (F(z
i
) F(z
i1
))

i=1
[g(c

i
) g(d

i
)[ [F(z
i
) F(z
i1
)[ =
k

i=1
[g(c

i
) g(d

i
)[ (F(z
i
) F(z
i1
))
k

i=1

F(b) F(a)
(F(z
i
) F(z
i1
)) = .
Nota. Con la misma idea, se puede probar que si F es montona creciente y g
es acotada y tiene una cantidad nita de discontinuidades, pero F y g no tienen
discontinuidades en comn, entonces existe

b
a
gdF.
48
Captulo 5. Integral de Riemann-Stieltjes.
Teorema 5.12. Si g : [a, b] R es continua y F : [a, b] R es montona y
derivable tal que F

(x) = f(x) para todo x [a, b], siendo f integrable Riemann en


[a, b] , entonces

b
a
g(x)dF(x) =

b
a
g(x)f(x)dx.
Demostracin.
Dada una particin P de [a, b] , existen d
i
[x
i1
, x
i
] i = 1, 2, ..., n tales que
F (x
i
) F (x
i1
) = f (d
i
) (x
i
x
i1
), ahora si elegimos como puntos intermedios
de la particin a los d
i
, obtenemos
S (P, g, F) =
n

i=1
g(d
i
) (F (x
i
) F (x
i1
)) =
n

i=1
g(d
i
)f (d
i
) (x
i
x
i1
) .
Tomando lmite cuando |P| 0 se obtiene el resultado ya que la ltima suma-
toria tiende a la integral de Riemann de g(x)f(x) en [a, b] (producto de funciones
integrables Riemann es integrable Riemann).
5.1. Propiedades.
Proposicin 5.13. Si g, h, F : [a, b] R son tales que existen las integrales

b
a
gdF
y

b
a
hdF entonces tambin existe

b
a
(g + h) dF cualesquiera sean , R y ade-
ms

b
a
(g + h) dF =

b
a
gdF +

b
a
hdF.
Demostracin.
Cualquiera sea P particin de [a, b] , se tiene que
S (P, g +h, F) =
n

i=1
(g(c
i
) +h(c
i
)) (F (x
i
) F (x
i1
)) =

i=1
g(c
i
) (F (x
i
) F (x
i1
))+
n

i=1
h(c
i
) (F (x
i
) F (x
i1
)) = S (P, g, F)+S (P, h, F)
por lo que tomando lmite cuando |P| 0 se obtiene el resultado.
Proposicin 5.14. Si h, F, G : [a, b] R son tales que existen las integrales

b
a
hdF
y

b
a
hdG entonces tambin existe

b
a
hd (F + G) cualesquiera sean , R y
adems

b
a
hd (F +G) =

b
a
hdF +

b
a
hdG.
49
Captulo 5. Integral de Riemann-Stieltjes.
Demostracin.
Cualquiera sea P particin de [a, b] , se tiene que
S (P, h, F +G) =
n

i=1
h(c
i
) [(F (x
i
) F (x
i1
)) + (G(x
i
) G(x
i1
))] =

i=1
h(c
i
) [(F (x
i
) F (x
i1
))]+
n

i=1
h(c
i
) [(G(x
i
) G(x
i1
))] = S (P, h, F)+S (P, h, G)
por lo que tomando lmite cuando |P| 0 se obtiene el resultado.
Proposicin 5.15. Si g, F : [a, b] R son tales que existe

b
a
gdF entonces cual-
quiera sea c (a, b), se cumple que existen

c
a
gdF y

b
c
gdF y adems

b
a
gdF =

c
a
gdF +

b
c
gdF.
Demostracin.
Primero probaremos que existe

c
a
gdF usando la condicin de Cauchy. Como

b
a
gdF
existe, jado > 0, existe > 0 tal que si P y Q son dos particiones de [a, b], donde
|P| < y |Q| < se cumple que [S (P, g, F) S (Q, g, F)[ < . Consideremos
entonces

P y

Q dos particiones de [a, c] tales que

< y

< . Completamos

P
y

Q a P y Q particiones de [a, b] , agregando los mismos puntos de modo que |P| <
y |Q| < . Entonces

P, g, F

Q, g, F

= [S (P, g, F) S (Q, g, F)[ < .


Por lo tanto existe

c
a
gdF. Anlogamente se prueba que existe

b
c
gdF. Sabemos ahora
que las tres integrales existen. Consideramos entonces la sucesin de particiones P
n

tales que |P
n
| 0 y tales que c P
n
para todo n. Podemos escribir entonces
P
n
= P
(1)
n
P
(2)
n
, donde P
(1)
n
es particin de [a, c] con

P
(1)
n

0 y P
(2)
n
es particin
de [a, c] con

P
(2)
n

0. Entonces, se tiene que


S (P
n
, g, F) = S

P
(1)
n
, g, F

+S

P
(2)
n
, g, F

y tomando lmite cuando n + se obtiene

b
a
gdF =

c
a
gdF +

b
c
gdF.
Proposicin 5.16. Si g, F : [a, b] R son tales que g 0, F es montona creciente
y existe

b
a
g(x)dF(x), entonces

b
a
gdF 0.
50
Captulo 5. Integral de Riemann-Stieltjes.
Demostracin.
Cualquiera sea P particin de [a, b] , se tiene que
S (P, g, F) =
n

i=1
g(c
i
) (F (x
i
) F (x
i1
)) 0
puesto que cada sumando es no negativo, entonces

b
a
gdF 0.
Proposicin 5.17. Si g, h, F : [a, b] R son tales que g h, F es montona
creciente y existen

b
a
gdF,

b
a
hdF, entonces

b
a
gdF

b
a
hdF.
Demostracin.
g h 0, entonces por la propiedad anterior 0

b
a
(g h)dF =

b
a
gdF

b
a
hdF
por lo que se deduce que

b
a
gdF

b
a
hdF.
Proposicin 5.18. Si g, F : [a, b] R son tales que g(x) para todo
x [a, b] , F es montona creciente y existe

b
a
gdF entonces
(F(b) F(a))

b
a
gdF (F(b) F(a)) .
Demostracin.
Es un corolario inmediato de la propiedad anterior.
Proposicin 5.19. Si g : [a, b] R es continua y F : [a, b] R es montona
creciente, entonces

b
a
g(x)dF(x)

b
a
[g(x)[ dF(x).
Demostracin.
Cualquiera sea P particin de [a, b] , se tiene que
[S (P, g, F)[ =

i=1
g(c
i
) (F (x
i
) F (x
i1
))

i=1
[g(c
i
)[ (F (x
i
) F (x
i1
)) = S (P, [g[ , F) .
Tomando lmite cuando |P| 0 se obtiene el resultado.
Proposicin 5.20. Teorema del valor medio.
Si g, F : [a, b] R son tales que g es continua, F es montona creciente, entonces
existe c [a, b] tal que

b
a
gdF = g(c) (F(b) F(a)) .
Demostracin.
La existencia de la integral se debe a que g es continua y F es montona. Como g es
continua, por el toerema de Weierstrass tiene mnimo y mximo que les llamamos m y
M respectivamente. Entonces por la propiedad anterior, se tiene que m
R
b
a
gdF
F(b)F(a)

M y como g es continua, resulta que existe c [a, b] tal que
R
b
a
gdF
F(b)F(a)
= g(c).
51
Captulo 5. Integral de Riemann-Stieltjes.
5.2. Mtodos de integracin.
Teorema 5.21. Frmula de integracin por partes.
Si g, F : [a, b] R son tales que existe

b
a
gdF, entonces tambin existe

b
a
Fdg y
adems

b
a
Fdg = gF

b
a

b
a
gdF.
Demostracin.
Recordamos la frmula de Abel:
n

i=1
a
i
b
i
=
n1

i=1
A
i
(b
i
b
i+1
) +A
n
b
n
siendo A
n
=
n

i=1
a
i
.
Tomamos una particin cualquiera P = a, x
1
, x
2
, ..., x
n1
, b con correspondientes
puntos intermedios c
1
, c
2
, ..., c
n
. Si aplicamos dicha frmula para
S (P, F, g) =

n
i=1
F(c
i
) (g (x
i
) g (x
i1
)) tomando a
i
= g (x
i
)g (x
i1
) y b
i
= F(c
i
),
obtenemos
S (P, F, g) =
n1

i=1
(g(x
i
) g(a)) (F(c
i
) F(c
i+1
)) +F(c
n
) (g(b) g(a)) =
n1

i=1
g(x
i
) (F(c
i
) F(c
i+1
)) (F(c
1
) F(c
n
)) g(a) +F(c
n
) (g(b) g(a)) =
n1

i=1
g(x
i
) (F(c
i
) F(c
i+1
)) F(c
1
)g(a) +F(c
n
)g(b) =
n1

i=1
g(x
i
) (F(c
i
) F(c
i+1
))+(F(a) F(c
1
)) g(a)+(F(c
n
) F(b)) g(b)+F(b)g(b)F(a)g(a) =
S(

P, g, F) +g(b)F(b) g(a)F(a)
siendo

P la particin formada por los puntos a, c
1
, c
2
, ..., c
n
, b y los puntos intermedios
son a, x
1
, x
2
, ..., x
n1
, b. Observamos adems que

2 |P| por lo que tomando


lmite cuando |P| 0 en la igualdad
S(P, F, g) = S(

P, g, F) +g(b)F(b) g(a)F(a)
obtenemos que existe

b
a
Fdg y la frmula de partes.
Proposicin 5.22. Cambio de variable.
Si g, F : [a, b] R son tales que

b
a
gdF existe, h : [c, d] [a, b] es continua y
biyectiva, entonces

d
c
gohd (Foh) y adems

d
c
g(h(t))dF(h(t)) =

b
a
g(x)dF(x).
52
Captulo 5. Integral de Riemann-Stieltjes.
Demostracin.
Supondremos que h es creciente, el caso decreciente es anlogo. Si P = c, t
1
, t
2
, ..., t
n1
, d
es una particin de [c, d] con puntos intermedios c
i
[t
i1
, t
i
] i = 1, 2, ..., n entonces
S (P, goh, Foh) =
n

i=1
g (h(c
i
)) [F (h(x
i
)) F (h(x
i1
))] = S

P, g, F

siendo

P = a, h(t
1
), h(t
2
), ..., h(t
n1
), b con puntos intermedios h(c
i
) (esto se puede
hacer ya que h es creciente y biyectiva). Adems como h es continua, si |P| 0
entonces |h(P)| =

0, lo cual se deduce ya que h es uniformemente continua


(dado > 0 existe > 0 tal que si [x y[ < entonces [h(x) h(y)[ < ). Por
lo tanto tomando lmite cuando |P| 0 se deduce que

d
c
gohd (Foh) existe y la
frmula buscada.
5.3. Extensin a funciones complejas e integrales im-
propias.
Denicin 5.23. Integrales con integrando complejo. Dadas g : [a, b] C,
g = g
1
+ig
2
y F : [a, b] R, diremos que existe

b
a
gdF si y slo si existen

b
a
g
1
dF e

b
a
g
2
dF y en ese caso,

b
a
gdF =

b
a
g
1
dF +

b
a
g
2
dF.
Denicin 5.24. Integrales impropias.
Si g, F : R R son tales que

b
a
gdF existe cualesquiera sean a y b, denimos

gdF = lm
a b+

b
a
gdF.
en caso de que exista el lmite.
Denicin 5.25. Dadas g : R C (g = g
1
+ g
2
) F : R R, diremos que existe

gdF si y slo si existen



+

g
1
dF y

+

g
2
dF y adems

gdF =

g
1
dF +i

g
2
dF.
5.4. Aplicaciones a la teora de la probabilidad.
Proposicin 5.26. Si F
X
es funcin de distribucin de una variable aleatoria X,
entonces

b
a
dF
X
(x) = P (a < X b) .
53
Captulo 5. Integral de Riemann-Stieltjes.
Demostracin.
Basta observar que

b
a
dF
X
(x) = F
X
(a) F
X
(b) de donde se deduce el resultado.
Nota. Se puede probar que

A
dF
X
(x) = P (X A) cualquiera sea A boreliano en R
(donde nuevamente el signicado de esta integral es el de Lebesgue).
Proposicin 5.27. Si X es discreta cuyo recorrido es A = x
1
, x
2
, ... y g : [a, b]
R es continua, entonces

b
a
g(x)dF
X
(x) =

x(a,b]A
g(x)p
X
(x).
Demostracin.
F
X
(x) =

i : x
i
x
p
X
(x
i
) =

i
p
X
(x
i
)1
[x
i
,+)
(x). Denimos para cada n, A
n
=
x
1
, x
2
, ..., x
n
y F
n
(x) =

n
i=1
p
X
(x
i
)1
[x
i
,+)
(x). Dado > 0, existe n
0
tal que para
cada n n
0
se cumple que P (X A
n
) 1 /n. Por lo tanto para cada x R
se tiene que 0 F
X
(x) F
n
(x) /n (para n n
0
) . Como g es continua, entonces
[g(x)[ k para todo x [a, b] y por lo tanto

b
a
g(x)d (F
X
(x) F
n
(x))

b
a
[g(x)[ d (F
X
(x) F
n
(x)) 2k/n
n+
0

b
a
g(x)dF
n
(x) =

b
a
g(x)d

i=1
p
X
(x
i
)1
[x
i
,+)
(x)

=
n

i=1
p
X
(x
i
)

b
a
g(x)d1
[x
i
,+)
(x) =

i : x
i
(a,b]A
n
g(x
i
)p
X
(x
i
).

b
a
g(x)dF
X
(x) =

b
a
g(x)dF
n
(x) +

b
a
g(x)d (F
X
(x) F
n
(x)) =

i : x
i
(a,b]A
n
g(x
i
)p
X
(x
i
) +

b
a
g(x)d (F
X
(x) F
n
(x))
Tomando lmite cuando n + se obtiene el resultado.
Proposicin 5.28. Si X es absolutamente continua con densidad f
X
y g : [a, b] R
es continua, entonces

b
a
g(x)dF
X
(x) =

b
a
g(x)f
X
(x)dx.
Demostracin.
Es corolario inmediato del teorema 1.11.
54
Captulo 5. Integral de Riemann-Stieltjes.
5.5. Integrales de Riemann-Stieltjes mltiples.
Si (X, Y ) es un vector aleatorio y F
X,Y
: R
2
R su funcin de distribucin. Su-
pongamos que g : [a, b] [c, d] R, deniremos

[a,b][c,d]
g(x, y)dF
X,Y
(x, y). Si
F
X,Y
: R
2
R es una funcin de distribucin conjunta y g : [a, b] [c, d] R.
Dada P
X
= a = x
0
, x
1
, x
2
, ..., x
n1
, x
n
= b es una particin de [a, b] con puntos in-
termedios c
i
[x
i1
, x
i
] i = 1, 2, , ..., n, P
Y
= c = y
0
, y
1
, y
2
, ..., y
m1
, y
m
= d es una
particin de [c, d] con puntos intermedios c

i
[y
i1
, y
i
] i = 1, 2, , ..., m, denimos las
sumas parciales de Riemann-Stieltjes, sobre P
X
P
Y
como S (P
X
P
Y
, g, F
X,Y
) =

n
i=1

m
j=1
g(c
i
, c

j
)p
ij
siendo
p
ij
= P ((X, Y ) (x
i1
, x
i
] (y
j1
, y
j
]) =
F
X,Y
(x
i
, y
j
) F
X,Y
(x
i1
, y
j
) F
X,Y
(x
i
, y
j1
) +F
X,Y
(x
i1
, y
j1
).
Denimos la norma de la particin como |P| =mx|P
X
| , |P
Y
| . Como en el caso
univariado diremos que lim
P0
S (P, g, F
X,Y
) = I si y slo si dado > 0, existe > 0 tal
que para toda P particin de [a, b][c, d] (con sus correspondientes puntos intermedios
c
i
y c

i
) con |P| < , se cumple que [S (P, g, F
X,Y
) I[ < .
Denicin 5.29. Integral doble de Riemann-Stieltjes.
Dadas g : [a, b] [c, d] R , F
X,Y
: R
2
R funcin de distribucin de un vector
aleatorio (X, Y )si existe lim
P0
S (P, g, F) = I , diremos que la integral de Riemann-
Stieltjes de g respecto de F
X,Y
en [a, b] [c, d] existe y vale I.
Notacin:

b
a
gdF =

[a,b][c,d]
g(x, y)dF
X,Y
(x, y)
Es vlido el mismo teorema de las tres equivalencias para la existencia de la integral,
probadas en el caso univariado, con demostraciones anlogas. De manera anloga se
prueban tambin el siguiente teorema y las propiedades que siguen.
Teorema.
Si F es distribucin, y g : [a, b][c, d] R es continua, entonces existe

[a,b][c,d]
gdF.
Propiedades.
Las siguientes propiedades, pueden ser demostradas de manera similar al caso univa-
riado.
1. Si g, h : [a, b] [c, d] R F = F
X,Y
son tales que existen las integrales

[a,b][c,d]
gdF y

[a,b][c,d]
hdF entonces tambin existe

[a,b][c,d]
(g +h) dF
cualesquiera sean , R y adems

[a,b][c,d]
(g +h) dF =

[a,b][c,d]
gdF +

[a,b][c,d]
hdF.
55
Captulo 5. Integral de Riemann-Stieltjes.
2. Si F, G son distribuciones, h : [a, b][c, d] R, son tales que existen las integra-
les

[a,b][c,d]
hdF y

[a,b][c,d]
hdGentonces tambin existe

[a,b][c,d]
hd (F +G)
cualesquiera sean , R y adems

[a,b][c,d]
hd (F +G) =

[a,b][c,d]
hdF +

[a,b][c,d]
hdG.
3. Si F es distribucin, g : [a, b] [c, d] R son tales que g 0, y existe

[a,b][c,d]
gdF, entonces

[a,b][c,d]
gdF 0.
4. Si F es distribucin, g, h : [a, b] [c, d] R son tales que g h, y existen

[a,b][c,d]
gdF y

[a,b][c,d]
hdF entonces

[a,b][c,d]
gdF

[a,b][c,d]
hdF.
5.5.1. Aplicaciones a la teora de la probabilidad.
1. Si F
X,Y
es la funcin de distribucin de una vector aleatorio (X, Y ), entonces

[a,b][c,d]
dF
X,Y
(x, y) = P (a < X b, c < Y d) ..
2. Si (X, Y ) es discreto cuyo recorrido es A = (x
i
, y
j
)
i,j
y g : [a, b] [c, d] R
es continua, entonces

[a,b][c,d]
g(x, y)dF
X,Y
(x, y) =

(x,y)(a,b](c,d]A
g(x, y)p
X,Y
(x, y)
3. Si (X, Y ) es absolutamente continuo con funcin de densidad f
X,Y
y g : [a, b]
[c, d] R es continua, entonces

[a,b][c,d]
g(x, y)dF
X,Y
(x, y) =

[a,b][c,d]
g(x, y)f
X,Y
(x, y)dxdy
5.5.2. Integrales mltiples impropias.
Denicin 5.30. Dadas g : R
n
R y F
X
1
,X
2
,...,X
n
distribucin conjunta del
vector (X
1
, X
2
, ..., X
n
)

R
n
g(x
1
, x
2
, ..., x
n
)dF
X
1
,X
2
,...,X
n
(x
1
, x
2
, ..., x
n
) =
lm
a
i

b
i
+
para todo i

[a
1
,b
1
][a
2
,b
2
]...[a
n
,b
n
]
g(x
1
, x
2
, ..., x
n
)dF
X
1
,X
2
,...,X
n
(x
1
, x
2
, ..., x
n
)
56
Captulo 6
Valor esperado.
6.1. Denicin.
Un concepto esencial en teora de la probabilidad y estadstica es el concepto de
esperanza o valor esperado de una variable aleatoria, el mismo ser denido de tal
modo que quede un promedio ponderado de los valores que puede tomar la variable.
Tambin se ver ms adelante, mediante la llamada ley de los grandes nmeros que el
valor esperado puede verse tambin como un valor al cual converge (en cierto sentido)
el promedio de una muestra de observaciones tomadas al azar, cuando el tamao de la
muestra (cantidad de observaciones) tiende a innito. Todo esto va dicho de manera
muy informal, pero ser precisado ms adelante.
Supongamos que tenemos un conjunto formado por 100 personas de las cuales 90
tienen una altura de 170 cms, 5 miden 167 cms y los restantes 5 miden 172 cms. La
altura promedio de este conjunto de personas, la calculamos, sumando la altura de
las 100 personas, y lo dividimos entre 100 que es el total de personas, as obtenemos
que la altura promedio es
90170+5167+5172
100
= 169. 95. Si sorteamos un individuo
al azar y denimos X = .
a
ltura del individuo sorteado", tendramos que Rec(X) =
167, 170, 172 y su fncin de probabilidad sera p
X
(167) =
5
100
= 0, 05; p
X
(167) =
90
100
= 0, 9 y p
X
(172) =
5
100
= 0, 05 por lo tanto, la altura promedio la podemos
escribir como 1670, 05+1700, 9+1720, 05 = 167p
X
(167) +170p
X
(170) +
172 p
X
(172) . A este valor le llamaremos esperanza (o valor esperado de X) y
lo simbolizaremos como E(X) . Razonando como en este ejemplo, dada una variable
aleatoria X discreta, su valor esperado debera ser denido como

xRec(X)
xp
X
(x), y de
ah, parece natural denirlo para el caso absolutamente continuo como

xf
X
(x)dx.
An nos quedara por denir el valor esperado para una variable aleatoria mixta.
Denicin 6.1. Dado (, /, P) un espacio de probabilidad y X : R variable
aleatoria tal que

+

[x[ dF
X
(x) < +. Denimos
E(X) :=

xdF
X
(x)
y le llamaremos esperanza de X o valor esperado de X.
57
Captulo 6. Valor esperado.
Diremos tambin que existe E(X) cuando se cumple que

+

[x[ dF
X
(x) < +.
Denicin 6.2. Dado un

, /, P

espacio de probabilidad, si A / es tal que


P(A) = 1, diremos que el suceso A ocurre casi seguramente (c.s.).
Observacin 6.3. Si A R es un boreliano tal que P(X A) = 1 (es decir si A
ocurre c.s.) y existe E(X), entonces E(X) =

A
xdF
X
(x), ya que sobre A
c
la integral
vale 0.
Observacin 6.4. Si X es discreta, observando que para cada x R se cumple que
p
X
(x) = F
X
(x)F
X
(x

), entonces existe E(X) si y slo si

xRec(X)
[x[p
X
(x) < +
y adems
E(X) =

xRec(X)
xp
X
(x).
Observacin 6.5. Si X es absolutamente continua, como F

X
(x) = f
X
(x) en todo
punto x de continuidad de f
X
, entonces entonces existe E(X) si y slo si

[x[f
X
(x)dx <
+ y adems
E(X) =

xf
X
(x)dx.
Observacin 6.6. La convergencia absoluta de la integral que dene el valor espe-
rado, se realiza para evitar problemas de convergencia debido a la reordenacin de
trminos en el caso de la serie, o reordenacin en los intervalos en el caso absoluta-
mente continuo.
Cuando X 0 casi seguramente, resulta F
X
(x) = 0 para todo x < 0, por lo tanto

xdF
X
(x) =

+
0
xdF
X
(x) 0 lo cual motiva la siguiente denicin.
Denicin 6.7. Si X 0 casi seguramente, y

+

[x[dF
X
(x) = +, diremos que
E(X) = +.
6.2. Ejemplos.
Ejemplo 6.8. Si X Ber(p) entonces E(X) = p ya que E(X) = 0.P(X = 0) +
1.P(X = 1) = p.
Ejemplo 6.9. Si X Bin(n, p) entonces E(X) = np. E(X) =

n
x=0
xP(X = x) =

n
x=0
xC
n
x
p
x
(1 p)
nx
= np. Se deja como ejercicio, vericar la anterior igualdad.
Ejemplo 6.10. Si X N (,
2
) entonces E(X) =

x
1

2
2
e
1
2
2
(x)
2
dx = . Se
deja como ejercicio, vericar la anterior igualdad.
58
Captulo 6. Valor esperado.
Ejemplo 6.11. Como habamos observado anteriormente, F
Y
(y) =

0 si y < 1/2
y si 1/2 y 1
1 si y > 1
,
F
Y
tiene un nico salto en 1/2, y adems es derivable en [1/2, 1] con F

Y
(y) = 1, por
lo tanto, obtenemos
E(Y ) =

ydF
Y
(y) =
1
2

F
Y
(1/2) F
Y
(1/2

1
1/2
ydy =
5
8
.
6.3. Propiedades.
En las siguientes propiedades se considera dado un espacio de probabilidad (, /, P) .
Teorema 6.12. Si X : R es variable aleatoria tal que X 0 c.s. (es decir que
P(X 0) = 1) y existe E(X), entonces E(X) 0.
Demostracin.
Como X 0, entonces se tiene que F
X
(x) = 0 para todo x < 0. Entonces, se cumple
que
0 = E(X) =

xdF
X
(x) =

+
0
xdF
X
(x) 0.
Teorema 6.13. Si X : R es tal que X = a c.s. (es decir que P(X = a) = 1)
(X es constante), entonces existe E(X) y adems E(X) = a. Es decir, E(a) = a.
Demostracin.
Observando que X = a es una variable discreta donde P (X = a) = 1, entonces
E(a) = aP (X = a) = a.
Teorema 6.14. Si X : R es variable aleatoria tal que X 0 c.s. y E(X) = 0,
entonces X = 0. c.s.
Demostracin.
Como X 0, se deduce se tiene que F
X
(x) = 0 para todo x < 0. Entonces, cuales-
quiera sean 0 < < , se cumple que
0 = E(X) =

xdF
X
(x) =

+
0
xdF
X
(x)

xdF
X
(x)
(F
X
() F
X
()) .
Entonces (F
X
() F
X
()) = 0, por lo que se deduce que F
X
() = F
X
() para
todos , > 0. Entonces, F
X
(x) es constante para x > 0, lo cual sumado al hecho de
que debe tener lmite 1 cuando x tiende a +, entonces se obtuvo que F
X
(x) = 1
para todo x > 0, lo cual sumado al hecho de que F
X
(x) = 0 para todo x < 0, y
como F
X
es continua por derecha en 0, entonces F
X
(0) = 1, y entonces se obtiene
que P (X = 0) = 1.
59
Captulo 6. Valor esperado.
Corolario 6.15. Si X, Y son variables aleatorias tales que X Y c.s., existen E(X)
y E(Y ), y adems E(X) = E(Y ) entonces X = Y c.s.
Demostracin.
Basta observar que X Y 0 c.s. y que E(X Y ) = E(X) E(Y ) = 0, luego por
el teorema anterior se tiene que X Y = 0 c.s.
Teorema 6.16. Si X : R es variable aleatoria, g : R R es una funcin
boreliana (g
1
(A) B para todo A B) tal que existe E(g(X)), entonces
E(g(X)) =

g(x)dF
X
(x).
Demostracin.
Haremos la demostracin suponiendo que g es montona y biyectiva. El caso general
se prueba a partir de teora de la medida.
Supongamos que g es creciente y biyectiva, el caso decreciente es anlogo.
F
g(X)
(y) = P (g(X) y) = P

X g
1
(y)

= F
X
(g
1
(y)).
E[g (X)] =

ydF
g(X)
(y) =

ydF
X
(g
1
(y))
si ahora hacemos el cambio de variable y = g(x), entonces la ltima integral nos
queda

g(x)dF
X
(x).
Observacin 6.17. A partir de esta propiedad, se deduce que existe E(X) si y slo
si E([X[) < +.
Ejemplo 6.18. Si Y =maxX, 1/2 donde X U (0, 1), entonces
E(Y ) =

max x, 1/2 f
X
(x)dx =

1
0
max x, 1/2 dx =

1/2
0
1/2dx+

1
1/2
xdx = 5/8.
Corolario 6.19. Si X : R es variable aleatoria tal que existe E(X) , entonces
cualquiera sea R,
existe E(X) y adems E(X) = E(X) .
Demostracin.
La existencia de E(X) se deduce de la linealidad de la integral de Riemann Stieltjes
ya que

+

[x[ dF
X
(x) = [[

[x[ dF
X
(x).
Ahora consideramos g : R R tal que g(x) = x, entonces g es boreliana y por lo
tanto
E(X) =

xdF
X
(x) =

xdF
X
(x) = E(X) .
60
Captulo 6. Valor esperado.
Teorema 6.20. Si E([X[) < +, entonces
[E(X)[ E([X[) .
Demostracin.
[E(X)[ =

xdF
X
(x)

[x[dF
X
(x) = E([X[)
Teorema 6.21. Si X, Y : R son variables aleatorias y g : R
2
R es boreliana
tal que existe E[g (X, Y )] entonces
E(g (X, Y )) =

g (x, y) dF
X,Y
(x, y).
Demostracin.
Se prueba utilizando teora de la medida.
Teorema 6.22. Si X, Y : R son variables aleatorias tales que existen E(X) y
E(Y ), entonces existe E(X +Y ) y adems
E(X +Y ) = E(X) +E(Y ) .
Demostracin.
E([X +Y [) =

[x +y[ dF
X,Y
(x, y)

[x[ dF
X,Y
(x, y) +

[y[ dF
X,Y
(x, y) =
E([X[) +E([Y [) < +
lo cual prueba que existe E(X +Y ) .
Deniendo ahora las funciones g, g
1
, g
2
: R
2
R tales que g(x, y) = x +y, g
1
(x, y) =
x, g
2
(x, y) = y, entonces g = g
1
+g
2
, y por lo tanto usando la linealidad de la integral
de Riemann Stieltjes, obtenemos
E(X +Y ) =

(x +y) dF
X,Y
(x, y) =

xdF
X,Y
(x, y) +

ydF
X,Y
(x, y) =
E(X) +E(Y ) .
Ejemplo 6.23. Si X Bin(n, p) entonces E(X) = np. Esto se debe a que denimos
para cada i = 1, 2, 3, ..., n las variables
X
i
=

1 si hay xito la vez i-sima


0 si no
entonces cada X
i
distribuye como una
Ber(p) y adems se cumple que X = X
1
+X
2
+... +X
n
, luego, aplicando la aditividad
de la esperanza nos queda que
E(X) = E(X
1
+X
2
+... +X
n
) = E(X
1
) +E(X
2
) +... +E(X
n
) = np.
61
Captulo 6. Valor esperado.
Teorema 6.24. Si X, Y : R son variables aleatorias tales que X Y c.s. y
existen E(X) y E(Y ), entonces E(X) E(Y ) .
Demostracin.
Como Y X 0, entonces
0 E(Y X) = E(Y ) E(X) .
Teorema 6.25. Si X, Y : R son variables aleatorias independientes, tales que
existe E(X) y E(Y ), entonces existe E(XY ) y adems E(XY ) = E(X) E(Y ) .
Demostracin.
Debido a la independencia de las variables, F
X,Y
(x, y) = F
X
(x)F
Y
(y) para todos x, y.
Entonces
E([XY [) =

[xy[ dF
X,Y
(x, y) =

[x[ [y[ dF
X
(x)dF
Y
(y) =

[x[dF
X
(x)

[y[dF
Y
(y) = E([X[) E([Y [) < +.
E(XY ) =

xydF
X,Y
(x, y) =

xydF
X
(x)dF
Y
(y) =

xdF
X
(x)

ydF
Y
(y) = E(X) E(Y ) .
Observacin 6.26. El corolario 6.18 junto al teorema 6.21, nos indican que si de-
nimos el conjunto
V = X : R variable aleatoria, tal que existe E(X)
entonces V tiene estructura de espacio vectorial, ya que es un subespacio del conjunto
de variables aleatorias denidas en . Adems, si denimos T : V R tal que
T(X) = E(X), entonces T es una transformacin lineal.
Teorema 6.27. Desigualdad de Jensen.
Dados un

, /, P

espacio de probabilidad, X variable aleatoria y : R R una


funcin convexa tales que existen el valor esperado de X y de (X) . Entonces
(E(X)) E[(X)] .
Adems, si es estrictamente convexa y X no es constante, entonces la desigualdad
es estricta.
62
Captulo 6. Valor esperado.
Demostracin.
Dado que es convexa, se cumple que existe una recta que pasa por el punto
(E(X) , (E(X))) tal que el grco de est por encima de la misma. Entonces, se
tiene que (X) (E(X)) +a (X E(X)) y por lo tanto, tomando esperanzas de
ambos lados de la desigualdad obtenemos que (E(X)) E[(X)] .
Por otro lado, deniendo g(t) = (E(X)) + a (t E(X)), al ser estrictamente
convexa, se cumple que (t) g(t) para todo t, y adems, si (t) = g(t) entonces
t = E(X). Si se diera (E(X)) = E[(X)] entonces se tendra que E((X)) =
E(g(X)), siendo (X) g(X) por lo que se deduce que (X) = g(X) con probabi-
lidad 1, de donde se deduce que debe ser X = E(X), o sea que X sera constante, lo
cual concluye la prueba.
Ejemplo 6.28. Dado que (x) = e
x
es convexa, se tiene que si existen E(X) y
E

e
X

entonces e
E(X)
E

e
X

. Ademas, si X no es constante, la desigualdad es


estricta.
6.4. Teoremas de convergencia.
Supongamos que tenemos una sucesin de variables aleatorias X
n

nN
y una variable
aleatoria X denidas en cierto espacio de probabilidad, tales que lim
n+
X
n
(w) = X(w)
para todo w . Dado que tenemos convergencia de las X
n
a la X en todo punto, es
natural preguntarse si ser cierto que lim
n+
E(X
n
) = E(X) . Veremos en el siguiente
ejemplo que con la sola convergencia en todo punto w de X
n
(w) a X(w), no es
suciente para asegurar que lim
n+
E(X
n
) = E(X) .
Ejemplo 6.29. Supongamos que X U (0, 1), denimos la sucesin X
n
= n1
(0,1/n)
(X).
Vemos que lim
n+
X
n
(w) = 0 para todo w , sin embargo, E(X
n
) = nP (0 < X < 1/n) =
1 para todo n y por lo tanto, en este caso X = 0 y no se cumple que lim
n+
E(X
n
) =
E(X) .
En lo que sigue veremos dos teoremas de vital importancia en teora de probabilidad y
medida, que bajo cierto conjunto de hiptesis nos permiten aseguran la convergencia
de las esperanzas de las X
n
a la esperanza de X.
6.4.1. Teorema de convergencia montona.
Teorema 6.30. Teorema de convergencia montona.
Dados

, /, P

un espacio de probabilidad, una sucesin de variables aleatorias


X
n

nN
y una variable aleatoria X tales que existe E(X), X
n
(w) 0, X
n
(w) X(w)
para todo w , entonces existe E(X
n
) para todo n y adems
lim
n+
E(X
n
) = E(X) .
63
Captulo 6. Valor esperado.
Demostracin.
En primer lugar observamos que como 0 < X
n
X, entonces existe E(X
n
) para
todo n. Adems, dado que X
n
X
n+1
para todo n entonces, E(X
n
) E(X
n+1
)
por lo que la sucesin E(X
n
)
nN
es creciente y por lo tanto tiene lmite. Por otro
lado, como X
n
X para todo n, entonces E(X
n
) E(X) para todo n, por lo que
lim
n+
E(X
n
) E(X) .
Entonces ser suciente probar que lim
n+
E(X
n
) E(X). Para lograrlo, veremos que
dado > 0, se cumplir que lim
n+
E(X
n
) E(X) . Fijado > 0, aproximaremos
X por una variable discreta Y tal que [X Y [ .
Denimos los sucesos B
n
= n < X (n + 1) para n = 0, 1, 2, ... y denimos
la variable Y (w) =

n si n < X(w) (n + 1)
0 si X(w) = 0
. Vemos que X Y X
por lo que E(X) E(Y ) E(X) . Para obtener el resultado, probaremos que
lim
n+
E(X
n
) E(Y ) .
Denimos los sucesos A
k
= X
k
Y . Si w A
k
entonces X
k
(w) Y (w) pero
X
k+1
(w) X
k
(w) por lo que X
k+1
(w) Y (w), luego w A
k+1
por lo que los
A
k
son una sucesin creciente de sucesos. Adems, para todo w , se cumple
que w B
n
para algn n, y como X
k
(w) X(w) entonces existe un k
0
tal que
X
k
0
(w) n = Y (w), entonces
+
k=1
A
k
= .
Por lo tanto, dejando n jo, los sucesos A
k
B
n
variando k, crecen a B
n
. Por otro lado,
observamos que las variables Y 1
A
k
son discretas, tomando los valores 0, , 2, 3, ...
por lo que para cualquier m se tiene que
E(Y 1
A
k
) =
+

n=0
nP(Y 1
A
k
= n) =
+

n=0
nP(A
k
B
n
)
m

n=0
nP(A
k
B
n
).
lim
k+
E(Y 1
A
k
) lim
k+

m
n=0
nP(A
k
B
n
) =

m
n=0
nP(B
n
) para todo m, en-
tonces lim
k+
E(Y 1
A
k
)

+
n=0
nP(B
n
) = E(Y ) . Adems Y 1
A
k
X
k
entonces
E(Y 1
A
k
) E(X
k
) por lo que lim
k+
E(X
k
) E(Y ) lo cual concluye la demostracin.

Observacin 6.31. El teorema sigue siendo vlido si las hiptesis X


n
> 0 y X
n

X
n+1
para todo n, se cumplen casi seguramente.
Observacin 6.32. El teorema sigue valiendo en el caso en que E(X) = +, queda
como ejercicio realizar la vericacin de la demostracin para este caso.
6.4.2. Teorema de convergencia dominada.
Teorema 6.33. Teorema de convergencia dominada.
Dados

, /, P

un espacio de probabilidad, una sucesin de variables aleatorias


X
n

nN
y dos variables aleatorias X e Y tales que que lim
n+
X
n
(w) = X(w) y
[X
n
(w)[ Y (w) para todos n y w. Adems existe E(Y ).
64
Captulo 6. Valor esperado.
Entonces existen las esperanzas de X
n
para todo n y la de X y adems
lim
n+
E(X
n
) = E(X) .
Demostracin.
En primer lugar vemos que como [X
n
[ Y para todo n, entonces existe la esperanza
de las X
n
, adems tomando lmites en la desigualdad, obtenemos que [X[ Y, por
lo que tambin existe la esperanza de X.
Denimos la sucesin Y
n
= inf
kn
X
k
entonces Y
n
X (ya que las Y
n
tienden a sup
n
Y
n
=
sup
n
inf
kn
X
k
que es el lmite inferior de la sucesin X
n
). Adems observamos que 0
Y
n
+Y X+Y , por lo que aplicando el teorema de convergencia montona, obtenemos
que
lim
n+
E(Y
n
+Y ) = E(X +Y ) = E(X) +E(Y ) .
Luego, lim
n+
E(Y
n
) = E(X) . Anlogamente, deniendo Z
n
= sup
kn
X
k
, vemos que
Z
n
X y como adems 0 Y Z
n
Y X, aplicando nuevamente el teorema de
convergencia montona y utilizando la linealidad del valor esperado, obtenemos que
lim
n+
E(Z
n
) = E(X) .
Para concluir la demostracin, basta observar ahora que para todo n y todo w, se
cumple que Y
n
(w) X
n
(w) Z
n
(w) por lo que E(Y
n
) E(X
n
) E(Z
n
) y como
lim
n+
E(Y
n
) = E(X) y lim
n+
E(Z
n
) = E(X) se obtiene que lim
n+
E(X
n
) = E(X) .
Observacin 6.34. Como en el teorema de convergencia montona, se tiene que
basta tomar como hiptesis que lim
n+
X
n
= X y [X
n
[ Y se cumplan casi segura-
mente.
Corolario 6.35. Si lim
n+
X
n
(w) = X(w) y [X
n
(w)[ k(cte) para todos n y w,
entonces vale el teorema ya que k tiene esperanza nita.
6.4.3. Aplicaciones.
Teorema 6.36. Si f
n
: [a, b] R son funciones integrables Riemann en [a, b] para
todo n N, g : [a, b] R es integrable Riemann y f : [a, b] R lim
n+
f
n
(x) = f(x) y
[f
n
(x)[ g(x) para todo x [a, b] . Entonces
lim
n+

b
a
f
n
(x)dx =

b
a
f(x)dx.
Demostracin.
Consideramos X U (0, 1). Denimos entonces las variables Y
n
= f
n
(X) e Y =
f(X). Entonces Y
n
c.s.
Y, [Y
n
[ g (X), existe E(g (X)) =
1
ba

b
a
g(x)dx < +, luego
por el teorema de convergencia dominada, se tiene que lim
n+
E(Y
n
) = E(Y ) , ahora
vemos que E(Y
n
) = E(f
n
(X)) =
1
ba

b
a
f
n
(x)dx y E(Y ) = E(f (X)) =
1
ba

b
a
f(x)dx
entonces lim
n+
1
ba

b
a
f
n
(x)dx =
1
ba

b
a
f(x)dx, de donde se deduce el resultado.
65
Captulo 6. Valor esperado.
Teorema 6.37. Dada la sucesin doblemente indizada (sucesin de sucesiones)

a
(k)
n

n,kN
R. Supongamos que existe una sucesin

b
(k)

kN
tal que b
(k)
> 0, para todo k,

+
k=1
b
(k)
= L < +

a
(k)
n

b
(k)
para todos n, k. Si lim
n+
a
(k)
n
= a
(k)
, entonces
lim
n+
+

k=1
a
(k)
n
=
+

k=1
a
(k)
.
Demostracin.
Denimos el espacio de probabilidad

N, 2
N
, P

donde P (k) =
b
(k)
L
.
Denimos la sucesin de variables aleatorias X
n
: N R tales que X
n
(k) =
a
(k)
n
b
(k)
y
X : N R tal que X(k) =
a
(k)
b
(k)
. Entonces X
n
c.s.
X (ya que X
n
(k) X(k) para
todo k N). Adems
P

X
n
=
a
(k)
n
b
(k)

= P (k) =
b
(k)
L
.
Anlogamente,
P

X =
a
(k)
b
(k)

= P (k) =
b
(k)
L
.
Adems [X
n
(k)[ 1 para todo k. Entonces, aplicando el teorema de convergencia
dominada, se deduce que lim
n+
E(X
n
) = E(X) .
E(X
n
) =
+

k=1
a
(k)
n
b
(k)
P

X
n
=
a
(k)
n
b
(k)

=
+

k=1
a
(k)
n
b
(k)
b
(k)
L
=
1
L
+

k=1
a
(k)
n
y anlogamente,
E(X) =
+

k=1
a
(k)
b
(k)
P

X =
a
(k)
b
(k)

=
+

k=1
a
(k)
b
(k)
b
(k)
L
=
1
L
+

k=1
a
(k)
.
Entonces obtuvimos que lim
n+
1
L

+
k=1
a
(k)
n
=
1
L

+
k=1
a
(k)
de donde se deduce el re-
sultado.
Como aplicacin, se deja como ejercicio hallar lim
n+
+

k=1
1
n
2
k
2
; lim
n+

n
0

1 +
x
n

n
e
2x
dx
y lim
n+

n
0

1
x
n

n
e
x/2
dx.
66
Captulo 7
Espacios L
p
.
7.1. Denicin y propiedades.
Denicin 7.1. Espacios L
p
.
Dado un espacio de probabilidad (, /, P), y p > 0, se dene el conjunto
L
p
= X : R variable aleatoria tal que E([X[
p
) < +) .
Teorema 7.2. Si 0 < p < q entonces L
q
L
p
.
Demostracin.
Si X L
q
, entonces
E([X[
p
) = E

[X[
p
1
{|X|<1}

+E

[X[
p
1
{|X|1}

1 +E

[X[
q
1
{|X|1}

1 +E([X[
q
) < +.
Diremos que X admite momentos de orden p si y slo si E([X[
p
) < + o sea, si y
slo si X L
p
.
Del teorema anterior deducimos que si X admite momentos de orden p, entonces
admite momentos de cualquier orden menor que p. Por ejemplo, decir que X admite
momentos de orden 3, implica que admite momentos de cualquier orden menor que
3.
Teorema 7.3. Si X, Y L
p
entonces X + Y L
p
para todos , R. Es decir
que L
p
es un espacio vectorial (ya que es subespacio del conjunto de todas las variables
aleatorias, que forman un espacio vectorial).
Demostracin.
Si X L
p
entonces cualquiera sea R, se tiene que E([X[
p
) = [[
p
E([X[
p
) < +
por lo que X L
p
.
Ahora, si X, Y L
p
observamos que [X +Y [ [X[+[Y [ 2max[X[ , [Y [ entonces
[X +Y [
p
2
p
max[X[
p
, [Y [
p
, por lo tanto se tiene que
E([X +Y [
p
) 2
p
maxE[X[
p
, E([Y [
p
) < + .
67
Captulo 7. Espacios L
p
.
Observacin 7.4. Si X, Y L
2
, entonces XY L
1
, ya que
XY =
1
2

(X +Y )
2
X
2
Y
2

, es combinacin lineal de variables que L


2
.
Teorema 7.5. Desigualdad de Cauchy-Schwartz.
Si X, Y L
2
,
[E(XY )]
2
E

X
2

Y
2

.
Adems se da el igual si y slo si existe
0
R tal que
P (X =
0
Y ) = 1 (o P (Y =
0
X) = 1) .
Demostracin.
0 E(X Y )
2
=
2
E

Y
2

2E(XY ) +E

X
2

para todo R.
Entonces, si Y no es la funcin nula casi seguramente, podemos asegurar que nos
qued un polinomio de segundo grado. Como dicho polinomio es 0 para todo valor
de , no puede tener dos races reales y distintas, por lo que su discriminante debe ser
0. Entonces 4 [E(XY )]
2
4E(X
2
) E(Y
2
) 0, de donde se deduce la desigualdad.
Adems, si fuera [E(XY )]
2
= E(X
2
) E(Y
2
), entonces existe un valor de donde se
anula el polinomio, dicho valor es
0
=
E(XY )
E(Y
2
)
, y por lo tanto para dicho valor
0
, se
tiene que 0 = E(X
0
Y )
2
, por lo que se tiene que X =
0
Y casi seguramente.
Si fuera Y = 0 casi seguramente, entonces tambin se cumple la igualdad, y adems
Y = 0X, lo cual concluye la prueba.
La desigualdad de Cauchy Schwartz recin probada, responde a la conocida desigual-
dad respecto a espacios vectoriales con producto interno. Para ello denimos la fun-
cin ' , ` : L
2
L
2
R tal que 'X, Y ` = E(XY ) , entonces, ' , ` es un seudo producto
interno, es decir que es una funcin bilineal simtrica, tal que 'X, X` = E(X
2
) 0
pero no cumple la condicin 'X, X` = 0 si y slo si X = 0, ya que en este ca-
so si 'X, X` = E(X
2
) = 0, entonces X = 0 c.s. por lo que puede haber innitas
(dependiendo del espacio de probabilidad) funciones que cumplan 'X, X` = 0. Este
problema se puede solucionar si identicamos todas las variables aleatorias que son 0
casi seguramente. Para ello se dene la relacin tal que X Y si y slo si X = Y
c.s.
Se deja como ejercicio chequear que es una relacin de equivalencia, y que si de-
nimos ' , ` : L
2
/ L
2
/ R tal que '[X] , [Y ]` = E(XY ) donde X e Y
son representantes de [X] y [Y ] respectivamente, entonces la funcin ' , ` est bien
denida y dene un producto interno en L
2
/ .
7.2. Varianza de una variable aleatoria.
Junto con el valor esperado de una variable aleatoria, en la mayora de las aplicaciones
es necesario tener algn tipo de medida sobre la dispersin que hay entre los valores
que puede tomar la variable, y su valor esperado. La denicin de varianza apunta
en esa direccin.
68
Captulo 7. Espacios L
p
.
Denicin 7.6. Varianza de una variable aleatoria.
Si X L
2
, entonces se dene la varianza de X, como el valor
V(X) = E

(X E(X))
2

.
Observacin 7.7. Como se ve, si le llamamos = E(X), entonces la varianza es
el valor esperado de la variable (X )
2
que mide la diferencia entre los valores que
puede tomar X y su valor esperado, elevado al cuadrado.
La presencia del cuadrado es para que las diferencias entre X y su valor esperado sean
positivas, ya que sin el cuadrado, la esperanza de (X E(X)) es 0. Por ejemplo, si
X es una variable aleatoria discreta tal que Rec(X) = x
1
, x
2
, ..., x
n
con probabili-
dades p
X
(x
i
) = 1/n para todo i = 1, 2, 3, ..., n, entonces E(X) =

xRec(X)
xp
X
(x) =
x
1
+x
2
+...+x
n
n
= . Luego, V(X) = E

(X )
2

xRec(X)
(x )
2
p
X
(x) =
(x
1
)
2
+ (x
2
)
2
+... + (x
n
)
2
n
que representa el promedio de las diferencias al cuadrado que existen entre los valores
que toma la variable X y su valor esperado.
En las aplicaciones, al calcular la esperanza de (X E(X))
2
, se pierde la unidad
de medida de la variable X, la cual queda expresada en unidades al cuadrado. Para
salvar este problema se suele considerar la raz cuadrada de la varianza a la que se le
llama desviacin tpica o estandar de la variable.
Denicin 7.8. Desviacin tpica. Si X L
2
entonces la desviacin tpica de X
se dene como

X
=

V(X).
Propiedades.
Teorema 7.9. Si X L
2
, entonces V(X) = E(X
2
) E
2
(X) . Aqu se sobreentiende
que E
2
(X) = [E(X)]
2
.
Demostracin.
Llammosle = E(X) . Entonces
V(X) = E

(X )
2

= E

X
2
2X +
2

=
E

X
2

2E(X) +
2
= E

X
2

2
2
+
2
= E

X
2

2
.
Teorema 7.10. Si X L
2
, entonces V(aX +b) = a
2
V(X) .
Demostracin.
V(aX +b) = E

(aX +b)
2

[E(aX +b)]
2
desarrollando ambos cuadrados y simplicando nos queda igual a
a
2

X
2

E
2
(X)

= a
2
V(X) .
69
Captulo 7. Espacios L
p
.
Teorema 7.11. Si X L
2
, entonces V(X) = 0 si y slo si X = E(X) casi segura-
mente.
Demostracin.
) Si X = E(X) = , entonces V(X) = E(
2
) E
2
() =
2

2
= 0.
) Si V(X) = 0, entonces E

X E(X)
2

= 0 y como (X E(X))
2
0 casi
seguramente y tiene esperanza 0, entonces debe ser (X E(X))
2
0 c.s., por lo que
debe ser X = E(X) casi seguramente.
Ejemplo 7.12. Si X Ber(p), entonces ya vimos que E(X) = p. Adems E(X
2
) = p
con lo cual obtenemos V(X) = p p
2
= p(1 p).
Ejemplo 7.13. Si X N(,
2
) , entonces ya vimos que E(X) = . Ahora, si
integramos por partes
E(X
2
) =

x
2
f
X
(x)dx =
1

2
2

x
2
e
1
2
2
(x)
2
dx
nos da
2
+
2
, por lo tanto V(X) =
2
.
Veremos en lo que sigue, algunas desigualdades que son muy tiles en la teora y en
la prctica, conocidas como desigualdades de Markov y de Chebyshev.
Teorema 7.14. Dadas X variable aleatoria, g : R R montona creciente, tal que
g (X) L
1
, g 0 y a R tal que g(a) > 0, entonces
P (X > a)
1
g(a)
E(g (X)) .
Demostracin.
Consideramos el conjunto A = X > a , entonces, dado que g 0, obtenemos que
E(g (X)) = E(g (X) 1
A
) +E(g (X) 1
A
c) E(g (X) 1
A
) .
Puesto que g (X) 1
A
g (a) 1
A
, ya que g es montona creciente y por denicin del
conjunto A, vemos que
E(g (X) 1
A
) E(g (a) 1
A
) = g(a)E(1
A
) = g(a)P (A) = g(a)P (X > a) .
Observacin 7.15. Surge de la demostracin, que vale la misma acotacin si la
probabilidad que se considera es P(X a).
Corolario 7.16. Desigualdad de Markov. Si X L
p
(p > 0) y a > 0, entonces
P ([X[ > a)
1
a
p
E([X[
p
) .
Demostracin.
Basta tomar g(x) = x
p
para x > 0 y g(x) = 0 para x 0 y aplicar la desigualdad
anterior a la variable Y = [X[ .
70
Captulo 7. Espacios L
p
.
Corolario 7.17. Desigualdad de Chebyshev. Si X L
2
y a > 0, entonces
P ([X E(X)[ > a)
1
a
2
V(X) .
Demostracin.
Basta usar la desigualdad del corolario anterior, para el caso en que p = 2 y para la
variable Y = X E(X) .
Observacin 7.18. Como se ve, la desigualdad de Markov nos proporciona una cota
para la funcin de distribucin de una variable aleatoria, si se conoce nicamente el
momento de algn orden de la variable, por ejemplo, el momento de orden uno.
Observacin 7.19. La desigualdad de Chebyshev es equivalente a
P ([X E(X)[ a) 1
1
a
2
V(X) .
y por lo tanto, nos proporciona una cota inferior para la probabilidad de que la variable
tome valores en un entorno de su valor esperado, conociendo nicamente el valor
esperado y la varianza de la variable.
Observacin 7.20. Las desigualdades de Markov y de Chebyshev, son cotas uni-
versales, es decir se cumplen para cualquier tipo de variable aleatoria (con la sla
hiptesis de que admitan momentos de algn orden), por lo que suelen dar cotas gro-
seras de las probabilidades. En cada situacin particular, conociendo ms informacin
sobre la variable aleatoria X, se suelen conseguir cotas ms nas.
7.3. Covarianza y coeciente de correlacin.
La covarianza y el coeciente de correlacin que deniremos en lo que sigue, sirven
como medidas del grado de asociacin que hay entre dos variables aleatorias X e
Y , ambos conceptos estn relacionados como veremos con la independencia entre las
variables.
Denicin 7.21. Covarianza entre dos variables aleatorias.
Si X, Y L
2
, entonces denimos COV(X, Y ) = E[(X E(X)) (Y E(Y ))] .
Propiedades.
1. Si X, Y L
2
, entonces COV(X, Y ) = E(XY ) E(X) E(Y ) .
2. Si X, Y L
2
, entonces COV(X, Y ) = COV(Y, X) .
3. Si X L
2
, entonces COV(X, X) = V(X) .
4. Si X, Y L
2
, entonces COV(aX +b, Y ) = aCOV(X, Y ) para todos a, b R.
71
Captulo 7. Espacios L
p
.
5. Si X, Y, Z L
2
, entonces COV(X +Y, Z) = COV(X, Y ) +COV(Y, Z) .
6. Si X, Y L
2
y son independientes, entonces COV(X, Y ) = 0.
7. Si X
1
, X
2
, ..., X
n
L
2
, entonces
V

i=1
X
i

=
n

i=1
V(X
i
) + 2

i<j
COV(X
i
, X
j
) .
Observacin 7.22. COV(X, Y ) = 0 no implica necesariamente que X e Y sean
independientes. Se deja como ejercicio construir un contraejemplo.
Observacin 7.23. Si X
1
, X
2
, ..., X
n
L
2
son independientes, entonces
V

i=1
X
i

=
n

i=1
V(X
i
) .
Observacin 7.24. Si X, Y L
2
, entonces
V(X +Y ) = V(X) +V(Y ) + 2COV(X, Y ) .
Las demostraciones son simplemente operativas y se dejan como ejercicio. Haremos
igualmente la demostracin de la propiedad 7.
V

i=1
X
i

= COV

i=1
X
i
,
n

j=1
X
j

=
n

i=1
n

j=1
COV(X
i
, X
j
)
y usando que COV(X
i
, X
j
) = COV(X
j
, X
i
) y que COV(X
i
, X
i
) = V(X
i
) , obtene-
mos
n

i=1
COV(X
i
, X
i
) +
n

i=1

j=i
COV(X
i
, X
j
) =
n

i=1
V(X
i
) + 2

j<i
COV(X
i
, X
j
) .
Ejemplo 7.25. Si X Bin(n, p) entonces vimos que X = X
1
+X
2
+... +X
n
donde
las X
i
son Ber(p) e independientes, por lo tanto
V(X) = V(X
1
+X
2
+ ... +X
n
) = V(X
1
) +V(X
2
) + ... +V(X
n
) = np(1 p).
Denicin 7.26. Coeciente de correlacin entre dos variables aleatorias.
Si X, Y L
2
son no constantes, entonces denimos (X, Y ) =
COV(X,Y )

V(X)V(Y )
.
Propiedades.
En las propiedades que siguen se consideran X, Y L
2
no constantes.
1. 1 (X, Y ) 1.
2. (X, Y ) = 1 si y slo si existen a, b R, a > 0, tales que Y = aX +b.
72
Captulo 7. Espacios L
p
.
3. (X, Y ) = 1 si y slo si existen a, b R, a < 0, tales que Y = aX +b.
4. Si X, Y son independientes, entonces (X, Y ) = 0.
Demostracin.
Aplicando la desigualdad de Cauchy Schwartz, tenemos que
[COV(X, Y )[ = [E[(X E(X)) (Y E(Y ))][

E(X E(X))
2
E(Y E(Y ))
2
=

V(X) V(Y ).
lo cual es equivalente a decir que [ (X, Y )[ 1. Adems sabemos que [ (X, Y )[ = 1
si y slo si existe R tal que X E(X) = (Y E(Y )) donde = 0 ya que X
no es constante. Por lo tanto [ (X, Y )[ = 1 si y slo si existen a = 0 y b tales que
Y = aX + b. Ahora, aplicando las propiedades de varianza y covarianza, obtenemos
que (X, Y ) = (X, aX +b) =
a
|a|
de donde se deduce que (X, Y ) es 1 si y slo si
a > 0, y 1 si y slo si a < 0. Quedan probadas as las primeras 3 propiedades. La
ltima propiedad es evidente ya que (X, Y ) = 0 si y slo si COV(X, Y ) = 0.
7.4. Variables i.i.d.
Denicin 7.27. Se dice que la sucesin de variables aleatorias X
1
, X
2
, ..., X
n
, ....
son v.a.i.i.d, cuando dichas variables son independientes y todas tienen igual funcin
de distribucin, es decir cuando son independientes y adems F
X
1
= F
X
2
= ... = F
X
n
para todo n.
Cuando n es jo, se dice tambin que X
1
, X
2
, ..., X
n
son una M.A.S.c/rep de X
de tamao n (muestra aleatoria simple con reposicin). Lo cual signica que las
variables son i.i.d con distribucin como la de cierta variable X que se toma como
representativa.
Supongamos que tenemos X
1
, X
2
, ..., X
n
v.a.i.i.d cuya distribucin es como la de
cierta X L
2
. Llammosle en este caso y
2
a la esperanza y la varianza de X
respectivamente. Es decir que E(X) = y V(X) =
2
.
Se dene la media muestral como la siguiente variable aleatoria: X
n
:=
X
1
+X
2
+...+X
n
n
.
La misma es fundamental desde el punto de vista estadstico, ya que si X
1
, X
2
, ..., X
n
representan n observaciones obtenidas de forma independiente de una cierta variable
aleatoria, lo que se llama tambin una muestra aleatoria simple de tamao n, entonces
X
n
nos da el promedio de las observaciones obtenidas de la muestra.
Veremos ahora que si X L
2
, entonces E

X
n

= y V

X
n

=
2
/n.
Efectivamente, usando la linealidad de la esperanza obtenemos que
E

X
n

= E

X
1
+X
2
+... +X
n
n

=
E(X
1
) +E(X
2
) + ... +E(X
n
)
n
=
n
n
= .
Ahora, aplicando propiedades de varianza, obtenemos que
V

X
n

= V

X
1
+ X
2
+... +X
n
n

=
1
n
2
V(X
1
+X
2
+... +X
n
) =
73
Captulo 7. Espacios L
p
.
V(X
1
) +V(X
2
) +... +V(X
n
)
n
2
=
n
2
n
2
=

2
n
.
Una aplicacin estadstica.
Supongamos que deseamos estimar el porcentaje de fumadores en una poblacin.
Para obtener el resultado, se encuestarn de manera independiente, n individuos
de la poblacin y se calcular el porcentaje de fumadores en la muestra. Podemos
pensar entonces que tenemos n variables aleatorias X
1
, X
2
, ..., X
n
, denidas como
X
i
=

1 si la i-sima persona encuestada fuma


0 si no
. Entonces las variables son in-
dependientes con distribucin Ber(p), donde p es el porcentaje de fumadores en la
poblacin. p es desconocido, que estimaremos mediante el porcentaje de fumadores
en la muestra, el cual es X
n
=
X
1
+,X
2
+...+X
n
n
ya que el numerador cuenta el total de
fumadores (xitos).
Supongamos que queremos respondernos a la siguiente pregunta: a cuntos indivi-
duos hay que encuestar si deseamos que el porcentaje de la muestra no diera del
real en ms de un 1 % con una probabilidad mayor al 95 %?
Por lo tanto queremos hallar n tal que P

X
n
p

0, 01

0, 95.
Observamos que las variables, al ser Bernoulli estn en L
2
y ya vimos que tienen valor
esperado p y varianza p(1 p).
Por otro lado, ya vimos que el valor esperado de X
n
coincide con el de cada X
i
, y la
varianza de X
n
es
2
/n = p(1 p)/n. O sea que en el caso de las variables Bernoulli,
tenemos que E

X
n

= p y V

X
n

= p(1 p)/n.
Aplicando el corolario 7.16 (desigualdad de Chebyshev) a la variable X
n
, llegamos a
que
P

X
n
p

0, 01

1
1
0, 01
2
V

X
n

= 1
p(1 p)
n0, 01
2
.
Puesto que p(1 p) 1/4 para todo valor de p, obtenemos que
P

X
n
p

0, 01

1
p(1 p)
n0, 01
2
1
1
4n0, 01
2
.
Entonces eligiendo n tal que 1
1
4n0,01
2
0, 95, el mismo nos asegurar que
P

X
n
p

0, 01

0, 95. En este caso el menor valor de n que nos asegura esta


desigualdad es 50.000.
74
Captulo 8
Convergencia en probabilidad, casi
segura y en distribucin.
Consideremos una sucesin de variables aleatorias X
n

nN
y una variable aleatoria
X denidas sobre un mismo espacio de probabilidad. Dado que las X
n
y la X son
funciones de en R, hay varias nociones de convergencia de una sucesin de funciones
a una funcin, como la convergencia puntual, la uniforme, la convergencia cuadrtica
o en el espacio L
p
por ejemplo. En teora de probabilidad, dado que las funciones
son aleatorias, es decir que toman valores reales de manera aleatoria, es necesario
denir nuevos conceptos de convergencia que involucren el clculo de la probabilidad
de que las X
n
esten prximas a X en algn sentido. Deniremos tres conceptos de
convergencia que son vitales en teora de la probabilidad y en estadstica matemtica,
que son la convergencia en probabilidad, la convergencia casi segura y la convergencia
en distribucin.
8.1. Convergencia en probabilidad y casi segura.
Denicin 8.1. Convergencia en probabilidad.
Dadas una sucesin de variables aleatorias X
n

nN
y una variable aleatoria X de-
nidas sobre cierto

, /, P

espacio de probabilidad, se dice que la sucesin X


n

nN
converge en probabilidad a X si y slo si, para todo > 0 se cumple que
lim
n+
P ([X
n
X[ < ) = 1.
Notacin: X
n
P
X.
Observacin 8.2. Equivalentemente, tenemos que X
n
P
X si y slo si para todo
> 0 se cumple que
lim
n+
P ([X
n
X[ ) = 0.
Informalmente, la convergencia en probabilidad nos dice que una vez que jamos el
valor de > 0 arbitrariamente pequeo, pero jo, la probabilidad de que X
n
tome
75
Captulo 8. Convergencia en probabilidad, casi segura y en distribucin.
un valor perteneciente al intervalo (X , X +) se acerca a uno en la medida de
que n se tome sucientemente grande.
Denicin 8.3. Convergencia casi segura.
Dadas una sucesin de variables aleatorias X
n

nN
y una variable aleatoria X de-
nidas sobre cierto

, /, P

espacio de probabilidad se dice que la sucesin X


n

nN
converge casi seguramente a X (o en casi todo punto) si y slo si se cumple que
P

lim
n+
X
n
= X

= 1.
Notacin: X
n
c.s.
X.
Observacin 8.4. Dado que el lmite de variables aleatorias es variable aleatoria, se
verica que limX
n
= X es un suceso.
Teorema 8.5. X
n
c.s.
X si y slo si lim
k+
P

+
n=k
[X
n
X[ <

= 1 para todo
> 0.
Demostracin.
Si w es tal que lim
n+
X
n
(w) = X(w) entonces, para todo > 0, existe un k tal que
para todo n k se cumple que [X
k
(w) X(w)[ < . Observando que es suciente en
la denicin de lmite considerar Q
+
entonces tenemos que P

lim
n+
X
n
= X

=
1 si y solo si
P


Q
+
+

k=1
+

n=k
[X
n
X[ <

= 1.
Como la interseccin en el conjunto de Q
+
es numerable, y tiene probabilidad 1,
entonces la ltima condicin es equivalente a
P

k=1
+

n=k
[X
n
X[ <

= 1 para todo Q
+
.
Por otro lado, los conjuntos B
k
=

+
n=k
[X
n
X[ < forman una sucesin creciente
de sucesos, entonces, la propiedad de continuidad de las probabilidades nos dice que
P

+
k=1
B
k

= lim
k+
P (B
k
) , por lo que
P

k=1
+

n=k
[X
n
X[ <

= lim
k+
P

n=k
[X
n
X[ <

.
Llegamos as a que
X
n
c.s.
X si y slo si lim
k+
P

n=k
[X
n
X[ <

= 1 para todo Q
+
.
76
Captulo 8. Convergencia en probabilidad, casi segura y en distribucin.
Finalmente, dado que en la dencin de lmite es equivalente a trabajar con > 0 y
observando la demostracin, se deduce que X
n
c.s.
X si y slo si
lim
k+
P

+
n=k
[X
n
X[ <

= 1 para todo > 0.


Observacin 8.6. La interseccin sobre los Q
+
se realiza para que podamos
asegurar que los conjuntos con los que trabajamos pertenezcan a la -lgebra, de otro
modo si trabajamos con los > 0, la interseccin es no numerable y no podemos
asegurar que la misma pertenezca a la -lgebra.
Teorema 8.7. Dados un

, /, P

espacio de probabilidad, una sucesin de variables


aleatorias X
n

nN
y una variable aleatoria X.
Si X
n
c.s.
Xentonces X
n
P
X.
Demostracin.
Como X
n
c.s.
X, entonces jado > 0, entonces para todo k N se cumple que
+

n=k
[X
n
X[ < [X
k
X[ <
entonces
P

n=k
[X
n
X[ <

P ([X
k
X[ < )
por lo que tomando lmite cuando k tiende a + se deduce el resultado.
Veremos en el siguiente ejemplo que la nocin de convergencia casi segura es estric-
tamente ms fuerte que la de convergencia en probabilidad.
Ejemplo 8.8. Tomemos un espacio de probabilidad en el cual denimos una va-
riable Y U (0, 1) . Consideramos la sucesin de intervalos I
m,k
=

k
2
m
,
k+1
2
m

para
m = 1, 2, 3, ... y k = 0, 1, 2, 3, ..., 2
m
1. Denimos I
n
ordenando los I
m,k
dando
primero el valor de m y luego, para dicho m, variamos en los distintos valores de
k = 0, 1, 2, 3, ..., 2
m
1. Es decir, para m = 1, tenemos k = 0, 1 por lo que denimos
I
1
= I
1,0
=

0,
1
2

; I
2
= I
1,1
=

1
2
, 1

. Luego, para m = 2, tenemos k = 0, 1, 2, 3 con


lo que denimos I
3
, I
4
, I
5
e I
6
como sigue: I
3
= I
2,0
=

0,
1
4

; I
4
= I
2,1
=

1
4
,
1
2

;
I
5
= I
2,2
=

1
2
,
3
4

e I
6
= I
2,3
=

3
4
, 1

. As continuamos sucesivamente.
Denimos ahora la sucesin X
n
= 1
I
n
(Y ). Las longitudes de los intervalos I
n
tienden a cero por lo que se podra esperar que exista algn tipo de convergencia de
las X
n
a cero. Dado > 0, se tiene que P ([X
n
[ ) =

P (Y I
n
) si < 1
0 si 1
y
como P (Y I
n
) =longitud de I
n
0, entonces tenemos que X
n
P
0.
Por otro lado, vemos que cualquier nmero (0, 1) pertenece a innitos de los in-
tervalos I
n
y tambin no pertenece a innitos de los intervalos I
n
. Entonces dado
cualquier w , se tendr que Y (w) (0, 1) y por lo tanto no existe lim
n+
X
n
(w).
Entonces

lim
n+
X
n
= 0

= lo cual prueba que X


n
no converge casi seguramente
a cero.
77
Captulo 8. Convergencia en probabilidad, casi segura y en distribucin.
Algebra de lmites en las convergencias en probabilidad y casi segura.
En las siguientes propiedades se consideran dadas las sucesiones de variables aleatorias
X
n

nN
, Y
n

nN
y las variables aleatorias X e Y denidas sobre cierto

, /, P

espacio de probabilidad. Se deja como ejercicio su demostracin.


1. Unicidad. Si X
n
P
X, X
n
P
Y entonces X = Y c.s.
2. Unicidad. Si X
n
c.s.
X, X
n
c.s.
Y entonces X = Y c.s.
3. Si X
n
P
X, Y
n
P
Y entonces X
n
+Y
n
P
X +Y para todos , R.
4. Si X
n
c.s.
X, Y
n
c.s.
Y entonces X
n
+Y
n
c.s.
X +Y para todos , R.
5. Si X
n
P
X y g : R R es continua, entonces g (X
n
)
P
g (X) .
6. Si X
n
c.s.
X y g : R R es continua, entonces g (X
n
)
c.s.
g (X) .
7. Si X
n
P
X, Y
n
P
Y entonces X
n
Y
n
P
XY.
8. Si X
n
P
X, Y
n
P
Y y P(Y = 0) = 1, entonces X
n
Y
n
P
XY.
9. Si X
n
c.s.
X, Y
n
c.s.
Y y P(Y = 0) = 1, entonces X
n
Y
n
c.s.
XY.
10. Si X
n
c.s.
X, Y
n
c.s.
Y entonces X
n
Y
n
c.s.
XY.
11. Si X
n
P
0, existe k R tal que P ([Y
n
[ > k) = 0 para todo n, entonces
X
n
Y
n
P
0.
12. Si X
n
c.s.
0, existe k R tal que P ([Y
n
[ > k) = 0 para todo n, entonces
X
n
Y
n
c.s.
0.
8.2. Leyes de los grandes nmeros.
Teorema 8.9. Ley dbil de los grandes nmeros.
Dado un

, /, P

espacio de probabilidad. Si las variables aleatorias X


n

nN
son
i.i.d con distribucin como la de cierta X L
2
y le llamamos = E(X) y
2
=
V(X) .
Entonces
X
n
P
.
Demostracin.
Ya vimos sobre el nal del captulo anterior cuando las varaibles son i.i.d. que
E

X
n

= y V

X
n

=
2
/n para todo n. Entonces aplicando la desigualdad de
Chebyshev, obtenemos que, para todo > 0,
P

X
n

X
n

2
=

2
n
2

n+
0
por lo que X
n
P
.
78
Captulo 8. Convergencia en probabilidad, casi segura y en distribucin.
Observacin 8.10. Como se ve repasando la denicin, la misma demostracin
funciona cambiando las hiptesis de i.i.d por las de que todas las variables, tengan
iguales esperanza y varianza, y adems sean no correlacionadas.
Teorema 8.11. Ley fuerte de los grandes nmeros.
Dado un

, /, P

espacio de probabilidad. Si las variables aleatorias X


n

nN
son
i.i.d con distribucin como la de cierta X L
4
y le llamamos = E(X) .
Entonces
X
n
P
.
Demostracin.
Basta probar el teorema para el caso en que = 0, ya que una vez que lo tenemos
probado en este caso, para deducir el caso general, denimos para cada n, Y
n
= X
n
,
entonces la sucesin Y
n

nN
es i.i.d con distribucin como la de Y = X, entonces,
Y
n
c.s.
E(Y ) = 0, pero Y
n
= X
n
, por lo tanto X
n
c.s.
.
Suponemos entonces que = 0.
Para probar que X
n
c.s.
0, segn el teorema 8.4 debemos probar que, dado > 0,
se cumple que lim
k+
P

+
n=k

X
n

<

= 1, lo cual es equivalente a probar que


lim
k+
P

+
n=k

X
n

>

= 0.
Dado que P

+
n=k

X
n

>

+
n=k
P

X
n

>

se deduce que para obtener el


resultado es suciente con probar que

+
n=1
P

X
n

>

< +.
La idea ser entonces acotar P

X
n

>

superiormente por una sucesin cuya serie


sea convergente.
Como X L
4
, usaremos la desigualdad de Markov con p = 4, por lo que
P

X
n

>

4
E

X
4
n

.
Por lo tanto ser suciente probar que

+
n=1
E

X
4
n

< +.
E

X
4
n

=
1
n
4
E[(X
1
+X
2
+... + X
n
) (X
1
+X
2
+ ... +X
n
) (X
1
+X
2
+... +X
n
) (X
1
+ X
2
+... +X
n
)] .
Desarrolando esta suma, y aplicando linealidad del valor esperado, obtenemos que
E[(X
1
+ X
2
+... +X
n
) (X
1
+X
2
+... +X
n
) (X
1
+X
2
+... +X
n
) (X
1
+X
2
+... +X
n
)] =
n

i=1
E

X
4
i

i,j : i=j
E

X
3
i
X
j

i,j : i=j
E

X
2
i
X
2
j

i,j,k : i=j=k, i=k


E

X
2
i
X
j
X
k

i,j,k,l : i=j=k=l, j=l, i=k, i=l


E(X
i
X
j
X
k
X
l
) .
79
Captulo 8. Convergencia en probabilidad, casi segura y en distribucin.
Como las variables son i.i.d, tenemos que dentro de cada una de las sumatorias
anteriores, los sumandos son todos iguales entre s, entonces nos queda igual a
nE

X
4
1

+8C
n
2
E

X
3
1
X
2

+C
4
2
C
n
2
E

X
2
1
X
2
2

+6C
4
2
C
n
3
E

X
2
1
X
2
X
3

+4!C
n
4
E(X
1
X
2
X
3
X
4
) .
Ahora usando que las variables son i.i.d y recordando que en estos casos, la es-
peranza de un producto se factoriza como el producto de esperanzas, observamos
que E(X
3
1
X
2
) = E(X
3
1
) E(X
2
) = 0, E(X
2
1
X
2
X
3
) = E(X
2
1
) E(X
2
) E(X
3
) = 0 y
E(X
1
X
2
X
3
X
4
) = E(X
1
) E(X
2
) E(X
3
) E(X
4
) = 0.
Entonces
E

X
4
n

=
1
n
4

nE

X
4
1

+ 3n(n 1)E

X
2
1

X
2
2

por lo que
+

n=1
E

X
4
n

n=1
1
n
2
< +.
Trabajando con desigualdades ms nas, lo cual lleva ms trabajo, es posible demos-
trar que vale el mismo teorema slo pidiendo que X L
1
. Por lo tanto cuando sea
necesaria aplicar la ley, lo haremos simplemente vericando que X L
1
.
Si las variables X
n

nN
son i.i.d con distribucin como la de cierta X / L
1
, entonces,
tambin tenemos una versin de la ley fuerte.
Teorema 8.12. Dado un

, /, P

espacio de probabilidad. Si las variables aleato-


rias X
n

nN
son i.i.d con distribucin como la de cierta X tal que E([X[) = +,
entonces
limsup

X
n

= + c.s.
Demostracin.
Como E([X[) = +, entonces E

|X|
k

= + para todo k = 1, 2, 3, ... Entonces

+
n=1
P

|X|
k
n

= +, para todo k = 1, 2, 3, ...


Como las variables son idnticamente distribuidas, tenemos que
+

n=1
P

[X[
k
n

=
+

n=1
P

[X
n
[
k
n

=
+

n=1
P

[X
n
[
n
k

= + para todo k = 1, 2, 3, ...


Fijado k, se tiene que los sucesos A
(k)
n
=

|X
n
|
n
k

son independientes, luego, por


el lema de Borel-Cantelli se tiene que
P

ocurren innitos A
(k)
n

= 1 para todo k = 1, 2, 3, ...


Entonces, si denimos B
k
= ocurren innitos A
(k)
n
, tenemos que P (B
k
) = 1 para
todo k = 1, 2, 3, ... y como interseccin numerable de sucesos de probabilidad 1, tiene
probabilidad 1, obtenemos que P

+
k=1
B
k

= 1.
80
Captulo 8. Convergencia en probabilidad, casi segura y en distribucin.
Observamos adems que B =

+
k=1
B
k
= ocurre A
(k)
n
para innitos valores de n, para
todo k"=

|X
n
|
n

nN
es no acotada

. Entonces P

|X
n
|
n

nN
es no acotada

= 1.
Ya que existe probabilidad 1 de que la sucesin

|X
n
|
n

nN
sea no acotada, para
terminar la prueba, denimos S
n
= X
1
+ X
2
+ ... + X
n
, y bastar con probar que si

|X
n
|
n

nN
es no acotada, entonces

X
n

=
|S
n
|
n

nN
es no acotada.
Efectivamente, si fuera

|S
n
|
n

nN
acotada, entonces tambin lo sera

|S
n1
|
n

nN
ya
que
|S
n1
|
n
=
|S
n1
|
n1
n1
n
, entonces,
|X
n
|
n
=
|S
n
S
n1
|
n

|S
n
|
n
+
|S
n1
|
n
, sera acotada, por lo
tanto

|X
n
|
n

nN
es acotada lo cual es absurdo.
8.2.1. Aplicaciones.
La cantidad de aplicaciones de la ley fuerte es enorme, veremos en lo que sigue, a
modo de ejemplo, algunos corolarios de la ley a modo de aplicacin de la misma.
Corolario 8.13. Si las variables aleatorias X
n

nN
son i.i.d con distribucin Ber(p),
entonces
X
n
c.s.
p.
Demostracin.
Es obvia ya que las variables Ber(p) estn en L
1
y son tales que E(X) = p.
Frecuentemente, en estadstica, se tiene un muestreo de alguna variable aleatoria cuya
funcin de distribucin es desconocida. Se desea estimar a la funcin F
X
dada una
muestra aleatoria simple X
1
, X
2
, ..., X
n
.
Supongamos entonces que tenemos X
1
, X
2
, ..., X
n
, variables aleatorias i.i.d con dis-
tribucin como la de X. Se dene a la distribucin emprica asociada a la muestra, a
la funcin F

n
: R R tal que F

n
(x) =
1
n

n
i=1
1
(,x]
(X
i
) .
Observamos que 1
(,x]
(X
1
) , 1
(,x]
(X
2
) , ..., 1
(,x]
(X
n
) son independientes (por-
que las X
i
lo son) con distribucin Ber(p = F
X
(x)) .
Observamos que F

n
: R R es una funcin de distribucin escalonada, con saltos
en los X
i
y donde cada salto es de longitud 1/n (en el caso en que las X
i
sean todas
distintas).
Corolario 8.14. Aplicacin estadstica: estimacin de una funcin de dis-
tribucin desconocida.
F

n
converge puntualmente a F
X
.
Demostracin.
Aplicamos la ley fuerte de los grandes nmeros, se cumple que jado x R, entonces
F

n
(x)
c.s.
E

1
(,x]
(X)

= F
X
(x).
81
Captulo 8. Convergencia en probabilidad, casi segura y en distribucin.
Corolario 8.15. Clculo de integrales mediante nmeros aleatorios.
Dadas f : [a, b] R continua, y X
n

nN
i.i.d con distribucin U (a, b) . Entonces
b a
n
n

i=1
f (X
i
)
c.s.

b
a
f(x)dx.
Demostracin.
Si denimos para cada n las variables Y
n
= (b a)f (X
n
) , entonces, tendremos que
Y
n

nN
son i.i.d en L
1
ya que f es continua. Entonces, por la ley fuerte de los grandes
nmeros tendremos que
Y
n
c.s.
E(Y ) = E[(b a)f (X
n
)] = (b a)

b
a
f(x)
1
b a
dx =

b
a
f(x)dx.
Corolario 8.16. Nmeros normales.
Dado un nmero x (0, 1) podemos escribirlo en su expresin binaria como x =
+

n=1
x
n
2
n
donde x
i
0, 1 para todo i = 1, 2, 3, ... Si truncamos el nmero x a sus
primeras n cifras en su expansin binaria (sumamos hasta n), observamos que x
n
=
x
1
+x
2
+...+x
n
n
es el porcentaje de veces que aparece el 1, entre los primeros n trminos.
El nmero x se dice normal respecto a la base 2, si x
n
1/2.
Probaremos que casi todo punto (0, 1) es normal respecto a la base 2 (es decir que si
se elige un nmero aleatorio en (0, 1) con distribucin uniforme, entonces el conjunto
de nmeros normales tiene probabilidad 1).
Demostracin.
Dado x (0, 1), escribimos x =
+

n=1
x
n
2
n
donde x
i
0, 1 para todo i = 1, 2, 3, ...
Observamos que x
n
= 0 en una unin de 2
n1
intervalos de longitud (1/2)
n
y x
n
=
1 en la unin de los restantes 2
n1
intervalos de longitud (1/2)
n
. Consideramos el
siguiente espacio de probabilidad. = (0, 1), sigma = B
(0,1)
y P denida mediante
la distribucin uniforme.
Denimos la sucesin de variables aleatorias X
n
: (0, 1) R tales que X
n
(x) = x
n
.
Entonces, la probabilidad de que X
n
tome el valor 1 es la suma de las longitudes de
los 2
n1
intervalos disjuntos de longitud (1/2)
n
lo que es igual a 1/2. Esto prueba que
X
n
Ber(p = 1/2) para todo n. Adems las variables son independientes ya que
P (X
n
1
=
1
, X
n
2
=
2
, ..., X
n
k
=
k
) =
1
2
k
= P (X
n
1
=
1
) P (X
n
2
=
2
) ...P (X
n
k
=
k
)
cualesquiera sean k,
1
,
2
, ...,
k
0, 1 y n
1
< n
2
< ... < n
k
.
Hemos probado entonces que la sucesin X
n

nN
son variables i.i.d con distribucin
Ber(p = 1/2) por lo tanto, la ley fuerte de los grandes nmeros nos asegura que
X
n
c.s.
p = 1/2 lo cual signica que casi todo nmero real perteneciente al intervalo
(0, 1) es normal respecto a la base 2.
De similar forma, se prueba que si se dene nmero normal respecto a la la base
82
Captulo 8. Convergencia en probabilidad, casi segura y en distribucin.
k, cuando el porcentaje de apariciones de cualquier j 0, 1, 2, ..., k 1 converge a
1/k, entonces casi todo nmero (0, 1) es normal respecto a la base k. Por ejemplo, en
el caso en que k = 10, tenemos que casi todo punto es normal respecto a su expansin
decimal lo cual signica que el promedio de apariciones de los dgitos 0, 1, 2, ..., 9 en
su expansin decimal tiende a 1/10.
8.3. Convergencia en distribucin.
Apuntamos en lo que sigue a otro concepto de convergencia, de gran utilidad que es la
convergencia en distribucin. La idea, de la misma es que cuando n tienda a innito, la
funcin de distribucin de las X
n
converja a la funcin de distribucin puntualmente
en algn conjunto. En el siguiente ejemplo, veremos que la convergencia puntual de
F
n
(x) a F(x) es muy restrictiva si la pedimos para todo x.
Ejemplo 8.17. Si c
n

nN
R es una sucesin decreciente tal que c
n
c y denimos
para cada n las variables X
n
= c
n
y X = c, desearamos tener una denicin de
convergencia en distribucin tal que X
n
converja a X. Las funciones de distribucin
de estas variables son
F
X
n
(x) =

0 si x < c
n
1 si x c
n
y F
X
(x) =

0 si x < c
1 si x c
.
Como se ve, F
X
n
(c) = 0 no tiende a F
X
(c) = 1, mientras que F
X
n
(x) F
X
(x) para
todo x = c.
Como se observa, c es el nico punto de discontinuidad de F
X
.
Cuntos puntos de discontinuidad puede tener una cierta funcin de distribucin?
Si F : R R es una funcin de distribucin, veremos que admite a lo sumo una
cantidad numerable de discontinuidades.
Para demostrarlo, observamos que
x R : F es discontinua en x =
+

n=1

x R : F(x) F(x

) 1/n

adems, para cada n, el conjunto x R : F(x) F(x

) 1/n tiene a lo sumo n


elementos, puesto que dado que F es creciente y acotada entre 0 y 1, la suma de los
saltos de distintos puntos de discontinuidad no puede exceder a 1. Por lo tanto el
conjunto de puntos de discontinuidad de F es numerable por ser unin numerable de
conjuntos nitos.
Se deja como ejercicio vericar que si F : R R es montona entonces el conjunto
de sus puntos de discontinuidad es a lo sumo numerable.
Denicin 8.18. Convergencia en distribucin.
Dadas X
n

nN
variables aleatorias denidas en

n
, /
n
, P
n

espacios de probabili-
dad, y X variable aleatoria denida en cierto

, /, P

espacio de probabilidad. Se
dice que la sucesin X
n

nN
converge en distribucin a X si y slo si
lim
n+
F
X
n
(x) = F
X
(x) para todo x punto de continuidad de F
X
.
83
Captulo 8. Convergencia en probabilidad, casi segura y en distribucin.
Notacin: X
n
d
X.
Tambin se dice que la sucesin X
n

nN
converge dbilmente a X, o tambin que
F
X
n
converge dbilmente a F
X
.
Observacin 8.19. Como se ve en la denicin, no es necesario que las variables X
n
y X esten todas denidas en el mismo espacio de probabilidad, ya que lo que importa,
es que la convergencia se de entre sus funciones de distribucin que son funciones de
R en R.
Veremos en el siguiente teorema que cuando trabajamos sobre un mismo espacio de
probabilidad, la nocin de convergencia en distribucin es an ms dbil que la nocin
de convergencia en probabilidad.
Teorema 8.20. Dadas una sucesin de variables aleatorias X
n

nN
y una variable
aleatoria X denidas sobre cierto

, /, P

espacio de probabilidad.
Si X
n
P
X entonces X
n
d
X.
Demostracin.
Dado x punto de continuidad de F
X
. Fijamos > 0 y le llamamos A
n,
= X < X
n
< X + .
Entonces
F
X
n
(x) = P (X
n
x) = P (X
n
x A
n,
) + P

X
n
x A
c
n,

.
Con respecto al primer sumando, tenemos que
P (X
n
x A
n,
) P (X x A
n,
) P (X x) = F
X
(x +).
Entonces tenemos que
F
X
n
(x) F
X
(x +) +P

X
n
x A
c
n,

.
Tomando lmite en n, el segundo sumando tiende a cero (ya que P

A
c
n,

tiende a
cero), por lo que obtenemos la desigualdad F
X
n
(x) F
X
(x + ) vlida para todo
> 0. Luego, tomamos lmite cuando 0
+
y usando que F
X
es continua por
derecha, nos queda
limsup
n+
F
X
n
(x) F
X
(x).
Para obtener una desigualdad en el otro sentido razonaremos en forma similar.
P (X
n
x A
n,
) P (X x A
n,
) .
Entonces
F
X
n
(x) P (X x A
n,
) +P

X
n
x A
c
n,

.
84
Captulo 8. Convergencia en probabilidad, casi segura y en distribucin.
Si ahora tomamos lmite en n, obtenemos que para todo > 0,
liminf
n+
F
X
n
(x) F
X
(x ).
Ahora usando que x es punto de continuidad de F
X
,tomamos lmite cuando 0
+
y obtenemos que liminf
n+
F
X
n
(x) F
X
(x). Hemos probado entonces que
lim
n+
F
X
n
(x) = F
X
(x).
Ahora veremos en el siguiente ejemplo que la convergencia en probabilidad es estric-
tamente ms fuerte que la convergencia en distribucin.
Ejemplo 8.21. Denimos una sucesin de variables X, X
1
, X
2
, ..., X
n
, ... i.i.d con
distribucin N (0, 1). Entonces X
n
d
X ya que F
X
n
= F
X
para todo n. Sin embargo
la sucesin X
n

nN
no converge en probabilidad a X ya que X
n
X tiene distribucin
N (0, 2) para todo n (ya que es combinacin lineal de normales independientes), y
por lo tanto
P ([X
n
X[ ) = P ( X
n
X ) =

esta probabilidad, no depende de n y es menor estricto que 1 por lo que no hay


convergencia en probabilidad.
85
Captulo 9
Funciones caractersticas.
En este captulo deniremos un concepto que nos permitir seguir desarrollando el
concepto de convergencia en distribucin, de hecho veremos ms caracterizaciones
para esta nocin de convergencia, y nalizaremos con un teorema esencial en la teora
y prctica: el teorema central del lmite.
Denicin 9.1. Funcin caracterstica. Dado un

, /, P

espacio de probabili-
dad y X : R variable aleatoria, se dene la funcin caracterstica de X como

X
: R C tal que
X
(t) = E

e
itX

.
Observacin 9.2. Dado que e
itX
= cos(tX) +isen(tX), se tiene que
E

e
itX

e
itx
dF
X
(x) =

(cos(tx) +isen(tx)) dF
X
(x) =

cos(tx)dF
X
(x) +i

sen(tx)dF
X
(x) = E(cos(tX)) +iE(sen(tX)) .
Observacin 9.3. La funcin caracterstica de X siempre existe ya que

e
itX

= 1
para todo t.
Ejemplo 9.4. Si X Poisson(), entonces

X
(t) = E

e
itX

e
itx
dF
X
(x) =
+

x=0
e
itx
p
X
(x) =
+

x=0
e
itx
e

x
x!
=
e

x=0
(e
it
)
x
x!
= e

e
e
it
= e

(
e
it
1
)
.
Como se ver ms adelante, la funcin caracterstica, juega un papel esencial en la
teora de la convergencia en distribucin, convergencia clave en estadstica.
86
Captulo 9. Funciones caractersticas.
9.1. Propiedades.
En todas las siguientes propiedades, se supone dado un espacio de probabilidad

, /, P

y en l, una variable aleatoria X : R.


Proposicin 9.5.
[
X
(t)[ 1 para todo t R.
Demostracin.
[
X
(t)[ =

e
itX

e
itX

= E(1) = 1.
Proposicin 9.6.

X
(0) = 1.
Demostracin.
Obvia.
Proposicin 9.7.

aX+b
(t) = e
itb

X
(at) para todo t R.
Demostracin.

aX+b
(t) = E

e
it(aX+b)

= E

e
itaX
e
itb

= e
itb
E

e
iatX

= e
itb

X
(at).
Proposicin 9.8. Si X e Y son independientes, entonces

X+Y
(t) =
X
(t)
Y
(t) para todo t R.
Demostracin.

X+Y
(t) = E

e
it(X+Y )

= E

e
itX
e
itY

indep
= E

e
itX

e
itY

=
X
(t)
Y
(t) .
Proposicin 9.9.
X
es uniformemente continua.
Demostracin.

X
(t)
X
(s) = E

e
itX

e
isX

= E

e
itX
e
isX

= E

e
isX

e
i(ts)X
1

.
Si denimos g(h) = E

e
ihX
1

, entonces
[
X
(t)
X
(s)[ =

e
isX

e
i(ts)X
1

e
isX

e
i(ts)X
1

=
E

e
i(ts)X
1

= g(t s).
Por lo tanto, bastar con ver que g es continua en cero, es decir que g(h) tiende a
cero cuando h 0.
Observamos que

e
ihx
1

2 L
1
, y como e
ihX
1
h0
0 c.s, entonces por el
teorema de convergencia dominada, se tiene que lim
h0
E

e
ihX
1

= 0.
87
Captulo 9. Funciones caractersticas.
Proposicin 9.10. Si X L
k
para cierto k N, k 1. Entonces
X
C
k
y
adems

(k)
X
(t) = i
k
E

X
k
e
itX

para todo t R.
Demostracin.
La prueba se realiza por induccin. Probmoslo para k = 1.

X
(t + h)
X
(t)
h
=
E

e
i(t+h)X

e
itX

h
=
E

e
i(t+h)X
e
itX

h
= E

e
itX

e
ihX
1

.
Ahora, observamos que lim
h0
e
ihx
1
h
= ix, por lo tanto
e
itX
(
e
ihX
1
)
h
c.s.
iXe
itX
cuando
h 0.
Adems,

e
itx
(
e
ihx
1
)
h

e
ihx
1
h

x
0
e
ihs
ds

x
0

e
ihs

ds

= [x[ para todos x, h


R. Entonces

e
itX
(
e
ihX
1
)
h

[X[ L
1
, por lo tanto, usando el teorema de convergencia
dominada se deduce que
lim
h0

X
(t +h)
X
(t)
h
= lim
h0
E

e
itX

e
ihX
1

= iE

Xe
itX

.
Se deja como ejercicio demostrar el paso inductivo y as completar la demostracin.

Observacin 9.11. Si Si X L
k
para cierto k N, la proposicin anterior nos
asegura que podemos derivar respecto a la variable t debajo del signo de la esperanza
k veces.
Observacin 9.12. Si X L
k
para cierto k N, k 1, entonces
(j)
X
(0) = i
j
E(X
j
)
para todo j = 1, 2, 3, ..., k. En particular si X L
k
para todo k N, entonces

X
C

y adems quedan determinados todos los momentos de la variable X a


partir de
X
.
Observacin 9.13. Se deduce de la demostracin que en el caso en que X L
k
para
cierto k, entonces
X
es uniformemente continua.
Ejemplo 9.14. Si X N (,
2
), entonces

X
(t) = e
itt
2

2
/2
.
Para demostrarlo, en primer lugar probaremos que si X N (0, 1), probaremos que

X
(t) = e
t
2
/2
. Para lograrlo, demostraremos que si denimos la funcin h como
h(t) := e
t
2
/2

X
(t), entonces h(t) = 1 para todo t.
Como h(0) = 1, bastar probar que h

(t) = 0 para todo t. En efecto, dado que


88
Captulo 9. Funciones caractersticas.
podemos derivar debajo del signo de esperanza en la funcin caracterstica, obtenemos
h

(t) = te
t
2
/2
E

e
itX

+e
t
2
/2
E

iXe
itX

. Entonces, resta probar que E

(t +iX) e
itX

=
0.
E

(t +iX) e
itX

=
1

(t +ix)e
itx
e
x
2
/2
dx =
1

(t +ix)e
itxx
2
/2
dx =
ie
itxx
2
/2
[
+

= 0.
Ahora, para demostrar el caso en que X N (,
2
), escribimos X = Z + donde
Z N (0, 1) . Entonces,

X
(t) =
Z+
(t) = e
it

Z
(t) = e
itt
2

2
/2
.
9.2. Frmula de inversin.
En esta seccin probaremos una frmula que nos pemite obtener F
X
si conocemos

X
, de aqu se deducir que la funcin caracterstica de una variable aleatoria, ca-
racteriza a la funcin de distribucin, es decir que F
X
= F
Y
si y slo si
X
=
Y
.
Teorema 9.15. Frmula de inversin.
Dado un

, /, P

espacio de probabilidad y X : R variable aleatoria, entonces


F
X
(x) = lim
zx
lim
y
lim
h+
1
2

h
h
e
ity
e
itz
it

X
(t)dt para todo x,
donde los lmites en y y en z se realizan sobre puntos de continuidad de F
X
.
Demostracin.
En primer lugar jamos y < z puntos de continuidad de F
X
.
Denimos
I(h) :=

h
h
e
ity
e
itz
it

X
(t)dt =

h
h

e
ity
e
itz
it
e
itx
dF
X
(x)

dt.
Dado que la funcin integrando f(t, z) =
e
ity
e
itz
it
e
itx
es continua, ya que lim
t0
e
ity
e
itz
it
=
y z, por lo tanto [f(t, x)[ c para todo (t, x) [h, h] R y entonces

h
h

[f(t, x)[ dF
X
(x)

dt 2hc, por lo que podemos intercambiar el orden de


integracin (Fubini), obteniendo que I(h) =

h
h
e
it(xy)
e
it(xz)
it
dt

dF
X
(x).
Ahora, observando que
cos(at)
t
es impar y
sen(at)
t
es par para todo a R, nos queda
que
I(h) =

h
0
sent(x y)
t
dt 2

h
0
sent(x z)
t
dt

dF
X
(x) = E(g
h
(X))
89
Captulo 9. Funciones caractersticas.
siendo g
h
(x) = 2

h
0
sent(xy)
t
dt 2

h
0
sent(xz)
t
dt.
Tomaremos lmite cuando h + y veremos que podemos aplicar el teorema de
convergencia dominada.
Utilizando el valor de la integral de Dirichlet

+
0
sen(at)
t
dt =

/2 si a > 0
0 si a = 0
/2 si a < 0
,
entonces el lmite puntual de g
h
es
lim
h+
g
h
(x) = 21
{y<x<z}
+1
{x=y}
+1
{x=z}
.
Observando que

h
0
sen(at)
t
dt

sup
h>0

h
0
sent
t
dt

def
:= M, entonces
[g
h
(x)[ =

h
0
sent(x y)
t
dt 2

h
0
sent(x z)
t
dt

4M
entonces por el teorema de convergencia dominada se obtiene que
lim
h+
I(h) = lim
h+
E(g
h
(X)) = E

21
{y<X<z}
+1
{X=y}
+1
{X=z}

y como y, z son puntos de continuidad de F


X
entonces
lim
h+
I(h) = 2P (y < X < z) = 2 (F
X
(z) F
X
(y)) .
Entonces
F
X
(z) F
X
(y) =
1
2
lim
h+
I(h) =
1
2
lim
h+

h
h
e
ity
e
itz
it

X
(t)dt.
Si tomamos lmite cuando y (siendo y punto de continuidad de F
X
) en la
anterior igualdad, obtenemos
F
X
(z) =
1
2
lim
y
lim
h+

h
h
e
ity
e
itz
it

X
(t)dt para todo z punto de continuidad de F
X
.
Para concluir, basta jar cualquier x R y tomar lmite en la anterior igualdad
cuando z x
+
tomando z puntos de continuidad de F
X
(esto es posible debido a
que por ser F
X
una funcin montona, la cantidad de puntos de discontinuidad es
numerable).
Entonces nos queda
F
X
(x) =
1
2
lim
zx
+
lim
y
lim
h+

h
h
e
ity
e
itz
it

X
(t)dt para todo x R,
donde el lmite en las variables y, z se hacen sobre puntos de continuidad de F
X
.
Corolario 9.16. Dado un

, /, P

espacio de probabilidad y X, Y : R variables


aleatorias. Entonces
F
X
= F
Y
si y slo si
X
=
Y
.
Demostracin.
Es consecuencia inmediata de la frmula de inversin.
90
Captulo 9. Funciones caractersticas.
9.3. Caracterizacin de la convergencia en distribu-
cin.
En el siguiente teorema, probaremos que la convergencia en distribucin es equivalente
a la convergencia puntual de las funciones caractersticas.
Teorema 9.17. Si para cada n, X
n
: R es variable aleatoria sobre (
n
, /
n
, P
n
)
y X : R es variable aleatoria sobre (, /, P). Entonces son equivalentes:
(a) X
n
d
X.
(b) E(g (X
n
))
n+
E(g (X)) para toda g : R R continua y acotada.
(c)
X
n
(t)
n+

X
(t) para todo t R.
Demostracin.
(a) (b)
Para simplicar la escritura, le llamamos F
n
a la funcin de distribucin de las X
n
y F a la funcin de distribucin de X. Tomemos g : R R continua y acotada, tal
que [g(x)[ c para todo x R, entonces para cualesquiera a < b, tenemos
[E(g (X
n
)) E(g (X))[ =

gdF
n

gdF

gdF
n

b
a
gdF
n

b
a
gdF
n

b
a
gdF

b
a
gdF

gdF

:= I
1
+I
2
+I
3
.
Fijemos un > 0 arbitrario.
I
3
=

gdF +

+
b
gdF

gdF

+
b
gdF

[g[ dF+

+
b
[g[ dF

cdF +

+
b
cdF = c (F (a) + 1 F (b)) .
Dado que c (F (a) + 1 F (b)) 0 cuando a y b +, elegimos a su-
cientemente pequeo y b sucientemente grande tal que c (F (a) + 1 F (b)) < .
Por conveniencia tomaremos a, b puntos de continuidad, ya que lo necesitaremos para
acotar I
1
e I
2
.
Acotamos de manera similar I
1
y obtenemos
I
1
=

gdF
n

b
a
gdF
n

c (F
n
(a) + 1 F
n
(b)) .
Para los a y b obtenidos, dado que son puntos de continuidad de F , se deduce que
c (F
n
(a) + 1 F
n
(b))
n+
c (F (a) + 1 F (b)) < , por lo tanto existe k N tal
que c (F
n
(a) + 1 F
n
(b)) < 2 para todo n k. Por ahora obtenemos I
1
+ I
3
< 3
para todo n k.
91
Captulo 9. Funciones caractersticas.
Para culminar la demostracin, probaremos que I
2
< 3 para todo n sucientemente
grande.
Como g es continua en [a, b], entonces es absolutamente continua, por lo que podemos
elegir una particin de [a, b] , a = x
0
< x
1
< x
2
< ... < x
N
= b tal que x
1
, x
2
, ..., x
N1
sean puntos de continuidad de F
X
y [g(x) g(x
i
)[ < para todo x [x
i
, x
i+1
] para
todo i = 0, 1, 2, ..., N 1.
I
2
=

b
a
gdF
n

b
a
gdF

N1

i=0

x
i+1
x
i
g(x)dF
n
(x)

x
i+1
x
i
g(x)dF(x)

.
m
ni
def
= (g(x
i
) ) (F
n
(x
i+1
) F
n
(x
i
))

x
i+1
x
i
g(x)dF
n
(x)
(g(x
i
) +) (F
n
(x
i+1
) F
n
(x
i
))
def
= M
ni
m
i
def
= (g(x
i
) ) (F (x
i+1
) F(x
i
))

x
i+1
x
i
g(x)dF(x)
(g(x
i
) +) (F (x
i+1
) F(x
i
))
def
= M
i
.
Entonces
m
ni
M
i

x
i+1
x
i
g(x)dF
n
(x)

x
i+1
x
i
g(x)dF(x) M
ni
m
i
y sumando en todos los intervalos, obtenemos que
N1

i=0
(m
ni
M
i
)

b
a
g(x)dF
n
(x)

b
a
g(x)dF(x)
N1

i=0
(M
ni
m
i
) .
Ahora, observamos que como los x
i
son puntos de continuidad de F
X
, se obtiene que
m
ni

n+
m
i
y M
ni

n+
M
i
para todo i = 0, 1, 2, ..., N 1, por lo que
N1

i=0
(m
ni
M
i
)
n+
N1

i=0
(m
i
M
i
) =
2
N1

i=0
(F (x
i+1
) F(x
i
)) = 2 (F(b) F(a)) 2
y
N1

i=0
(M
ni
m
i
)
n+
N1

i=0
(M
i
m
i
) =
2
N1

i=0
(F (x
i+1
) F(x
i
)) = 2 (F(b) F(a)) 2.
92
Captulo 9. Funciones caractersticas.
Entonces a partir de cierto n sucientemente grande, se tiene que
3

b
a
g(x)dF
n
(x)

b
a
g(x)dF(x) 3
lo que prueba que I
2
3 concluyendo as la prueba.
(b) (c)
Fijado t R, consideramos las funciones g
1
(x) = sen(tx) y g
2
(x) = cos(tx) ambas
son continuas y acotadas, por lo que E(g
1
(X
n
)) = E(sen(tX
n
))
n+
E(g
1
(X)) =
E(sen(tX)) , y E(g
2
(X
n
)) = E(cos(tX
n
))
n+
E(g
2
(X)) = E(cos(tX)) . Entonces
E

e
itX
n


n+
E

e
itX

y como t es arbitrario, entonces


X
n
(t)
n+

X
(t) para
todo t R.
(c) (a)
Nuevamente, por simplicidad, le llamamos F
n
a la funcin de distribucin de X
n
y F a la funcin de distribucin de X. Para demostrar que F
n
d
F, bastar con
probar que existe una subsucesin tal que F
n
j
d
F. Esto se debe a que una vez
probado que F
n
j
d
F, si F
n

nN
no convergiera dbilmente a F, entonces, existira
x
0
punto de continuidad de F tal que F
n
(x
0
) F(x
0
), entonces como F
n
(x
0
)
nN
es
una sucesin acotada, existe una subsucesin F
n
k

kN
tal que F
n
k
(x
0
)
k+
a para
cierto a = F(x
0
). Entonces extraemos una subsucesin de F
n
k

kN
, que converge
dbilmente a F, F
n
k
j
d
F. Entonces, dado que x
0
es punto de continuidad de F, se
tendra que F
n
k
j
(x
0
)
j+
F(x
0
), pero

F
n
k
j
(x
0
)

jN
es subsucesin de F
n
k
(x
0
)
kN
y por lo tanto F
n
k
j
(x
0
)
j+
a = F(x
0
), lo cual es absurdo.
En lo que sigue, construiremos una subsucesin

F
n
j

jN
de F
n

nN
tal que F
n
j
d
F.
Consideramos una numeracin de los racionales, Q = q
k

kN
. Para cada k, existe
una subsucesin de F
n
(q
k
)
nN
que es convergente, llammosle g
k
a dicho lmite.
Mediante el procedimiento de la diagonal, podemos asegurar que existe una sucesin
de naturales n
1
< n
2
< ... < n
j
< ... tal que F
n
j
(q
k
)
j+
g(q
k
) para todo k.
Denimos la funcin G : R R tal que G(x) =

g(q
k
) si x = q
k
lim
qx qQ
g(q) si x / Q
. En
primer lugar debemos ver que G est bien denida, es decir que existe el lmite
para el caso en que x es irracional. Para ello, observamos que G restringida a Q, es
montona creciente, esto se debe a que si q < q

entonces F
n
j
(q) F
n
j
(q

) para todo
j, luego, se toma lmite en j. De aqu se deduce que G es montona creciente. Podra
no ser continua por derecha, pero veamos en lo que sigue, que F
n
j
(x)
j+
G(x) en
todo punto de continuidad de G.
En efecto, si x es punto de continuidad de G, entonces, dado > 0, existen dos
racionales q y q

tales que q < x < q

con G(q

) < G(x) < G(q) + , entonces


G(x) < G(q) = lim
j+
F
n
j
(q) liminf F
n
j
(x)
93
Captulo 9. Funciones caractersticas.
limsup F
n
j
(x) lim
j+
F
n
j
(q

) = G(q

) < G(x) +
de donde se deduce que lim
j+
F
n
j
(x) = G(x). En los puntos donde G no sea continua,
la podemos redenir de modo que quede continua por derecha (esto es posible porque
G es creciente).
Probaremos que sta funcin G redenida de modo que quede continua por derecha,
es una funcin de distribucin, para lo cual bastar ver que tiene lmites 0 y 1 a
y + respectivamente.
Como
X
n
j

X
en todo punto, entonces, por el teorema de convergencia dominada
dado que

X
n
j
(s)

1 para todo s, obtenemos

t
0

X
n
j
(s)ds
j+

t
0

X
(s)ds para todo t.
Por otro lado, observamos que

t
0

X
(s)ds =

t
0

e
isu
dF (u)

ds
Fubini
=

t
0
e
isu
ds

dF(u) =

e
iut
1
iu

dF(u).
Adems, observando que la demostracin de que (a) (b) sigue valiendo si la con-
vergencia dbil, es denida sobre funciones acotadas, si denimos g
t
: R R tal que
g
t
(u) =
e
iut
1
iu
, entonces, dado que para todo t, g
t
es continua y acotada, se tiene que
E

g
t
(X
n
j
)


j+
E(g
t
(X)), es decir

e
iut
1
iu

dF
n
j
(u)
j+

e
iut
1
iu

dG(u) para todo t.


Entonces obtuvimos

t
0

X
(s)ds =

t
0

e
isu
dF (u)

ds =

t
0

e
isu
dG(u)

ds
para todo t. Luego
1
t

t
0

X
(s)ds =
1
t

e
iut
1
iu

dG(u)
y tomando lmite cuando t 0 se obtiene que 1 = (0) =

dG(u) = G(+)
G() y como adems G es creciente y acotada entre 0 y 1, entonces necesaria-
mente G(+) = 1 y G() = 0. Se concluye entonces que G es una funcin de
distribucin.
Ahora, como tenemos que F
n
j
d
G, sabemos que existe un espacio de probabilidad
y en l una variable aleatoria Y tal que G = F
Y
. Como (a) implica (c), se deduce que
94
Captulo 9. Funciones caractersticas.

X
n
(t)
n+

Y
(t) para todo t, pero por hiptesis
X
n
(t)
n+

X
(t) para todo t,
por lo tanto
X
=
Y
, lo cual implica que F
X
= F
Y
, es decir F = G.
Queda probado hasta ahora que existe una subsucesin de F
n

nN
tal que F
n
j
d
F.
Para concluir la prueba debemos ver que F
n
d
F. Ahora, si F
n

nN
no convergiera
en distribucin a F, entonces existira a R punto de continuidad de F y una sub-
sucesin

F
n
j

jN
tal que F
n
j
(a)
j+
F(a). Podemos suponer que

F
n
j
(a)

jN
es
convergente ya que de lo contrario como es una sucesin acotada en R, admiitira una
subsucesin convergente y trabajaramos con dicha subsucesin si fuera necesario.
Suponemos entonces que lim
j+
F
n
j
(a) = b = F(a). Por lo recin probado, existe una
subsucesin de

F
n
j

jN
que converge en distribucin a cierta funcin de distribu-
cin G. Observamos adems que debe ser G = F ya que por hiptesis, las funciones
caractersticas asociadas a esta subsucesin convergen a la funcin caracterstica aso-
ciada a F.
Entonces como a es punto de continuidad de F, esta subsucesin evaluada en a,
debera converger a F(a), pero por ser subsucesin de

F
n
j
(a)

jN
converge a b.
9.4. Teorema Central del Lmite.
El teorema central del lmite es un equivalente en importancia a la ley de los grandes
nmeros en lo que respecta al lmite en distribucin de la sucesin X
n
.
Teorema 9.18. Si X
n

n1
es una sucesin de v.a.i.i.d con distribucin F
X
, X L
2
,
E (X) = , V (X) =
2
. Entonces

X
n

d
N (0, 1) .
Demostracin.
Suponemos en un primer caso que = 0 y = 1.
Recordando que la funcin caracterstica de N (0, 1) es (t) = e
t
2
/2
para todo
t R, y usando el teorema que caracteriza la convergencia en distribucin mediante
la convergencia de las funciones caractersticas para todo t, bastar probar que

nX
n
(t)
n+
e
t
2
/2
t R.
Usando que
aX
(t) =
X
(at) y luego que las X
i
son independientes e idnticamente
distribudas, se obtiene

nX
n
(t) = X
1
+X
2
+...+X
n

n
(t) =
X
1
+X
2
+...+X
n

t/

=
n

i=1

X
i

t/

t/

n
.
Ahora si tenemos en cuenta que admite dos derivadas continuas (ya que X L
2
)
desarrollamos por Taylor alrededor de cero y obtenemos

X
(t) =
X
(0) +

X
(0) t +

X
(c
t
) t
2
2
donde [c
t
[ [t[
95
Captulo 9. Funciones caractersticas.
Pero
X
(0) = 1,

X
(0) = iE (X) = 0,

X
(0) = E (X
2
) = 1, entonces queda

nXn
(t) =

n
=

1 +

X
(c
t,n
)
2n
t
2

n
= e
nln

1+

X
(c
t,n
)
2n
t
2

.
Ahora, teniendo en cuenta que

X
es continua y que [c
t,n
[ [t[ /

n, se deduce que

X
(c
t,n
)
n+

X
(0) = 1.
Entonces
lim
n+

nXn
(t) = lim
n+
e
nln

1+

X
(c
t,n
)
2n
t
2

= lim
n+
e
n

X
(c
t,n
)
2n
t
2
= e
t
2
/2
.
lo que concluye la prueba en el caso = 0 y = 1.
El caso general se deduce deniendo las variables Y
n
:=
X
n

. Entonces Y
n

n1
es
una sucesin de v.a.i.i.d con distribucin F
Y
, Y L
2
, E (Y ) = 0, V (Y ) = 1. Entonces
se tiene que

nY
n
=

n
X
n

d
N (0, 1) lo que concluye la prueba.
Observacin 9.19. Si X
1
, X
2
, ... son variables i.i.d en L
2
con esperanza y varianza

2
, el teorema central del lmite nos dice que
lim
n+
P

X
n

= (x) .
Entonces, si n es sucientemente grande, podemos realizar la siguiente aproximacin
P

X
n

= P

X
n
+

n
x

aprox
(x)
luego, si le llamamos t = +

n
x, entonces F
X
n
(t)

(t )

que es la funcin
de distribucin de una variable N (,
2
/n) , por lo tanto si n es sucientemente
grande, entonces podemos aproximar la distribucin de X
n
por N (,
2
/n) .
Observacin 9.20. A partir de la observacin anterior deducimos que, si n es su-
cientemente grande, podemos aproximar la distribucin de X
1
+ X
2
+ ... + X
n
por
N (n, n
2
) .
Ejemplo 9.21. Si X Bin(n, p) y n es sucientemente grande, entonces X es aproxi-
madamente N (np, np(1 p)) ya que podemos escribir X como X = X
1
+X
2
+...+X
n
donde X
1
, X
2
, ..., X
n
son i.i.d Ber(p) .
Ejemplo 9.22. Si tiramos 100 veces una moneda, calcularemos de manera aproxi-
mada mediante le empleo del teormea central del lmite la probabilidad de obtener
entre 40 y 60 caras.
Para el clculo, denimos X = antidad de caras en los 100 lanzamientos", entonces
X Bin(n = 100, p = 1/2). Deseamos hallar P (40 X 60) . Dado que np = 50 y
np(1 p) = 25, tenemos que la distribucin de X es aproximadamente N (50; 25) y
por lo tanto P (40 X 60)

6050
5

4050
5

= 0, 954 50. El valor exacto en


este caso es 0,9648.
96
Captulo 9. Funciones caractersticas.
Como aplicacin, podemos volver a calcular n, de forma aproximada, tal que
P

X
n
p

0, 01

0, 95 para el caso en que X


1
, X
2
, ..., X
n
son i.i.d Ber(p). Esto
ya fue resuelto como aplicacin de la desigualdad de Chebyshev, ahora podremos
dar otra solucin, aproximada, mediante el empleo del teorema central del lmite.
Aproximando la distribucin de X
n
por N (p, p(1 p)/n) obtenemos
P

X
n
p

0, 01

= P

p 0, 01 X
n
p + 0, 01

0, 01

p(1 p)

0, 01

p(1 p)

= 2

0, 01

p(1 p)

1
y usando que p(1 p) 1/4 obtenemos
2

0, 01

p(1 p)

1 2

0, 02

1
por lo que bastar con hallar n tal que 2(0, 02

n) 1 0, 95 lo cual se cumple si
y slo si 0, 02

n
1
(0, 975) = 1, 96, es decir que basta con tomar n

1,96
0,02

2
=
9604.
Observacin 9.23. El hecho de que aplicando el teorema central del lmite, resulte
un valor de n (aunque aproximado) notoriamente ms pequeo que el obtenido por
aplicacin de la desigualdad de Chebyshev, se debe a que como ya fue dicho en su
momento, la desigualdad de Chebysehv es una desigualdad universal, aplicable a toda
variable aleatoria en L
2
y por lo tanto es natural esperar que en ciertas situaciones
nos de acotaciones groseras de la probabilidad buscada.
97

También podría gustarte