Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Notas de Clase Probabilidad
Notas de Clase Probabilidad
Estadstica
Captulos 1 al 12
Vctor J. Yohai
vyohai@dm.uba.ar
Basadas en apuntes de clase tomados por Alberto Dboli, durante el ao 2003
Versin corregida durante 2004 y 2005, con la colaboracin de Mara Eugenia Szretter
5 de Marzo de 2008
ndice general
1. Espacios de Probabilidad.
1.1. Experimentos aleatorios. Algunas consideraciones heursticas.
1.2. Axiomas de probabilidad. . . . . . . . . . . . . . . . . . . . .
1.2.1. lgebras. . . . . . . . . . . . . . . . . . . . . . . .
1.2.2. Espacios de Probabilidad. . . . . . . . . . . . . . . . .
1.3. lgebra generada por una familia de conjuntos. . . . . . .
1.4. Espacios de probabilidad finitos o numerables. . . . . . . . . .
1.5. Probabilidad condicional. . . . . . . . . . . . . . . . . . . . .
1.6. Independencia de eventos. . . . . . . . . . . . . . . . . . . . .
7
7
8
8
10
18
21
23
25
2. Variable Aleatoria.
31
2.1. Concepto de variable aleatoria. . . . . . . . . . . . . . . . . . 31
2.2. Espacio de probabilidad asociado a una variable aleatoria. . . 32
2.3. Funcin de distribucin de una variable aleatoria. . . . . . . . 35
3. Variables aleatorias discretas y continuas.
41
3.1. Variables aleatorias discretas. . . . . . . . . . . . . . . . . . . 41
3.2. Ejemplos de distribuciones discretas. . . . . . . . . . . . . . . 43
3.2.1. Distribucin Binomial. . . . . . . . . . . . . . . . . . . 43
3.2.2. Distribucin Binomial Negativa (o Distribucin de Pascal). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.2.3. Distribucin Geomtrica. . . . . . . . . . . . . . . . . 46
3.2.4. Distribucin Hipergeomtrica. . . . . . . . . . . . . . . 47
3.2.5. Distribucin de Poisson. . . . . . . . . . . . . . . . . . 48
3.2.6. Grfico de la funcin de distribucin asociada a una
variable aleatoria discreta. . . . . . . . . . . . . . . . . 49
3.3. Variables aleatorias absolutamente continuas. . . . . . . . . . 49
3.4. Ejemplos de distribuciones continuas. . . . . . . . . . . . . . . 53
3.4.1. Distribucin uniforme en un intervalo. . . . . . . . . . 53
3.4.2. Generacin de distribuciones a partir de la distribucin uniforme en [0,1] . . . . . . . . . . . . . . . . . . 55
3.4.3. Distribucin Normal N , 2 . . . . . . . . . . . . . . 59
3.4.4. Distribucin Exponencial. . . . . . . . . . . . . . . . . 62
3
65
69
69
70
71
78
80
80
86
86
105
105
107
109
112
114
115
. 116
. 116
. 121
. 123
. 123
.
.
.
.
.
7. Esperanza Matemtica.
125
7.1. Integral de Riemann-Stieltjes. . . . . . . . . . . . . . . . . . . 125
7.1.1. Definicin de la integral. . . . . . . . . . . . . . . . . . 125
7.2. Definicin de Esperanza Matemtica. . . . . . . . . . . . . . . 128
7.2.1. Algunas consideraciones heursticas. . . . . . . . . . . 128
7.2.2. Esperanza de una variable aleatoria discreta. . . . . . 129
7.2.3. Definicin general de esperanza matemtica. . . . . . 129
7.2.4. Esperanza matemtica para una variable absolutamente
continua. . . . . . . . . . . . . . . . . . . . . . . . . . 133
4
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
179
179
187
190
192
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
195
195
196
199
204
207
213
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
11.Convergencia en Distribucin.
217
11.1. Definicin de convergencia en distribucin. . . . . . . . . . . . 217
11.2. Funciones caractersticas. . . . . . . . . . . . . . . . . . . . . 220
11.2.1. Variables aleatorias complejas. . . . . . . . . . . . . . 220
11.2.2. Definicin de funcin caracterstica y propiedades. . . 221
11.3. Momentos y funcin caracterstica. . . . . . . . . . . . . . . . 226
11.3.1. Derivacin dentro del signo esperanza. . . . . . . . . . 226
11.3.2. Derivadas de la funcin caracterstica y momentos. . . 227
11.4. Funcin caracterstica de una distribucin normal. . . . . . . 229
11.5. Teorema Central del Lmite. . . . . . . . . . . . . . . . . . . . 233
11.5.1. Caso de variables independientes idnticamente distribuidas . . . . . . . . . . . . . . . . . . . . . . . . . 233
11.5.2. Teorema Central del Lmite para variables no idnticamente distribuidas. . . . . . . . . . . . . . . . . . . . 236
5
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
240
242
253
255
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
257
257
257
259
264
265
Captulo 1
Espacios de Probabilidad.
1.1.
Cn (A)
.
n
y entonces
0 P (A) 1.
Como veremos, en algunos casos, no se puede definir la probabilidad para
todo subconjunto de resultados.
Para precisar este concepto y estudiar sus propiedades formularemos la
teora axiomtica de probabilidades.
1.2.
Axiomas de probabilidad.
1.2.1.
lgebras.
A1. A.
A2. Dado A A se tiene Ac A.
A3. Sea A1 , . . . , An , . . . una sucesin de elementos de A. Entonces
A=
i=1
Ai A.
Propiedades de lgebras
Propiedad 1.1 A.
Demostracin. Resulta de A1 y A2. 2
Propiedad 1.2 Si A1 , ..., An son elementos de A entonces
n
[
i=1
Ai A.
Demostracin.
Para ver esto supongamos que Ai A ; i = 1, 2, ..., n. Probaremos que
A=
n
[
i=1
Ai A.
Bk = si k > n.
n
[
Ai =
i=1
i=1
Bi A y por lo tanto
Bi A. 2
i=1
T
elementos de A entonces A =
Ai A.
i=1
i=1
Aci )c . 2
1.2.2.
Espacios de Probabilidad.
P () = 1.
2.
Ai ) =
i=1
X
i=1
Observaciones.
10
P (Ai ).
k
!
k
Pk
k
A
Cn
[
X
i
i=1
i=1 Cn (Ai )
=
=
Ai =
fn (Ai ) .
fn
n
n
i=1
i=1
1
si x0 A
P (A) =
/ A.
0
si x0
P se denota x0 y se dice que la probabilidad est concentrada en x0 o bien
que el nico punto de probabilidad positiva es x0 .
Ejemplo 1.6 Sea = {x1 , x2 , ..., xn , ...} cualquier conjunto numerable,
A = P(X), y sea ai 0, i = 1, 2, ..., una sucesin tal que
ai = 1.
i=1
P (A) =
ai
{i: xi A}
[
X
X
Ai =
P (Ai ) =
P () 1,
0 P () = P
i=1
i=1
i=1
n
S
Ai ) =
i=1
Pn
i=1 P
(Ai ) .
P (A2 ) P (A1 ).
Demostracin. Por la Propiedad 1.1 y el hecho de que A1 A2 = A2 tenemos
P (A1 A2 ) = P (A1 ) P (A1 A2 )
= P (A1 ) P (A2 )
+ P (A2 ) P (A1 A2 )
k
[
i=1
Ai
k
X
P (Ai ) .
i=1
13
n1 An .
Entonces
P (An ).
n=1
Demostracin. Definamos
B0 = ,
B1 = A1 ,
B2 = A2 A1 ,
B3 = A3 (A1 A1 ),
..
.
Bn = An
n1
[
Ai .
i=1
Bn .
n=1
X
X
P (Bn )
P (An ) . 2
P (A) =
n=1
n=1
Propiedad 1.14 Sea (An )n1 una sucesin de eventos tales que An An+1
para todo n y
[
A=
Ai .
i=1
Luego
P (A) = lm P (An ).
n+
Bk ,
k=1
14
P (Bk ) = lm
k=1
= lm
n
X
k=1
n
X
P (Bk ) = lm
k=1
n
X
P (Ak )
P (Ak1 )
k=1
n
X
k=1
P (Ak Ak1 )
= lm P (An ) . 2
n
Propiedad 1.15 Sea (An )n1 una sucesin de eventos tal que An An+1
para todo n y
\
A=
Ai .
i=1
Entonces
P (A) = lm P (An ).
n+
S
Bi . Luego por la propiedad anterior tenemos
eventos y Ac =
i=1
1 P (A) = P (Ac )
= lm P (Bn )
n+
= lm (1 P (An ))
n+
= 1 lm P (An ),
n+
\
A=
An ,
k=1 n=k
An .
k=1 n=k
Adems
(A) =
c
[ \
k1 n=k
\ [
An =
Acn = Ac .
k1 n=k
15
k1
n=k
An
!c
S
An de manera que A. Recprocamente si
/ A entonces se
n=k
An
n=n0 +1
y entonces
/ A.
(ii) Consideremos la sucesin de los complementos, es decir (Acn )n1 . Por
la observacin hecha anteriormente y el punto (i) se tiene que
A = (Ac )c
= { : pertence a infinitos Acn }c
= A .
(iii) Se dice que existe el lmite de la sucesin (An )n1 de conjuntos sii
A = A . En tal caso se tiene
P A = P (A) = lm P (An ) .
n
Demostracin.
(i) Como lo hicimos anteriormente consideremos
A=
[
\
Ai
k=1 ik
y escribamos
Bk =
Ai .
ik
Bk .
k1
y entonces
inf {P (Bk )} inf sup{P (Ai )}
k1
k1 ik
k1
1.3.
A . Mostraremos que
i=1 Ai A . Dado A R, se tiene Ai A para todo
\
[
Ai
A = A .
i=1
AR
lgebra de Borel sobre los reales. Si tenemos un espacio de probabilidad cuyo espacio muestral es el conjunto de nmeros reales R, parece
natural que la lgebra contenga los conjuntos de la forma (, x].Esto
permitir calcular la probabilidad de que el resultado del experimento aleatorio correspondiente sea menor o igual que x. Esto motiva la siguiente definicin.
Definicin 1.4 La lgebra de Borel sobre R, que denotaremos por B, es
la lgebra sobre R generada por los conjuntos de la forma Ax = (, x],
para todo x R. Un conjunto B B se denomina boreliano.
Propiedades de los borelianos.
Propiedad 1.18 Todo intervalo (a, b] es un boreliano.
Demostracin. Como
(a, b] = (, b] (, a],
por la Propiedad 1.5 (a, b] es un boreliano 2
Propiedad 1.19 Dado x R, {x} B.
Demostracin. Para esto se observa que para todo n N
In = (x
1
, x] B.
n
Puesto que
x
resulta que
{x} =
1
x
n
n=1
In B,
y por lo tanto G B. 2
Propiedad 1.24 Todo cerrado es un boreliano
Demostracin. Sea F un cerrado. Entonces F c = G es un abierto y por
Propiedad 1.23 se tiene que F c B. Ahora por ser lgebra se obtiene
que
F = (F c )c B. 2
lgebra de Borel en Rn .
Definicin 1.5 La lgebra de Borel sobre Rn es la lgebra sobre Rn
generada por los conjuntos de la forma
A(x1 ,x2 ,...,xn ) = (, x1 ] (, x2 ] ... (, xn ],
donde (x1 , ..., xn ) es una n-upla de nmeros reales. Ser denotada por Bn .
Observacin. De manera anloga al caso de la lgebra de Borel sobre R,
se pueden mostrar las propiedades 1.25-1.26 cuyas demostraciones se dejan
como ejercicio.
Propiedad 1.25 Cualquier rectngulo en Rn de la forma
(a1 , b1 ] (a2 , b2 ] (an , bn ]
(a1 , b1 ) (a2 , b2 ) (an , bn )
[a1 , b1 ) [a2 , b2 ) [an , bn )
es un boreliano.
Propiedad 1.26 Todo abierto y todo cerrado en Rn es un boreliano.
20
1.4.
Propiedad 1.27 La funcin de densidad determina la funcin de probabilidad. Para todo A se tiene
X
p () .
P (A) =
wA
1=
p(i ) =
i=1
c,
i=1
i=1 c
= 0 segn c > 0 c = 0.
#A
,
#
y luego,
c=
1
.
#
Adems
P (A) =
wA
p() =
c=c
wA
1 = c (#A) =
wA
#A
.
#
22
365
n!.
#A =
n
c
1.5.
Probabilidad condicional.
nAB
n
nB
n
lmn nAB
P (A B)
n
.
nB =
lmn n
P (B)
P (A B)
.
P (B)
El siguiente teorema muestra que para cada B fijo, P (.|B) es una funcin
de probabilidad.
Teorema 1.2 Fijado el evento B , tal que P (B) > 0, definamos Pe :
A [0, 1] por
Pe (A) = P (A|B)
Demostracin.
(i)
P (B)
P ( B)
=
=1
Pe () = P (|B) =
P (B)
P (B)
(ii) Sea (An )n1 , una sucesin de eventos disjuntos dos a dos, es decir si
i 6= j, entonces Ai Aj = . Luego
!
!
[
! P
!
An B
[
[
n=1
=
An = P
An |B =
Pe
P (B)
n=1
n=1
!
[
P
An B
P
P (An B)
n=1
= n=1
=
=
P (B)
P (B)
X
X
P (An B) X
=
P (An |B) =
=
Pe (An ) . 2
P
(B)
n=1
n=1
n=1
24
1.6.
Independencia de eventos.
Definicin 1.10 Se dice que los eventos A1 , ..., Ak son independientes sii
para cualquier sucesin de subndices (i1 , ...ih ), h k, con ir 6= is si r 6= s
se tiene que
h
\
j=1
Aij =
h
Y
P Aij .
j=1
Observaciones.
1. Para que tres eventos A1 , A2 y A3 sean independientes se deben cumplir
las siguientes igualdades
P (A1 A2 ) = P (A1 ) P (A2 )
P (A1 A3 ) = P (A1 ) P (A3 )
P (A2 A3 ) = P (A2 ) P (A3 )
y luego
P (Ai Aj ) =
1 1
1
= = P (Ai ) P (Aj ) .
4
2 2
Pero
A1 A2 A3 = ,
y por lo tanto
1
0 = P (A1 A2 A3 ) 6= P (A1 ) P (A2 ) P (A3 ) = .
8
h
\
Aij > 0,
P
j=2
se tiene que
\
h
P Ai1
Aij = P (Ai1 ) .
j=2
(1.1)
Qh
h
\
P
h
P
j=1 Aij
= Qj=1
P Ai1
Aij = T
h
h
j=2
P
j=2 P
j=2 Aij
Aij
= P (Ai1 ) .
Aij
h
h
\
Y
P Aij .
(1.2)
P Aij =
j=1
j=1
26
P (Ai1 Ai2 )
= P (Ai1 )
P (Ai2 )
T
h+1
= 0. En tal caso por la suposicin que
A
(a) Supongamos que P
i
j
j=2
(1.2) vale para h conjuntos se tiene que
h+1
h+1
\
Y
Aij =
P Aij .
0=P
j=2
j=2
Luego
h+1
Y
j=1
y como
Th+1
j=1
Aij
Th+1
j=2
P Aij = 0,
h+1
\
P
Aij = 0.
(1.4)
(1.5)
j=1
h+1
h+1
\
Y
Aij =
P Aij .
P
j=1
j=1
h+1
(b) Supongamos ahora que P
> 0. Entonces como estamos
j=2 Aij
suponiendo que (1.1) vale se tiene
h+1
\
Aij = P (Ai1 ) ,
P Ai1
j=2
27
y luego
P
P
Equivalentemente
h+1
\
j=1
T
h+1
j=1
T
h+1
Aij
j=2 Aij
= P (Ai1 ) .
h+1
\
Aij = P (Ai1 ) P
j=2
Aij ,
h+1
h+1
h+1
\
Y
Y
P
Aij = P (Ai1 )
P Aij =
P Aij . 2
j=1
j=2
j=1
Definicin 1.11 Sea I un conjunto finito o numerable, una sucesin {Ai }iI
se dice una particin de sii
1.
Ai =
iI
2.
Si i 6= j entonces
Ai Aj =
Teorema 1.4 (Teorema de la Probabilidad Total) Sea (, A, P ) un espacio de probabilidad, {An }nI A una particin de con P (Ai ) > 0, para
todo i I y B A tal que P (B) > 0. Entonces
X
P (Ai )P (B|Ai )
P (B) =
iI
entonces como P (B|Ai ) = P (BAi )/P (Ai ), se tiene P (BAi ) = P (Ai )P (B|Ai )
y por lo tanto
X
P (Ai )P (B|Ai ) . 2
P (B) =
iI
28
P (Ai |B) =
P (A2 |T+ ) =
y
30
Captulo 2
Variable Aleatoria.
2.1.
En muchos casos interesa conocer solamente alguna caracterstica numrica del resultado del experimento aleatorio. Demos dos ejemplos:
1. El experimento consiste en tirar dos dados y los posibles resultados
son = { (x, y) : x I6 , y I6 } donde Ik = {1, 2, ..., k} y para cada
resultado (x, y) interesa solo la suma de los dados x + y.
2. El experimento consiste en un tiro al blanco y el conjunto de los
resultados es = { (x, y) : x R, y R}, x e y son la abcisa y
ordenada del punto donde peg el tir tomando origen (0, 0) el punto
correspondiente al blanco. En este ejemplo solo interesa la distancia
al blanco, es decir (x2 + y 2 )1/2
Definicin 2.1 Sea (, A, P ) un espacio de probabilidad. Una variable aleatoria es una funcin X : R tal que para todo x R
X 1 ((, x]) A.
(2.1)
Observaciones.
1. La condicion (2.1) permite calcular
P ({ : X() x}) = P (X 1 ((, x])).
2. El concepto de variable aleatoria es esencialmente el mismo que el
de funcin medible en teora de la medida. Si (, A, ) es un espacio
de medida f : A R se dice medible sii para todo x vale que
f 1 ((, x])) A.
31
X 1 (R) = A.
c
X 1 (Ac ) = X 1 (A) A.
Luego
X 1
nN
An
nN
X 1 (An ) A.
2.2.
PX (B) = P X 1 (B) .
PX (R) = P X 1 (R) = P () = 1.
(b) Si {Bi }iN B es una sucesin disjunta dos a dos, entonces {X 1 (Bi )}iN
tambin lo es. Luego
!
!!
[
[
[
1
1
Bi = P X
Bi
X (Bi ) =
PX
=P
iN
X
iN
P X
iN
iN
X
(Bi ) =
PX ((Bi )) . 2
iN
1.
es medible.
El siguiente teorema muestra que la composicin de una variable aleatoria con una funcin medible es una variable aleatoria.
Teorema 2.3 Si g : R R es medible y X : R es una variable aleatoria, entonces g (X) : R es tambin una variable aleatoria.
Demostracin. Basta con observar que dado B B
2.3.
Definicin 2.3 Sea X una variable aleatoria. Se define la funcin de distribucin asociada a X como la funcin FX : R [0, 1] dada por
2.
lmx FX (x) = 1.
3.
lmx FX (x) = 0.
4.
Demostracin.
1. Si x < x0 entonces
(, x] (, x0 ],
y por lo tanto
FX (x) = P ((, x]) P (, x0 ] = FX x0 .
lm FX (n) = 1.
An = R.
nN
35
!
[
An = PX (R) = 1.
lm FX (n) = lm PX (An ) = PX
n
nN
1
An = , x0 +
n
que satisface
An = (, x0 ].
nN
Entonces
\
1
= lm PX (An ) = PX
An
lm FX x0 +
n
n
n
nN
= PX ((, x0 ]) = FX (x0 )
1
FX (x0 ) +
FX x0 +
n
Si tomamos < 1/n0 , entonces para todo x tal que 0 < x x0 < se
tendr
1
FX (x) FX (x0 + ) FX x0 +
FX (x0 ) + .2
n0
Dada una funcin g : R R, denotemos por lmxx0 g(x) el lmite de
g(x) cuando x tiende a x0 por la izquierda. Entonces tenemos la siguiente
propiedad de la funcin de distribucin.
Propiedad 2.5 Para todo x0 R se tiene que
lm FX (x) = FX (x0 ) PX ({x0 }) .
xx0
(2.2)
(2.3)
se tendr
lm FX (x0 1/n) = lm PX (An ) = PX ((, x0 ))
= a.
Luego existe n0 tal que FX (x0 1/n0 ) a . Sea = 1/n0 y tomemos
x0 < x < x0 . Por la monotona de FX se tendr
a FX (x0 1/n0 ) = FX (x0 ) FX (x),
y por lo tanto (2.3) se cumple. Esto prueba la Propiedad 2.5. 2
Propiedad 2.6 FX es continua a izquierda en x0 si y slo si PX ({x0 }) = 0.
Demostracin. El resultado es inmediato a partir de la Propiedad 2.5. 2
Demostracin.
Teorema 2.6 Sea FX la funcin de distribucin de una v.a X. Entonces el
conjunto de puntos de discontinuidad de FX es a lo sumo numerable.
Demostracin. De acuerdo a la Propiedad 2.6, el conjunto de puntos de discontinuidad est dado por
A = {x : PX ({x}) > 0}.
Para todo k N sea
Ak =
1
.
x : PX ({x}) >
k
Ak = A.
k=1
38
1
.
k0
{xi }
iN
se tendr
PX (B) =
X
i=1
lo que es un absurdo. 2
X
1
PX ({xi }) >
= ,
k0
i=1
Veremos ahora que toda funcin con las cuatro propiedades del Teorema
2.5 es una funcin de distribucin para cierta variable aleatoria X (no nica).
Para eso se requiere el siguiente teorema que daremos sin demostracin.
Teorema 2.7 (de Extensin) Sea F : R [0, 1] una funcin con las
cuatro propiedades del Teorema 2.5 . Luego existe una nica probabilidad P
sobre (R, B) tal que para todo x R se tiene
P ((, x]) = F (x) .
Este Teorema no se demostrar en este curso ya que requiere teora de
la medida. La la probabilidad P se denomina extensin de la funcin F.
Veremos ahora algunas consecuencias del Teorema de Extensin.
Corolario 2.1 Si X y X son variables aleatorias tales que FX = FX .
Entonces para todo B B se tendr
PX (B) = PX (B) .
Demostracin. Es consecuencia de la unicidad del teorema de extensin. 2
Corolario 2.2 Si F satisface las cuatro propiedades del Teorema 2.5 , entonces existe una variable aleatoria X (no necesariamente nica) tal que
F = FX .
Demostracin. De acuerdo al teorema de extensin se puede definir un espacio
de probabilidad (R, B, P ) de forma tal que para todo x R
F (x) = P ((, x]) .
Ahora consideramos la funcin identidad X : R R definida como X (x) =
x para todo x R. Entonces se cumple que
FX (x) = PX ((, x]) = P (X 1 ((, x])) = P ((, x]) = F (x) . 2
39
40
Captulo 3
Variables aleatorias
discretas y continuas.
Existen varios tipos de variables aleatorias. En este curso slo estudiaremos con detalle las discretas y las (absolutamente) continuas.
3.1.
Definicin 3.1 Se dice que una v.a. X es discreta sii existe A R finito
o numerable tal que PX (A) = 1.
Observacin. Ese conjunto A no tiene porque ser nico. Si se le agrega
un conjunto finito o numerable de probabilidad cero, seguir teniendo esta
propiedad. A continuacin vamos a encontrar el conjunto ms chico que
tiene esta propiedad.
Definicin 3.2 Sea X una variable aleatoria discreta. Se define el rango
de X como el conjunto de los puntos de discontinuidad de la funcin de
distribucin, es decir por
RX = {x R : PX ({x}) > 0}.
Teorema 3.1 Sea X una variable aleatoria discreta. Luego (i) PX (RX ) =
1,(ii) Si PX (A) = 1, entonces RX A.
Demostracin.
(i) Sea A un conjunto a lo sumo numerable tal que PX (A) = 1. Luego A
se puede escribir como la siguiente unin disjunta
A = (A RX ) (A RX ) .
41
Entonces
1 = PX (A)
= PX ((A RX ) (A RX ))
= PX (A RX ) + PX (A RX ) .
(3.1)
(3.2)
resulta que
PX (A RX ) =
PX ({x}) = 0.
xPX (ARX )
lo cual es un absurdo. 2
La importancia de RX reside en el hecho de que para calcular la probabilidad de un evento B solo interesan los puntos de B que estn en RX . En
este sentido se dice que la probabilidad se concentra en RX .
Teorema 3.2 Para todo B B se tiene
PX (B) = PX (RX B) .
Demostracin. Podemos escribir a B como la siguiente unin disjunta
B = (RX B) (B RX ) ,
y tomando probabilidad en ambos miembros se obtiene
PX (B) = PX (RX B) + PX (B RX ) .
42
(3.3)
Pero
B RX (RX )c ,
de manera que
PX (B RX ) PX ((RX )c ) = 0.
Luego PX (B RX ) = 0 y el teorema resulta de (3.3). 2
Definicin 3.3 Sea X una variable aleatoria discreta. Se define la funcin
de densidad de probabilidad asociada a la variable X como la funcin
pX : R [0, 1]
tal que
pX (x) = PX ({x}) .
Tambin pX se suele llamar funcin de probabilidad puntual de X o funcin
de frecuencia de X.
Observacin. La funcin de densidad satisface pX (x) > 0 sii x RX y
determina totalmente la probabilidad PX .
Para ver esto probaremos el siguiente teorema.
Teorema 3.3 Si B B entonces
PX (B) =
pX (x) .
xBRX
pX (x) 2.
xBRX
3.2.
3.2.1.
Distribucin Binomial.
n
X
i .
i=1
El rango de esta variable es RX = {0, 1, ..., n}. Obtendremos seguidamente su funcin de densidad. Sea 0 x n, el evento {X = x} est dado
por
n
X
i = x}.
Ax = {(1 , 2 , ..., n ) :
i=1
Obsrvese que el espacio muestral no es equiprobable, por lo que la probabilidad no se determina con el esquema casos favorables / casos igualmente
posibles.
Sea el resultado de un experimento cualquiera. Si = 0 entonces
P () = 1 y si = 1 entonces P () = . Esto puede escribirse de
manera ms compacta de la siguiente manera
P () = (1 )1 .
=
=
n
Y
i=1
n
Y
i=1
n
P
P (i )
i (1 )1i =
= i=1
(1 )
44
n
P
i=1
P
Ahora si = (1 , 2 , ..., n ) Ax entonces ni=1 i = x y queda que la
probabilidad de ocurrencia de cualquier elemento de Ax es
pX () = pX ((1 , 2 , ..., n )) = x (1 )nx
En definitiva como Ax se puede escribir como la siguiente unin disjunta
[
Ax =
{}
Ax
entonces
pX () = P ({ : X() = x})
= P (A)
X
P ({}) =
=
Ax
= #(Ax ) x (1 )nx
n x
=
(1 )nx .
x
3.2.2.
Consideremos, como en el caso de la distribucin binomial, un experimento aleatorio cuyo resultado es xito con probabilidad y fracaso con
probabilidad 1. Supongamos que se hacen repeticiones independientes del
experimento hasta que ocurran k xitos. Los parmetros de esta distribucin son : probabilidad de xito y k : el nmero de xitos buscado.
Llamaremos X a la variable aleatoria definida como el nmero de experimentos que hay que realizar para obtener los k xitos. La distribucin de
esta variable se denomina binomial negativa o de Pascal y se la denotar
con BN(, k). El rango de X es
RX = {m N : m k}
el cual es infinito numerable.
Consideremos la sucesin variables aleatorias independientes Zi , i N
definidas por
1
si el i-simo experimento es xito
Zi =
0
si el i-simo experimento es fracaso,
y definimos las variables
Yi =
i
X
j=1
45
Zj ,
x 1 k1
(1 )xk
=
k1
x1 k
=
(1 )xk .
k1
3.2.3.
(3.4)
Distribucin Geomtrica.
x1
pX (x) =
(1 )x1 = (1 )x1 .
0
Podemos verificar que
X
x=1
pX (x) =
(1 )x1 =
x=1
j=0
(1 )j =
46
X
x=1
(1 )x1
1
= 1.
1 (1 )
3.2.4.
Distribucin Hipergeomtrica.
(3.5)
(3.6)
Adems el nmero de total de bolillas blancas extraidas debe ser menor que
N D. Por lo tanto tambin tenemos
n X N D.
(3.7)
El evento {X = x} corresponder a aquellos subconjuntos A que contienen x bolillas negras y nx blancas. Para obtener el cardinal de {X = x}
procedamos de la siguiente manera. Primero consideremos el nmero de subconjuntos de x bolas negras elegidas entre las D posibles. Este nmero es
D
.
x
Para cada uno de estos subconjuntos de x bolas negras hay
N D
nx
formas de elegir las restantes n x blancas. Luego
D N D
,
#{X = x} =
nx
x
y por lo tanto
#Ax
pX (x) =
=
#
DND
x
.
Nnx
Ejercicio.
Sea n N fijo y consideremos una sucesin de distribuciones hipergeomtricas H (N, DN , n), N N tales que
DN
= .
N N
lm
Entonces si pH
N es la densidad de probabilidad de una distribucin H (N, DN , n)
B
y p la de una Bi(, n), se tiene
B
lm pH
N (x) = p (x) .
3.2.5.
Distribucin de Poisson.
x
para x N0 ,
x!
pX (x) =
x=0
3.2.6.
X
x=0
X x
x
= e
= e e = e0 = 1.
x!
x!
x=0
Luego se tendr
0 si x (, x1 )
c si x [xi , xi+1 ), 1 i n 1
FX (x)
i
1 si x [xn , ).
3.3.
f (t) dt = 1,
entonces definiendo
F (x) =
f (t) dt.
fX (t) dt = lm
fX (t) dt
= lm FX (x) = 1.
x
50
Demostracin.
PX ((a, b]) = PX ((, b]) PX ((, a])
= FX (b) FX (a)
Z b
Z
=
fX (t) dt
=
Z b
fX (t) dt
fX (t) dt. 2
M.
FX (x) =
fX (t) dt
se define por
fX (t) dt = lm
yx
fX (t) dt
= lm FX (y),
yx
51
x0 +h
fX (t) dt = fX (x0 ) .
x0 h
Demostracin. Sea
ax{fX (x) : x [x0 h; x0 + h]}
Mh = m
y
mh = mn{fX (x) : x [x0 h; x0 + h]}.
Por continuidad
fX (x0 ) = lm Mh = lm mh .
h0
h0
(3.8)
x0 +h
x0 h
fX (t) dt 2hMh ,
1
2h
x0 +h
x0 h
fX (t) dt Mh .
fX (x0 ) lm
f (t) dt = 1.
52
(3.9)
Se puede demostrar que la funcin F definida por (3.10) cumple las cuatro
propiedades del Teorema 2.5 y es continua y derivable en casi todo punto
con derivada f (x). Adems si P es la correspondiente probabilidad sobre R
asociada a F y garantizada por el Teorema de Extensin, dado cualquier
boreliano B se tendr
Z
Z
f (t) dt =
IB (t)f (t) dt,
P (B) =
B
3.4.
3.4.1.
k si x [a, b]
fX (x) =
0 si x
/ [a, b] .
con k =
1
> 0. Claramente
ba
Z
Z b
fX (x)dx =
kdx =
k
= 1.
ba
0x a
FX (x)
ba
1
si
si
x (, a)
x [a; b)
si x (b, ).
1
si x [a; b]
fX (x) =
0
si x
/ [a; b] .
53
si x (, 0]
0
FX (x) =
x
si x (0, 1]
1
si x (1, ).
(3.11)
Observaciones.
fX (t) dt +
Z x
=0+
1dt
fX (t) dt
= x.
3.4.2.
de manera que n0 Ay . Ahora probaremos que Ay esta acotado inferiormente. Por la propiedad (3) del Teorema 2.5 se tiene que,
lm F (n) = 0.
(3.12)
Ahora bien si x Ay no puede ser que n0 > x puesto que por monotona
(Propiedad (1) del Teorema 2.5) se cumplira
F (n0 ) F (x) y,
en contradiccin con (3.12). En definitiva se tiene que si x Ay , entonces
n0 x, y por lo tanto Ay esta acotado inferiormente. 2
En virtud de la existencia y unicidad del nfimo podemos definir la siguiente funcin
Definicin 3.6 Dada
F : R [0, 1]
que satisface las propiedades de una funcin de distribucin (Propiedades
(1)-(4) del Teorema 2.5) se define F 1 : (0, 1) R por
F 1 (y) = inf Ay .
Propiedades de la funcin F1 .
Propiedad 3.4
F F 1 (y) y.
lm F (xn ) = F F 1 (y) .
n
56
(3.13)
F F 1 (y) y,
(3.14)
por lo tanto (a) queda demotrado. Esto implica F 1 (y) Ay . Luego hemos
mostrado (a) y por lo tanto tambin hemos demostrado (b). 2
Propiedad 3.5 Si F es continua entonces
F F 1 (y) = y.
F F 1 (y) > y.
1
Veremos que esto contradice el caracter de nfimo
del elemento F (y) .
1
Tomemos un punto intermedio entre F F (y) e y que llamaremos y .
Entonces
Por un lado esto dice que x Ay y por otro teniendo en cuenta la monotona
de F resulta
x < F 1 (y) .
Esto contradice que F 1 (y) sea el mnimo, absurdo. 2
Propiedad 3.6 Dada una funcin de distribucin F, se cumple que
F 1 (F (x)) x.
Demostracin. Es claro que para todo x se tiene que x AF (x) puesto que
F (x) F (x) . Sabemos que F 1 (F (x)) es el mnimo de AF (x) y luego
a AF (x) implica F 1 (F (x)) a.
En particular si tomamos a = x AF (x) se obtiene el resultado buscado. 2
57
Teorema 3.7 (Caracterizacin de Ay como semirecta) Sea F una funcin de distribucin y tomemos y (0, 1) fijo. Los conjuntos
Ay = {x : F (x) y},
By = {x : x F 1 (y)} = [F 1 (y) , +)
coinciden.
Demostracin. Sabemos por la Propiedad 3.4 (b) que
F 1 (y) = mn Ay .
Por otro lado es fcil ver que si x Ay y x > x, entonces tambin x Ay .
Luego Ay = [F 1 (y), ). 2
Ejercicio. Probar que F 1 es montona no decreciente y por lo tanto
medible.
Veremos ahora que dada cualquier funcin de distribucin F, a partir de
cualquier variable aleatoria con distribucin U(0, 1), se puede generar otra
variable aleatoria con funcin de distribucin F.
Teorema 3.8 Sea U una variable aleatoria con distribucin U(0, 1). Luego
si F es una funcin de distribucin (propiedades (1)-(4) del Teorema 2.5)
se tiene que X = F 1 (U ) tiene funcin de distribucin F
Demostracin. Usando el Teorema 3.7 y el hecho de que FU (u) = u, 0 u
1, se tiene
0
1
FX (y) =
i
PZ (B) = P Z 1 (B)
= P X 1 g 1 (B)
= PX g 1 (B) .
1
Por el
Corolario
2.1 del Teorema de Extensin se tiene que PX g (B) =
1
PX g (B) y luego
PZ (B) = PX g 1 (B)
= P X 1 g 1 (B)
= P Z 1 (B)
= PZ (B) . 2
Y = FX (X ) = FX FX1 (U ) ,
3.4.3.
que si {Yn }nN es una sucesin de variables a independientes tales que ninguna de ellas prevalezca sobre las otras, entonces la variable aleatoria
Sn =
n
X
Yj
j=1
es aproximadamente normal para n suficientemente grande. Esta distribucin tiene mucha aplicacin en la teora de errores, donde se supone que el error total de medicin es la suma de errores que obedecen a diferentes causas.
La distribucin normal depende de dos parmetros R y 2 R>0 .
En este captulo solo veremos la distribucin normal correspondiente a
= 0 y 2 = 1. En este caso la funcin de densidad es
2
x
,
fX (x) = K exp
2
donde K es una constante y exp(x) es la funcin exponencial ex . Calcularemos la constante K de forma tal que
2
Z +
x
dx,
K exp
1=
2
y por lo tanto
K=R
+
Sea
I=
1
.
2
dx
exp x
2
exp
x2
2
dx.
2
2
Z + Z +
y
x
exp
dxdy
exp
=
2
2
!
Z + Z +
x2 + y 2
=
exp
dxdy.
2
Claramente se tiene
x2 + y 2 = 2
La transformacin del cambio de variable T (, ) = (x (, ) , y (, )) =
( cos () , sin ()) 0, 0 < 2 tiene matriz diferencial
DT (, ) =
x x
y y
cos () sin ()
sin () cos ()
Entonces su jacobiano
J (, ) = det (DT (, )) = det
cos () sin ()
sin () cos ()
= cos2 () + sin2 () = .
x
I2 =
exp
dxdy =
2
2
Z + Z 2
dd =
exp
=
2
0
0
2
2
Z +
Z +
= 2
d = 2
d.
exp
exp
2
2
0
0
Haciendo el cambio de variable
2
,
2
du = d
u=
se obtiene
2
I = 2
exp (u) du
= 2 exp (u) |+
0
0
= 2,
y por lo tanto
I=
Luego
1
fX (x) = exp
2
61
x2
2
3.4.4.
Distribucin Exponencial.
0
y
= [e
|
0 =
0 + 1 = 1.
1 ex
si x 0
F (x) =
(3.15)
0
si x < 0.
La distribucin exponencial con parmetro ser denotada por E().
Esta distribucin aparece generalmente cuando se trata de estudiar la
durabilidad de un mecanismo bajo el supuesto de que el sistema no se desgasta a lo largo del tiempo. Como ejemplo suele citarse a veces la duracin
de una lmpara elctrica. Sin embargo en este caso existe un cierto desgaste
propio de la lmpara y su distribucin no es exactamente exponencial. Esta
distribucin es ms adecuada para modelar la duracin de los mecanismos
electrnicos, ya que estos no tienen prcticamente desgaste.
Para precisar el concepto de desgaste decimos que la distribucin de X
no tiene desgaste cuando dado a > 0 y b > 0 se tiene
P (X a + b|X a) = P (X b) .
Esto significa que la probabilidad de que llegue a durar hasta el tiempo
a + b, dado que ha llegado hasta el tiempo a, es igual a la probabilidad de
que haya durado hasta el tiempo b. Es decir el proceso no tiene memoria
del tiempo que estuvo funcionando (no recuerda qu tan viejo es) y por
tanto, mientras funciona lo hace como si fuese nuevo.
Decimos por el contrario que hay desgaste si
P (X a + b|X a)
es una funcin decreciente de a.
Vamos a mostrar que la propiedad de falta de desgaste caracteriza a la
distribucin exponencial. Esto significa que las nicas distribuciones continuas y no negativas que tienen la propiedad de falta de desgaste son las
exponenciales.
62
P ({X a + b})
P ({X a + b} {X a})
=
.
P (X a)
P (X a)
(3.16)
(3.17)
para todo a 0, b 0.
En el caso en que X tiene distibucin exponencial por (3.15) se tiene
GX (x) = ex
para todo x 0. El siguiente teorema muestra que la propiedad de falta de
memoria caracteriza a las distribuiones exponenciales.
Teorema 3.11 Sea X una variable aleatoria continua con valores no negativos. Luego la propiedad de falta de memoria dada por (3.17) se cumple
si y slo si GX (x) = ex es decir si X tiene distribucin exponencial.
Demostracin. Supongamos primero que GX (x) = ex . Probaremos que
(3.17) se cumple. En efecto
GX (a + b) = e(a+b) = e(a)+(b) = ea eb = GX (a) GX (b) .
Supongamos ahora que (3.17) se cumple. Probaremos que GX (x) = ex
para algn > 0. En primer lugar veamos que para todo n, dados a1
0, ..., an 0 entonces
n !
n
X
Y
GX
ai =
GX (ai ) .
i=1
i=1
63
i=1
!
n
X
= GX
ai Gx (an+1 )
=
n
Y
i=1
GX (ai ) GX (an+1 )
i=1
n+1
Y
GX (ai ) .
i=1
GX (n) = GX 1| + 1 +
{z... + 1}
n sumandos
= [GX (1)]n .
Ahora sea a =
m
Q el conjunto de los nmeros racionales. Entonces
n
m
GX (m) = GX n
n
m
m
= GX
n + ... + n
|
{z
}
n sumandos
m n
= GX
.
n
Entonces
GX
m
n
= [GX (m)] n
1
= [(GX (1))m ] n
m
= [GX (1)] n .
64
= lm (GX (1))rn
n
= (GX (1))lmn rn
= [GX (1)]a .
(3.18)
Veamos que 0 < GX (1) < 1. Supongamos que GX (1) = 0. Luego por (3.18)
GX (a) = 0 para todo a 0. En particular GX (0) = 0 y luego FX (0) =
1. Esto implica que P (X = 0) = 1 y luego X es discreta. Supongamos
ahora que GX (1) = 1. Luego por (3.18) tenemos que para todo a 0 se
tiene GX (a) = 1. Luego para todo a 0 resulta FX (a) = 0 y entonces
lmx FX (x) = 0, lo cual es un absurdo, ya que este lmite es 1. Luego
podemos definir
= log (GX (1)) ,
de manera que
GX (1) = e
Luego, usando (3.18), podemos escribir
GX (a) = [GX (1)]a = ea ,
y el teorema queda probado. 2
3.5.
(3.20)
(3.21)
x+
x+
= (1 ) lm F1 (x) + lm F2 (x)
x+
x+
= (1 ) + = 1.
Finalmente, tambin vale que:
lm F (x) = lm ((1 ) F1 + F2 ) (x)
= (1 ) lm F1 (x) + lm F2 (x)
x
x+
= 0.
Por lo tanto (a) queda probado.
(b) Veamos ahora que F no corresponde a la funcin de de distribucin
de una variable absolutamente continua o discreta. Sean Pi , las probabilidades inducidas por las distribuciones Fi , i = 1, 2 . Luego si P es
la probabilidad asociada a F, usando el Teorema de Extensin de la
39 se puede probar que
P (B) = (1 )P1 (B) + P2 (B) B B1 .
66
u si u <
1 si u
1
2
1
2
X1 si U = 0
X=
X2 si U = 1
67
Luego FX (1 )F1 + F2 .
Demostracin. Teniendo en cuenta la independencia de las variables resulta
que
FX (x) = PX ((, x])
= P ({X x})
[
= P ({X1 x} {U = 0}) ({X2 x} {U = 1})
= P ({X1 x} {U = 0}) + P ({X2 x} {U = 0})
= (1 )P (X1 x) + P (X2 x)
68
Captulo 4
Vectores aleatorios.
4.1.
En muchos casos interesa estudiar simultaneamente ms de una caracterstica del resultado de un experimento aleatorio. Supongamos que el
experimento consiste en elegir al azar alumnos de un determinado grado, y
que estamos interesados en estudiar el perfil biolgico de esos alumnos.
Podramos considerar que el perfil se compone de la talla, el peso, presin
sangunea, frecuencia cardaca y capacidad respiratoria. Por lo tanto interesaran cinco variables aleatorias que deberan estudiarse simultneamente.
Esto motiva la siguiente definicin de un vector aleatorio.
Definicin 4.1 Sea (, A, P ) un espacio de probabilidad. Se dice que
X = (X1 , X2 , . . . , Xk ) es un vector aleatorio de dimensin k si para cada
j = 1, 2, . . . , k se tiene que Xj : R es una variable aleatoria.
Obsrvese que si X = (X1 , . . . , Xk ) es un vector aleatorio de dimensin k, entonces tambin puede ser interpretado como una funcin X :
Rk . En efecto dado , el correspondiente valor de la funcin
es X() = (X1 (), . . . , Xk ()) Rk .
Teorema 4.1 Para todo x = (x1 , x2 , . . . , xk ) Rk se tendr
X1 ((, x1 ] (, x2 ] (, xk ]) A.
k
\
{ : Xi () (, xi ]} =
i=1
k
\
Xi1 ((, xi ]) .
i=1
69
Luego como por definicin de variable aleatoria para todo i se tiene que Xi1 ((, xi ])
A y A es una lgebra se concluye que X1 (B) A. 2
Recordemos que Bk denota la lgebra generada por los conjuntos de
Rk de la forma
Ax1 ,x2 ,...,xk = (, x1 ] (, x2 ] (, xk ]
En R2 es fcil verificar grficamente que los conjuntos de la forma
(a1 , b1 ] (a2 , b2 ] B2
ya que se pueden escribir de la siguiente forma
(a1 , b1 ] (a2 , b2 ] = Ab1 ,b2 Aa1 ,b2 (Ab1 ,a2 Aa1 ,a2 )
(4.1)
(4.2)
(4.3)
(4.4)
y
Ejercicio. Probar el siguiente teorema.
Teorema 4.2 Sea X un vector aleatorio de dimensin k. Entonces si B
Bk se tiene que X1 (B) A.
4.2.
Definicin 4.2 Dado el espacio de probabilidad (, A, P ) y un vector aleatoriok X k= (X1 , . . . , Xk ) se puedek definir un nuevo espacio de probabilidad
R , B , PX donde dado B B se define
PX (B) = P X1 (B) .
Ejercicio. Probar el siguiente teorema.
Teorema 4.3 PX es una funcin de probabilidad sobre (Rk , Bk ).
La demostracin es similar a la correspondiente a PX donde X es una
variable aleatoria. La probabilidad PX se denomina probabilidad inducida
por el vector X o distribucin de X.
70
4.3.
Propiedades de FX .
Propiedad 4.1 FX es montona no decreciente en cada componente.
Demostracin. Si xi < x0i entonces
Ax1 ,...,xi ,...,xn Ax1 ,...,x0i ,...,xn ,
de manera que
FX ((x1 , . . . , xi , . . . , xn )) FX
x1 , . . . , x0i , . . . , xn
.2
x1 ,...,xk
FX (x1 , x2 , . . . , xk ) = 1.
i+
71
(4.5)
y en consecuencia
lm FX (x1i , x2i , . . . , xki ) = lm PX ((, x1i ] (, x2i ] (, xki ]) =
i
!
[
Ci = PX Rk = 1. 2
= PX
i+
iN
xi
FX (x1 , x2 , . . . , xi , . . . , xk ) = 0.
(4.6)
Por lo tanto
lm FX (yj , x2 , .., xk ) = lm PX ((, yj ] (, x2 ] (, xk ]) =
j
\
= PX
Cj
jN
= PX ()
= 0. 2
Entonces
Ci+1 Ci
y
Ci = Ax1 ,...,xk .
iN
Luego
lm FX (x1i , x2i , . . . , xki ) = lm P (Ci )
= P (Ax1 ,...,xk )
= FX (x1 , x2 , . . . , xk ) . 2
Las Propiedades 4.1, 4.2, 4.3 y 4.4 no caracterizan a una funcin de
distribucin de un vector aleatorio como ocurra para el caso de la funcin
de distribucin de una variable aleatoria.
Para fijar ideas de por qu sucede esto, pensemos en R2 . Sea entonces
un vector aleatorio en R2 X = (X1 , X2 ) y FX su funcin de distribucin
conjunta. Sea Ax1 x2 = (, x1 ] (, x2 ] y C = (a1 , b1 ] (a2 , b2 ].
El rectngulo C puede ser escrito de la siguiente manera
C = (Ab1 b2 Aa1 b2 ) (Ab1 a2 Aa1 a2 ) .
Teniendo en cuenta las inclusiones
Aa1 a2 Ab1 a2 ,
(4.7)
Aa1 b2 Ab1 b2
(4.8)
(4.9)
y
resulta que
PX (C)
= PX (Ab1 b2 Aa1 b2 ) PX (Ab1 a2 Aa1 a2 )
(4.10)
1 si x1 + x2 1, x1 0, x2 0
0 si en otra parte.
x1 , x2
F (x1 , x2 ) = 1,
(iii)
lm F (x1 , x2 ) = 0 para cualquier i = 1, 2,
xi
Supongamos ahora que (4.11) vale para h = i < k. Probaremos que tambin
vale para h = i + 1. Sea
Ci+1 = (a1 , b1 ] (a2 , b2 ] (ai+1 , bi+1 ] (, xi+2 ] (, xk ].
(2)
Claramente Ci+1 = Ci
(1)
Ci
(1)
Ci , donde
(2)
(1)
Luego (4.11) vale para h = i + 1. Esto muestra que (4.11) vale para todo
h k. Haciendo h = k se obtiene el Teorema. 2
Luego podemos enunciar una propiedad adicional que satisface una funcin de distribucin conjunta
Propiedad 4.5 Si FX es la funcin de distribucin conjunta del vector
aleatorio X = (X1 , . . . , Xk ) para todo a1 < b1 , , ak < bk se debe cumplir
que
41 (b1 , a1 ) . . . 4k1 (bk1 , ak1 ) 4k (bk , ak ) FX (x1, x2 , . . . , xk ) 0.
El siguiente Teorema generaliza para vectores aleatorios el Teorema de
Extensin para variables aleatorias.
76
Teorema 4.5 Sea F : Rk [0, 1] una funcin que satisface las propiedades
4.1, 4.2, 4.3, 4.4 y 4.5. Luego existe una nica funcin de probabilidad P :
Bk [0, 1] , tal que para todo (x1 , x2 , . . . , xk ) Rk se cumple
P ((, x1 ] (, x2 ] (, xk ]) = F (x1 , x2 , . . . , xk ) .
Demostracin. No se dar la demostracin en este curso. Utiliza argumentos
de la Teora de la Medida. 2
Corolario 4.1 Sean X = (X1 , X2 , . . . , Xk ) y X = (X1 , X2 , . . . , Xk ) dos
vectores aleatorios. Supongamos que para todo x1 , x2 , . . . xk se tiene que
FX (x1 , . . . , xk ) = FX (x1 , . . . , xk ).
Luego tambin se cumple que para todo B Bk
PX (B) = PX (B).
Demostracin. Basta con observar que para todo (x1 , . . . , xk ) Rk
FX (x1 , x2 , . . . , xk ) = FX (x1 , x2 , . . . , xk )
= PX ((, x1 ] (, x2 ] . . . (, xk ]) .
Por lo tanto como PX y PX son extensiones de FX deben coincidir por
unicidad de la extensin. 2
Corolario 4.2 Si F satisface propiedades 4.1, 4.2, 4.3, 4.4 y 4.5. entonces
existe un vector aleatorio X = (X1 , . . . , Xk ) tal que
FX = F.
y que
FX (x1 , x2 , . . . , xk )
= PX ((, x1 ] (, x2 ] (, xk ])
= PF ((, x1 ] (, x2 ] (, xk ])
= F (x1 , x2 , . . . , xk ) . 2
4.4.
Sea un vector X = (X1 , . . . , Xk ) con funcin de distribucin FX . El siguiente teorema muestra como se obtiene la funcin de distribucin del vector
e = (Xi , Xi , . . . , Xi ) para
formado con un subconjunto de componentes X
1
2
h
cualquier subconjunto de ndices 1 i1 < i2 < < ih k.
Teorema 4.6 Sea X = (X1 , . . . , Xk ) un vector aleatorio de dimensin k.
Sea A = {i1 , . . . , ih } {1, 2, . . . , k} y B = {i : 1 i k, i
/ A} =
e = (Xi , Xi , . . . , Xi ), se tiene
{j1 , . . . jr ]. Entonces, si X
1
2
h
FX
e (xi1 , . . . xih ) =
lm
xj1 ,...,xjr
FX (x1 , x2 , . . . , xk ).
(4.12)
Cj = (, x1 ] (, xh ] R R.
j=1
78
Luego
FXe (x1 , . . . , xh ) = PX
e ((, x1 ] (, xh ])
h
!
\
=P
{ : Xi () xi }
=P
i=1
h
\
{ : Xi () xi }
i=1
k
\
!!
{ : Xi () R}
i=h+1
= PX ((, x1 ] (, xh ] R R)
= lm PX (Cj )
j
4.5.
4.5.1.
Hemos visto con anterioridad lo que significaba la independencia de eventos. Brevemente recordemos que una familia de eventos es independiente si
la ocurrencia de algunos de ellos no incide sobre la probabilidad de ocurrencia del otro. Ms precisamente, un conjunto de eventos A1 , A2 , . . . , Ak son
independientes si para toda eleccin 1 i1 < i2 < < ih k
P (Ai1 Ai2 Aih ) =
h
Y
j=1
P Aij .
k
k
\
Y
P Xj1 (Bj ) .
(4.13)
P Xj1 (Bj ) =
j=1
j=1
h
h
\
Y
=
Xi1
P
X
B
Bij .
P
ij
ij
j
j=1
j=1
Bi
si i coincide con algn ij
Ci =
R
en caso contrario.
h
\
j=1
k
!
\
X 1 Bij = P
X 1 (Ci )
ij
i=1
k
Y
j=1
h
Y
j=1
P Xi1 (Ci )
P Xi1
Bij . 2
j
81
k
Y
PXj (Bj ) ,
j=1
donde X = (X1 , X2 , . . . , Xk ) .
Demostracin. Como PXj (Bj ) = P (Xj1 (Bj )) por el Teorema 4.11 bastar
mostrar que
h
\
Xj1 (Bj ) .
PX (B1 B2 Bk ) = P
j=1
= PX ({ : X () B1 B2 Bk })
= PX ({ : (X1 () , X2 () , . . . , Xk ()) B1 B2 Bk })
k
\
= P { : Xj () Bj }
j=1
=P
h
\
j=1
Xj1 (Bj ) . 2
Teorema 4.13 Una condicin necesaria y suficiente para que las variables
aleatorias X1 , X2 , . . . , Xk sean independientes es que para todo
(x1 , x2 , . . . , xk ) Rk se cumpla que
FX (x1 , x2 , . . . , xk ) = FX1 (x1 ) FX2 (x2 ) . . . FXk (xk ) ,
(4.14)
donde X = (X1 , X2 , . . . , Xk ) .
Demostracin.
Para ver que (4.14) es una condicin necesaria para la independencia de
X1 , . . . , Xk , basta aplicar el Teorema 4.12 a los conjuntos
B1 = (, x1 ], B2 = (, x2 ], . . . , Bk = (, xk ].
82
(4.15)
(4.16)
[
R = Cn
n=1
= B1 B2 Br R (, xr+2 ] (, xk ]
= lm PX (B1 B2 Br Cn (, xr+2 ] (, xk ])
n
= lm PX (B1 )PX (B2 ) PX (Br )PX (Cn )PX ((, xr+2 ]) PX ((, xk ])
n
= PX (B1 )PX (B2 ) PX (Br )PX (R)PX ((, xr+2 ]) PX ((, xk ]),
que es lo que queramos probar.
Ahora probaremos Ar+1 . Es decir debemos probar que dados borelianos
B1 , . . . ., Br+1 y reales xr+2 , . . . , xk se tiene
PX (B1 B2 Br Br+1 (, xr+2 ] (, xk ])
= PX1 (B1 ) PXr (Br ) PXr+1 (Br+1 ) PXk ((, xk ]) .
83
(4.17)
Consideremos el conjunto
A = B1 B2 Br R (, xr+2 ] (, xk ],
y distinguimos dos casos: (a) PX (A) = 0, (b) PX (A) > 0.
Consideremos primero el caso (a). Por (4.16)
0 = PX (A) = PX (B1 B2 Br R (, xr+2 ] (, xk ])
= PX1 (B1 ) PXr (Br ) PXr+1 (R) PXk ((, xk ])
se tiene que
PX (Bi ) = 0 para algn 1 i r
o bien
PXi ((, xi ]) = 0 para algn r + 2 i k.
En cualquiera de los dos casos el miembro derecho de (4.17) es 0.
Supongamos que PX (Bi ) = 0 podemos suponer que i = 1, para fijar
ideas. Entonces teniendo en cuenta que
B1 B2 Br Br+1 (, xr+2 ] (, xk ] B1 R R,
obtenemos que
PX (B1 B2 Br Br+1 (, xr+2 ] (, xk ])
PX (B1 R R) = PX1 (B1 ) = 0,
PX (B1 B2 Br B (, xr+2 ] (, xk ])
.
PX (A)
Obsrvese que los borelianos B1 , B2 , . . . Br y los reales xr+2 , . . . , xk permanecen fijos cuando se cambia B. Veamos en primer lugar que efectivamente P : B [0, 1] es una probabilidad.
(i) Claramente
PX (A)
P (R) =
=1.
PX (A)
84
!
[
Cn
P
nN
PX B1 B2 Br
=
PX
Cn (, xr+2 ] (, xk ]
nN
PX (A)
nN
(B1 B2 Br Cn (, xr+2 ] (, xk ])
PX (A)
PX (B1 B2 Br Cn (, xr+2 ] (, xk ])
= n=1
PX (A)
X PX (B1 B2 Br Cn (, xr+2 ] (, xk ])
=
PX (A)
P
n=1
P (Cn ) .
n=1
nN
nN
(B1 B2 Br Cn (, xr+2 ], (, xk ]) .
En particular
P (Br+1 ) = PXr+1 (Br+1 ) ,
y luego
PXr+1 (Br+1 ) =
= PXr+1 (Br+1 ) PX1 (B1 ) PXr (Br ) PXr+2 (Br+2 ) PXk ((, xk ])
= PX1 (B1 ) PXr (Br ) PXr+1 (Br+1 ) PXk ((, xk ]) ,
4.5.2.
donde Cj = gj1 (Bj ) . Como los Cj , j = 1, 2, . . . , h son borelianos, la independencia de las variables Xj implica que los eventos Xj1 (Cj ) son independientes. Luego las variables Y1 , . . . Yh son independientes. 2
4.5.3.
e = (X1 , X2 , . . . , Xh ) .
donde X
e = (X1 , X2 , . . . , Xh ) .
donde X
87
88
Captulo 5
5.1.
= RX1 RXh
RX
i=1
89
i=1
Luego
P
h
\
i=1
Ai
!!
=1P
h
\
Ai
i=1
!c !
= 1. 2
= RX1 RXh
RX
es finito o infinito numerable y
PX (R ) = 1.
es a lo sumo numerable, porque un producto cartesiano
Demostracin. RX
finito de conjuntos a lo sumo numerables es a lo sumo numerable. Adems
{: X () RX1 RXh } =
Luego por la Propiedad 5.1
h
\
{ : Xi () RXi }.
i=1
5.1.1.
>0
si x RX
pX (x) =
0
si x
/ RX .
Como consecuencia de las anteriores observaciones y de manera anloga
a como lo hemos hecho para una sola variable se tiene el siguiente teorema.
Teorema 5.2 Para todo B Bk se tiene
X
pX (x)
PX (B) =
xBRX
pX (x) .
xBRX
=R
Muchas veces es conveniente considerar el conjunto RX
X1 RX2
RXk en vez de RX .
...
(b)
...
91
pX (x1 , x2 , . . . , xk ) .
x1 B1 RX1
x1 RX1
pX (x) = 1.
Demostracin.
PX (B) =
pX (x)
xBRX
pX (x)
xBRX
pX (x)
pX (x)
...
pX (x1 , x2 , . . . , xk ) .
x1 B1 RX1
...
pX (x) ,
x1 RX1
5.1.2.
xk RXk
...
xk RXk
xh+1 RRXk+1
pX (x1 , . . . , xh , xh+1 , . . . , xk ). 2
xk+1 RXk+1
(5.1)
Teorema 5.4 Sea X = (X1 , X2 , . . . , Xh ) un vector aleatorio con distribucin discreta. Una condicin necesaria y suficiente para que el conjunto de
variables aleatorias X1 , X2 , . . . , Xh con distribucin discreta sea independiente es que para todo x = (x1 , . . . , xh ) Rh
pX (x) = pX1 (x1 ) pX2 (x2 ) . . . pXh (xh ) .
(5.2)
Demostracin.
Es fcil ver que (5.2) es necesaria. Tomando en particular los borelianos
Bj = {xj }, j = 1, 2, . . . , h y aplicando (5.1) se obtiene
pX (x) = PX ({(x1 , x2 , . . . , xh )}) = PX ({x1 } {x2 } {xh })
= PX1 ({x1 }) PX2 ({x2 }) . . . PXh ({xh })
= pX1 (x1 ) pX2 (x2 ) . . . pXh (xh ) .
Ahora veamos la suficiencia. Tenemos que probar que si ocurre (5.2) entonces las variables X1 , . . . , Xh son independientes. Como (5.1) implica la
suficiencia, bastar probar que (5.2) implica (5.1).
Como la demostracin para k = 2 es similar a la demostracin general
pero la notacin es ms simple, lo probaremos en este caso. Consideremos un
93
x1 B1 RX1 x2 B2 RX2
x1 B1 RX1
pX1 (x1 )
x2 B2 RX2
pX1 (x2 ) . 2
!
!
XX
X
X
X
ab =
ab =
a
b
(a,b)AB
5.2.
5.2.1.
aA bB
aA
bB
pi = 1.
i=1
Xi ((i1 , i2 , . . . , in )) = n.
i=1
= p1 1
pk k
.
(5.3)
El rango de X es
RX =
(x1 , . . . , xk ) : 0 xi n,
n
X
xi = n
i=1
n
n x1
n x1 x2
xk
#A =
x1
x2
x3
xk
(n x1 )!
(n x1 x2 )!
n!
.,1
=
(x1 )! (n x1 )! (x2 )! (n x1 x2 )! (x3 )! (n x1 x2 x3 )!
n!
=
.
(x1 )! (x2 )! (x3 )! . . . (xk )!
Esto resulta del hecho de que para elegir un elemento de A hay que elegir
los x1 lugares donde ocurri A1 entre los n, hay que elegir los x2 lugares en
los que ocurrin A2 entre los n x1 restantes, etc.
Luego tendremos
pX (x1 , x2 , . . . , xk ) = PX (A) =
5.2.2.
n!
.px1 1 p2x2 . . . pxkk .
(x1 )! (x2 )! (x3 )! . . . (xk )!
(k1
X
i=1
Di + 1,
k1
X
Di + 2, . . . ,
i=1
k
X
Di
i=1
,
# (C) =
x1
x2
xk
de manera que
pX (x1 , x2 , . . . , xk ) = P (C) =
D1 D2
x1
x2
97
Dk
xk
5.3.
Z Z
=
fX (t) dt,
(,x1 ](,x2 ](,xk ]
fX (t) dt = PX (Rk ) = 1.
ak1
a1
ah
a1
98
h0
= fX (x0 ) .
k FX (x1 , x2 , . . . , xk )
.
fX (x0 ) =
xk xk1 x1 x=x0
Z x1 Z xk Z xk1
Z x1
=
99
Z x3
Z x2 Z xk Z xk1
c
BCn
c
Cn )
nVol (B)
= 0.
Entonces para todo n N resulta
PX (B) = PX (B Cn ) PX (Cn ) ,
de manera que pasando al lmite se concluye que PX (B) = 0. 2
Observacin. Existe una diferencia importante entre los vectores discretos
y los absolutamente continuos. Recordemos que un vector es discreto si y
slo si sus componentes son variables discretas. Esto no ocurre en el caso de
los vectores aleatorios absolutamente continuos. Para demostrarlo daremos
un contraejemplo.
Consideremos una variable aleatoria X1 , con distribucin absolutamente
continua y sea X2 = X1 de manera que el vector X = (X1 , X2 ) tiene como
componentes variables aleatorias con distribuciones absolutamente continuas. Ahora veamos que el vector X no puede tener distribucin absolutamente continua.
Para ello observemos que
B = {(x1 , x2 ) R2 : x1 = x2 }
es una recta en R2 de manera que tiene volumen cero. Pero sin embargo
PX (B) = P ({ : X1 () = X2 ()) = P () = 1.
(5.5)
+
101
= PX (, x1 ] (, x2 ] (, xh ] R
| R
{z R}
=
kh factores
Z xh
Z x1 Z + Z +
Z +
=
xh
x1
fX (x1 , x2 ) dx2 .
102
Demostracin. Como sabemos, por el Teorema 4.13, que X1 , . . . , Xk son independientes si y slo si
k
Y
FX (x) = FXi (xi ),
(5.6)
i=1
xk
..
k Z
Y
x1
k
Y
fXi (xi )dx1 . . . dxk
i=1
xi
i=1
k
Y
FXi (xi ),
i=1
103
104
Captulo 6
Transformaciones de
variables y vectores
aleatorios.
En esta seccin estudiaremos cmo se obtienen las distribuciones de variables o vectores aleatorios obtenidos a partir de otros a travs de cierto tipo
de transformaciones.
6.1.
FY (y) =
FX g 1 (y)
1
105
si y a
si y (a, b)
si y b.
(6.1)
FY (y) =
1 P X < g 1 (y)
1
(b) Si adems FX es continua se tendr
1 FX g 1 (y)
FY (y) =
distribucin FX , la funsi y a
si y (a, b)
si y b.
si y a
si y (a, b)
si y b.
Demostracin.
(6.2)
(6.3)
Ahora caracterizaremos la funcin de densidad asociada a Y . Supongamos que X tiene distribucin absolutamente continua con densidad fX y
adems que g es derivable.
Teorema 6.3 Sea g : R R una funcin estrictamente creciente o decreciente y derivable con g 0 (y) 6= 0. Sea (a, b) = g(R), entonces si X es una
variable aleatoria absolutamente continua con funcin de densidad fX , la
funcin de densidad de Y = g(X) ser
f g 1 (y)
X
fY (y) =
0 (g 1 (y)) |
|g
si y a
si y (a, b)
(6.4)
si y b.
yd
1
fX (y) = fX
.
(6.5)
|c|
c
6.1.1.
Distribucin Normal
1
fX (x) = exp x2 .
2
Ahora vamos a definir para todo R y para todo R>0 la distribucin normal con media y varianza 2 que indicaremos con N(, 2 ). Esta
distribucin es la que corresponde a Y = X + , donde X es N (0, 1) .
De acuerdo a (6.5) tendremos
y
1
fY (y) = fX
!
1 1
1 y 2
= exp
2
2
!
(y )2
1
exp
=
.
2 2
2
107
0.8
0.6
0.4
0.2
0.0
-4
-2
Figura 6.1: Densidad de la normal estndar (en lneal llena), de la N(0, 4) (en lnea
Y 3
53
33
<
<
P (3 < Y < 5) = P
2
2
2
= P (0 < Z < 1)
= (1) (0)
donde es la funcin de distribucin de una N(0, 1). Usando una tabla de
108
6.2.
g1 (x) g1 (x)
g1 (x)
x1
x2
xk
g2 (x)
g2 (x) g2 (x)
x2
xk
Jg (x) = det
6= 0.
x. 1
..
..
..
..
.
.
.
gk (x) gk (x)
gk (x)
x1
x2
xk
1
Entonces si y V y Jg g (y) 6= 0, resulta que g 1 es diferenciable en
y y se tiene
1
.
Jg1 (y) =
1
Jg (g (y))
El siguiente teorema permite realizar un cambio de variables para integrales mltiples.
Teorema 6.4 Sea A U Rk un conjunto tal que el borde tiene medida
de Riemann 0, f : U R una funcin continua, g : Rk Rk una funcin
inyectiva y diferenciable tal que Jg (x) 6= 0 para todo x A . Entonces
Z
Z
Z
Z
f (x) dx =
f g 1 (y) |Jg1 (y) |dy.
g(A)
(6.6)
= P (g (X) B V )
= P X g 1 (B V )
Z
Z
= fX (x) dx.
g 1 (BV )
g(g 1 (BV ))
Sea g : U W y H
W . Es fcil ver que una condicin necesaria y
suficiente para que g g 1 (H) = H es que H g (U ). Como B V V =
g(U ) resulta g(g 1 (B V )) = B V y por lo tanto
Z
Z
PY (B) =
Z BV Z
1 1
Jeg (x1 , x2 ) = det
= 1.
0 1
Luego tenemos ge1 (y1 , y2 ) = (y1 y2 , y2 ).
En este caso U = V = R2 , y entonces acuerdo al Teorema 6.5, se tendr
y
fY (y) =
fX (y y2 , y2 ) dy2 .
(6.7)
6.3.
k
Y
1
1 2
exp xi
fX (x) = q
2
(2)k i=1
k
!
X
1
exp
x2i
=q
k
i=1
(2)
1
1
exp ||x||2 .
=q
2
(2)k
= fX g 1 (y)
1 1
2
= exp ||g (y)||
2
1
1
=q
exp ||y||2 .
2
(2)k
Esto prueba el teorema. 2
i=1
Demostracin.
(i) Sea a1 = (b1 , b2 , . . . , bk )0 , donde 0 indica traspuesto . Entonces ||a1 || =
1. Podemos extender {a1 } a una base ortonormal de Rk . Es decir existen vectores columnas a2 , a3 , . . . , ak ortogonales y de norma 1 tales que
{a1 , a2 , . . . , ak } es una base de Rk . Luego la matriz B cuyas columnas
son los vectores aj , j = 1, 2, . . . , k es una matriz ortogonal. Definamos
el vector aleatorio Y = XB, y sea Yi la componente isima de Y.
Por lo visto anteriormente las variables aleatorias Yi , (i = 1, 2, . . . , k)
tambin
Pk son independientes con distribucin N (0, 1) . En particular
Y1 = i=1 bi Xi = Z tiene distribucin N (0, 1) . Luego (i) queda probado.
(ii) Podemos escribir
Z=
k
X
i=1
i=1
i=1
X
X
Yi i
i + +
i i =
i i Xi + ,
i
i i .
(6.8)
A=
k
X
2i i2
i=1
Sea bi =
i i
, luego
A
k
X
i=1
b2i =
k
X
i i 2
i=1
113
! 12
k
1 X
(i i )2 = 1.
A2
i=1
(6.9)
P
Definamos W = ki=1 bi Xi . Luego de acuerdo a la parte (i) de este
teorema se tendr que
k
X
bi Xi
W =
i=1
k
X
i i
i=1
Xi + = AW +
en virtud de la definicin
de distribucin normal se tendra que Z tiene
6.4.
Transformaciones no inyectivas
h
X
i=1
Z X
h
i=1
(6.10)
k
[
Ui
i=1
=1
y que
{Y B} {X Ui } = {Y B Vi } {X Ui } = {X gi1 (B Vi )}
114
obtenenemos
PY (B) = P (Y B)
h
!
[
=P
{Y B} {X Ui }
i=1
h
X
i=1
h
X
i=1
h
X
i=1
P ({Y B} {X Ui })
P X gi1 (B Vi )
PX gi1 (B Vi )
h Z
X
fX (x) dx
i=1 1
gi (BVi )
i=1
h Z
X
i=1
gi1 (BVi )
BVi
h Z
X
i=1
Z
Z
Z X
h
i=1
6.4.1.
6.5.
6.5.1.
Distribucin Gamma.
() =
= I1 + I2 .
Es fcil ver que I1 es finita, teniendo en cuenta que exp (x) 1 sobre
(0, 1)
Z 1
Z 1
x 1
1
1
1
I1 =
exp (x) x
dx
x
dx =
= .
0
0
0
x
2
X
1 x k
=
.
k! 2
k=0
x
2
116
1 x k
k! 2
para todo k N.
Entonces
xk Ck exp
x
2
2
1
Z +
x
dx < .
Ck0
exp
2
1
Propiedad 6.1 Si > 0 entonces ( + 1) = ().
Demostracin. Para probarlo integraremos por partes tomando u = x ; dv =
exp (x) dx. Luego se tiene v = exp (x) y du = x1 , de donde resulta
Z +
( + 1) =
exp (x) x dx
0
Z +
=
udv
0
Z +
( exp (x)) x1 dx
= xa exp (x) |
0
0
Z +
= x exp (x) |
exp (x) x1 dx.
0 +
0
117
Definicin 6.1 Dado > 0, se define la distribucin Gamma con parmetros y 1 (ser denotada por (, 1)) como la distribucin absolutamente
continua cuya funcin densidad es
f (x) =
1
exp (x) x1 I[0,) (x) .
()
Definicin 6.2 Dado > 0 y > 0 definiremos la distribucin Gamma con parmetros y (que denotaremos por (, )), a la distribucin
de Y = X/ donde X tiene distribucin (, 1) . Como g (x) = x/, De
acuerdo a (6.5) y teniendo en cuenta que > 0 tendremos
fY (y) = fX (y) =
z 1
1
= 1 exp y 2 I[0,) (z).
2
2 2
(6.12)
Las densidades (6.11) y (6.12) difieren slo en una constante, luego deben
ser iguales Esto se muestra integrando las densidades sobre R, ya que ambas
118
0.8
0.6
0.4
0.2
0.0
0
1
grado de libertad coincide con la distribucin 2 , 2 . Adems igualando
las constantes de ambas densidades se tiene la identidad
1
1
= 1,
2
2 2
o equivalentemente 12 = .
Necesitaremos el siguiente teorema
g1 (w1 ) dw1 = 1,
119
se tiene que
fW2 (w2 ) =
Esto prueba (i). Para ver (ii) se usa el mismo argumento. Como (i) y (ii)
implican que
fW (w1 , w2 ) = fW1 (w1 )fW2 (w2 ),
resulta que por el Teorema 5.10 W1 y W2 son independientes. 2
Teorema 6.10 Sean Y1 , Y2 variables aleatorias independientes con distribuciones (1 , ) y (2 , ) respectivamente. Definamos W1 = Y1 + Y2 , W2 =
Y1 /(Y1 + Y2 ). Entonces se tiene
(i) La distribucin de W1 es W (1 + 2 , ) .
(ii) W2 tiene densidad
(1 + 2 ) 1 1
w
(1 w2 )2 1 I[0,1] (w2 ).
(1 ) (2 ) 2
(iii) W1 y W2 son independientes.
Demostracin. La demostracin se basa en el Teorema 6.5. Sea el abierto
U R2 definido por U = {(y1 , y2 ) : y1 > 0, y2 > 0}. Luego PY (U ) = 1 con
Y = (Y1 , Y2 ) . Consideremos la transformacin g : U R2 definida por
y1
g (y1 , y2 ) = y1 + y2 ,
.
y2 + y1
Es fcil ver que V = g(U ) = (0, ) (0, 1) y
g 1 (w1 , w2 ) = (w1 w2 , w1 w1 w2 )
= (w1 w2 , w1 (1 w2 )) .
Luego
Jg1 (w1 , w2 ) = det
w2 1 w2
w1 w1
= w1 w2 w1 (1 w2 )
= w1 ,
y por lo tanto |Jg1 (w1 , w2 ) | = w1 .
120
Consideramos ahora la densidad del vector Y = (Y1 , Y2 ) . Como se supuso independencia entre Y1 e Y2 , esta densidad es el producto de las densidades
marginales y luego
fY (y1 , y2 ) =
1 +2
exp ( (y1 + y2 )) y11 1 y22 1 I(0,) (y1 )I(0,) (y2 ).
(1 ) (2 )
1 +2
1 +2 1
w
=
exp (w1 ) I(0,) (w1 )
(1 + 2 ) 1
(1 + 2 ) 1 1
2 1
w
(1 w2 )
I(0,1) (w2 )
(1 ) (2 ) 2
= g1 (w1 )g2 (w2 )
donde
g1 (w1 ) =
1 +2
w1 +2 1 exp (w1 ) I(0,) (w1 )
(1 + 2 ) 1
y
g2 (w2 ) =
(1 + 2 ) 1 1
w
(1 w2 )2 1 I(0,1) (w2 ).
(1 ) (2 ) 2
El primer factor g1 corresponde a una densidad (1 + 2 , ) . Por el Teorema 6.9 resulta que W1 tiene distribucin (1 + 2 , ) y W2 tiene como
funcin de densidad a
g2 (w2 ) =
(1 + 2 ) 1 1
w
(1 w2 )2 1 I(0,1) (w2 ).
(1 ) (2 ) 2
6.5.2.
Distribucin beta.
(1 + 2 ) 1 1
w
(1 w)2 1 I(0,1) (w).
(1 ) (2 )
121
3
2
1
0
0.0
0.2
0.4
0.6
0.8
1.0
Figura 6.3: Densidad de la (10, 3) (en lneal de puntos y rayas), de la (2, 2)(en
lnea llena) y de la (3, 6) (en lnea de puntos).
Observacin. Esta funcin es una densidad por el Teorema 6.10. Por lo
tanto podemos deducir que
Z 1
(1 + 2 ) 1 1
w
(1 w)2 1 dw = 1,
0 (1 ) (2 )
y entonces se tiene
Z 1
0
w1 1 (1 w)2 1 dw =
(1 ) (2 )
.
(1 + 2 )
En la Figura 6.3 se muestran varias densidades Beta, para distintos valores de los parmetros 1 y 2 .
Teorema 6.11 Sean Y1 , Y2 , . . . , Yn variables P
aleatorias independientes tales
quePYi tiene distribucin (i , ) . Entonces ni=1 Yi tiene distribucin
( ni=1 i , ) .
Demostracin. Se deduce de de la proposicin anterior usando induccin. 2
122
0.4
0.3
0.2
0.1
0.0
-3
-2
-1
6.5.3.
Distribucin Chi-cuadrado.
6.5.4.
Distribucin t de Student
n+1
2
n+1
t2
2
fT (t) = n
.
1+
n
2
n
124
Captulo 7
Esperanza Matemtica.
7.1.
Integral de Riemann-Stieltjes.
7.1.1.
Definicin de la integral.
n
X
i=1
f (i ) (xi xi1 ) .
Definicin 7.1 Se dice que f es integrable Riemann sobre [a, b] con valor
Rb
Rb
I = a f = a f (x) dx sii para todo > 0 existe > 0 tal que si |||| <
entonces
|Sab (, ,f ) I| < .
Anlogamente se define la integral de Riemann-Stieltjes. Dadas g, F funciones definidas sobre [a, b] se define la suma de Riemann-Stieltjes asociada
a la particin = {xi }0in y la seleccin = {i }1in de por
Sab (, ,g, F ) =
n
X
i=1
f (i ) (F (xi ) F (xi1 )) .
125
126
gdF =
gdF +
gdF.
g1 dF
g2 dF.
gdF
|g| dF
a; b+ a
R +
a
gdF = I.
gdF y
Rb
gdF.
(7.1)
Tendremos el siguiente
a,bR a
gdF <
(ii)
M = sup
a,bR a
gdF =
En
R +este caso el lmite (7.1) existe y es . Luego podemos definir
gdF = .
Sea ahora g de signo arbitrario y F no decreciente. El siguiente teorema
es vlido.
Teorema 7.2 Una condicin necesaria y suficiente para que
ista es que
Z b
f = sup
|g| dF < .
M
R +
gdF ex-
a,bR a
7.2.
7.2.1.
Sea X una variable aleatoria discreta. Para fijar ideas supongamos que
toma un nmero finito de valores, x1 , x2 , ..., xk , con probabilidades pX (x1 ), pX (x2 ),
. . . , pX (xk ).
Supongamos que se repite un experimento asociado a la variable aleatoria
X, n veces en forma independiente y que el resultado xi se obtiene ni veces,
1 i k. Entonces el promedio de todos los valores es
n1 x1 + n2 x2 + + nk xk
n
n2
nk
n1
x1 + x2 + + xk .
=
n
n
n
xn =
se aprox-
n2
nk
x2 + ... + xk
n+ n
n
n
n1
n2
nk
+ x2 lm
+ ... + xk lm
= x1 lm
n+ n
n+ n
n+ n
k
X
=
xj pX (xj ) .
lm xn = lm
nj
n
x1 +
j=1
7.2.2.
Observaciones.
1. Se sabe que la convergencia absoluta de la serie garantiza la convergencia de la serie.
P
2. Supongamos xRX |x|pX (x) = . Denotemos con
+
= {x RX : x > 0}
RX
= {x RX : x < 0}.
RX
+
xRX
+
xRX
+
xRX
xpX (x) = + y
xpX (x) = + y
xpX (x) < + y
xRX
xpX (x) = .
xRX
xRX
xpX (x) = .
P
P
7.2.3.
Ahora queremos definir la esperanza matemtica, de manera ms general. Supongamos primero que X es una variable aleatoria concentrada en
[a, b]. Es decir, supongamos que
P (a < X < b) = 1.
La idea que se utiliza para la definicin de la esperanza de esta variable es
la siguiente. Se define una sucesin de variables aleatorias discretas Xn que
la aproximan y luego como E(Xn ) est definida para cada Xn la esperanza
de X se define por un paso al lmite.
129
n
X
in pXn (in )
i=1
n
X
i=1
n+
n+
xdFX .
xdFX .
E (X) =
xdF.
R
0
R
0
xdF = + y
xdF = + y
R0
xdF
= .
xdF
> .
R0
130
(c)
R
0
xdF < + y
R0
xdF
= .
xRX [a,b]
(7.3)
Consideremos una particin n = {xni }0in del intervalo [a, b], en n intervalos iguales. Luego tenemos a = xn0 < xn1 < < xnn = b y xni xni1 =
(b a)/n . Teniendo en cuenta que || n || = (b a)/n es claro que
lm || n || = 0.
n+
Sea n0 tal que (b a)/n0 < . Tomemos n > n0 , luego k n k < , luego por
(7.3) en cada intervalo de n hay a lo sumo un elemento de RX [a, b] .Va
a ser fundamental para esta demostracin la eleccin de la seleccin n =
{in }1in de n . Procedemos de la siguiente manera.
(i) Si
(RX [a, b]) (xni1 , xni ] 6=
(ii) Si
(RX [a, b]) (xni1 , xni ] =
n
X
i=1
X
iA
iAc
y se obtiene
Sab ( n , n , g, FX ) =
X
iA
(7.4)
Sab ( n , n , g, FX ) =
g(in ) pX (in ).
iA
Pero (in )iA coincide con {zj }1jk = RX [a, b], y entonces para todo
n n0
Sab ( n , n , g, FX ) =
k
X
j=1
xRX [a,b]
132
g(x)pX (x) .
(7.5)
xdF = lm Sab ( n , n , g, FX ) =
n
xpX (x) .
xRX [a,b]
xpX (x) =
xRX
a; b+
xRX
y que
xdFX
X
Z
xdFX =
xpX (x) ,
xRX [a,b]
lm
a; b+ a
xdFX ,
xpX (x) =
xdFX .
xRX [a,b]
7.2.4.
E (X) =
|x|fX
Bastar ver que para todo intervalo [a, b] , a < b vale que
Z
xfX (x) dx =
xdFX ,
(7.6)
ba
.
n
0
Sabemos que FX (x) = fX (x) . Por el Teorema del Valor Medio, para
todo i, 1 i n, existe in (xni , xni1 ] tal que
tales que a = xn0 < xn1 < ... < xnn = b satisfaciendo xni xni1 =
Elegiremos la seleccin = (in )1in para formar las sumas de RiemannStieltjes. Luego
Sab ( n , n , id, FX )
Sab ( n , n , x, FX )
n
X
in FX (xni ) FX xni1 ,
i=1
y se tendr que
lm S b ( n , n , x, FX )
n a
(7.8)
xdFX .
(7.9)
=
=
n
X
i=1
Sab ( n , n , xfX (x), x) .
Luego
lm Sab ( n , n , x, FX ) =
(7.10)
7.2.5.
Propiedad 7.6 Sea X una variable aleatoria tal que PX ({a}) = 1. Entonces
E (X) = a.
134
Demostracin. Esto es inmediato teniendo en cuenta X es una variable discreta con RX = {a} y pX (a) = 1. Luego
X
E (X) =
xpX (x) = a.2
xRX
1 si A
0 si
/ A.
gdF = g (x) F
(x) |ba
F dg.
(7.11)
Para eso habr que probar que dado > 0 existe > 0 tal que para toda
= {xi }0in particin de (a, b] con |||| y toda = {i }0in seleccin
de puntos en , se tendr que
Z b
b
b
Sa (, , F, g) g (x) F (x) |a +
(7.12)
gdF < .
Rb
Z b
b
Sa (g, f, , )
(7.13)
gdF .
2
a
135
.
4M
Pongamos = mn( 21 , 2 ). Sea = {xi }0in una particin de (a, b], tal
que |||| y sea = {i }0in una seleccin en la particin.
Vamos a mostrar que (7.12) vale. Sabemos que xn1 < n b. Supondremos que n < b. El caso n = b se demuestra anlogamente. Tenemos
que
a = x0 < 1 x1 < < i1 xi1 < i xi < < xn1 < n < xn = b.
Podemos construir una nueva particin = {xi }0in+1 con
x0 = a,
1 i n,
xi = i ,
xn+1 = b,
y definimos la seleccin = (i )1in+1 en por
1 = 1 ,
i = xi1 , 2 i n + 1.
Como
|xi xi1 | = |i i1 | |i xi1 | + |xi1 i1 |
|xi1 xi | + |xi1 xi+1 |
|x1 x0 |
|xn+1 xn |
< + = 2 1 ,
para 2 i n
= |1 a| = |1 x0 | |x1 x0 | < 1
Z b
b
Sa ( , , g, F )
gdF < .
2
a
136
(7.14)
b
Sa ( , , g, F )= g(i ) F (xi )
i=1
g(1 )F (x1 ) +
g(1 )F (x0 )
= g(1 )F (1 ) +
F (xi1 )
n
X
i=2
n+1
X
g(i )F (xi1 )
i=2
n
X
i=2
g(1 )F (a)
n
X
g(xi1 )F (i )
= g(1 )F (1 ) g(1 )F (a) +
i=2
n
X
+ g(b)F (b)
g(xi )F (i )
i=1
= g(1 ) [F (1 ) F (a)]
n
X
i=1
[g(xi1 ) g(xi )] F (i )
(7.15)
= .
2M
4M
2
Luego de (7.15) resulta.
b
Sa ( , , g, F ) g(x)F (x)|a + Sab (, ,F, g) .
2
137
(7.16)
R +
R
(i) A partir del hecho de que |x|dFX es finita se deduce que las
colas tienden a cero, es decir
Z +
xdFX = 0,
(7.17)
lm
b+ b
y
lm
xdFX = 0.
(7.18)
y entonces si b 0
Z +
Z
xdFX b
b
Luego
0 = lm
b b
dFX = b (1 FX (b)) 0 .
xdFX lm b (1 FX (b)) 0.
b
(1 FX (x)) dx
FX (x) dx.
(7.19)
xdFX +
xdFX .
Anlogamente se prueba
Z 0
xdFX =
FX (x) dx.
t, y
139
(ii) E (X) E (Y ) .
Demostracin.
(i) Consideremos el evento U = { : X () Y ()}. Claramente P (U ) =
1 y P (U c ) = 0. Podemos escribir
{Y t} = ({Y t} U ) ({Y t} U c ) .
(7.20)
(7.21)
(7.22)
(7.23)
E (Y ) =
(1 FY (r)) dt
(7.24)
FX (t) dt,
Z 0
FY (t) dt.
Demostracin. Supongamos que esta propiedad no fuera cierta, luego tendramos una variable aleatoria X tal que E (X) = 0, P (X 0) = 1 y
P (X = 0) < 1. Luego teniendo en cuenta que P (X 0) = 1 obtenemos
que P (X > 0) = P (X 0) P (X = 0) = 1 P (X> 0) = a > 0.
Ahora consideremos los eventos An = X > n1 . La sucesin {An } es
montona creciente ya que An An+1 y adems
[
An ,
{X > 0} =
nN
de manera que
lm P (An ) = P ({X > 0}) = a > 0.
Por lo tanto existe un nmero natural n0 tal que P (An0 ) > a/2 y entonces
E (X) =
=
xdFX
Z +
xdFX
1
n0
xdFX +
+
1
n0
xdFX
+
1
n0
n0
xdFX
+
1
n0
dFX
1
1
=
1 FX
n0
n0
1
1 a
1
> 0.
=
=
P X>
n0
n0
n0 2
lo cual es un absurdo ya que contradice la hiptesis. 2
R +
R +
Observacin. La igualdad xdFX = 0 xdFX se justifica teniendo
en cuenta que P (X 0) = 1.
Sea X una variable aleatoria discreta, RX su rango y pX su densidad. Sabemos
que
E (X) =
xpX (x) .
xRX
Ay = {x RX : g (x) = y} = g 1 ({y}) .
yRY
pX (x)
xAy
X X
ypX (x)
yRY xAy
X X
g (x) pX (x)
yRY xAy
g (x) pX (x) ,
xRX
E (X) =
Teorema 7.10 Sea X un vector aleatorio absolutamente continuo de dimensin k, con densidad fX . Sea g : Rk R una funcin medible que toma
un conjunto a lo sumo numerable de valores y definamos Y = g (X) . Luego
Z + Z +
E (Y ) =
...
g (x) fX (x) dx1 ...dxk .
(7.25)
142
S
6 y 0 entonces Ay Ay0 = . Adems
En este caso Rk = yRY Ay y si y =
1
pY (y) = PX (g ({y}) = PX (Ay ) . Entonces usando que para x Ay se
tiene g(x) = y, que adems
X
IAy (x) = 1
yRY
y que
PX (Ay ) =
(7.26)
Ay
obtenemos
E (Y ) =
ypY (y)
yRY
yPX (Ay )
yRY
yRY
X Z
yRY
X Z
yRY
X Z
yRY
=
=
Rk
Rk
Ay
Ay
Ay
Rk
g (x) fX (x)
yRY
Z
Z0
FX (y c)dy.
= (1 FX (y c))dy
Z0
Z
Z0
Z0
(1 FX (x))dx + (1 FX (x))dx
FX (x)dx +
FX (x)dx
= E(X) +
= E(X) +
(1 FX (x))dx +
Z0
dx
Z0
dx
= E(X) +
Z0
Z0
Z0
FX (x)dx +
FX (x)dx
Z0
FX (x)dx
= E(X) + x|0c
= E(X) + c.
La convergencia uniforme implica la puntual pero no al revs. En particular nos interesa la convergencia uniforme de variables aleatorias. Hacemos
notar que el lmite puntual de funciones medibles, y en consecuencia el lmite
uniforme, tambin resulta ser una funcin medible.
Teorema 7.11 Sea (Xn )n1 una sucesin de variables aleatorias definidas
en (, A, P ) que convergen uniformemente a una variable aleatoria X sobre
. Supongamos que E (X) existe. Entonces
lm E (Xn ) = E (X) .
n+
i i+1
1 i + 1
1
=g
,
gn
n
n n
gn (x) =
Demostracin. Por el Teorema 7.12 (ii) existe una sucesin de funciones medibles gn tal que Rgn es a lo sumo numerable y que converge uniformemente a
g. Definimos las variables aleatorias Yn = gn (X) . Por el Teorema 7.12 (iii),
(Yn )n converge uniformemente a Y.
Como ya hemos demostrado en el Teorema 7.10 que esta propiedad vale
para funciones que toman un conjunto a lo sumo numerable de valores, se
tendr
Z
Z
+
E (Yn ) =
Adems por el Teorema 7.11 se tiene que lmn E(Yn ) = E(Y ). Luego
bastar probar que
lm
n+
gn (x) fX (x) dx =
(7.27)
Para probar esto observemos que
Z +
Z +
Z +
Z +
g
(x)
f
(x)
dx
g
(x)
f
(x)
dx
n
X
X
Z +
Z +
Z +
Z +
Z
Z +
1 +
1
fX (x) dx = ,
n
n
|
{z
}
=1
Demostracin.
Primero probaremos el Teorema cuando X1 y X2 son discretas. Sean X1
y X2 variables aleatorias discretas con esperanza finita y sea Z = X1 +X2 .
Definamos g : R2 R por
g (x1 , x2 ) = x1 + x2 .
Entonces si X = (X1 , X2 ) se tiene que Z = g (X) . Definamos gi : R2
R, i = 1, 2 por gi (x1 , x2 ) = xi . Luego g(x) =g1 (x)+g2 (x). Usando el
Teorema 7.9 podemos escribir
X
g (x) pX (x)
E (Z) =
(x1 ,x2 )RX
g1 (x)pX (x) +
g2 (x)pX (x)
(7.28)
(7.29)
lm E (Xjn ) = E(Xj ), j = 1, 2.
(7.30)
y
n
= lm (E (X1n ) + E (X2n ))
n
= lm E (X1n ) + lm E (X2n )
n
= E (X1 ) + E (X2 ) ,
y esto prueba el teorema. 2
148
7.3.
Otro problema interesante es estudiar la esperanza de un producto de variables aleatorias. Si las variables aleatorias X e Y tienen esperanzas finitas
y definimos la variable aleatoria Z = XY entonces nos podemos preguntar:
cundo vale que E (Z) = E (XY ) = E (X) E (Y )? Veremos en el siguiente
Teorema que una condicin suficiente es la independencia de las variables X
e Y.
Teorema 7.15 Sean X e Y variables aleatorias independientes con esperanza finita. Si Z = XY entonces
E (Z) = E (XY ) = E (X) E (Y ) .
Demostracin. En principio lo probaremos para el caso discreto. Luego aproximaremos a X e Y por variables discretas uniformemente y probaremos el
teorema para el caso general pasando al lmite.
Sean X e Y variables aleatorias discretas independientes con esperanza
finita y definamos g : R2 R
g (x, y) = xy.
Entonces como Z = g (X, Y ) , por el Teorema 7.9 resulta
X
E (Z) =
g (x, y) p(X,Y ) (x, y)
(x,y)R(X,Y )
xyp(X,Y ) (x, y)
(x,y)RX RY
(x,y)RX RY
xRX
xpX (x)
yRY
= E (X) E (Y ) .
ypY (y)
Luego basta probar que lmn E (Xn Yn ) = E (XY ). Para ver esto observemos que
|E (Xn Yn ) E (XY ) | = |E (Xn Yn XY ) |
E |Xn Yn XY |
= E |Xn Yn Xn Y + Xn Y XY |
= E |Xn (Yn Y ) + Y (Xn X)|
(7.31)
(7.32)
ax |Yn () Y ()| = 0.
lm m
(7.33)
y
n
(7.34)
1
11
= .
44
16
7.4.
E(g(X)IDi (X)) =
dZi+1
gdFX .
di
151
(7.35)
k
X
E(g(X)IDi (X))
i=1
di+1
k Z
X
gdFX
i=1 d
i
Z
gdFX .
Veamos que (7.35) para el caso que g es constante en Di En este caso sea
c el valor de la funcin en Di . Luego g(X)IDi (X) toma valores c con probabilidad FX (di+1 ) FX (di ) y 0 con probabilidad 1 (FX (di+1 ) FX (di )).
Luego
E(g(X)IDi (X)) = c(FX (di+1 ) FX (di ))
=
dZi+1
gdFX ,
di
si y ai
0
1
FYi (y) =
(7.36)
F (g (y)) si ai < y < bi
X i
1
si y bi ,
Como lmaai gi1 (a) = di y lmbb gi1 (b) = di+1 , para probar (7.35) bastar demostrar que para todo ai < a < b < bi se tiene
Z
ydFY =
gi1
Z (b)
g(x)dFX .
gi1 (a)
152
(7.37)
lm
aai ,bbi
lm
ydFYi
gi1
Z (b)
aai ,bbi
gi1 (a)
g(x)dFX
dZi+1
g(x)dFX .
di
n
X
n
jn (FY (yj+1
) FY (yjn ))
j=1
n
X
j=1
n
jn (FX (gi1 (yj+1
)) FX (gi1 (yjn ))).
(7.38)
ydFY .
(7.39)
Llamemos ahora
xnj = gi1 (yjn ), 0 j n, jn = gi1 (jn ), 1 j n.
Luego por la monotona de gi1 obtenemos gi1 (a) = xn0 < xn1 < ... < xnn =
n = {xn , xn , ..., xn } es una particin
gi1 (b) y xnj < jn xnj+1 . Por lo tanto X
n
0
1
de [gi1 (a), gi1 (b)] y n = (jn )1jn una seleccin en esta particin. Adems
n
|| = m
ax (xnj+1 xnj )
||X
1jn
n
= m
ax (gi1 (yj+1
) gi1 (yjn ))
1jn
153
tiende a 0 con n por la continuidad uniforme de gi1 en [gi1 (a), gi1 (b)] y el
hecho de que
n
ax (yj+1
yjn ) = 0.
lm m
n 1jn
gi1 (b) n
(X , n , g, FX )
lm Sg1
n
i (a)
gi1 (b)
gi1 (a)
g(x)dFX .
(7.40)
n
X
n
=
jn (FX (gi1 (yj+1
)) FX (gi1 (yjn )))
j=1
n
X
j=1
n
X
g(jn )(FX (xj+1 ) FX (xj ))
=
j=1
g 1 (b)
i
= Sg1
( n , n , g, FX ).
(a) X
(7.41)
Luego de (7.39) (7.40) y (7.41) obtenemos (7.37), y por lo tanto (7.35) queda
demostrada para el caso que g es estrictamente creciente en Di .
Para el caso que g es estrictamente decreciente, tenemos que g es estrictamente creciente. Por lo tanto (7.35) vale para g y entonces
E(g(X)IDi (X)) =
dZi+1
gdFX .
di
dZi+1
gdFX ,
di
7.5.
(7.42)
(7.43)
(7.44)
Se tiene
y
PX ([x, 0)) = P (x X < 0)
= P (x X > 0)
= P (0 < X x)
= FX (x) FX (0).
(7.45)
(7.46)
(7.47)
x.
= P (X x) P (X 0)
= P (x X < 0) .
= P (x X 0)
= P (x Y 0)
= PY ([x, 0)),
y
PX ((, + x]) = P ( < X + x)
= P (0 < X x)
= P (0 < Y x)
= PY ((0, x]).
(7.50)
(7.51)
157
7.6.
Dijimos que la esperanza describe un valor central de una variable aleatoria. En particular, si la variable aleatoria X es simtrica y tiene esperanza
finita, entonces esta coincide con su centro de simetra. Una desventaja de
la esperanza es que es muy inestable, es decir es muy sensible a las pequeas
perturbaciones, pequeos cambios en la distribucin de la variable se ven
reflejados en importantes cambios en los valores de la esperanza.
Otra desventaja de la esperanza es que puede ocurrir que no exista.
Incluso esto puede darse en el caso de una distribucin simtrica. Un ejemplo
de distribucin simtrica que no tiene esperanza es la distribucin de Cauchy.
Su densidad est dada por
f (x) =
1 1
.
1 + x2
2
= ( 0)
2
=1
El grfico de esta densidad es parecido al de la densidad normal aunque
las colas tienden a 0 ms lentamente. Es una funcin par y por lo tanto
simtrica respecto del eje y. Esta distribucin no tiene esperanza puesto que
un clculo sencillo prueba que
1
1
1
x
dx =
2
1+x
1
dx = +.
1 + x2
1
P X FX
(y) y.
(7.52)
Probaremos ahora una propiedad adicional.
Teorema 7.21
1
P X FX
(y) 1 y.
(7.53)
Demostracin. Sea x < FX1 (y) , entonces, dado que FX1 (y) es el mnimo de
1
Ay se tiene que FX (x) < y. Luego si ponemos x = FX1 (y) < FX1 (y)
n
obtenemos
1
1
FX FX (y)
< y,
n
es decir
La sucesin de eventos
1
1
P X FX (y)
< y.
n
1
An = {X FX
(y)
1
}
n
n=1
1
An = {X < FX
(y)}.
159
1
1
y,
lm P X FX (y)
n
n
y adems
1
1
1
= P {X < FX
(y)} .
lm P X FX (y)
n
n
Por lo tanto
o equivalentemente
1
P {X < FX
(y)} y,
P {X FX1 (y)} 1 y. 2
1
2
es una mediana.
entonces como P (X
1m)
2 , resulta que
1 1
1
m A 1 . Como FX 2 = inf A 1 resulta F
2 m.
2
7.7.
Var (X) =
xRX
y para el continuo
Var (X) =
x2 pX (x)
xRX
x fX (x)dx
161
xpX (x) ,
2
xfX (x)dx .
= E X 2 2E (X) X + E 2 (X)
P (X E (X))2 = 0 = 1.
P (X E (X) = 0) = 1,
o
P (X = E (X)) = 1.
Se deja como ejercicio probar que si
P (X = E (X)) = 1,
entonces Var (X) = 0. Para eso obsrvese que la variable aleatoria (X
E (X))2 es cero con probabilidad uno. 2
Propiedad 7.14 Sea X una variable aleatoria e Y = X + , con ,
escalares. Entonces Var (Y ) = 2 Var (X) .
Demostracin. Como E(Y ) = E(X) + resulta
Var (Y ) = E (Y E (Y ))2
= E [ (X E(X))]2
= 2 E [X E(X)]2
= 2 Var (X) .2
= E [X + Y E (X) E (Y )]2
7.7.1.
(7.54)
Calcularemos
2
N , .
1
2
ex /2 .
1/2
(2)
Z
=2
xf (x)dx
0
Z
2
2
xex /2 dx.
(7.55)
=
1/2
(2)
0
163
(7.56)
2 /2
x2 ex
2 /2
y como [xex
2 /2
dx = [xex
]
= 0, resulta
2 /2
x2 ex
dx =
]
+
2 /2
ex
dx.
Entonces se tiene
x2 f (x)dx
Z
1
2
=
x2 ex /2 dx
(2)1/2
Z
1
2
=
ex /2 dx
1/2
(2)
Z
=
f (x)dx
Var(X) =
= 1.
164
2 /2
ex
dx,
2 es la distribucin de
De acuerdo a su definicin, la
distribucin
N
,
7.8.
Covarianza
Luego
E
0
= E ( [X E (X)] [Y E(Y )])
X E X0 Y 0 E Y 0
= E ([X E (X)] [Y E(Y )])
(7.58)
(7.59)
Demostracin.
Sea Z = Y X. Entonces
Q(a) = E Z 2 = 2 E X 2 + E Y 2 2E (XY ) 0.
E 2 (XY ) E 2 (X) E 2 (Y ) 0,
de donde obtiene el resultado.
La igualdad se cumple si y slo si = 0. Esto ocurre si y slo si existe
un nico tal que Q() = 0. Esto es equivalente a que E((Y X)2 ) = 0,
y esto a que P (Y = X) = 1.
La desigualdad (7.58) se obtiene aplicando (7.57) a X = X E(X) e
Y = Y E(Y ). Luego resulta que la correspondiente igualdad se cumple
si y slo si existe tal que
P (Y E(Y ) = (X E(X)) = 1.
Poniendo = E(Y ) + E(X), esto es equivalente a (7.59). 2
166
Cov2 (X, Y )
.
Var (X) Var (Y )
Cov (X, Y )
1
7.9.
En esta seccin vamos a definir la distribucin normal con medias, varianzas y covarianzas arbitrarias.
Queremos definir la distribucin conjunta de un vector aleatorio Y =
(Y1 , Y2 ) a partir de fijar la distribucin marginal de cada una de sus coordenadas y establecer un valor para la covarianza entre sus coordenadas.
Es decir que queremos
que la
conjunta del vector Y sea tal
distribucin
2
2
que Y1 N 1 , 1 , Y2 N 2 , 2 , y tal que Cov (Y1 , Y2 ) = 12 , con las
constantes 1 , 2 , 1 , 2 y 12 prefijadas arbitrariamente. Para que esto sea
posible se tendrn que cumplir ciertas restricciones sobre estas constantes.
Los valores 1 , 2 no tienen deben cumplir ningn requisito en particular,
pero 12 > 0, 22 > 0 y 12 debe cumplir la desigualdad de Cauchy-Schwarz
que se puede escribir como
2
12 22 .
12
Ahora bien si queremos una distribucin bivariada absolutamente con2 = 2 2 , ya que en este caso (Y , Y ) estara
tinua, no podr cumplirse 12
1 2
1 2
sobre una recta que es un conjunto de superficie 0. Luego se deber cumplir
2
< 12 22 .
12
167
12 12
12 22
(7.60)
2 > 0.
Luego det () = 12 22 12
Definamos la matriz de covarianza del vector Y por
Var(Y1 )
Cov(Y1 , Y2 )
Y =
.
Var(Y2 )
Cov(Y2 , Y1 )
a11 a12
(7.61)
A=
a21 a22
tal que
= AAt ,
(7.62)
(ii) Cov(Y1 , Y2 ) = 12 .
1
1
t
1
fY (y) =
(y ) (y ) .
1 exp
2
2 det () 2
168
(7.63)
Y2 = a21 X1 + a22 X2 + 2 .
(7.64)
a211
(7.65)
+ a212 .
De modo anlogo,
Var (Y2 ) = a221 + a222 ,
(7.66)
(7.67)
Luego
Y =
a211 + a212
a11 a21 + a12 a22
a11 a21 + a12 a22
a221 + a222
= AAt
=
2
1 12
.
=
12 22
(7.68)
x21 + x22
1
exp
=
2
2
1 t
1
exp
xx ,
=
2
2
donde xxt = ||x||2 .
1
Teniendo en cuenta que X = (Y ) At se
obtiene que el Jacobiano de esta transformacin es J = 1/ det At . Adems, como =
1
AAt se obtiene que (det (A))2 = det () o sea det (A) = det () 2 y por
1 1
1
lo tanto J = 1/ det () 2 . Entonces, a partir de la igualdad At
A =
1 usando la frmula para transformaciones de vectores aleatorios
dada en el teorema 6.4, resulta
t 1 1
1
1
t
(y ) A
A (y )
fY (y) =
1 exp
2
2 det () 2
1
1
t
1
(y ) (y ) .
=
1 exp
2
2 det () 2
(iv) Para hallar la forma cuadrtica, calculemos primero el determinante
de
2
2
= 12 22 1 2122 = 12 22 1 2 .
det () = 12 22 12
1 2
Luego la inversa de viene dada por
1
12
22
1
= 2 2
.
12
1 2 (1 2 ) 12
1
12
22
t
1
(y )t
(y ) (y ) = (y ) 2 2
12
1 2 (1 2 ) 12
h
1
(y1 1 )2 22 + (y2 2 )2 12
= 2 2
1 2 (1 2 )
2 (y1 1 ) (y2 2 ) 12 ] .
170
Luego se tiene
(y ) 1 (y )t
!
(y1 1 )2 (y2 2 )2
1
12
=
+
2 2 2 (y1 1 ) (y2 2 )
1 2
12
22
1 2
!
(y1 1 )2 (y2 2 )2
1
+
2
(y1 1 ) (y2 2 ) .2
=
1 2
1 2
12
22
Observacin. El teorema anterior se demostr para el caso de dos variables.
Sin embargo la densidad normal multivariada de cualquier dimensin que
se define para vectores aleatorios Y Rk tiene una expresin similar a la
escrita en el punto (iii).
Observacin. El mximo valor de fY se logra cuando se hace mnimo el
exponente de la exponencial, esto es en y = . Por otro lado las curvas de
nivel fY (y) = c (con c constante) son elipses cuyas direcciones principales
vienen dadas por los autovectores de 1 . Si la Cov (Y1 , Y2 ) = 0 entonces, la
matriz es diagonal y las direcciones son paralelas a los ejes coordenados,
dando lugar a circunferencias como curvas de nivel en este caso.
Definicin 7.11 Se dice que el vector Y tiene distribucin normal bivariada con media y matriz de covarianza definida positiva, que se denotar
por N2 (,) si su funcin densidad es
1
1
t
1
(y ) (y ) .
fY (y) =
1 exp
2
2 det () 2
171
172
Captulo 8
Teora de la Prediccin.
8.1.
2
b
b
ECM Y , Y = E
Y Y
EAM Yb , Y = E Y Yb .
Teorema 8.1 Una condicin suficiente para que Yb0 P sea un predictor
ptimo usando el criterio del error cuadrtico medio es que
E Y Yb0 Yb = 0
(8.1)
el nico
para todo Yb P. Adems, si Yb0 satisface (8.1), esesencialmente
b
b
predictor ptimo. Es decir si Y P satisface ECM Y0 , Y = ECM Yb , Y
entonces P Yb = Yb0 = 1.
Observacin.
(8.1) se puede interpretar como que el error de
La condicin
b
prediccin Y Y0 es ortogonal a todo elemento de P cuando el producto
escalar est definido por hY, Xi = E(Y X) en el espacio de Hilbert de las
variables aleatorias.
Demostracin. Sea Yb P. Entonces
2
i2
b
b
b
b
b
ECM Y , Y = E
Y Y
=E
Y Y0 + Y0 Y
2
2
=E
Y Yb0
+E
Yb0 Yb
+ 2E
Yb0 Yb Y Yb0 .
E Yb0 Yb Y Yb0
= 0,
y luego
2
2
b
b
b
b
+E
ECM Y , Y = E
Y0 Y
Y Y0
2
Y Yb0
E
= ECM Yb0 , Y ,
2
= 0 y
Adems si Yb fuera tambin ptimo se tendra E
Yb0 Yb
174
Teorema 8.2 Sea P un espacio vectorial de predictores de la variable aleatoria Y de dimensin finita y sea {Yb1 , ..., Ybk } una base de P. La condicin
necesaria y suficiente para que se cumpla (8.1) es que
(8.2)
E Y Yb0 Ybi = 0, 1 i k.
Demostracin. Claramente es una condicin necesaria. Veamos que es suficiente Sea Yb cualquier elemento de P, entonces existen escalares 1, ..., k
P
tal que Yb = ki=1 i Ybi . Luego si para i = 1, 2, ..., k se cumple que
E Y Yb0 Ybi = 0,
resulta tambin que
E Y Yb0 Yb = E
=
X
Y Yb0
i Ybi
i=1
8.2.
i=1
k
X
i E Y Yb0 Ybi = 0. 2
Predictores constantes.
= Var(Y ). 2
8.3.
Predictores lineales.
, R}.
P2 es el conjunto de variables aleatorias que se obtiene por una transformacin lineal de la variable X . Claramente P1 P2 , y por lo tanto el error
cuadrtico medio del predictor ptimo en P2 ser menor o igual que el del
predictor ptimo en P1 . Por esta razn, si denotamos por Yb0,L el predictor
ptimo en P2 ,resulta claro que
(8.3)
y
=
Cov (X, Y )
.
Var (X)
Cov2 (X, Y )
.
ECM Yb0,L .Y = Var (Y )
Var (X)
(8.4)
(8.5)
(8.6)
E ((Y X ) 1) = 0.
(8.7)
y
De la condicin (8.6) se obtiene
E (Y ) E(X) = 0,
de donde resulta (8.3).
Ahora multiplicando (8.7) por E (X) resulta
E ((Y X ) E (X)) = 0,
176
ECM Yb0,L , Y = E [Y X ]2
= E [Y X E (Y ) + E (X)]2 =
2
= E [(Y E (Y )) (X E (X))] =
= E [Y E (Y )]2 + 2 E [X E (X)]2
2E ([Y E (Y )] [X E (X)]) .
Cov2 (X, Y )
Cov2 (X, Y )
2
Var (X)
Var (X)
2
Cov (X, Y )
. 2
= Var (Y )
Var (X)
= Var (Y ) +
Para evaluar cunto mejora el error cuadrtico medio cuando se usa Yb0,L
177
ECM Yb0,C , Y
2 (X,Y )
Var (Y ) Var (Y ) Cov
Var(X)
=
ECM Yb0,C , Y
=
Cov2 (X,Y )
Var(X)
Var (Y )
Cov2 (X, Y )
= 2 (X, Y ) .
Var (X) Var (Y )
de
b
b
Cauchy-Schwarz. En efecto, como 0 ECM Y0,C , Y ECM Y0,L , Y
2
= 0, que a su vez es equivalente a
es equivalente E
Y Yb0,L
P Y = Yb0,L = P (Y = X + ) = 1,
Captulo 9
Esperanza y distribucin
condicional.
9.1.
Caso discreto.
pXY (x, y)
.
pX (x)
yRy
pY |X (y|x) =
X
X pXY (x, y)
1
pX (x)
=
= 1,
pXY (x, y) =
pX (x)
pX (x)
pX (x)
yRy
yRy
pXY (x, y)
,
pX (x)
pY|X (y|x) = 1.
yRY
179
(9.1)
E(Y |X = x) =
yRY
ypY |X (y|x).
(9.2)
xRX
g(x)pX (x).
X
X
E(E(Y |X)) =
ypY |X (y|x) pX (x)
xRX
xRX
xRX
yRY
yRY
yRY
yRY
pXY (x, y)
y
pX (x)
pX (x)
ypXY (x, y)
xRX
ypY (y)
pXY (x, y)
yRY
= E(Y ).
El cambio en el orden de la suma se encuentra justificado pues la suma
converge. Luego el teorema queda demostrado. 2
Ejemplo 9.1 Supongamos que se hace una primera serie de n tiradas de
una moneda y sea X el nmero de caras obtenido. En base al resultado de
la primera serie de tiradas, se inicia una segunda serie de X tiradas. Sea Y
el nmero de caras obtenidas en esta segunda serie. Calcular la E(Y ).
Si X = x, la distribucin de Y condicional a X = x es binomial
Bi(0,50, x). Luego g(x) = E(Y |X = x) = 0,50x. Luego E(Y |X) = g(X) =
0,50X, y por lo tanto E(Y ) = E(E(Y |X)) = 0,50E(X). Como X es Bi(0,50, n),
entonces E(X) = 0,5n. Por lo tanto E(Y ) = 0,25n.
Teorema 9.2 (i) Si X e Y son dos vectores aleatorios independientes,
entonces se tiene
a)
b)
(ii) Sean X e Y dos vectores aleatorios tales pY|X (y|x) = p(y) para todo
x RX . Entonces pY (y) = p(y), y X e Y son independientes.
Demostracin.
(i) a) se deduce del hecho de que pY|X (y|x) = pY (y) implica que
pXY (x, y) = pX (x)pY (y).
181
b) es inmediata.
(ii) Para probar (ii) observemos que pY|X (y|x) = p(y) implica que
pXY (x, y) = pX (x)p(y),
(9.3)
y por lo tanto
pY (y) =
pX (x)p(y) = p(y)
xRX
pX (x) = p(y).
xRX
(9.4)
pXY (x, c)
= 1.
pX (x)
yRY
ypY |X (y|x)
= cpY |X (c|x)
= c1
= c,
y el teorema queda demostrado. 2
Demostracin. Comenzaremos calculando la funcin de probabilidad conjunx = {z : z = h(x, y) para y R }, y para todo z Rx
ta de (X, Z). Sea RZ
Y
Z
x
definamos Az = {y : h(x, y) = z}. Es fcil ver que:
si z 6= z 0 entonces Axz Axz0 = , y que
[
Axz = RY .
(9.5)
x
zRZ
Es inmediato que
P
( P
pXY (x,y)
pX (x)
yAx
z
x
si x RX , z RZ
en otro caso,
x
si z RZ
en otro caso.
yAx
z
pY|X (y|x)
x
si z RZ
en otro caso.
zRx
Z
z pZ|X (z|x)
x
zRZ
pY|X (y|x)
yAx
z
zpY|X (y|x),
x
zRx
Z yAz
x
zRx
Z yAz
yRY
183
(9.6)
r(x)s(y)pY|X (y|x)
yRY
s(y)pY|X (y|x)
yRY
= r(x)E(s(Y)|X = x),
y luego la propiedad queda demostrada. 2
Demostracin.
Sea Y = (Y1 , Y2 ) y definamos h(x, y) = c1 y1 + c2 y2 , h1 (x, y) = y1 y
h2 (x, y) = y2 . Entonces se tiene h(x, y) = c1 h1 (x, y) + c2 h2 (x, y). Luego
tenemos
E(c1 Y1 + c2 Y2 |X = x) = E(h(X, Y)|X = x)
X
h(x, y)pY|X (y|x)
=
yRY
yRY
= c1
yRY
yRY
(ii) E Y 2 |X = x E 2 (Y |X = x).
(iii) Si E(Y 2 ) < , entonces E(E 2 (Y |X)) < .
Demostracin.
(i) Es inmediato de la definicin.
(ii) Para demostrar (ii), observemos que por (i)
0 E([Y E(Y |X = x)]2 |X = x)
= E( Y 2 2Y E(Y |X = x) + E 2 (Y |X = x) |X = x)
Propiedad 9.5 Sea Y una variable aleatoria discreta con esperanza finita y
X un vector aleatorio discreto de dimensin k. Luego si g(x) = E(Y |X = x),
entonces para toda t : Rk R medible tal que Y t(X) tiene esperanza finita
resulta
E [(Y g(X))t(X)] = 0.
Demostracin. Sea Z = h(X, Y ) = (Y g(X))t(X). Luego bastar demostrar
que
E(Z) = 0.
Utilizando el Teorema 9.1 bastar demostrar que
E(Z|X) = 0.
(9.7)
(9.8)
Var g 2 (X) < .
Pero esto resulta de Propiedad 9.4 (iii). Luego el resultado se obtiene del
Teorema 8.1 y de la Propiedad 9.5. 2
186
9.2.
Caso general
Vamos ahora dar una definicin de E(Y |X) para el caso de una variable
Y cualesquiera , y un vector X cualquiera de dimensin k. Ambos, Y y X
no tienen porque ser discretos ni absolutamente continuos
Definicin 9.1 La variable aleatoria esperanza de Y condicional X se define por E(Y |X) = g(X), donde g : Rk R es una funcin medible tal
que
E((Y g(X))t(X)) = 0
(9.9)
para toda t : Rk R medible tal que Y t(X) tiene esperanza finita . Definiremos E(Y |X = x) = g(x).
La Propiedad 9.5 demostrada anteriormente muestra que en el caso de
Y y X discretos esta definicin coincide con la dada anteriormente, y por lo
tanto en este caso siempre existe.
El siguiente teorema muestra que siempre existe una nica variable
aleatoria g(X) = E(Y |X) satisfaciendo (9.9).
Teorema 9.5 Sea Y una variable aleatoria con esperanza finita y sea X un
vector aleatorio cualquiera de dimensin k. Luego
(i) Siempre existe una funcin medible g : Rk R satisfaciendo (9.9).
(ii) Si g1 y g2 son dos funciones medibles satisfaciendo (9.9), entonces
P (g1 (X) = g2 (X)) = 1.
Demostracin.
(i) No lo demostraremos en general en este curso. Ms adelante haremos
una demostracin para el caso absolutamente continuo.
(ii) Sean g1 y g2 son dos funciones medibles satisfaciendo (9.9), entonces
E((Y g1 (X))t(X)) = 0
(9.10)
E((Y g2 (X))t(X)) = 0
(9.11)
y
para toda t(X) tal que Y t(X) tenga esperanza finita. Luego restando
(9.11) de (9.10) se obtiene
E ((g2 (X) g1 (X)) t(X)) = 0,
187
Vamos ahora a demostrar que todas las propiedades de esperanza condicional que valan para el caso discreto tambin valen para la definicin general.
Teorema 9.6 Si Y tiene esperanza finita, entonces E(E(Y |X)) = E(Y ).
Demostracin. Apliquemos (9.9) con t(X) = 1. Luego se tiene
0 = E(Y g(X))
= E(Y ) E(g(X))
= c1 0 + c2 0
= 0,
9.3.
Caso continuo
fXY (x, y)
.
fX (x)
Es fcil ver que para cada x fijo con fX (x) > 0, la funcin fY|X (y|x) es
una densidad para el vector Y. Es decir se tendr
Z Z
...
fY|X (y|x)dy1 ...dyj = 1.
o equivalentemente
E((h(X, Y )t(X)) = E(g(X)t(X)).
(9.12)
(9.13)
g(x)t(x)fX (x)dx
Z Z
Z
Z
(9.14)
yRY B
191
pY|X (y|x).
Z
=
fY|X (y|x)dy.
B
pY|X (z|x).
i=1
yj
...
y1
fY|X (z|x)dy.
Es fcil ver que para cada x fijo FY|X (y|x) es una verdadera funcin de
distribucin del vector Y, en el sentido que cumple con las propiedades que
caracterizan a una funcin de distribucin.
9.4.
Varianza condicional
(9.15)
El siguiente Teorema vincula la varianza condicional con el error cuadrtico medio del predictor ptimo no lineal YbO,NL = E(Y |X).
= Var(Y )
194
Captulo 10
Convergencia de Variables
Aleatorias.
10.1.
Convergencia de funciones.
0
si 0 < 1
f () =
1
si = 1
para todo [0, 1] pero no converge uniformemente en [0, 1].
195
10.2.
(10.1)
n+
(i) Xn X.
(ii) Para todo > 0 y todo > 0 existe n0 N tal que si n n0 entonces
P (|Xn X| ) .
(iii) Para todo > 0, existe n0 N tal que si n n0 entonces
P (|Xn X| ) .
Demostracin. (ii) es equivalente a (i) como consecuencia directa de la definicin de convergencia en probabilidad. La equivalencia entre (ii) y (iii) se
deja como ejercicio. 2
El siguiente teorema establece que la convergencia casi segura (10.1)
implica la convergencia en probabilidad (10.2).
Teorema 10.2 Sea {Xn }nN una sucesin de variables aleatorias definidas
sobre un espacio de probabilidad (, A, P ) y X otra variable aleatoria definida sobre el mismo espacio. Entonces
(i) La sucesin Xn converge casi seguramente a X sii
lm P (
{|Xn X| }) = 0.
(10.3)
n=m
>0
\
[
m=1 nm
197
Bn, .
\
\
[
Bn, 1 .
A=
Observemos que
Ac =
k=1
m=1 nm
k=1
[
\
m=1 nm
c
Bn,
.
1
k
[
\
P
B c 1 = 0.
nk
m=1 nm
c
c
. Como Bn,
es cereciente
lmite inferior de los conjuntos Bn 1
k
nN
[
\
c
Bn,
= 0.
P
(10.4)
m=1 nm
Definamos
Cm, =
c
Bn,
.
nm
!
[
\
\
c
=P
Bn,
Cm, = lm P (Cm, ) .
P
m=1 nm
m=1
lm P (Cm, ) = 0,
es decir,
lm P
nm
198
c
Bn,
= 0.
Pero como
c
= {|Xn X| },
Bn,
{|Xn X| },
n=m
m
P
Por lo tanto Xn 0. 2
Observacin. Notemos que en esta demostracin hemos probado que
A = { : Xn () X ()}
\
\
[
Bn, 1
=
=
k=1
m=1 nm
lm inf Bn, 1
k=1
o, equivalentemente
Ac = { : Xn () 9 X ()}
[
[
\
Bc 1
=
=
k=1
[
k=1
m=1 nm
n, k
lm sup Bn, 1 .
n
10.3.
Los siguientes dos teoremas muestran que las funciones continuas preservan los dos tipos de convergencia que hemos definido: convergencia en probabilidad y convergencia casi segura.
199
(j)
Xn
X (j) c.s. para j = 1, 2, ..., k entonces
n1
Teorema 10.5 Sea X una variable aleatoria. Dado > 0 existe K tal que
P (|X| K) < .
Demostracin.
Consideremos la sucesin de conjuntos
An = {|X| n}.
Esta sucesin es montona decreciente, es decir, An+1 An y adems
T
n=1 An = . Entonces
lm P (An ) = 0.
n
P (|X| K0 ) < .
2
Teniendo en cuenta que
|Xn | |Xn X| + |X|
(10.5)
(10.6)
/ {|Xn X| 1} {|X| K0 }.
Luego |Xn () X () | < 1 y |X () | < K0 y por lo tanto por (10.5) resulta
|Xn ()| < K0 + 1.
201
P (|Xn X| 1) < .
2
Tomando probabilidades en ambos miembros de (10.6) obtenemos
P ({|Xn | K0 + 1}) P ({|Xn X| 1}) + P ({|X| K0 })
< + =
2 2
para todo n n0 . Adems por el Teorema 10.5, para cada i tal que 1 i
n0 podemos encontrar Ki tal que P (|Xi | Ki ) . Luego tomando
K = m
ax m
ax {Ki }, K0 + 1 ,
1in0
se obtiene la tesis. 2
Ahora estamos en condiciones de probar la propiedad de que las funciones
continuas conservan la convergencia en probabilidad.
Teorema 10.7 Sea g : R2 R continua y supongamos que las sucesiones
(Xn )n1 e (Yn )n1 convergen en probabilidad a las variables aleatorias X e
Y, respectivamente. Entonces (g (Xn , Yn ))n1 converge en probabilidad a la
variable aleatoria g (X, Y ) .
Observacin. Vale la misma observacin hecha para el caso de la convergencia casi segura en cuanto a que este teorema es vlido para funciones
continuas definidas en Rk y vectores aleatorios k dimensionales.
Demostracin.
Queremos probar que dado > 0 existe n0 N tal que si n n0
P (|g (Xn , Yn ) g(X, Y )| ) < .
(10.7)
n
6
P (|X| K) <
6
P (|Yn | K) < n
6
P (|Y | K) < .
6
P (|Xn | K) <
202
Esto puede lograrse considerando primero un K1 que cumpla con las dos
primeras desigualdades, despus un K2 que cumpla con las siguientes dos y
tomando K = m
ax{K1 , K2 }.
Sea
C = [K, K] [K, K] .
Como g es continua y C es compacto entonces g resulta uniformemente
continua en C. Luego existe > 0 tal que si |x x0 | < , |y y 0 | <
y m
ax {|x|, |x0 |, |y|, |y 0 |} K entonces
(10.8)
|g (x, y) g x0 , y 0 | < .
P (|Xn X| ) <
(10.9)
6
(10.10)
P (|Yn Y | ) < .
6
Esto se logra considerando un valor n1 para la sucesin (Xn )n1 , un valor
ax{n1 , n2 }.
n2 para la sucesin (Yn )n1 y luego tomando n0 = m
Ahora definimos los conjuntos
A1n = {|Xn X| }
A2n = {|Yn Y | }
A3n = {|Xn | K}
A4n = {|Yn | K}
A5n = {|X| K}
6
[
Ain ,
i=1
entonces
{|g (Xn , Yn ) g(X, Y )| } Bn .
6
[
Ain )c =
i=1
6
\
i=1
203
Acin ,
(10.11)
6
X
i=1
P (Ain ) < 6 = ,
6
(i) Si Yn Y y Xn X entonces Xn + Yn X + Y.
P
Xn P X
.
Yn
Y
Demostracin.
Similar a la demostracin del Teorema 10.4. 2
10.4.
Teorema 10.9 (Desigualdad de Markov) Sea X una variable aleatoria y g una funcin par, no negativa y no decreciente en el mdulo, esto
es si |x| > |y| entonces g (x) g (y) . Supongamos adems que g (X) tiene
esperanza finita, es decir que E (g (X)) < . Entonces si > 0 es tal que
g () > 0, vale que
E (g (X))
.
P (|X| )
g ()
Demostracin.
Consideremos el conjunto A = { : |X()| } . Entoces {A, Ac } es
una particin del espacio muestral . Luego IA (x) + IAc (x) = 1, y como
todas las variables son no negativas y g(x) es nodecreciente en |x|, tenemos
g (X) = g (X) IA (X) + g (X) IAc (X)
g (X) IA (X)
g()IA (X) .
Luego tomando esperanza obtenemos
E [X E (X)]2
Var (X)
=
.
P ({|X E (X)| })
2
2
Tomando complementos esta desigualdad puede escribirse como
P ({|X E (X)| < }) 1
Var (X)
.
2
Xn =
1X
Xi ,
n
i=1
n =
1X
i .
n
i=1
205
Entonces si
lm
se tiene
n
1 X 2
i
n2
i=1
= 0,
(10.12)
X n n 0.
Demostracin.
Se tiene que
n
1 X 2
i ,
Var(X n ) = 2
n
i=1
y por Tchebichev
1 X 2
Var(X n )
=
i .
P (X n n )
2
2 n2
i=1
1 X 2
1
i = 0
lm P (X n n ) 2 lm 2
n
n n
i=1
1. Si (Xn )n1 es una sucesin de variables aleatorias independientes, entonces las variables Xn son no correlacionadas y el Teorema puede
aplicarse.
2. Una condicin suficiente para que se cumpla (10.12) es que {i2 } sea
una sucesin acotada. En efecto, si i2 K para todo i, se obtiene
n
K
1 X 2 Kn
0.
i 2 =
n2
n
n
i=1
X n .
4. En particular si (Xn )n1 es una sucesin de variables no correlacionadas igualmente distribuidas con E(Xn ) = y Var(Xn ) = 2 ,
P
se tendr X n .
206
1 si en el experimento i, A
Xi () =
0 si en el experimento i,
/ A.
Definamos
Xn =
1X
Xi .
n
i=1
Se tiene
= P (A) (1 P (A)) .
Luego, como adems las variables Xi son independientes, de acuerdo
a la ley dbil de los grandes nmeros se tendr
P
X n E (Xi ) = P (A) .
(10.13)
10.5.
n
1 X 2
i .
m
ax |Si | 2
1in
i=1
207
(10.14)
n
1
1 X 2
Var
(S
)
=
i .
n
2
2
(10.15)
i=1
ax |Si | ,
{|Sn | } m
1in
y por lo tanto
P ({|Sn | }) P
m
ax |Si | .
1in
A = max |Si | ,
1in
n
[
Ai ,
n
X
IAi .
i=1
i=1
Sn2 IA
+ Sn2 IAc
Sn2 IA
Sn2
n
X
IAi .
i=1
Sn2
n
X
i=1
E Sn2 IAi .
(10.16)
(10.17)
donde
Ti =
n
X
Xj .
j=i+1
(10.18)
E Sn
E Sn2 IAi
i=1
2
n
X
P (Ai )
i=1
= 2 P (A) ,
o sea
E Sn2
P (A)
2
n
1 X 2
= 2
i . 2
i=1
ri+1 1
X
[
c
P
Bn
< ,
(10.19)
i=1
n=ri
209
c
Bn
n=m
= 0.
(10.20)
ri+1 1
X
[
c
P
Bn
< .
i=i0
Pero entonces
[
[
c
Bn = P
P
n=ri0
n=ri
ri+1 1
i=i0 n=ri
Bn
i=i0
ri+1 1
n=ri
c
< .
Bn
Teorema 10.13 (Ley fuerte de los grandes nmeros) Sea (Xn )n1 una
sucesin de variables aleatorias independientes tal que E (Xi ) = i y Var(X
i) =
i2 para cada i N. Consideremos la sucesin de variables aleatorias X n n1
definida por
n
1X
Xn =
Xi
n
i=1
n = E(X n ) =
1X
i .
n
i=1
Entonces si
X
2
i
i=1
se tiene
i2
< ,
(10.21)
X n n 0 c.s.
Demostracin. Basta probar el teorema suponiendo que para todo i, i = 0.
Para ver esto, supongamos que el teorema fuera vlido cuando para todo
i, i = 0 y deduzcamos de esto el caso general, esto es, cuando para cada
i la E (Xi ) = i arbitraria. Para ello, consideremos nuevas variables Yi =
Xi i . Entonces E (Yi ) = 0 y Var (Yi ) = Var(Xi ) = i2 . Las variables Yi
210
i
2[
1
c
i = P
,
Bn
n=2i1
Si llamamos Sn =
X
i=1
Pn
i=1 Xi
i < .
i
2[
1
c
Bn
i = P
n=2i1
=P
|X n |
i 1
2[
n=2i1
=P
i 1
2[
n=2i1
i 1
2[
n=2i1
i 1
2[
n=1
{|Sn | n}
{|Sn | 2i1 }
{|Sn | 2i1 } .
(10.22)
i 1
2[
i1
i1
m
ax |Sn | 2
{|Sn | 2 } = P
P
1n2i 1
n=1
4i1 2
1
4i1 2
i 1
2X
Var (Xj )
j=1
i 1
2X
j2 .
j=1
1
4i1 2
211
i 1
2X
j=1
j2 ,
(10.23)
X
i=1
X
i=1
1
4i1 2
1 X 2
= 2
j
j=1
i 1
2X
j2
j=1
i: 2i 1j
1
4i1
(10.24)
La desigualdad 2i 1 j es equivalente a
i
ln (j + 1)
= i0 (j) ,
ln (2)
i: 2i 1j
1
4i1
X 1
4i
ii0 (j)
!
1
= 4a0
1 14
16
= a0 ,
3
=4
(10.25)
(10.26)
ii0 (j)
Por otro lado 2i 1 j implica que 4i j 2 , es decir para todos los trminos
de la serie geomtrica (10.26) obtenemos
1
1
2,
4i
j
y en particular se tendr
a0
1
.
j2
2i 1j
1
16
16 1
16 1
= a0
=
,
4i1
3
3 j2
3 j2
X
i=1
16 X j2
i
<.
32
j2
j=1
212
(10.27)
X
1
< ,
i2
i=1
resulta
X
2
i=1
i
i2
X
1
< .
i2
i=1
10.6.
Ahora daremos una demostracin del Teorema de la Convergencia Dominada (Lebesgue). Antes necesitamos el siguiente caso particular.
Teorema 10.14 Sean (Xn )n1 una sucesin de variables aletorias no negativas y Z una variable aleatoria no negativa con E (Z) < que domina
P
todos los trminos de la sucesin, es decir 0 Xn Z. Entonces si Xn 0
se tiene
E (Xn ) 0.
Demostracin. Recordemos que si Z 0 la condicin de E (Z) < es
Rk
R
equivalente a 0 zdFZ < y esto es equivalente a lmk k zdFZ = 0.
Vamos a demostrar que dado > 0 existe n0 tal que si n n0 entonces
E (Xn ) < .
Dado K > 0 (arbitrario) particionamos al espacio de la siguiente manera
n
o
o n
Entonces
0 Xn = Xn I{Xn /3} + Xn I{/3<Xn K} + Xn I{Xn >K}
+ E ZI{Z>K} .
E (Xn ) + KP Xn >
3
3
(10.28)
(10.29)
y entonces
si y < 0
0
F (K) si 0 y K
FYK (y) =
Z
FZ (y) si y > K,
E(ZI{Z>K} ) = E(YK )
Z +
=
zdFZ .
K
E ZI{Z>K0 } < .
3
(10.30)
<
P Xn >
.
(10.31)
3
3K0
Luego de (10.29), (10.30) y (10.31) resulta que para todo n n0
0 E (Xn )
+ K0
+ = ,
3
3K0 3
(10.32)
Sea
Yn = |Xn X| 0,
P
215
216
Captulo 11
Convergencia en
Distribucin.
11.1.
Fn F.
Observacin. Recordemos que una funcin de distribucin definida sobre
R se caracteriza por las propiedades P1, P2, P3 y P4 del teorema 2.5 y que
el conjunto de puntos donde es discontinua es a lo sumo numerable.
Definicin 11.2 Sea (Xn )n1 una sucesin de variables aleatorias y F una
funcin de distribucin. Diremos que la sucesin Xn converge en distribucin a
F sii (FXn )n1 converge dbilmente a F.
Notacin. Si (Xn )n1 converge en distribucin a F escribiremos
D
Xn F.
217
Xn X.
Demostracin. Sea FX la funcin de distribucin de X y x un punto de
continuidad.de FX . Probemos primero que
{Xn x} {X x + } {|Xn X| }.
(11.1)
Para esto basta demostrar que si no est en ninguno de los dos conjunto
que forman la unin en el miembro derecho, entonces no est en {Xn x}.
Sea tal que X() > x + y |Xn () X()| < . Luego
Xn () = X() + (Xn () X())
X() |Xn () X()|
>x+
= x,
se obtiene
lm FXn (x) FX (x + ) ,
218
(11.2)
(11.3)
(11.4)
y como
lmn FXn (x) lm FXn (x) ,
n
debe ser
lm FXn (x) = lmn FXn (x) = FX (x) .
219
11.2.
Funciones caractersticas.
11.2.1.
= E (X1 Y1 X2 Y2 ) + iE (X2 Y1 + Y2 X1 ) =
220
E (Y ) = E ei X
= ei E (X)
= r > 0.
Hemos probado con anterioridad que la propiedad se cumple para esperanzas
de variables aleatorias reales. Luego
|E (Y )| E (|Y |) .
A partir de esto se deduce la tesis, pues
|E (X)| = r = E (Y ) = |E (Y )| E (|Y |) = E (|X|) . 2
11.2.2.
Definicin 11.6 Sea X una variable aleatoria y FX su funcin de distribucin. Definimos a la funcin carcterstica de X por la funcin X : R C
asociada a FX de la siguiente manera
X (t) = E (exp (itX))
= E (cos (tX)) + iE (sen (tX)) .
Observacin. Como las variables cos (tX) , sen (tX) son acotadas, las esperanzas de estas variables existen y son finitas.
El motivo de la introduccin de la funcin caracterstica es poder estudiar
ms facilmente la distribucin de la suma de variables aleatorias independientes. Mientras que la funcin de distribucin de esta suma (que se obtiene
por convoluciones) puede ser muy complicada, su funcin caracterstica es
muy simple, como se desprende de la Propiedad 11.3 que damos a continuacin. Por otro lado, como veremos ms adelante, hay una correspondencia
biunvoca entre funciones de distribucin y funciones caractersticas. Luego,
conociendo la funcin caracterstica de una variable aleatoria, tambin conocemos su funcin de distribucin.
221
Propiedad 11.3 Sean X e Y dos variables aleatorias independientes. Entonces para todo t R
X+Y (t) = X (t) Y (t) .
Demostracin. Observando que exp (itX) , exp (itY ) son variables aleatorias
independientes se tiene
X+Y (t) = E (exp (it (X + Y )))
= E (exp (itX) exp (itY ))
= E (exp (itX)) E (exp (itY ))
= X (t) Y (t) . 2
Xn X
si y slo si para todo t R
Xn (t) X (t) .
222
223
(11.5)
Adems,
X (t) = E(cos(X(t)))
= E(cos(Xt))
= X (t).
Luego X es par.
Supongamos ahora que X es real, esto es E (sen (tX)) = 0. Entonces
teniendo en cuenta que la funcin coseno es par y la funcin seno impar
tendremos para todo t R
X (t) = E (cos (tX)) + iE (sen (tX))
= E (cos(tX) ,
y
X (t) = E (cos (t(X))) + iE (sen (t(X)))
= E (cos(tX)) iE(sen(tX))
= E (cos(tX))
k = E |X|k .
Observacin. Si k es par entonces k = k . Adems siempre se tiene que
k < sii k < , es decir la integrabilidad absoluta de |X|k equivale a la
de X k . En particular E(X) = 1 y Var(X) = 2 21 .
Teorema 11.7 Si k < entonces para todo i < k se tiene i < .
Demostracin. Sea i < k. Se tiene
|X|i = I{|X|1} |X|i + I{|X|>1} |X|i .
225
Como
I{|X|i 1} |X|i I{|X|1}
y
I{|X|>1} |X|i I{|X|>1} |X|k |X|k
obtenemos
|X|i I{|X|1} + |X|k .
Tomando esperanza en ambos miembros resulta
i P ({|X| 1}) + k < ,
y esto demuestra el teorema. 2
11.3.
11.3.1.
Para hacer un desarrollo de Taylor de la funcin caracterstica, necesitaremos hallar sus derivadas. Como la funcin caracterstica est definida
como una esperanza, ser conveniente encontrar condiciones bajo las cuales
se pueda intercambiar el orden en el que se deriva y se toma esperanza.
Sea g(x, t) una funcin de dos variables a valores reales, medible respecto
de la primera variable y derivable respecto de la segunda variable. Sea g2
definida por
g (x, t)
.
g2 (x, t) =
t
Sea X una variable aleatoria, entonces para cada t, Yt = g (X, t) es
tambin una variable aleatoria. Supongamos que E (|Yt |) < y consideremos la funcin h (t) = E (Yt ) = E (g (X, t)) . El siguiente teorema nos da
condiciones suficientes para que h0 (t) = E (g2 (X, t)) .
Teorema 11.8 Supongamos que en t = t0 se cumplen las siguientes condiciones:
(i) existe > 0 y Z variable aleatoria con E (Z) < , tal que
sup {|g2 (X, t) |} Z,
|tt0 |
Demostracin.
Sea (rn )n1 una sucesin de nmeros reales no creciente que converge a
0 y tal que |rn | . Bastar demostrar que
h (t0 + rn ) h (t0 )
= E (g2 (X, t0 )) .
n+
rn
lm
Utilizando el teorema del valor medio existe rn = rn (X) tal que |rn (X)|
rn y tal que
g (X, t0 + rn ) g (X, t0 )
= g2 (X, t0 + rn (X)) .
rn
Luego
g (X, t0 + rn ) g (X, t0 )
h (t0 + rn ) h (t0 )
= lm E
lm
n
n
rn
rn
= lm E (g2 (X, t0 + rn (X))) .
n
(11.6)
11.3.2.
(2)
X (t) = E i2 X 2 exp (itX) = i2 E X 2 exp (itX)
..
.
(n)
227
(11.7)
(11.8)
Sea g(x, t) = xn cos(tx). Luego g2 (x, t) = xn+1 sen(tx) es continua y |g2 (X, t)|
|X|n+1 . Como E(|X n+1 |) < , por el Teorema 11.8 se tendr que si
h(t) = E(X n cos(tx)), entonces
h0 (t) = E (g2 (X, t))
= E(X n+1 sen(tX)).
(11.9)
(11.10)
(11.11)
(11.12)
(n+1)
X
(t) = in+1 (1/i)E(X n+1 sen(tX)) + E(X n+1 cos(tX)) ,
y usando que 1/i = i
(n+1)
X (0) = in E (X n ) .
228
X (0) = in E(X n )
= in n .
En particular
0X (0) = i1
(11.13)
00X (0) = 2 .
(11.14)
y
Ahora estamos en condiciones de probar que la funcin caracterstica de
la distribucin X N (0, 1) es su densidad, salvo una constante.
11.4.
1 2
(t) = exp t .
2
Demostracin. Como X es simtrica respecto del origen, es real y par.
Consideremos dos variables aleatorias independientes X1 N (0, 1) , X2
N (0, 1) y definamos
Y = u1 X1 + u2 X2 con u1 0, u2 0 . Entonces
2
2
Y N 0, u1 + u2 .
Podemos expresar a Y como un mltiplo de una variable N(0, 1). En
efecto
q
Y
Y = u21 + u22 p 2
u1 + u22
q
= u21 + u22 Z,
donde
Y
Z=p 2
u1 + u22
229
1q 2
2
2
u1 + u2 t .
=
(11.15)
(11.16)
(11.17)
= (u1 t) (u2 t)
q q
u21 t
u22 t .
=
De (11.15) y (11.18) se obtiene
q
q q
u21 + u22 t =
u21 t
u22 t ,
(11.18)
(11.19)
y haciento t = 1
q
q q
2
2
u1 + u2 =
u21
u22 .
(11.20)
g u21 + u22 = g u21 g u22 .
(11.21)
v v 2
= g
0.
2
2
Observacin. La Ecuacin (11.21) recuerda la caracterizacin de la distribucin exponencial como una distrubucin con falta de memoria. Luego
para caracterizar a g procederemos de igual manera.
230
vi =
g (vi ) .
(11.22)
g
i=1
i=1
g (n) = g 1| + 1 +{z+... + 1}
n veces
= [g (1)] .
(11.23)
n
n
n
+ ... +
= g +
m}
|m m {z
m veces
h n im
= g
,
m
y entonces
g
n
= [g (1)] m .
m
Luego para todo r Q positivo se tiene
g (r) = [g (1)]r .
Por la continuidad de g y la densidad de Q en R,se concluye que para todo
x R0
g (x) = [g (1)]x .
Ahora veamos que
0 < g (1) < 1.
(11.24)
t = g (t) = [g (1)]t = 0.
= 2
= Var (X) + E X 2
= 1.
Por lo tanto obtenemos que c =
1
2
11.5.
t2
+ o2 (t2 )
2
t2
+ o2 t2 .
2
donde o2 t2 satisface (11.25). Esto demuestra el lema. 2
11.5.1.
Teorema 11.11 (Teorema Central del Lmite) Sea (Xn )n1 una sucesin de variables aleatorias independientes idnticamente distribuidas (i.i.d.)
con varianza finita. Llamemos = E (Xi ) y 2 = Var (Xi ) > 0 . Sean las
sumas parciales
n
X
Xi
Sn =
i=1
Entonces
Sn E (Sn )
.
Zn = p
Var (Sn )
D
Zn N (0, 1) .
(11.26)
(11.27)
donde
1X
Xi
n
Xn =
i=1
n
X
Xi
1
=
n
Pn i=1
X
i,
= i=1
n
donde
Xi
n
Y
2 n
t2
Xi (t) = 1 + o2 t
.
Sn (t) =
2
i=1
234
Finalmente teniendo en cuenta que = 0 y 2 = 1, resulta Zn = Sn / n.
Luego por la Propiedad 11.6 de las funciones caractersticas se obtiene
t
Zn (t) = Sn
n
2 n
2
t
t
+ o2
.
= 1
2n
n
De acuerdo a (11.28), bastar ver que la sucesin de funciones Zn satisface
2
2 n
t
t
t2
+ o2
.
(11.30)
lm 1
= exp
n
2n
n
2
Para ello escribamos la sucesin de caractersticas del siguiente modo
2 n
t
1 t2
o2
n
,
Zn (t) = 1
n 2
n
y luego si llamamos
t2
o2
an =
2
t2
n
n ,
entonces resulta
an n
Zn (t) = 1
.
n
Se conoce del clculo elemental que si a n L entonces
an n
1
n exp (L) .
n
Por lo tanto, para mostrar (11.30) bastar mostrar que en nuestro caso
L = t2 /2. Equivalentemente bastar con mostrar que
2
t
lm o2
n 0.
n
n
Pero esto resulta de escribir
o2
t2
n
o2
n=
t2
n
t2
n
t2
1
E X n = n =
n
2
2
=
,
Var X n = n
n
n
podemos escribir las variables Zn de la siguiente manera
Xn E Xn
Zn = q
Var X n
=
(X n )
.
n
n2
(X n ) D
N (0, 1) .
(11.31)
lm P (n 2 + |Wn | > K) = 1
11.5.2.
n
X
i2 = Var (Sn ) .
i=1
Sn E (Sn ) D
N (0, 1)
Zn = p
Var (Sn )
lm
n+
Pn R
i=1 {|y|sn } y
s2n
2 dF
Yi
= 0.
(11.32)
=
=
=
n
X
i=1
n
X
y 2 dFYi
n Z
X
i=1
(11.33)
Var(Yi )
i=1
n Z +
X
i=1
i2
{|y|<sn }
y dFYi +
n Z
X
i=1
y2 dFYi .
{|y|sn }
(11.34)
lm
Pn R
2
i=1 {|y|<sn } y dFYi
R
Pn
2
i=1 y dFYi
= 1,
(11.35)
{|y|<sn }
Luego
max1in i2
Pn
< 22 .
2
i=1 i
max1in i2
Pn
= 0.
2
n
i=1 i
lm
Teorema 11.13 (Teorema Central del Lmite de Liapunov) Sea (Xn )n1
una sucesin de variables aleatorias independientes con E (Xi ) = i y varianza Var (Xi ) = i2 < tal que para algn i0 , i20 > 0. Llamemos Yi =
Xi i a las variable aleatoria centradas. Una condicin suficiente para que
Sn E (Sn ) D
Zn = p
N (0, 1)
Var (Sn )
238
n+
2+
E
|Y
|
i
i=1
Pn
s2+
n
y luego
n Z
X
i=1
(11.36)
|y|2+
dFYi
|y|
{|y|sn }
1
sn
= 0.
{|y|sn }
2+
| )
|y|2+ dFYi
E(|Yi
sn
1 X 2+
.
E |Yi |
sn
n
{|y|sn }
y 2 dFYi
s2n
Dividiendo por
se tiene
Pn R
i=1 {|y|sn } y
s2n
2 dF
Yi
i=1
n
1 X
E(|Yi |2+ ),
s2+
n
i=1
i=1 {|y|sn } y
s2n
2 dF
Yi
= 0.
(11.37)
n
X
Xi ,
i=1
donde
Xi =
1
0
Se puede probar que para n = 20 la distribucin normal es una buena aproximacin de la binomial, de manera que a fines prcticos se pueden usar tablas
normales para calcular probabilidades binomiales, si n es suficientemente
grande.
11.5.3.
Llamemos
ne
,
an = p
p (1 p)
(11.38)
|X n p|
ne
=P
p
np
p (1 p)
p (1 p)
= P (|Zn | an )
= (an ) (an )
= (an ) (1 (an ))
= 2(an ) 1,
donde el signo
= indica aproximadamente. Supongamos ahora que queremos saber qu tamao de muestra se requiere para que P (|En | e) sea
aproximadamente 1 , donde es un nmero pequeo, por ejemplo 0,05.
Entonces se requerir un valor n tal que
2(an ) 1 = 1 ,
o equivalentemente
.
an = 1 1
2
Reemplazando an de acuerdo a (11.38) tendremos
ne
1
p
,
=
1
2
p (1 p)
o equivalentemente
2
p(1 p) 1 1 2
n=
.
e2
Como p es desconocido podemos acotar la expresin de la derecha utilizando
el valor de p ms desfavorable. Hallemos dicho valor. Como n depende en
forma creciente de g(p) = p(1 p) deberamos elegir el mximo de est
funcin para 0 p 1. Observemos que g 0 (p) = 1 2p, de modo que el
nico punto crtico es p = 1/2 , y como g 00 (p) = 2 < 0 corresponde a un
mximo relativo. Como en los extremos g(0) = g(1) = 0 y g(1/2) = 1/4,
resulta que el mximo absoluto de g se alcanza en p = 1/2 y vale 1/4. Luego
bast tomar n igual a
2
1
1 2
.
n=
4e2
241
n=
= 384,16.
4e2
11.6.
Teorema de Slutsky.
(i) Xn + Yn X + c,
D
(ii) Xn Yn cX,
(iii) Si c 6= 0 entonces,
Xn D X
.
Yn
c
Teorema 11.15 Sea (Xn )n1 una sucesin de variables aleatorias tales que
D
(ii) Sea a > 0. Queremos probar que para todo punto x de continuidad de
FaX vale que
lm FaXn (x) = FaX (x) .
n+
x
= P Xn
x a
,
= FXn
a
y de manera anloga, la funcin de distribucin de aX
x
.
FaX (x) = FX
a
x
lo es
a
D
de FX . Ahora bien, como Xn X vale que para todo x punto de
continuidad de FX
Entonces x es un punto de continuidad de FaX si y slo si
x
. Esto demuestra el caso (ii) a > 0.
a
{X a
n=1
1
}.
n
1
P (X < a) = lm P X a
n
n
1
= lm FX a
n+
n
= FX a .
243
= 1 P (X < x)
= 1 FX (x) .
FX (x) = 1 FX (x) ,
= FX (x) .
244
(11.42)
= FX (x )
> FX (x) .
(11.43)
variable aleatoria tal que Xn X. Entonces dado > 0 existe K0 > 0 tal
que para todo n N
P (|Xn | K0 ) 1
y
P (|X| K0 ) 1 .
Demostracin. Por el Teorema 10.5 sabemos que dado > 0 existe K > 0
tal que
P (|X| K) 1 .
2
Observemos que si para cierto K > 0 vale la desigualdad, entonces tambin
vale para cualquier K1 > K. En efecto, como
{|X| K} {|X| K1 },
tomando probabilidades se tiene
1 P (|X| K) P (|X| K1 ) .
Luego, como el conjunto de puntos de discontinuidad de FX es a lo sumo
numerable, podemos elegir K de forma tal que FX sea continua en K y en
K. Entonces
P (|X| K) = P (K X K)
= P (K < X K)
= FX (K) FX (K)
1 .
2
(11.44)
(11.45)
246
y
lm FXn (K) = FX (K) .
(11.46)
(11.47)
Luego tenemos
P (|Xn | K) = P (K Xn K)
P (K < Xn K)
(11.48)
FX (K) FX (K)
2
1 = 1 .
2 2
Luego hemos conseguido la acotacin requerida para X y Xn con n n0 .
Finalmente para cada 1 j n0 1, podemos encontrar un nmero Kj > 0
tal que P (|Xj | Kj ) 1 . Entonces si ponemos
ax{K, K1 , K2 , ..., Kn0 1 }
K0 = m
se cumple
P (|Xn | K0 ) 1 , n
y
P (|X| K0 ) 1 . 2
Teorema 11.17 Sea (Xn )n1 una sucesin de variables aleatorias uniformeP
Xn Yn 0.
247
Demostracin. Utilizado las dos hiptesis dado > 0 existe K > 0 tal que
P (|Xn | K) 1
< .
P |Yn |
2K
2
},
K
P ({|Xn Yn | > }) P ({|Xn | > K}) + P {|Yn | }
K
< + = .
2 2
Esto prueba el teorema. 2
Teorema 11.18 Sean (Xn )n1 e (Yn )n1 dos sucesiones de variables aleatoD
Xn + Yn X.
Demostracin.
Queremos probar que si x es un punto de continuidad de FX entonces
lm FXn +Yn (x) = FX (x) .
n+
248
(11.49)
y
lm P (|Yn | > 1 ) = 0,
= FX (x + 1 )
FX (x + ).
Haciendo 0 resulta
lmFXn +Yn (x) FX (x) .
(11.50)
249
Teorema 11.19 Sea (Xn )n1 una sucesin de variables aleatorias y X otra
D
Xn + a X + a.
Demostracin. Tenemos
FXn +a (x) = P (Xn + a x)
= P (Xn x a)
= FXn (x a) ,
y
FX+a (x) = P (X + a x)
= P (X x a)
= FX (x a) .
n+
n+
= FX (x a)
= FX+a (x) . 2
Teorema 11.20 Sea (Xn )n1 una sucesin de variables aleatorias tal que
P
Yn = g(Xn ) g(c).
Demostracin. Dado > 0 existe > 0 tal que |x c| implica |g(x)
g(c)| . Luego
{|g(x) g(c)| > } {|x c| > }.
En particular
{|g(Xn ) g(c)| > } {|Xn c| > }.
y tomando probabilidades y lmites obtenemos
lm P (|g(Xn ) g(c)| > ) lm P (|Xn c| > ) = 0.
250
Luego
lm P (|g(Xn ) g(c)| > ) = 0,
Xn + c X + c,
e
Yn c 0.
y aplicando el Teorema 11.18
D
Xn + Yn X + c.
(ii) Escribimos el producto de la siguiente manera
Xn Yn = cXn + (Yn c) Xn .
Sean
Zn = (Yn c) Xn ,
y
Un = cXn .
P
Zn 0,
y aplicando el Teorema 11.15
D
Un cX.
Finalmente, aplicando el Teorema 11.18
D
Xn Yn = Un + Zn cX.
251
1
Yn
Xn .
Para ver cmo se usa el Teorema de Slutsky en casos particulares, retomemos la aplicacin del Teorema Central del Lmite a la binomial, presentada en la seccin 11.5.3.
Sea
Xi =
1
0
donde
Xn p D
Yn np
= np
Zn = p
N (0, 1) ,
np (1 p)
p (1 p)
Yn =
n
X
Yn
, Xn =
n
i=1
X n p.
Como la funcin g (p) = p (1 p) es continua, por el Teorema 10.7 resulta
que
P
X n (1 X n ) p (1 p) .
Luego resulta que
Xn p
D
nq
N (0, 1) .
X n (1 X n )
Ahora daremos una aplicacin de estos conceptos resolviendo el siguiente
problema de Estadstica.
252
11.7.
bn = X n .
Para n grande este valor estar prximo a la media verdadera , y el
error cometido en esta aproximacin ser
En = X n .
As, el error resulta una variable aleatoria. Un problema natural es tratar
de encontrar, para un valor de n determinado, una cota para el mdulo del
error, con una alta probabilidad.
Teniendo en cuenta que la varianza se define 2 = E X 2 [E (X)]2
podemos estimar la varianza de la siguiente manera
P
Pn
2
( ni=1 Xi )2
2
i=1 Xi
bn =
n
n
i=1 Xi
E(X) c.s.
n
Luego como el cuadrado es una funcin continua se tendr
Xn =
y por lo tanto,
bn
253
c.s.
c.s.,
y
P
bn .
Xn D
n
N (0, 1) .
(11.52)
P
1.
bn
(11.53)
Xn Xn D
n
= n
N (0, 1) .
bn
bn
P z/2 Zn z/2 1 ,
Xn
P z/2 n
z/2 1 ,
bn
y despejando
z/2
z/2
bn
bn
Xn +
P Xn
1 .
n
n
(11.54)
bn
bn
z/2
z/2
Xn ; Xn +
.
n
n
significacin y el tamao de la muestra n. Cuando decrece z/2 aumenta y consecuentemente aumenta la longitud intervalo de confianza. Como
contrapartida tambin aumenta la probabilidad que contenga a . En cambio cuando n crece y se mantiene el constante, la longitud del intervalo
decrece, tendiendo a 0 cuando n tiende a infinito.
Obsrvese que otra manera de escribir (11.54) es la siguiente
z/2
bn
1 .
P |En |
n
bn / n con probabilidad
Es decir, tenemos acotado el error |En | por z/2
aproximada 1 .
11.8.
n X n N 0, 2 .
Teorema 11.21 Sea (Yn )n1 una sucesin de variables aleatorias y (an )n1
una sucesin de nmeros reales tal que an . Supongamos que la sucesin
D
de variables aleatorias an (Yn ) X. Sea g : R R una funcin con
derivada continua en un entorno de .
(i) Entonces
D
Wn = an (g (Yn ) g ()) g 0 () X.
(ii) Si X N 0, 2 entonces g 0 () X N 0, [g 0 (u)]2 2 . Este resultado vale an cuando g 0 () = 0 si la distribucin N (0, 0) se interpreta
como la distribucin de la variable constantemente igual a cero.
255
Demostracin.
(i) Por el Teorema 11.16, la sucesin an (Yn ) est uniformemente acotada en probabilidad. Si consideramos la sucesin (an )n1 de nmeros
reales como una sucesin de variables aleatorias constantes, es claro
que
1 P
0.
an
Luego de acuerdo al Teorema 11.17 resulta
(Yn ) =
1
P
(an (Yn )) 0,
an
o equivalentemente
P
Yn .
Como g es continua y derivable en un entorno de podemos aplicar
el Teorema del Valor Medio y encontrar un punto intermedio n entre
Yn y tal que
Wn = an g 0 (n ) (Yn ) .
P
256
Captulo 12
Procesos de Poisson.
12.1.
Procesos de punto.
12.2.
Los procesos de Poisson, son procesos de punto particulares que satisfacen los siguientes cuatro axiomas.
A1. Homogeneidad.
257
P (X (t) = 1)
= > 0.
t0
t
Esto es equivalente a que
lm
P (X (t) = 1) = t + o1 (t) ,
donde
lm
t0
A4.
lm
t0
o1 (t)
= 0.
t
P (X (t) > 1)
= 0,
t
258
(12.1)
(12.2)
(12.3)
o2 (t)
= 0.
t0
t
(12.4)
donde o2 satisface
lm
12.3.
(n 1) t
t 2t
n
,t .
= 0, , , ...,
n n
n
Esta particin determina n subintervalos
(i 1) t it
n
Ii =
,
, 1 i n.
n
n
El nmero de sucesos que ocurre en Iin es
(i 1) t
it
n
X
.
Vi = X
n
n
Por A1, las variables Vin , 1 i n, tienen la misma distribucin que
X(t/n) = V1n y por el axioma A2 son independientes.
Para cada i definimos el vector aleatorio
n
n
n
, Zi2
, Zi3
)
Zni = (Zi1
donde
n
Zi1
1
0
si Vin = 0
si Vin 6= 0,
259
n
Zi2
n
Zi3
=
1
0
si Vin = 1
si Vin 6= 1,
1
0
si Vin > 1
si Vin 1.
Por otro lado, la distribucin del vector Zni es multinomial, digamos con
parmetros de probabilidad p1n , p2n , p3n y para una nica repeticin. Luego
Zni M (p1n , p2n , p3n , 1) ,
donde
p1n
p2n
p3n
t
=0 ,
=P X
n
t
=1 ,
=P X
n
t
>1 .
=P X
n
t
+ o1
n
t
,
n
t
.
= o2
n
(12.5)
(12.6)
(12.7)
(12.8)
donde
o3 (t ) = o1 (t ) + o2 ( t) .
Claramente, de (12.2) y (12.3) resulta
lm
t0
o3 (t)
= 0.
t
260
(12.9)
Y1n =
n
Zi1
,
i=1
n
X
Y2n =
n
Zi2
,
i=1
n
X
Y3n =
n
Zi3
.
i=1
Y1n
Claramente
es el nmero de intervalos en los que no ocurre ningn suceso,
n
Y2 es el nmero de intervalos en los que ocurre exactamente uno e Y3n es
la cantidad de intervalos en los que ocurre ms de un suceso. Luego, la
distribucin del vector Yn = (Y1n , Y2n , Y3n ) es multinomial con parmetros
de probabilidad p1n , p2n , p3n y n repeticiones. Por lo tanto podemos escribir
Yn = (Y1n , Y2n , Y3n ) M (p1n , p2n , p3n , n) .
Sea An el evento en ningn intervalo ocurre ms de un suceso. Es decir
An = {Y3n = 0}.
Veremos que
lm P (An ) = 1.
o equivamentemente
lm P (Acn ) = 0.
Observemos que
Acn =
n
[
n
{Zi3
= 1},
i=1
n
X
n
(Zi3
= 1) = np3n
i=1
t
.
= no2
n
261
(12.10)
n+
y entonces
P (X (t) = k) = lm P ({X (t) = k} An ) .
n+
n+
P (X (t) = k) = lm
n+
1
k! n+
i=1
nk
k
t
t
t
t
. 1 + o3
+ o1
n
n
n
n
Como
k
t
t
t
1
+ o1
= k t + no1
,
n
n
n
n
tenemos
!
k
Y (n i + 1)
1
P (X (t) = k) =
lm
k! n+
n
i=1
nk
k
t
t
t
. 1 + o3
,
t + no1
n
n
n
o bien
P (X (t) = k) =
1
lm Bn Cn Dn En ,
k! n
262
(12.11)
donde
Bn =
k
Y
ni+1
n
i=1
n
t
t
Cn = 1 + o3
n
n
k
t
t
Dn = 1 + o3
n
n
k
t
En = t + no1
.
n
Comencemos calculando el lmite de Bn
lm Bn = lm
n+
n+
k
Y
ni+1
i=1
ni+1
=
lm
n+
n
i=1
k
Y
i1
=
1 lm
n+
n
k
Y
i=1
k
= 1 = 1.
n
t
t
1 + o3
lm Cn = lm
n+
n+
n
n
n
1
t
t no3
1
= lm
n+
n
n
an n
= lm 1
.
n+
n
donde
an = t no3
t
.
n
n+
263
(12.12)
Por lo tanto
an n
lm Cn = lm 1
n+
n+
n
= exp lm an
n
= exp (t) .
(12.13)
k
t
t
= 1k = 1.
1 + o3
n+
n
n
lm Dn = lm
n+
(12.14)
k
t
t + no1
lm En = lm
n+
n+
n
= (t)k .
(12.15)
(t)k
.
k!
12.4.
Tiempos de espera
= P (X (t) > 0)
= 1 P (X (t) = 0)
= 1 exp (t) .
Luego T1 E () .2
Otro problema de inters es la distribucin de los tiempos sucesivos de
ocurrencia de los sucesos. Definamos T2 como el tiempo de espera hasta que
264
12.5.
Los procesos de Poisson se pueden generalizar al plano. No vamos a describir estos procesos con detalle, pero daremos una breve presentacin. Un
ejemplo de este tipo de procesos podra ser los que representan la ubicacin
de los rboles en un bosque.
Consideramos ahora el plano en vez de la recta. Supongamos que en ciertos puntos del plano ocurren sucesos en forma aleatoria, como por ejemplo
la presencia de un rbol. Luego para cada boreliano B del plano tendremos
la variable aleatoria X(B) que representa la cantidad de sucesos que han
ocurrido en B (por ejemplo, la cantidad de rboles que se encuentran en
la regin B). Los axiomas de un proceso de Poisson en el plano son los
siguientes:
AP1. Homogeneidad.
Dado un boreliano, notemos con A su rea. Supongamos que B1 B2
B2 son boreleanos del plano tal que A (B1 ) = A (B2 ) entonces las
variables aleatorias
X (B1 ) y X (B2 )
265
o bien
P (X (B) = 1) = A(B) + o1 (A(B)) .
AP4.
P ({X (B) > 1})
= 0,
A(B)
A(B)0
lm
= {X(C) = 0}c .
Luego tomando probabilidades y teniendo en cuenta que A(C) = d
P (D12 d) = 1 P (X(C) = 0)
= 1 exp(A(C))
= 1 exp(d)
y por lo tanto D12 tiene distribucin E(). 2
267