Notas de Probabilidades

Notas de Probabilidades y Estad stica
Cap tulos 1 al 12
V ctor J. Yohai
vyohai@dm.uba.ar Basadas en apuntes de clase tomados por Alberto D eboli, durante el a no 2003 Versi on corregida durante 2004 y 2005, con la colaboraci on de Mar a Eugenia Szretter 20 de Marzo de 2006
Indice general
1. Espacios de Probabilidad. 1.1. Experimentos aleatorios. Algunas consideraciones heur sticas. 1.2. Axiomas de probabilidad. . . . . . . . . . . . . . . . . . . . . 1.2.1. Algebras. . . . . . . . . . . . . . . . . . . . . . . . 1.2.2. Espacios de Probabilidad. . . . . . . . . . . . . . . . . 1.3. Algebra generada por una familia de conjuntos. . . . . . . 1.4. Espacios de probabilidad nitos o numerables. . . . . . . . . . 1.5. Probabilidad condicional. . . . . . . . . . . . . . . . . . . . . 1.6. Independencia de eventos. . . . . . . . . . . . . . . . . . . . . 7 7 8 8 10 18 21 23 25
2. Variable Aleatoria. 31 2.1. Concepto de variable aleatoria. . . . . . . . . . . . . . . . . . 31 2.2. Espacio de probabilidad asociado a una variable aleatoria. . . 32 2.3. Funci on de distribuci on de una variable aleatoria. . . . . . . . 35 3. Variables aleatorias discretas y continuas. 41 3.1. Variables aleatorias discretas. . . . . . . . . . . . . . . . . . . 41 3.2. Ejemplos de distribuciones discretas. . . . . . . . . . . . . . . 43 3.2.1. Distribuci on Binomial. . . . . . . . . . . . . . . . . . . 43 3.2.2. Distribuci on Binomial Negativa (o Distribuci on de Pascal). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 3.2.3. Distribuci on Geom etrica. . . . . . . . . . . . . . . . . 46 3.2.4. Distribuci on Hipergeom etrica. . . . . . . . . . . . . . . 47 3.2.5. Distribuci on de Poisson. . . . . . . . . . . . . . . . . . 48 3.2.6. Gr aco de la funci on de distribuci on asociada a una variable aleatoria discreta. . . . . . . . . . . . . . . . . 49 3.3. Variables aleatorias absolutamente continuas. . . . . . . . . . 49 3.4. Ejemplos de distribuciones continuas. . . . . . . . . . . . . . . 53 3.4.1. Distribuci on uniforme en un intervalo. . . . . . . . . . 53 3.4.2. Generaci on de distribuciones a partir de la distribuci on uniforme en [0,1] . . . . . . . . . . . . . . . . . . 55 3.4.3. Distribuci on Normal N , 2 . . . . . . . . . . . . . . 59 3.4.4. Distribuci on Exponencial. . . . . . . . . . . . . . . . . 62 3
3.5. Variables aleatorias mixtas. . . . . . . . . . . . . . . . . . . . 4. Vectores aleatorios. 4.1. Denici on de vector aleatorio. . . . . . . . . . . . . . . . . . . 4.2. Espacio de probabilidad inducido. . . . . . . . . . . . . . . . . 4.3. Funci on de distribuci on conjunta de un vector aleatorio. . . . 4.4. Algunas propiedades de vectores aleatorios. . . . . . . . . . . 4.5. Independencia de variables aleatorias. . . . . . . . . . . . . . 4.5.1. Algunas consideraciones heur sticas. . . . . . . . . . . 4.5.2. Conservaci on de la independencia por transformaciones. 4.5.3. Independencia de vectores aleatorios. . . . . . . . . . .
65 69 69 70 71 78 80 80 86 86
5. Vectores aleatorios discretos y continuos. 89 5.1. Vectores aleatorios discretos. . . . . . . . . . . . . . . . . . . 89 5.1.1. Funci on de densidad de probabilidad conjunta. . . . . 91 5.1.2. Caracterizaci on de la funci on de densidad marginal asociada a un subconjunto de variables. . . . . . . . . 92 5.2. Ejemplos de vectores aleatorios con distribuci on discreta. . . 94 5.2.1. Distribuci on Multinomial. . . . . . . . . . . . . . . . . 94 5.2.2. Distribuci on Hipergeom etrica Multivariada. . . . . . . 96 5.3. Vectores Aleatorios de tipo absolutamente continuo. . . . . . 98 6. Transformaciones de variables y vectores aleatorios. 6.1. Transformaciones mon otonas de variables aleatorias. . . . . 6.1.1. Distribuci on Normal . . . . . . . . . . . . . . . . . . 6.2. Transformaciones inyectivas de vectores aleatorios. . . . . . 6.3. Algunas aplicaciones a la distribuci on normal. . . . . . . . . 6.4. Transformaciones no inyectivas . . . . . . . . . . . . . . . . 6.4.1. Distribuci on Chi-cuadrado con un grado de libertad. 6.5. Algunas distribuciones complementarias. . . . . . . . . . . . 6.5.1. Distribuci on Gamma. . . . . . . . . . . . . . . . . . 6.5.2. Distribuci on beta. . . . . . . . . . . . . . . . . . . . 6.5.3. Distribuci on Chi-cuadrado. . . . . . . . . . . . . . . 6.5.4. Distribuci on t de Student . . . . . . . . . . . . . . . 105 105 107 109 112 114 115 . 116 . 116 . 121 . 123 . 123 . . . . .
7. Esperanza Matem atica. 125 7.1. Integral de Riemann-Stieltjes. . . . . . . . . . . . . . . . . . . 125 7.1.1. Denici on de la integral. . . . . . . . . . . . . . . . . . 125 7.2. Denici on de Esperanza Matem atica. . . . . . . . . . . . . . . 128 7.2.1. Algunas consideraciones heur sticas. . . . . . . . . . . 128 7.2.2. Esperanza de una variable aleatoria discreta. . . . . . 129 7.2.3. Denici on general de esperanza matem atica. . . . . . 129 7.2.4. Esperanza matem atica para una variable absolutamente continua. . . . . . . . . . . . . . . . . . . . . . . . . . 133 4
7.2.5. Algunas propiedades de la esperanza matem atica . . . 134 7.3. Esperanza del producto de variables aleatorias independientes. 149 7.4. Una f ormula general para la esperanza de una variable transformada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 7.5. Esperanza de distribuciones sim etricas . . . . . . . . . . . . . 154 7.6. Mediana de una variable aleatoria. . . . . . . . . . . . . . . . 158 7.7. Varianza de una variable aleatoria. . . . . . . . . . . . . . . . 161 7.7.1. Esperanzas y varianzas de distribuciones normales . . 163 7.8. Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 7.9. Distribuci on Normal Bivariada. . . . . . . . . . . . . . . . . . 167 8. Teor a de la Predicci on. 173 8.1. Error cuadr atico medio y predictores o ptimos. . . . . . . . . . 173 8.2. Predictores constantes. . . . . . . . . . . . . . . . . . . . . . . 175 8.3. Predictores lineales. . . . . . . . . . . . . . . . . . . . . . . . 176 9. Esperanza y distribuci on condicional. 9.1. Caso discreto. . . . . . . . . . . . . . . 9.2. Caso general . . . . . . . . . . . . . . 9.3. Caso continuo . . . . . . . . . . . . . . 9.4. Varianza condicional . . . . . . . . . . 179 179 187 190 192 195 195 196 199 204 207 213
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
10.Convergencia de Variables Aleatorias. 10.1. Convergencia de funciones. . . . . . . . . . . . . . . . . 10.2. Convergencia casi segura y en probabilidad. . . . . . . . 10.3. Preservaci on de la convergencia por funciones continuas. 10.4. Ley d ebil de los grandes n umeros. . . . . . . . . . . . . . 10.5. Ley fuerte de los grandes n umeros. . . . . . . . . . . . . 10.6. Teorema de la Convergencia Dominada . . . . . . . . . .
. . . . . .
. . . . . .
. . . . . .
11.Convergencia en Distribuci on. 217 11.1. Denici on de convergencia en distribuci on. . . . . . . . . . . . 217 11.2. Funciones caracter sticas. . . . . . . . . . . . . . . . . . . . . 220 11.2.1. Variables aleatorias complejas. . . . . . . . . . . . . . 220 11.2.2. Denici on de funci on caracter stica y propiedades. . . 221 11.3. Momentos y funci on caracter stica. . . . . . . . . . . . . . . . 226 11.3.1. Derivaci on dentro del signo esperanza. . . . . . . . . . 226 11.3.2. Derivadas de la funci on caracter stica y momentos. . . 227 11.4. Funci on caracter stica de una distribuci on normal. . . . . . . 229 11.5. Teorema Central del L mite. . . . . . . . . . . . . . . . . . . . 233 11.5.1. Caso de variables independientes id enticamente distribuidas . . . . . . . . . . . . . . . . . . . . . . . . . 233 11.5.2. Teorema Central del L mite para variables no id enticamente distribuidas. . . . . . . . . . . . . . . . . . . . 236 5
11.5.3. Una Aplicaci on a la Binomial. . . . . . . . 11.6. Teorema de Slutsky. . . . . . . . . . . . . . . . . 11.7. Aplicaci on a intervalos de conanza. . . . . . . . 11.8. Un teorema u til de Convergencia en Distribuci on 12.Procesos de Poisson. 12.1. Procesos de punto. . . . . . . . . . . . 12.2. Axiom atica de los Procesos de Poisson 12.3. Distribuci on de un proceso de Poisson. 12.4. Tiempos de espera . . . . . . . . . . . 12.5. Procesos de Poisson en el plano. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
240 242 253 255 257 257 257 259 264 265
Cap tulo 1
Espacios de Probabilidad.
1.1. Experimentos aleatorios. Algunas consideraciones heur sticas.
Se llamar a experimento aleatorio a un experimento tal que (i) no se puede preveer el resultado de un solo experimento, (ii) si se repite el experimento varias veces, la frecuencia con la cual el resultado est a en un conjunto A converge a un n umero.
Ejemplo 1.1 El experimento consiste en arrojar una moneda. En este caso el conjunto de todos los posibles resultados ser a = {0, 1}, 0 corresponde a ceca y 1 a cara. Si se repite experimento muchas veces, la frecuencia con que sale por ejemplo cara, tiende a 0.5 Ejemplo 1.2 El experimento consiste en lanzar un dado. En este caso el conjunto de todos los posibles resultados ser a = {1, 2, 3, 4, 5, 6}. Si se tira el dado muchas veces, por ejemplo la fecuencia con que el resultado est a en el conjunto A ser a #A/6, donde #A representa el cardinal de A. Ejemplo 1.3 El experimento consiste en lanzar una jabalina y registrar la marca obtenida. En este caso el conjunto de todos los posibles resultados ser a el conjunto de reales positivos y la frecuencia con que el resultado est e, por ejemplo en un intervalo [a, b], depender a del atleta. 7
V ctor J. Yohai
Ejemplo 1.4 Se elige al azar un alumno de primer grado de un colegio y se anota su peso en kilos, x y la altura en metros y En este caso = {(x, y ) R2 : x > 0, y > 0}. Como puede apreciarse los resultados pueden conformar un conjunto nito o innito de cualquier cardinalidad. Supongamos ahora que se hacen n repeticiones del experimento aleatorio. Si A , sea Cn (A) el n umero de veces que el resultado est a en A, luego la frecuencia relativa del conjunto A se dene por fn (A) = Cn (A) . n
En el caso de un experimento aleatorio, cuando n crece, esta frecuencia se aproxima a un n umero que se llamar a probabilidad de A y que denotaremos por P (A). Claramente 0 fn (A) 1, de manera que P (A) = l m fn (A) ,
n
y entonces 0 P (A) 1. Como veremos, en algunos casos, no se puede denir la probabilidad para todo subconjunto de resultados. Para precisar este concepto y estudiar sus propiedades formularemos la teor a axiom atica de probabilidades.
1.2.
Axiomas de probabilidad.
En primer lugar deniremos algunas propiedades que tendr a la familia de todos los conjuntos para los cuales est a denida su probabilidad. Esto nos lleva al concepto de - algebra.
1.2.1.
Algebras.
Sea un conjunto. Deniremos el conjunto partes de , por P () = {A : A }. Dado un conjunto A, denotaremos por Ac el complemento de A. Denici on 1.1 Sea una familia A de subconjuntos de , es decir A P ().Se dice que A es una - algebra sobre si satisface las siguientes propiedades.
1.2. Axiomas de probabilidad.
A1. A. A2. Dado A A se tiene Ac A. A3. Sea A1 , . . . , An , . . . una sucesi on de elementos de A. Entonces
A=
i=1
Ai A.
Propiedades de algebras Propiedad 1.1 A. Demostraci on. Resulta de A1 y A2. 2 Propiedad 1.2 Si A1 , ..., An son elementos de A entonces
n i=1
Ai A.
Demostraci on. Para ver esto supongamos que Ai A ; i = 1, 2, ..., n. Probaremos que
n
A=
i=1
Ai A.
Denamos una sucesi on numerable (Bi )i1 agregando el conjunto de la siguiente manera Bj = Aj , 1 j n,
i=1
Bk = si k > n.
Entonces por ser A una - algebra se tendr a que

n
Bi A y por lo tanto
A=
i=1
Ai =
i=1
Bi A. 2
elementos de A entonces A =
Propiedad 1.3 Si A es una - algebra, y A1 , ..., An , ... es una sucesi on de

i=1
Ai A.
Demostraci on. Esto resulta de que A = (

i=1
c Ac i) . 2
10
V ctor J. Yohai
entonces A =
Propiedad 1.4 Si A es una - algebra, y A1 , ..., An son elementos de A

n i=1
Ai A.
Demostraci on. Se demuestra igual que la Propiedad 1.2. 2 Propiedad 1.5 Si A es una - algebra, y A1 y A2 son elementos de A, entonces A1 A2 A. Demostraci on. En efecto A1 A2 = A1 Ac 2 A. 2 Propiedad 1.6 La a lgebra sobre m as chica posible es A0 = {, }, y la m as grande es A1 = P () . Luego si A es una - algebra sobre , se tendr a A0 A A1 . 2
Observaci on. En el contexto de la teor a de la medida, un elemento de la algebra A se llama un conjunto medible. Como veremos en la pr oxima subsecci on, la probabilidad estar a denida para los elementos de una algebra.
1.2.2.
Espacios de Probabilidad.
Denici on 1.2 Un espacio de probabilidad es una terna (, A, P ) donde es un conjunto, A es una - algebra sobre , y P : A [0; 1] es una funci on que satisface : 1. 2. P () = 1. ( -aditividad). Si (An )n1 es una sucesi on de elementos de A disjuntos dos a dos (Ai Aj = , si i = j ), entonces

P(
i=1
Ai ) =
i=1
P (Ai ).
Observaciones.
11
1. El conjunto se denomina espacio muestral y se interpreta como el conjunto de resultados posibles del experimento, los elementos de A se denominan eventos, y corresponden a los subconjuntos de para los cuales la probabilidad est a denida. Finalmente P se denomina funci on de probabilidad, y dado A A, P (A) se interpreta como la probabilidad de que el resultado del experimento est e en A. 2. En el contexto de la teor a de la medida, la terna (, A, P ) corresponde a un espacio de medida donde la medida P asigna el valor uno al espacio total. 3. Si queremos formalizar la idea intuitiva de la probabilidad como l mite de la frecuencia relativa es importante observar que la frecuencia tiene la propiedad de -aditividad . En principio veamos que deber a ser aditiva Sean A1 , A2 , ..., Ak eventos disjuntos tomados de a dos, esto es, Ai Aj = si i = j entonces
k
fn
i=1
Ai
Cn
k i=1 Ai
k i=1 Cn (Ai )
=
i=1
fn (Ai ) .
La -aditividad ahora se deduce pasando al l mite. Ejemplos de espacios de probabilidad. Ejemplo 1.5 Sea un conjunto, A = P (). Dado x0 , denimos: A 1 si x0 A P (A) = 0 si x0 / A.
a concentrada en x0 o bien P se denota x0 y se dice que la probabilidad est que el u nico punto de probabilidad positiva es x0 . Ejemplo 1.6 Sea = {x1 , x2 , ..., xn , ...} cualquier conjunto numerable, A = P (X ), y sea ai 0, i = 1, 2, ..., una sucesi on tal que
ai = 1.
i=1
Denimos para todo A P (A) =

{i: xi A}
ai
En este caso P dene una probabilidad y est a completamente determinada por las probabilidades ai asignadas a cada elemento xi .
12 Propiedades de la funci on de probabilidad. Propiedad 1.7 P () = 0.
V ctor J. Yohai
Demostraci on. Es inmediata, pues si tomamos Ai = , para todo i N entonces por la -aditividad

0 P ( ) = P
Ai
i=1
=
i=1
P (Ai ) =
i=1
P () 1,
y esto s olo se cumple en el caso de que P () = 0. 2

n n i=1 P
Propiedad 1.8 Sean A1 , ...., An eventos disjuntos. Luego P (

i=1
Ai ) =
(Ai ) .
Demostraci on. Tomemos la sucesi on Bj = Aj si j = 1, ..., n y Bj = si j > n. Aplicando la propiedad de aditividad se obtiene el resultado. 2 Propiedad 1.9 Si A A entonces P (Ac ) = 1 P (A) . Demostraci on. Esto sale teniendo en cuenta que A y Ac son disjuntos y 1 = P () = P (A Ac ) = P (A) + P (Ac ) . 2 Propiedad 1.10 Consideremos dos eventos A1 y A2 . Entonces P (A1 A2 ) = P (A1 ) P (A1 A2 ) . Demostraci on. Como A1 = (A1 A2 ) (A1 A2 ) se obtiene P (A1 ) = P (A1 A2 ) + P (A1 A2 ), y de ah sigue el resultado. 2 Proposici on 1.1 Si A1 , A2 son eventos y A2 A1 entonces P (A1 A2 ) = P (A1 ) P (A2 ). y adem as
13
P (A2 ) P (A1 ). Demostraci on. Por la Propiedad 1.1 y el hecho de que A1 A2 = A2 tenemos P (A1 A2 ) = P (A1 ) P (A1 A2 ) = P (A1 ) P (A2 ) Adem as de aqu resulta P (A1 ) = P (A2 ) + P (A1 A2 ) P (A2 ). 2
Propiedad 1.11 Si A1 , A2 son eventos entonces P (A1 A2 ) = P (A1 ) + P (A2 ) P (A1 A2 ) . Demostraci on. Escribimos A1 A2 como la siguiente uni on disjunta A1 A2 = (A1 A2 ) (A1 A2 ) (A2 A1 ) . Entonces usando la Propiedad 1.10 resulta P (A1 A2 ) = P (A1 A2 ) + P (A1 A2 ) + P (A2 A1 ) = + P (A2 ) P (A1 A2 ) = P (A1 ) P (A1 A2 ) + P (A1 A2 ) = P (A1 ) + P (A2 ) P (A1 A2 ) . 2
Propiedad 1.12 Sean Ai A, i = 1, 2, ..., k. Entonces

k k
P
i=1
Ai
P (Ai ) .
i=1
Demostraci on. De la Propiedad 1.11 se obtiene P (A1 A2 ) = P (A1 ) + P (A2 ) P (A1 A2 ) , y el resultado vale para k = 2. El resto de la demostraci on se hace por inducci on y se deja como ejercicio.
14
V ctor J. Yohai
n1 An .
Propiedad 1.13 ( -subaditividad) Sea (An )n1 A y A =
Entonces
P (A) Demostraci on. Denamos B0 = , B1 = A1 ,
P (An ).
n=1
B2 = A2 A1 ,
B3 = A3 (A1 A1 ), . . .
n1
Bn = An
Ai .
i=1
Luego es inmediato que los Bi son disjuntos dos a dos y
A=
Bn .
n=1
Por la aditividad y el hecho de que Bn An , resulta P (Bn ) P (An ) y entonces

P (A) =
n=1
P (Bn )
P (An ) . 2
n=1
Propiedad 1.14 Sea (An )n1 una sucesi on de eventos tales que An An+1 para todo n y
A=
i=1
Ai .
Luego P (A) = l m P (An ).

n +
Demostraci on. Como la sucesi on es creciente entonces podemos transformar la uni on en una uni on disjunta deniendo: B0 = A0 = , B1 = A1 A0 , B2 = A2 A1 , ...., Bk = Ak Ak=1 , ... Luego
A=
Bk ,
k =1
15
y por lo tanto usando la aditividad y la Propiedad 1.1 se tiene

n n
P (A) =
k =1
P (Bk ) = l m
n
P (Bk ) = l m
k =1 n k =1
k =1
P (Ak Ak1 )
= l m
k =1
P (Ak )
P (Ak1 )
= l m P (An ) . 2
n
Propiedad 1.15 Sea (An )n1 una sucesi on de eventos tal que An An+1 para todo n y
A=
i=1
Ai .
Entonces P (A) = l m P (An ).

n +
Demostraci on. Sea Bn = Ac on creciente de n . Luego (Bn )n1 es una sucesi eventos y Ac =
Bi . Luego por la propiedad anterior tenemos

i=1
1 P (A) = P (Ac )
n +
= l m P (Bn )
n +
= l m (1 P (An )) = 1 l m P (An ),
n +
de donde se obtiene el resultado deseado. 2 Denici on 1.3 Se llama l mite superior de una sucesi on de conjuntos (An )n1 al conjunto

A=
k =1 n=k
An ,
y l mite inferior de la sucesi on al conjunto

A=
k =1 n=k
An .
Adem as
c
(A) = =
k 1 n=k
c Ac n =A .
An =
An
k 1 n=k
k 1 n=k
16
V ctor J. Yohai
Es decir el complemento del l mite inferior de la sucesi on (An )n1 es el l mite superior de la sucesi on (Ac ) . n n1 Propiedad 1.16 (Caracterizaci on de los l mites superiores e inferiores) (i) Sea Luego A = A . (ii) Sea A = { : est a en todos los An salvo en un n umero nito}. Luego A = A . (iii) A A Demostraci on. (i) Supongamos que A entonces para todo k N se tiene que
n=k
A = { : est a en innitos conjuntos An }.
An de manera que A. Rec procamente si / A entonces se
encuentraen a lo sumo un n umero nito de conjuntos An . Supongamos ltimo en el que est a, es decir si n > n0 entonces / An que An0 sea el u para todo n > n0 de manera que
/ y entonces / A.
An
n=n0 +1
(ii) Consideremos la sucesi on de los complementos, es decir (Ac n )n1 . Por la observaci on hecha anteriormente y el punto (i) se tiene que A = (Ac )c
c = { : pertence a innitos Ac n}
= { : no pertenece a innitos Ac n}
= { : pertenece a lo sumo a un n umero nito de conjuntos Ac n} = { : pertenece a todos a todos los An salvo un n umero nito} = A .
(iii) Se obtiene del hecho de que claramente A A . 2
17
En lo que sigue l mn an y l mn an denotar an respectivamente el l mite superior e inferior de la sucesi on an . Propiedad 1.17 Dada una sucesi on de eventos (An )n1 , se tiene mn P (An ) . (i) P A l (ii) P (A) l mn P (An ) . (iii) Se dice que existe el l mite de la sucesi on (An )n1 de conjuntos sii A = A . En tal caso se tiene P A = P (A) = l m P (An ) .
n
Demostraci on. (i) Como lo hicimos anteriormente consideremos
A=
k =1 ik
Ai
y escribamos Bk =
ik
Ai .
Entonces la sucesi on (Bn )n1 es decreciente y A=

k 1
Bk .
Luego, como para todo i k se tiene Ai Bk , podemos escribir P (Bk ) sup{P (Ai )}
ik
y entonces
k 1
inf {P (Bk )} inf sup{P (Ai )}

k 1 ik
Luego, como P (Bk ) es decreciente, se tiene P A = l m P (Bk ) = inf {P (Bk )}

k k 1
inf sup{P (Ai )} = l mi P (Ai ) .

k 1 ik
(ii) Se deja como ejercicio.
18 (iii) De (i) y (ii) tenemos que
V ctor J. Yohai
P (A) l mn P (An ) l mn P (An ) P A . Luego si A = A, resulta P (A) = P A y entonces P (A) = l mn P (An ) = l mn P (An ) = P A . Luego P (A) = P A = l mn P (An ) . 2
1.3.
Algebra generada por una familia de conjuntos.
En general no se puede tomar como algebra A a P () para denir el espacio de probabilidad. Esto siempre es posible si es a lo sumo numerable. El siguiente teorema muestra que dada una familia de subconjuntos de , existe una menor algebra que contiene a . Teorema 1.1 Dado un conjunto y una familia de subconjuntos de , existe una a lgebra A sobre tal que (i) A y (ii) Si A es otra a lgebra sobre tal que A, entonces A A. Se dice entonces que A es la a lgebra sobre generada por . Demostraci on. Denotaremos a la familia de todas las algebras sobre que contienen a por R . Entonces R = {A : A es una algebra sobre y A }.
Claramente R es no vac a, ya que P () R. Denamos ahora A =

AR
A.
Primero mostraremos que A es una algebra sobre . Veamos que A .En efecto, A, para toda A R, luego A . Sea ahora A A , mostraremos que Ac A . En efecto, como A A, para toda A R, se tiene Ac A, para toda A R. Luego Ac A . Sea una sucesi on numerable de eventos A1 , A2 , ...., An , ... que est an en . Dado A R, se tiene A A para todo A A A . Mostraremos que i i i=1 en. Luego i, y luego i=1 Ai A, para todo A R y i=1 Ai A tambi entonces
i=1
Ai
AR
A = A .
Esto prueba que es una - algebra. Por otro lado si A es una algebra y A , entonces A R, y esto implica que A A. 2
1.3. Algebra generada por una familia de conjuntos.
19
algebra de Borel sobre los reales. Si tenemos un espacio de probabilidad cuyo espacio muestral es el conjunto de n umeros reales R, parece natural que la algebra contenga los conjuntos de la forma (, x].Esto permitir a calcular la probabilidad de que el resultado del experimento aleatorio correspondiente sea menor o igual que x. Esto motiva la siguiente denici on. Denici on 1.4 La algebra de Borel sobre R, que denotaremos por B , es la a lgebra sobre R generada por los conjuntos de la forma Ax = (, x], para todo x R. Un conjunto B B se denomina boreliano. Propiedades de los borelianos. Propiedad 1.18 Todo intervalo (a, b] es un boreliano. Demostraci on. Como (a, b] = (, b] (, a], por la Propiedad 1.5 (a, b] es un boreliano 2 Propiedad 1.19 Dado x R, {x} B . Demostraci on. Para esto se observa que para todo n N In = (x Puesto que x resulta que {x} = 1 , x] B . n
1 x n In B ,
n=1
y el resultado se obtiene por las propiedades 1.18 y 1.12. 2 De las propiedades 1.18 y 1.19, se deducen inmediatamente las propiedades 1.20-1.22 Propiedad 1.20 (a, b) = (a, b] {b} B .
20 Propiedad 1.21 [a, b] = {a} (a, b] B . Propiedad 1.22 [a, b) = {a} (a, b) B . Propiedad 1.23 Todo abierto es un boreliano
V ctor J. Yohai
Demostraci on. Sea G R un abierto. Para todo x G existe un intervalo (ax , bx ) tal que x (ax , bx ) G con ax y bx racionales. Por lo tanto G puede escribirse como la uni on numerable de borelianos G=
xG
(ax , bx ),
y por lo tanto G B . 2 Propiedad 1.24 Todo cerrado es un boreliano Demostraci on. Sea F un cerrado. Entonces F c = G es un abierto y por Propiedad 1.23 se tiene que F c B . Ahora por ser algebra se obtiene que F = (F c )c B . 2 a lgebra de Borel en Rn . Denici on 1.5 La a lgebra de Borel sobre Rn es la a lgebra sobre Rn generada por los conjuntos de la forma A(x1 ,x2 ,...,xn) = (, x1 ] (, x2 ] ... (, xn ], donde (x1 , ..., xn ) es una n-upla de n umeros reales. Ser a denotada por B n . Observaci on. De manera an aloga al caso de la algebra de Borel sobre R, se pueden mostrar las propiedades 1.25-1.26 cuyas demostraciones se dejan como ejercicio. Propiedad 1.25 Cualquier rect angulo en Rn de la forma (a1 , b1 ] (a2 , b2 ] (an , bn ] (a1 , b1 ) (a2 , b2 ) (an , bn ) [a1 , b1 ) [a2 , b2 ) [an , bn ) es un boreliano. Propiedad 1.26 Todo abierto y todo cerrado en Rn es un boreliano.
1.4. Espacios de probabilidad nitos o numerables.
21
1.4.
Espacios de probabilidad nitos o numerables.
Denici on 1.6 Sea (, A, P ) un espacio de probabilidad con a lo sumo numerable. En este caso podemos tomar como A el conjunto de partes de (P ()). Denimos la funci on de densidad p, asociada a la probabilidad P por p : [0, 1] de la siguiente manera p ( ) = P ({ }) . Propiedades de la funci on de densidad Propiedad 1.27 La funci on de densidad determina la funci on de probabilidad. Para todo A se tiene P (A) =
w A
p ( ) .
Demostraci on. Si A entonces A se puede escribir como la siguiente uni on disjunta A= { },

A
donde cada conjunto { } A. Luego P (A) =

A
P ({ }) =
p ( ) . 2
A
Propiedad 1.28 Si es nito o numerable se cumple que p ( ) = 1.

Demostraci on. En efecto por la Propiedad 1.27 1 = P () =

w
p ( ) . 2
Denici on 1.7 Decimos que un espacio nito = {1 , .., n } es equiprobable sii p (i ) = p (j ) , i, j.
22
V ctor J. Yohai
Observaci on. Un espacio de probabilidad innito numerable no puede ser equiprobable. En efecto, supongamos que = {1 , 2 , ..., n , ...}, y p( ) = c. Luego por la Propiedad 1.27 se tendr a

1=
i=1
p(i ) =
i=1 i=1 c
c,
lo que es un absurdo puesto que
= o 0 seg un c > 0 o c = 0.
Propiedad 1.29 Si es un espacio de probabilidad equiprobable entonces, la probabilidad de cualquier evento A se calcula por P (A) = donde #A denota el cardinal de A. Demostraci on. Para ver esto supongamos que para todo se tenga p ( ) = c, entonces 1=

#A , #
p( ) =

c=c

1 = c #,
y luego, c= Adem as P (A) =

w A
1 . # #A . #
p( ) =
w A
c=c
w A
1 = c (#A) =
Ejemplo 1.7 Hallar la probabilidad de que dado un conjunto de n personas, dos personas cumplan a nos el mismo d a. Se supondr a que todos los a nos tienen 365 d as y que las probabilidades de nacimiento en cualquier fecha son iguales. Supongamos que a cada persona se le asigna un n umero entre 1 y n y sea xi el d a del cumplea nos de la persona i. Luego 1 xi 365, y podemos considerar el siguiente espacio muestral = {(x1 , x2 , ..., xn ) : xi N : 1 xi 365} . donde N es el conjunto de n umeros naturales.
1.5. Probabilidad condicional.
23
En vez de calcular la probabilidad de que dos personas cumplan el mismo d a, calculemos la del complemento, es decir la probabilidad de que todas cumplan a nos en d as distintos Ac = {(x1 , x2 , ..., xn ) : 1 xi 365, xi = xj i = j } . Se tiene # = 365n Adem as #Ac = 365 n!. n
La importancia de la combinatoria se ve en este punto; es necesario contar con principios de enumeraci on. En este caso, primero seleccionamos los n dias distintos entre los 365 d as posibles y luego por cada muestra se obtienen n! formas distintas de distribuirlos entre n personas. Las probabilidades que se obtienen usando est a formula pueden contradecir la intuici on. Por ejemplo, si n = 20, P (A) 0,41, si n = 30, P (A) 0,76 y si n = 40, P (A) 0,89.
1.5.
Probabilidad condicional.
Sea (, A, P ) un espacio de probabilidad, y consideremos dos eventos A, B A, y supongamos que P (B ) = 0. Queremos estudiar como cambia la probabilidad de ocurrencia de A cuando se conoce que otro evento B ha ocurrido. En este caso habr a que redenir el espacio muestral considerando solamente los elementos de B como posibles resultados. Por ejemplo, consideremos el experimento de tirar un dado y pregunt emosnos acerca de la probabilidad de que salga un seis, sabiendo que el dado escogido es un n umero par. En este caso la probabilidad no es 1/6, puesto que tenemos la certeza de que el resultado est a en el conjunto {2, 4, 6} Como cada uno de estos tres resultados tienen id entica probabilidad, como se ver a, la probabilidad de obtener el 6 sabiendo que el resultado es par ser a 1/3. Vamos a tratar de determinar cual debe ser la probabilidad de un evento A condicional a que se conoce que B ha ocurrido, utilizando interpretaci on heur stica de la probabilidad como limite de la frecuencia con la cual un evento ocurre. Para esto supongamos que se han hecho n repeticiones independientes del experimento y denotemos con nB : el n umero de veces en el que ocurre el resultado B, nAB : el n umero de veces en el que ocurre el resultado A B.
24
V ctor J. Yohai
Heur sticamente la probabilidad condicional de A dado B,ser a el l mite de la frecuencia con la cual A ocurre en los experimentos donde B ocurre, es decir el l mite de nAB . nB Luego, la probabilidad de que ocurra A condicional B ser a nAB = l m n nB n l m
nAB n nB n
B l mn nA P (A B ) n . nB = l mn n P (B )
Esto justica la siguiente denici on. Denici on 1.8 Sea (, A, P ) un espacio de probabilidad A, B A tal que P (B ) > 0. Se dene la probabilidad condicional de A dado B por P (A|B ) = P (A B ) . P (B )
El siguiente teorema muestra que para cada B jo, P (.|B ) es una funci on de probabilidad. Teorema 1.2 Fijado el evento B , tal que P (B ) > 0, denamos P : A [0, 1] por P (A) = P (A|B ) para todo A A . Luego P es una probabilidad. Demostraci on. (i) P () = P (|B ) = P (B ) P ( B ) = =1 P (B ) P (B )
(ii) Sea (An )n1 , una sucesi on de eventos disjuntos dos a dos, es decir si i = j, entonces Ai Aj = . Luego

P An |B An B =
An
n=1
An
n=1
=P P =
n=1
P (B )
n=1 P
n=1
P (B )
=
n=1
(An B ) = P (B )
=
n=1
P (An B ) = P (B )
P (An |B ) =
P (An ) . 2
n=1
1.6. Independencia de eventos.
25
1.6.
Independencia de eventos.
Denici on 1.9 Sea (, A, P ) un espacio de probabilidad y consideremos A, B A. Se dice que A y B son independientes si P (A B ) = P (A) P (B ). Propiedad 1.30 (i) Si P (B ) > 0, entonces A y B son independientes si y s olo si P (A|B ) = P (A). (ii) Si P (B ) = 0, dado cualquier A A se tiene que A y B son independientes. Demostraci on. La demostraci on es inmediata. 2 La propiedad de independencia se generaliza para un n umero nito de eventos.
Denici on 1.10 Se dice que los eventos A1 , ..., Ak son independientes sii para cualquier sucesi on de sub ndices (i1 , ...ih ), h k, con ir = is si r = s se tiene que
h h
j =1
Aij =
P Aij .
j =1
Observaciones. 1. Para que tres eventos A1 , A2 y A3 sean independientes se deben cumplir las siguientes igualdades P (A1 A2 ) = P (A1 ) P (A2 )
P (A1 A3 ) = P (A1 ) P (A3 )
P (A1 A2 A3 ) = P (A1 ) P (A2 ) P (A3 ) . 2. No alcanza la independencia tomados de a dos. Como ejemplo tomemos = {1 , 2 , 3 , 4 } espacio de probabilidad equiprobable, es decir 1 . Entonces los conjuntos P ({i }) = 4 A1 = {1 , 2 } A2 = {1 , 3 }
P (A2 A3 ) = P (A2 ) P (A3 )
A3 = {2 , 3 }
26
V ctor J. Yohai
son independientes tomados de a dos pero no en forma conjunta. M as precisamente, se cumple que 1 2 Ai Aj = {k } para alg un k j : P (Aj ) = y luego P (Ai Aj ) = Pero A1 A2 A3 = , y por lo tanto 1 0 = P (A1 A2 A3 ) = P (A1 ) P (A2 ) P (A3 ) = . 8 1 1 1 = = P (Ai ) P (Aj ) . 4 2 2
Teorema 1.3 A1 , ..., Ak son eventos independientes si y s olo si para cualquier sucesi on (i1 , ...ih ), h k, con ir = is si r = s y tal que
h
se tiene que
j =2
Aij > 0,
P Ai1
h j =2
Aij = P (Ai1 ) .
(1.1)
Demostraci on. Supongamos primero que A1 , ..., Ak son independientes y demostraremos que se cumple (1.1). Sean Ai1 , Ai2 , ..., Aih tales que ir = is si r = s y P
h j =2 Aij
> 0. Entonces
h j =2
P Ai1
Aij =
P P
h j =1 Aij h j =2 Aij
h j =1 P h j =2 P
Aij Aij
= P (Ai1 ) .
Supongamos ahora que A1 , ..., Ak son eventos que satisfacen la propiedad del enunciado. Queremos probar que entonces son independientes, es decir que
h h
j =1
Aij =
P Aij .
(1.2)
j =1
27
Lo probaremos por inducci on sobre h. Comenzaremos con h = 2. Dados Ai1 y Ai2 con i1 = i2 , puede suceder que (a) P (Ai2 ) = 0 o que (b) P (Ai2 ) > 0. En el caso (a) se tiene que como Ai1 Ai2 Ai2 , resulta P (Ai1 Ai2 ) = 0 y luego P (Ai1 Ai2 ) = P (Ai1 )P (Ai2 ) (1.3) En el caso (b) como vale (1.1) se tiene P (Ai1 |Ai2 ) = y luego tambi en vale P (Ai1 Ai2 ) = 0 = P (Ai1 )P (Ai2 ). Esto muestra que (1.2) vale para h = 2. Supongamos ahora que (1.2) vale para h y probemos que tambi en vale para h + 1. Elegimos Ai1 , Ai2 , ..., Aih , Aih+1 eventos. Consideramos dos casos
h+1 on que (a) Supongamos que P j =2 Aij = 0. En tal caso por la suposici (1.2) vale para h conjuntos se tiene que h+1 j =2 h+1 j =2
P (Ai1 Ai2 ) = P (Ai1 ) P (Ai2 )
Luego
0=P
Aij =
P Aij .
h+1
P Aij = 0,
j =1
(1.4)
y como
h+1 j =1 Aij
h+1 j =2 Aij
De (1.4) y (1.5) obtenemos que

h+1 j =1
se tendr a que
h+1 j =1
Aij = 0.
h+1
(1.5)
Aij =
P Aij .
j =1
h+1 (b) Supongamos ahora que P > 0. Entonces como estamos j =2 Aij suponiendo que (1.1) vale se tiene h+1 j =2
P Ai1
Aij = P (Ai1 ) ,
28 y luego P P Equivalentemente P
h+1 j =1 h+1 j =1 Aij h+1 j =2 Aij
V ctor J. Yohai
= P (Ai1 ) .
y como por la hip oteisis inductiva (1.2) vale para h, se deduce

h+1 j =1 h+1 j =2 h+1 j =1
Aij = P (Ai1 ) P
h+1 j =2
Aij ,
Aij = P (Ai1 )
P Aij
P Aij . 2
Denici on 1.11 Sea I un conjunto nito o numerable, una sucesi on {Ai }iI se dice una partici on de sii 1. Ai =
iI
2.
Si i = j entonces Ai Aj =
Teorema 1.4 (Teorema de la Probabilidad Total) Sea (, A, P ) un espacio de probabilidad, {An }nI A una partici on de con P (Ai ) > 0, para todo i I y B A tal que P (B ) > 0. Entonces P (B ) =
iI
P (Ai )P (B |Ai )
Demostraci on. Como B se puede escribir como la siguiente uni on disjunta B=

iI
(B Ai ) ,
entonces como P (B |Ai ) = P (B Ai )/P (Ai ), se tiene P (B Ai ) = P (Ai )P (B |Ai ) y por lo tanto P (B ) = P (Ai )P (B |Ai ) . 2
iI
29
Teorema 1.5 (Bayes) Sea (, A, P ) un espacio de probabilidad y {Ai }1ik A una partici on de con P (Ai ) > 0, 1 i k. Sea B A con P (B ) > 0. Supongamos conocidas a priori las probabilidades P (B |Ai ) y P (Ai ) para todo i. Entonces P (Ai |B ) =
k j =1 P
P (Ai ) P (B |Ai )
(Aj ) P (B |Aj )
Demostraci on. Usando el teorema de la probabilidad total teniendo en cuenta que {Aj }1j k es una partici on y aplicando la denici on de probabilidad condicional y el Teorema 1.4 se obtiene P (Ai |B ) = = P (Ai B ) P (B ) P (Ai ) P (B |Ai )
k j =1 P
(Aj ) P (B |Aj )
.2
Ejemplo de aplicaci on del Teorema de Bayes. Consideremos un test que detecta pacientes enfermos de un tipo espec co de enfermedad. La detecci on corresponde a que el test de positivo. El resultado de un test negativo se interpreta como no detecci on de enfermedad. Sea A1 : el evento el paciente seleccionado no tiene la enferemedad A2 : el evento el paciente seleccionado tiene la enfermedad Entonces {A1 , A2 } constituye una partici on del espacio de probabilidad Consideremos adem as T+ : el evento el test da positivo T : el evento el test da negativo Supongamos conocidas las probabilidades de ser sano o enfermo antes de hacer el test (probabilidades apriori). P (A1 ) = 0,99; P (A2 ) = 0,01. Ademas supongamos que P (T+ |A1 ) = 0,01; P (T+ |A2 ) = 0,99. Observemos que para un test perfecto se pedir a P (T+ |A1 ) = 0; P (T+ |A2 ) = 1. Es decir, estamos suponiendo que el test no es perfecto. Calculemos la probabilidad de que dado que el test detecta enfermedad el paciente sea efectivamente enfermo (esta probabilidad se denomina probabilidad a posteriori). De acuerdo al Teorema de Bayes se tiene
30
V ctor J. Yohai
P (A2 |T+ ) = y
P (A2 ) P (T+ |A2 ) = 0,5. P (A1 ) P (T+ |A1 ) + P (A2 ) P (T+ |A2 )
P (A1 |T+ ) = 1 P (A2 |T+ ) = 0,5 La conclusi on es que si el test da positivo, no hay una evidencia fuerte de que el paciente est e enfermo o sano ya que ambas probabilidades condicionales son iguales a 0.50. Luego un test como el descripto no es u til para detectar la enfermedad. Si logramos tener P (T+ |A1 ) = 0,001; P (T+ |A2 ) = 0,999 la situaci on cambia; en tal caso resulta P (A2 |T+ ) = 0,91, que es m as aceptable que la anterior.
Cap tulo 2
Variable Aleatoria.
2.1. Concepto de variable aleatoria.
En muchos casos interesa conocer solamente alguna caracter stica num erica del resultado del experimento aleatorio. Demos dos ejemplos: 1. El experimento consiste en tirar dos dados y los posibles resultados son = { (x, y ) : x I6 , y I6 } donde Ik = {1, 2, ..., k} y para cada resultado (x, y ) interesa solo la suma de los dados x + y. 2. El experimento consiste en un tiro al blanco y el conjunto de los resultados es = { (x, y ) : x R, y R}, x e y son la abcisa y ordenada del punto donde peg o el tir o tomando origen (0, 0) el punto correspondiente al blanco. En este ejemplo solo interesa la distancia al blanco, es decir (x2 + y 2 )1/2
Denici on 2.1 Sea (, A, P ) un espacio de probabilidad. Una variable aleatoria es una funci on X : R tal que para todo x R X 1 ((, x]) A. Observaciones. 1. La condicion (2.1) permite calcular P ({ : X ( ) x}) = P (X 1 ((, x])). 2. El concepto de variable aleatoria es esencialmente el mismo que el de funci on medible en teor a de la medida. Si (, A, ) es un espacio de medida f : A R se dice medible sii para todo x vale que f 1 ((, x])) A. 31 (2.1)
32
V ctor J. Yohai
3. Si A es el conjunto de partes de , como es usual cuando es nito o numerable, la condici on (2.1) se cumple trivialmente. Teorema 2.1 Sea X una variable aleatoria sobre un espacio de probabilidad (, A, P ). Entonces vale que X 1 (B ) A para todo B B . (B es el conjunto de borelianos en R). Demostraci on. Como por denici on X 1 ((, x]) A, basta con vericar que = {A R : X 1 (A) A} es una algebra. Si esto es cierto se tendr a que B , puesto que la algebra de Borel es la m as chica que contiene a las semirectas. Veamos que esto es cierto. (a) R pues
(b) Si A , entonces Ac . Como X 1 (A) A, se tendr a que X 1 (Ac ) = X 1 (A)

c
(c) Sea {An }n . Luego X 1 (An ) A para todo n y como A es un algebra se tendr a que
n
Luego
(a), (b) y (c) prueban que es una - algebra. 2
2.2.
Espacio de probabilidad asociado a una variable aleatoria.
Sea un espacio de probabilidad (, A, P ) y sea X : R una variable aleatoria. Asociada a esta variable podemos denir un nuevo espacio de probabilidad (R, B , P ) donde para todo B B se dene PX (B ) = P X 1 (B ) .
Obs ervese que P X 1 (B ) est a denido ya que X 1 (B ) est a en A. Vamos a mostrar que PX es efectivamente una probabilidad. La funci on PX se denomina probabilidad inducida por X o distribuci on de X.

X 1 (R) = A. A. X 1 (An ) A. X 1 An =
n n
X 1 (An ) A.
2.2. Espacio de probabilidad asociado a una variable aleatoria.
33
Si a uno le interesa s olo el resultado de la variable aleatoria, esto permite trabajar en un espacio de probabilidad donde el espacio muestral es R y la algebra es B , la algebra de Borel. Teorema 2.2 PX es efectivamente una funci on de probabilidad. Demostraci on. (a)
on disjunta dos a dos, entonces {X 1 (Bi )}i (b) Si {Bi }i B es una sucesi tambi en lo es. Luego PX Bi =P = X 1 Bi =P X 1 (Bi ) =
Deniremos el concepto de funci on medible

PX (R) = P X 1 (R) = P () = 1.
i i i
P X
( Bi ) =
PX ((Bi )) . 2
Denici on 2.2 Una funci on g : R R, se dice medible Borel sii para todo xR g1 ((, x]) B . Observaciones. 1. Trabajaremos en este curso con funciones medibles Borel, de manera que a veces nos referiremos a ellas simplemente con el nombre de medibles. 2. Si B B resultar a g1 (B ) B . Este resultado se demuestra como el an alogo para variables aleatorias. 3. Considerando un espacio de probabilidad con = R y A = B es inmediato que g es medible Borel es equivalente a que g es una variable aleatoria. Ejercicio. Demostrar los siguientes resultados: Propiedad 2.1 Si g : R R es continua entonces g es medible.
34
V ctor J. Yohai
Propiedad 2.2 Si g : R R es mon otona entonces g es medible. Propiedad 2.3 Si B es boreliano, su funci on caracter stica IB es medible. Propiedad 2.4 Sea {fn }n1 es una sucesi on de funciones medibles. Entonces (i) Las siguientes funciones son medibles
n
f (x) = inf {fn (x)}, f (x) = sup{fn (x)}.

n
1.
Tambi en son medibles
f (x) = l mn fn (x) , f (x) = l mn fn (x) . En particular si existe el l mite puntual f (x) = l m fn (x)
n
es medible. El siguiente teorema muestra que la composici on de una variable aleatoria con una funci on medible es una variable aleatoria. Teorema 2.3 Si g : R R es medible y X : R es una variable aleatoria, entonces g (X ) : R es tambi en una variable aleatoria. Demostraci on. Basta con observar que dado B B [g (X )]1 (B ) = X 1 g1 (B ) Como C = g1 (B ) B , resulta que tambi en X 1 g1 (B ) B . 2 Como consecuencia de este teorema si g es continua y X es una variable aleatoria resulta que g(X ) tambien una variable aleatoria. Por ejemplo si X es una variable aleatoria, entonces seno(X ) , coseno(X ) , aX , con a constante son variables aleatorias. Teorema 2.4 Si X, Y son variables aleatorias entonces (i) X + Y , X Y son variables aleatorias. (ii) Si P (Y = 0) = 1 entonces X/Y es una variable aleatoria. Demostraci on. Las demostraciones de (i) y (ii) se ver an m as adelante.
2.3. Funci on de distribuci on de una variable aleatoria.
35
2.3.
Funci on de distribuci on de una variable aleatoria.
Denici on 2.3 Sea X una variable aleatoria. Se dene la funci on de distribuci on asociada a X como la funci on FX : R [0, 1] dada por FX (x) = PX ((, x]) = P X 1 ((, x]) . Observaci on. Como veremos, la importancia de FX es que caracteriza la distribuci on de X. Es decir FX determina el valor de PX (B ) para todo BB Propiedades de la funci on de distribuci on. Las cuatro propiedades que probaremos en el Teorema 2.5 van a caracterizar a las funciones de distribuci on. Teorema 2.5 Sea X una variable aleatoria sobre (, A, P ) y sea FX su funci on de distribuci on. Entonces se tiene 1. 2. 3. 4. FX es mon otona no decreciente, es decir x1 < x2 implica FX (x1 ) FX (x2 ) . l mx FX (x) = 1. l mx FX (x) = 0. FX es continua a derecha en todo punto de R.
Demostraci on. 1. Si x < x entonces (, x] (, x ], y por lo tanto FX (x) = P ((, x]) P (, x ] = FX x . 2. En primer lugar veamos que
l m FX (n) = 1.
Consideremos la sucesi on mon otona creciente de conjuntos An = (, n], n N. Entonces

n
An = R.
36
Luego de acuerdo con la propiedad para sucesiones crecientes de eventos l m FX (n) = l m PX (An ) = PX
n n
Ahora veamos que efectivamente l mn FX (x) = 1, esto es para todo > 0 existe x0 > 0 tal que si x > x0 entonces se cumple |FX (x) 1| < . O equivalentemente 1 < FX (x) < 1 + . Por 0 FX (x) 1, se cumple que para cualquier > 0, FX (x) < + 1. Por lo tanto s olo tenemos que mostrar que existe x0 > 0 tal que si x > x0 entonces se cumple 1 < FX (x) . Sabemos que dado > 0 existe un n0 N tal que si n > n0 entonces 1 < FX (n) . Tomando x0 = n0 y teniendo en cuenta la monoton a de FX , se tendr a que si x > x0 entonces 1 < FX (n0 ) FX (x) . 3. Se demuestra de manera similar a (2). En primer lugar se prueba que
n
An
V ctor J. Yohai
= PX (R) = 1.
l m FX (n) = 0.
Luego se considera la sucesi on mon otona decreciente que converge a An = (, n], y se obtiene
n
l m PX (An ) = 0.
Luego se procede como en (2). 4. Queremos ver que FX es continua a derecha en cualquier punto x0 R. Es decir, dado > 0 existe > 0 tal que si 0 < x x0 < entonces FX (x0 ) FX (x) FX (x0 ) + .
37
La primer inecuaci on es v alida siempre ya que como x0 < x entonces FX (x0 ) FX (x0 ) FX (x). Basta entonces probar que FX (x) FX (x0 ) + . Consideremos la sucesi on decreciente de conjuntos An = que satisface
n
Entonces l m FX x0 + 1 n
Luego existe n0 N tal que si n > n0 entonces FX x0 + 1 n
, x0 + 1 n An = (, x0 ]. = l m PX (An ) = PX
n
An
= PX ((, x0 ]) = FX (x0 )
FX (x0 ) +
Si tomamos < 1/n0 , entonces para todo x tal que 0 < x x0 < se tendr a FX (x) FX (x0 + ) FX x0 + 1 n0 FX (x0 ) + .2
Dada una funci on g : R R, denotemos por l mxx0 g(x) el l mite de g(x) cuando x tiende a x0 por la izquierda. Entonces tenemos la siguiente propiedad de la funci on de distribuci on. Propiedad 2.5 Para todo x0 R se tiene que l m FX (x) = FX (x0 ) PX ({x0 }) .
x x0
Demostraci on. Sea a = FX (x0 ) PX ({x0 }) . Tenemos que mostrar que dado > 0 existe > 0 tal que si x0 < x < x0 , entonces a FX (x) a + . Tenemos que a = PX ((, x0 ]) PX ({x0 }) = PX ((, x0 )). (2.2)
38
V ctor J. Yohai
Como x0 < x < x0 implica que (, x] (, x0 ), se tendr a que FX (x) = PX ((, x]) PX ((, x0 )) = a. Luego, para probar (2.2) bastar a probar que x0 < x < x0 implica a FX (x). (2.3)
Como la sucesi on de intervalos An = (, x0 1/n] es creciente y

n
se tendr a
n
l m FX (x0 1/n) = l m PX (An ) = PX ((, x0 ))

n
= a.
An = (, x0 ),
Luego existe n0 tal que FX (x0 1/n0 ) a . Sea = 1/n0 y tomemos x0 < x < x0 . Por la monoton a de FX se tendr a a FX (x0 1/n0 ) = FX (x0 ) FX (x), y por lo tanto (2.3) se cumple. Esto prueba la Propiedad 2.5. 2 Propiedad 2.6 FX es continua a izquierda en x0 si y s olo si PX ({x0 }) = 0. Demostraci on. El resultado es inmediato a partir de la Propiedad 2.5. 2 Demostraci on. Teorema 2.6 Sea FX la funci on de distribuci on de una v.a X. Entonces el conjunto de puntos de discontinuidad de FX es a lo sumo numerable. Demostraci on. De acuerdo a la Propiedad 2.6, el conjunto de puntos de discontinuidad est a dado por A = {x : PX ({x}) > 0}. Para todo k N sea Ak = Entonces es f acil mostrar que
x : PX ({x}) >
1 k
Ak = A.
k =1
Luego para demostrar el teorema bastar a probar que para k N se tiene que #Ak < . En efecto, supongamos que para alg un k0 existen innitos puntos {xn }n1 tal que para todo n N se cumpla PX ({xn }) > Entonces si B=
i
se tendr a PX (B ) =
i=1
PX ({xi }) >
1 . k0 {xi }
i=1
39
1 = , k0
lo que es un absurdo. 2 Veremos ahora que toda funci on con las cuatro propiedades del Teorema 2.5 es una funci on de distribuci on para cierta variable aleatoria X (no u nica). Para eso se requiere el siguiente teorema que daremos sin demostraci on. Teorema 2.7 (de Extensi on) Sea F : R [0, 1] una funci on con las cuatro propiedades del Teorema 2.5 . Luego existe una u nica probabilidad P sobre (R, B ) tal que para todo x R se tiene P ((, x]) = F (x) . Este Teorema no se demostrar a en este curso ya que requiere teor a de la medida. La la probabilidad P se denomina extensi on de la funci on F. Veremos ahora algunas consecuencias del Teorema de Extensi on. Corolario 2.1 Si X y X son variables aleatorias tales que FX = FX . Entonces para todo B B se tendr a PX (B ) = PX (B ) . Demostraci on. Es consecuencia de la unicidad del teorema de extensi on. 2 Corolario 2.2 Si F satisface las cuatro propiedades del Teorema 2.5 , entonces existe una variable aleatoria X (no necesariamente u nica) tal que F = FX . Demostraci on. De acuerdo al teorema de extensi on se puede denir un espacio de probabilidad (R, B , P ) de forma tal que para todo x R F (x) = P ((, x]) . Ahora consideramos la funci on identidad X : R R denida como X (x) = x para todo x R. Entonces se cumple que FX (x) = PX ((, x]) = P (X 1 ((, x])) = P ((, x]) = F (x) . 2
40
V ctor J. Yohai
Cap tulo 3
Variables aleatorias discretas y continuas.

Existen varios tipos de variables aleatorias. En este curso s olo estudiaremos con detalle las discretas y las (absolutamente) continuas.
3.1.
Variables aleatorias discretas.
Denici on 3.1 Se dice que una v.a. X es discreta sii existe A R nito o numerable tal que PX (A) = 1. Observaci on. Ese conjunto A no tiene porque ser u nico. Si se le agrega un conjunto nito o numerable de probabilidad cero, seguir a teniendo esta propiedad. A continuaci on vamos a encontrar el conjunto m as chico que tiene esta propiedad. Denici on 3.2 Sea X una variable aleatoria discreta. Se dene el rango de X como el conjunto de los puntos de discontinuidad de la funci on de distribuci on, es decir por RX = {x R : PX ({x}) > 0}. Teorema 3.1 Sea X una variable aleatoria discreta. Luego (i) PX (RX ) = 1,(ii) Si PX (A) = 1, entonces RX A. Demostraci on. (i) Sea A un conjunto a lo sumo numerable tal que PX (A) = 1. Luego A se puede escribir como la siguiente uni on disjunta A = (A RX ) (A RX ) . 41
42 Entonces 1 = PX (A) = PX ((A RX ) (A RX )) Luego basta probar que PX (A RX ) = 0. = PX (A RX ) + PX (A RX ) .
V ctor J. Yohai
(3.1)
(3.2)
El conjunto A RX es nito o innito numerable. Adem as para todo x A RX se tiene que PX ({x}) = 0. Luego, como A RX = resulta que PX (A RX ) = PX ({x}) = 0.
xARX
{x},
xPX (ARX )
Luego hemos demostrado (3.2). Luego por (3.1) se tiene PX (A RX ) = 1, y luego tambi en P (RX ) = 1. (ii) Sea un conjunto A numerable tal que PX (A) = 1. Supongamos que exista x0 RX tal que x0 / A entonces consideramos A = A {x0 } y se obtiene que PX (A) = PX (A) + PX ({x0 }) > PX (A) = 1, lo cual es un absurdo. 2 La importancia de RX reside en el hecho de que para calcular la probabilidad de un evento B solo interesan los puntos de B que est an en RX . En este sentido se dice que la probabilidad se concentra en RX . Teorema 3.2 Para todo B B se tiene PX (B ) = PX (RX B ) . Demostraci on. Podemos escribir a B como la siguiente uni on disjunta B = (RX B ) (B RX ) , y tomando probabilidad en ambos miembros se obtiene PX (B ) = PX (RX B ) + PX (B RX ) . (3.3)
3.2. Ejemplos de distribuciones discretas.
43
Pero de manera que
B R X ( RX ) c , PX (B RX ) PX ((RX )c ) = 0.
Luego PX (B RX ) = 0 y el teorema resulta de (3.3). 2 Denici on 3.3 Sea X una variable aleatoria discreta. Se dene la funci on de densidad de probabilidad asociada a la variable X como la funci on pX : R [0, 1] tal que pX (x) = PX ({x}) . Tambi en pX se suele llamar funci on de probabilidad puntual de X o funci on de frecuencia de X. Observaci on. La funci on de densidad satisface pX (x) > 0 sii x RX y determina totalmente la probabilidad PX . Para ver esto probaremos el siguiente teorema. Teorema 3.3 Si B B entonces PX (B ) =
xB RX
pX (x) .
Demostraci on. B RX se puede escribir como la siguiente uni on disjunta B RX =

xB RX
{x}.
Como B RX es nito o numerable se tiene PX (B ) = PX (RX B ) = pX (x) 2.

xB RX
3.2.
3.2.1.
Ejemplos de distribuciones discretas.

Distribuci on Binomial.
Supongamos que se repite n veces un experimento que puede dar lugar a dos resultados: exito o fracaso. Supongamos que todos los experimentos son independientes y tienen la misma probabilidad de exito . Sea X la variable aleatoria denida como el n umero total de exitos. La distribuci on de esta variable se denomina binomial con n repeticiones y probabilidad de exito . La denotaremos con Bi (, n) .
44
V ctor J. Yohai
donde i = 1 indicar a que el i- esimo experimento result o exito y i = 0 que fue fracaso. Como es nito podemos tomar como algebra A el conjunto de partes de . La variable X se puede denir por
n
Para formalizar este experimento aleatorio tomaremos como espacio muestral = {(1 , 2 , ..., n ) : i {0, 1}} ,
X ((1 , 2 , ..., n )) =
i=1
i .
El rango de esta variable es RX = {0, 1, ..., n}. Obtendremos seguidamente su funci on de densidad. Sea 0 x n, el evento {X = x} est a dado por
n
Ax = {(1 , 2 , ..., n ) :
i=1
i = x}.
En primer lugar determinaremos la cantidad de elementos del conjunto Ax . Claramente un elemento de Ax queda determinado por los x lugares entre los n posibles donde aparecen los unos. De manera que # (Ax ) = n . x
Obs ervese que el espacio muestral no es equiprobable, por lo que la probabilidad no se determina con el esquema casos favorables / casos igualmente posibles. Sea el resultado de un experimento cualquiera. Si = 0 entonces P ( ) = 1 y si = 1 entonces P ( ) = . Esto puede escribirse de manera m as compacta de la siguiente manera
En primer lugar calculemos la probabilidad de un elemento arbitrario del espacio muestral. Teniendo en cuenta la independencia de los resultados de los distintos experimentos y que la ocurrencia de (1 , 2 , ..., n ) involucra una intersecci on de eventos se tiene que
n
P ((1 , 2 , ..., n )) = P = =
i=1 n
i=1
n
= i=1
P ( ) = (1 )1 .
i=1
{en el experimento i el resultado es i }
P (i )
i (1 )1i =
n
(1 )
i=1
45
Ahora si = (1 , 2 , ..., n ) Ax entonces n i=1 i = x y queda que la probabilidad de ocurrencia de cualquier elemento de Ax es pX ( ) = pX ((1 , 2 , ..., n )) = x (1 )nx En denitiva como Ax se puede escribir como la siguiente uni on disjunta Ax =
Ax
{ }
entonces pX ( ) = P ({ : X ( ) = x}) = P (A) =

Ax
P ({ }) =
= #(Ax ) x (1 )nx = n x (1 )nx . x
3.2.2.
Distribuci on Binomial Negativa (o Distribuci on de Pascal).
Consideremos, como en el caso de la distribuci on binomial, un experimento aleatorio cuyo resultado es exito con probabilidad y fracaso con probabilidad 1 . Supongamos que se hacen repeticiones independientes del experimento hasta que ocurran k exitos. Los par ametros de esta distribuci on son : probabilidad de exito y k : el n umero de exitos buscado. Llamaremos X a la variable aleatoria denida como el n umero de experimentos que hay que realizar para obtener los k exitos. La distribuci on de esta variable se denomina binomial negativa o de Pascal y se la denotar a con BN(, k). El rango de X es RX = {m N : m k} el cual es innito numerable. Consideremos la sucesi on variables aleatorias independientes Zi , i N denidas por Zi = 1 0 si el i- esimo experimento es exito si el i- esimo experimento es fracaso,
i
y denimos las variables Yi =

j =1
Zj ,
46
V ctor J. Yohai
Claramente Yi cuenta la cantidad de exitos que se alcanzaron en los primeros i experimentos. Luego su distribuci on es Bi(, i). El evento {X = x}, o sea el evento denido como la cantidad de experimentos necesarios para alcanzar k exitos es x, puede escribirse como una intersecci on de dos eventos {X = x} = {Yx1 = k 1} {Zk = 1} . Los dos eventos del lado derecho de la u ltima ecuaci on son independientes. Luego, usando el hecho que Yx1 tiene distribuci on Bi(, x 1) resulta para x k. pX (x) = P (X = x) = P (Yx1 = k 1) P (Zk = 1) = = x 1 k 1 (1 )xk k1 x1 k (1 )xk . k1
(3.4)
3.2.3.
Distribuci on Geom etrica.
Se llama distribuci on geom etica a la BN(, k), con k = 1. Luego es la distribuci on de la variable aleatoria X denida como el n umero de experimentos necesarios para alcanzar el primer exito. A esta distribuci on la denotarenos como G ( ). El rango de los valores posibles para la v.a. X es RX = {1, 2, ..., n, ...}. Reemplazando k = 1 en (3.4) se obtiene pX (x) = Podemos vericar que

x1 (1 )x1 = (1 )x1 . 0
pX (x) =
x=1
x=1
(1 )x1 = (1 )j =
x=1
(1 )x1
=
j =0
1 = 1. 1 (1 )
47
3.2.4.
Distribuci on Hipergeom etrica.
Consideremos una urna que contiene N bolillas de las cuales D son negras y N D blancas. Se extraen secuencialmente (una a una) n bolillas y se dene la variable X como el n umero total de bolilas negras extra das. Si cada bolilla obtenida es repuesta en la urna antes de obtener la siguiente, el resultado de cada extracci on es independiente de las anteriores, ya que esos resultados no modican la composici on de la urna. Luego en este caso X tendr a distribuci on Bi(, n) con = D/N, ya que este n umero es la probabilidad de sacar cada vez una bolilla negra. Si despu es de cada extracci on la bolilla obtenida no se repone, no hay independencia en los resultados de las extracciones y la distribuci on de X se denomina hipergeom etrica. La denotaremos por H(N, D, n). Estudiemos el rango de esta distribuci on. Por un lado podemos observar que X no puede ser un n umero negativo, ni tampoco mayor que n, la cantidad total de bolillas extraidas. Por lo tanto: 0 X n. (3.5)
Por otro lado, claramente a lo sumo se pueden extraer D negras, y luego X D. (3.6)
Adem as el n umero de total de bolillas blancas extraidas debe ser menor que N D. Por lo tanto tambi en tenemos n X N D. En denitiva de (3.5), (3.6) y (3.7) obtenemos RX = {x N : m ax (0, n N + D) x m n (n, D )}. Podemos pensar que las D bolillas negras est an numeradas de 1 a D, y las blancas de D + 1 a N. Luego si denotamos IN ={x N : 1 x N }, el resultado de extraer n bolillas ser a un subconjunto de IN con cardinal n. Luego, podemos tomar como espacio muestral = {A IN : #A = n}. Como todos estos subconjuntos tienen la misma probabilidad de ser extra dos, estaremos en un caso de resultados equiprobables. El cardinal de es N . n (3.7)
48
V ctor J. Yohai
El evento {X = x} corresponder a a aquellos subconjuntos A que contienen x bolillas negras y n x blancas. Para obtener el cardinal de {X = x} procedamos de la siguiente manera. Primero consideremos el n umero de subconjuntos de x bolas negras elegidas entre las D posibles. Este n umero es D . x Para cada uno de estos subconjuntos de x bolas negras hay N D nx formas de elegir las restantes n x blancas. Luego #{X = x} = y por lo tanto #Ax = pX (x) = # D x N D , nx
D x N D nx N n
Ejercicio. Sea n N jo y consideremos una sucesi on de distribuciones hipergeom etricas H (N, DN , n), N N tales que DN = . N N l m Entonces si pH on H (N, DN , n) N es la densidad de probabilidad de una distribuci B y p la de una Bi(, n), se tiene
N B l m pH N (x) = p (x) .
Es decir para N sucientemente grande la distribuci on H (N, DN , n) se puede aproximar por la distribuci on Bi(, n) . Heur sticamente, este resultado puede interpretarse como que debido a que n es peque no con respecto a N, la reposici on o no de las bolillas extra das no cambia substancialmente la composici on de la urna.
3.2.5.
Distribuci on de Poisson.
La distribuci on de Poisson se presenta cuando se considera el n umero de veces que ocuurre cierto evento en un intervalo determinado de tiempo. Por ejemplo (a) El n umero de clientes que entran en un determinado banco durante un d a.
3.3. Variables aleatorias absolutamente continuas.
49
(b) El n umero de accidentes automovil sticos que ocurren en la ciudad de Buenos Aires por mes. (c) El n umero total de llamadas telef onicas que llegan a una central tef onica entre las 15 hs. y 16 hs. de los d as h abiles. Para que las distribuciones de estas variables sean de Poisson, se requiere un conjunto de supuestos que trataremos con mayor detalle m as adelante (ver el cap tulo 12). Por ahora s olo indicamos su funci on de densidad. Para cada > 0, se dene la distribuci on de Poisson con par ametro que simbolizaremos por P () por la siguiente densidad de probabilidad pX (x) = e x para x N0 , x!
donde N0 es el conjunto de enteros no negativos. Es claro que

pX (x) =
x=0 x=0
x = e x!
x=0
x = e e = e0 = 1. x!
3.2.6.
Gr aco de la funci on de distribuci on asociada a una variable aleatoria discreta.
Supongamos que el rango de X sea nito RX = {x1 , ..., xn } y x1 < < xn . En tal caso la funci on de distribuci on FX es una funci on no decreciente escalonada, en los puntos de probabilidad positiva, xj , 0 j n. Sea
i
ci =
j =1
pX (xj ) ; 1 i n.
Luego se tendr a 0 si x (, x1 ) FX (x) c si x [xi , xi+1 ), 1 i n 1 i 1 si x [xn , ).
Ejercicio. Gracar la FX para una Bi(1/4,10).
3.3.
Variables aleatorias absolutamente continuas.
Denici on 3.4 Se dice que una variable aleatoria X es continua sii FX es continua para todo x R.
50
V ctor J. Yohai
Observaci on. Esto es equivalente a pedir que la probabilidad en todo punto es cero. Denici on 3.5 Se dice que FX es absolutamente continua sii existe una funci on fX : R R0 tal que fX es integrable Riemann sobre R y para todo x R se tiene x FX (x) = fX (t) dt.
La funci on fX se denomina funci on de densidad de la probabilidad asociada a X.
Propiedades de las Distribuciones Continuas. Propiedad 3.1 (a) Si fX es una funci on de densidad de probabilidad para una variable aleatoria X entonces
+
fX (t) dt = 1.
(b) Rec procamente si f 0 es integrable Riemann sobre R y cumple que

+
f (t) dt = 1,
entonces deniendo F (x) =
f (t) dt.
se obtiene una funci on que resulta ser la funci on de distribuci on de alguna variable aleatoria X. Demostraci on. (a) Resulta de
+ x
fX (t) dt = l m
x x
fX (t) dt
= l m FX (x) = 1. (b) Usando propiedades de las integrales de Riemann se puede mostrar que FX satisface las cuatro propiedades del Teorema 2.5 . Luego este resultado se obtiene del Corolario 2.2 del Teorema 2.7. 2
3.3. Variables aleatorias absolutamente continuas.
51
Propiedad 3.2 Supongamos que FX es absolutamente continua. Entonces

b
PX ((a, b]) =
a
fX (t) dt.
Demostraci on. PX ((a, b]) = PX ((, b]) PX ((, a]) = FX (b) FX (a)
b a
=
b
fX (t) dt
fX (t) dt
=
a
fX (t) dt. 2
Propiedad 3.3 Si FX es absolutamente continua entonces es continua. Demostraci on. Primero supondremos que fX es acotada en un entorno del punto x. Luego existe > 0 y M positivo tal que f (x) M para todo x [x , x] . Luego para todo tenemos PX ({x}) P ((x , x])
x
=
x
fX (t) dt
M. Como esto vale para todo , resulta PX ({x}) = 0. Luego FX es continua en x. Supongamos ahora que fX no es acotada en ning un entorno del punto x. Luego
x
FX (x) =
fX (t) dt
se dene por
x y
fX (t) dt = l m
y x y x
fX (t) dt
= l m FX (y ), y luego FX es continua en x.2 El nombre densidad nos recuerda la cantidad de masa por unidad de longitud, area o volumen seg un el caso. En este caso se puede decir que fX (x) indica la probabilidad por unidad de longitud en las cercan as del punto x. M as precisamente podemos enunciar el siguiente teorema.
52
V ctor J. Yohai
Teorema 3.4 Sea fX una funci on de densidad continua en x0 , entonces PX ([x0 h, x0 + h]) 1 = l m h0 h0 2h 2h l m Demostraci on. Sea Mh = m ax{fX (x) : x [x0 h; x0 + h]} y mh = m n{fX (x) : x [x0 h; x0 + h]}. Por continuidad fX (x0 ) = l m Mh = l m mh .
h0 h0 x 0 +h
fX (t) dt = fX (x0 ) .
x 0 h
(3.8)
Por otro lado valen las desigualdades

x 0 +h
2hmh
x 0 h
fX (t) dt 2hMh ,
y dividiendo por 2h en todos los miembros queda: mh 1 2h

x 0 +h x 0 h
fX (t) dt Mh .
Luego, teniendo en cuenta (3.8) y pasando al l mite cuando h 0 se obtiene fX (x0 ) l m PX ([x0 h; x0 + h]) f X ( x0 ) , h0 2h
de donde se deduce el Teorema. 2
Teorema 3.5 Sea fX una funci on de densidad continua en x0 y FX la distribuci on asociada. Entonces FX es derivable en x0 y FX (x0 ) = fX (x0 ) . Demostraci on. Se deduce de la anterior. 2 Comentario vinculado a la teor a de la medida. En este p arrafo el signo corresponde a la integral de Lebesgue. M as generalmente se denen distribuciones absolutamente continuas utilizando funciones Borel medibles. Sea f : R R0 una funci on Borel medible tal que
f (t) dt = 1.
(3.9)
3.4. Ejemplos de distribuciones continuas.
53
Entonces se puede denir una funci on de distribuci on absolutamente continua por

x
F (x) =
f (t) dt,
(3.10)
Se puede demostrar que la funci on F denida por (3.10) cumple las cuatro propiedades del Teorema 2.5 y es continua y derivable en casi todo punto con derivada f (x). Adem as si P es la correspondiente probabilidad sobre R asociada a F y garantizada por el Teorema de Extensi on, dado cualquier boreliano B se tendr a
P (B ) =
B
f (t) dt =
IB (t)f (t) dt,
donde IB (t) es la funci on indicadora del conjunto B.
3.4.
3.4.1.
Ejemplos de distribuciones continuas.

Distribuci on uniforme en un intervalo.
Consideremos dos n umeros reales a < b. Luego la distribuci on uniforme, denotada por U (a, b), tiene como densidad fX (x) = con k = 1 > 0. Claramente ba
b
k si x [a, b] 0 si x / [a, b] .
fX (x)dx =
a
kdx =
k = 1. ba
Ejercicio. Mostrar que la funci on distribuci on de U (a, b) es 0 xa FX (x) ba 1 si si x (, a) x [a; b)
si x (b, ).
Ejercicio. Mostrar que no existe ninguna distribuci on uniforme sobre toda la recta. En particular consideremos la distribuci on uniforme U (0, 1) que tiene como densidad 1 si x [a; b] fX (x) = 0 si x / [a; b] .
54 La funci on de distribuci on es en este caso si x (, 0] 0 x si x (0, 1] FX (x) = 1 si x (1, ).
V ctor J. Yohai
(3.11)
Observaciones.
1. Es claro que (3.11) es cierta puesto que si x (0, 1)

x
FX (x) =
0
fX (t) dt
x
fX (t) dt +
0 x
fX (t) dt
=0+
0
1dt
= x. 2. Sea I = (c, d) (0, 1) Cu al es la probabilidad de que X (c, d)? PX ([c < X < d]) = FX (d) FX (c) = d c. Es decir, la probabilidad que esta distribuci on asigna a cada intervalo contenido en [0, 1] es su longitud. 3. Pueden generarse distribuciones uniformes de muchas maneras diferentes. Por ejemplo podemos elegir dos n umeros A1 , A2 de ocho d gitos, y denir A3 por los u ltimos ocho d gitos de A1 A2 . En general si ya hemos denido A1, A2 , ..., Ak como enteros de ocho d gitos, podemos denir recursimamente Ak+1 como los u ltimos ocho d gitos de Ak1 Ak . Este proceso lo podemos continuar hasta obtener An para un n dado. Luego generamos n n umeros con distribuci on U (0, 1) por Ui = Ai 108 , 1 i n. Estos n umeros no ser an aleatorios. Sin embargo se comportar an como si fuesen variables aleatorias independientes con ditribuci on U (0, 1). En particular, dados a y b tales que 0 < a < b < 1, se tendr a que si n es grande #{i : 1 i n, a < Ui < b} n ser a aproximadamente b a. Es decir la frecuencia con la cual los Ui est an en un intervalo (a, b) es aproximadamente la probabilidad que la distribuci on U (0, 1) asigna a ese intervalo.
55
3.4.2.
Generaci on de distribuciones a partir de la distribuci on uniforme en [0,1]
Vamos a mostrar c omo a partir de una variable aleatoria con distribuci on U (0, 1) se puede generar cualquier otra variable con cualquier funci on de distribuci on. Para esto en primer lugar necesitamos algunas deniciones. Sabemos que una funci on de distribuci on no tiene por qu e ser continua y mucho menos biyectiva, de manera que en general su inversa no existe. Pero podemos denir una funci on que tendr a propiedades an alogas. Sea F : R [0, 1] una funci on que cumple con las cuatro propiedades del Teorema 2.5 que caracterizan una funci on de distribuci on y consideremos y (0, 1) . Denimos Ay = {x R : F (x) y }. Observaciones. 1. Puede ocurrir que exista una preimagen v a F del punto y : F 1 (y ) = . Si F es continua por Bolzano podemos asegurar que asume todos los valores intermedios entre el 0 y el 1 y en consecuencia en alg un punto x asumir a el valor y. 2. Puede ocurrir tambi en que no exista la preimagen. Por ejemplo si F no es continua para algunos valores de y ocurrir a que F 1 (y ) = . 3. Puede ocurrir que existan innitas preim agenes. Basta con tomar una funci on con las propiedades de funci on de distribuci on que sea constante en un intervalo. Para y igual a ese valor hay innitas preim agenes.
Ejercicio. Dar un ejemplo de cada una de las situaciones y dibujar el gr aco correspondiente.
Teorema 3.6 Existe el nmo del conjunto Ay . Demostraci on. Basta probar que Ay = y est a acotado inferiormente. Comencemos probando que Ay = .Sabemos que F satisface la propiedad (2) del Teorema 2.5 y por lo tanto
n
l m F (n) = 1.
Como 0 < y < 1 existe n0 N tal que F (n0 ) y,
56
V ctor J. Yohai
de manera que n0 Ay . Ahora probaremos que Ay esta acotado inferiormente. Por la propiedad (3) del Teorema 2.5 se tiene que,
n
l m F (n) = 0.
Como y > 0 entonces existe n0 N tal que F (n0 ) < y. (3.12) Ahora bien si x Ay no puede ser que n0 > x puesto que por monoton a (Propiedad (1) del Teorema 2.5) se cumplir a F (n0 ) F (x) y, en contradicci on con (3.12). En denitiva se tiene que si x Ay , entonces n0 x, y por lo tanto Ay esta acotado inferiormente. 2 En virtud de la existencia y unicidad del nmo podemos denir la siguiente funci on Denici on 3.6 Dada F : R [0, 1] que satisface las propiedades de una funci on de distribuci on (Propiedades (1)-(4) del Teorema 2.5) se dene F 1 : (0, 1) R por F 1 (y ) = inf Ay . Propiedades de la funci on F1 . Propiedad 3.4 (a) Dada una funci on de distribuci on F, se tiene F F 1 (y ) y.
(b) El nmo del conjunto Ay resulta ser el m nimo de Ay , es decir F 1 (y ) = m n Ay .
Demostraci on. Bastar a probar (a), ya que en ese caso F 1 (y ) pertenece al conjunto Ay . Por denici on de nmo existe una sucesi on (xn )n Ay 1 decreciente que converge a F (y ), es decir tal que
n
l m xn = F 1 (y ) .
(3.13)
Por la propiedad de continuidad a derecha de F

n
l m F (xn ) = F F 1 (y ) .
57
Ahora, como para todo n N se tiene que xn Ay sabemos que F (xn ) y, y luego por (3.13) resulta F F 1 (y ) y, (3.14)
por lo tanto (a) queda demotrado. Esto implica F 1 (y ) Ay . Luego hemos mostrado (a) y por lo tanto tambi en hemos demostrado (b). 2 Propiedad 3.5 Si F es continua entonces F F 1 (y ) = y. Demostraci on. Sabemos que F F 1 (y ) y. Ahora supongamos que no se cumple la igualdad, esto es que F F 1 (y ) > y. Veremos que esto contradice el caracter de nmo del elemento F 1 (y ) . 1 Tomemos un punto intermedio entre F F (y ) e y que llamaremos y . Entonces y < y < F F 1 (y ) . Por ser F continua, por el teorema de Bolzano se deduce que existe x (0, 1) tal que F (x ) = y . Luego reemplazando en la inecuaci on anterior se obtiene la desigualdad y < F (x ) < F F 1 (y ) . Por un lado esto dice que x Ay y por otro teniendo en cuenta la monoton a de F resulta x < F 1 (y ) . Esto contradice que F 1 (y ) sea el m nimo, absurdo. 2 Propiedad 3.6 Dada una funci on de distribuci on F, se cumple que F 1 (F (x)) x. Demostraci on. Es claro que para todo x se tiene que x AF (x) puesto que F (x) F (x) . Sabemos que F 1 (F (x)) es el m nimo de AF (x) y luego a AF (x) implica F 1 (F (x)) a. En particular si tomamos a = x AF (x) se obtiene el resultado buscado. 2
58
V ctor J. Yohai
Teorema 3.7 (Caracterizaci on de Ay como semirecta) Sea F una funci on de distribuci on y tomemos y (0, 1) jo. Los conjuntos By = {x : x F 1 (y )} = [F 1 (y ) , +) coinciden. Demostraci on. Sabemos por la Propiedad 3.4 (b) que F 1 (y ) = m n Ay . Por otro lado es f acil ver que si x Ay y x > x, entonces tambi en x Ay . 1 Luego Ay = [F (y ), ). 2 Ejercicio. Probar que F 1 es mon otona no decreciente y por lo tanto medible. Veremos ahora que dada cualquier funci on de distribuci on F, a partir de cualquier variable aleatoria con distribuci on U (0, 1), se puede generar otra variable aleatoria con funci on de distribuci on F. Teorema 3.8 Sea U una variable aleatoria con distribuci on U (0, 1). Luego si F es una funci on de distribuci on (propiedades (1)-(4) del Teorema 2.5) se tiene que X = F 1 (U ) tiene funci on de distribuci on F Demostraci on. Usando el Teorema 3.7 y el hecho de que FU (u) = u, 0 u 1, se tiene FX (x) = PX ((, x]) = P {F 1 (U ) x} = P ({U F (x)}) = FU (F (x)) = F (x) . 2 Ejercicio. Sea X una variable con rango RX = N0 (enteros no nega1 tivos) y sea pj = pX (j ) , j N0 . Vericar que FX es de la forma
1 FX (y ) =
Ay = {x : F (x) y },
0 si 0 < y p0 i1 i si j =0 pj < y
i j =0 pj ,
i 1.
Comprobar que el resultado anterior vale en este caso. El siguiente teorema de demostraci on inmediata es muy importante. Teorema 3.9 Sean X y X dos variables aleatorias tales que FX = FX . Consideremos una funci on g medible y consideremos las variables aleatorias obtenidas componiendo Z = g (X ) ; Z = g (X ) . Entonces PZ = PZ .
59
Demostraci on. Sea B B y probemos que PZ (B ) = PZ (B ) . Sabemos que PZ (B ) = P Z 1 (B ) = P X 1 g 1 ( B ) = PX g1 (B ) . Por el Corolario 2.1 del Teorema de Extensi on se tiene que PX g1 (B ) = PX g1 (B ) y luego PZ (B ) = PX g1 (B ) = P X 1 g1 (B ) = P Z 1 (B ) = PZ (B ) . 2 El siguiente resultado vale para funciones de distribuci on continuas. Teorema 3.10 Si X es una variable aleatoria con distribuci on FX continua y consideramos la variable aleatoria Y = FX (X ) entonces Y tiene distribuci on U (0, 1). Demostraci on. Consideremos una variable aleatoria U con distribuci on U (0, 1) 1 on FX . Luego por el y sea X = FX (U ) . Sabemos que X tiene distribuci Teorema 3.9 las variables Y = FX (X ) , Y = FX (X ) tienen la misma distribuci on. Pero
1 (U ) , Y = FX (X ) = FX FX 1 (U ) = U. Luego y siendo FX continua por Propiedad 3.5 se tiene FX FX Y tiene distribuci on U (0, 1) y por lo tanto, de acuerdo al Teorema 3.9 tambi en esa es la distribuci on de Y. 2
3.4.3.
Distribuci on Normal N(, 2 ).
La distribuci on normal es tal vez la m as importante y sin lugar a dudas la que se usa con mayor frecuencia. A veces este uso se hace de manera inadecuada sin vericar los supuestos que la identican. Veremos m as adelante la importancia de esta distribuci on. Adelantamos sin embargo, informalmente
60
que si {Yn }n es una sucesi on de variables a independientes tales que ninguna de ellas prevalezca sobre las otras, entonces la variable aleatoria
n
1=
V ctor J. Yohai
Sn =
j =1
Yj
es aproximadamente normal para n sucientemente grande. Esta distribuci on tiene mucha aplicaci on en la teor a de errores, donde se supone que el error total de medici on es la suma de errores que obedecen a diferentes causas. La distribuci on normal depende de dos par ametros R y 2 R >0 . En este cap tulo solo veremos la distribuci on normal correspondiente a 2 = 0 y = 1. En este caso la funci on de densidad es fX (x) = K exp x2 2 ,
donde K es una constante y exp(x) es la funci on exponencial ex . Calcularemos la constante K de forma tal que
+
K exp
x2 2
dx,
y por lo tanto K= Sea I=
1
+ exp + x 2 2
. dx
exp
x2 2
dx.
Para el c alculo de esta integral podemos usar o bien residuos (teor a de an alisis complejo) o bien calcular I 2 como integral doble a traves de un cambio de variable a cordenadas polares. Optamos por la segunda forma I2 = =
+ + +
exp
+ +
x2 2 exp exp
dx
exp exp y 2 2
y 2 2
dy
x2 2
dxdy
x2 + y 2 2
dxdy.
Ahora hacemos el cambio de variable x (, ) = x = cos () y (, ) = y = sin ()
61
Claramente se tiene x2 + y 2 = 2 La transformaci on del cambio de variable T (, ) = (x (, ) , y (, )) = ( cos () , sin ()) 0, 0 < 2 tiene matriz diferencial DT (, ) = Entonces su jacobiano J (, ) = det (DT (, )) = det cos () sin () sin () cos () x x y y = cos () sin () sin () cos () .
= cos2 () + sin2 () = . En denitiva |J (, ) | = y aplicando la f ormula de cambio de variables en integrales m ultiples resulta I2 = =
0 0 + + + +
exp
2
x2 + y 2 2
dxdy =
exp exp
0
= 2
2 dd = 2 + 2 exp d = 2 2 0
2 2
d.
Haciendo el cambio de variable 2 , 2 du = d u= se obtiene I 2 = 2

0 +
exp (u) du
= 2, y por lo tanto
= 2 exp (u) |+ 0
I= Luego
2 x2 2
1 fX (x) = exp 2
62
V ctor J. Yohai
3.4.4.
Distribuci on Exponencial.
Esta distribuci on depende de un par ametro que puede tomar cualquier valor real positivo. Su funci on de densidad es f (x) = ex 0 si x 0 si x < 0.
Haciendo la transformaci on y = x, dy = dx se obtiene

f (x)dx =
ex dx =
0
ey dy
= [e
0 y
| 0 =
0 + 1 = 1.
Se deja como ejercicio vericar que la correspondiente funci on de distribuci on es 1 ex si x 0 F (x) = (3.15) 0 si x < 0. La distribuci on exponencial con par ametro ser a denotada por E (). Esta distribuci on aparece generalmente cuando se trata de estudiar la durabilidad de un mecanismo bajo el supuesto de que el sistema no se desgasta a lo largo del tiempo. Como ejemplo suele citarse a veces la duraci on de una l ampara el ectrica. Sin embargo en este caso existe un cierto desgaste propio de la l ampara y su distribuci on no es exactamente exponencial. Esta distribuci on es m as adecuada para modelar la duraci on de los mecanismos electr onicos, ya que estos no tienen pr acticamente desgaste. Para precisar el concepto de desgaste decimos que la distribuci on de X no tiene desgaste cuando dado a > 0 y b > 0 se tiene P (X a + b|X a) = P (X b) . Esto signica que la probabilidad de que llegue a durar hasta el tiempo a + b, dado que ha llegado hasta el tiempo a, es igual a la probabilidad de que haya durado hasta el tiempo b. Es decir el proceso no tiene memoria del tiempo que estuvo funcionando (no recuerda qu e tan viejo es) y por tanto, mientras funciona lo hace como si fuese nuevo. Decimos por el contrario que hay desgaste si P (X a + b|X a) es una funci on decreciente de a. Vamos a mostrar que la propiedad de falta de desgaste caracteriza a la distribuci on exponencial. Esto signica que las u nicas distribuciones continuas y no negativas que tienen la propiedad de falta de desgaste son las exponenciales.
63
Como {X a + b} {X a} = {X a + b} resulta que P (X a + b|X a) = P ({X a + b} {X a}) P ({X a + b}) = . P (X a) P (X a)
Por lo tanto la propiedad de falta de desgaste se puede escribir como P (X a + b) = P (X b) , P (X a) o equivalentemente P (X a + b) = P (X b) P (X a) . Si X tiene distribuci on continua de P (X a) = FX (a) resulta 1 FX (a) = P (X > a) = P (X a) . Entonces denimos GX (a) = 1 FX (a) , y como la propiededad de falta de memoria es equivalente (3.16), esta se puede escribir tambi en como GX (a + b) = GX (a) GX (b) (3.17) (3.16)
para todo a 0, b 0. En el caso en que X tiene distibuci on exponencial por (3.15) se tiene GX (x) = ex para todo x 0. El siguiente teorema muestra que la propiedad de falta de memoria caracteriza a las distribuiones exponenciales. Teorema 3.11 Sea X una variable aleatoria continua con valores no negativos. Luego la propiedad de falta de memoria dada por (3.17) se cumple si y s olo si GX (x) = ex es decir si X tiene distribuci on exponencial. Demostraci on. Supongamos primero que GX (x) = ex . Probaremos que (3.17) se cumple. En efecto GX (a + b) = e(a+b) = e(a)+(b) = ea eb = GX (a) GX (b) . Supongamos ahora que (3.17) se cumple. Probaremos que GX (x) = ex para alg un > 0. En primer lugar veamos que para todo n, dados a1 0, ..., an 0 entonces
n n
GX
i=1
ai
=
i=1
GX (ai ) .
64
V ctor J. Yohai
Probaremos esta proposici on por inducci on. Claramente vale para n = 2 por hip otesis. Supongamos que vale para n y probemos que vale para n + 1.
n+1 n
GX
i=1
ai
= GX
i=1 n
ai + an+1 ai
i=1
= GX
n
Gx (an+1 )
=
i=1 n+1
GX (ai ) GX (an+1 ) GX (ai ) .

i=1
Ahora probaremos que para todo a 0 vale que GX (a) = [GX (1)]a . La estrategia es primero probarlo para cuando a es un entero no negativo, luego cuando es un racional no negativo y por u ltimo cuando es un n umero real no negativo. Sea n N entonces GX (n) = GX 1 + 1 + ... + 1
n sumandos
= [GX (1)]n .
Ahora sea a =
m Q el conjunto de los n umeros racionales. Entonces n m GX (m) = GX n n m n
m m = GX n + ... + n = GX
n sumandos n
Entonces GX
1 m = [GX (m)] n n 1 = [(GX (1))m ] n
= [GX (1)] n .
3.5. Variables aleatorias mixtas.
Por u ltimo consideremos a R0 . Elijamos una sucesi on (rn )n Q tal que rn a. Siendo GX continua resulta GX (a) = l m GX (rn )
n
= l m (GX (1))rn
n mn rn = (GX (1))l
65 (3.18)
= [GX (1)]a .
Veamos que 0 < GX (1) < 1. Supongamos que GX (1) = 0. Luego por (3.18) GX (a) = 0 para todo a 0. En particular GX (0) = 0 y luego FX (0) = 1. Esto implica que P (X = 0) = 1 y luego X es discreta. Supongamos ahora que GX (1) = 1. Luego por (3.18) tenemos que para todo a 0 se tiene GX (a) = 1. Luego para todo a 0 resulta FX (a) = 0 y entonces l mx FX (x) = 0, lo cual es un absurdo, ya que este l mite es 1. Luego podemos denir = log (GX (1)) , de manera que GX (1) = e Luego, usando (3.18), podemos escribir GX (a) = [GX (1)]a = ea , y el teorema queda probado. 2
3.5.
Variables aleatorias mixtas.
Adem as de las variables discretas y absolutamente continuas existen otros tipos de variables. Un estudio exhaustivo de los tipos de variables aleatorias requiere algunos conocimientos de la teor a de la medida. Aqu introduciremos las variables mixtas cuya funci on distribuci on es una combinaci on convexa de funciones de una distribuci on discreta y otra absolutamente continua. Denici on 3.7 Decimos que F es una funci on de distribuci on mixta si es una combinaci on convexa de una distribuci on absolutamente continua y otra discreta. M as precisamente, si existen , 0 < < 1 , F1 funci on de distribuci on absolutamente continua, F2 funci on de distribuci on discreta tal que F = (1 ) F1 + F2 . (3.19)
Teorema 3.12 Si F est a dada por (3.19) se tiene que
66 (a) F es una funci on de distribuci on.
V ctor J. Yohai
(b) F no corresponde a la funci on de distribuci on de una variable absolutamente continua ni a una discreta. Demostraci on. (a) Por el Corolario 2.2 de la p agina 39 basta probar que F satisface las Propiedades 1-4 del Teorema 2.5. Probemos primero que F es mon otona no decreciente. Sean x < x . Luego como F1 y F2 son mon otonas no decrecientes se tendr a F1 (x) F1 (x ) y como 1 > 0 resulta (1 )F1 (x) (1 ) F1 (x ). (3.20) Del mismo se tiene que F2 (x) F2 (x ). (3.21)
Sumando miembro a miembro (3.20) y (3.21) resulta qie F (x) F (x ).
Multiplicando por una constante se conserva la propiedad de que una funci on es continua a derecha y sumando funciones continuas a derecha se obtiene otra funci on continua a derecha. Esto prueba que F es continua a derecha. Por otro lado, tenemos que
x +
l m F (x) = l m ((1 ) F1 + F2 ) (x)

x +
= (1 ) l m F1 (x) + l m F2 (x)
x + x +
= (1 ) + = 1. Finalmente, tambi en vale que:

x
l m F (x) = l m ((1 ) F1 + F2 ) (x)

x
= (1 ) l m F1 (x) + l m F2 (x)
x x +
= 0. Por lo tanto (a) queda probado. (b) Veamos ahora que F no corresponde a la funci on de de distribuci on de una variable absolutamente continua o discreta. Sean Pi , las probabilidades inducidas por las distribuciones Fi , i = 1, 2 . Luego si P es la probabilidad asociada a F, usando el Teorema de Extensi on de la 39 se puede probar que P (B ) = (1 )P1 (B ) + P2 (B ) B B1 .
3.5. Variables aleatorias mixtas.
67
Esta comprobaci on se deja como ejercicio. Sea R2 el rango de una variable con distribuci on F2 . Por lo tanto R2 es numerable y P2 (R2 ) = 1. Luego P (R2 ) = (1 ) P1 (R1 ) + P2 (R2 ) P2 (R2 ) = > 0 Por lo que se deduce que F no corresponde a una distribuci on absolutamente continua, ya que estas asignan probabilidad 0 a todo conjunto numerable. Para ver que no es discreta veamos que sobre un conjunto numerable arbitrario su probabilidad es menor que 1. Sea A un conjunto numerable, luego, teniendo en cuenta que F1 es absolutamente continua resulta que que P1 (A) = 0. Luego P (A) = (1 ) P1 (A) + P2 (A) = P (A2 ) < 1. Como esto ocurre para todo A arbitrario, F no puede ser discreta. 2
1 Ejemplo 3.1 Sea U U [0, 1] y consideremos V = m n U, 2 . Entonces
FV (u) =
u si u <
1 2 1 2
1 si u
Claramente P (V = 1/2) = P (1/2 U 1) = 1/2 de manera que V no es absolutamente continua. Tampoco es discreta. Es f acil ver que 1 1 F = F1 + F2 2 2 donde F1 es la distribuci on de una U [0, 1/2) y F2 la distribuci on de una 1 variable discreta que asigna probabilidad 1 a x = 2 . Veremos c omo se puede generar una variable con la distribuci on mixta (3.19). Teorema 3.13 Consideremos variables aleatorias independientes X1 con distribuci on F1 , X2 con distribuci on F2 y U que toma valores 0 y 1 con probabilidades 1 y respectivamente. Denimos la variable X= X1 si U = 0 X2 si U = 1
68
V ctor J. Yohai
Luego FX (1 )F1 + F2 . Demostraci on. Teniendo en cuenta la independencia de las variables resulta que FX (x) = PX ((, x]) = P ({X x}) = P ({X1 x} {U = 0}) ({X2 x} {U = 1})
= (1 )F1 (x) + F2 (x) . 2
= (1 )P (X1 x) + P (X2 x)
= P (X1 x)P (U = 0) + P (X2 x)P (U = 1)
= P ({X1 x} {U = 0}) + P ({X2 x} {U = 0})
Cap tulo 4
Vectores aleatorios.
4.1. Denici on de vector aleatorio.
En muchos casos interesa estudiar simultaneamente m as de una caracter stica del resultado de un experimento aleatorio. Supongamos que el experimento consiste en elegir al azar alumnos de un determinado grado, y que estamos interesados en estudiar el perl biol ogico de esos alumnos. Podr amos considerar que el perl se compone de la talla, el peso, presi on sangu nea, frecuencia card aca y capacidad respiratoria. Por lo tanto interesar an cinco variables aleatorias que deber an estudiarse simult aneamente. Esto motiva la siguiente denici on de un vector aleatorio. Denici on 4.1 Sea (, A, P ) un espacio de probabilidad. Se dice que X = (X1 , X2 , . . . , Xk ) es un vector aleatorio de dimensi on k si para cada j = 1, 2, . . . , k se tiene que Xj : R es una variable aleatoria. Obs ervese que si X = (X1 , . . . , Xk ) es un vector aleatorio de dimensi on k, entonces tambi en puede ser interpretado como una funci on X : Rk . En efecto dado , el correspondiente valor de la funci on k es X( ) = (X1 ( ), . . . , Xk ( )) R . Teorema 4.1 Para todo x = (x1 , x2 , . . . , xk ) Rk se tendr a X1 ((, x1 ] (, x2 ] (, xk ]) A. X1 (B ) = { : X ( ) B }
k
Demostraci on. Sea B = (, x1 ] (, x2 ] (, xk ]. Entonces
i=1 k
{ : Xi ( ) (, xi ]} = Xi1 ((, xi ]) . 69
=
i=1
70
V ctor J. Yohai
Luego como por denici on de variable aleatoria para todo i se tiene que Xi1 ((, xi ]) A y A es una algebra se concluye que X1 (B ) A. 2 Recordemos que B k denota la algebra generada por los conjuntos de k R de la forma Ax1 ,x2 ,...,xk = (, x1 ] (, x2 ] (, xk ] En R2 es f acil vericar gr acamente que los conjuntos de la forma (a1 , b1 ] (a2 , b2 ] B 2 ya que se pueden escribir de la siguiente forma (a1 , b1 ] (a2 , b2 ] = Ab1 ,b2 Aa1 ,b2 (Ab1 ,a2 Aa1 ,a2 ) (4.1)
y que diferencias de conjuntos de una algebra son conjuntos de la algebra. Va a ser u til observar que Aa1 ,b2 Ab1 ,b2 Aa1 ,a2 Ab1 ,a2 y (Ab1 ,a2 Aa1 ,a2 ) Ab1 ,b2 Aa1 ,b2 . Ejercicio. Probar el siguiente teorema. Teorema 4.2 Sea X un vector aleatorio de dimensi on k. Entonces si B k 1 B se tiene que X (B ) A. (4.4) (4.2) (4.3)
4.2.
Espacio de probabilidad inducido.
Denici on 4.2 Dado el espacio de probabilidad (, A, P ) y un vector aleatorio X = (X1 , . . . , Xk ) se puede denir un nuevo espacio de probabilidad Rk , B k , PX donde dado B B k se dene PX (B ) = P X1 (B ) . Ejercicio. Probar el siguiente teorema. Teorema 4.3 PX es una funci on de probabilidad sobre (Rk , B k ). La demostraci on es similar a la correspondiente a PX donde X es una variable aleatoria. La probabilidad PX se denomina probabilidad inducida por el vector X o distribuci on de X.
4.3. Funci on de distribuci on conjunta de un vector aleatorio.
71
4.3.
Funci on de distribuci on conjunta de un vector aleatorio.
Denici on 4.3 Dado un vector aleatorio X = (X1 , . . . , Xk ), se dene la funci on de distribuci on conjunta del vector X como la funci on FX : Rk [0; 1] dada por FX (x1 , x2 , . . . , xk ) = PX ((, x1 ] (, x2 ] (, xk ]) =
k
=P
i=1
{ : Xi ( ) xi } .
Propiedades de FX . Propiedad 4.1 FX es mon otona no decreciente en cada componente. Demostraci on. Si xi < xi entonces Ax1 ,...,xi ,...,xn Ax1 ,...,xi ,...,xn , de manera que FX ((x1 , . . . , xi , . . . , xn )) FX
Propiedad 4.2 Se tiene que l m
x1 ,...,xk
Demostraci on. Sean sucesiones crecientes
{x1i }i , {x2i }i , . . . , {xki }i . Queremos probar que
Ahora bien la sucesi on de conjuntos
Ci = (, x1i ] (, x2i ] (, xki ] es mon otona no decreciente. Por otro lado Ci = Rk ,

x1 , . . . , xi , . . . , xn .2 FX (x1 , x2 , . . . , xk ) = 1.
i+
l m FX (x1i , x2i , . . . , xki ) = 1.
(4.5)
72 y en consecuencia
i+
l m FX (x1i , x2i , . . . , xki ) = l m PX ((, x1i ] (, x2i ] (, xki ]) =

i
Propiedad 4.3 Para todo i, 1 i k, se tiene que

xi
l m
Demostraci on. Sin p erdida de generalidad lo mostraremos para i = 1. Para este caso consideremos una sucesi on mon otona no creciente tal que {yj }j . Entonces si denimos {Cj }j p or Cj = (, yj ] (, x2 ] (, xk ] se tiene que Cj +1 Cj para todo j N, y adem as
j
Por lo tanto
j
l m FX (yj , x2 , .., xk ) = l m PX ((, yj ] (, x2 ] (, xk ]) = j = PX = 0. 2

j
Propiedad 4.4 FX es continua a derecha.
Demostraci on. Sea (x1 , x2 , . . . , xk ) Rk y consideremos sucesiones mon otonas decrecientes tales que {x1i }i x1 ; {x2i }i x2 ; . . . ; {xki }i xk Consideremos los conjuntos
Ci = (, x1i ] (, x2i ] (, xki ].

V ctor J. Yohai
= PX
Ci
= PX Rk = 1. 2
FX (x1 , x2 , . . . , xi , . . . , xk ) = 0.
(4.6)
Cj = .
= PX ()
Cj
Entonces y
i
Luego
i
l m FX (x1i , x2i , . . . , xki ) = l m P (Ci )

i
Ci+1 Ci Aa1 b2 Ab1 b2
73
Ci = Ax1 ,...,xk .
= P (Ax1 ,...,xk ) = FX (x1 , x2 , . . . , xk ) . 2 Las Propiedades 4.1, 4.2, 4.3 y 4.4 no caracterizan a una funci on de distribuci on de un vector aleatorio como ocurr a para el caso de la funci on de distribuci on de una variable aleatoria. Para jar ideas de por qu e sucede esto, pensemos en R2 . Sea entonces 2 un vector aleatorio en R X = (X1 , X2 ) y FX su funci on de distribuci on conjunta. Sea Ax1 x2 = (, x1 ] (, x2 ] y C = (a1 , b1 ] (a2 , b2 ]. El rect angulo C puede ser escrito de la siguiente manera C = (Ab1 b2 Aa1 b2 ) (Ab1 a2 Aa1 a2 ) . Teniendo en cuenta las inclusiones Aa1 a2 Ab1 a2 , y (Ab1 a2 Aa1 a2 ) (Ab1 b2 Aa1 b2 ) , resulta que PX (C ) = PX (Ab1 b2 Aa1 b2 ) PX (Ab1 a2 Aa1 a2 ) Como PX (Ax1 x2 ) = FX (x1 , x2 ),resulta PX (C ) = FX (b1 , b2 ) FX (a1 , b2 ) FX (b1 , a2 ) + FX (a1 , a2 ) . Observaciones. 1. Para vericar las inclusiones (4.7), (4.8) y (4.9), se sugiere hacer un dibujo. = PX (Ab1 b2 ) PX (Aa1 b2 ) PX (Ab1 a2 ) + PX (Aa1 a2 ) . (4.9) (4.7) (4.8)
74
V ctor J. Yohai
2. Esto muestra que la probabilidad de el rect angulo C se determina por el valor de FX sobre los v ertices: es la suma de los valores sobre los v ertices de la diagonal principal menos la suma de los valores sobre los v ertices de la otra diagonal. 3. Luego dada una funci on de distribuci on FX para todo a1 < b1 y a2 < b2 se deber a cumplir FX (b1 , b2 ) FX (a1 , b2 ) FX (b1 , a2 ) + FX (a1 , a2 ) 0. (4.10)
4. Veamos que esta propiedad no se deduce de las propiedades P1, P2, P3 y P4. Para ello damos un ejemplo de una funci on que satisface P1, 2 P2, P3 y P4 pero no (4.10). Sea F : R [0, 1] denida por F (x1 , x2 ) = 1 si x1 + x2 1, x1 0, x2 0 0 si en otra parte.
Es f acil vericar que esta funci on es (i) mon otona no decreciente en cada variable, (ii)
x1 , x2
l m
F (x1 , x2 ) = 1,
(iii)
xi
l m F (x1 , x2 ) = 0 para cualquier i = 1, 2,
y (iv) es continua a derecha. Pero si consideramos el rect angulo C = (0, 1] (0, 1] entonces si F es una funci on de distribuci on deber amos tener P (C ) = F (1, 1) + F (0, 0) (F (0, 1) + F (1, 0)) = 1 2 = 1. Esto muestra que F no puede ser la funci on de distribuci on de ning un vector aleatorio en R2 .
Para estudiar las propiedades faltantes vamos a necesitar la siguiente denici on. Denici on 4.4 Sea F una funci on de k variables. Si ai < bi se dene el operador diferencia en la variable i por
i (a, b) F
= F (x1 , x2 , . . . , xi1 , b, xi+1 , . . . , xk )F (x1 , x2 , . . . , xi1 , a, xi+1 , . . . , xk ) .
75
Estos operadores se pueden aplicar en forma sucesiva. Por ejemplo

j
(aj , bj )
j
i (ai , bi ) F
= =
(aj , bj ) (F (x1 , . . . , xi1 , bi , xi+1 , . . . , xk ) (aj , bj ) F (x1 , x2 , . . . , xi1 , bi , xj +1 , . . . , xk )
F (x1 , . . . , xi1 , ai , xi+1 , . . . , xk ))

j j
(aj , bj ) F (x1 , x2 , . . . , xi1 , ai , xi+1 , . . . , xk )
= (F (x1 , . . . , xi1 , bi , xi+1 , . . . , xj 1 , bj , xj +1 , . . . , xk )
F (x1 , . . . , xi1 , bi , xi+1 , . . . , xj 1 , aj , xj +1 , . . . , xk )) (F (x1 , . . . , xi1 , ai , xi+1 , . . . , xj 1 , bj , xj +1 , . . . , xk ) F (x1 , . . . , xi1 , ai , xi+1 , . . . , xj 1 , aj , xj +1 , . . . , xk )). (aj , bj )
i (ai , bi ) F
Es f acil ver que estos operadores conmutan, es decir

j
i (ai , bi )
(aj , bj ) F
M as generalmente, si a1 < b1 , a2 < b2 , . . . , ak < bk podemos considerar la diferencia sucesiva

1 (a1 , b1 ) k 1 (ak 1 , bk 1 ) k
(ak , bk ) .
Observaci on. Podemos expresar la propiedad (4.10) en t erminos del operador diferencia como PX ((a1 , b1 ] (a2 , b2 ]) = (FX (b1 , b2 ) FX (a1 , b2 )) (FX (b1 , a2 ) FX (a1 , a2 )) =
1 (b1 , a1 ) FX (x1 , b2 ) 2 (b2 , a2 )
1 (b1 , a1 ) FX (x1 , x2 )
1 (b1 , a1 ) FX (x1 , a2 )
En general se puede probar el siguiente Teorema Teorema 4.4 Sea FX la funci on de distribuci on conjunta del vector aleatorio X = (X1 , . . . , Xk ) y sean a1 < b1 , a2 < b2 , . . . , ak < bk . Entonces se tiene que PX ((a1 , b1 ] (a2 , b2 ] (ak , bk ]) =
1 (b1 , a1 ) . . . k 1 (bk 1 , ak 1 ) k
(bk , ak ) FX (x1, x2 , . . . , xk ) 0.
Demostraci on. Para probar el teorema, consideremos para cada h, 0 h k los conjuntos de la forma Ch = (a1 , b1 ] (a2 , b2 ] (ah , bh ] (, xh+1 ] (, xk ]. Se prueba por inducci on que para todo h k PX (Ch ) =
1 (b1 , a1 ) . . . h1 (bh1 , ah1 ) h (bh , ah ) F
(x1 , x2 , . . . , xh , xh+1 , . . . , xk ) . (4.11)
76 Probaremos primero (4.11) para h = 1. Sea C1 = (a1 , b1 ] (, x2 ] (, xk ]. Luego
V ctor J. Yohai
C1 = (, b1 ](, x2 ] (, xk ](, a1 ](, x2 ] (, xk ], y como el segundo conjunto est a incluido en el primero, se tiene PX (C1 ) = PX ((, b1 ] (, x2 ] (, xk ] (, a1 ] (, x2 ] (, xk ]) = FX (b1 , x2 , . . . , xk ) FX (a1 , x2 , . . . , xk ) =
1 (b1 , a1 ) F
(x1 , x2 , . . . , xk ) .
Supongamos ahora que (4.11) vale para h = i < k. Probaremos que tambi en vale para h = i + 1. Sea Ci+1 = (a1 , b1 ] (a2 , b2 ] (ai+1 , bi+1 ] (, xi+2 ] (, xk ]. Claramente Ci+1 = Ci Ci
(1) (2)
Ci , donde
(1)
= (a1 , b1 ](a2 , b2 ] (ai , bi ](, ai+1 ](, xi+2 ] (, xk ]
y Ci = (a1 , b1 ](a2 , b2 ] (ai , bi ](, bi+1 ](, xi+2 ] (, xk ]. (2) (1) a Como adem as se tiene Ci Ci , se tendr PX (Ci+1 ) = PX (Ci ) PX (Ci ). Como (4.11) vale para h = i tendremos PX (Ci+1 ) =
1 (b1 , a1 ) . . . 1 (b1 , a1 ) . . . i (bi , ai ) F i (bi , ai ) F (2) (1)
(2)
(x1 , x2 , . . . , xi , bi+1 , xi+2 , . . . , xk ) (x1 , x2 , . . . , xi , ai+1 , xi+2 , . . . , xk ) .
Luego (4.11) vale para h = i + 1. Esto muestra que (4.11) vale para todo h k. Haciendo h = k se obtiene el Teorema. 2 Luego podemos enunciar una propiedad adicional que satisface una funci on de distribuci on conjunta Propiedad 4.5 Si FX es la funci on de distribuci on conjunta del vector aleatorio X = (X1 , . . . , Xk ) para todo a1 < b1 , , ak < bk se debe cumplir que
1 (b1 , a1 ) . . . k 1 (bk 1 , ak 1 ) k
(bk , ak ) FX (x1, x2 , . . . , xk ) 0.
El siguiente Teorema generaliza para vectores aleatorios el Teorema de Extensi on para variables aleatorias.
77
Teorema 4.5 Sea F : Rk [0, 1] una funci on que satisface las propiedades 4.1, 4.2, 4.3, 4.4 y 4.5. Luego existe una u nica funci on de probabilidad P : B k [0, 1] , tal que para todo (x1 , x2 , . . . , xk ) Rk se cumple P ((, x1 ] (, x2 ] (, xk ]) = F (x1 , x2 , . . . , xk ) . Demostraci on. No se dar a la demostraci on en este curso. Utiliza argumentos de la Teor a de la Medida. 2
, X , . . . , X ) dos Corolario 4.1 Sean X = (X1 , X2 , . . . , Xk ) y X = (X1 2 k vectores aleatorios. Supongamos que para todo x1 , x2 , . . . xk se tiene que
FX (x1 , . . . , xk ) = FX (x1 , . . . , xk ). Luego tambi en se cumple que para todo B B k PX (B ) = PX (B ). Demostraci on. Basta con observar que para todo (x1 , . . . , xk ) Rk FX (x1 , x2 , . . . , xk ) = FX (x1 , x2 , . . . , xk ) = PX ((, x1 ] (, x2 ] . . . (, xk ]) . Por lo tanto como PX y PX son extensiones de FX deben coincidir por unicidad de la extensi on. 2 Corolario 4.2 Si F satisface propiedades 4.1, 4.2, 4.3, 4.4 y 4.5. entonces existe un vector aleatorio X = (X1 , . . . , Xk ) tal que FX = F. Demostraci on. Sea Rk , B k , PF el espacio de probabilidad tal que PF es la extensi on de F . Luego para todo (x1 , . . . , xk ) Rk F (x1 , x2 , . . . , xk ) = PF ((, x1 ] (, x2 ] (, xk ]) . Denimos el vector aleatorio X = (X1 , . . . , Xi , . . . , Xk ) de forma tal que Xi sea la proyecci on sobre la coordenada i- esima. Es decir Xi : Rk R est a denida por Xi (x1 , x2 , . . . , xk ) = xi Observemos que para todo i, 1 i k se tiene que Xi1 ((, xi ]) = R R (, xi ] R R,
78 y que FX (x1 , x2 , . . . , xk ) = PX ((, x1 ] (, x2 ] (, xk ])

k
V ctor J. Yohai
= PF (X1 ((, x1 ] (, x2 ] (, xk ])) = PF

i=1
Xi1 ((, xi ])
= F (x1 , x2 , . . . , xk ) . 2
= PF ((, x1 ] (, x2 ] (, xk ])
4.4.
Algunas propiedades de vectores aleatorios.
Sea un vector X = (X1 , . . . , Xk ) con funci on de distribuci on FX . El siguiente teorema muestra como se obtiene la funci on de distribuci on del vector formado con un subconjunto de componentes X = (Xi1 , Xi2 , . . . , Xih ) para cualquier subconjunto de ndices 1 i1 < i2 < < ih k.
Teorema 4.6 Sea X = (X1 , . . . , Xk ) un vector aleatorio de dimensi on k. Sea A = {i1 , . . . , ih } {1, 2, . . . , k} y B = {i : 1 i k, i / A} = {j1 , . . . jr ]. Entonces, si X = (Xi1 , Xi2 , . . . , Xih ), se tiene FX (xi1 , . . . xih ) =
xj1 ,...,xjr
Demostraci on. Para facilitar la notaci on supongamos que A = {1, 2, . . . , h} y luego B = {h + 1, . . . , k}. Sean {yh+1,j }j N , . . . , {yk,,j }j N , sucesiones crecientes tendiendo a . Luego bastar a probar que
j
l m
FX (x1 , x2 , . . . , xk ).
l m FX (x1 , . . . xh , yh+1,j , . . . , yk,j ]) = FX (x1 , . . . , xh ).
Consideremos la sucesi on de eventos
(4.12)
Cj = (, x1 ] (, xh ] (, yh+1,j ] (, yk,j ] es creciente y

j =1
Cj = (, x1 ] (, xh ] R R.
4.4. Algunas propiedades de vectores aleatorios.
Luego
FX (x1 , . . . , xh ) = PX ((, x1 ] (, xh ])
h
=P
i=1 h
79
{ : Xi ( ) xi }
k
=P
i=1
{ : Xi ( ) xi }
i=h+1
{ : Xi ( ) R}
= l m PX (Cj )
j j
= PX ((, x1 ] (, xh ] R R)
= l m PX ((, x1 ] (, xh ] (, yh+1,j ] (, yk,j ]) = l m FX (x1 , . . . xh , yh+1,j , . . . , yk,j ]).

j
y luego (4.12) vale. 2 Denici on 4.5 Diremos que g : Rk R es medible Borel si para todo x R se tiene que g1 ((, x]) B k . Observaci on. Una funci on medible Borel puede interpretarse como una variable aleatoria en el espacio (Rk , B k ). Como en este curso solo consideramos funciones medibles Borel, se las llamar a simplemente funcones medibles En particular se tendr a Teorema 4.7 Si g : Rk R es continua entonces g es medible. Demostraci on. Siendo (, x] cerrado se tiene que g1 ((, x]) B k y por lo tanto es medible. 2 Ejercicio. Probar el siguiente teorema. Teorema 4.8 Sea X = (X1 , X2 , . . . , Xk ) un vector aleatorio sobre un espacio de probabilidad (, A, P ) y g : Rk R una funci on medible. Entonces Y = g (X) : R es una variable aleatoria. Ahora podemos probar lo siguiente. Teorema 4.9 Si X e Y son varibles aleatorias, entonces (i) Z = X + Y es una variable aleatoria. (ii) Z = XY es una variable aleatoria.
80
V ctor J. Yohai
(iii) Si P (Y = 0) = 0 entonces Z = X/Y es una variable aleatoria. Demostraci on. Se trata de escribir a Z como imagen de X e Y usando una funci on g medible. (i) Denimos g : R2 R, g (x, y ) = x + y. Como g es continua es medible. Luego si tomamos W = (X, Y ) se tiene que Z = g (W) = X + Y es una variable aleatoria. (ii) y (iii) La demostraci on de (ii) y (iii) se deja como ejercicio. 2
Denici on 4.6 Sea g : Rk Rh , es decir g = (g1 , g2 , . . . , gh ) tal que para cada j = 1, 2, . . . , h, gj : Rk R. Diremos que g es medible sii gj es medible para cada j = 1, 2, . . . , h. Teorema 4.10 Sea X = (X1 , X2 , . . . , Xk ) un vector aleatorio y g : Rk Rj una funci on medible. Entonces Z = g (X) es un vector aleatorio de dimensi on j. Demostraci on. Se deja como ejercicio.2
4.5.
4.5.1.
Independencia de variables aleatorias.

Algunas consideraciones heur sticas.
Hemos visto con anterioridad lo que signicaba la independencia de eventos. Brevemente recordemos que una familia de eventos es independiente si la ocurrencia de algunos de ellos no incide sobre la probabilidad de ocurrencia del otro. M as precisamente, un conjunto de eventos A1 , A2 , . . . , Ak son independientes si para toda elecci on 1 i1 < i2 < < ih k
h
P (Ai1 Ai2 Aih ) =
P Aij .
j =1
Ahora queremos denir la independencia de un conjunto de variables aleatorias. Queremos dar respuesta a la pregunta en qu e medida la informaci on referida a una variable aleatoria X incide en el conocimiento de los valores de la variable aleatoria Y . Por ejemplo la inaci on y la emisi on monetaria son independientes ? El peso de un individuo y su presi on sangu nea son independientes? Para denir el concepto de independencia de variables aleatorias utilizaremos la noci on de independencia de eventos.
4.5. Independencia de variables aleatorias.
81
Denici on 4.7 Sean X1 , X2 , , Xk variables aleatorias, denidas sobre un mismo espacio de probabilidad (, A, P ) . Diremos que dichas variables son independientes sii cualquiera sean los conjuntos B1 , B2 , , Bk 1 B (Borelianos en R), los eventos Xj (Bj ) , j = 1, 2, .., k son independientes. Los dos siguientes teoremas dan caracterizaciones de la propiedad de independencia de un conjunto de variables aleatorias.
Teorema 4.11 Las variables aleatorias X1 , , Xk son independientes si y s olo si para toda elecci on de conjuntos borelianos B1 , B2 , , Bk vale que
k k
j =1
1 Xj (Bj ) =
1 P Xj (Bj ) .
(4.13)
j =1
Demostraci on. Primero mostraremos que (4.13) es una condici on necesaria. En efecto, si X1 , , Xk son independientes, (4.13) debe cumplirse por denici on de independencia de eventos. Ahora probaremos la suciencia de (4.13). Debemos probar que (4.13) implica para cualquier subconjunto de ndices i1 < i2 < < ih , h k que
h h
Consideremos los conjuntos Ci , 1 i k, denidos de la siguiente manera Ci = Bi R si i coincide con alg un ij en caso contrario.
1 Xi j
Bij
j =1
1 P Xi Bij j
j =1
Entonces dado que Xi1 (R) = y P () = 1, se tiene que

h k
j =1
1 Bij = P Xi j
Xi1 (Ci )
i=1
=
j =1 h
P Xi1 (Ci )
1 Bij P Xi j j =1
. 2
Ahora escribiremos la misma proposici on de otra manera
82
V ctor J. Yohai
Teorema 4.12 Las variables aleatorias X1 , . . . , Xk son independientes si y s olo si para toda colecci on de borelianos B1 , B2 , . . . , Bk vale que
k
PX (B1 B2 Bk ) = donde X = (X1 , X2 , . . . , Xk ) .
PXj (Bj ) ,
j =1
1 Demostraci on. Como PXj (Bj ) = P (Xj (Bj )) por el Teorema 4.11 bastar a mostrar que h
Para eso observamos que
PX (B1 B2 Bk ) = P
j =1
1 Xj (Bj ) .
PX (B1 B2 Bk ) = P (X1 (B1 B2 Bk ))
= PX ({ : X ( ) B1 B2 Bk })
k
=P =P
= PX ({ : (X1 ( ) , X2 ( ) , . . . , Xk ( )) B1 B2 Bk })
j =1 h
{ : Xj ( ) Bj }
1 (Bj ) . 2 Xj
j =1
El siguiente teorema, da una condici on necesaria y suciente para la independencia de un conjunto de variables que es m as simple de vericar.
Teorema 4.13 Una condici on necesaria y suciente para que las variables aleatorias X1 , X2 , . . . , Xk sean independientes es que para todo (x1 , x2 , . . . , xk ) Rk se cumpla que FX (x1 , x2 , . . . , xk ) = FX1 (x1 ) FX2 (x2 ) . . . FXk (xk ) , donde X = (X1 , X2 , . . . , Xk ) . Demostraci on. Para ver que (4.14) es una condici on necesaria para la independencia de X1 , . . . , Xk , basta aplicar el Teorema 4.12 a los conjuntos B1 = (, x1 ], B2 = (, x2 ], . . . , Bk = (, xk ]. (4.14)
83
Probaremos ahora la suciencia. Consideremos los conjuntos del tipo B1 B2 Br (, xr+1 ] (, xr+2 ] (, xk ], donde B1 B2 Br son borelianos en R. Probaremos por inducci on sobre r que vale la siguiente propiedad que llamamos Ar : PX (B1 B2 Br (, xr+1 ] (, xr+2 ] (, xk ]) = PX1 (B1 ) PXr (Br ) PXr+1 ((, xr+1 ]) PXk ((, xk ]) .
(4.15)
Para r = 0, la condici on (4.15) vale por hip otesis, puesto que se reduce a un producto de semirectas. Supongamos que vale para r y probemos que vale para r + 1. En primer lugar probemos que si (4.15) vale para r, tambi en vale reemplazando (, xr+1 ] por R, esto es PX (B1 B2 Br R (, xr+2 ] (, xk ]) = PX1 (B1 ) PXr (Br ) PXr+1 (R) PXk ((, xk ]) = = PX1 (B1 ) PXr (Br ) PXr+2 ((, xr+2 ]) PXk ((, xk ]) .
Para mostrar esto podemos considerar una sucesi on creciente de semirectas Cn = (, n]. Luego
y la sucesi on {B1 B2 Br Cn (, xr+2 ] (, xk ]}, n = 1, 2, . . . es mon otona no decreciente en Rk y vale B1 B2 Br Cn (, xr+2 ] (, xk ]
= B1 B2 Br R (, xr+2 ] (, xk ] Luego usando que vale Ar tenemos que PX (B1 B2 Br R (, xr+2 ] (, xk ])

n
(4.16)
R=
Cn
n=1
= l m PX (B1 B2 Br Cn (, xr+2 ] (, xk ])
n
= l m PX (B1 )PX (B2 ) PX (Br )PX (Cn )PX ((, xr+2 ]) PX ((, xk ]) = PX (B1 )PX (B2 ) PX (Br )PX (R)PX ((, xr+2 ]) PX ((, xk ]), que es lo que quer amos probar. Ahora probaremos Ar+1 . Es decir debemos probar que dados borelianos B1 , . . . ., Br+1 y reales xr+2 , . . . , xk se tiene PX (B1 B2 Br Br+1 (, xr+2 ] (, xk ]) = PX1 (B1 ) PXr (Br ) PXr+1 (Br+1 ) PXk ((, xk ]) .
(4.17)
84 Consideremos el conjunto
V ctor J. Yohai
A = B1 B2 Br R (, xr+2 ] (, xk ], y distinguimos dos casos: (a) PX (A) = 0, (b) PX (A) > 0. Consideremos primero el caso (a). Por (4.16) 0 = PX (A) = PX (B1 B2 Br R (, xr+2 ] (, xk ]) = PX1 (B1 ) PXr (Br ) PXr+1 (R) PXk ((, xk ]) se tiene que PX (Bi ) = 0 para alg un 1 i r o bien PXi ((, xi ]) = 0 para alg un r + 2 i k. En cualquiera de los dos casos el miembro derecho de (4.17) es 0. Supongamos que PX (Bi ) = 0 podemos suponer que i = 1, para jar ideas. Entonces teniendo en cuenta que B1 B2 Br Br+1 (, xr+2 ] (, xk ] B1 R R, obtenemos que PX (B1 B2 Br Br+1 (, xr+2 ] (, xk ]) PX (B1 R R) = PX1 (B1 ) = 0, y luego el miembro izquierdo de (4.17) tambi en es 0 y la igualdad se cumple. Ahora si PXi ((, xi ]) = 0, podemos suponer que i = k y proceder de manera an aloga. Luego (4.17) vale para el caso (a). Consideremos el caso (b), es decir que PX (A) > 0. Denimos un nuevo espacio de probabilidades (R, B , P ) de la siguiente manera: Para todo B B denimos P (B ) = PX (B1 B2 Br B (, xr+2 ] (, xk ]) . PX (A)
Obs ervese que los borelianos B1 , B2 , . . . Br y los reales xr+2 , . . . , xk permanecen jos cuando se cambia B. Veamos en primer lugar que efectivamente P : B [0, 1] es una probabilidad. (i) Claramente PX (A) P (R) = =1. PX (A)
(ii) Supongamos que (Cn )n1 B es una sucesi on de borelianos disjuntos dos a dos. Entonces P
n
PX = PX = =
n=1 PX (B1
=
n=1
PX (B1 B2 Br Cn (, xr+2 ] (, xk ]) PX (A) P (Cn ) .
=
n=1
Esto prueba que P es una probabilidad. Observemos que en la deducci on anterior se us o, adem as de que P es una probabilidad, una propiedad de la teor a de conjuntos, f acil de probar: B1 B2 Br =
n
Ahora calcularemos el valor de P sobre una semirecta. Dado que Ar es v alida (hip otesis inductiva), si x R se tiene P ((, x]) PX (B1 B2 Br (, x] (, xr+2 ], (, xk ]) = PX (A) PX1 (B1 ) PXr (Br ) PXr+1 ((, x]) PXk ((, xk ]) = PX1 (B1 ) PXr (Br ) PXr+1 (R) PXk ((, xk ]) = PXr+1 ((, x]) . Entonces por la unicidad de la extensi on como PXr+1 y P coinciden en las semirectas (, x] se tendr a por el Teorema de Extensi on que para todo B B, P (B ) = PXr+1 (B ) .

Cn B1 B2 Br
n
85
Cn (, xr+2 ] (, xk ]
PX (A)
(B1 B2 Br Cn (, xr+2 ] (, xk ]) PX (A) B2 Br Cn (, xr+2 ] (, xk ]) PX (A)
Cn (, xr+2 ], (, xk ]
(B1 B2 Br Cn (, xr+2 ], (, xk ]) .
86 En particular P (Br+1 ) = PXr+1 (Br+1 ) , y luego PXr+1 (Br+1 ) =
V ctor J. Yohai
PX (B1 B2 Br Br+1 (, xr+2 ] (, xk ]) . PX1 (B1 ) PXr (Br ) PXr+1 (R) PXk ((, xk ]) .
Despejando de la ecuaci on anterior y usando que PXr+1 (R) = 1 obtenemos PX (B1 B2 Br Br+1 (, xr+2 ] (, xk ]) = PX1 (B1 ) PXr (Br ) PXr+1 (Br+1 ) PXk ((, xk ]) ,
= PXr+1 (Br+1 ) PX1 (B1 ) PXr (Br ) PXr+2 (Br+2 ) PXk ((, xk ])
y luego tambi en vale Ar+1 . 2
4.5.2.
Conservaci on de la independencia por transformaciones.
El siguiente teorema prueba que la independencia se conserva por transformaciones. Teorema 4.14 Sea (, A, P ) un espacio de probabilidad sean X1 , X2 , . . . , Xh variables aleatorias independendientes. Si gj : R R, j = 1, 2, . . . , h son funciones medibles entonces Y1 = g1 (X1 ) , Y2 = g2 (X2 ) , . . . , Yh = gh (Xh ) tambi en son variables aleatorias independientes. Demostraci on. Aplicamos la denici on de independencia. Dados B1 , B2 , . . . , Bh borelianos arbitrarios queremos probar que los conjuntos
1 Y11 (B1 ) , Y21 (B2 ) . . . , Yh (Bh )
son eventos independientes. Ahora bien para cada j = 1, 2, . . . , h se tiene

1 1 1 Yj1 (Bj ) = Xj gj (Bj ) = Xj ( Cj ) , 1 donde Cj = gj (Bj ) . Como los Cj , j = 1, 2, . . . , h son borelianos, la inde1 pendencia de las variables Xj implica que los eventos Xj (Cj ) son independientes. Luego las variables Y1 , . . . Yh son independientes. 2
4.5.3.
Independencia de vectores aleatorios.
Denici on 4.8 Denici on. Sea (, A, P ) un espacio de probabilidad. Sean X1 , X2 , . . . , Xh vectores aleatorios de dimensiones k1 , k2 , . . . , kh respectivamente, esto es Xi : Rki , i = 1, 2, . . . , h
87
son vectores aleatorios. Diremos que el sistema de vectores es independiente si dados B1 B k1 , B2 B k2 , . . . , Bh B kh , borelianos arbitrarios en sus 1 respectivos espacios, los conjuntos X j (Bj ) , j = 1, 2, . . . , h son eventos independientes. Las siguientes dos proposici ones dan condiciones necesarias y sucientes para que un conjunto de vectores aleatorios sean independientes. Las dos condiciones son an alogas a las obtenidas para variables aleatorias. Propiedad 4.6 Una condici on necesaria y suciente para que el conjunto de vectores X1 , X2 , . . . , Xh , donde Xi es de dimensi on ki sean independientes es que para todo B1 B k1 , B2 B k2 , . . . , Bh B kh se cumpla PX (B1 B2 Bh ) = PX1 (B1 ) PX2 (B2 ) . . . PXh (Bh ) , donde X = (X1 , X2 , . . . , Xh ) . Demostraci on. An aloga a la demostraci on de la proposici on correspondiente para variables aleatorias. 2 Propiedad 4.7 Una condici on necesaria y suciente para que un conjunto de vectores X1 , X2 , . . . , Xh sean independientes es que para todo (x1, x2 , . . . , xh ) Rk1 Rk2 Rkh se tenga FX (x1, x2 , . . . , xh ) = FX1 (x1 ) FX2 (x2 ) . . . FXh (xh ) ,
donde X = (X1 , X2 , . . . , Xh ) . Demostraci on. An aloga a la demostraci on de la proposici on correspondiente para variables aleatorias.2 Propiedad 4.8 Sean X1 , X2 , . . . , Xh un sistema de vectores aleatorios de dimensiones k1 , k2 , .., kh respectivamente. Sean g1 , g2 , . . . , gh funciones medibles, gi : Rki Rji , i = 1, 2, . . . , h. Entonces los vectores aleatorios Y1 = g1 (X1 ) , Y2 = g2 (X2 ) , . . . , Yh = gh (Xh ) son independientes. Demostraci on. An aloga a la demostraci on de la proposici on correspondiente para variables aleatorias. 2
88
V ctor J. Yohai
Cap tulo 5
Vectores aleatorios discretos y continuos.

Tal como ocurre con las variables aleatorias, existen distintos tipos de vectores aleatorios.
5.1.
Vectores aleatorios discretos.
Denici on 5.1 Sea X = (X1 , X2 , . . . , Xh ) un vector aleatorio. Si dice que X es discreto o bien que tiene distribuci on discreta sii para cada i = 1, 2, . . . , h, Xi es un variable aleatoria discreta. Esto implica, de acuerdo a lo estudiado, que para cada i = 1, 2, . . . , h existe un conjunto nito o innito numerable RXi tal que PXi (RXi ) = 1. La Propiedad 5.2 que enunciaremos en breve muestra que el conjunto
= RX1 RXh RX
es nito o innito numerable y que PX (R ) = 1. Necesitamos previamente demostrar la siguiente propiedad Propiedad 5.1 Sean A1 , . . . , Ah una sucesi on nita de eventos tal que para todo i, 1 i h, tal que P (Ai ) = 1. Entonces
h
P
i=1
Ai
= 1.
Demostraci on. Basta probar que la probabilidad del complemento es cero. Eso se sigue inmediatamente dado que la probabilidad es subaditiva y P (Ac i) = 0. En efecto, se tiene
h c h h
0P
Ai
i=1
=P
i=1
Ac i 89
P (Ac i ) = 0.
i=1
90 Luego
h h
V ctor J. Yohai
P
i=1
Ai
=1P
Ai
i=1
= 1. 2
Observaci on. La Propiedad 5.1 tambi en vale para una sucesi on numerable de eventos y su demostraci on es an aloga. Propiedad 5.2 Sea X = (X1 , X2 , . . . , Xh ) un vector aleatorio. Entonces el conjunto RX = RX1 RXh es nito o innito numerable y PX (R ) = 1.
es a lo sumo numerable, porque un producto cartesiano Demostraci on. RX nito de conjuntos a lo sumo numerables es a lo sumo numerable. Adem as h
{ : X ( ) RX1 RXh } = Luego por la Propiedad 5.1
i=1
{ : Xi ( ) RXi }.
) = PX (RX1 RXh ) = P ({ : X ( ) RX1 RXh }) PX (RX h
=P
i=1
{ : Xi ( ) RXi }
= 1,
ya que P ({ : Xi ( ) RXi }) = PXi (RXi ) = 1. 2 De manera an aloga a como lo hicimos para una sola variable se puede buscar el m nimo conjunto que tiene probabilidad 1. Este conjunto puede . ser distinto de RX Ejemplo 5.1 Consideremos un vector aleatorio X = (X1 , X2 ) que asume los valores {(0, 0) , (1, 1)} con la misma probabilidad 0,5. De esto se deduce que las variables aleatorias X1 , X2 a su vez asumen los valores 0 y 1 con probabilidad 0,5 para ambos. Ahora bien
RX = RX1 RX2 = {(0, 0) , (1, 1) , (0, 1) , (1, 0)}.
puede ser reducido a R = {(0, 0) , (1, 1)}. Se ve que el conjunto RX X
M as generalmente si X es un vector discreto de dimensi on k, podemos considerar el conjunto de los atomos de la probabbilidad, RX = {x :PX ({x}) > 0} RX1 RXh . El siguiente Teorema, cuya demostraci on es an aloga al Teorema 3.1 muestra que RX es el minimo conjunto de probabilidad 1.
5.1. Vectores aleatorios discretos.
91
Teorema 5.1 Se tiene que PX (RX ) = 1. Adem as si B B k es tal que PX (B ) = 1, entonces RX B.
5.1.1.
Funci on de densidad de probabilidad conjunta.
Una vez obtenido el conjunto RX donde se concentra la probabilidad de un vector aleatorio discreto, vamos a mostrar que de igual manera que en el caso de una variable aleatoria, podemos determinar una funci on denida k ahora sobre R que determina totalmente a PX . Denici on 5.2 Sea X = (X1 , X2 , . . . , Xk ) un vector aleatorio discreto. Se dene la funci on densidad de probabilidad conjunta pX : Rk [0, 1] , asociada al vector X por pX (x) = PX ({x}) . Observaci on. De acuerdo a la denici on de RX se tendr a pX (x) = >0 0 si x RX si x / RX .
Como consecuencia de las anteriores observaciones y de manera an aloga a como lo hemos hecho para una sola variable se tiene el siguiente teorema. Teorema 5.2 Para todo B B k se tiene PX (B ) =
xB RX
pX (x) pX (x) .
xB R X
=R Muchas veces es conveniente considerar el conjunto RX X1 RX2 RXk en vez de RX .
Teorema 5.3 Sea B = B1 B2 Bk , donde B1 , . . . , Bk son borelianos en R. Entonces (a) PX (B ) =

xk Bk RXk xk1 Bk1 RXk1
...
x1 B1 RX1
pX (x1 , x2 , . . . , xk ) .
(b) ...
xk RXk xk1 RXk1 x1 RX1
pX (x) = 1.
92 Demostraci on. PX (B ) =
xB RX
V ctor J. Yohai
pX (x) pX (x)
xB R X
= =
pX (x)
xB (RX1 RX2 RXk )
=
xB1 RX1 B2 RX2 Bk RXk
pX (x) ...
xk Bk RXk xk1 Bk1 RXk1 x1 B1 RX1
pX (x1 , x2 , . . . , xk ) .
Luego (a) vale. En particular si tomamos Bi = R, luego B = Rk y 1 = PX Rk =

xRX1 RX2 RXk
pX (x) ...
xk RXk xk1 RXk1 x1 RX1
pX (x) ,
y luego (b) vale. 2
5.1.2.
Caracterizaci on de la funci on de densidad marginal asociada a un subconjunto de variables.
Se trata de determinar a partir de la funci on de densidad conjunta, la marginal asociada a un subconjunto arbitrario de variables. Para jar ideas, consideremos un vector aleatorio X = (X1 , X2 , . . . , Xh , Xh+1 , . . . , Xk ) y un subvector X = (X1 , X2 , . . . , Xh ) . Propiedad 5.3 La funci on de densidad marginal asociada al vector X viene dada por la f ormula pX (x) =
xh+1 RXh+1 xh+2 RXh+2
...
xk RXk
pX (x1 , . . . , xh , xh+1 , . . . , xk ) .
Demostraci on. Aplicando la denici on de pX pX ((x1 , x2 , . . . , xh )) = PX ({(x1 , x2 , . . . , xh )})
= PX ({{x1 } {x2 } {xh } R R) .
5.1. Vectores aleatorios discretos.
Entonces de acuerdo al resultado anterior pX ((x1 , x2 , . . . , xh )) = PX ({x1 } {x2 } {xh } R R) = = ... pX (x1 , . . . , xh , xh+1 , . . . , xk )
xk RXk xh+1 RXk+1
xk RXk
...
xk+1 RXk+1
93
pX (x1 , . . . , xh , xh+1 , . . . , xk ). 2
Ahora vamos a dar una condici on necesaria y suciente de independencia para el caso de variables aleatorias con distribuci on discreta, en t erminos de la funci on de densidad conjunta y sus marginales. Para esto recordemos que una condici on necesaria y suciente para que el sistema de variables aleatorias X1 , X2 , . . . , Xh sea independiente es que dados borelianos arbitrarios B1 , B2 , . . . , Bh PX (B1 B2 Bh ) = PX1 (B1 ) PX2 (B2 ) . . . PXh (Bh ) . (5.1)
Teorema 5.4 Sea X = (X1 , X2 , . . . , Xh ) un vector aleatorio con distribuci on discreta. Una condici on necesaria y suciente para que el conjunto de variables aleatorias X1 , X2 , . . . , Xh con distribuci on discreta sea independih ente es que para todo x = (x1 , . . . , xh ) R pX (x) = pX1 (x1 ) pX2 (x2 ) . . . pXh (xh ) . (5.2)
Demostraci on. Es f acil ver que (5.2) es necesaria. Tomando en particular los borelianos Bj = {xj }, j = 1, 2, . . . , h y aplicando (5.1) se obtiene pX (x) = PX ({(x1 , x2 , . . . , xh )}) = PX ({x1 } {x2 } {xh }) = PX1 ({x1 }) PX2 ({x2 }) . . . PXh ({xh }) = pX1 (x1 ) pX2 (x2 ) . . . pXh (xh ) .
Ahora veamos la suciencia. Tenemos que probar que si ocurre (5.2) entonces las variables X1 , . . . , Xh son independientes. Como (5.1) implica la suciencia, bastar a probar que (5.2) implica (5.1). Como la demostraci on para k = 2 es similar a la demostraci on general pero la notaci on es m as simple, lo probaremos en este caso. Consideremos un
94
V ctor J. Yohai
vector de dos componentes X = (X1 , X2 ) y sean B1 , B2 borelianos, entonces PX (B1 B2 ) = =

x1 B1 RX1 x2 B2 RX2
pX (x1 , x2 )
x1 B1 RX1 x2 B2 RX2
pX1 (x1 ) pX1 (x2 ) pX1 (x2 ) . 2
Observaci on. En la u ltima igualdad hemos usado la f ormula ab =

(a,b)AB aA bB
x1 B1 RX1
pX1 (x1 )
x2 B2 RX2
ab =
aA
b
bB
5.2.
5.2.1.
Ejemplos de vectores aleatorios con distribuci on discreta.

Distribuci on Multinomial.
Supongamos que un experimento que tiene k posibles resultados se repite n veces en forma independiente. Sean Ai , i = 1, 2, . . . , k, los posibles resultados del experimento y pi la probabilidad que el resultado sea Ai . Luego
k
pi = 1.
i=1
Existen una gran cantidad de ejemplos de este tipo de experimentos. Por ejemplo si se tira un dado hay seis posibles resultados con la misma probabilidad . Luego pi = 1/6, i = 1, . . . , 6. Otro experimento puede ser se registra el voto de n ciudadanos elegidos al azar en una elecci on donde hay k candidatos. En este caso en principio los valores de los pi pueden ser arbitrarios. Denotamos con Xi a la variable aleatoria cantidad de veces que ocurre el resultado Ai a lo largo de los n experimentos i = 1, 2, . . . , k y formemos el vector aleatorio X = (X1 , X2 , . . . , Xk ) . Se dice que el vector aleatorio X = (X1 , . . . , Xk ) tiene distribuci on multinomial con k resultados distintos con probabilidades p1 , . . . , pk y n repeticiones y ser a simbolizada por Mk (p1 , . . . , pk , n). Como espacio muestral consideremos = {(i1 , i2 , . . . , in ) : ij N, 1 ij k}, donde ij indica el resultado que ocurri o en la j esima repetici on del experimento.
5.2. Ejemplos de vectores aleatorios con distribuci on discreta.
95
Por ejemplo si n = 4 y k = 3 la 4-upla (1, 3, 2, 3) indica que el resultado A1 ocurri o la primera vez y nunca m as, el resultado A3 la segunda y cuarta vez y el resultado A2 la tercera. Con este espacio muestral, las variables aleatorias Xj : N est an denidas por Xi ((i1 , i2 , . . . , in )) = #{j : ij = i}. y se tiene que
k
Xi ((i1 , i2 , . . . , in )) = n.
i=1
El espacio no es equiprobable. Vamos a encontar ahora la probabilidad de cada elemento (i1 , . . . , in ) de .Consideremos los eventos Bj = {en el experimento j el resultado fue ij }, j = 1, . . . , n Vamos ahora encontrar la probabilidad P denida sobre .Luego el resultado (i1 , i2 , . . . , in ) es equivalente a la intersecci on de Bj , 1 j n. Como suponemos independencia de los experimentos y el evento Bj tiene probabilidad pj ,resulta P ({(i1 , i2 , . . . , in )}) = pi1 pi2 . . . pin = p1 1 El rango de X es
n
X ((i1 ,i2 ,...,in )) X2 ((i1 ,i2 ,...,in )) p2
pk k
X ((i1 ,i2 ,...,in ))
. (5.3)
RX =
(x1 , . . . , xk ) : 0 xi n,
xi = n
i=1
Fijado x = (x1 , . . . xk ) RX , calcularemos la probabilidad del evento A = X1 (x) = {(i1 , i2 , . . . , in ) : X ((i1 , i2 , . . . , in )) = (x1 , x2 , . . . , xk )}. El evento A ocurre cuando para cada i, 0 xi k, el resultado Ai ocure xi veces en las n repeticiones del experimento. En particular si (i1 , i2 , . . . , in ) A, de acuerdo a (5.3) se tendr a
xk 1 x2 P ({(i1 , i2 , . . . , in )}) = px 1 p2 pk .
Luego todo los elementos de A tienen la misma probabilidad y por lo tanto la probabilidad de A estar a dada por la probabilidad de un elemento
96
V ctor J. Yohai
por su cardinal . Un argumento simple de combinatoria muestra que #A = n x1 n x 1 x2 xk xk x2 x3 n! (n x1 )! (n x1 x2 )! = .,1 (x1 )! (n x1 )! (x2 )! (n x1 x2 )! (x3 )! (n x1 x2 x3 )! n! = . (x1 )! (x2 )! (x3 )! . . . (xk )! n x1
Esto resulta del hecho de que para elegir un elemento de A hay que elegir los x1 lugares donde ocurri o A1 entre los n, hay que elegir los x2 lugares en los que ocurri on A2 entre los n x1 restantes, etc. Luego tendremos pX (x1 , x2 , . . . , xk ) = PX (A) = n! k 1 x2 .px p2 . . . px k . 1 (x1 )! (x2 )! (x3 )! . . . (xk )!
5.2.2.
Distribuci on Hipergeom etrica Multivariada.
Consideremos N objetos que pueden clasicarse en k clases distintas A1 , A2 , . . . , Ak . Supongamos conocida la cantidad de objetos de cada clase, digamos D1 de la clase A1 , D2 de la clase A2 , . . . , Dk de la clase Ak , y por lo tanto k i=1 Di = N. Supongamos que se realizan extracciones de n objetos y sea Xi la cantidad de objetos de la clase i que se obtuvieron en las n extracciones. Consideremos el vector aleatorio X = (X1 , X2 , . . . , Xk ) . Existen dos posibilidades (a) Las extracciones se hacen con reposici on. En este caso, el experimento tiene distribuci on multinomial con par ametros p1 , p2 , . . . , pk y n, donde pi = Di /N. (b) Las extracciones se hacen sin reposici on. En este caso la distribuci on se denomina hipergeom etrica multivariada y ser a denotada por HGMk (D1 , . . . , Dk , n). El rango del vector X estar a dado por RX = {(x1 , x2 , . . . , xk ) : 0 xi Di , x1 + x2 + + xk = n}. Como cada n-upla tiene una probabilidad distinta, no ser a conveniente tomar como espacio muestral el conjunto de estas kuplas. Para construir un espacio de probabilidad equiprobable procedemos de la siguiente manera. Comenzamos enumerando todos los objetos de la siguiente manera. Los de clase 1 por M1 = {1, 2, . . . , D1 }.
5.2. Ejemplos de vectores aleatorios con distribuci on discreta.
97
Los de la clase 2 por M2 = {D1 + 1, D1 + 2, . . . , D1 + D2 }. Los de la clase 3 por M3 = {D1 + D2 + 1, D1 + D2 + 2, . . . , D1 + D2 + D3 }. y nalmente los de la clase k por
k 1 k 1 k
Mk =
i=1
Di + 1,
i=1
Di + 2, . . . ,
i=1
Di
Denamos entonce el espacio muestral por = {A : A {1, . . . , N }, #A = n}, Si el conjunto A se interpreta como el conjunto de los n umeros de las bolillas obtenidas, resultar a que todos los elementos de son equiprobables. Por ejemplo si N = 20 y n = 3 la probabilidad de extraer los elementos {1, 2, 17} o {2, 6, 8} es la misma. El n umero de elementos de es la cantidad de subconjuntos de n elementos que se pueden formar con los N dados. Luego # () = N n
Dado A , se dene Xi (A) = # (A Mi ) , 1 i k, y X(A) = (X1 (A), . . . , Xk (A)). Consideremos ahora el evento C = {A : X (A) = (x1 , x2 , . . . , xk )}. El evento C representa todas las extracciones en las que resulta que hay exactamente x1 elementos de la clase A1 , x2 de la clase A2 , ..., xk de la clase A. Un argumento combinatorio simple muestra que el cardinal de C es # (C ) = de manera que pX (x1 , x2 , . . . , xk ) = P (C ) =
D1 x1 D2 Dk x2 xk N n
D1 x1
Dk D2 , xk x2
98
V ctor J. Yohai
5.3.
Vectores Aleatorios de tipo absolutamente continuo.
Denici on 5.3 Sea (, A, P ) un espacio de probabilidad y X = (X1 , X2 , . . . , Xk ) un vector aleatorio. Se dice que el vector es absolutamente continuo si existe una funci on integrable sobre Rk , fX : Rk R0 llamada funci on de densidad de la probabilidad PX tal que
xk x k 1 x1
FX (x1 , x2 , . . . , xk ) =
fX (t1 , t2 , . . . , tk ) dt1 dt2 . . . dtk
fX (t) dt,
(,x1 ](,x2 ](,xk ]
donde t = (t1 , t2 , . . . , tk ) y dt = dt1 dt2 . . . dtk . Tomando l mite cuando x1 , . . . , xk , se tendr a

+ + +
fX (t) dt = PX (Rk ) = 1.
El siguiente teorema da la probabilidad que un vector aleatorio tome valores en un rect angulo k-dimensional. Teorema 5.5 Supongamos que X = (X1 , . . . , Xk ) sea un vector aleatorio absolutamente continuo con densidad fX . Sean a1 < b1 , a2 < b2 , a3 < b3 , . . . , ak < bk . Luego se tiene PX ((a1 , b1 ] (a2 , b2 ] (ak , bk ])
bk bk1 b1
=
ak ak1
fX (t1 , t2 , . . . , tk ) dt1 dt2 . . . dtk .

a1
fX (t) dt,
(a1 ,b1 ](a2 ,b2 ](ak ,bk ]
Demostraci on. Tenemos que mostrar que

k
(ak , bk )
bk bk1 ak ak1
1 (a1 , b1 ) FX (x1 , x2 , . . . , xk ) b1
fX (t1 , t2 , . . . , tk ) dt1 dt2 . . . dtk .

a1
Para esto bastar a probar que para todo 1 h k se tiene

h (ah , bh ) 1 (a1 , b1 ) FX (x1 , x2 , . . . , xh, xh+1 , . . . xk ) xk xh+1 bh b1
ah
fX (t1 , t2 , . . . , th, th+1 , . . . tk ) dt1 dt2 . . . dth ,

a1
5.3. Vectores Aleatorios de tipo absolutamente continuo.
99
y esto se prueba por inducci on en h. 2 Observaci on. Usando la integral de Lebesgue, se puede probar, mediante teor a de la medida e integraci on que para todo boreliano B B k PX (B ) = fX (t) dt.
B
(5.4)
Si se usa la integral de Riemman, la integral del segundo miembro de (5.4) puede no existir. Unicamente existe si el borde de B tiene medida de Riemman 0. En cambio la correspondiente integral de Lebesgue siempre existe. Desde el punto de vista pr actico en este curso solo se va a trabajar con conjuntos B para los cuales la integral de Riemman existe. La funci on de densidad de probabilidad tiene una interpretaci on an aloga a la que hemos visto para el caso univariado. La siguiente propiedad dice que en un punto de continuidad, el l mite de la probabilidad de un entorno de un punto sobre su volumen, cuando el entorno se aproxima al punto es el valor de la densidad en el punto. M as precisamente Teorema 5.6 Sea fX la funci on densidad asociada al vector aleatorio X = (X1 , X2 , . . . , Xk ) continua en el punto x0 = (x10 , x20 , . . . , xk0 ) . Entonces
h0
l m
PX ([x10 h, x10 + h] [xk0 h, xk0 + h]) (2h)k
= fX (x0 ) .
Demostraci on. Es an aloga al caso univariado y se deja como ejercicio. 2 Observaci on. Los entornos c ubicos se pueden reemplazar por otro tipo de entornos, por ejemplo entornos esf ericos. En el denominador habr a que poner el volumen correspondiente. Bajo el supuesto de que la densidad sea continua, se puede escribir la densidad como la derivada parcial cruzada de orden k de la funci on de distribuci on. Teorema 5.7 Supongamos que fX sea continua en x0 . Entonces fX (x0 ) = k FX (x1 , x2 , . . . , xk ) xk xk1 x1
x k 1 xk x1
.
x= x0
Demostraci on. Por Fubini se tiene

xk
FX (x1 , x2 , . . . , xk ) =
x1
fX (t1 , t2 , . . . , tk ) dt1 dt2 . . . dtk

x1
x k 1
fX (t1 , t2 , . . . , tk ) dt2 . . . dtk dt1
100 y aplicando el teorema fundamental del c alculo resulta FX (x1 , x2 , . . . , xk ) = x1 =

xk x2 x k 1 xk x2
V ctor J. Yohai
fX (x1 , t2 , . . . , tk ) dt2 . . . dtk .

x3
x k 1
fX (x1 , t2 , . . . , tk ) dt3 . . . dtk dt2
y aplicando nuevamente el teorema fundamental del c alculo obtenemos FX (x1 , x2 , . . . , xk ) = x2 x1

xk x k 1 x2
fX (x1 , x2 , t3 , . . . , tk ) dt3 . . . dtk .
Repitiendo lo mismo k veces se demuestra el teorema. 2 Denici on 5.4 Dado un boreliano B B k se dene su volumen de la siguiente manera V ol (B ) = dx1 dx2 . . . dxk =
B
dx.
B
Observaci on. Un caso t pico de conjuntos con volumen 0 resulta ser un punto en R, una recta en R2 , un plano en R3 y en general un hiperplano en Rk . Las uniones a lo sumo numerables de conjuntos de volumen cero tienen volumen cero. En general cualquier subconjunto de Rk de dimensi on j con j < k tendr a volumen 0. Por ejemplo las curvas en R2 o las supercies en R3 . Veremos que si el vector aleatorio es absolutamente continuo la funci on de probabilidad asociada asigna probabilidad 0 a conjuntos cuyo volumen es 0. Teorema 5.8 Sea X un vector aleatorio de dimensi on k. Si B B k tal que Vol(B ) = 0 entonces PX (B ) = 0. Demostraci on. Sea Cn = {x Rk : fX (x) > n}. Es claro que si x Cn+1 entonces fX (x) > n +1 > n de manera que x Cn , es decir la sucesi on de conjuntos {Cn }n1 es decreciente y adem as, puesto que la funci on fX es nita en todo punto, se tiene C = . Luego n=1 n tambi en se tendr a l m PX (Cn ) = 0.
n c ) . Como esta uni Podemos descomponer a B = (B Cn ) (B Cn on es disjunta, se tiene c PX (B ) = PX (B Cn ) + PX (B Cn ).
101
c ). Para ello observemos que para todo n N Ahora calculamos PX (B Cn c P ( B Cn )=
fX (x) dx
c B Cn
dx
c B Cn c Cn )
= nVol (B = 0.
nVol (B ) Entonces para todo n N resulta
PX (B ) = PX (B Cn ) PX (Cn ) , de manera que pasando al l mite se concluye que PX (B ) = 0. 2 Observaci on. Existe una diferencia importante entre los vectores discretos y los absolutamente continuos. Recordemos que un vector es discreto si y s olo si sus componentes son variables discretas. Esto no ocurre en el caso de los vectores aleatorios absolutamente continuos. Para demostrarlo daremos un contraejemplo. Consideremos una variable aleatoria X1 , con distribuci on absolutamente continua y sea X2 = X1 de manera que el vector X = (X1 , X2 ) tiene como componentes variables aleatorias con distribuciones absolutamente continuas. Ahora veamos que el vector X no puede tener distribuci on absolutamente continua. Para ello observemos que B = {(x1 , x2 ) R2 : x1 = x2 } es una recta en R2 de manera que tiene volumen cero. Pero sin embargo PX (B ) = P ({ : X1 ( ) = X2 ( )) = P () = 1.
Teorema 5.9 Sea X = (X1 , X2 , . . . , Xh , Xh+1 , . . . , Xk ) un vector aleatorio de dimensi on k. Consideremos un subconjunto de coordenadas y formemos el vector aleatorio asociado X = (X1 , X2 , . . . , Xh ). Entonces X tambi en es absolutamente continuo y fX (x1 , x2 , . . . , xh )
+ + +
(5.5) fX (x1 , x2 , . . . xh , th+1 , . . . , tk ) dth+1 dth+2 . . . dtk .
102 Demostraci on. Tenemos que FX (x1 , x2 , . . . , xh )
V ctor J. Yohai
= PX ((, x1 ] (, x2 ] (, xh ]) = =

= PX (, x1 ] (, x2 ] (, xh ] R R R
k h factores (,x1 ](,x2 ]...(,xh ] ... + + xh x1 +
fX (t1 , t2 , . . . , tk ) dt1 . . . dth dth+1 dth+2 . . . dtk

x1
fX (t1 , t2 , . . . , tk ) dt1 dt2 . . . dtk
Por lo tanto, usando Fubini, se tendr a FX (x1 , x2 , . . . , xh )

+ + x1 + xh + x1
=
xh
fX (t1 , t2 , . . . , tk ) dt1 . . . dth dth+1 dth+2 . . . dtk

+
fX (t1 , t2 , . . . , tk ) dth+1 dth+2 . . . dtk dt1 . . . dth
Luego tenemos que

xh
FX (x1 , x2 , . . . , xh ) =
fX (t1 , t2 , . . . , th ) dt1 . . . dth ,
a dada por (5.5). Esto prueba el Teorema. 2 donde fX est Observaci on. Por comodidad hemos escogido las primeras h componentes pero lo mismo puede hacerse para una colecci on arbitraria de ellas. En el caso de una distribuci on bivariada X = (X1 , X2 ) , X = X1
+
fX1 (x1 ) =
fX (x1 , x2 ) dx2 .
El siguiente Teorema da una condici on necesaria y suciente para que un conjunto de variables absolutamente continuas sean independientes. Teorema 5.10 Sean X1 , . . . , Xk variables aleatorias absolutamente continuas con densidades fX1 , . . . , fXk . Luego estas variables son independientes si y s olo si el vector X = (X1 , . . . Xk ) tiene como densidad conjunta a la funci on
k
f (x1 , . . . , xk ) =
i=1
fXi (xi ).
103
Demostraci on. Como sabemos, por el Teorema 4.13, que X1 , . . . , Xk son independientes si y s olo si
k
FX (x) =
i=1
FXi (xi ),
(5.6)
por el Teorema 4.5 (Teorema de Extensi on para vectores aleatorios) bastar a probar que la funci on de distribuci on F correspondiente a f est a dada por (5.6). Vamos a mostrar que esto es cierto. En efecto, tenemos
xk x1 k
F (x1 , . . . , xk ) =
k
..
i=1 xi
fXi (xi )dx1 . . . dxk
=
i=1 k
fXi (xi )dxi
=
i=1
FXi (xi ),
y luego el Teorema queda probado. 2 El siguiente Teorema que se deja como ejercicio prueba una propiedad similar para vectores. Teorema 5.11 Sean X1 , . . . , Xk vectores aleatorios absolutamente continuos con densidades fX1 , . . . , fXk . Luego estos vectores son independientes si y s olo si el vector X = (X1 , . . . Xk ) tiene como densidad a la funci on
k
f (x1 , . . . , xk ) =
i=1
fXi (xi ).
104
V ctor J. Yohai
Cap tulo 6
Transformaciones de variables y vectores aleatorios.

En esta secci on estudiaremos c omo se obtienen las distribuciones de variables o vectores aleatorios obtenidos a partir de otros a trav es de cierto tipo de transformaciones.
6.1.
Transformaciones mon otonas de variables aleatorias.
Sea (, A, P ) un espacio de probabilidad y X una variable aleatoria. Consideremos una funci on g : R R continua y estrictamente mon otona, es decir, estrictamente creciente o bien estrictamente decreciente. Sabemos que Y = g (X ) es otra variable aleatoria. Queremos estudiar la relaci on que existe entre FX y FY . Caso de g estrictamente creciente. La imagen de g (R) es un intervalo abierto (a, b) de longitud nita o bien innita, es decir tambi en puede ser y b = .El siguiente teorema da la relaci on entre FX y FY . Teorema 6.1 Sea g : R R una funci on estrictamente creciente y sea (a, b) = g(R). Entonces si X es una variable aleatoria con funci on de distribuci on FX , la funci on de distribuci on de Y = g(X ) ser a 0 FY (y ) = F g1 (y ) X 1 105 si y a si y (a, b) si y b. (6.1)
106
V ctor J. Yohai
Demostraci on. Sea a < y < b. Como g es estrictamente creciente se tendr a FY (y ) = P (Y y ) = P (g (X ) y ) = P X g1 (y ) = FX g1 (y ) . Si y a se tendr a que { : g(X ( )) y } = y luego FY (y ) = P ({ : g(X ( )) y }) = 0. Del mismo modo, si y b se tendr a { : g(X ( )) y } = , y luego FY (y ) = P ({ : g(X ( )) y }) = 1. 2 Caso de g estrictamente decreciente. Nuevamente la imagen de g es un abierto (a, b) de longitud nita o innita. En este caso tenemos el siguiente teorema. Teorema 6.2 Sea g : R R una funci on estrictamente decreciente (a, b) = g(R). Entonces se tiene (a) Si X es una variable aleatoria con funci on de distribuci on FX , la funci on de distribuci on de Y = g(X ) ser a si y a 0 FY (y ) = 1 P X < g1 (y ) si y (a, b) (6.2) 1 si y b. (b) Si adem as FX es continua se tendr a 0 FY (y ) = 1 FX g1 (y ) 1 si y a si y (a, b) si y b.
(6.3)
Demostraci on.
(a) Como g es estrictamente decreciente se tiene para a < y < b que FY (y ) = P (Y y ) = P (g (X ) y )
= P X g1 (y ) = 1 P X < g1 (y ) .
Los casos y a y y b se demuestran como en el Teorema 6.1. (b) En este caso se tiene P X < g1 (y ) = P X g1 (y ) = 1 FX g1 (x) . 2
6.1. Transformaciones mon otonas de variables aleatorias.
107
Ahora caracterizaremos la funci on de densidad asociada a Y . Supongamos que X tiene distribuci on absolutamente continua con densidad fX y adem as que g es derivable. Teorema 6.3 Sea g : R R una funci on estrictamente creciente o decreciente y derivable con g (y ) = 0. Sea (a, b) = g(R), entonces si X es una variable aleatoria absolutamente continua con funci on de densidad fX , la funci on de densidad de Y = g(X ) ser a 0 f g1 (y ) X fY (y ) = | g (g1 (y )) | 0 si y a si y (a, b) si y b. (6.4)
Demostraci on. En el caso de que g es estrictamente creciente, (6.4) se obtiene derivando (6.1) y observando que g > 0. En el caso que g sea estrictamente decreciente, derivando (6.3) y observando que g < 0. 2 Un caso especial de inter es ocurre cuando g es una transformaci on af n, es decir cuando g (x) = cx + d con c = 0. En este caso Y = g (X ) = cX + d y g (x) = c. Como a = y b = +, teniendo en cuenta que g1 (y ) = yd obtenemos c yd 1 . (6.5) fX ( y ) = fX |c| c
6.1.1.
Distribuci on Normal
Hemos visto la distribuci on de una variable normal standarizada X N (0, 1) cuya funci on densidad es 1 fX (x) = exp x2 . 2 Ahora vamos a denir para todo R y para todo R>0 la distribuci on normal con media y varianza 2 que indicaremos con N(, 2 ). Esta distribuci on es la que corresponde a Y = X + , donde X es N (0, 1) . De acuerdo a (6.5) tendremos fY ( y ) = = 1 fX y y .
2
1 1 1 exp 2 2
1 (y )2 exp 2 2 2
108
V ctor J. Yohai
0.0
0.2
0.4
0.6
0.8
-4
-2
Figura 6.1: Densidad de la normal est andar (en l neal llena), de la N(0, 4) (en l nea (en l nea de puntos y rayas). de puntos) y de la N 0, 1 4 El signicado de los par ametros y se estudiar a en la secci on 7.7.1. Adelantemos que representa un desplazamiento horizontal de la densidad e indica el centro de simetr a de la misma. La densidad alcanza su m aximo en y a medida que nos alejamos de , la densidad va decreciendo. El par ametro , indica la dispersi on de la variable respecto del centro. Un factor grande achata la curva hacia el eje de abcisas, y en este caso la dispersi on es grande . Cuando es chico, la probablidad esta m as concentrada cerca de . En la Figura 6.1 se muestran densidades normales con diferentes valores de ilustrando el signicado de este par ametro. Ejercicio. Se deja como ejercicio mostrar que si Y tiene distribuci on 2 N(, ), entonces Z = (Y )/ tiene distribuci on N(0, 1). Esta transformaci on se llama estandarizaci on de la variable Y y permite calcular las probabilidades de cualquier distribucion N(, 2 ) usando la distribuci on N(0, 1). Por ejemplo, sea Y con distribuci on N(3, 4) y supongamos que queremos encontrar P (3 < Y < 5). Luego Z = (Y 3)/2 es N(0, 1) y tendremos P (3 < Y < 5) = P = P (0 < Z < 1) = (1) (0) donde es la funci on de distribuci on de una N(0, 1). Usando una tabla de 33 Y 3 53 < < 2 2 2
6.2. Transformaciones inyectivas de vectores aleatorios.
109
la N(0, 1) encontramos que (0) = 0,50 y (1) = 0,8413 Luego P (3 < Y < 5) = 0,8413 0,50 = 0,3413.
6.2.
Transformaciones inyectivas de vectores aleatorios.
Entonces si y V y Jg g1 (y) = 0, resulta que g1 es diferenciable en y y se tiene 1 Jg1 (y) = . Jg (g 1 (y)) El siguiente teorema permite realizar un cambio de variables para integrales m ultiples.
Recordemos algunos resultados de c alculo integral en varias variables. Sea U Rk un abierto y g : U Rk una funci on inyectiva de manera que g : U V = g (U ) resulta biyectiva. Podemos representar g = (g1 , . . . , gk ), donde gi : U R. Luego existe g1 : V U. Supongamos que g es diferenciable en cada punto x U. El jacobiano de g se dene por g1 (x) g1 (x) g1 (x) x1 x2 xk g2 (x) g2 (x) g2 (x) x1 x2 xk = 0. Jg (x) = det . . . .. . . . . . . . gk (x) gk (x) gk (x) x1 x2 xk
Teorema 6.4 Sea A U Rk un conjunto tal que el borde tiene medida de Riemann 0, f : U R una funci on continua, g : Rk Rk una funci on inyectiva y diferenciable tal que Jg (x) = 0 para todo x A . Entonces f (x) dx =
A
g (A)
f g1 (y) |Jg1 (y) |dy.
donde dx = dx1 dx2 . . . dxk y dy = dy1 dy2 . . . dyk . Sea ahora X = (X1 , X2 , . . . , Xk ) un vector aleatorio con distribuci on absolutamente continua y sea fX su densidad. El siguiente teorema permitir a encontrar la distribuci on del vector Y = g (X) . Teorema 6.5 Sea X = (X1 , X2 , . . . , Xk ) un vector aleatorio absolutamente continuo con densidad fX tal que PX (U ) = 1, donde U es un abierto en Rk . Sea g : U Rk una funci on inyectiva diferenciable tal que para todo x U
110
V ctor J. Yohai
se tiene Jg (x) = 0. Luego el vector Y = g (X) tambi en es absolutamente continuo y su densidad est a dada por fY (y) = fX g1 (y) |Jg1 (y) |IV (y) , donde V = g(U ), e IV es la funci on indicadora del conjunto V. Demostraci on. Para esto bastar a demostrar que para todo B B k PY (B ) =
B
fX g1 (y) Jg1 (y) IV (y) dy.
(6.6)
Por denici on de funci on de densidad de X se tiene que PY (B ) = P (Y B V )
= P (g (X) B V ) =
)
= P X g1 (B V ) fX (x) dx.
g 1 (B V
Usando la f ormula de cambio de variables en integrales m ultiples resulta PY (B ) = fX (x) dx fX g1 (y) Jg1 (y) dy.
g 1 (B V )
g (g 1 (B V ))
Sea g : U W y H W . Es f acil ver que una condici on necesaria y suciente para que g g1 (H ) = H es que H g (U ). Como B V V = g(U ) resulta g(g1 (B V )) = B V y por lo tanto PY (B ) =
B V
fX g1 (y) Jg1 (y) dy fX g1 (y) Jg1 (y) dy fX g1 (y) Jg1 (y) IV (y )dy.
g (g 1 (B V ))
= =
Esto muestra que vale (6.6). 2 El resultado anterior vale cuando g es diferenciable y biun voca de un abierto de Rk en Rk . Veamos ahora que ocurre cuando g es una funci on
6.2. Transformaciones inyectivas de vectores aleatorios.
111
diferenciable de un abierto de Rk en Rj con j = k. Si j > k nada podemos hacer puesto que en tal caso el conjunto g(U ) es un conjunto de dimensi on k y por lo tanto tiene volumen 0. Luego como PY (g(U )) = 1, Y no puede ser un vector absolutamente continuo. Consideremos ahora j < k y sea U un abierto en Rk . Supongamos que g = (g1 , . . . , gj ) : Rk Rj , donde cada gi : U R, 1 i j, es una funci on diferenciable. Trataremos de derivar la densidad fY de Y = g(X). Esto es posible si se pueden encontrar funciones diferenciables gi : Rk R, i = j + 1, . . . , h tales que si llamamos g = (g1 , . . . , gj , gj +1 , . . . ., gk ) la funci on g : Rk Rk resulte inyectiva y Jg (y) =0 para todo y U. En, efecto en este caso por el teorema anterior podremos encontrar la densidad de Y = g (X) que denominaremos fY . Luego la densidad de Y ser a fY (y1 , . . . yj ) =
Veamos un ejemplo del uso de este procedimiento. Sea X = (X1 , X2 ) y consideremos Y = X1 + X2 . Si denimos g : R2 R por g (x1 , x2 ) = x1 + x2 , vemos que Y = g (X) . En este caso 1 = j < k = 2. Ahora consideremos g : R2 R2 , denida por g (x1 , x2 ) = (x1 + x2 , x2 ) e Y = (Y1 , Y2 ) con Y1 = g (X) e Y2 = X2 . Luego estamos en las condiciones del teorema puesto que g : R2 R2 es biyectiva, diferenciable y su Jacobiano es Jg (x1 , x2 ) = det 1 1 0 1 = 1.
Luego tenemos g1 (y1 , y2 ) = (y1 y2 , y2 ). En este caso U = V = R2 , y entonces acuerdo al Teorema 6.5, se tendr a fY (y) = fX g1 (y) |Jg1 (y) | = fX (y1 y2 , y2 )
...
fY (y1 , . . . , yj , yj +1 . . . , yk )dyj +1 . . . dyk .
fY (y ) =
fX (y y2 , y2 ) dy2 .
En el caso que X1 y X2 son independientes con densidades fX1 y fX2 , se tendr a fX (x1 , x2 ) = fX1 (x1 )fX2 (x2 ), y entonces fY est a dado por
fY (y ) =
fX1 (y y2 )fX2 (y2 ) dy2 .
(6.7)
La funci on fy dada por (6.7) se denomina convoluci on de fX1 (x1 ) y fX2 (x2 ).
112
V ctor J. Yohai
6.3.
Algunas aplicaciones a la distribuci on normal.
Sea X = (X1 , X2 , . . . , Xk ) un vector aleatorio tal que sus componentes son variables aleatorias independientes con id entica distribuci on N(0, 1). Sea k k 1 AR una matriz ortogonal, es decir tal que A = A donde A denota la traspuesta de la matriz A. Denimos la funci on g : Rk Rk dada por g (x) = xA y consideramos el vector aleatorio Y = XA. El siguiente teorema muestra que la distribuci on de Y es la misma que la del vector X. Teorema 6.6 La distribuci on de vector Y es la misma que la del vector X. Demostraci on. La funci on de densidad del vector X es fX (x) = 1 (2 )k 1 (2 ) = 1 (2 )
k k k i=1
1 exp x2 2 i
k
exp
x2 i
i=1
1 exp ||x||2 . 2
Sea g : Rk Rk denida por g (x) = xA, luego g1 (y) = yA1 = yA . Calculando el Jacobiano de g vemos que Jg (x) = det A = 1, de manera que por el Teorema 6.5 y el hecho de que por ser A ortogonal ||g1 (y) || = ||yA || = ||y ||, la densidad de Y est a dada por fY (y) = fX g1 (y) |Jg1 (y) |I = fX g1 (y)
k
1 = exp ||g1 (y)||2 2 1 1 = exp ||y||2 . 2 (2 )k Esto prueba el teorema. 2
(y)
El siguiente teorema prueba que combinaciones lineales de variables aleatorias normales independientes son normales. Teorema 6.7 (i) Sean X1 , X2 , . . . , Xk variables aleatorias independientes con distribuci on N(0, 1). Sean b1 , . . . , bk n umeros reales, tales que k 2 k i=1 bi = 1, es decir el vector b = (b1 , . . . , bk ) R tiene norma unitaria. Luego la variable Z = b1 X1 + + bk Xk tambi en distribuci on N(0, 1).
6.3. Algunas aplicaciones a la distribuci on normal.
113
(ii) Sean Y1 , Y2 , . . . , Yk variables aleatorias independientes tales que Yi tiene 2 ), luego dados n distribuci on N(i , i umeros reales 1 . . . , k y , la k distribuci on de Z = i=1 i Yi + es
k k
N
i=1
i i + ,
i=1
2 2 i i
Demostraci on. (i) Sea a1 = (b1 , b2 , . . . , bk ) , donde indica traspuesto . Entonces ||a1 || = 1. Podemos extender {a1 } a una base ortonormal de Rk . Es decir existen vectores columnas a2 , a3 , . . . , ak ortogonales y de norma 1 tales que {a1 , a2 , . . . , ak } es una base de Rk . Luego la matriz B cuyas columnas son los vectores aj , j = 1, 2, . . . , k es una matriz ortogonal. Denamos el vector aleatorio Y = XB, y sea Yi la componente i esima de Y . Por lo visto anteriormente las variables aleatorias Yi , (i = 1, 2, . . . , k) tambi en son independientes con distribuci on N (0, 1) . En particular k Y1 = i=1 bi Xi = Z tiene distribuci on N (0, 1) . Luego (i) queda probado. (ii) Podemos escribir
k
Z=
i=1
Yi i i + + i
i i =
i=1 i=1
i i Xi + ,
donde Xi = (Yi i )/i y =+ i i . (6.8)
Sabemos que para i = 1, 2, . . . , k las variables Xi son independientes con distribuci on N (0, 1) . Luego podemos escribir a Z de la siguiente manera k i i Xi + , Z=A A
i=1
donde A est a dada por

k
1 2
A=
i=1
2 2 i i
(6.9)
Sea bi =
i i , luego A
k k
b2 i =
i=1 i=1
i i A
1 A2
(i i )2 = 1.
i=1
114
V ctor J. Yohai
Denamos W = k i=1 bi Xi . Luego de acuerdo a la parte (i) de este teorema se tendr a que
k
W =
i=1
bi Xi
tiene distribuci on N (0, 1). Por lo tanto como

k
Z=A
i=1
i i Xi + = AW + A
en virtud de la denici on de distribuci on normal se tendra que Z tiene distribuci on N , A2 . Luego el teorema se deduce de (6.8) y (6.9). 2
6.4.
Transformaciones no inyectivas
Vamos a tratar el caso donde g no es inyectiva. En ese caso tenemos el siguiente teorema. Teorema 6.8 Sea X = (X1 , X2 , . . . , Xk ) un vector aleatorio absolutamente continuo con densidad fX . Sean U1 , U2 , . . . , Uh abiertos disjuntos en Rk tales h U Rk una funci que PX ( h on tal que es inyectiva i=1 Ui ) = 1 . Sea g : i=1 i y diferenciable en Ui con Jg (x) = 0 para todo x Ui . Luego el vector Y = g (X) tambi en es absolutamente continuo y su densidad est a dada por
h
fY (y) =
i=1
1 (y) |Jg1 (y) |IVi (y) , fX gi

i
1 donde Vi = g (Ui ) , gi = g|Ui , gi : Vi Ui es la inversa de gi .
Demostraci on. Bastar a probar probar que para todo B B k se tiene

h
PY (B ) =
i=1
1 (y) |Jg1 (y) |IVi (y) dy. fX gi

i
(6.10)
Usando que los Ui son disjuntos, que

k
P y que
Ui
i=1
=1
1 {Y B } {X Ui } = {Y B Vi } {X Ui } = {X gi (B Vi )}
6.4. Transformaciones no inyectivas
115
obtenenemos PY (B ) = P (Y B )
h
=P
h
i=1
{Y B } {X Ui }
=
i=1 h
P ({Y B } {X Ui })
1 P X gi (B Vi ) 1 PX gi (B Vi )
=
i=1 h
=
i=1 h
i=1 1 gi (B Vi )
fX (x) dx
Como las funciones gi son biun vocas en cada Ui , usando la f ormula de cambio de variables en integrales m ultiples se tiene
h
PY (B ) =
i=1 h

B Vi
1 gi (B Vi )
fX (x) dx
=
i=1 h
1 (y) |Jg1 (y) | dy fX gi

i
=
i=1
B h
1 (y) | Jg1 (y) |IVi (y) dy fX gi

i
i=1
1 (y) | Jg1 (y) | IVi (y) dy, fX gi

i
y por lo tanto se cumple (6.10). 2
6.4.1.
Distribuci on Chi-cuadrado con un grado de libertad.
Sea X N (0, 1) y consideremos g : R R g (x) = x2 . Denimos Y = g (X ) = X 2 . Sean U1 = {x : x < 0} y U2 = {x : x > 0}. Luego 1 1 (y ) = y y g2 g1 (y ) = y. En este caso V1 = V2 = R>0 y 1 1 Jg1 (y ) = y 2 , 1 2 1 1 Jg1 (y ) = y 2 . 2 2
116 Luego teniendo en cuenta que 1 x2 fX (x) = exp 2 2 ,
V ctor J. Yohai
y que V1 = V2 = R>0 , por el teorema anterior se tiene 1 1 y 1 1 y 1 1 y 2 IV1 (y ) + exp y 2 IV2 (y ) fY (y ) = exp 2 2 2 2 2 2 1 y 1 = exp y 2 I{y: y>0} (y ) . 2 2 A la distribuci on de la variable Y la denominaremos distribuci on Chi-cuadrado con un grado de libertad, y lo notaremos por 2 . 1
6.5.
6.5.1.
Algunas distribuciones complementarias.

Distribuci on Gamma.
En primer lugar introducimos la funci on Gamma (que denotaremos con ), que resulta ser una extensi on a los reales positivos de la funci on factorial denida sobre los n umeros naturales. La funci on : R>0 R0 se dene por
+
() =
0
exp (x) x1 dx.
Para probar la existencia de este integral la descomponemos como

1
() =
0
exp (x) x1 dx +
+ 1
exp (x) x1 dx
= I1 + I 2 . Es f acil ver que I1 es nita, teniendo en cuenta que exp (x) 1 sobre (0, 1) 1 1 x 1 1 1 1 I1 = exp (x) x dx x dx = = . 0 0 0 Estudiaremos ahora la convergencia de I2 . Observemos que el desarrollo de Taylor de exp(x/2) est a dado por x = exp 2
k =0
1 x k! 2
Luego como todos los t erminos son positivos, tenemos exp x 1 x 2 k! 2

k
6.5. Algunas distribuciones complementarias.
117
para todo k N. Entonces xk Ck exp

+
x , 2
donde Ck = k!2k . Tomamos ahora k0 > 1, luego se obtiene I2 =

1 +
exp (x) x1 dx exp (x) xk0 dx exp (x) Ck0 exp

+
1 + 1
x dx 2
Ck 0
exp
1
x 2
dx < .
Propiedad 6.1 Si > 0 entonces ( + 1) = (). Demostraci on. Para probarlo integraremos por partes tomando u = x ; dv = exp (x) dx. Luego se tiene v = exp (x) y du = x1 , de donde resulta
+
( + 1) =
0 +
exp (x) x dx udv
=
0
= xa exp (x) | 0 = x exp (x) | 0 +
+ 0 + 0
( exp (x)) x1 dx exp (x) x1 dx.
Como l mx x exp(x) = 0, resulta que ( + 1) = () . 2 Propiedad 6.2 es una extensi on del factorial. M as precisamente para todo n N se tiene (n) = (n 1)! Demostraci on. La prueba se hace por inducci on. Si n = 1 entonces (1) = 1 = 0!. Supongamos ahora que la propiedad que vale para n y veamos que entonces vale para n + 1. Usando la Propiedad 6.1 y la hip otesis inductiva tenemos (n + 1) = n(n) = n((n 1)!) = n!, con lo cual la propiedad queda demostrada. 2
118
V ctor J. Yohai
Denici on 6.1 Dado > 0, se dene la distribuci on Gamma con par ametros y 1 (ser a denotada por (, 1)) como la distribuci on absolutamente continua cuya funci on densidad es f (x) = 1 exp (x) x1 I[0,) (x) . ()
De acuerdo con la denici on de la funci on Gamma es claro que f es una densidad ya que
+
f (x) dx = 1.
Denici on 6.2 Dado > 0 y > 0 deniremos la distribuci on Gamma con par ametros y (que denotaremos por (, )), a la distribuci on de Y = X/ donde X tiene distribuci on (, 1) . Como g (x) = x/, De acuerdo a (6.5) y teniendo en cuenta que > 0 tendremos fY (y ) = fX (y ) = exp (y ) (y )1 I[0,) (y ) = = () = exp (y ) y 1 I[0,)(y ). () Obs ervese que como (1) = 0! = 1, la distribuci on (1, ) tiene como densidad f (y ) = exp (y ) I[0,)(y ) que es la distribuci on exponencial con par ametro . En la Figura 6.2 muestran varias densidades gamma Recordemos que si X N (0, 1) entonces Y = X 2 tiene, de acuerdo a lo probado en la subsecci on anterior, una distribuci on chi-cuadrado con un grado de libertad. M as precisamente probamos que
1 1 y I (y ). fY (y ) = y 2 exp 2 [0,) 2
(6.11)
Ahora bien si consideramos Z (1/2, 1/2) entonces su densidad es

1 2
1 2
fZ (z ) =
1 2
exp
1 2
1 2
z 1 y 2 I[0,) (z ) 2 1 z exp y 2 I[0,)(z ). 2
(6.12)
Las densidades (6.11) y (6.12) dieren s olo en una constante, luego deben ser iguales Esto se muestra integrando las densidades sobre R, ya que ambas
119
0.0
0
0.2
0.4
0.6
0.8
neal de puntos y rayas), de la (5, 1)(en Figura 6.2: Densidad de la 2, 1 2 (en l l nea llena) y de la (3, 3) (en l nea de puntos).
integrales deben ser iguales a 1. Por lo tanto la distribuci on 2 con un 1 1 grado de libertad coincide con la distribuci on 2 , 2 . Adem as igualando las constantes de ambas densidades se tiene la identidad 1 1 = 2 2 o equivalentemente 1 . 2 = Necesitaremos el siguiente teorema Teorema 6.9 Sea W = (W1 , W2 ) un vector aleatorio y supongamos que fW (w) = g1 (w1 ) g2 (w2 ) , donde g1 es una funci on de densidad. Entonces on de densidad. (i) fW2 = g2 , y por lo tanto g2 es una funci (ii) fW1 = g1 . (iii) Las variables W1 y W2 son independientes. Demostraci on. Como
+ 1 2
g1 (w1 ) dw1 = 1,
120 se tiene que

+
V ctor J. Yohai
fW2 (w2 ) =
g1 (w1 ) g2 (w2 ) dw1 =

+
= g2 (w2 )
g1 (w1 ) dw1 = g2 (w2 ) .
Esto prueba (i). Para ver (ii) se usa el mismo argumento. Como (i) y (ii) implican que fW (w1 , w2 ) = fW1 (w1 )fW2 (w2 ), resulta que por el Teorema 5.10 W1 y W2 son independientes. 2 Teorema 6.10 Sean Y1 , Y2 variables aleatorias independientes con distribuciones (1 , ) y (2 , ) respectivamente. Denamos W1 = Y1 + Y2 , W2 = Y1 /(Y1 + Y2 ). Entonces se tiene (i) La distribuci on de W1 es W (1 + 2 , ) . (ii) W2 tiene densidad (1 + 2 ) 1 1 w (1 w2 )2 1 I[0,1] (w2 ). (1 ) (2 ) 2 (iii) W1 y W2 son independientes. Demostraci on. La demostraci on se basa en el Teorema 6.5. Sea el abierto 2 U R denido por U = {(y1 , y2 ) : y1 > 0, y2 > 0}. Luego PY (U ) = 1 con Y = (Y1 , Y2 ) . Consideremos la transformaci on g : U R2 denida por g (y1 , y2 ) = y1 + y2 , y1 y2 + y1 .
Es f acil ver que V = g(U ) = (0, ) (0, 1) y g1 (w1 , w2 ) = (w1 w2 , w1 w1 w2 ) Luego Jg1 (w1 , w2 ) = det w2 1 w2 w1 w1 = (w1 w2 , w1 (1 w2 )) .
= w1 w2 w1 (1 w2 ) = w1 , y por lo tanto |Jg1 (w1 , w2 ) | = w1 .
121
Consideramos ahora la densidad del vector Y = (Y1 , Y2 ) . Como se supuso independencia entre Y1 e Y2 , esta densidad es el producto de las densidades marginales y luego fY (y1 , y2 ) = 1 +2 1 1 2 1 exp ( (y1 + y2 )) y1 y2 I(0,) (y1 )I(0,) (y2 ). (1 ) (2 )
Luego de acuerdo al Teorema 6.5 y por el hecho de que IV (w1 , w2 ) = I(0,)(0,1) (w1 , w2 ) = I(0,) (w1 )I(0,1) (w2 ) se tiene fW (w1 , w2 ) = 1 +2 exp (w1 ) (w1 w2 )1 1 (w1 (1 w2 ))2 1 w1 IV (w1 , w2 ) (1 ) (2 ) 1 +2 = w1 +2 1 exp (w1 ) I(0,) (w1 ) (1 + 2 ) 1 (1 + 2 ) 1 1 w (1 w2 )2 1 I(0,1) (w2 ) (1 ) (2 ) 2 = g1 (w1 )g2 (w2 ) 1 +2 w1 +2 1 exp (w1 ) I(0,) (w1 ) (1 + 2 ) 1 (1 + 2 ) 1 1 (1 w2 )2 1 I(0,1) (w2 ). w (1 ) (2 ) 2
donde g1 (w1 ) = y
g2 (w2 ) =
El primer factor g1 corresponde a una densidad (1 + 2 , ) . Por el Teorema 6.9 resulta que W1 tiene distribuci on (1 + 2 , ) y W2 tiene como funci on de densidad a g2 (w2 ) = (1 + 2 ) 1 1 (1 w2 )2 1 I(0,1) (w2 ). w (1 ) (2 ) 2
Este teorema tambi en implica que W1 y W2 son independientes. 2
6.5.2.
Distribuci on beta.
Denici on 6.3 Se dene la distribuci on beta con par ametros 1 y 2 , que denotaremos por (1 , 2 ) , como la distribuci on absolutamente continua cuya funci on de densidad es: f (w) = (1 + 2 ) 1 1 w (1 w)2 1 I(0,1) (w). (1 ) (2 )
122
V ctor J. Yohai
0
0.0
0.2
0.4
0.6
0.8
1.0
Figura 6.3: Densidad de la (10, 3) (en l neal de puntos y rayas), de la (2, 2)(en l nea llena) y de la (3, 6) (en l nea de puntos). Observaci on. Esta funci on es una densidad por el Teorema 6.10. Por lo tanto podemos deducir que
1 0
(1 + 2 ) 1 1 w (1 w)2 1 dw = 1, (1 ) (2 )
y entonces se tiene
1 0
w1 1 (1 w)2 1 dw =
(1 ) (2 ) . (1 + 2 )
En la Figura 6.3 se muestran varias densidades Beta, para distintos valores de los par ametros 1 y 2 . Teorema 6.11 Sean Y1 , Y2 , . . . , Yn variables aleatorias independientes tales que Yi tiene distribuci on (i , ) . Entonces n on i=1 Yi tiene distribuci n ( i=1 i , ) . Demostraci on. Se deduce de de la proposici on anterior usando inducci on. 2 A continuaci on denimos las distribuciones chi-cuadrado con n grados de libertad y la t de Student. Ambas distribuciones son de gran importancia en Estad stica. Volveremos m as adelante sobre ellas.
123
0.0
-3
0.1
0.2
0.3
0.4
-2
-1
Figura 6.4: Densidad de la t1 (en l neal llena), de la t5 (en l nea de puntos) y de la t25 (en l nea de puntos y rayas).
6.5.3.
Distribuci on Chi-cuadrado.
Supongamos que se tienen n variables independientes Xi , i = 1, 2, . . . , n con distribuci on N (0, 1) . Sabemos que cada Yi = Xi2 tiene distribuci on 2 con 1 grado de libertad, la cual que coincide con la distribuci on (1/2, 1/2) . Se dene la distribuci on chi-cuadrado con n grados de libertad, que simbolizaremos por 2 on de la variable aleatoria Y = n , como la distribuci n 2. X i=1 i on 2 De acuerdo al Teorema 6.11, como cada Xi2 tiene distribuci 1 y estas variables son independientes, se obtiene que Y tiene distribuci on (n/2, 1/2) . Por lo tanto la distribuci on 2 on (n/2, 1/2) . n coincide con la distribuci
6.5.4.
Distribuci on t de Student
Supongamos que U tiene distribuci on N (0, 1) y V distribuci on 2 n con U y V independientes. Luego se dene la distribuci on de t de Student con n grados de libertad, que simbolizaremos con tn , como la distribuci on de T = U V /n .
En la Figura 6.4 se muestran varias densidades de Student para diferentes grados de libertad
124
V ctor J. Yohai
Se deja como ejercicio de la pr actica mostrar que la densidad de T es n+1 2 fT (t) = n n 2 t2 1+ n

n+1 2
El gr aco de esta densidad es sim etrico respecto al origen (funci on par) y con forma de campana. Se puede probar que cuando n tiende a , fT converge a la densidad de la normal.
Cap tulo 7
Esperanza Matem atica.

7.1.
7.1.1.
Integral de Riemann-Stieltjes.
Denici on de la integral.
Sea f : [a, b] R y consideremos una partici on del intervalo [a, b] que llamaremos = {x0 , x1 , . . . , xn } tal que a = x0 < x1 < < xn = b. Sea = {i }1in una colecci on de puntos tal que i (xi1 , xi ] para i = 1, 2, . . . , n, que se denominar a selecci on en . Denimos la suma de Riemann
n b Sa (, ,f ) = i=1
f (i ) (xi xi1 ) .
Se llama norma de la partici on || || = m ax {xi xi1 }.

1in
Denici on 7.1 Se dice que f es integrable Riemann sobre [a, b] con valor b b I = a f = a f (x) dx sii para todo > 0 existe > 0 tal que si || || < entonces b |Sa (, ,f ) I | < . An alogamente se dene la integral de Riemann-Stieltjes . Dadas g, F funciones denidas sobre [a, b] se dene la suma de Riemann-Stieltjes asociada a la partici on = {xi }0in y la selecci on = {i }1in de por
n b (, ,g, F ) = Sa i=1
f (i ) (F (xi ) F (xi1 )) .
125
126
V ctor J. Yohai
Denici on 7.2 Se dice que existe la integral de Riemann-Stieltjes sobre [a, b] b b con valor I = a gdF = a g (x) dF (x) sii para todo > 0 existe > 0 tal que si es una partici on de [a, b] con || || < y es cualquier selecci on en entonces b |Sa (, ,g, F ) I | < . Observaciones. 1. Si F (x) = x, entonces la integral de Riemann-Stieltjes es la integral de Riemann. 2. Una condici on suciente, aunque no necesaria, para que exista la integral de Riemann-Stieltjes, es que g sea continua en [a, b] y F mon otona en [a, b]. Si tomamos como F una funci on de distribuci on el u ltimo requisito se cumplir a. 3. Otra condici on suciente (tampoco necesaria) para que exista la integral de Riemann-Stieltjes es que (i) g sea continua en (a, b], (ii) existe l mxa g (x), (iii) F sea mon otona en [a, b] y (iv) F es continua en a. En tal caso, vale que
b b
gdF = l m
a ca c
gdF.
A continuaci on damos algunas propiedades de la integral de Riemann Stieltjes. Propiedad 7.1 (Linealidad de la Integral de R-S respecto de g) Si b b b a g1 dF y a g2 dF existen y 1 , 2 R entonces a (1 g1 + 2 g2 ) dF existe y adem as
b b b
(1 g1 + 2 g2 ) dF = 1
a a
g1 dF + 2
a
g2 dF.
Propiedad 7.2 (Linealidad de la Integral R-S respecto de F ) Si b b b a gdF1 y a gdF2 existen y 1 , 2 R entonces a gd (1 F1 + 2 F2 ) existe y adem as
b b b
gd (1 F1 + 2 F2 ) = 1
a a
gdF1 + 2
a
gdF2 .
7.1. Integral de Riemann-Stieltjes.
127
Propiedad 7.3 (Aditividad respecto del dominio de integraci on) Sean b c c a < b < c y supongamos que a gdF, b gdF y a gdF existen. Entonces
c b c
gdF =
a a
gdF +
b
gdF.
Propiedad 7.4 Si F es no decreciente y g1 g2 sobre [a, b] entonces

b a b
g1 dF
g2 dF.
a
En particular teniendo en cuenta que |g| g |g| se obtiene la siguiente Propiedad 7.5 Si las dos integrales existen, entonces
b a b
gdF
|g| dF
Estamos interesados en extender el dominio de integraci on a toda la recta o a semirectas. Esto lleva a la siguiente denici on. Denici on 7.3 Supongamos que a gdF existe para todo a, b R. Decimos + umero real I sii que la integral impropia gdF existe y es igual al n
b a; b+ a b
l m
gdF = I. y
b gdF.
(7.1) Tendremos el siguiente
De manera an aloga se dene teorema.
+ gdF a
Teorema 7.1 Sea g 0 y F no decreciente. Entonces pueden ocurrir dos cosas (i)
a,b b
M = sup
En este caso el l mite (7.1) existe y es nito.
gdF <
128 (ii)
M = sup
a,b
En este caso el l mite (7.1) existe y es . Luego podemos denir + gdF = . Sea ahora g de signo arbitrario y F no decreciente. El siguiente teorema es v alido. Teorema 7.2 Una condici on necesaria y suciente para que ista es que
b + gdF
M = sup
a,b
7.2.
7.2.1.
Denici on de Esperanza Matem atica.

Algunas consideraciones heur sticas.

b a
V ctor J. Yohai
gdF =
ex-
|g| dF < .
Sea X una variable aleatoria discreta. Para jar ideas supongamos que toma un n umero nito de valores, x1 , x2 , ..., xk , con probabilidades pX (x1 ), pX (x2 ), . . . , pX (xk ). Supongamos que se repite un experimento asociado a la variable aleatoria X , n veces en forma independiente y que el resultado xi se obtiene ni veces, 1 i k. Entonces el promedio de todos los valores es xn = n1 x1 + n2 x2 + + nk xk n n1 n2 nk = x1 + x2 + + xk . n n n
nj n
Luego pasando al l mite y dado que la frecuencia observada xima a pX (xj ) obtenemos
n +
se apro-
l m xn = l m
n1 n2 nk x1 + x2 + ... + xk n n n n1 n2 nk = x1 l m + x2 l m + ... + xk l m n + n n + n n + n
n + k
=
j =1
xj pX (xj ) .
Esto motiva la denici on de la esperanza matem atica de una variable discreta.
7.2. Denici on de Esperanza Matem atica.
129
7.2.2.
Esperanza de una variable aleatoria discreta.
Denici on 7.4 Sea X una variable aleatoria con rango RX y distribuci on de probabilidad pX . Supongamos que |x|pX (x) < .
xRX
En tal caso denimos la esperanza matem atica de la variable X de la siguiente manera xpX (x) . E (X ) =
xRX
Observaciones. 1. Se sabe que la convergencia absoluta de la serie garantiza la convergencia de la serie. 2. Supongamos
xRX
|x|pX (x) = . Denotemos con

RX = {x RX : x < 0}. + RX = {x RX : x > 0}
Entonces pueden ocurrir tres casos distintos. a) b) c)

xR+ X xR+ X xR+ X
xpX (x) = + y xpX (x) = + y xpX (x) < + y
xR X xR X xR X
xpX (x) = . xpX (x) > . xpX (x) = .
En el caso (a) no se puede denir la esperanza de X . En el caso (b) se puede denir E (X ) = + en el (c) E (X ) = . Es decir para que la esperanza est e denida se requiere que xR+ xpX (x) o bien X xpX (x) sea nita. xR
X
7.2.3.
Denici on general de esperanza matem atica.
Ahora queremos denir la esperanza matem atica, de manera m as general. Supongamos primero que X es una variable aleatoria concentrada en [a, b]. Es decir, supongamos que P (a < X < b) = 1. La idea que se utiliza para la denici on de la esperanza de esta variable es la siguiente. Se dene una sucesi on de variables aleatorias discretas Xn que la aproximan y luego como E (Xn ) est a denida para cada Xn la esperanza de X se dene por un paso al l mite.
130
V ctor J. Yohai
Consideremos para cada n, una partici on del intervalo [a, b] formada por n intervalos de longitud (b a)/n. Para esto consideramos la partici on b a n n n n n n n . n = {xn 0 , x1 , ..., xn } tal que a = x0 < x1 < ... < xn = b y xi xi1 = n n Elegimos para cada i, 1 i n, i (xi1 , xi ] y denimos la variable aleatoria n n Xn ( ) = i si X ( ) (xn i1 , xi ].
n, 1 i Esta variable toma u nicamente un n umero nito de valores: i n. Adem as n n pXn (i ) = FX (xn i ) FX xi1 .
Luego la esperanza de la variable Xn viene dada por

n
E (Xn ) =
i=1 n
n n ) i pXn (i
=
i=1
n n FX (xn i i ) FX xi1
b = Sa ( n , n , id, F ) ,
con id (x) = x y se obtiene

b ( n , n , id, FX ) = l m E (Xn ) = l m Sa n + b
n +
xdFX .
a
Por lo tanto denimos la esperanza matem atica de X por

b
E (X ) =
a
xdFX .
Siendo la funci on id (x) = x continua y F mon otona no decreciente, reb sulta que a xdF existe siempre y por lo tanto tambi en E (X ) existe siempre. Supongamos ahora que X es una variable aleatoria no acotada. El proble+ ma que ahora surge es que podr a no existir xdF. Sin embargo sabemos + que M = |x| dF siempre est a bien denida, eventualmente con el valor + . Si M < + denimos la esperanza de la variable X similarmente al caso anterior por
E (X ) =
xdF.
Si M = + hay tres casos y el an alisis es an alogo al que realizamos anteriormente para variables discretas. Los tres casos son: (a) (b)
0 xdF 0 xdF
= + y = + y
0 xdF 0 xdF
= . > .

0 xdF 0 xdF
131
(c)
< + y
= .
En el caso (a) la esperanza matem atica de X no est a denida. En el caso (b) se dene E (X ) = + y en el (c) E (X ) = . Nuevamente la esperanza puede estar no denida y para su denici on se requiere que al menos una de 0 de las dos integrales 0 xdF o xdF converja. Con esta denic on general de esperanza matem atica, para el caso de una variable discreta se tienen dos deniciones diferentes. Probaremos ahora que la denici on general de esperanza es una extensi on de la primera denici on dada para el caso discreto, es decir que para variables aleatorias discretas ambas deniciones coinciden. Teorema 7.3 Sea FX la funci on de distribuci on de una variable discreta y g : R R continua. Luego
b
g(x)dFX (x) =
a xRX [a,b]
g(x)pX (x) .
(7.2)
Observaci on. Este resultado vale siempre, pero para facilitar la demostraci on vamos a probarlo para el caso en que RX [a, b] es nito para todo a y b. Esto se cumple cuando las variables toman valores enteros como sucede, por ejemplo, con las distribuciones Poisson, binomial, etc. Demostraci on. Por la hip otesis supuesta RX [a, b] es un conjunto nito, digamos RX [a, b] = {z1 , z2 , ..., zk }. Llamemos a = m n {zi zi1 }.
2ik
(7.3)
Consideremos una partici on n = {xn i }0in del intervalo [a, b], en n intern n n n valos iguales. Luego tenemos a = xn 0 < x1 < < xn = b y xi xi1 = (b a)/n . Teniendo en cuenta que || n || = (b a)/n es claro que
n +
l m || n || = 0.
Sea n0 tal que (b a)/n0 < . Tomemos n > n0 , luego n < , luego por (7.3) en cada intervalo de n hay a lo sumo un elemento de RX [a, b] .Va a ser fundamental para esta demostraci on la elecci on de la selecci on n = n n {i }1in de . Procedemos de la siguiente manera. (i) Si
n el u se elige como i nico punto de esta intersecci on. n (RX [a, b]) (xn i1 , xi ] =
132 (ii) Si
n es cualquier punto de (x i i1 , xi ]. n (RX [a, b]) (xn i1 , xi ] =
V ctor J. Yohai
Sea
n A = {i : (RX [a, b]) (xn i1 , xi ] = }
y por lo tanto
n Ac = {i : (RX [a, b]) xn i1 , xi = } b ( n , n , g, F ) Entonces podemos realizar la siguiente descomposici on de Sa n b n n Sa ( , , g, F ) = i=1 n n g(i ) FX (xn i ) FX xi1 n n ) FX (xn g(i i ) FX xi1 n n ) FX (xn g(i i ) FX xi1
=
iA
+
iAc
c n Observemos que FX (xn i ) FX xi1 = 0 si i A ya que el intervalo (xi1 , xi ] no contiene elementos de RX . Luego n n g(i ) FX (xn i ) FX xi1
= 0,
iAc
y se obtiene
b Sa ( n , n , g, FX ) = iA n n g(i ) FX (xn i ) FX xi1
(7.4)
n es el u nico punto de RX en el intervalo Adem as, como para i A, el valor i n n (xi1 , xi ], resulta n n n n pX (i ) = PX ((xn i1 , xi ]) = FX (xi ) FX xi1 .
Luego de (7.4) obtenemos

b Sa ( n , n , g, FX ) = iA n) Pero (i iA coincide con {zj }1j k = RX [a, b], y entonces para todo n n0 k b Sa ( n , n , g, FX ) = j =1 n n g(i ) pX (i ).
g(zj )pX (zj ) =

xRX [a,b]
g(x)pX (x) .
(7.5)
133
Como el miembro derecho de (7.5) no depende de n, obtenemos

b a b xdF = l m Sa ( n , n , g, FX ) = n xRX [a,b]
xpX (x) .
Esto prueba (7.2) y por lo tanto el teorema queda demostrado. 2 Teorema 7.4 Supongamos que X es una variable aleatoria discreta y que E (X ) existe y es nita. Entonces
+
xpX (x) =
xRX
xdFX
Demostraci on. Teniendo en cuenta que xpX (x) =

xRX a; b+
l m
xpX (x) ,
xRX [a,b]
y que
+ b
xdFX =
a; b+ a
l m
xdFX ,
bastar a probar que para todo a < b

b
xpX (x) =
xRX [a,b] a
xdFX .
Pero esto resulta del teorema 7.3 poniendo g(x) = x. 2
7.2.4.
Esperanza matem atica para una variable absolutamente continua.
El siguiente Teorema prueba que en el caso de que X sea una variable aleatoria absolutamente continua la E (X ) se puede calcular a trav es de una integral de Riemann. Teorema 7.5 Supongamos que E (X ) =
|x|fX
(x) dx < . Luego
xfX (x) dx.
Demostraci on. El teorema vale en general. Sin embargo, para facilitar la demostraci on, lo probaremos s olo para el caso en que fX es continua.
134 Bastar a ver que para todo intervalo [a, b] , a < b vale que
b b
V ctor J. Yohai
xfX (x) dx =
a a
xdFX ,
(7.6)
ya que en tal caso el resultado se obtiene pasando al l mite. Consideremos para cada n una partici on de puntos equidistantes del intervalo [a, b] n n n = {xn 0 , x1 , ..., xn }
n n n n tales que a = xn 0 < x1 < ... < xn = b satisfaciendo xi xi1 =
ba . n Sabemos que FX (x) = fX (x) . Por el Teorema del Valor Medio, para n (xn , xn ] tal que todo i, 1 i n, existe i i i1
n n n n FX (xn i ) FX xi1 = fX (i ) xi xi1 .
(7.7)
n) Elegiremos la selecci on = (i 1in para formar las sumas de RiemannStieltjes. Luego n b Sa ( n , n , id, FX ) b Sa ( n , n , x, FX ) n n FX (xn i i ) FX xi1
=
i=1
, (7.8)
y se tendr a que
n b l m Sa ( n , n , x, FX ) = b
xdFX .
a
(7.9)
b ( n , n , x, F ) es tambi Usando (7.7) y (7.8) obtenemos que Sa en una suma X de Riemann correspondiente a la funci on xfX (x) . En efecto n b Sa ( n , n , x, FX ) n n n i fX (i ) xn i xi1
= =
i=1 b ( n , n , xfX (x), x) . Sa
Luego
n b l m Sa ( n , n , x, FX ) = b
xfX (x) dx.

a
(7.10)
De (7.9) y (7.10) se obtiene (7.6). 2
7.2.5.
Algunas propiedades de la esperanza matem atica
Propiedad 7.6 Sea X una variable aleatoria tal que PX ({a}) = 1. Entonces E (X ) = a.
135
Demostraci on. Esto es inmediato teniendo en cuenta X es una variable discreta con RX = {a} y pX (a) = 1. Luego E (X ) =
xRX
xpX (x) = a.2
Propiedad 7.7 Sea (, A, P ) un espacio de probabilidad y A A. Entonces E (IA ) = P (A). Demostraci on. Como IA ( ) = 1 si A 0 si / A.
En este caso RX = {0, 1}, pX (1) = P (A) , y pX (0) = 1 P (A) . Entonces E (IA ) = 0 (1 P (A)) + 1P (A) = P (A) .2
El siguiente teorema permite la integraci on por partes de una integral de Riemann-Stieltjes. Teorema 7.6 (Integraci on por partes) Sean g y F funciones denidas b sobre [a, b] tales que a gdF existe. Supongamos que g sea continua en a y b que F es acotada en [a, b] . Entonces a F dg existe y
b a
gdF = g (x) F (x) |b a
F dg.
a
Demostraci on. Tenemos que mostrar que

b a
F dg = g (x) F (x) |b a
gdF.
a
(7.11)
Para eso habr a que probar que dado > 0 existe > 0 tal que para toda = {xi }0in partici on de (a, b] con || || y toda = {i }0in selecci on de puntos en , se tendr a que
b Sa (, , F, g) g (x) F (x) |b a+ b b
gdF < .
a
(7.12)
podemos encontrar un 1 tal que si || || 1 Como a gdF existe, dado 2 para toda selecci on en tendremos que b Sa (g, f, , ) b a
gdF . 2
(7.13)
136
V ctor J. Yohai
Como F es acotada en [a, b] existe un n umero real M > 0 tal que |F (x)| M para todo x [a, b] . Por la continuidad de g en a, sabemos que existe 2 > 0 tal que si |x a| 2 entonces |g(x) g(a)| < . 4M
1 Pongamos = m n( 2 , 2 ). Sea = {xi }0in una partici on de (a, b], tal que || || y sea = {i }0in una selecci on en la partici on. Vamos a mostrar que (7.12) vale. Sabemos que xn1 < n b. Supondremos que n < b. El caso n = b se demuestra an alogamente. Tenemos que
a = x0 < 1 x1 < < i1 xi1 < i xi < < xn1 < n < xn = b. Podemos construir una nueva partici on = {x i }0in+1 con x 0 = a, x 1 i n, i = i , xn+1 = b,
) y denimos la selecci on = (i 1in+1 en por = , 1 1 =x i i1 , 2 i n + 1.
Como
|x i xi1 | = |i i1 | |i xi1 | + |xi1 i1 |
|xi1 xi | + |xi1 xi+1 | < + = 2 1 ,
|x 1 x0 | |x n+1 xn |
= |1 a| = |1 x0 | |x1 x0 | < 1
para 2 i n
= |b n | = |xn n | |xn xn1 | < 1
tenemos que || || 1 y entonces por (7.13) resulta

b Sa ( , , g, F ) b a
gdF < . 2
(7.14)
137
Por otro lado tenemos

n+1 b Sa ( , , g, F )= i=1 g(i ) F (x i ) F (xi1 ) n g(i )F (x i ) + g (n+1 )F (xn+1 ) i=2 n+1 g(1 )F (x 0) g(i )F (x i1 ) i=2 n
g(1 )F (x 1) +
= g(1 )F (1 ) +
i=2
g(xi1 )F (i ) + g(b)F (b)
g(1 )F (a) = g(1 )F (1 ) g(1 )F (a) +

n
g(xi1 )F (i )
i=2
+ g(b)F (b)
g(xi )F (i )
i=1 n
= g(1 ) [F (1 ) F (a)]
n
i=1
[g(xi1 ) g(xi )] F (i )
+ g(b)F (b) g (x0 ) F (1 ) =

i=1
F (i ) [g(xi1 ) g(xi )] + g(b)F (b) g(a)F (a)
+ g(1 ) [F (1 ) F (a)] + g(a)F (a) g (a) F (1 ) + g(1 ) [F (1 ) F (a)] + g(a) [F (a) F (1 )]

b = Sa (F, g, , )+ g(x)F (x)|b a + r, b (, ,F, g)+ g(x)F (x)| b = Sa a
b (, ,F, g)+ g(x)F (x)| b = Sa a + [g (1 ) g (a)] [F (1 ) F (a)]
(7.15)
donde r = [g(1 ) g(a)] [F (1 ) F (a)] . Luego, como < y |x 0 x1 | = |a 1 | < 2 se tendr a
|g(a) g(1 )| /4M. Adem as |F (x)| M, y entonces obtenemos |r | = |F (1 ) F (a)||g(1 ) g(a)| = . 2M 4M 2 Luego de (7.15) resulta.
b b Sa ( , , g, F ) g(x)F (x)|b a + Sa (, ,F, g )
. 2
(7.16)
138
V ctor J. Yohai
De (7.14) y (7.16) resulta (7.12) y el teorema queda demostrado.2 Propiedad 7.8 Dada una funci on F mon otona se tiene
b a
dF = F (b) F (a) .
Demostraci on. Aplicando integraci on por partes con g = 1 y dado que dg = 0, obtenemos
b a
dF = 1F (x) |b a
b a
F dg = FX (x) |b a = F (b) F (a) .2
Teorema 7.7 Supongamos que
+ |x|dFX
< . Entonces vale
(i) l mx+ x (1 FX (x)) = 0. (ii) l mx xFX (x) = 0. Demostraci on. (i) A partir del hecho de que |x|dFX es nita se deduce que las colas tienden a cero, es decir
+ b+ b
l m
xdFX = 0,
a
(7.17)
y l m
xdFX = 0.
(7.18)
Usando la Propiedad 7.8 obtenemos

+ d
dFX = l m
b
d b
dFX = l m FX (d) FX (b) = 1 FX (b),

d
y entonces si b 0
+ b +
xdFX b
+
dFX = b (1 FX (b)) 0 .
Luego 0 = l m
b b
xdFX l m b (1 FX (b)) 0.
b
Luego se deduce (i). (ii) Se prueba de manera an aloga y se deja como ejercicio. 2
139
Ahora estamos en condiciones de dar una expresi on de la esperanza como sumas de integrales de Riemann. Teorema 7.8 Supongamos que
+ |x|dFX
< . Entonces
0
E (X ) =
0
(1 FX (x)) dx
FX (x) dx.
(7.19)
Demostraci on. Sabemos que

+ 0
E (X ) =
0
xdFX +
xdFX .
Estudiaremos cada integral por separado. Integrando por partes tenemos que
b 0
xdFX = xFX (x)|b 0

b
FX (x) dx
0
= bFX (b)
FX (x) dx
0 b
= bFX (b) + b b
FX (x) dx
0 b
= b (1 FX (b)) + b
b
FX (x) dx
0 b
= b (1 FX (b)) + = b (1 FX (b)) +
0 b 0
dx
FX (x) dx
0
(1 FX (x)) dx.
Luego pasando al l mite y teniendo en cuenta el Teorema 7.7 se obtiene

+ +
xdFX =
0 0
(1 FX (x)) dx.
An alogamente se prueba
0 0
xdFX =
FX (x) dx.
De estas dos u ltimas igualdades se obtiene el teorema. 2 Propiedad 7.9 Sean X e Y dos variables aleatorias tal que P (X Y ) = 1, y tal que sus esperanzas E (X ) , E (Y ) existen. Entonces (i) FX (t) FY (t), t, y
140 (ii) E (X ) E (Y ) . Demostraci on.
V ctor J. Yohai
(i) Consideremos el evento U = { : X ( ) Y ( )}. Claramente P (U ) = 1 y P (U c ) = 0. Podemos escribir {Y t} = ({Y t} U ) ({Y t} U c ) . y luego como P ({Y t} U c ) P (U c ) = 0, resulta P ({Y t}) = P ({Y t} U ) + P ({Y t} U c ) = P ({Y t} U ) . Si {Y t} U entonces X ( ) Y ( ) t de manera que {Y t} U {X t}. Tomando probabilidades y teniendo en cuenta (7.21) se obtiene que P ({Y t}) = P ({Y t} U ) P ({X t}) , o bien FY (t) FX (t) y por lo tanto (i) se cumple. (ii) Tambi en se tiene 1 FX (t) 1 FY (t) , y usando el Teorema 7.8 resulta
+ 0
(7.20)
(7.21) (7.22)
(7.23)
(7.24)
E (X ) =
0 +
(1 FX (t)) dt (1 FY (r )) dt
FX (t) dt,
0
E (Y ) =
0
FY (t) dt.
Luego la Propiedad 7.9 se deduce de (7.23) y (7.24). 2 Supongamos que P (X = 0) = 1. Por la Propiedad 7.6 es claro que E (X ) = 0. Ahora bien, del hecho de que E (X ) = 0 no se deduce que P (X = 0) = 1. Qu e condici on podemos agregar para que se cumpla? La propiedad 7.10 responde a esta pregunta. Propiedad 7.10 E (X ) = 0 y P (X 0) = 1 implica que P (X = 0) = 1.
Demostraci on. Supongamos que esta propiedad no fuera cierta, luego tendr amos una variable aleatoria X tal que E (X ) = 0, P (X 0) = 1 y P (X = 0) < 1. Luego teniendo en cuenta que P (X 0) = 1 obtenemos que P (X > 0) = P (X 0) P (X = 0) = 1 P (X > 0) = a > 0. 1 . La sucesi on {An } es Ahora consideremos los eventos An = X > n mon otona creciente ya que An An+1 y adem as {X > 0} = de manera que
n
l m P (An ) = P ({X > 0}) = a > 0.
An ,
+
1 n0
141
Por lo tanto existe un n umero natural n0 tal que P (An0 ) > a/2 y entonces
+
E (X ) =
+
xdFX xdFX
0
1 n0
= =
0 +
xdFX + xdFX
+
1 n0
xdFX
1 n0
1 n0
dFX
1 1 1 FX n0 n0 1 1 1 a = P X> = > 0. n0 n0 n0 2 lo cual es un absurdo ya que contradice la hip otesis. 2 Observaci on. La igualdad xdFX = en cuenta que P (X 0) = 1. que E (X ) =
xRX + + xdFX 0
se justica teniendo
Sea X una variable aleatoria discreta, RX su rango y pX su densidad. Sabemos xpX (x) .
El siguiente teorema permite hallar la esperanza de una variable aleatoria Y que es funci on medible de otra variable aleatoria X sin necesidad de de hallar antes la funci on de probabilidad puntual de la variable Y.
142
V ctor J. Yohai
Teorema 7.9 Consideremos X un vector aleatorio discreto de dimensi on k y sea g : Rk R una funci on medible . Denamos Y = g (X). Entonces E (Y ) =
xRX
g (x) pX (x) .
Demostraci on. Sea y g (RX ) = RY y denamos
Ay = {x RX : g (x) = y } = g1 ({y }) .
Es f acil ver que la familia de subconjuntos {Ay }yRY es una partici on de RX , es decir RX = yRY Ay y si y = y entonces Ay Ay = . Teniendo en cuenta que pY (y ) = PX (Ay ) =
xAy
pX (x) ,
y que para todo x Ay se tiene g(x) = y, obtenemos E (Y ) =

y RY
ypY (y ) y
y RY xAy
= =
pX (x) ypX (x)
y RY xAy
=
y RY xAy
g (x) pX (x) g (x) pX (x) ,

xRX
y por lo tanto queda demostrado el Teorema. 2 Ahora pasamos al caso absolutamente continuo. Sea X una variable aleatoria absolutamente continua y fX su funci on de densidad. Sabemos que
+
E (X ) =
xfX (x) dx.
El siguiente teorema es el an alogo al teorema anterior cuando X es un vector absolutamente continuo. Teorema 7.10 Sea X un vector aleatorio absolutamente continuo de dimensi on k, con densidad fX . Sea g : Rk R una funci on medible que toma un conjunto a lo sumo numerable de valores y denamos Y = g (X) . Luego
+ +
E (Y ) =
...
g (x) fX (x) dx1 ...dxk .
(7.25)
143
Demostraci on. Como en el teorema anterior consideramos la partici on Ay = {x RX : g (x) = y } = g1 ({y }) . En este caso Rk = yRY Ay y si y = y entonces Ay Ay = . Adem as 1 pY (y ) = PX (g ({y }) = PX (Ay ) . Entonces usando que para x Ay se tiene g(x) = y, que adem as IAy (x) = 1
y RY
y que PX (Ay ) = obtenemos E (Y ) =

y RY
fX (x) dx1 . . . dxk

Ay
(7.26)
ypY (y ) yPX (Ay )

y RY
= =
y RY
=
y RY
=
y RY
=
y RY
= =
Observaci on. En la demostraci on usamos (7.26). Como se comenta en la observaci on que sigue al Teorema 5.5, para demostrar esta propiedad para todo boreliano se requiere teor a de la medida y se debe usar la integral de Lebesgue. Propiedad 7.11 Sea X una variable aleatoria con esperanza nita. Entonces E (X + c) = E (X ) + c.
Ay
fX (x) dx1 . . . dxk
yfX (x) dx1 . . . dxk g (x) fX (x) dx1 . . . dxk
Ay
Ay
g (x) fX (x) IAy (x)dx1 . . . dxk
g (x) fX (x)
y RY
g (x) fX (x) dx1 . . . dxk . 2
IAy (x) dx1 . . . dxk =
144
V ctor J. Yohai
Demostraci on. Sea Y = X + c. Supongamos primero que c > 0. Sabemos que FY (x) = FX (x c) . Utilizando el Teorema 7.8 tenemos
0
E (Y ) =
(1 FY (y ))dy
FY (y )dy
0
=
0
(1 FX (y c))dy
FX (y c)dy.
Haciendo el cambio de variable x = y c dentro de las integrales, resulta

c
E (Y ) =
c 0
(1 FX (x))dx (1 FX (x))dx +
0
FX (x)dx
0 0
=
c
(1 FX (x))dx
0
FX (x)dx +
c
FX (x)dx
= E (X ) +
c 0
(1 FX (x))dx +
0
FX (x)dx
c 0
= E (X ) +
c 0
dx dx
FX (x)dx +
c c
FX (x)dx
= E (X ) +
c
= E (X ) + c.
= E (X ) + x|0 c
El caso de c < 0 se demuestra de la misma manera. 2 Recordemos el concepto de convergencia uniforme. Denici on 7.5 Sea (fn )n1 una sucesi on de funciones denidas sobre A un conjunto cualquiera. Se dice que la sucesi on de funciones (fn )n1 converge uniformemente a la funci on f sobre A sii para cada > 0 existe n0 N tal que si n n0 entonces para todo x A |fn (x) f (x) | < . Observaci on. La diferencia con la convergencia puntual es que el n0 en este caso sirve para todo x, es decir s olo depende de .
145
La convergencia uniforme implica la puntual pero no al rev es. En particular nos interesa la convergencia uniforme de variables aleatorias. Hacemos notar que el l mite puntual de funciones medibles, y en consecuencia el l mite uniforme, tambi en resulta ser una funci on medible. Teorema 7.11 Sea (Xn )n1 una sucesi on de variables aleatorias denidas en (, A, P ) que convergen uniformemente a una variable aleatoria X sobre . Supongamos que E (X ) existe. Entonces
n +
l m E (Xn ) = E (X ) .
Observaci on. La existencia de E (X ) implica la existencia de E (Xn ) para todo n a partir de un valor n0 . Se deja como ejercicio. Demostraci on. Sea ( A, P ) el espacio de probabilidades donde est an denidas las variables aleatorias Xn , n 1 y X . Teniendo en cuenta la convergencia uniforme dado > 0 existe n0 N tal que si n n0 entonces

sup |Xn ( ) X ( )| < .
Esto signica que si n n0 entonces |Xn ( ) X ( )| < , , o bien X ( ) < Xn ( ) < X ( ) + , . Por las propiedades 7.9 y 7.11 se obtiene que si n n0 entonces E (X ) E (Xn ) E (X ) + . Por lo tanto l m E (Xn ) = E (X ). 2 El siguiente teorema muestra que cualquier funci on medible puede aproximarse por otra que toma un conjunto a lo sumo numerable de valores. Teorema 7.12 (i) Sea g : Rk R una funci on tal que g(Rk ) es un conjunto nito o numerable. Luego una condicion necesaria y suciente para que g sea medible es que para todo y g(Rk ) = Rg , se tenga que g1 (y ) pertenezca a B k . (ii) Dada una funci on g : Rk R medible, existe una sucesion gn : Rk R de funciones medibles tales que Rgn es numerable, y |gn ( ) g( )| 1 n para todo . Luego gn converge a g uniformemente.
146
V ctor J. Yohai
(iii) Sea X un vector aleatorio de dimensi on k y sea Y = g(X) donde g : Rk R es una funci on medible. Entonces si gn : Rk R es una sucesi on de funciones medibles que converge uniformemente a g, resulta que Yn = gn (X) converge uniformemente a Y. (iv) Dada una variable aleatoria X existe una sucesi on de variables aleatorias discretas Xn , n 1 que converge uniformemente a X. Demostraci on. (i) Sea y Rg . Como {y } B , y Rg , para que g sea medible es necesario que g1 (y ) B k .Supongamos ahora que esta condici on se cumpla. Entonces g1 ((, x]) = g1 ((, x] Rg ) =
y (,x]Rg
g1 (y ).
como (, x]Rg es numerable y g1 (y ) B k , resulta g1 ((, x]) B k y por lo tanto g es medible. (ii) Dado n, todo y R pertence a un intervalo de la forma (i/n, (i + 1)/n) para alg un i entero Luego denimos gn por (i + 1) si g(x) (i/n, (i + 1)/n]. n Luego |gn (x) g(x)| 1/n y Rgn es numerable. Por otro lado gn (x) =
1 gn
i+1 n
= g 1
i i+1 , n n
pertenece a B k ya que g es medible. Por lo tanto por (i) gn es medible. (iii) Se deja como ejercicio. (iv) Por (ii) podemos encontrar una sucesi on de funciones medibles gn : R R tales que gn converja uniformemente a la funci on identidad g(x) = x y tal que adem as tomen un conjunto a lo sumo numerable de valores. Luego las variables Xn = gn (X ) son discretas y por (iii) Xn = gn (X ) converge uniformemente a g(X ) = X. 2 El siguiente teorema generaliza el Teorema 7.10 para una funci on g medible cualquiera. La estrategia de la demostraci on es la siguiente y ser a usada a menudo: se aproxima uniformemente a la funci on g por una sucesi on de funciones gn que toman un n umero a lo sumo numerable de valores y que satisfacen la propiedad pedida. Luego usando que el Teorema 7.12 vale para las funciones gn y pasando al l mite se demuestra que la propiedad vale para g.
147
Teorema 7.13 Sea X = (X1 , X2 , . . . , Xk ) un vector aleatorio absolutamente continuo con funci on de densidad fX y g : Rk R una funci on medible arbitraria. Si denimos la variable aleatoria Y = g (X) entonces
+ +
E (Y ) =
g (x) fX (x) dx.
Demostraci on. Por el Teorema 7.12 (ii) existe una sucesi on de funciones medibles gn tal que Rgn es a lo sumo numerable y que converge uniformemente a g. Denimos las variables aleatorias Yn = gn (X) . Por el Teorema 7.12 (iii), (Yn )n converge uniformemente a Y. Como ya hemos demostrado en el Teorema 7.10 que esta propiedad vale para funciones que toman un conjunto a lo sumo numerable de valores, se tendr a
+ +
E (Yn ) =
gn (x) fX (x) dx.
Adem as por el Teorema 7.11 se tiene que l mn E (Yn ) = E (Y ). Luego bastar a probar que
+ n+ + + +
l m
gn (x) fX (x) dx =

g (x) fX (x) dx.
(7.27)
Para probar esto observemos que

+ + + +
gn (x) fX (x) dx
+
g (x) fX (x) dx
=
+
(gn (x) g (x)) fX (x) dx |(gn (x) g (x))| fX (x) dx
1 n
=1
1 fX (x) dx = , n
y por lo tanto se cumple (7.27). 2 Ahora vamos a probar la linealidad de la esperanza. Teorema 7.14 Sean X1 y X2 dos variables aleatorias con esperanza nita. Entonces para todo escalar y vale que E (X1 + X2 ) = E (X1 ) + E (X2 ) .
148
V ctor J. Yohai
Demostraci on. Primero probaremos el Teorema cuando X1 y X2 son discretas. Sean X1 y X2 variables aleatorias discretas con esperanza nita y sea Z = X1 + X2 . Denamos g : R2 R por g (x1 , x2 ) = x1 + x2 . Entonces si X = (X1 , X2 ) se tiene que Z = g (X) . Denamos gi : R2 R, i = 1, 2 por gi (x1 , x2 ) = xi . Luego g(x) =g1 (x)+g2 (x). Usando el Teorema 7.9 podemos escribir E (Z ) =
(x1 ,x2 )RX
g (x) pX (x) [g1 (x) + g2 (x)] pX (x)

(x1 ,x2 )RX
= =
g1 (x)pX (x) +
(x1 ,x2 )RX (x1 ,x2 )RX
g2 (x)pX (x)
= E (g1 (X)) + E (g2 (X)) = E (X1 ) + E (X2 ). Ahora bien, si X1 y X2 son variables aleatorias arbitrarias, entonces por Teorema 7.12 (iii) podemos denir dos sucesiones de variables aleatorias discretas (X1n )n1 e (X2n )n1 tales que convergen uniformemente a X1 y X2 respectivamente.Es f acil ver que tambi en se tendr a que X1n + X2n converge uniformemente a X1 + X2. . Hemos demostrado que para el caso de variables aleatorias discretas se cumple la linealidad de la esperanza. Luego tenemos E (X1n + X2n ) = E (X1n ) + E (X2n ) . Aplicando el Teorema 7.11 se obtiene
n
(7.28)
l m E (X1n + X2n ) = E (X1 + X2 ) , l m E (Xjn ) = E (Xj ), j = 1, 2.
(7.29) (7.30)
y
n
Luego por (7.28), (7.29) y (7.30) se obtiene E (X1 + X2 ) = l m E (X1n + X2n )

n
= l m (E (X1n ) + E (X2n ))
n
= l m E (X1n ) + l m E (X2n )
n n
= E (X1 ) + E (X2 ) , y esto prueba el teorema. 2
7.3. Esperanza del producto de variables aleatorias independientes.
149
7.3.
Esperanza del producto de variables aleatorias independientes.
Otro problema interesante es estudiar la esperanza de un producto de variables aleatorias. Si las variables aleatorias X e Y tienen esperanzas nitas y denimos la variable aleatoria Z = XY entonces nos podemos preguntar: cu ando vale que E (Z ) = E (XY ) = E (X ) E (Y )? Veremos en el siguiente Teorema que una condici on suciente es la independencia de las variables X e Y. Teorema 7.15 Sean X e Y variables aleatorias independientes con esperanza nita. Si Z = XY entonces E (Z ) = E (XY ) = E (X ) E (Y ) . Demostraci on. En principio lo probaremos para el caso discreto. Luego aproximaremos a X e Y por variables discretas uniformemente y probaremos el teorema para el caso general pasando al l mite. Sean X e Y variables aleatorias discretas independientes con esperanza nita y denamos g : R2 R g (x, y ) = xy. Entonces como Z = g (X, Y ) , por el Teorema 7.9 resulta E (Z ) =
(x,y )R(X,Y )
g (x, y ) p(X,Y ) (x, y ) xyp(X,Y ) (x, y )

(x,y )RX RY
= =
(x,y )RX RY
(xpX (x)) (ypY (y ))
xRX
= E (X ) E (Y ) .
xpX (x)
y RY
ypY (y )
Observemos que R(X,Y ) RX RY pero para (x, y ) RX RY R(X,Y ) se tiene p(X,Y ) (x, y ) = 0, lo que justica la segunda igualdad. La tercera se justica por el hecho de que dado que X e Y son independientes se tiene p(X,Y ) (x, y ) = pX (x)pY (y ). Por el Teorema 7.12 (ii) existe una sucesi on de funciones medibles gn : R R que toman un conjunto a lo sumo numerable de valores y que converge uniformemente a la funci on identidad g(x) = x. Consideremos las
150
V ctor J. Yohai
sucesiones de variables aleatorias discretas gn (X ) = Xn e Yn = gn (Y ) . Dado que X e Y son independientes, se tiene que Xn e Yn tambi en lo son. Luego, como ya hemos probado que el teorema vale para el caso discreto, se tiene E (Xn Yn ) = E (Xn ) E (Yn ) . Ahora como por el Teorema 7.12 (iii) Xn converge uniformemente a X e Yn converge uniformemente a Y se tendr a
n
l m E (Xn Yn ) = l m E (Xn ) l m E (Yn ) = E (X ) E (Y ) .

n n
Luego basta probar que l mn E (Xn Yn ) = E (XY ). Para ver esto observemos que |E (Xn Yn ) E (XY ) | = |E (Xn Yn XY ) | = E |Xn Yn Xn Y + Xn Y XY | E |Xn Yn XY |
E (|Xn | |Yn Y |) + E (|Y | |Xn X |) . Por la convergencia uniforme de Xn a X y de Yn a Y tenemos

n
E (|Xn (Yn Y )| + |Y (Xn X )|)
= E |Xn (Yn Y ) + Y (Xn X )|
(7.31)
l m m ax |Xn ( ) X ( )| = 0 l m m ax |Yn ( ) Y ( )| = 0.
(7.32)
y
n
(7.33)
Adem as como |Xn | |X | uniformemente, resulta por el Teorema 7.11

n
l m E (|Xn |) = E (|X |).
(7.34)
De (7.31), (7.32), (7.33) y (7.34) se obtiene que

n
l m |E (Xn Yn ) E (XY ) | = 0,
y esto prueba el teorema. 2 Damos a continuaci on un ejemplo que muestra que la rec proca es falsa, es decir es falso que E (XY ) = E (X ) E (Y ) implique que X e Y son independientes. Ejemplo 7.1 Consideremos un vector (X, Y ) discreto tal que R(X,Y ) = {(1, 0), (1, 0), (0, 1) , (0, 1)}
7.4. Una f ormula general para la esperanza de una variable transformada
151
y tal que p(x, y ) = 1/4 para cada (x, y ) R(X,Y ) . Como para todo (x, y ) R(X,Y ) , se tiene xy = 0, resulta P (XY 0) = 1. Luego E (XY ) = 0. Tambi en se ve que RX = {1, 0, 1} y pX (1) = 1/4, pX (0) = 1/2 y pX (1) = 1/4, por lo tanto resulta E (X ) = 1(1/4) + 0(1/2) + 1(1/4) = 0. De manera que se cumple que E (XY ) = E (X ) E (Y ) = 0.
1 Pero X e Y no son independientes pues pX (1) = 4 = pY (1) y dado que (1, 1) / R(X,Y ) se tiene p(X,Y ) (1, 1) = 0. Sin embargo si X, Y fueran independientes debiera cumplirse
p(X,Y ) (1, 1) = pX (1)pY (1) =
1 11 = . 44 16
lo cual es una contradicci on. Por lo tanto X e Y no son independientes.
7.4.
Una f ormula general para la esperanza de una variable transformada
Teorema 7.16 Sea X una variable aleatoria con esperanza nita y g : R R tal que g(X ) tiene esperanza nita. Supongamos adem as que existen un n umero nito de puntos = d0 < d1 < < dk = , tales que en Di = (di , di+1 ] la funci on g es continua y estrictamente creciente o estrictamente decreciente o constante y que l mxdi g (x) existe . Supongamos adem as que en di , 1 i k 1 la funci on g es continua o FX es continua. Luego se tiene
E (g(X )) =
gdFX .
Demostraci on. Podemos escribir

k
g(X ) =
i=1
g(X )IDi (X ).
Vamos a ver que para probar el teorema bastar a mostrar que

di+1
E (g(X )IDi (X )) =
di
gdFX .
(7.35)
152
V ctor J. Yohai
Es importante observar que de acuerdo a las observaciones 2 y 3 de la p agina 126 la integral de Riemann-Stieltjes en el lado derecho de (7.35) existe. En efecto, si (7.35) se cumple se tendr a por el Teorema 7.14 y el hecho de que en los puntos di , 1 i k 1 la funci on FX o g es continua, que
k
E (g(X )) =
i=1 k
E (g(X )IDi (X ))
di+1
=
i=1 d i
gdFX
gdFX .
Veamos que (7.35) para el caso que g es constante en Di En este caso sea c el valor de la funci on en Di . Luego g(X )IDi (X ) toma valores c con probabilidad FX (di+1 ) FX (di ) y 0 con probabilidad 1 (FX (di+1 ) FX (di )). Luego E (g(X )IDi (X )) = c(FX (di+1 ) FX (di ))
di+1
=
di
gdFX ,
y por lo tanto (7.35) se cumple. Veamos ahora que (7.35) vale en los intervalos Di donde g es estrictamente creciente. Sean a mxdi g(x) y b mxdi+1 g(x) donde l mxa i = l i = l indica l mite cuando x tiende a a por la derecha y l mxa indica el l mite cuando x tiende a a por la izquierda. Sea Yi = g(X )IDi (X ). De acuerdo al Teorema 6.1 si y a 0 i 1 FYi (y ) = (7.36) FX (gi (y )) si a < y < b i i 1 si y bi , donde gi es la restricci on de g a Di . Luego E (Yi ) =
b i a i
ydFYi .
1 1 (a) = di y l mbb gi Como l maa gi (b) = di+1 , para probar (7.35) basi tar a demostrar que para todo ai < a < b < b i se tiene b
1 gi (b)
ydFY =
a
1 gi (a)
g(x)dFX .
(7.37)
7.4. Una f ormula general para la esperanza de una variable transformada
153
En efecto si (7.37), vale entonces resulta E (Yi ) = =

b i a i
ydFYi
b
aai ,bb i
l m
ydFYi
1 gi (b)
aa i ,bbi 1 gi (a)
l m
g(x)dFX
di+1
=
di
g(x)dFX .
y por lo tanto (7.35) vale. Para mostrar (7.37) consideremos una sucesi on de particiones n del n = intervalo [a, b] en n intervalos de igual longitud. Entonces tenemos Y n n n n n n {y0 , y1 , ..., yn } con a = y0 < y1 < < yn = b e yj +1 yj = 1/n, 1 j n. Tomemos una selecci on arbitraria de puntos en esta partici on n n n n n yj < j yj +1 , la llamamos = (j )1 j n . Luego por 7.36 tenemos que
n b n (Y , n , y, FY ) = Sa j =1 n n n n (FY (yj j +1 ) FY (yj )) 1 n 1 n n (yj ))). (FX (gi (yj +1 )) FX (gi j
=
j =1
(7.38)
Entonces como la funci on id (y ) = y es continua en [a, b] y FY es mon otona, b existe la integral de Riemann-Stieltjes a ydFY y se tiene que
n b n l m Sa (Y , n , y, FY ) = b
ydFY .
a
(7.39)
Llamemos ahora
1 n 1 n n xn j = gi (yj ), 0 j n, j = gi (j ), 1 j n. 1 1 n n Luego por la monoton a de gi obtenemos gi (a) = xn 0 < x1 < ... < xn = 1 n n n n n n (b) y xn on gi j < j xj +1 . Por lo tanto X = {x0 , x1 , ..., xn } es una partici 1 1 n n de [gi (a), gi (b)] y = (j )1j n una selecci on en esta partici on. Adem as n n ||X || = m ax (xn j +1 xj ) 1j n 1 n 1 n = m ax (gi (yj +1 ) gi (yj )) 1j n
154
V ctor J. Yohai
1 1 1 tiende a 0 con n por la continuidad uniforme de gi en [gi (a), gi (b)] y el hecho de que n n l m m ax (yj +1 yj ) = 0. n 1j n 1 1 Luego, como g es continua en [gi (a), gi (b)] y FX es mon otona, existe la
1 gi (b) g(x)dFX 1 gi (a)
integral de Riemann-Stieltjes
y resulta que
1 gi (b)
1 gi (b) n l m Sg ( , n , g, FX ) 1 ( a) X n i
1 gi (a)
g(x)dFX .
(7.40)
Finalmente observemos de (7.38) que

n b n Sa (Y , n , y, FY
)=
j =1 n
n 1 n 1 n j (FX (gi (yj +1 )) FX (gi (yj ))) 1 n g(gi (j ))(FX (xj +1 ) FX (xj )) n g(j )(FX (xj +1 ) FX (xj ))
=
j =1 n
=
j =1
i = Sg ( n , n , g, FX ). 1 (a) X i
g 1 (b)
(7.41)
Luego de (7.39) (7.40) y (7.41) obtenemos (7.37), y por lo tanto (7.35) queda demostrada para el caso que g es estrictamente creciente en Di . Para el caso que g es estrictamente decreciente, tenemos que g es estrictamente creciente. Por lo tanto (7.35) vale para g y entonces
di+1
E (g(X )IDi (X )) =
di
gdFX .
Pero esto es equivalente a

di+1
E (g(X )IDi (X )) =
di
gdFX ,
y luego (7.35) tambi en vale. Esto prueba el teorema. 2
7.5.
Esperanza de distribuciones sim etricas
El concepto de esperanza matem atica est a ligado con el valor central de la distribuci on. Ciertas variables llamadas sim etricas tienen un centro
7.5. Esperanza de distribuciones sim etricas
155
natural. Por ejemplo aquellas que tienen densidad sim etrica respecto a un punto. Denici on 7.6 Dada una variable aleatoria X cualquiera, se dice que tiene distribuci on sim etrica respecto de si PX ([ x, )) = PX ((, + x]). para todo x > 0. (7.42)
Teorema 7.17 X tiene distribuci on sim etrica respecto de 0 si y s olo si FX = FX Demostraci on. X tiene distribuci on sim etrica respecto de 0 si y s olo si PX ([x, 0)) = PX ((0, x]), x > 0. Se tiene PX ((0, x]) = FX (x) FX (0) y PX ([x, 0)) = P (x X < 0) (7.44) (7.43)
= P (x X > 0) = P (0 < X x) = FX (x) FX (0). (7.45)
Luego, de (7.43), (7.44) y (7.45) resulta que X tiene distribuci on sim etrica respecto de 0 si y s olo si FX (x) FX (0) = FX (x) FX (0), x > 0. Tomando l mite cuando x tiende a innito resulta 1 FX (0) = 1 FX (0) y luego FX (0) = FX (0). (7.47) De (7.46) y (7.47) resulta que si X tiene distribuci on sim etrica respecto de 0 entonces FX (x) = FX (x), x. (7.48) Veamos la rec proca. Supongamos que FX (x) = FX (x), x. (7.46)
156 Luego, para todo x R se tiene
V ctor J. Yohai
P (X x) = FX (x) = FX (x) = P (X x) = P (X x) . En particular P (X 0) = P (X 0) . Luego, si x > 0 P (0 < X x) = P (X x) P (X 0) = P (x X < 0) . Es decir, (7.48) implica que PX ([x, 0)) = PX ((0, x]), x > 0, de lo que se deduce que X es sim etrica. 2 Teorema 7.18 X tiene distribuci on sim etrica respecto de si y s olo si Y = X tiene distribuci on sim etrica respecto de 0. Demostraci on. Sea x > 0. Se tiene PX ([ x, )) = P ( x X < ) = P (x Y 0) = PY ([x, 0)),
= P (X x) P (X 0)
= P (x X 0)
y PX ((, + x]) = P ( < X + x) = P (0 < X x) = P (0 < Y x) = PY ((0, x]).
Luego PX ([x, )) = PX ((, +x] es equivalente a PY ([x, 0)) = PY ((0, x]) y por lo tanto el teorema es cierto. 2 Teorema 7.19 Si X tiene esperanza nita y tiene distribuci on sim etrica respecto de , entonces E (X ) = .
7.5. Esperanza de distribuciones sim etricas
157
Demostraci on. Primero probaremos el teorema cuando = 0. En este caso por el Teorema 7.14 E (X ) = E (X ). (7.49) Ademas como FX = FX , y la esperanza depende solamente de la funci on de distribuci on se tendr a E (X ) = E (X ). (7.50)
De (7.49) y (7.50) resulta E (X ) = E (X ) = 0. Supongamos ahora que X tenga distribuci on sim etrica respecto de . Entonces X tiene distribuci on sim etrica respecto de 0. Luego usando la Propiedad 7.11 resulta 0 = E (X ) = E (X ) , y el teorema queda demostrado. 2
Teorema 7.20 (i) Si X es absolutamente continua, entonces X tiene distribuci on simetrica respecto de si y s olo si fX ( x) = fX ( + x) . (7.51)
(ii) Si X es discreta, entonces X tiene distribuci on simetrica respecto de si y s olo si pX ( x) = pX ( + x) . Demostraci on. (i) Si llamamos Y = X , como fY (x) = fX (x + ), (7.51) es equivalente a fY (x) = fY (x) . Por otro lado por las f ormulas de cambio de variable fY (x) = fY (x). Luego (7.51) es equivalente a fY = fY y esto es equivalente a FY = FY. . Aplicando el Teorema 7.17 esto es equivalente a que Y sea sim etrica respecto de 0 y por Teorema 7.18 a que X sea sim etrica respecto de . (ii) Es similar a (i). Se deja como ejercicio. 2
158
V ctor J. Yohai
7.6.
Mediana de una variable aleatoria.
Dijimos que la esperanza describe un valor central de una variable aleatoria. En particular, si la variable aleatoria X es sim etrica y tiene esperanza nita, entonces esta coincide con su centro de simetr a. Una desventaja de la esperanza es que es muy inestable, es decir es muy sensible a las peque nas perturbaciones, peque nos cambios en la distribuci on de la variable se ven reejados en importantes cambios en los valores de la esperanza. Otra desventaja de la esperanza es que puede ocurrir que no exista. Incluso esto puede darse en el caso de una distribuci on sim etrica. Un ejemplo de distribuci on sim etrica que no tiene esperanza es la distribuci on de Cauchy. Su densidad est a dada por f (x) = 1 1 . 1 + x2
Es f acil ver que efectivamente es una densidad. Tenemos que 1

1 2 1 = 1 + x2 0 1 + x2 2 = arctg(x)| 0 2 = ( 0) 2 =1
El gr aco de esta densidad es parecido al de la densidad normal aunque las colas tienden a 0 m as lentamente. Es una funci on par y por lo tanto sim etrica respecto del eje y. Esta distribuci on no tiene esperanza puesto que un c alculo sencillo prueba que 1
+
x
0
1 1 dx = 2 1+x
1 dx = +. 1 + x2
En efecto haciendo la tranformaci on y = 1 + x2 en la primer integral se tiene dy = 2xdx y entonces 1

+
x
0
+ 1 1 1 dx = dy 2 1+x 2 1 y 1 = log(y )| 1 = . 2
Por lo tanto la simetr a no garantiza la existencia de la esperanza. En este sentido no es una buena medida de centralidad, puesto que cualquier medida de centralidad debiera coincidir con el centro de simetr a de fX en el caso de existir este.
7.6. Mediana de una variable aleatoria.
159
Otra medida de centralidad es la mediana. Si existe un valor que deja la misma probabilidad a su derecha que a la izquierda, ese valor es la mediana. Esto se podr a lograr siempre en el caso de una variable aleatoria continua. Si X es sim etrica entonces la mediana coincide con el centro de simetr a. Una denici on general de mediana es la siguiente. Denici on 7.7 Se dice que m es una mediana de la variable aleatoria X si se cumple que
1 (i) P (X m) 2 ,y 1 (ii) P (X m) 2 .
Veremos que siempre existe, y que si no es u nica, el conjunto de las medianas es conexo, es decir es un intervalo en R. Para mostrar esto necesitaremos recurrir a la funci on
1 FX (y ) = inf Ay ,
donde Ay = {x : FX (x) y }. Hemos visto que el nmo es en verdad un 1 (y ) y es decir m nimo, de manera que FX FX
1 P X FX (y ) y.
(7.52)
Probaremos ahora una propiedad adicional. Teorema 7.21

1 P X FX (y ) 1 y.
(7.53)
1 1 (y ) , entonces, dado que FX (y ) es el m nimo de Demostraci on. Sea x < FX 1 1 1 Ay se tiene que FX (x) < y. Luego si ponemos x = FX (y ) < FX (y ) n obtenemos 1 1 FX FX (y ) < y, n
es decir P La sucesi on de eventos

1 X FX (y )
1 n
< y.
1 An = {X FX (y )
1 } n
es mon otona no decreciente y adem as

n=1 1 An = {X < FX (y )}.
160 Luego pasando al l mite se tiene l m P

1 X FX (y )
V ctor J. Yohai
1 n
y,
y adem as l m P
1 X FX (y )
1 n
1 = P {X < FX (y )} .
Por lo tanto
1 P {X < FX (y )} y,
o equivalentemente
1 P {X FX (y )} 1 y. 2
Teorema 7.22 Sea X una variable aleatoria y FX su distribuci on. Entonces

1 (i) FX 1 2
es una mediana.
(ii) Si m es mediana de X entonces

1 FX
1 2
m.
(iii) Si m1 y m2 son medianas de X entonces para todo m (m1 , m2 ), m es mediana de X . Demostraci on. (i) Se deduce de (7.52) y (7.53) tomando y = 1 2. (ii) Si m es otra mediana, entonces como P (X m) 1 2 , resulta que 1 1 1 1 m A 1 . Como FX 2 = inf A 1 resulta F 2 m.
2 2
(iii) Se deja como ejercicio. 2 Tambi en se propone como ejercicio dar ejemplos de distribuciones en las que el intervalo de las medianas sea cerrado a derecha y ejemplos en los que sea abierto a derecha. En el caso de que se trate de un intervalo podemos denir la mediana central como el punto medio del intervalo. Es decir si el conjunto de medianas a+b es el intervalo [a, b) o el [a, b], la mediana central es mc (X ) = . 2
7.7. Varianza de una variable aleatoria.
161
7.7.
Varianza de una variable aleatoria.
La esperanza y la mediana de una variable aleatoria son caracter sticas de su distribuci on que describen un valor central. Sin embargo, variables aleatorias con distribuciones muy distintas pueden tener la misma esperanza. Por ejemplo pueden diferir en cuan dispersos alrededor de la esperanza est an los valores que toma la variable. Variables con la misma esperanza pueden estar m as o menos dispersas. Esto nos lleva a denir otras caracter sticas de una variable aleatoria, que midan la dispersi on alrededor de un valor central. Tampoco existe una u nica manera de medir dicha dispersi on. Consideremos una variable aleatoria X. Podr amos considerar la distancia entre los valores que toma X y su esperanza, es decir |X E (X )| y como esto resulta ser una variable aleatoria, calcular su esperanza E (|X E (X )|) . Sin embargo, dado que la funci on valor absoluto no es derivable en el origen, ser a conveniente reemplazarla por la funci on cuadr atica. Denici on 7.8 Denimos la varianza de la variable aleatoria X por Var (X ) = E (X E (X ))2 .
2 . La desviaci Se la suele notar por X on t pica o desv o est andar de una variable aleatoria X es denida como la ra z cuadrada de la varianza
ds (X ) =
Var (X ) = X .
Observaci on. Es Inmediato observar que Var (X ) 0 pues se trata de la esperanza de una variable aleatoria no negativa. Tambi en es claro que siempre existe si admitimos como medida el valor +. La varianza tiene las siguientes propiedades. Propiedad 7.12 Si X tiene varianza nita, entonces Var (X ) = E X 2 E 2 (X ) . Luego para el caso discreto resulta Var (X ) =
xRX
y para el continuo
x2 pX (x)
2
xRX
xpX (x) ,
2
Var (X ) =
x fX (x)dx
xfX (x)dx
162
V ctor J. Yohai
Demostraci on. Teniendo en cuenta las propiedades de la esperanza, se obtiene que: Var (X ) = E (X E (X ))2 = E X 2 2E (X ) X + E 2 (X ) = E X 2 2E 2 (X ) + E 2 (X )
= E X 2 2E (X ) E (X ) + E E 2 (X )
= E X 2 E 2 (X ) .2
Propiedad 7.13 Var (X ) = 0 es equivalente a P (X = E (X )) = 1. Demostraci on. Supongamos que Var (X ) = E (X E (X ))2 = 0. Como (X E (X ))2 es no negativa, resulta por la Propiedad 7.10 que P (X E (X ))2 = 0 = 1. Esto equivale a que P (X E (X ) = 0) = 1, o P (X = E (X )) = 1. Se deja como ejercicio probar que si P (X = E (X )) = 1, entonces Var (X ) = 0. Para eso obs ervese que la variable aleatoria (X 2 E (X )) es cero con probabilidad uno. 2 Propiedad 7.14 Sea X una variable aleatoria e Y = X + , con , escalares. Entonces Var (Y ) = 2 Var (X ) . Demostraci on. Como E (Y ) = E (X ) + resulta Var (Y ) = E (Y E (Y ))2 = E ([X + (E (X ) + )]2 ) = E [ (X E (X ))]2 = 2 E [X E (X )]2 = 2 Var (X ) .2
Se mostrar a que en el caso de suma de variables aleatorias independientes, la varianza es aditiva.
7.7. Varianza de una variable aleatoria.
163
Propiedad 7.15 Sean X e Y variables aleatorias independientes. Luego si Z = X + Y resulta Var (Z ) = Var (X ) + Var (Y ) . Demostraci on. Tenemos Var (Z ) = E [Z E (Z )]2 = E [X + Y E (X ) E (Y )]2 = E [(X E (X )) + (Y E (Y ))]2 = E [X E (X )]2 + 2E ([X E (X )] [Y E (Y )]) + E [Y E (Y )]2 = Var (X ) + 2E ([X E (X )] [Y E (Y )]) + Var (Y ) . Luego, bastar a probar que E ([X E (X )] [Y E (Y )]) = 0. Usando la independencia de X e Y y teniendo en cuenta que E (X E (X )) = 0 = E (Y E (Y )) , resulta E ([X E (X )] [Y E (Y )]) = E (X E (X )) E (Y E (Y )) = 0. 2 (7.54)
7.7.1.
Esperanzas y varianzas de distribuciones normales
Calcularemos ahora E (Y ) y Var(Y ) para una variable Y con distribuci on 2 N , . Teorema 7.23 Si Y N , 2 entonces E (Y ) = y Var(Y ) = 2 . Demostraci on. Tomemos primero una variable X con distribuci on N(0, 1). Mostraremos que E (X ) = 0 y Var(X ) = 1. La densidad de X es f (x) = 1 2 ex /2 . 1 / 2 (2 )
Como X es sim etrica respecto de 0, para mostrar que E (X ) = 0, bastara mostrar que E (|X |) < . Tenemos que
E (|X |) = =2
|x|f (x)dx xf (x)dx

0
2 (2 )1/2
xex
2 /2
dx.
(7.55)
164 Denamos u = x2 /2 y entonces du = xdx. Luego E (|X |) =

2 2 xex /2 dx 1 / 2 (2 ) 0 2 = eu du (2 )1/2 0 2 = eu | 0 (2 )1/2 2 = < . (2 )1/2
V ctor J. Yohai
(7.56)
Vamos ahora a calcular la integral indenida x2 ex

2 2 /2
dx.
Haciendo u = x y dv = xex /2 dx para integrar por partes, se tiene du = dx 2 y por (7.56) v = ex /2 . Luego x2 ex
2 /2
dx =
udv vdu
2 /2
= uv = xex Luego

ex
2 /2
dx.
x2 ex ]

2 /2
dx = [xex
2 /2
ex
2 /2
dx,
y como [xex
2 /2
= 0, resulta

x2 ex
2 /2
dx =
ex
2 /2
dx.
Entonces se tiene
Var(X ) =
x2 f (x)dx

1 (2 )1/2 1 = (2 )1/2 =
x2 ex ex
2 /2
dx
2 /2
dx
f (x)dx
= 1.
7.8. Covarianza
165
De acuerdo a su denici on, la distribuci on N , 2 es la distribuci on de 2 Y = X + , con X N , . Luego E (Y ) = E (X ) + = y Var (Y ) = 2 Var (X ) = 2 . 2 Observaci on. De acuerdo a este resultado, los par ametros de una distribuci on normal coinciden con la esperanza y la varianza.
7.8.
Covarianza
La ecuaci on (7.54) motiva la denici on del concepto de covarianza. Denici on 7.9 Sean X e Y variables aleatorias. Se dene la covarianza de X e Y como Cov (X, Y ) = E ([X EX ] [Y E (Y )]) . La siguientes Propiedades 7.16 y 7.17 son inmediatas Propiedad 7.16 Var (X + Y ) = Var (X ) + Var (Y ) + 2Cov(X, Y ).
Propiedad 7.17 Si X , Y son independientes, Cov(X, Y ) = 0 La rec proca es falsa: la covariaza igual a cero no garantiza la independencia de las variables. Se puede dar el mismo contraejemplo que se us o luego del Teorema 7.15 para mostrar que E (XY ) = E (X )E (Y ) no implica que X e Y sean independientes. Diremos que dos variables aleatorias X e Y est an positivamente correlacionadas si Cov (X, Y ) > 0 y negativamente correlacionadas si Cov (X, Y ) < 0. Si Cov (X, Y ) = E ([X EX ] [Y E (Y )]) > 0, X EX y Y E (Y ) tienden a tener el mismo signo, es decir tienden a situarse del mismo lado de sus respectivas esperanzas. Lo contrario ocurre si Cov (X, Y ) < 0. Propiedad 7.18 Si X e Y son variables aleatorias y ponemos X = X + e Y = Y + entonces Cov X , Y = Cov (X, Y ) .
Demostraci on. Para probarlo obs ervese que X E X Y E Y = X + (E (X ) + ) = (X E (X )) , = Y + (E (Y ) + ) = (Y E (Y )) .
166 Luego E X E X Y E Y
V ctor J. Yohai
= E ( [X E (X )] [Y E (Y )]) = E ([X E (X )] [Y E (Y )])
de donde se obtiene el resultado enunciado. 2 Ahora enunciaremos la desigualdad de Cauchy-Schwarz para variables aleatorias. Teorema 7.24 (Desigualdad de Cauchy-Schwarz) Sean X e Y variables aleatorias. Entonces si las varianzas de ambas variables son nitas se tiene E 2 (XY ) E X 2 E Y 2 , (7.57) y la igualdad ocurre si y s olo si existe tal que P (Y = X ) = 1. Adem as Cov2 (X, Y ) Var(X )Var(Y ), y la igualdad ocurre si y s olo si existen escalares , tal que P (Y = X + ) = 1. Demostraci on. Sea Z = Y X. Entonces Q(a) = E Z 2 = 2 E X 2 + E Y 2 2E (XY ) 0. es un polinomio de segundo grado en , no negativo y como tiene a lo sumo una ra z su discriminante es no positivo. = 4E 2 (XY ) 4E X 2 E Y 2 = 4(E 2 (XY ) E X 2 E Y 2 ) 0. Luego E 2 (XY ) E 2 (X ) E 2 (Y ) 0, de donde obtiene el resultado. La igualdad se cumple si y s olo si = 0. Esto ocurre si y s olo si existe un u nico tal que Q() = 0. Esto es equivalente a que E ((Y X )2 ) = 0, y esto a que P (Y = X ) = 1. La desigualdad (7.58) se obtiene aplicando (7.57) a X = X E (X ) e Y = Y E (Y ). Luego resulta que la correspondiente igualdad se cumple si y s olo si existe tal que P (Y E (Y ) = (X E (X )) = 1. Poniendo = E (Y ) + E (X ), esto es equivalente a (7.59). 2 (7.59) (7.58)
7.9. Distribuci on Normal Bivariada.
167
Denici on 7.10 Dadas las variables aleatorias X e Y se dene el cuadrado del coeciente de correlaci on entre ellas, y se denota por 2 (X, Y ) a 2 (X, Y ) = Cov2 (X, Y ) . Var (X ) Var (Y )
Tambi en denimos el coeciente de correlaci on entre X e Y por (X, Y ) = Cov (X, Y ) [Var (X )] 2 [Var (Y )] 2
1 1
De la desigualdad de Cauchy-Schwarz se deduce la siguiente propiedad. Propiedad 7.19 Se tiene que 0 (X, Y )2 1 y por lo tanto 1 (X, Y ) 1. Ademas (X, Y )2 = 1 es equivalente a que para alg un y se tenga P (Y = X + ) = 1, es decir a que haya una relaci on lineal perfecta entre las variables X e Y.
7.9.
Distribuci on Normal Bivariada.
En esta secci on vamos a denir la distribuci on normal con medias, varianzas y covarianzas arbitrarias. Queremos denir la distribuci on conjunta de un vector aleatorio Y = (Y1 , Y2 ) a partir de jar la distribuci on marginal de cada una de sus coordenadas y establecer un valor para la covarianza entre sus coordenadas. Es decir que queremos que la distribuci on conjunta del vector Y sea tal 2 2 que Y1 N 1 , 1 , Y2 N 2 , 2 , y tal que Cov (Y1 , Y2 ) = 12 , con las constantes 1 , 2 , 1 , 2 y 12 prejadas arbitrariamente. Para que esto sea posible se tendr an que cumplir ciertas restricciones sobre estas constantes. Los valores 1 , 2 no tienen deben cumplir ning un requisito en particular, 2 > 0, 2 > 0 y pero 1 debe cumplir la desigualdad de Cauchy-Schwarz 12 2 que se puede escribir como 2 2 2 1 2 . 12 Ahora bien si queremos una distribuci on bivariada absolutamente con2 2 2 tinua, no podr a cumplirse 12 = 1 2 , ya que en este caso (Y1 , Y2 ) estar a sobre una recta que es un conjunto de supercie 0. Luego se deber a cumplir
2 2 2 12 < 1 2 .
168 Sea la matriz denida por =

2 1 12 2 12 2
V ctor J. Yohai
(7.60)
2 2 2 > 0. Luego det () = 1 2 12 Denamos la matriz de covarianza del vector Y por
Y = Luego queremos que
Var(Y1 ) Cov(Y1 , Y2 ) Cov(Y2 , Y1 ) Var(Y2 ) Y = .
2 2 2 > 0 y 2 > 0, resulta sim etrica y denida Como det() = 1 12 1 2 positiva. Luego tiene al menos una ra z cuadrada. Es decir existe una matriz (no u nica) a11 a12 A= (7.61) a21 a22
tal que = AAt , donde At designa su traspuesta. Estamos ahora en condiciones de construir el vector aleatorio buscado. Lo haremos en el siguiente teorema. Teorema 7.25 Sea R22 una matriz denida positiva dada por (7.60), = (1 , 2 ) R2 . Sea A R22 dada por (7.61) que cumple (7.62). Sea X = (X1 , X2 ) un vector aleatorio tal que X1 y X2 variables aleatorias independientes con distribuci on N (0, 1) . Se dene el vector aleatorio Y = (Y1 , Y2 ) por Y = XAt + . Entonces resulta que
2 e Y tiene distribuci 2 . (i) Y1 tiene distribuci on N 1 , 1 on N 2 , 2 2
(7.62)
(ii) Cov(Y1 , Y2 ) = 12 . (iii) La densidad del vector Y est a dada por fY (y) = 1 2 det ()
1 2
exp
1 (y ) 1 (y )t . 2
169
(iv) La forma cuadr atica Q(y) = (y ) 1 (y )t es igual a 1 (y1 1 )2 (y2 2 )2 + 2 (y1 1 ) (y2 2 ) . 2 2 (1 2 ) 1 2 Demostraci on. (i) y (ii) Observemos que el vector Y satisface Y1 = a11 X1 + a12 X2 + 1 , Y2 = a21 X1 + a22 X2 + 2 . Como E (X1 ) = E (X2 ) = 0, resulta E (Y1 ) = 1 , E (Y2 ) = 2 . Ademas como Cov (X1 , X2 ) = 0, Var (X1 ) = Var (X2 ) = 1, resulta
2 Var (Y1 ) = a2 11 Var (X1 ) + a12 Var (X2 )
(7.63) (7.64)
(7.65)
= De modo an alogo,
a2 11
a2 12 . (7.66)
2 Var (Y2 ) = a2 21 + a22 ,
y como E (X1 X2 ) = 0, resulta Cov (Y1 , Y2 ) = E ([a11 X1 + a12 X2 ] [a21 X1 + a22 X2 ])

2 2 ) + (a12 a21 + a11 a22 )E (X1 X2 ) ) + a12 a22 E (X2 = a11 a21 E (X1
= a11 a21 + a12 a22 . Luego Y =

2 a2 a11 a21 + a12 a22 11 + a12 2 a11 a21 + a12 a22 a2 21 + a22
(7.67)
= AAt = =
2 1 12 2 12 2
(7.68)
De acuerdo al Teorema 6.7, como Y1 e Y2 son combinaciones lineales de normales independientes ser an normales. Por (7.63), (7.65) y (7.68) 2 . Por (7.64), (7.66) y resulta que la distribuci on de Y1 es N 1 , 1 2 . Adem (7.68) resulta que la distribuci on de Y2 es N 2 , 2 as, de (7.67) y (7.68) resulta que Cov(Y1 , Y2 ) = 12 . Esto prueba (i) y (ii).
170
V ctor J. Yohai
(iii) Vamos a calcular la distribuci on conjunta del vector Y . Comencemos escribiendo la distribuci on conjunta del vector X. Como X1 y X2 son independientes, la distribuci on conjunta de X es el producto de las marginales, fX (x) = = = donde xxt = ||x||2 . 1 exp 2 1 exp 2 1 exp 2 x2 1 2 exp x2 2 2
2 x2 1 + x2 2
1 t xx , 2
Teniendo en cuenta que X = (Y ) At se obtiene que el Jacobiano de esta transformaci on es J = 1/ det At . Adem as, como = AAt se obtiene que (det (A))2 = det () o sea det (A) = det () 2 y por 1 1 1 lo tanto J = 1/ det () 2 . Entonces, a partir de la igualdad At A = 1 usando la f ormula para transformaciones de vectores aleatorios dada en el teorema 6.4, resulta fY ( y ) = = 1 2 det () 1 2 det ()
1 2 1
exp exp
1 (y ) At 2
A1 (y )t
1 2
1 (y ) 1 (y )t . 2
(iv) Para hallar la forma cuadr atica, calculemos primero el determinante de

2 2 2 2 2 det () = 1 2 12 = 1 2 1 2 12 2 2 1 2 2 2 = 1 2 1 2 .
Luego la inversa de viene dada por 1 = 1 2 2 1 2 (1 2 )

2 2 12 2 12 1
Entonces la forma cuadr atica se puede escribir como (y ) 1 (y )t = (y ) = 1 1 2 2 1 2 (1 2 ) 2 )

2 2 12 2 12 1
(y )t
2 (y1 1 ) (y2 2 ) 12 ] .
2 2 (1 1 2
2 2 (y1 1 )2 2 + (y2 2 )2 1
171
Luego se tiene (y ) 1 (y )t 1 = 1 2 = 1 1 2
12 (y1 1 )2 (y2 2 )2 + 2 2 2 (y1 1 ) (y2 2 ) 2 2 1 2 1 2 (y1 1 )2 (y2 2 )2 (y1 1 ) (y2 2 ) .2 + 2 2 2 1 2 1 2
Observaci on. El teorema anterior se demostr o para el caso de dos variables. Sin embargo la densidad normal multivariada de cualquier dimensi on que se dene para vectores aleatorios Y Rk tiene una expresi on similar a la escrita en el punto (iii). Observaci on. El m aximo valor de fY se logra cuando se hace m nimo el exponente de la exponencial, esto es en y = . Por otro lado las curvas de nivel fY (y) = c (con c constante) son elipses cuyas direcciones principales vienen dadas por los autovectores de 1 . Si la Cov (Y1 , Y2 ) = 0 entonces, la matriz es diagonal y las direcciones son paralelas a los ejes coordenados, dando lugar a circunferencias como curvas de nivel en este caso. Denici on 7.11 Se dice que el vector Y tiene distribuci on normal bivariada con media y matriz de covarianza denida positiva, que se denotar a por N2 (,) si su funci on densidad es fY ( y ) = 1 2 det ()
1 2
exp
1 (y ) 1 (y )t . 2
172
V ctor J. Yohai
Cap tulo 8
Teor a de la Predicci on.

8.1. Error cuadr atico medio y predictores optimos.
En esta secci on veremos como utilizar ciertas variables conocidas para predecir otras variables que no se pueden observar en un determinado momento. Por ejemplo se quiere predecir la cantidad de lluvia que ma nana caer a en determinada regi on, utilizaremos otras variables que se puedan medir hoy. Quisi eramos encontrar el predictor que se aproxime m as a la variable a predecir, entre todos los predictores pertenecientes a un conjunto dado. Sea P un conjunto de predictores para la variable aleatoria Y, que forman un espacio vectorial. Cada elemento de P es una variables aleatoria observable. Supongamos que se quiere predecir a Y a trav es de Y P . C omo se puede medir la bondad de un predictor Y cualquiera? Se pueden considerar las siguientes alternativas: Denici on 8.1 El error cuadr atico medio del predictor Y para predecir a Y est a dado por ECM Y , Y y el error absoluto medio EAM Y , Y =E Y Y . =E Y Y
2
Si usamos como criterio de bondad de un predictor el error cuadr atico medio, diremos que Y0 P es es un predictor o ptimo de Y en P , si dado otro Y P se tiene ECM Y0 , Y ECM Y , Y . A continuaci on damos un criterio suciente para obtener un predictor optimo usando el criterio del error cuadr atico medio. 173
174
V ctor J. Yohai
Teorema 8.1 Una condici on suciente para que Y0 P sea un predictor o ptimo usando el criterio del error cuadr atico medio es que E Y Y0 Y =0 (8.1)
para todo Y P . Adem as, si Y0 satisface (8.1), es esencialmente el u nico predictor o ptimo. Es decir si Y P satisface ECM Y0 , Y = ECM Y , Y entonces P Y = Y0 = 1. Observaci on. La condici on (8.1) se puede interpretar como que el error de predicci on Y Y0 es ortogonal a todo elemento de P cuando el producto escalar est a denido por Y, X = E (Y X ) en el espacio de Hilbert de las variables aleatorias. Demostraci on. Sea Y P . Entonces ECM Y , Y =E =E + 2E Y Y Y Y0 Y0 Y
2
=E +E Y Y0
Y Y0 + Y0 Y Y0 Y .
2
Usando la condici on de ortogonalidad, como Y0 Y P se tiene E y luego ECM Y , Y =E E Y Y0 Y Y0

2
Y0 Y
Y Y0
= 0,
+E
Y0 Y
= ECM Y0 , Y , y por lo tanto Y0 es optimo. Adem as si Y fuera tambi en optimo se tendr a E

2
Y0 Y
= 0 y
siendo Y0 Y 0 resultar a P Y = Y0 = 1, en virtud de la Propiedad 7.10. 2. El siguiente Teorema simplica la vericaci on de la condici on (8.1).
8.2. Predictores constantes.
175
Teorema 8.2 Sea P un espacio vectorial de predictores de la variable aleatoria Y de dimensi on nita y sea {Y1 , ..., Yk } una base de P . La condici on necesaria y suciente para que se cumpla (8.1) es que E Y Y0 Yi = 0, 1 i k. (8.2)
Demostraci on. Claramente es una condici on necesaria. Veamos que es suciente Sea Y cualquier elemento de P , entonces existen escalares 1, ..., k tal que Y = k i=1 i Yi . Luego si para i = 1, 2, ..., k se cumple que E resulta tambi en que
k
Y Y0 Yi = 0,
Y Y0 Y
=E
k
Y Y0 i E
i Yi
i=1
=
i=1
Y Y0
Yi = 0.
8.2.
Predictores constantes.
Se pueden considerar distintos conjuntos de predictores. Comenzaremos con los predictores constantes. Sea (, A, P ) un espacio de probabilidad, Y una variable aleatoria a predecir y consideremos P1 = {Y : Y es una variable aleatoria constante}. El siguiente Teorema determina el predictor optimo perteneciente a P1 . Teorema 8.3 El predictor Y0 = E (Y ) es el de menor error cuadr atico medio en P1 . Adem as ECM(Y0 , Y ) = Var(Y ). Demostraci on. Una base de P1 es {Y1 } donde Y1 = 1. Como E Y Y0 1 = E (Y E (Y )) = E (Y ) E (Y ) = 0,
resulta Y0 = E (Y ) el predictor de menor error cuadr atico medio. Adem as ECM(Y0 , Y ) = E ((Y Y0 )2 ) = Var(Y ). 2 = E ((Y E (Y ))2 )
Designamos el predictor optimo para Y en P1 por Y0,C . En la pr actica u nicamente se usa un predictor constante si no se observan otras variables vinculadas a Y.
176
V ctor J. Yohai
8.3.
Predictores lineales.
Sea ahora (, A, P ) un espacio de probabilidad, Y una variable aleatoria a predecir y X otra variable aleatoria observada. Consideremos el siguiente conjunto de predictores P2 = {Y : Y = X + , , R}.
P2 es el conjunto de variables aleatorias que se obtiene por una transformaci on lineal de la variable X . Claramente P1 P2 , y por lo tanto el error cuadr atico medio del predictor optimo en P2 ser a menor o igual que el del predictor optimo en P1 . Por esta raz on, si denotamos por Y0,L el predictor optimo en P2 ,resulta claro que ECM Y, Y0,L ECM Y, Y0,C . El siguiente Teorema caracteriza el predictor optimo en P2 . Teorema 8.4 (i) El predictor de menor error cuadr atico medio en P2 est a dado por Y0,L = X + con = E (Y ) E (X ) y = Cov (X, Y ) . Var (X ) (8.4) (8.3)
(ii) El error cuadr arico medio de Y0,L est a dado por ECM Y0,L .Y = Var (Y ) Cov2 (X, Y ) . Var (X ) (8.5)
Demostraci on. Una base de P2 es {Y1 , Y2 } donde Y1 = X e Y2 = 1. Luego el predictor optimo Y0,L debe satisfacer E ((Y X ) X ) = 0 y E ((Y X ) 1) = 0. De la condici on (8.6) se obtiene E (Y ) E (X ) = 0, de donde resulta (8.3). Ahora multiplicando (8.7) por E (X ) resulta E ((Y X ) E (X )) = 0, (8.7) (8.6)
8.3. Predictores lineales.
177
y rest andola de (8.6) obtenemos E ((Y X ) (X E (X ))) = 0. Reemplazando por (8.3) obtenemos E ((Y X E (Y ) + E (X )) (X E (X ))) = 0, y por lo tanto E ((Y E (Y )) (X E (X )) (X E (X )) = 0. Entonces distribuyendo la esperanza se obtiene Cov (X, Y ) = E [(Y E (Y )) (X E (X ))] = E (X E (X )2 = Var (X ) , y por lo tanto resulta (8.4). Ahora calcularemos el error cuadr atico medio de Y0,L . Usando (8.3) obtenemos ECM Y0,L , Y = E [Y X ]2 = E [Y X E (Y ) + E (X )]2 = = E [(Y E (Y )) (X E (X ))]2 = = E [Y E (Y )]2 + 2 E [X E (X )]2 2E ([Y E (Y )] [X E (X )]) . Luego, usando (8.4) se obtiene ECM Y0,L , Y = Var (Y ) + 2 Var (X ) 2Cov (X, Y )
Cov2 (X, Y ) Cov2 (X, Y ) 2 Var (X ) Var (X ) 2 Cov (X, Y ) = Var (Y ) . 2 Var (X ) = Var (Y ) + Para evaluar cu anto mejora el error cuadr atico medio cuando se usa Y0,L
178 en vez de Y0,C , calculemos su decrecimiento relativo ECM Y0,C , Y ECM Y0,L , Y
Cov2 (X,Y ) Var(X )
V ctor J. Yohai
ECM Y0,C , Y = Var (Y ) Var (Y ) ECM Y0,C , Y =

Cov (X,Y ) Var(X )
2
Var (Y )
Cov2 (X, Y ) = 2 (X, Y ) . Var (X ) Var (Y )
Esto permite interpretar el coeciente 2 (X, Y ) como el decrecimiento relativo del error cuadr atico medio cuando se usa un predictor lineal basado en X en vez de un predictor constante. Por lo tanto 2 (X, Y ) mide la utilidad de la variable X para predecir a Y por una funci on lineal. Observemos que a partir de esta igualdad puede obtenerse nuevamente la desigualdad de Cauchy-Schwarz. En efecto, como 0 ECM Y0,C , Y ECM Y0,L , Y Veremos ahora el signicado de los casos extremos 2 (X, Y ) = 1 y 2 (X, Y ) = 0. 2 (X, Y ) = 1 es equivalente a ECM Y, Y0,L = 0 y esto es equivalente E Y Y0,L
2
ECM Y, Y0,C , se obtiene 0 2 (X, Y ) 1.
= 0, que a su vez es equivalente a
P Y = Y0,L = P (Y = X + ) = 1, en virtud de la Propiedad 7.10. Es decir 2 (X, Y ) = 1 es equivalente a que hay una relaci on lineal perfecta entre X e Y con probabilidad 1. Existen dos posibilidades para 2 (X, Y ) = 1 : o bien (X, Y ) = 1 o (X, Y ) = 1. El signo de (X, Y ) coincide con el de Cov(X, Y ) que es el mismo que el de la pendiente del predictor linear optimo. Luego (X, Y ) = 1 indica que la relaci on entre la X y la Y es creciente y (X, Y ) = 1 que la relaci on es decreciente. Veremos ahora como se interpreta 2 (X, Y ) = 0. En este caso ECM Y0,L , Y = ECM Y0,C , Y
y Cov(X, Y ) = 0. Por lo tanto = 0, y se puede concluir que la variable X no tiene utilidad para predecir a Y cuando se utilizan predictores constantes. Se deja como ejercicio probar que la recta Y = X + pasa por el punto (E (X ) , E (Y )) , es decir que cuando la variable X toma el valor E (X ) el valor predicho para la variable Y es E (Y ).
Cap tulo 9
Esperanza y distribuci on condicional.

9.1. Caso discreto.
Sean dos variables aleatorias discretas X, Y denidas sobre un mismo espacio de probabilidad (, A, P ). Sea RX = {x : pX (x) > 0} y RY = {y : pY (y ) > 0}. Luego, para cada x RX denimos la funci on de probabilidad de Y condicional a X = x como pY |X (y |x) = pXY (x, y ) . pX (x)
Para cada x RX jo esta funci on es una funci on de densidad de probabilidad ya que pXY (x, y ) 1 = pX (x) pX (x) pX (x) = 1, pX (x)
y Ry
pY |X (y |x) =
pXY (x, y ) =
y Ry
y Ry
y representa la distribuci on de Y una vez conocido que el valor de X = x. Si se tienen dos vectores discretos X = (X1 , ..., Xk ) , Y = (Y1 , ..., Yh ) podemos denir una noci on an aloga. Sea RX = {x Rk : pX (x) > 0}, luego para todo x RX denimos pY|X (y|x) = y tambi en se tendr a
yRY
pXY (x, y) , pX (x)
(9.1)
pY|X (y|x) = 1.
Esto permite calcular probabilidades que involucran a Y cuando sabemos que el evento {X = x} ha ocurrido. En efecto, si B B h (borelianos de Rh ) 179
180 denimos P (Y B | X = x) = pY|X (y|x).
V ctor J. Yohai
yRY B
Sea ahora Y una variable aleatoria y X un vector aleatorio de dimensi on k, ambos discretos. La esperanza condicional de la variable Y condicional a X = x se dene como la esperanza de Y utilizando como distribuci on de esta variable la distribuci on determinada por (9.1). Es decir esta esperanza condicional se dene por
E (Y |X = x) =
y Ry
ypY |X (y |x).
(9.2)
Este valor representa la esperanza de la variable Y cuando se sabe que el vector X ha tomado el valor x. Llamemos g(x) = E (Y |X = x), luego g(x) : RX R. Vamos a denir ahora una variable aleatoria que llamaremos esperanza de Y condicional a X, y que notaremos por E (Y |X). Esta variable se dene por E (Y |X) = g(X). Vamos ahora a mostrar el siguiente teorema, que relaciona las esperanzas de ambas variables aleatorias.
Teorema 9.1 Si Y tiene esperanza nita, entonces se tiene que
E (E (Y |X)) = E (Y ).
Demostraci on. Tenemos que
E (E (Y |X)) = E (g(X)) =
g(x)pX (x).
xRx
9.1. Caso discreto.
181
Utilizando que g(x) viene dado por (9.2), se tiene E (E (Y |X)) = =

xRX xRX
y RY
y RY
=
xRX
=
y RY
=
y RY
y RY
ypXY (x, y )
pXY (x, y ) y pX (x) pX (x) pXY (x, y )
ypY |X (y |x) pX (x)
xRX
ypY (y )
= E (Y ). El cambio en el orden de la suma se encuentra justicado pues la suma converge. Luego el teorema queda demostrado. 2 Ejemplo 9.1 Supongamos que se hace una primera serie de n tiradas de una moneda y sea X el n umero de caras obtenido. En base al resultado de la primera serie de tiradas, se inicia una segunda serie de X tiradas. Sea Y el n umero de caras obtenidas en esta segunda serie. Calcular la E (Y ). Si X = x, la distribuci on de Y condicional a X = x es binomial Bi(0,50, x). Luego g(x) = E (Y |X = x) = 0,50x. Luego E (Y |X ) = g(X ) = 0,50X, y por lo tanto E (Y ) = E (E (Y |X )) = 0,50E (X ). Como X es Bi(0,50, n), entonces E (X ) = 0,5n. Por lo tanto E (Y ) = 0,25n. Teorema 9.2 (i) Si X e Y son dos vectores aleatorios independientes, entonces se tiene a) pY|X (y|x) = pY (y)
b) Si Y es una variable aleatoria y E (Y ) existe y es nita entonces E (Y |X = x) = E (Y ). (ii) Sean X e Y dos vectores aleatorios tales pY|X (y|x) = p(y) para todo x RX . Entonces pY (y) = p(y), y X e Y son independientes. Demostraci on. (i) a ) se deduce del hecho de que pY|X (y|x) = pY (y) implica que pXY (x, y) = pX (x)pY (y).
182 b ) es inmediata.
V ctor J. Yohai
(ii) Para probar (ii) observemos que pY|X (y|x) = p(y) implica que pXY (x, y) = pX (x)p(y), y por lo tanto pY (y) =
xRX
(9.3)
pX (x)p(y) = p(y)
xRX
pX (x) = p(y).
Luego reemplazando en (9.3) se obtiene pXY (x, y) = pX (x)pY (y), y esto implica que X e Y son independientes. 2 Teorema 9.3 Si P (Y = c) = 1, entonces, cualquiera sea el vector X, se tiene (i) pY |X (c|x) = 1. (ii) E (Y |X = x) = c. Demostraci on. Tenemos que {X = x} = ({X = x} {Y = c}) ({X = x} {Y = c}). Como P ({X = x} {Y = c}) = 0, se tiene pX (x) = P (X = x) = P (X = x, Y = c) = pXY (x, c). Por lo tanto pY |X (c|x) = pXY (x, c) = 1. pX (x) (9.4)
Como en este caso RY = {c}, se tiene E (Y |X = x) =

y Ry
ypY |X (y |x)
= cpY |X (c|x) = c1 = c, y el teorema queda demostrado. 2
Sean ahora dos vectores aleatorios discretos, X = (X1 , ..., Xk ), Y = (Y1 , ..., Yj ), y sea Z = h(X, Y ), donde h : Rk+j R es una funci on medible. El siguiente Teorema muestra c omo se calcula E (Z |X = x).
9.1. Caso discreto.
183
Teorema 9.4 Sean X, Y dos vectores aleatorios discretos de dimensiones k y j , y sea h : Rk+j R una funci on medible. Denamos la variable aleatoria discreta Z = h(X, Y ), y supongamos que tiene esperanza nita. Entonces para todo x RX se tiene E (Z |X = x) =
yRY
h(x, y )pY|X (y|x).
Demostraci on. Comenzaremos calculando la funci on de probabilidad conjunx = {z : z = h(x, y) para y R }, y para todo z Rx ta de (X, Z ). Sea RZ Y Z denamos Ax acil ver que: z = {y : h(x, y) = z }. Es f x si z = z entonces Ax z Az = , y que Ax z = RY .
z Rx Z
(9.5)
Es inmediato que pXZ (x, z ) = P (X = x, Y Ax z) = 0

yAx z
pXY (x, y)
x si x RX , z RZ en otro caso,
y luego, para x RX se tiene pZ |X (z |x) = pXZ (x, z ) = pX (x)

yAx z
pXY (x,y) pX (x)
x si z RZ en otro caso.
Por lo tanto se tiene pZ |X (z |x) =

yAx z
pY|X (y|x)
x si z RZ en otro caso.
(9.6)
Luego utilizando (9.6) se tiene E (Z |X = x) = =

z Rx Z
z Rx Z
z pZ |X (z |x) pY|X (y|x)
z
yAx z
=
x z Rx Z yAz
zpY|X (y|x),
y como para y Ax z , se tiene h(x, y) = z , utilizando (9.5) obtenemos E (Z |X = x) = =

yRY z Rx Z yAx z
h(x, y)pY|X (y|x)
h(x, y)pY|X (y|x),
184 probando por lo tanto el teorema. 2
V ctor J. Yohai
El Teorema 9.4 se puede interpretar como que E (Z |X = x) se calcula como la esperanza de h(Y , x) (variable aleatoria que depende u nicamente del vector aleatorio Y , ya que x es tratada como si fuera constante) utilizando pY|X (y|x) como funci on de probabilidad puntual de Y Vamos qu e propiedades de la esperanza condicional se deducen del Teorema 9.4. Propiedad 9.1 Sean X un vector aleatorio discreto de dimensi on k y Y un vector aleatorio discreto de dimensi on j , y sean r : Rk R y s : Rj R funciones medibles tales que las variables aleatorias r (X)s(Y ), r (X) y s(Y ) tienen esperanza de nita. Entonces se tiene E (r (X)s(Y )|X = x) = r (x)E (s(Y )|X = x). Demostraci on. Utilizando el Teorema 9.4 con h(x, y) = r (x)s(y) que tiene esperanza nita, se tiene E (r (X)s(Y ) | X = x) = = r (x)
yRY
yRY
r (x)s(y)pY|X (y|x)
s(y)pY|X (y|x)
= r (x)E (s(Y )|X = x), y luego la propiedad queda demostrada. 2
Propiedad 9.2 Sea X un vector aleatorio discreto de dimensi on k, y sea r : Rk R una funci on medible tal que la variable r (X) tiene esperanza nita. Luego E (r (X)|X = x) = r (x). Demostraci on. La demostraci on resulta de la Propiedad 9.1 tomando s(y) = 1, ya que entonces E (r (X)|X = x) = r (x)E (1|X = x). Luego por el Teorema 9.4 resulta la Propiedad 9.2.
Propiedad 9.3 (Linealidad de la esperanza condicional) Sean Y1 e Y2 variables aleatorias discretoas con esperanza nita, y sea X un vector aleatorio discreto, entonces E (c1 Y + c2 Y2 |X = x) = c1 E (Y1 |X = x) + c2 E (Y2 |X = x).
9.1. Caso discreto.
185
Demostraci on. Sea Y = (Y1 , Y2 ) y denamos h(x, y) = c1 y1 + c2 y2 , h1 (x, y) = y1 y h2 (x, y) = y2 . Entonces se tiene h(x, y) = c1 h1 (x, y) + c2 h2 (x, y). Luego tenemos E (c1 Y1 + c2 Y2 |X = x) = E (h(X, Y )|X = x) =
yRY
h(x, y)pY|X (y|x) (c1 h1 (x, y) + c2 h2 (x, y))pY|X (y|x) h1 (x, y)pY|X (y|x) + c2 h2 (x, y)pY|X (y|x)
=
yRY
= c1
yRY
yRY
= c1 E (Y1 |X = x) + c2 E (Y2 |X = x), y la Propiedad 9.3 queda demostrada. 2 Propiedad 9.4
= c1 E (h1 (X, Y )|X = x) + c2 E (h2 (X, Y )|X = x)
(i) Si P (Y 0) = 1, E (Y |X = x) 0.
(ii) E Y 2 |X = x E 2 (Y |X = x). (iii) Si E (Y 2 ) < , entonces E (E 2 (Y |X )) < . Demostraci on. (i) Es inmediato de la denici on. (ii) Para demostrar (ii), observemos que por (i) 0 E ([Y E (Y |X = x)]2 |X = x)
= E (Y 2 |X = x)2E (Y |X = x)E (Y |X = x)+E 2 (Y |X = x) = E (Y 2 |X = x)E 2 (Y |X = x), En la pen ultima igualdad utilizamos la Propiedad 9.1 y la Propiedad 9.3. Luego (ii) queda demostrado. (iii) Ahora demostraremos (iii). Observemos que por (ii) E (Y 2 |X) E 2 (Y |X) y luego, en virtud del Teorema 9.1 tenemos > E (Y 2 ) = E (E (Y 2 |X)) E (E 2 (Y |X)), demostrando (iii).
= E ( Y 2 2Y E (Y |X = x) + E 2 (Y |X = x) |X = x)
186
V ctor J. Yohai
Propiedad 9.5 Sea Y una variable aleatoria discreta con esperanza nita y X un vector aleatorio discreto de dimensi on k. Luego si g(x) = E (Y |X = x), entonces para toda t : Rk R medible tal que Y t(X) tiene esperanza nita resulta E [(Y g(X))t(X)] = 0. Demostraci on. Sea Z = h(X, Y ) = (Y g(X))t(X). Luego bastar a demostrar que E (Z ) = 0. Utilizando el Teorema 9.1 bastar a demostrar que E (Z |X) = 0. De acuerdo a la Propiedad 9.1, tenemos que E (Z |X = x) = t(x)E ((Y g(X))|X = x), y por lo tanto E (Z |X) = t(X)E ((Y g(X))|X). Luego para mostrar (9.7) bastar a demostrar que E (Y g(X)|X) = 0. Pero esto es cierto ya que por Propiedades 9.3 y luego la Propiedad 9.2 se tiene E (Y g(X)|X ) = E (Y |X) E (g(X)|X) = E (Y |X) g(X) = g(X) g(X) = 0, (9.7)
y por lo tanto queda demostrada esta propiedad. 2 Propiedad 9.6 Sea Y una variable aleatoria discreta con varianza nita y X un vector aleatorio discreto de dimensi on k. Luego Y = g(X) = E (Y |X) es el u nico predictor con menor error cuadr atico medio en la clase de predictores P = Y = t(X) : t medible, Var(t(X)) < . Demostraci on. Se deja como ejercicio ver que P es un espacio vectorial. Vamos a mostrar primero que g(X) P o sea que Var g2 (X) < . (9.8) Pero esto resulta de Propiedad 9.4 (iii). Luego el resultado se obtiene del Teorema 8.1 y de la Propiedad 9.5. 2
9.2. Caso general
187
9.2.
Caso general
Vamos ahora dar una denici on de E (Y |X) para el caso de una variable Y cualesquiera , y un vector X cualquiera de dimensi on k. Ambos, Y y X no tienen porque ser discretos ni absolutamente continuos Denici on 9.1 La variable aleatoria esperanza de Y condicional X se dene por E (Y |X) = g(X), donde g : Rk R es una funci on medible tal que E ((Y g(X))t(X)) = 0 (9.9) para toda t : Rk R medible tal que Y t(X) tiene esperanza nita . Deniremos E (Y |X = x) = g(x). La Propiedad 9.5 demostrada anteriormente muestra que en el caso de Y y X discretos esta denici on coincide con la dada anteriormente, y por lo tanto en este caso siempre existe. El siguiente teorema muestra que siempre existe una u nica variable aleatoria g(X) = E (Y |X) satisfaciendo (9.9). Teorema 9.5 Sea Y una variable aleatoria con esperanza nita y sea X un vector aleatorio cualquiera de dimensi on k. Luego (i) Siempre existe una funci on medible g : Rk R satisfaciendo (9.9). (ii) Si g1 y g2 son dos funciones medibles satisfaciendo (9.9), entonces P (g1 (X) = g2 (X)) = 1. Demostraci on. (i) No lo demostraremos en general en este curso. M as adelante haremos una demostraci on para el caso absolutamente continuo. (ii) Sean g1 y g2 son dos funciones medibles satisfaciendo (9.9), entonces E ((Y g1 (X))t(X)) = 0 y E ((Y g2 (X))t(X)) = 0 (9.11) para toda t(X) tal que Y t(X) tenga esperanza nita. Luego restando (9.11) de (9.10) se obtiene E ((g2 (X) g1 (X))t(X)) = 0, (9.10)
188 y tomando t(X ) = g2 (X) g1 (X) resulta E ((g2 (X) g1 (X))2 ) = 0. Esto implica que
V ctor J. Yohai
P ((g2 (X) g1 (X))2 = 0) = P (g2 (X) = g1 (X)) = 1. 2
Vamos ahora a demostrar que todas las propiedades de esperanza condicional que val an para el caso discreto tambi en valen para la denici on general.
Teorema 9.6 Si Y tiene esperanza nita, entonces E (E (Y |X)) = E (Y ). Demostraci on. Apliquemos (9.9) con t(X) = 1. Luego se tiene 0 = E (Y g(X))
= E (Y ) E (g(X))
= E (Y ) E (E (Y |X)),
y por lo tanto se cumple el Teorema 9.6. 2 Teorema 9.7 Sean Y una variable aleatoria con esperanza nita y X un vector aleatorio independientes. Entonces se tiene E (Y |X) = E (Y ). Demostraci on. Veamos que poniendo g(X) = E (Y ) se cumple (9.9). En efecto dado que (Y E (Y )) y t(X) son independientes se tiene E ((Y E (Y ))t(X)) = E (Y E (Y ))E (t(X)). Luego como E (Y E (Y )) = E (Y ) E (Y ) = 0, el Teorema 9.7 queda demostrado. 2 Teorema 9.8 Si P (Y = c) = 1, entonces , cualquiera sea el vector X, se tiene E (Y |X) = c. Demostraci on. Poniendo g(X) = c, resulta inmediatamente (9.9). 2 Vamos ahora a probar las propiedades 9.1-9.4 para la denici on general de E (Y |X).
9.2. Caso general
189
Propiedad 9.7 Sean X un vector aleatorio de dimensi on k e Y un vector aleatorio de dimensi on j , y sea r : Rk R y s : Rj R. Entonces se tiene E (r (X)s(Y )|X) = r (X)E (s(Y )|X). Demostraci on. Vamos a probar que si ponemos g(X) = r (X)E (s(Y )|X), entonces (9.9) se cumple. En efecto E ((r (X)s(Y ) g(X))t(X)) = E ((r (X)s(Y ) r (X)E (s(Y )|X))t(X)) = E ((s(Y ) E (s(Y )|X))m(X)), con m(X) = r (X)t(X). Luego por la denici on de E (s(Y )|X) obtenemos E ((s(Y )E (s(Y )|X))m(X)) = 0. Por lo tanto la propiedad queda demostrada. 2
Propiedad 9.8 Sea X un vector aleatorio de dimensi on k y sea r : Rk R, una funci on medible. Luego E (r (X)|X) = r (X). Demostraci on. Se obtiene de la Propiedad 9.7 tomando s(Y ) = 1. 2
Propiedad 9.9 Si Y1 e Y2 son variables aleatorias con esperanza nita, y X es un vector aleatorio, entonces E (c1 Y1+ c2 Y2 |X) = c1 E (Y1 |X) + c2 E (Y2 |X). Demostraci on. Vamos a ver que se cumple (9.9) poniendo g(X) = c1 E (Y1 |X) + c2 E (Y2 |X). En efecto si Z = c1 Y1 + c2 Y2 usando la linealidad de la esperanza y la denici on de esperanza condicional se tiene E ((Z g(X))t(X)) = E ((c1 (Y1 E (Y1 |X)) + c2 (Y2 E (Y2 |X))t(X)) = c1 0 + c2 0 = 0, y la propiedad queda demostrada. 2 La generalizaci on de la Propiedad 9.5 usando la denici on general de E (Y |X) es obvia a partir de la denici on.
= c1 E ((Y1 E (Y1 |X))t(X)) + c2 E (Y2 E (Y2 |X))t(X))
190
V ctor J. Yohai
Propiedad 9.10 Sea Y una variable aleatoria con varianza nita y X un vector aleatorio de dimensi on k. Luego Y = g(X) = E (Y |X) es el u nico predictor con menor error cuadr atico medio en la clase de predictores P = Y = t(X) : t medible, Var(t(X)) < . Demostraci on. Es totalmente similar a la Propiedad 9.6. 2 De acuerdo a esta propiedad E (Y |X) es el predictor de Y optimo basado en cualquier funci on medible (lineal o no lineal) de X. Por esta razon lo denotaremos con YO,N L .
9.3.
Caso continuo
Supongamos ahora que tenemos dos vectores X = (X1 , ...Xk ) e Y = (Y1 , ..., Yj ) de dimensiones k y j respectivamente con distribuci on conjunta k + j absolutamente continua y densidad fX,Y , y sea h : R R una funci on medible. Denamos la densidad de Y condicional X = x por fY|X (y|x) = fXY (x, y) . fX (x)
Es f acil ver que para cada x jo con fX (x) > 0, la funci on fY|X (y|x) es una densidad para el vector Y . Es decir se tendr a

...

fY|X (y|x)dy1 ...dyj = 1.
El siguiente teorema es una versi on para el caso continuo del Teorema 9.4. Teorema 9.9 Sea Z = h(X, Y ) una variable con esperanza nita, luego se tiene que E (Z |X = x) = g(x)
...
h(x, y)fY|X (y|x)dy1 ...dyj .
Demostraci on. Para facilitar la notaci on en la demostraci on, supondremos que tanto X como Y son variables aleatorias en vez de vectores. Pero excepto por la notaci on m as complicada, la demostraci on para vectores es similar, ya que solamente se deben reemplazar las integrales simples por integrales m ultiples. De acuerdo a (9.9) ser a suciente probar que E ((h(X, Y ) g(X ))t(X )) = 0,
9.3. Caso continuo
191
o equivalentemente E ((h(X, Y )t(X )) = E (g(X )t(X )). Por un lado tenemos que

(9.12)
E ((h(X, Y )t(X )) =

h(x, y )t(x)fXY (x, y )dxdy.
(9.13)
Adem as se tiene que
E (g(X )t(X )) =

g(x)t(x)fX (x)dx

h(x, y )fY |X (y |x)dy t(x)fX (x)dx (9.14)
h(x, y )t(x)fXY (x, y )dxdy.
Las ecuaciones (9.13) y (9.14) prueban (9.12). 2 Denici on 9.2 Sean dos vectores aleatorios X e Y de dimensiones k y j respectivamente. Luego dado B j (conjunto Boreliano de dimensi on j ), la probabilidad de que Y B, condicional X = x que se denotar a con PY|X (B |X = x) est a dado por PY|X (B |X = x) = E (IB (Y )|X = x), donde IB es la funci on indicadora del conjunto B. La probabilidad de que Y B, condicional X que se denotar a por PY|X (B |X) est a dado por PY|X (B |X) = E (IB (Y )|X). La justicaci on de esta denici on est a dada por el hecho que PY (B ) = E (IB (Y )). En efecto IB (Y ) toma valor 1 con probabilidad PY (B ) y 0 con probabilidad 1 PY (B ). Luego E (IB (Y )) = 1PY (B ) + 0(1 PY (B )) = PY (B ). En el caso discreto, de acuerdo al Teorema 9.4, se tendr a PY|X (B |X = x) = E (IB (Y )|X = x) =
yRY
IB (y)pY|X (y|x) pY|X (y|x).
=
yRY B
192
V ctor J. Yohai
En el caso absolutamente continuo, de acuerdo al Teorema 9.9 se tiene PY|X (B |X = x) = E (IB (Y )|X = x)

...
IB (y)fY|X (y|x)dy
=
B
fY|X (y|x)dy.
Obsevamos que fY|X (y|x) actua como una verdadera densidad, en el sentido de que para calcular la probabilidad condicional de un evento B hay que integrar esta funci on sobre ese conjunto. De acuerdo al Teorema 9.7 se tendr a E (PY|X (B |X)) = PY (B ). Para el caso discreto y continuo podemos denir la funci on de distribuci on de Y condicional X = x, la cual se denotar a por FY|X (y|x) y estar an denidas respectivamente por
j
FY|X (y|x) = PY|X ( =
i=1
(, yi ]|X = x) pY|X (z|x).
zRY {z1 y1 }...{zj yj }
FY|X (y|x) = PY|X (

yj
i=1
(, yi ]|X = x)
y1
...
fY|X (z|x)dy.
Es f acil ver que para cada x jo FY|X (y|x) es una verdadera funci on de distribuci on del vector Y , en el sentido que cumple con las propiedades que caracterizan a una funci on de distribuci on.
9.4.
Varianza condicional
Denici on 9.3 Sea X = (X1 , ..., Xk ) un vector aleatorio e Y una variable aleatoria con varianza nita . Entonces la varianza de Y condicional X = x se dene como Var(Y |X = x) = E ((Y E (Y |X = x))2 |X = x), y esta varianza puede considerarse como la varianza de variable X una vez que se conoce que X = x. Denotemos por q (x) = Var(Y |X = x), luego
9.4. Varianza condicional
193
q : Rk R. Llamaremos varianza condicional de Y condicional X a la variable aleatoria Var(Y |X) = q (X) = E ((Y E (Y |X))2 |X). (9.15)
Desarrollando el cuadrado en (9.15) y utilizando la Propiedad 9.10 se obtiene Var(Y |X) = E ([Y 2 + E 2 (Y |X)2Y E (Y |X)]|X) = E (Y 2 |X)E 2 (Y |X). = E (Y 2 |X)+E 2 (Y |X) 2E (Y |X)E (Y |X)
El siguiente Teorema vincula la varianza condicional con el error cuadr atico medio del predictor optimo no lineal YO,N L = E (Y |X). Teorema 9.10 Supongamos que Y es una variable aleatoria con varianza nita, X un vector aleatorio, y sea YO,N L = E (Y |X), el mejor predictor no lineal de Y basado en X. Luego se tiene (i) ECM(YO,N L , Y ) = E (Var(Y |X)). (ii) E (Var(Y |X)) Var(Y ). (iii) E (Var(Y |X)) = Var(Y ) si y s olo si P (E (Y |X) = E (Y )) = 1. Demostraci on. Aplicando el Teorema 9.7 y utilizando la dnici on (9.15) se tiene ECM(YO,N L , Y ) = E ((Y E (Y |X))2 ) = E (Var(Y |X)), = E (E ((Y E (Y |X))2 |X))
y por lo tanto queda demostrado parte (i) del Teorema. Como YO,N L es el predictor con menor error cuadr atico medio en la clase de predictores P = {Y : Y = t(X), Var(t(X)) < }, y como el predictor optimo constante YO,C = E (Y ) P , se tiene E (Var(Y |X)) = ECM(YO,N L , Y ) ECM(YO,C , Y ) = Var(Y ) = E ((Y E (Y ))2 )
y por un Teorema anterior la igualdad vale si y solo si P (YO,N L = YO,C ) = 1. 2
194
V ctor J. Yohai
Cap tulo 10
Convergencia de Variables Aleatorias.

10.1. Convergencia de funciones.
Comenzaremos recordando algunos tipos de convergencia en espacios de funciones. Denici on 10.1 Sea {fn }n una sucesi on de funciones denidas sobre un conjunto y que toman valores reales. Se dice que fn converge puntualmente a otra funci on f : R si para todo y para todo > 0, existe n0 N dependiendo de y de tal que si n n0 entonces |fn ( ) f ( ) | < . En general n0 depende de y , es decir n0 = n0 (, ). Cuando la elecci on de n0 puede hacerse con independencia de , se tiene la siguiente noci on de convergencia. Denici on 10.2 Sea {fn }n una sucesi on de funciones denidas sobre un conjunto y que toma valores reales. Se dice que fn converge uniformemente en a otra funci on f si para todo > 0, existe n0 N tal que si n n0 entonces |fn ( ) f ( ) | < para todo A. Observaci on. Es inmediato ver que si {fn }n converge uniformemente en entonces {fn }n converge puntualmente. La rec proca es falsa. Por ejemplo, si denimos fn ( ) = n para [0, 1] entonces la sucesi on converge puntualmente a la funci on f ( ) = 0 1 si 0 < 1 si = 1

195
para todo [0, 1] pero no converge uniformemente en [0, 1].
196
Veremos ahora algunos tipos de convergencia para variables aleatorias que hacen uso de la estructura del espacio de probabilidades. Existen varios tipos de convergencia, pero en este curso consideraremos s olo dos: la convergencia casi segura y la convergencia en probabilidad.
10.2.
Convergencia casi segura y en probabilidad.
Consideremos un espacio de probabilidades (, A, P ). Sea {Xn }n una sucesi on de variables aleatorias denidas sobre este espacio y X otra variable aleatoria tambi en denida sobre el mismo espacio. Denici on 10.3 Diremos que una sucesi on de variables aleatorias {Xn }n converge casi seguramente a otra variable aleatoria X (Xn X c.s.) sii P ({ : Xn ( ) X ( )}) = 1.
Observaci on. En teor a de la medida, este tipo de convergencia se denomina convergencia en casi todo punto y se la nota Xn X p.p. o bien Xn X c.t.p. Denici on 10.4 Diremos que una sucesi on de variables aleatorias{Xn }n converge en probabilidad a otra variable aleatoria X sii para todo > 0 se tiene l m P ({ : |Xn ( ) X ( )| }) = 0. (10.2)
n +
Notaci on. Si la sucesi on de variables aleatorias {Xn }n converge en probabilidad a la variable aleatoria X escribiremos Xn X .
P
Observaciones. 1. Equivalentemente, (10.2) puede reescribirse como

n +

V ctor J. Yohai
(10.1)
l m P ({ : |Xn ( ) X ( )| < }) = 1.
2. La convergencia en probabilidad signica que jado > 0 hay un subconjunto de de probabilidad tan cercana a uno como se quiera en el que la distancia entre Xn y X se puede hacer menor que con tal de tomar n sucientemente grande. 3. En teor a de la medida la convergencia en probabilidad se denomina convergencia en medida. Teorema 10.1 Sea {Xn }n una sucesi on de variables aleatorias denidas sobre un espacio de probabilidad (, A, P ) y X otra variable aleatoria denida sobre el mismo espacio. Son equivalentes:
10.2. Convergencia casi segura y en probabilidad.

P
197
(i) Xn X. (ii) Para todo > 0 y todo > 0 existe n0 N tal que si n n0 entonces P (|Xn X | ) . (iii) Para todo > 0, existe n0 N tal que si n n0 entonces
Demostraci on. (ii) es equivalente a (i) como consecuencia directa de la denici on de convergencia en probabilidad. La equivalencia entre (ii) y (iii) se deja como ejercicio. 2 El siguiente teorema establece que la convergencia casi segura (10.1) implica la convergencia en probabilidad (10.2). on de variables aleatorias denidas Teorema 10.2 Sea {Xn }n una sucesi sobre un espacio de probabilidad (, A, P ) y X otra variable aleatoria denida sobre el mismo espacio. Entonces (i) La sucesi on Xn converge casi seguramente a X sii
m
n=m >0
P (|Xn X | ) .
l m P (
{|Xn X | }) = 0.
(10.3)
(ii) Si Xn converge casi seguramente a X entonces Xn converge en probabilidad a la variable aleatoria X. Demostraci on. (i) Llamemos A al conjunto de los puntos de donde Xn ( ) X ( ). Luego A = { : Xn ( ) X ( )}. Decir que A es equivalente a decir que para todo > 0 existe m N tal que para todo n m se tiene |Xn ( ) X ( ) | < , m depender a de . Entonces, si para cada > 0 denimos Bn, = { : |Xn ( ) X ( ) | < }. el conjunto A resulta A=
m=1 nm
Bn, .
198
V ctor J. Yohai
Sabemos que la convergencia casi segura se dene por P (A) = 1 o equivalentemente por P (Ac ) = 0. Pero para poder usar propiedades de probabilidad en el c alculo de P (A) nos conviene tener escrito al conjunto A como una numerable cantidad de uniones e intersecciones de eventos. Por ello,.como basta elegir tan chico como se quiera, nos podemos limitar a tomar = 1/k . Luego tambi en tenemos

A=
k =1
Observemos que
m=1 nm
Ac =
k =1
Bn, 1 .
k
m=1 nm
k
Luego, como Ac es una uni on numerable, P (Ac ) = 0 si y s olo si para todo k N se tiene
c Bn, . 1
En la notaci on del Cap tulo 1 (Denici on 1.3, p agina 15), esto es el c c l mite inferior de los conjuntos Bn 1 . Como Bn, es cereciente
k
m=1 nm
c Bn = 0. 1
k
con , esto es equivalente a que para todo > 0
Denamos
m=1 nm
c Bn, = 0. c Bn, .
(10.4)
Cm, =
nm
Claramente, para todo > 0 la sucesi on {Cm, }m1 es creciente (no necesariamente estrictamente creciente), de manera que

Luego se tendr a que (10.4) es equivalente a

m
m=1 nm
c Bn, =P
Cm,
= l m P (Cm, ) .
m=1
l m P (Cm, ) = 0,
es decir,
m
l m P
nm
c = 0. Bn,
10.3. Preservaci on de la convergencia por funciones continuas.
199
Pero como (i) queda demostrado.

c Bn, = {|Xn X | },
(ii) Supongamos que Xn X c.s. Luego se cumple (10.3) y como
{|Xm X | }
n=m
{|Xn X | },
por la monoton a de la probabilidad resulta

m
l m P ({|Xm X | }) = 0.
Por lo tanto Xn 0. 2 Observaci on. Notemos que en esta demostraci on hemos probado que A = { : Xn ( ) X ( )}

k =1
m=1 nm
Bn, 1
k k
=
k =1
l m inf Bn, 1
n
o, equivalentemente Ac = { : Xn ( )

k =1
m=1 nm
c Bn, 1
k k
X ( )}
=
k =1
l m sup Bn, 1 .
n
Veremos que la rec proca de la parte (ii) de este teorema es falsa. Incluso puede ocurrir que exista convergencia en probabilidad, pero que el conjunto de los puntos donde haya convergencia puntual sea vac o.
10.3.
Preservaci on de la convergencia por funciones continuas.
Los siguientes dos teoremas muestran que las funciones continuas preservan los dos tipos de convergencia que hemos denido: convergencia en probabilidad y convergencia casi segura.
200
V ctor J. Yohai
Teorema 10.3 Sea g : R2 R continua y supongamos que las sucesiones de variables aleatorias (Xn )n1 , (Yn )n1 convergen casi seguramente a las variables aleatorias X e Y. Entonces (g (Xn , Yn ))n1 converge casi seguramente a la variable aleatoria g (X, Y ) . Observaci on. La propiedad vale en general para g : Rk R continua. Si (j ) Xn X (j ) c.s. para j = 1, 2, ..., k entonces
n1 (1) (2) (k ) g X (1) , X (2) , ..., X (k) g Xn , Xn , ..., Xn
c.s.
Demostraci on. Sean A = { : Xn ( ) X ( )} y B = { : Yn ( ) Y ( )}. Como P (A) = P (B ) = 1, tambi en se tendr a P (A B ) = 1. En efecto 0 P ((A B )c ) = P (Ac B c ) P (Ac ) + P (B c ) = 0. Ahora si A B entonces Xn ( ) X ( ) e Yn ( ) Y ( ). Luego, por la continuidad de g se tiene g (Xn ( ) , Yn ( )) g (X ( ) , Y ( )) . Por lo tanto A B { : g (Xn ( ) , Yn ( )) g (X ( ) , Y ( ))}, y en consecuencia como 1 = P (A B ) P ({ : g (Xn ( ) , Yn ( )) g (X ( ) , Y ( ))}) 1, el Teorema queda demostrado.2 Teorema 10.4 (i) Si Yn Y c.s. y Xn X c.s. entonces Xn + Yn X + Y c.s. (ii) Si Yn Y c.s. y Xn X c.s. entonces Xn Yn XY c.s. Xn X (iii) Si Yn Y c.s. con P (Y = 0) = 0 y Xn X c.s. entonces Yn Y c.s. Demostraci on. (i) y (ii) resultan de que las funciones g(x, y ) = x + y y g(x, y ) = xy son continuas y (iii) del hecho que g(x, y ) = x/y es continua si y = 0. 2 Para demostrar una propiedad similar para la convergencia en probabilidad necesitamos algunos resultados previos. Comenzamos probando que toda variable aleatoria es acotada en probabilidad. Esto signica que X est a dentro de un compacto, con probabilidad tan cercana a uno como se quiera.
201
Teorema 10.5 Sea X una variable aleatoria. Dado > 0 existe K tal que P (|X | K ) < . Demostraci on. Consideremos la sucesi on de conjuntos An = {|X | n}. Esta sucesi on es mon otona decreciente, es decir, An+1 An y adem as A = . Entonces n n=1 l m P (An ) = 0.
n
Luego, dado > 0 existe n0 N tal que P (An0 ) < , es decir P (An0 ) = P ({|X | n0 }) < . Luego el Teorema es cierto tomando K = n0 .2 Probaremos ahora un resultado m as fuerte: sucesiones de variables que convergen en probabilidad est an acotadas en probabilidad uniformemente. Teorema 10.6 Sea (Xn )n1 una sucesi on de variables aleatorias que converge en probabilidad a la variable aleatoria X . Entonces dado > 0 existe K tal que P (|X | K ) < y tal que para todo n P (|Xn | K ) < . Demostraci on. En primer lugar podemos hallar, de acuerdo al Teorema 10.5, K0 de forma tal que P (|X | K0 ) < . 2 Teniendo en cuenta que |Xn | |Xn X | + |X | se prueba f acilmente que {|Xn | K0 + 1} {|Xn X | 1} {|X | K0 }. En efecto, supongamos que / {|Xn X | 1} {|X | K0 }. Luego |Xn ( ) X ( ) | < 1 y |X ( ) | < K0 y por lo tanto por (10.5) resulta |Xn ( )| < K0 + 1. (10.6) (10.5)
202
P
V ctor J. Yohai
Debido a que Xn X en probabilidad podemos encontrar n0 tal que si n n0 P (|Xn X | 1) < . 2 Tomando probabilidades en ambos miembros de (10.6) obtenemos P ({|Xn | K0 + 1}) P ({|Xn X | 1}) + P ({|X | K0 }) < + = 2 2 para todo n n0 . Adem as por el Teorema 10.5, para cada i tal que 1 i n0 podemos encontrar Ki tal que P (|Xi | Ki ) . Luego tomando K = m ax se obtiene la tesis. 2 Ahora estamos en condiciones de probar la propiedad de que las funciones continuas conservan la convergencia en probabilidad. Teorema 10.7 Sea g : R2 R continua y supongamos que las sucesiones (Xn )n1 e (Yn )n1 convergen en probabilidad a las variables aleatorias X e Y, respectivamente. Entonces (g (Xn , Yn ))n1 converge en probabilidad a la variable aleatoria g (X, Y ) . Observaci on. Vale la misma observaci on hecha para el caso de la convergencia casi segura en cuanto a que este teorema es v alido para funciones continuas denidas en Rk y vectores aleatorios k dimensionales. Demostraci on. Queremos probar que dado > 0 existe n0 N tal que si n n0 P (|g (Xn , Yn ) g(X, Y )| ) < . (10.7)
1in0
m ax {Ki }, K0 + 1 ,
pues por el Teorema 10.1 esto garantiza la convergencia en probabilidad. De acuerdo al Teorema 10.5 podemos hallar un K tal que simult aneamente P (|Xn | K ) < n 6 P (|X | K ) < 6 P (|Yn | K ) < n 6 P (|Y | K ) < . 6
203
Esto puede lograrse considerando primero un K1 que cumpla con las dos primeras desigualdades, despu es un K2 que cumpla con las siguientes dos y tomando K = m ax{K1 , K2 }. Sea C = [K, K ] [K, K ] . Como g es continua y C es compacto entonces g resulta uniformemente continua en C . Luego existe > 0 tal que si |x x | < , |y y | < y m ax {|x|, |x |, |y |, |y |} K entonces |g (x, y ) g x , y | < . (10.8)
Por la convergencia en probabilidad existe n0 N tal que si n n0 entonces P (|Xn X | ) < (10.9) 6 (10.10) P (|Yn Y | ) < . 6 Esto se logra considerando un valor n1 para la sucesi on (Xn )n1 , un valor n2 para la sucesi on (Yn )n1 y luego tomando n0 = m ax{n1 , n2 }. Ahora denimos los conjuntos A1n = {|Xn X | }
A2n = {|Yn Y | } A4n = {|Yn | K } A5n = {|X | K } A6n = {|Y | K }. A3n = {|Xn | K }
Si bien A5n , A6n no dependen de n, usamos la notaci on por conveniencia. Vamos a mostrar que si llamamos
6
Bn =
i=1
Ain ,
entonces
c se tiene Para esto debemos mostrar que para todo n n0 en Bn
{|g (Xn , Yn ) g(X, Y )| } Bn . |g (Xn , Yn ) g(X, Y )| < .
(10.11)
En efecto, como
6 c Bn =( i=1 6
Ain )c =
i=1
Ac in ,
204
V ctor J. Yohai
c es cierto X , X, Y , Y est resulta que cuando Bn an en el compacto C y n n adem as |Xn X | e |Yn Y | . Luego por (10.8) resulta (10.11). Luego para todo n n0 6
P ({|g (Xn , Yn ) g (Xn , Yn ) | }) P (Bn ) y el Teorema queda demostrado.2
i=1
P (Ain ) < 6 = , 6
An alogamente a lo observado para la convergencia casi segura se tienen los siguientes corolarios. Teorema 10.8
P
(i) Si Yn Y y Xn X entonces Xn + Yn X + Y.
P P
(ii) Si Yn Y y Xn X c.s entonces Xn Yn XY . (iii) Si Yn Y con P (Y = 0) = 0 y Xn X entonces Demostraci on. Similar a la demostraci on del Teorema 10.4. 2
P P
Xn P X . Yn Y
10.4.
Ley d ebil de los grandes n umeros.
Teorema 10.9 (Desigualdad de Markov) Sea X una variable aleatoria y g una funci on par, no negativa y no decreciente en el m odulo, esto es si |x| > |y | entonces g (x) g (y ) . Supongamos adem as que g (X ) tiene esperanza nita, es decir que E (g (X )) < . Entonces si > 0 es tal que g () > 0, vale que E (g (X )) P (|X | ) . g () Demostraci on. Consideremos el conjunto A = { : |X ( )| } . Entoces {A, Ac } es una partici on del espacio muestral . Luego IA (x) + IAc (x) = 1, y como todas las variables son no negativas y g(x) es nodecreciente en |x|, tenemos g (X ) = g (X ) IA (X ) + g (X ) IAc (X ) g()IA (X ) . Luego tomando esperanza obtenemos E (g (X )) g () E (IA ) = g () P ({|X | }) . g (X ) IA (X )
10.4. Ley d ebil de los grandes n umeros.
205
De esta desigualdad se obtiene inmediatamente el resultado buscado. 2 En particular tomando g (x) = x2 se obtiene la siguiente versi on de la Desigualdad de Tchebichev P ({|X | }) E X2 . 2
Por otro lado si consideramos la variable aleatoria X E (X ) obtenemos la versi on (cl asica) de la desigualdad de Tchebichev P ({|X E (X )| }) E [X E (X )]2 2 = Var (X ) . 2
Tomando complementos esta desigualdad puede escribirse como P ({|X E (X )| < }) 1 Var (X ) . 2
Luego si la Var (X ) es peque na (o sea hay poca dispersi on), la probabilidad de que la variable X tome valores en el intervalo (E (X ) , E (X ) + ) ser a grande. Ahora estamos en condiciones de estudiar la ley de los grandes n umeros en sus dos versiones: d ebil y fuerte. La importancia de estas leyes, es que permite dar fundamento matem atico a la argumentaci on heur stica que interpreta la esperanza de una variable aleatoria como el valor al cual tiende el promedio de varias realizaciones de la variable correspondientes a la repetici on de experimentos independientes. Tambi en permite fundamentar la noci on heur stica de la probabilidad de un evento como el valor l mite de las frecuencias relativas con que ocurre el evento cuando se repiten muchos experimentos independientes. La ley d ebil expresa estos resultados en t erminos de convergencia en probabilidad y la ley fuerte en t erminos de convergencia casi segura. Teorema 10.10 (Ley d ebil de los grandes n umeros) Sea (Xn )n1 una sucesi on de variables aleatorias no correlacionadas, es decir Cov (Xi , Xj ) = 2 para cada i = 1, 2, .... 0 si i = j , tal que E (Xi ) = i y Var (Xi ) = i Consideramos la sucesi on de variables aleatorias X n n1 donde X n es el promedio de las primeras n variables. Luego Xn = y sea n = E (X n ) dada por n = 1 n
n
1 n
Xi ,
i=1
i .
i=1
206 Entonces si
n
V ctor J. Yohai
l m
1 n2
n 2 i i=1 P
= 0,
(10.12)
se tiene Demostraci on. Se tiene que
X n n 0.
1 Var(X n ) = 2 n y por Tchebichev P ( X n n ) Tomando l mite resulta que l m P ( X n n )
n 2 i , i=1
Var(X n ) 1 = 2 2 2 n
n 2 i . i=1
1 1 l m 2 2 n n
n 2 i =0 i=1
y luego el Teorema queda demostrado. 2 Observaciones. 1. Si (Xn )n1 es una sucesi on de variables aleatorias independientes, entonces las variables Xn son no correlacionadas y el Teorema puede aplicarse.
2 } sea 2. Una condici on suciente para que se cumpla (10.12) es que {i 2 K para todo i, se obtiene una sucesi on acotada. En efecto, si i
1 n2
n i=1 2 i
Kn K = 0. n2 n
En particular, esta condici on se cumple si todas las variables tienen igual varianza. 3. Si todas las variables tienen igual media, digamos i = , se tiene que P n = , y entonces X n 0 o, lo que es equivalente, X n . 4. En particular si (Xn )n1 es una sucesi on de variables no correlacionadas igualmente distribuidas con E (Xn ) = y Var(Xn ) = 2 , se tendr a X n .
P P
10.5. Ley fuerte de los grandes n umeros.
207
5. Veremos ahora como esta ley debil permite fundamentar el concepto de probabilidad de un evento. Sea (, A, P ) un espacio de probabilidad y A un evento. Supongamos que realizamos n experimentos independientes y denimos Xi ( ) = Denamos Xn = Se tiene E (Xi ) = 1.P (A) + 0P (Ac ) = P (A) , y como Xi2 = Xi Var (Xi ) = E (Xi2 ) E (Xi )2 = P (A) P (A)2 = E (Xi ) E (Xi )2 1 n 1 si en el experimento i, A 0 si en el experimento i, / A.
n
Xi .
i=1
= P (A) (1 P (A)) .
Luego, como adem as las variables Xi son independientes, de acuerdo a la ley d ebil de los grandes n umeros se tendr a X n E (Xi ) = P (A) .
P
(10.13)
Obs ervese que X n es la frecuencia relativa de ocurrencia del evento A en n repeticiones independientes del experimento. Entonces (10.13) puede interpretarse como que la frecuencia relativa de ocurrencia del evento A tiende (en probabilidad) a su probabilidad.
10.5.
Ley fuerte de los grandes n umeros.
Para probar la ley fuerte de los grandes n umeros necesitaremos algunos teoremas previos. Teorema 10.11 (Desigualdad de Kolmogorov) Sean X1 , ..., Xn varia2 = Var (X ) < y bles independientes con E (Xi ) = 0. Supongamos que i i consideremos las sumas parciales Si = i X . Entonces j j =1 P m ax |Si | 1 2
n 2 i . i=1
1in
(10.14)
208
V ctor J. Yohai
Observaci on. Vamos a mostrar que la desigualdad de Kolmogorov es un renamiento de la desigualdad de Tchebichev. Para ver esto, apliquemos la desigualdad de Tchebichev a la variable aleatoria Sn . Obtenemos P (|Sn | ) 1 1 Var (Sn ) = 2 2
n 2 i . i=1
(10.15)
Observemos que |Sn | m ax1in |Si | de manera que {|Sn | } y por lo tanto P ({|Sn | }) P Demostraci on. Sea A=
1in 1in 1in
m ax |Si | ,
m ax |Si | .
Luego resulta que (10.14) implica (10.15). m ax |Si | ,
y consideremos para cada i los conjuntos Ai = {|S1 | < , |S2 | < , . . . , |Si1 | < , |Si | }. Estos eventos son disjuntos dos a dos y forman una partici on de A. Luego
n
A=
i=1
Ai ,
y por lo tanto se deduce que

n
IA =
i=1 2 I c 0 se deduce que Luego como Sn A
IAi .
n 2 Sn
2 Sn IA
2 IAc Sn
2 IA Sn
2 Sn i=1
IAi .
Tomando esperanza en ambos miembros resulta

n
2 Sn
2 E Sn IAi . i=1
(10.16)
2I Para cada t ermino Sn Ai resulta 2 2 Sn IAi = (Si + Ti )2 IAi = Si IAi + Ti2 IAi + 2Si Ti IAi ,
(10.17)
209
donde Ti =
Xj .
j =i+1
Ahora probaremos que E (Si Ti IAi ) = 0. Por un lado observamos que Si depende s olo de X1 , ...Xi y lo mismo ocurre con IAi . Como Ti depende s olo de Xi+1 , . . . , Xn , resulta que Si IAi es independiente de Ti . Luego como E (Ti ) = 0 se obtiene E (Si Ti IAi ) = E ([Si IAi ] Ti ) = E (Si IAi ) E (Ti ) = 0. (10.18) Tomando esperanza en (10.17) y teniendo en cuenta (10.18) y el hecho de que en Ai se tiene |Si |
2 2 E Sn IAi = E (Si IAi ) + E (Ti2 IAi ) 2 E (Si IAi )
E (IAi ) = P (Ai ).
n
Luego por (10.16) resulta E

2 Sn
2 IAi E Sn i=1 n 2 i=1
P (Ai )
= 2 P (A) , o sea
2 E Sn P (A) 2 n 1 2 i .2 = 2 i=1
Para probar la ley fuerte de los grandes n umeros necesitamos tambi en el siguiente teorema. Teorema 10.12 Sea (Xn )n1 una sucesi on de variables aleatorias. Una condici on suciente para que Xn X c.s. es que para todo > 0 exista una sucesi on creciente de enteros positivos r1 < r2 < < rn que puede depender de tal que
ri+1 1 n=r i i=1
donde Bn = {|Xn X | < }.
c Bn < ,
(10.19)
210
V ctor J. Yohai
Demostraci on. Recordemos el resultado ya probado en el Teorema 10.2 que establece que Xn X c.s. si y s olo si
m
l m P
n=m
c Bn
= 0.
(10.20)
Supongamos que se cumple (10.19). Veremos que entonces se cumple (10.20). Sea > 0, entonces (10.19) implica que existe i0 tal que
ri+1 1 n=r i i=i0
Pero entonces
c Bn < .
Esto implica que (10.20) se cumple. 2
n=ri0
c =P Bn
ri+1 1
i=i0 n=ri
c Bn
i=i0
ri+1 1 n=r i
c < . Bn
Teorema 10.13 (Ley fuerte de los grandes n umeros) Sea (Xn )n1 una sucesi on de variables aleatorias independientes tal que E (Xi ) = i y Var(Xi ) = 2 para cada i N. Consideremos la sucesi i on de variables aleatorias X n n1 denida por n 1 Xn = Xi n
i=1
y sus respectivas medias n = E (X n ) = Entonces si 1 n

n
i .
i=1
i=1
2 i < , i2
(10.21)
se tiene X n n 0 c.s. Demostraci on. Basta probar el teorema suponiendo que para todo i, i = 0. Para ver esto, supongamos que el teorema fuera v alido cuando para todo i, i = 0 y deduzcamos de esto el caso general, esto es, cuando para cada i la E (Xi ) = i arbitraria. Para ello, consideremos nuevas variables Yi = 2 . Las variables Y Xi i . Entonces E (Yi ) = 0 y Var (Yi ) = Var(Xi ) = i i
211
son independientes y luego se cumple Y n 0 c.s. Pero como Y n = X n n , resulta tambi en X n n 0 c.s. Luego para demostrar el teorema podemos suponer que i = 0 para todo i. Usaremos el Teorema 10.12, tomando ri = 2i1 . Luego si llamamos
2i 1
bastar a demostrar que
i = P
i=1
n=2i1
c , Bn
i < .
Si llamamos Sn =
n i=1 Xi
i = P =P =P P P
tenemos que X n = Sn /n. Luego

2i 1 n=2i1 2i 1 n=2i1 2i 1 n=2i1 2i 1 n=2i1 2i 1 n=1 c Bn
|X n | {|Sn | n} (10.22)
{|Sn | 2i1 }
Usando la Desigualdad de Kolmogorov (Teorema 10.11) resulta

2i 1 n=1
{|Sn | 2i1 } . m ax
{|Sn | 2i1 } = P
1n2i 1 2i 1
|Sn | 2i1
4i1 2 1 4i1 2
Var (Xj )
j =1 2i 1 2 j . j =1
(10.23)
Entonces de (10.22) y (10.23) obtenemos para cada i i 1 4i1 2

2i 1 2 j , j =1
212 y cambiando el orden de sumaci on resulta

i=1
V ctor J. Yohai
i =
1 4i1 2
2 j j =1
2i 1 2 j j =1
i=1
1 2
1
i: 2i 1j
4i1
(10.24)
La desigualdad 2i 1 j es equivalente a i y entonces podemos escribir 1

i: 2i 1j
ln (j + 1) = i0 (j ) , ln (2)
4i1
=4
ii0 (j )
1 4i
= 4a0 = 16 a0 , 3
1 1
1 4
(10.25)
donde a0 es el primer t ermino de la serie geom etrica. 1 . 4i (10.26)
ii0 (j )
Por otro lado 2i 1 j implica que 4i j 2 , es decir para todos los t erminos de la serie geom etrica (10.26) obtenemos 1 1 2, 4i j y en particular se tendr a a0 Entonces por (10.25 y (10.27) se tiene 1 16 16 1 16 1 = a0 = , 4i1 3 3 j2 3 j2 1 . j2
(10.27)
2i 1j
y de acuerdo a (10.24) se tiene

i=1
16 i 32
j =1
2 j
j2
<.
10.6. Teorema de la Convergencia Dominada
213
Esto prueba la Ley Fuerte de los Grandes N umeros. 2 Observaci on. La condici on (10.21) se cumple si todas las varianzas est an 2 acotadas. En efecto, si existe una constante K tal que para todo i, i K entonces como se tiene 1 < , i2
i=1
resulta
i=1
2 i K i2
i=1
1 < . i2
2 = 2 se cumple efectivamente Para el caso en que para todo i, i = , i que 1 < , 2 i2 y por lo tanto X n 0 c.s.,
o equivalentemente X n c.s. Todas las consideraciones posteriores a la ley d ebil que discuten como esta fundamenta las nociones heur sticas de esperanza de un variable aleatoria y de probabilidad de un evento siguen valiendo, reemplazando la convergencia en probabilidad por convergencia casi segura.
10.6.
Teorema de la Convergencia Dominada
Ahora daremos una demostraci on del Teorema de la Convergencia Dominada (Lebesgue). Antes necesitamos el siguiente caso particular. Teorema 10.14 Sean (Xn )n1 una sucesi on de variables aletorias no negativas y Z una variable aleatoria no negativa con E (Z ) < que domina
P
todos los t erminos de la sucesi on, es decir 0 Xn Z. Entonces si Xn 0 se tiene E (Xn ) 0.
Demostraci on. Recordemos que si Z 0 la condici on de E (Z ) < es k equivalente a 0 zdFZ < y esto es equivalente a l mk k zdFZ = 0. Vamos a demostrar que dado > 0 existe n0 tal que si n n0 entonces E (Xn ) < . Dado K > 0 (arbitrario) particionamos al espacio de la siguiente manera = Xn < Xn K {Xn > K }. 3 3
214 Entonces
V ctor J. Yohai
0 Xn = Xn I{Xn /3} + Xn I{/3<Xn K } + Xn I{Xn >K } + KI{Xn >/3} + ZI{Z>K } . 3 Tomando esperanza en ambos miembros se tiene E (Xn ) + E ZI{Z>K } . + KP Xn > 3 3
(10.28)
(10.29)
Sea YK = ZI{Z>K } , luego si y < 0 0 FYK (y ) = FZ (K ) si 0 y K FZ (y ) si y > K, E (ZI{Z>K } ) = E (YK )

+
y entonces
=
K
zdFZ .
Dado que E (Z ) < existe K0 tal que E ZI{Z>K0} < . 3

P
(10.30)
Una vez elegido K0 , usando que Xn 0, podemos encontrar n0 tal que para todo n n0 se tiene P Xn > . < 3 3K0 (10.31)
Luego de (10.29), (10.30) y (10.31) resulta que para todo n n0 0 E (Xn ) + = , + K0 3 3K0 3
y el Teorema queda demostrado. 2 Ahora probaremos el Teorema de la Convergencia Dominada en el caso general. Teorema 10.15 (Teorema de la Convergencia Dominada) Sea (Xn )n1 una sucesi on de variables aleatorias tal que existe un variable Z 0 con P a E (Z ) < y |Xn | Z para todo n. Entonces si Xn X se tendr E (Xn ) E (X ) .
10.6. Teorema de la Convergencia Dominada
215
Demostraci on. Debemos probar que

n
l m |E (Xn ) E (X )| = 0.
Ahora bien, por una propiedad de la esperanza |E (Xn ) E (X )| = |E (Xn X )| E (|Xn X |) , de manera que bastar a con probar que
n
l m E (|Xn X |) = 0. Yn = |Xn X | 0,
(10.32)
Sea luego como Xn X resulta Yn 0. Como {|X | > Z + 1} {|Xn | > Z } {|Xn X | > 1}, y dado P (|Xn | > Z ) = 0 se tendr a para todo > 0, P (|X | > Z + 1) P (|Xn X | > 1) y por lo tanto como Xn X P (|X | > Z + 1) l m P (|Xn X | > 1) = 0.
n P P P
Esto muestra que para todo > 0 se tiene P (|X | Z + 1) = 0. Luego con probabilidad 1 se tiene Yn |Xn | + |X | 2Z +1, y estamos en la situaci on del Teorema 10.14. Por lo tanto podemos concluir que E (Yn ) 0. Luego (10.32) se cumple y el teorema queda demostrado. 2
216
V ctor J. Yohai
Cap tulo 11
Convergencia en Distribuci on.

11.1. Denici on de convergencia en distribuci on.
Tanto la convergencia casi segura como la convergencia en probabilidad se basan en el concepto de proximidad entre variables aleatorias. Veremos ahora un tipo de convergencia que se basa en la proximidad entre las respectivas funciones de distribuci on. Denici on 11.1 Sea (Fn )n1 una sucesi on de funciones de distribuci on denidas sobre R y F otra funci on de distribuci on. Diremos que la sucesi on Fn converge d ebilmente a F si para todo punto x de continuidad de F, las Fn convergen puntualmente a F . Es decir, si para todo x tal que F es continua en x se tiene que l m Fn (x) = F (x) .
n
Notaci on. Si {Fn }n1 converge d ebilmente en distribuci on a F escribiremos Fn F. Observaci on. Recordemos que una funci on de distribuci on denida sobre R se caracteriza por las propiedades P1, P2, P3 y P4 del teorema 2.5 y que el conjunto de puntos donde es discontinua es a lo sumo numerable. Denici on 11.2 Sea (Xn )n1 una sucesi on de variables aleatorias y F una funci on de distribuci on. Diremos que la sucesi on Xn converge en distribuebilmente a F. ci on a F sii (FXn )n1 converge d Notaci on. Si (Xn )n1 converge en distribuci on a F escribiremos Xn F. 217
D D
218
V ctor J. Yohai
Observaci on. Por extensi on tambi en diremos que (Xn )n1 converge en distribuci on a X sii FXn FX . Al decir que (Xn )n1 converge en distribuci on a X hay un abuso de lenguaje puesto que las variables Xn no se aproximan a X, sino que son las funciones de distribuci on de las Xn las que se aproximan a la funci on de distribuci on de X. Consideremos el caso donde X e Y son dos variables independientes D con distribuci on N (0, 1) . Denamos para todo n, Xn = X entonces Xn Y y sin embargo como las variables X e Y son independientes, X no se aproxima a Y . Veamos ahora la relaci on que existe entre la convergencia en probabilidad y la convergencia en distribuci on. Teorema 11.1 Sea (Xn )n1 una sucesi on de variables aleatorias y X otra variable aleatoria. Entonces P Xn X implica que Xn X. Demostraci on. Sea FX la funci on de distribuci on de X y x un punto de continuidad.de FX . Probemos primero que {Xn x} {X x + } {|Xn X | }. (11.1)
D D
Para esto basta demostrar que si no est a en ninguno de los dos conjunto que forman la uni on en el miembro derecho, entonces no est a en {Xn x}. Sea tal que X ( ) > x + y |Xn ( ) X ( )| < . Luego Xn ( ) = X ( ) + (Xn ( ) X ( )) >x+ = x, X ( ) |Xn ( ) X ( )|
probando (11.1). Tomado probabilidades en ambos miembros se obtiene FXn (x) FX (x + ) + P (|Xn X | ) . Tomando l mite superior en ambos miembros y teniendo en cuenta que
n
l m P (|Xn X | ) = 0
(11.2)
se obtiene
n
l m FXn (x) FX (x + ) ,
11.1. Denici on de convergencia en distribuci on.
219
y haciendo que 0, en virtud de que las funciones de distribuci on son continuas a derecha se tiene que
n
l m FXn (x) FX (x) .
(11.3)
Ahora hacemos un razonamiento similar a izquierda de x. Consideramos la inclusi on {X x } {Xn x} {|Xn X | }. Tomado probabilidades en ambos miembros se obtiene FX (x ) FXn (x) + P (|Xn X | ). Tomando l mite inferior en ambos miembros y usando (11.2) se obtiene F (x ) l mn FXn (x) , y haciendo que 0, en virtud de la continuidad de FX en x F (x) l mn FXn (x) . De (11.3) y (11.4) resulta
n
(11.4)
mn FXn (x) , l m FXn (x) FX (x) l m FXn (x) , l mn FXn (x) l

n
y como
debe ser
n
mn FXn (x) = FX (x) . l m FXn (x) = l
as Luego existe el l mite de (FXn ) en el punto x y adem

n
l m FXn (x) = F (x) . 2
Observaci on. La rec proca no vale en general. Pero s es cierta en el caso en que P (X = C ) = 1, donde C es una constante. Luego tenemos el siguiente teorema cuya demostraci on queda como ejercicio. Teorema 11.2 Supongamos que Xn X y P (X = C ) = 1. Entonces
P D
Xn X.
220
V ctor J. Yohai
11.2.
Funciones caracter sticas.
Una herramienta muy importante para la demostraci on del Teorema Central del L mite es la funci on caracter stica asociada a una distribuci on. Para denirla necesitaremos presentar el concepto de variable aleatoria compleja.
11.2.1.
Variables aleatorias complejas.
Denici on 11.3 Sea (, A, P ) un espacio de probabilidad. Se dice que X es una variable aleatoria compleja si X : C (C indica el conjunto de n umeros complejos) es de la forma X = X1 + iX2 con X1 y X2 variables aleatorias reales. Denici on 11.4 Sea la variable aleatoria compleja X = X1 + iX2 , donde X1 y X2 tienen esperanza nita. Denimos la esperanza de X como E (X ) = E (X1 ) + iE (X2 ) . Observaci on. E (X ) C. La parte real e imaginaria de la esperanza son respectivamente Re (E (X )) = E (X1 ) e Im E (X ) = E (X2 ) . Denici on 11.5 Diremos que dos variables aleatorias complejas X = X1 + iX2 e Y = Y1 + iY2 son independientes si el vector aleatorio X = (X1 , X2 ) es independiente del vector aleatorio Y = (Y1 , Y2 ) . Algunas propiedades Veamos ahora algunas propiedades que cumplen las variables complejas, en analog a con las que ya probamos para variables aleatorias reales. Propiedad 11.1 Sean X = X1 +iX2 e Y = Y1 +iY2 dos variables aleatorias complejas independientes. Entonces E (XY ) = E (X ) E (Y ) . Demostraci on. La demostraci on se basa en el c alculo directo usando la denici on y la propiedad an aloga para variables aleatorias reales independientes E (XY ) = E [(X1 + iX2 ) (Y1 + iY2 )] = E (X1 Y1 X2 Y2 ) + iE (X2 Y1 + Y2 X1 ) = = E [(X1 Y1 X2 Y2 ) + i (X2 Y1 + Y2 X1 )]
= (E (X1 ) + iE (X2 ))(E (Y1 ) + iE (Y2 )) = E (X ) E (Y ) . 2
= E (X1 ) E (Y1 ) E (X2 ) E (Y2 ) + iE (X2 ) E (Y1 ) + iE (Y2 ) E (X1 )
= E (X1 Y1 ) E (X2 Y2 ) + iE (X2 Y1 ) + iE (Y2 X1 ) =
11.2. Funciones caracter sticas.
221
Propiedad 11.2 Sea una variable compleja X = X1 + iX2 . Entonces |E (X )| E (|X |) . Demostraci on. Podemos suponer que E (X ) = 0 pues en tal caso la desigualdad se cumple. Como E (X ) = E (X1 ) + iE (X2 ) C podemos escribir E (X ) = rei para cierto r > 0, 0 < 2. Consideremos la variable aleatoria compleja Y = ei X y veriquemos que su esperanza es real E (Y ) = E ei X = ei E (X ) = r > 0. Hemos probado con anterioridad que la propiedad se cumple para esperanzas de variables aleatorias reales. Luego |E (Y )| E (|Y |) . A partir de esto se deduce la tesis, pues |E (X )| = r = E (Y ) = |E (Y )| E (|Y |) = E (|X |) . 2
11.2.2.
Denici on de funci on caracter stica y propiedades.
Denici on 11.6 Sea X una variable aleatoria y FX su funci on de distribuci on. Denimos a la funci on carcter stica de X por la funci on X : R C asociada a FX de la siguiente manera X (t) = E (exp (itX )) = E (cos (tX )) + iE (sen (tX )) . Observaci on. Como las variables cos (tX ) , sen (tX ) son acotadas, las esperanzas de estas variables existen y son nitas. El motivo de la introducci on de la funci on caracter stica es poder estudiar m as facilmente la distribuci on de la suma de variables aleatorias independientes. Mientras que la funci on de distribuci on de esta suma (que se obtiene por convoluciones) puede ser muy complicada, su funci on caracter stica es muy simple, como se desprende de la Propiedad 11.3 que damos a continuaci on. Por otro lado, como veremos m as adelante, hay una correspondencia biun voca entre funciones de distribuci on y funciones caracter sticas. Luego, conociendo la funci on caracter stica de una variable aleatoria, tambi en conocemos su funci on de distribuci on.
222
V ctor J. Yohai
Propiedad 11.3 Sean X e Y dos variables aleatorias independientes. Entonces para todo t R X +Y (t) = X (t) Y (t) . Demostraci on. Observando que exp (itX ) , exp (itY ) son variables aleatorias independientes se tiene X +Y (t) = E (exp (it (X + Y ))) = E (exp (itX ) exp (itY )) = E (exp (itX )) E (exp (itY )) = X (t) Y (t) . 2
Propiedad 11.4 Sea X una variable aleatoria. Entonces para todo t R |X (t)| 1. Demostraci on. |X | = |E (exp (itX ))| E (|exp (itX )|) = E (1) = 1. 2 Propiedad 11.5 X (0) = E (1) = 1. Demostraci on. X (0) = E (1) = 1. 2 Ahora enunciamos dos teoremas muy importantes. Las demostraciones de estos teoremas se pueden encontrar en el libro de Barry R. James, Probabilidade: um curso em nivel intermedi ario. Teorema 11.3 Sean X e Y dos variables aleatorias. Entonces si X = Y , tambi en se tiene FX = FY . Teorema 11.4 (Teorema de Continuidad de Paul Levy) Sea (Xn )n1 una sucesi on de variables aleatorias, (FXn )n1 la correspondiente sucesi on on de funde funciones de distribuci on y (Xn )n1 la correspondiente sucesi ciones caracter sticas asociadas. Entonces Xn X si y s olo si para todo t R Xn (t) X (t) .
D
223
Teorema 11.5 Sea X una variable aleatoria. Entonces X es continua en todo punto. Demostraci on. Sea t R y consideremos una sucesi on (hn )n1 R tal que hn 0. Queremos probar que
n
l m X (t + hn ) = X (t) .
Teniendo en cuenta que X (t + hn ) = E (cos ((t + hn ) X )) + iE (sen ((t + hn ) X )) , bastar a con probar que si n + entonces E (cos ((t + hn ) X )) E (cos (tX )) , y E (sen ((t + hn ) X )) E (sen (tX )) . Probaremos que E (cos ((t + hn ) X )) E (cos (tX )) cuando n +, la otra propiedad es an aloga. Consideremos la sucesi on de variables aleatorias Yn = cos ((t + hn ) X ) . Se comprueba f acilmente que Yn est a dominada por la variable aleatoria Z = 1, es decir para todo n |Yn | = |cos ((t + hn ) X )| 1. Adem as si Y = cos (tX ), por la continuidad de la funci on coseno, se tiene convergencia puntual de Yn a Y , es decir para todo Yn ( ) Y ( ). Luego, por el Teorema de Convergencia Dominada se obtiene E (Yn ) E (Y ) . 2 Observaci on. Se puede probar algo m as fuerte: X es uniformemente continua (ver el libro de Barry R. James). Veamos como opera una funci on caracter stica sobre una transformaci on af n de la variable aleatoria.
224
V ctor J. Yohai
Propiedad 11.6 Sea X una variable aleatoria e Y = aX + b, con a, b R. Entonces para todo t R aX +b (t) = exp (ibt) X (at) . Demostraci on. Para todo t R se tiene Y (t) = aX +b (t) = E (exp (it (aX + b))) = E (exp (it (aX )) exp (itb)) = exp (ibt) E (exp (i (ta) X )) = exp (ibt) X (at) . 2 Ahora queremos caracterizar a las funciones caracter sticas a valores reales. Para esto recordemos el concepto de variable aleatoria sim etrica respecto del origen. La denici on m as general de simetr a respecto de arbitrario est a dada en la p agina 155. Decimos que una variable aleatoria X es sim etrica respecto del origen si y s olo si para todo x 0 se tiene que P (X x) = P (X x) . El siguiente teorema permite dar una denici on equivalente. (11.5)
Teorema 11.6 X es real sii X es sim etrica respecto del origen. En este caso X es par. Demostraci on. Supongamos primero que X sea sim etrica respecto del origen. Como para todo t R X (t) = E (cos (tX )) + iE (sen (tX )) , para mostrar que X es real bastar a ver que E (sen (tX )) = 0. Teniendo en cuenta que si X es sim etrica se tiene que FX = FX , de manera que E (g (X )) = E (g (X )) para cualquier g medible, entonces si para cada t R se toma g (x) = sen (tx) se obtiene E (sen (tX )) = E (sen (tX )) = E (sen (tX )) , y por lo tanto E (sen (tX )) = 0.
225
Adem as, X (t) = E (cos(X (t))) = E (cos(Xt)) = X (t). Luego X es par. Supongamos ahora que X es real, esto es E (sen (tX )) = 0. Entonces teniendo en cuenta que la funci on coseno es par y la funci on seno impar tendremos para todo t R X (t) = E (cos (tX )) + iE (sen (tX )) = E (cos(tX ) , y X (t) = E (cos (t(X ))) + iE (sen (t(X ))) = E (cos(tX )) = E (cos(tX )) iE (sen(tX ))
Luego X (t) = X (t) y entonces por el Teorema 11.3, se obtiene que FX = FX y por el Teorema 7.17 que X es sim etrica respecto del origen. 2
Denici on 11.7 (Momentos de orden k) Sea X una variable aleatoria. Denimos el momento de orden k > 0 de X como el n umero k = E X k , cuando este valor existe y el momento absoluto de orden k > 0 de X como el n umero k . k = E |X | Observaci on. Si k es par entonces k = as siempre se tiene que k . Adem k < sii < , es decir la integrabilidad absoluta de |X |k equivale a la k de X k . En particular E(X ) = 1 y Var(X ) = 2 2 1.
Teorema 11.7 Si k < entonces para todo i < k se tiene i < .
Demostraci on. Sea i < k. Se tiene |X |i = I{|X |1} |X |i + I{|X |>1} |X |i .
226 Como y obtenemos
V ctor J. Yohai
I{|X |i 1} |X |i I{|X |1} I{|X |>1} |X |i I{|X |>1} |X |k |X |k |X |i I{|X |1} + |X |k .

i P ({|X | 1}) + k < ,
Tomando esperanza en ambos miembros resulta
y esto demuestra el teorema. 2
11.3.
11.3.1.
Momentos y funci on caracter stica.

Derivaci on dentro del signo esperanza.
Para hacer un desarrollo de Taylor de la funci on caracter stica, necesitaremos hallar sus derivadas. Como la funci on caracter stica est a denida como una esperanza, ser a conveniente encontrar condiciones bajo las cuales se pueda intercambiar el orden en el que se deriva y se toma esperanza. Sea g(x, t) una funci on de dos variables a valores reales, medible respecto de la primera variable y derivable respecto de la segunda variable. Sea g2 denida por g (x, t) . g2 (x, t) = t Sea X una variable aleatoria, entonces para cada t, Yt = g (X, t) es tambi en una variable aleatoria. Supongamos que E (|Yt |) < y consideremos la funci on h (t) = E (Yt ) = E (g (X, t)) . El siguiente teorema nos da condiciones sucientes para que h (t) = E (g2 (X, t)) . Teorema 11.8 Supongamos que en t = t0 se cumplen las siguientes condiciones: (i) existe > 0 y Z variable aleatoria con E (Z ) < , tal que
|tt0 |
sup {|g2 (X, t) |} Z,
(ii) para todo x la funci on g2 (x, t) es continua respecto a la segunda variable en t = t0 . Luego h (t0 ) = E (g2 (X, t0 )) .
11.3. Momentos y funci on caracter stica.
227
Demostraci on. Sea (rn )n1 una sucesi on de n umeros reales no creciente que converge a 0 y tal que |rn | . Bastar a demostrar que h (t0 + rn ) h (t0 ) = E (g2 (X, t0 )) . n + rn l m
= r (X ) tal que |r (X )| Utilizando el teorema del valor medio existe rn n n rn y tal que
g (X, t0 + rn ) g (X, t0 ) = g2 (X, t0 + rn (X )) . rn Luego g (X, t0 + rn ) g (X, t0 ) h (t0 + rn ) h (t0 ) = l m E n n rn rn = l m E (g2 (X, t0 + rn (X ))) . l m Por lo tanto bastar a con mostrar que
n
l m E (g2 (X, t0 + rn (X ))) = E (g2 (X, t0 )) .
(X ) 0 y por la continuidad de g en t = t , Ahora bien rn 2 0 (g2 (X, t0 + rn (X )))n1 converge puntualmente a la funci on g2 (X, t0 ) . Adem as se cumple que sup |g2 (X, t0 + rn (X ))| Z, n
con E (Z ) < . Luego aplicando el teorema de la convergencia dominada se obtiene (11.6). 2
(11.6)
11.3.2.
Derivadas de la funci on caracter stica y momentos.
Dada una variable aleatoria X, sabemos que X (t) = E (exp (itX )) . Procedamos de manera ingenua, sin preocuparnos por la justicaci on, y derivemos sucesivamente dentro del signo esperanza X (t) = E (iX exp (itX )) = iE (X exp (itX )) X (t) = E i2 X 2 exp (itX ) = i2 E X 2 exp (itX ) . . . X (t) = E (in X n exp (itX )) = in E (X n exp (itX )) . El siguiente teorema permite justicar estas expresiones.
( n) (2) (1)
228
V ctor J. Yohai
Teorema 11.9 Supongamos que n < . Luego se cumple que X (t) = in E (X n exp (itX )) .
( n)
(11.7)
Demostraci on. Demostraremos el teorema por inducci on en n. Para n = 0 es cierto ya que X (t) = E exp (itX ) por denici on. Supongamos que el teorema es cierto para n. Vamos a demostrar que es cierto para n + 1. Supongamos que n+1 < , por el Teorema 11.7 resulta n < y luego la f ormula (11.7) es cierta para n. Entonces, tenemos que X (t) = in E (X n exp (itX )) = in (E (X n cos(tX )) + iE (X n sen(tX )). (11.8) Sea g(x, t) = xn cos(tx). Luego g2 (x, t) = xn+1 sen(tx) es continua y |g2 (X, t)| |X |n+1 . Como E (|X n+1 |) < , por el Teorema 11.8 se tendr a que si h(t) = E (X n cos(tx)), entonces h (t) = E (g2 (X, t)) = E (X n+1 sen(tX )). Similarmente si h (t) = E (X n sen(tx)), luego h (t) = E (X n+1 cos(tX )). Luego por (11.9), (11.10), derivando (11.8) se tendr a X
(n+1) ( n)
(11.9)
(11.10)
(t) = in (h (t) + h (t)) =i

n
(11.11)
n+1
E (X
n+1
sen(tX )) + iE (X
cos(tX )) .
(11.12)
Multiplicando por i y dividiendo por i se obtiene X

(n+1)
(t) = in+1 (1/i)E (X n+1 sen(tX )) + E (X n+1 cos(tX )) ,
y usando que 1/i = i X

(n+1)
(t) = in+1 iE (X n+1 sen(tX )) + E (X n+1 cos(tX )) = in+1 E (X n+1 exp(itX ))
y por lo tanto el teorema queda demostrado. 2. Corolario 11.1 Supongamos n < . Entonces resulta que X (0) = in E (X n ) .
( n)
11.4. Funci on caracter stica de una distribuci on normal.
229
Observemos entonces que de acuerdo al Teorema 11.9 si n < resulta X (0) = in E (X n ) = in n . En particular X (0) = i1 y X (0) = 2 . (11.14) Ahora estamos en condiciones de probar que la funci on caracter stica de la distribuci on X N (0, 1) es su densidad, salvo una constante. (11.13)
(n)
11.4.
Funci on caracter stica de una distribuci on normal.
Para la prueba del Teorema Central de L mite, necesitamos calcular la funci on caracter stica de una distribuci on normal. Dado que si X N , 2 se puede escribir como X = Y + , donde Y N (0, 1) de acuerdo a la Propiedad 11.6, s olo se necesitar a calcular X para el caso = 0 y 2 = 1. Teorema 11.10 Sea X N (0, 1) . La funci on caracter stica de X es 1 (t) = exp t2 . 2
Demostraci on. Como X es sim etrica respecto del origen, es real y par. Consideremos dos variables aleatorias independientes X1 N (0, 1) , X2 N (0, 1) y denamos Y = u1 X1 + u2 X2 con u1 0, u2 0 . Entonces 2 Y N 0, u2 1 + u2 . Podemos expresar a Y como un m ultiplo de una variable N(0, 1). En efecto Y = = donde Z= tiene distribuci on N (0, 1).
2 u2 1 + u2 2 u2 1 + u2 Z,
Y u2 1 + u2 2
Y
2 u2 1 + u2
230
V ctor J. Yohai
Demostraci on. Calcularemos Y de dos manera distintas. Por un lado, usando la Propiedad 11.6 Y (t) = u2 +u2 Z (t)
1 2
(11.15) (11.16)
2 u2 1 + u2 t .
Por otro lado siendo Y suma de variables aleatorias independientes, usando la Propiedad ?? y recordando que u1 0 y u2 0, se tiene que Y (t) = u1 X1 +u2 X2 (t) = u1 X1 (t) u2 X2 (t) = (u1 t) (u2 t) = De (11.15) y (11.18) se obtiene y haciento t = 1
2 u2 1 + u2 2 u2 1 + u2 t u2 1t
(11.17)
u2 2t .
(11.18)
u2 1t
u2 2t ,
(11.19)
u2 1
u2 2 .
(11.20)
Denamos g como la composici on de con la ra z cuadrada, es decir g (u) = Luego por (11.20) se tiene
2 g u2 1 + u2 u2 = g u2 2 . 1 g
u .
2 Luego, si ponemos v1 = u2 1 y v2 = u2 entonces para todo v1 , v2 0 obtenemos
g (v1 + v2 ) = g (v1 ) g (v2 ) . Entonces para todo v 0 se tiene g (v ) = g v v v + = g 2 2 2

2
(11.21)
0.
Observaci on. La Ecuaci on (11.21) recuerda la caracterizaci on de la distribuci on exponencial como una distrubuci on con falta de memoria. Luego para caracterizar a g procederemos de igual manera.
11.4. Funci on caracter stica de una distribuci on normal.
231
Por inducci on se puede probar que dados v1 0, v2 0, . . . , vn 0 entonces

n n
g
i=1
vi
=
i=1
g (vi ) .
(11.22)
Luego usando (11.22) se obiene que para todo n natural g (n) = g 1 + 1 + +... + 1
n veces
= [g (1)] .
(11.23)
Usando (11.22) y (11.23) se obtiene que para todo m y n naturales [g (1)]n = g (n) n = g m m = g y entonces
n n n = g + + ... + m m m n m
m veces m
n n g = [g (1)] m . m Luego para todo r Q positivo se tiene
g (r ) = [g (1)]r . Por la continuidad de g y la densidad de Q en R,se concluye que para todo x R 0 g (x) = [g (1)]x . Ahora veamos que 0 < g (1) < 1. (11.24) Como g (1) es real con 0 g (1) 1 para demostrar (11.24) se deber a mostrar que g (1) = 0 y que g (1) = 1. Supongamos que g (1) = 0. Entonces para todo t R0 t = g (t) = [g (1)]t = 0.
Esto es absurdo, pues si t = 0 se tendr a (0) = 0 y seg un la Propiedad 11.5 resulta que (0) = 1.
232 Supongamos que g (1) = 1 entonces (1) = 1 = g (1) = 1.
V ctor J. Yohai
Ahora como es real, (1) = E (cos (X )) . Entonces g (1) = 1 se puede escribir como E (1) = E (cos (X )) luego E (1 cos (X )) = 0 Pero siendo la variable aleatoria 1 cos (X ) no negativa se concluye que P (cos (X ) = 1) = 1. Esto no puede ser cierto puesto que {x R : cos (x) = 1} es un conjunto de puntos numerable, de manera que su probabilidad es cero puesto que la ditribuci on normal es absolutamente continua. Finalmente si ponemos c = log (g (1)) entonces, c > 0 y g (1) = exp (c) . Luego g (t) = [g (1)]t = exp (ct) , t 0. Adem as Como la funci on (t) es par se tendr a (t) = g t2 = exp ct2 , t 0. (t) = exp ct2 , t. Derivando dos veces ( )(1) (t) = 2ct exp ct2 , ( )(2) (t) = 2c exp ct2 + 4c2 t2 exp ct2 = 2c exp ct2 2ct2 1 , y evaluando en 0, de acuerdo a (11.14) se tendr a 2c = ( )(2) (0) = 2 = 1. Por lo tanto obtenemos que c = = Var (X ) + E X 2
1 2
y el Teorema queda demostrado. 2
11.5. Teorema Central del L mite.
233
11.5.
Teorema Central del L mite.
El siguiente lema da el desarrollo de Taylor de la funci on caracter stica de una variable aleatoria X con E (X ) = 0 y Var(X ) = 1. Lema 11.1 Sea X una variable aleatoria con E (X ) = 0 y Var(X ) = 1. Entonces t2 X (t) = 1 + o2 t2 , 2 2 donde o2 t es una funci on tal que o2 t2 = 0. t0 t2 l m (11.25)
Demostraci on. Sabemos que (0) = 1 y por (11.13) y (11.14) se tiene X (0) = 0 y X (0) = 1. Luego usando un desarrollo de Taylor de grado 2 en t = 0 para X se tiene X (t) = X (0) + X (0)t + X (0) =1 t2 + o2 t2 . 2 t2 + o2 (t2 ) 2
donde o2 t2 satisface (11.25). Esto demuestra el lema. 2
11.5.1.
Caso de variables independientes id enticamente distribuidas
Teorema 11.11 (Teorema Central del L mite) Sea (Xn )n1 una sucesi on de variables aleatorias independientes id enticamente distribuidas (i.i.d.) con varianza nita. Llamemos = E (Xi ) y 2 = Var (Xi ) > 0 . Sean las sumas parciales
n
Sn =
i=1
Xi
y Zn = Entonces Sn E (Sn ) . Var (Sn )

D
(11.26)
Zn N (0, 1) . Observaci on. La expresi on (11.26) puede reformularse escribiendo Zn = Xn E Xn Var X n ,
(11.27)
234 donde Xn = 1 n
V ctor J. Yohai
Xi
i=1
es la variable aleatoria promedio aritm etico. Demostraci on. En primer lugar veamos que basta con probar el teorema suponiendo que = 0 y 2 = 1. Teniendo en cuenta la independencia de las Xi y la denici on de Sn se tiene que E (Sn ) = n, Var (Sn ) = n 2 . Luego (11.26) se puede escribir como Zn =
n X i=1 i n
n n Xi ,
1 = n = donde
i=1 n i =1 Xi
Xi Claramente las variables Xi son i.i.d. con E (Xi ) = 0 y Var(Xi ) = 1. Luego si probamos que el teorema vale para = 0 y 2 = 1 resulta v alido para y 2 arbitrarios. Supondremos entonces que = 0 y 2 = 1. De acuerdo al teorema de continuidad de Levy y al Teorema 11.10, bastar a probar que para todo t R Xi =
n +
l m Zn (t) = exp
t2 2
(11.28)
Sabemos que como = 0 y 2 = 1, por el lema anterior para todo i N se tiene t2 Xi (t) = X (t) = 1 + o2 t2 , 2 2 on tal que donde o2 t es una funci o2 t2 = 0. t0 t2 l m (11.29)
Como las variables Xi son independientes, podemos aplicar la Propiedad 11.3 de las funciones caracter sticas y se tiene que para todo n
n
Sn (t) =
i=1
Xi (t) =
t2 + o2 t2 2
235
Finalmente teniendo en cuenta que = 0 y 2 = 1, resulta Zn = Sn / n. Luego por la Propiedad 11.6 de las funciones caracter sticas se obtiene Zn (t) = Sn = t n 2 t 1 + o2 2n
t2 n
De acuerdo a (11.28), bastar a ver que la sucesi on de funciones Zn satisface l m t2 + o2 1 2n t2 n

n
= exp
t2 2
(11.30)
Para ello escribamos la sucesi on de caracter sticas del siguiente modo Zn (t) = y luego si llamamos an = entonces resulta 1 t2 o2 1 n 2 t2 o2 2 t2 n t2 n
n
n ,
an n . n Se conoce del c alculo elemental que si a n L entonces Zn (t) = 1 an n

n
n exp (L) .
Por lo tanto, para mostrar (11.30) bastar a mostrar que en nuestro caso L = t2 /2. Equivalentemente bastar a con mostrar que l m o2 t2 n n 0.
Pero esto resulta de escribir t2 n o2 n= t2 n t2 n
o2
t2
y de observar que como t2 /n 0 cuando n , de acuerdo a (11.29) se tiene t2 o n l m = 0. 2 n + t n
236 Esto prueba el teorema. 2 Observaci on. Teniendo en cuenta que E Xn = y 1 n = n
V ctor J. Yohai
2 2 = , n n podemos escribir las variables Zn de la siguiente manera Var X n = n Zn = Xn E Xn Var X n = (X n ) . n
Luego, de acuerdo a (11.27) tenemos n2

1
(X n ) D N (0, 1) .
(11.31)
De acuerdo a la Ley Fuerte de los Grandes N umeros X n 0 c.s., y por lo tanto tambi en Wn = (X n )/ 0 c.s. Adem as, recordemos que convergencia casi segura implica convergencia en 1 distribuci on. Al multiplicar Wn por el factor n 2 , de acuerdo a (11.31) deja de tender a 0 y tampoco tiende innito. Por eso se dice que la velocidad 1 de convergencia de X n a es n 2 . Se deja como ejercicio probar que si 1 multiplicamos a Wn por n 2 + la sucesi on converge a en probabilidad. Es decir que dado cualquier K > 0, tendremos
n
l m P (n 2 + |Wn | > K ) = 1
1
Tambi en se deja como ejercicio probar que si multiplicamos a Wn por n 2 1 1 con > 0 la sucesi on n 2 + Wn converge en probabilidad a 0. El exponente 2 es el la potencia exacta de n por la que hay que multiplicar a Wn para que la sucesi on nk Wn no converja ni a 0 ni a .
11.5.2.
Teorema Central del L mite para variables no id enticamente distribuidas.
El Teorema Central del L mite sigue valiendo bajo condiciones menos restrictivas. Se puede suprimir la hip otesis de que las distribuciones sean id enticas y a un debilitar la hip otesis de la independencia.
237
El Teorema de Lindeberg o Teorema Central del L mite Fuerte da una condici on suciente para que una sucesi on de variables aleatorias independientes no necesariamente id enticamente distribuidas converja en distribuci on a la normal estandarizada. Enunciamos este importante teorema sin demostraci on. Teorema 11.12 (Teorema Central de Lindeberg) Sea (Xn )n1 una suce2 si on de variables aleatorias independientes con E (Xi ) = i y Var (Xi ) = i 2 2 para todo i N, donde i < y existe al menos un i0 tal que i0 > 0. Sea como antes Sn = n i=1 Xi y llamemos
n
s2 n =
i=1
2 = Var (Sn ) . i
Denamos las variable aleatorias centradas Yi = Xi i . Una condici on suciente para que Zn = es que para todo > 0 l m
n 2 i=1 {|y |sn } y dFYi s2 n
Sn E ( Sn ) D N (0, 1) Var (Sn )
n +
= 0.
(11.32)
Demostraci on. Ver el libro citado de Barry R. James. Observaci on. La condici on (11.32) se llama condici on de Lindeberg. Note2 mos que como E (Yi ) = 0 y Var (Yi ) = Var (Xi ) = i , se tiene
n
s2 n
=
i=1 n
2 i
(11.33)
=
i=1 n
Var(Yi )
+
=
i=1 n
y 2 dFYi
n
=
i=1 {|y |<sn }
y dFYi +
i=1
{|y |sn }
y 2 dFYi .
(11.34)
Luego, la condici on (11.32) es equivalente a que para todo > 0
238
V ctor J. Yohai
l m
n 2 i=1 {|y |<sn } y dFYi n 2 i=1 y dFYi
= 1,
(11.35)
lo cual se puede interpretar como que la condici on de Lindeberg implica que la contribuci on de Yi a la varianza de Sn proviene esencialmente de los n 2 valores donde |Yi |2 2 s2 n . Si llamamos Sn = i=1 Yi como sn = Var(Sn ) = ) resulta que la contribuci ) corresponde b Var(Sn on de Yi2 a la Var(Sn asica2 2 mente a los puntos donde Yi < sn , es decir donde Yi2 es peque na respecto 2 ). Esto est a E (Sn a diciendo que con alta probabilidad Yi2 es peque no con 2 respecto a Sn . En particular de (11.32) se deduce que para todo 2 > 0, existe n0 () tal que para todo n n0
{|y |sn } 2 y 2 dFYi < s2 n
para todo 1 i n. Por otro lado para todo 1 i n,

{|y |<sn } 2 y 2 dFYi s2 n .
Luego para todo 1 i n y n n0 se tiene

2 i = {|y |sn }
y 2 dFYi +
{|y |<sn }
2 y 2 dFYi < 2s2 n ,
y por lo tanto, para todo n n0 resulta

2 m ax1in i < 22 . n 2 i=1 i
Luego
2 m ax1in i = 0. n 2 n i=1 i
l m
Es decir que la varianza de cada variable, sobre la suma de las varianzas tiende a 0. Del teorema central del l mite de Lindeberg se deduce la siguiente versi on del Teorema Central del L mite. Teorema 11.13 (Teorema Central del L mite de Liapunov) Sea (Xn )n1 una sucesi on de variables aleatorias independientes con E (Xi ) = i y va2 > 0. Llamemos 2 < tal que para alg un i0 , i rianza Var (Xi ) = i 0 Yi = Xi i a las variable aleatoria centradas. Una condici on suciente para que Sn E (Sn ) D Zn = N (0, 1) Var (Sn )
239
es que exista > 0 tal que l m

n i=1 E
n +
s2+ n
|Yi |2+
= 0.
(11.36)
Demostraci on. Tenemos que y 2 dFYi = y luego

n i=1 {|y |sn }
{|y |sn }
{|y |sn }
1 s n
|y |2+ dFYi |y | |y |2+ dFYi
E (|Yi s n
{|y |sn } 2+ | )
y 2 dFYi
1 s n
n i=1
E |Yi |2+ .
Dividiendo por
s2 n
se tiene 1 E (|Yi |2+ ), s2+ n i=1

n
y por lo tanto por la condici on (11.36) l m

= 0.
(11.37)
que es la condici on de Lindeberg. 2 Esta condici on es u til cuando las variables tienen momentos nitos de orden mayor que dos. La condici on (11.36) se denomina la Condici on de Liapunov. Ejemplo. Consideremos ahora una sucesi on de variables aleatorias (Yn )n1 , donde Yn tiene distribuci on Bi (n, p) . Podemos pensar a Yn como el n umero de exitos en n experimentos independientes realizados bajo las mismas condiciones, donde la probabilidad de exito es p. Luego podemos escribir
n
Yn =
i=1
Xi ,
donde Xi = 1 0 si el i- esimo experimento resulta exito si el i- esimo experimento resulta fracaso.
240
V ctor J. Yohai
Claramente las variables Xi son independientes e id enticamente distribuidas. Sabemos que P (Xi = 1) = p y P (Xi = 0) = 1 p, E (Xi ) = p y Var (Yi ) = p (1 p) . Luego, estamos en condiciones de aplicar el Teorema Central del L mite para variables i.i.d. Entonces Yn E (Yn ) = Var (Yn ) Yn np D N (0, 1) . np (1 p)
Se puede probar que para n = 20 la distribuci on normal es una buena aproximaci on de la binomial, de manera que a nes pr acticos se pueden usar tablas normales para calcular probabilidades binomiales, si n es sucientemente grande.
11.5.3.
Una Aplicaci on a la Binomial.
Se realiza una encuesta para determinar el porcentaje p de votantes que va a votar a un partido C determinado. Se toma una muestra al azar de n votantes y se los encuesta acerca de su intenci on de voto. Designemos mediante Xi a la variable que toma el valor 1, si la intenci on declarada del encuestado i es votar al partido C y Xi = 0 en caso contrario. Claramente P (Xi = 1) = p. La variable
n
Sn =
i=1
Xi
da la cantidad de encuestados que dicen votar al partido C. La variable Yn tiene distribuci on Bi(n, p). Como desconocemos el par ametro p, podemos estimarlo a partir del promedio n Xi pn = X n = i=1 . n Como E (Xi ) = p, por la ley de los grandes n umeros tendremos X n p c.s. Lo que queremos saber es cuan grande tiene que ser n para lograr una precisi on determinada en nuestra estimaci on de p con cierta probabilidad. M as precisamente jemos una cota e para el error de estimaci on En = X n p (por ejemplo e = 0,05) y supongamos que queremos conocer aproximadamente la probabilidad de que |En | e, es decir P (|En | e). Sabemos que Zn = = = Sn np np (1 p) n i=1 Xi np np (1 p) Xn p n N (0, 1) .
D
p (1 p)
241 ne , p (1 p)
Llamemos an =
(11.38)
y a la funci on de distribuci on de una variable N(0, 1). Luego, como la distribuci on de Zn se comporta aproximadamente como la de una N(0, 1) para n grande, tenemos P (|En | e) = P (|X n p| e) =P |X n p| n p (1 p)
= P (|Zn | an ) = (an ) (an ) = 2(an ) 1,
ne p (1 p)
= (an ) (1 (an ))
donde el signo = indica aproximadamente. Supongamos ahora que queremos saber qu e tama no de muestra se requiere para que P (|En | e) sea aproximadamente 1 , donde es un n umero peque no, por ejemplo 0,05. Entonces se requerir a un valor n tal que 2(an ) 1 = 1 , . 2 Reemplazando an de acuerdo a (11.38) tendremos ne = 1 1 , 2 p (1 p) an = 1 1 o equivalentemente n= p(1 p) 1 1 e2
2 2
o equivalentemente
Como p es desconocido podemos acotar la expresi on de la derecha utilizando el valor de p m as desfavorable. Hallemos dicho valor. Como n depende en forma creciente de g(p) = p(1 p) deber amos elegir el m aximo de est a funci on para 0 p 1. Observemos que g (p) = 1 2p, de modo que el u nico punto cr tico es p = 1/2 , y como g (p) = 2 < 0 corresponde a un m aximo relativo. Como en los extremos g(0) = g(1) = 0 y g(1/2) = 1/4, resulta que el m aximo absoluto de g se alcanza en p = 1/2 y vale 1/4. Luego bast a tomar n igual a 2 1 1 2 . n= 4e2
242
V ctor J. Yohai
Por ejemplo si e = 0,05 y = 0,05, buscando en la tabla normal se tendr a que 1 (1 /2) = 1 (0,975) = 1,96, y luego 1 1 n= 4e2
2 2
= 384,16.
Luego, como n tiene que ser entero, bastar a tomar n = 385. El valor n calculado nos asegura la probabilidad deseada, pero dado que se reemplaz o p(1 p) por una cota superior, este valor de n hallado puede ser m as grande que el estrictamente necesario. En la Secci on siguiente veremos un teorema que nos permitir a reemplazar a p(1p) por la estimaci on X n (1 X n ).
11.6.
Teorema de Slutsky.
El siguiente teorema tiene numerosas aplicaciones en Estad stica. Teorema 11.14 (Teorema de Slutsky) Sean (Xn )n1 e (Yn )n1 dos sucesiones de variables aleatorias tales que Xn X e Yn c, donde X es una variable aleatoria y c una constante. Entonces se tiene (i) Xn + Yn X + c, (ii) Xn Yn cX, (iii) Si c = 0 entonces, Xn D X . Yn c Para probar el el Teorema 11.14 necesitaremos probar previamente los Teoremas 11.15-11.20.
D D D P
Teorema 11.15 Sea (Xn )n1 una sucesi on de variables aleatorias tales que Xn X donde X es otra variable aleatoria. Entonces para toda constante D a R, se tiene aXn aX. Demostraci on. La demostraci on la haremos distinguiendo tres casos: (i) a = 0, (ii) a > 0 y (iii) a < 0. (i) Si a = 0, entonces es claro que aX = aXn = 0 y por lo tanto el teorema se cumple.
D
11.6. Teorema de Slutsky.
243
(ii) Sea a > 0. Queremos probar que para todo punto x de continuidad de FaX vale que l m FaXn (x) = FaX (x) .
n +
Calculamos la funci on de distribuci on de aXn FaXn (x) = P (aXn x) x = P Xn a x , = FXn a y de manera an aloga, la funci on de distribuci on de aX FaX (x) = FX x . a
x lo es a D de FX . Ahora bien, como Xn X vale que para todo x punto de continuidad de FX Entonces x es un punto de continuidad de FaX si y s olo si
n
l m FXn (x) = FX (x) . x . Esto demuestra el caso (ii) a > 0. a
En particular eso vale para
(iii) Sea a < 0. Este caso resulta m as complicado de probar. Probaremos en primer lugar que vale para a = 1 y despu es pasaremos al caso D D general. Queremos probar que si Xn X entonces Xn X. En primer lugar es f acil ver que en general si X es una variable aleatoria P (X < a) = FX (a ) , donde FX (a ) es el l mite de FX (x), cuando x tiende a a por la izquierda. Para eso basta con observar que
{X < a} =
n=1
{X a
1 }. n
1 La sucesi on de conjuntos Cn = {X a n } es mon otona creciente y por lo tanto
P (X < a) = l m P
n
X a a 1 n
1 n
= l m FX
n +
= FX a .
244 Calcularemos ahora FX y FXn Por un lado FX (x) = P (X x)
V ctor J. Yohai
= P (X x)
= 1 FX (x) . Por otro lado y de manera an aloga FXn (x) = 1 FXn (x) . Entonces tenemos que probar que si x es un punto de continuidad de FX entonces
n
= 1 P (X < x)
l m 1 FXn (x)
= 1 FX (x) ,
o equivalentemente tenemos que probar que si x es un punto de continuidad de FX entonces

n
l m FXn (x) = FX (x) .
(11.39)
ComoFX est a denida como FX (x) = 1 FX (x) , resulta que x es un punto de de continuidad de FX si y s olo si x lo es de FX . Por lo tanto en los puntos donde FX es continua vale que FX (x) = FX (x) . Por lo tanto (11.39) es equivalente a que
n
l m FXn (x) = FX (x) ,
(11.40)
en los puntos x para los cuales x es un punto de continuidad de FX . Como x puede ser cualquiera, esto es equivalente a que
n
l m FXn x = FX (x) ,
(11.41)
para todo punto x que sea de continuidad de FX . Por la monoton a de FXn se tiene que FXn (x ) FXn (x) . Entonces tomando l mite superior en ambos miembros y recordando que la hip otesis de convergencia en distribuci on implica que l mn FXn (x) = FX (x) se obtiene l mFXn x l mFXn (x)
n
= l m FXn (x) (11.42)
= FX (x) .
245
Observemos que como FX es continua en x entonces dado > 0 existe > 0 tal que FX (x) < FX (x ) . Como el conjunto de puntos de discontinuidad de FX es a lo sumo numerable, podemos elegir x de forma tal que FX sea continua en x . Por la monoton a de FXn resulta FXn x FXn (x ) . Tomando l mite inferior y recordando que x es un punto de continudad de FX se obtiene l mFXn x l mFXn (x )
n
= l m FXn (x ) = FX (x ) > FX (x) .
Ahora haciendo que 0 se tiene l mFXn x FX (x) . Por lo tanto de (11.42) y (11.43) resulta l mFXn x FX (x) l mFXn x . mFXn (x ) , resulta Pero como siempre ocurre que l mFXn (x ) l que mFXn x , l mFXn x = FX (x) = l y entonces necesariamente existe l m FXn (x ) y adem as l m FXn x = FX (x) . Esto demuestra (11.41). Ahora probaremos el Teorema para cualquier a < 0. Para eso escribimos aXn = (a) (Xn ) . Entonces por un lado como Xn X se tiene que Xn X . Por otro lado si a < 0 entonces a > 0 y por el caso (i) aXn = (a) (Xn ) (a) (X ) = aX. 2
D D D
(11.43)
Denici on 11.8 Sea (Xn )n1 una sucesi on de variables aleatorias. Decimos que la sucesi on est a acotada uniformemtne en probabilidad si dado > 0 existe K > 0 tal que P (|Xn | K ) 1 .
246
V ctor J. Yohai
Observaci on. Recordemos que hemos probado, en el Teorema 10.6 en la P p agina 201 que si Xn X entonces dado > 0 existe K > 0 tal que para todo n N P (|Xn | K ) 1 y P (|X | K ) 1 . Esto signica que si una sucesi on (Xn )n1 converge en probabilidad est a acotada uniformemente en probabilidad. Para la convergencia en distribuci on se tiene un resultado an alogo. Teorema 11.16 Sea (Xn )n1 una sucesi on de variables aleatorias y X otra variable aleatoria tal que Xn X. Entonces dado > 0 existe K0 > 0 tal que para todo n N P (|Xn | K0 ) 1 y P (|X | K0 ) 1 . Demostraci on. Por el Teorema 10.5 sabemos que dado > 0 existe K > 0 tal que P (|X | K ) 1 . 2 Observemos que si para cierto K > 0 vale la desigualdad, entonces tambi en vale para cualquier K1 > K . En efecto, como {|X | K } {|X | K1 }, tomando probabilidades se tiene 1 P (|X | K ) P (|X | K1 ) . Luego, como el conjunto de puntos de discontinuidad de FX es a lo sumo numerable, podemos elegir K de forma tal que FX sea continua en K y en K. Entonces P (|X | K ) = P (K X K ) = P ( K < X K )
D
= FX (K ) FX (K ) 1 . 2
(11.44) (11.45)
Teniendo en cuenta la convergencia en distribuci on de Xn a X, resulta

n
l m FXn (K ) = FX (K ) ,
247
y
n
l m FXn (K ) = FX (K ) . 4
Por denici on de l mite existe n1 N tal que si n n1 entonces FXn (K ) > FX (K ) y tambi en n2 N tal que si n n2 entonces FXn (K ) < FX (K ) + Luego tenemos P (|Xn | K ) = P (K Xn K ) 4 (11.47) (11.46)
P (K < Xn K )
= FXn (K ) FXn (K ) .
(11.48)
Sea n0 = m ax{n1 , n2 }. Luego de (11.44), (11.46), (11.47) y (11.48) resulta que si n n0 se tiene P (|Xn | K ) FXn (K ) FXn (K ) > FX (K ) FX (K ) + 4 4 FX (K ) FX (K ) 2 1 = 1 . 2 2 Luego hemos conseguido la acotaci on requerida para X y Xn con n n0 . Finalmente para cada 1 j n0 1, podemos encontrar un n umero Kj > 0 tal que P (|Xj | Kj ) 1 . Entonces si ponemos K0 = m ax{K, K1 , K2 , ..., Kn0 1 } se cumple P (|Xn | K0 ) 1 , n y P (|X | K0 ) 1 . 2
Teorema 11.17 Sea (Xn )n1 una sucesi on de variables aleatorias uniformemente acotada en probabilidad y supongamos que Yn 0, entonces Xn Yn 0.
P P
248
V ctor J. Yohai
Demostraci on. Utilizado las dos hip otesis dado > 0 existe K > 0 tal que P (|Xn | K ) 1 y n0 N tal que para todo n n0 se tiene P | Yn | Ahora observemos que {|Xn Yn | > } {|Xn | > K } {|Yn | }, K 2K < . 2 2
ya que si |Xn | K y |Yn | < /K entonces |Xn Yn | . Tomando probabilidades tenemos que para todo n n0 resulta P ({|Xn Yn | > }) P ({|Xn | > K }) + P {|Yn | } K < + = . 2 2 Esto prueba el teorema. 2 Teorema 11.18 Sean (Xn )n1 e (Yn )n1 dos sucesiones de variables aleatorias y X otra variable aleatoria tal que Xn X e Yn 0. Entonces Xn + Yn X. Demostraci on. Queremos probar que si x es un punto de continuidad de FX entonces
n + D D P
l m FXn +Yn (x) = FX (x) .
Sea > 0. Dado que el n umero de puntos de discontinuidad de FX es a lo sumo numerable, siempre podemos elegir 0 < 1 < tal que x + 1 sea punto de continuidad de FX . Luego tenemos {Xn + Yn x} {Xn x + 1 } {|Yn | > 1 } pues si Xn > x + 1 y |Yn | 1 entonces Xn + Yn > x. Tomando probabilidades en ambos miembros obtenemos FXn +Yn (x) FXn (x + 1 ) + P (|Yn | > 1 ) . Como
n
(11.49)
l m FXn (x + 1 ) = FX (x + 1 ),
249
y
n
l m P (|Yn | > 1 ) = 0,
tomando l mite superior en (11.49) se obtiene l mFXn +Yn (x) l m [FXn (x + 1 ) + P (|Yn | > 1 )]
n n
= l m FXn (x + 1 ) + l m P (|Yn | > 1 ) = FX (x + 1 ) FX (x + ).
Haciendo 0 resulta l mFXn +Yn (x) FX (x) . (11.50)
Tomemos ahora 0 < 1 < y tal que x 1 sea un punto de continuidad de FX . Observemos que tambi en vale {Xn x 1 } {Xn + Yn x} {|Yn | > 1 }, ya que Xn + Yn > x y |Yn | equivale a Xn + Yn > x y Yn de manera que sumando obtenemos Xn > x . Tomando probabilidades resulta FXn (x 1 ) FXn +Yn (x) + P (|Yn | > 1 ), y pasando al l mite inferior, como x 1 es un punto de continuidad de FX se obtiene FX (x 1 ) l mFXn +Yn (x). Adem as, como FX (x ) FX (x 1 ), resulta FX (x ) l mFXn +Yn (x) . Luego tomando l mite cuando 0, y dado que FX es continua en x, tenemos FX (x) l mFXn +Yn (x) . (11.51) De (11.50) y (11.51) se obtiene l mFXn +Yn (x) FX (x) l mFXn +Yn (x) , y esto implica que
n
l m FXn +Yn (x) = FX (x) . 2
250
V ctor J. Yohai
Teorema 11.19 Sea (Xn )n1 una sucesi on de variables aleatorias y X otra variable aleatoria tal que Xn X . Si a es constante, entonces Xn + a X + a. Demostraci on. Tenemos FXn +a (x) = P (Xn + a x) = FXn (x a) ,
D D
= P (Xn x a)
y FX +a (x) = P (X + a x) = P (X x a) = FX (x a) .
Por lo tanto si x es un punto de continuidad de FX +a entonces x a es un punto de continuidad de FX de manera que aplicando la hip otesis y lo anterior resulta
n +
l m FXn +a (x) = l m FXn (x a)

n +
= FX (x a)
= FX +a (x) . 2
Teorema 11.20 Sea (Xn )n1 una sucesi on de variables aleatorias tal que Xn c, donde c es una constante. Luego si g es una funci on medible continua en c, se tiene Yn = g(Xn ) g(c). Demostraci on. Dado > 0 existe > 0 tal que |x c| implica |g(x) g(c)| . Luego {|g(x) g(c)| > } {|x c| > }. En particular {|g(Xn ) g(c)| > } {|Xn c| > }. y tomando probabilidades y l mites obtenemos
n P P
l m P (|g(Xn ) g(c)| > ) l m P (|Xn c| > ) = 0.

n
251
Luego
n
l m P (|g(Xn ) g(c)| > ) = 0,
y el teorema queda probado. 2 Ahora estamos en condiciones de probar el Teorema de Slutzky, enunciado en la p agina 242. Demostraci on. (i) Podemos escribir Xn + Yn = (Xn + c) + (Yn c) . Sabemos por el Teorema 11.19 que Xn + c X + c, e y aplicando el Teorema 11.18 Xn + Yn X + c. (ii) Escribimos el producto de la siguiente manera Xn Yn = cXn + (Yn c) Xn . Sean Zn = (Yn c) Xn , y Un = cXn . Por un lado sabemos que (Yn c) 0 y que la sucesi on (Xn )n1 est a uniformemente acotada en probabilidad, entonces aplicando el Teorema 11.17 se tiene que Zn 0, y aplicando el Teorema 11.15 Un cX. Finalmente, aplicando el Teorema 11.18 Xn Yn = Un + Zn cX.
D D P P D D
Yn c 0.
252
V ctor J. Yohai
(iii) Como c = 0 y la funci on g(y ) = 1/y es continua en y = c, resulta por el Teorema 11.20 que 1 P 1 . Yn c Luego como Xn = Yn (iii) resulta aplicando (ii). 2 Para ver c omo se usa el Teorema de Slutsky en casos particulares, retomemos la aplicaci on del Teorema Central del L mite a la binomial, presentada en la secci on 11.5.3. Sea 1 0 si el i esimo encuestado declara votar al partido C si el i esimo encuestado declara no votar al partido C 1 Yn Xn .
Xi =
y sea P (Xi = 1) = p, siendo p el par ametro de inter es que es desconocido. Luego hab amos demostrado que Zn = donde Yn =
i=1
Xn p D Yn np = n N (0, 1) , np (1 p) p (1 p)
n
, Xn =
Yn n
Por la Ley D ebil de los Grandes N umeros sabemos que X n p. Como la funci on g (p) = p (1 p) es continua, por el Teorema 10.7 resulta que X n (1 X n ) p (1 p) . Luego resulta que n Xn p X n (1 X n ) N (0, 1) .
D P P
Ahora daremos una aplicaci on de estos conceptos resolviendo el siguiente problema de Estad stica.
11.7. Aplicaci on a intervalos de conanza.
253
11.7.
Aplicaci on a intervalos de conanza.
Problema: Sea X una variable aleatoria cuya funci on de distribuci on F desconocemos. Por ejemplo, puede tratarse del peso de una lata de arvejas que es una variable aleatoria que var a de lata en lata. La distribuci on de X no tiene por qu e ser normal. Sean = E (X ) y 2 = Var (X ) par ametros que dependen de F y que supondremos desconocidos. En estad stica se los denomina par ametros poblacionales. Se toma una muestra aleatoria de tama no n y se obtienen las variables aleatorias X1 , X2 , ..., Xn . Estas variables ser an independientes e identicamente distribuidas con distribuci on F. El problema consiste en estimar el par ametro desconocido a partir de las variables observadas y precisar la magnitud del error que se puede estar cometiendo. Como por la ley fuerte de los grandes n umeros se tiene que X n c.s., podemos tomar como estimaci on del par ametro el promedio aritm etico de la muestra, es decir, X n n = X n . Para n grande este valor estar a pr oximo a la media verdadera , y el error cometido en esta aproximaci on ser a En = X n . As , el error resulta una variable aleatoria. Un problema natural es tratar de encontrar, para un valor de n determinado, una cota para el m odulo del error, con una alta probabilidad. Teniendo en cuenta que la varianza se dene 2 = E X 2 [E (X )]2 podemos estimar la varianza de la siguiente manera
2 n
n 2 i=1 Xi
2 n i=1 Xi )
Usando la ley de los grandes n umeros se tendr a que

n 2 i=1 Xi
n y Xn =
E (X 2 )
c.s.,
E (X ) c.s. n Luego como el cuadrado es una funci on continua se tendr a

2 n E (X 2 ) E 2 (X ) = 2
n i=1 Xi
c.s.,
y por lo tanto, n c.s.
254 y n . Por el Teorema Central del L mite Xn D N (0, 1) . n Como sabemos que n , se tendr a
P P
V ctor J. Yohai
(11.52)
P 1. n
(11.53)
Luego teniendo en cuenta (11.52) y (11.53), y aplicando el teorema de Slutzky resulta Zn = Xn Xn D N (0, 1) . n = n n n
Es decir, si se reemplaza a por su estimador n en (11.52), la convergencia en distribuci on no cambia. Ahora consideremos un valor , 0 < < 1 que en estad stica recibe el nombre de nivel de signicaci on, generalmente se toma = 0, 01 o bien = 0, 05. Buscamos en la tabla de la distribuci on normal un valor z/2 tal que P (Z > /2) = /2 donde Z es una variable N(0, 1). Luego por simetr a . tambi en se tendr a P Z < z/2 = 2 Ahora bien si Zn Z con Z N (0, 1) entonces tambi en Zn Z. Como Z tambi en es N (0, 1) tenemos que para n grande P z/2 Zn z/2 1 , donde indica aproximadamente es decir P y despejando P Xn z/2 n z/2 n Xn + n n 1 . (11.54) z/2 Xn n z/2 n 1 ,
D D
Luego jando se puede garantizar que la probabilidad de que se encuentre en el intervalo de extremos aleatorios Xn z/2 n z/2 n ; Xn + . n n
es aproximadamente 1 . Este intervalo se llama intervalo de conanza para . Obs ervese que hay dos par ametros que pueden variar, el nivel de
11.8. Un teorema u til de Convergencia en Distribuci on
255
signicaci on y el tama no de la muestra n. Cuando decrece z/2 aumenta y consecuentemente aumenta la longitud intervalo de conanza. Como contrapartida tambi en aumenta la probabilidad que contenga a . En cambio cuando n crece y se mantiene el constante, la longitud del intervalo decrece, tendiendo a 0 cuando n tiende a innito. Obs ervese que otra manera de escribir (11.54) es la siguiente P |En | z/2 n n 1 .
Es decir, tenemos acotado el error |En | por z/2 n / n con probabilidad aproximada 1 .
11.8.
Un teorema u til de Convergencia en Distribuci on
En primer lugar recordemos que si (Xn )n1 es una sucesi on de variables aleatorias i.i.d entonces Xn D n N (0, 1) , o equivalentemente por el Teorema 11.15 n X n N 0, 2 .
D
Sea g una funci on continua en . Parece natural preguntarse si n(g(X n ) g()) converge en distribuci on y en caso de que as sea a qu e distribuci on converge. El siguiente teorema responde esta pregunta.
Teorema 11.21 Sea (Yn )n1 una sucesi on de variables aleatorias y (an )n1 una sucesi on de n umeros reales tal que an . Supongamos que la sucesi on D de variables aleatorias an (Yn ) X. Sea g : R R una funci on con derivada continua en un entorno de . (i) Entonces Wn = an (g (Yn ) g ()) g () X. (ii) Si X N 0, 2 entonces g () X N 0, [g (u)]2 2 . Este resultado vale a un cuando g () = 0 si la distribuci on N (0, 0) se interpreta como la distribuci on de la variable constantemente igual a cero.
D
256 Demostraci on.
V ctor J. Yohai
(i) Por el Teorema 11.16, la sucesi on an (Yn ) est a uniformemente acotada en probabilidad. Si consideramos la sucesi on (an )n1 de n umeros reales como una sucesi on de variables aleatorias constantes, es claro que 1 P 0. an Luego de acuerdo al Teorema 11.17 resulta (Yn ) = o equivalentemente Yn . Como g es continua y derivable en un entorno de podemos aplicar el Teorema del Valor Medio y encontrar un punto intermedio n entre Yn y tal que Wn = an g (n ) (Yn ) . Adem as como Yn resulta que la sucesi on de variables aleatorias P (n )n1 tambi en satisface n . Por la continuidad de g y el Teorema 11.20 se tiene P g (n ) g () . Aplicando la parte (ii) del Teorema de Slutzky se obtiene Wn = g (n ) Zn g () X. (ii) Se deduce de (i) pues si X N 0, 2 , entonces g () X N 0, [g ()]2 2 . 2
P P
1 P (an (Yn )) 0, an
Cap tulo 12
Procesos de Poisson.
12.1. Procesos de punto.
Supongamos que se observan sucesos que ocurren a lo largo del tiempo en forma aleatoria. Por ejemplo, los sucesos pueden ser la llegada de clientes a un negocio, las llamadas tel efonicas que llegan a una central, la emisi on de part culas que realiza un cierto material radioactivo, etc. M as formalmente, para cada valor t 0, denominemos X (t) la cantidad de sucesos que ocurrieron desde un instante inicial 0 hasta t. Luego, supondremos que para cada t, X (t) es una variable aleatoria que toma valores enteros no negativos. Adem as tendremos naturalmente que X (0) = 0, y que si t1 < t2 , entonces X (t1 ) X (t2 ). Todas las variables aleatorias X (t), t 0 estar an denidas sobre un mismo espacio de probabilidad (, A, P ), pero como la construcci on de este espacio es sumamente complicada no daremos detalles sobre el mismo. Digamos solamente que un posible espacio muestral puede estar dado por = { : R0 N0 : es no decreciente y continua a derecha}. Luego X puede pensarse entonces dependiendo de t R0 y , X (t) | = X (t, ) = (t) Los procesos X (t) que miden la candidad de sucesos que ocurren hasta el tiempo t, se denominan procesos de punto.
12.2.
Axiom atica de los Procesos de Poisson
Los procesos de Poisson, son procesos de punto particulares que satisfacen los siguientes cuatro axiomas. A1. Homogeneidad. 257
258
V ctor J. Yohai
Supongamos que 0 t1 < t2 , 0 t3 < t4 y adem as t4 t3 = t2 t1 . Entonces las variables aleatorias X (t2 ) X (t1 ) y X (t4 ) X (t3 ) tienen la misma distribuci on. Observando que X (t2 ) X (t1 ) es el n umero de sucesos que ocurrieron entre t1 y t2 , este axioma signica que la distribuci on del n umero de sucesos ocurridos en un per odo de tiempo, depende s olo de la longitud de ese per odo. A2. Independencia. Consideremos dos periodos de tiempo esencialmente disjuntos (a lo sumo pueden tener en com un un punto) [t1 , t2 ] , [t3 , t4 ], t1 < t2 t3 < t4 . Entonces las variables aleatorias X (t2 ) X (t1 ) y X (t4 ) X (t3 ) son independientes. Esto signica que el n umero de sucesos que ocurre en un per odo de tiempo de tiempo [t1 , t2 ] es independiente del n umero de sucesos que ocurre en el per odo [t3 , t4 ], donde t3 t2 . Luego el hecho de tener informaci on sobre el n umero de sucesos del per odo [t1 , t2 ] no aporta datos que ayuden a predecir el n umero de sucesos del per odo [t3 , t4 ]. Los per odos considerados no tienen por qu e ser de igual longitud. Los axiomas A3 y A4 son de car acter m as t ecnico que los anteriores. A3. Sea g1 (t) = P (X (t) = 1) , entonces g1 (0) = > 0, P (X (t) = 1) = > 0. t0 t Esto es equivalente a que l m P (X (t) = 1) = t + o1 (t) , donde
t0
es decir
(12.1)
l m
o1 (t) = 0. t
(12.2)
A4.
t0
l m
P (X (t) > 1) = 0, t
12.3. Distribuci on de un proceso de Poisson.
259
o equivalentemente existe o2 (t) tal que P (X (t) > 1) = o2 (t) , donde o2 satisface o2 (t) = 0. t0 t l m (12.3)
(12.4)
Para modelar un proceso real como un proceso de Poisson se requiere de la vericaci on de este conjunto de axiomas. Existen muchos procesos concretos que no responden a este modelo.
12.3.
Distribuci on de un proceso de Poisson.
El siguiente teorema caracteriza la distribuci on de los procesos de Poisson. Teorema 12.1 Si X (t) es un proceso de punto que satisface A1, A2, A3 y A4 entonces X (t) tiene distribuci on de Poisson con par ametro t, es decir X (t) P (t) . Demostraci on. Para cada n dividimos el intervalo [0, t] en n subintervalos de igual longitud que denominaremos Iin , 1 i n. M as precisamente consideramos la partici on regular del interval [0, t] con n + 1 puntos n = (n 1) t t 2t ,t . 0, , , ..., n n n
Esta partici on determina n subintervalos Iin = (i 1) t it , , 1 i n. n n
El n umero de sucesos que ocurre en Iin es Vin = X it n X (i 1) t n .
on que Por A1, las variables Vin , 1 i n, tienen la misma distribuci X (t/n) = V1n y por el axioma A2 son independientes. Para cada i denimos el vector aleatorio
n n n Zn i = (Zi1 , Zi2 , Zi3 )
donde Zin 1 =
1 0
si Vin = 0 si Vin = 0,
260 Zin 2 = Zin 3 = 1 0 1 0 si Vin = 1 si Vin = 1, si Vin > 1 si Vin 1.
V ctor J. Yohai
n El evento Zin o ning un suceso, 1 = 1 indica que en el intervalo Ii no ocurri n n Zi2 = 1 que ocurri o s olo uno, y Zi3 = 1 que ocurri o m as de uno. Es claro que siempre ocurre una y s olo una de esas tres posibilidades y por lo tanto n n Zin 1 + Zi1 + Zi1 = 1.
Por otro lado, la distribuci on del vector Zn i es multinomial, digamos con par ametros de probabilidad p1n , p2n , p3n y para una u nica repetici on. Luego Zn i M (p1n , p2n , p3n , 1) , donde p1n = P p2n = P p3n = P Usando (12.2) y (12.3) resulta p2n = y p3n = o2 Finalmente p1n = 1 p2n p3n t o1 n t = 1 o3 n = 1 (12.7) t n t n o2 , t n (12.8) t n . (12.6) t + o1 n t n , (12.5) X X X t n t n t n =0 , =1 , >1 .
donde o3 (t ) = o1 (t ) + o2 ( t) . Claramente, de (12.2) y (12.3) resulta

t0
l m
o3 (t) = 0. t
(12.9)
261
Como las variables Vin , 1 i n son independientes, y como el vector Zn i , 1 i n tambi e n son independientes. depende solo de Vin , los vectores Zn i Ahora denimos las variables
n
Y1n =
i=1 n
Zin 1, Zin 2,
i=1 n
Y2n = Y3n =
i=1
Zin 3.
Claramente es el n umero de intervalos en los que no ocurre ning un n suceso, Y2 es el n umero de intervalos en los que ocurre exactamente uno e Y3n es la cantidad de intervalos en los que ocurre m as de un suceso. Luego, la distribuci on del vector Y n = (Y1n , Y2n , Y3n ) es multinomial con par ametros de probabilidad p1n , p2n , p3n y n repeticiones. Por lo tanto podemos escribir Y n = (Y1n , Y2n , Y3n ) M (p1n , p2n , p3n , n) . Sea An el evento en ning un intervalo ocurre m as de un suceso. Es decir An = {Y3n = 0}. Veremos que
n
Y1n
l m P (An ) = 1.
o equivamentemente
n
l m P (Ac n ) = 0.
n
Observemos que Ac n =
i=1
{Zin 3 = 1},
pues si en alg un intervalo ocurre el suceso m as de una vez entonces existe = 1 y rec procamente. alg un i tal que la variable Zin 3 Luego, como P (Zin = 1) = p3n , usando (12.6) resulta 3
n
(Ac n)
=P
n
i=1
{Zin 3 = 1} t n .
P (Zin 3 = 1) = np3n = no2

i=1
Como t/n 0 cuando n , por (12.4) resulta

n
l m P (Ac m n ) l
o2
t n
t n
= t l m
o2
t n
t n
= 0.
(12.10)
262
V ctor J. Yohai
Calculemos ahora la probabilidad de que hasta el momento t hayan ocurrido k sucesos. Tenemos P (X (t) = k) = P ({X (t) = k} An ) + P ({X (t) = k} Ac n) . Pasando al l mite y teniendo en cuenta (12.10) resulta
n +
l m P ({X (t) = k} Ac n ) = 0,
y entonces P (X (t) = k) = l m P ({X (t) = k} An ) .

n +
Pero es claro que el evento {X (t) = k} An se caracteriza por {X (t) = k} An = {Y1n = n k, Y2n = k, Y3n = 0}, y luego P (X (t) = k) =
n +
l m P (Y1n = n k, Y2n = k, Y3n = 0) .
Teniendo en cuenta que la ditribuci on del vector Y n es M (p1n , p2n , p3n , n) , obtenemos P (X (t) = k) = l m =
n +
n! p nk p k p 0 (n k)!k! 1n 2n 3n
k i=1
1 l m k ! n +
(n i + 1) t n
nk
. 1 Como t + o1 n tenemos t n
t + o3 n
k
t + o1 n t n
k
t n
1 = k n
t + no1
1 P (X (t) = k) = l m k ! n +
k i=1
(n i + 1) n t n
nk
t . 1 + o3 n o bien P (X (t) = k) =
t + no1
t n
1 l m Bn Cn Dn En , k! n
(12.11)
263
donde
k
Bn =
i=1
ni+1 n t + o3 n t + o3 n t n t n t n
k n
Cn = Dn = En =
1 1
t + no1
Comencemos calculando el l mite de Bn

k n +
l m Bn = l m
k
n +
i=1
ni+1 n ni+1 n i1 n (12.12)
=
i=1 k
n +
l m
=
i=1 k
1 l m
n +
= 1 = 1. El l mite de Cn se puede calcular de la siguiente manera l m Cn = l m 1 1 t + o3 n t n

n
n +
n +
= l m
n + n +
= l m donde
1 t no3 n an n . 1 n t n
t n
an = t no3 Como en (12.10) se puede demostrar que l m no3 t n
= 0,
y entonces resulta
n +
l m an = t.
264 Por lo tanto

n +
V ctor J. Yohai
l m Cn = l m
n +
an n
= exp l m an
n
= exp (t) .
(12.13)
Por otro lado, como t/n 0 cuando n , y o1 (t/n) 0, resulta

n +
l m Dn = l m
n +
t + o3 n
t n
= 1k = 1.
(12.14)
Finalmente, como l mn+ no1 (t/n) = 0, resulta l m En = l m t + no1 t n

k
n +
n +
= (t)k . Usando (12.11), (12.12), (12.13), (12.14) y (12.15) obtenemos P ({X (t) = k}) = exp (t) Esto prueba que X (t) P (t) . 2 (t)k . k!
(12.15)
12.4.
Tiempos de espera
Sea T1 la variable aleatoria denida como el tiempo necesario hasta que ocurra el primer suceso . Calcularemos ahora su distribuci on. Teorema 12.2 T1 tiene distribuci on exponencial con par ametro , es decir, E (). Demostraci on. FT1 (t) = P (T1 t)
= P (X (t) > 0) = 1 P (X (t) = 0) = 1 exp (t) .
Luego T1 E () .2 Otro problema de inter es es la distribuci on de los tiempos sucesivos de ocurrencia de los sucesos. Denamos T2 como el tiempo de espera hasta que
12.5. Procesos de Poisson en el plano.
265
ocurra el segundo suceso entonces T2 T1 tiene la misma distribuci on que T1 . No daremos una demostraci on formal de este hecho. Heur sticamente, este resultado puede justicarse de la siguiente manera. T2 T1 es el tiempo de espera para el primer suceso luego del instante T1 . Como por A1 el proceso es homog eneo, este tiempo de espera deber a tener la misma distribuci on que T1 . Adem as como T1 est a determinado por X (t) con t t1 y T2 T1 por X (t) con t > T1 , por A2, resulta que T1 es independiente de T2 T1 . Denamos ahora Ti como el tiempo de espera hasta que ocurran i sucesos. Luego, un argumento similir puede aplicarse, y tendremos el siguiente teorema que enunciaremos sin demostraci on. Teorema 12.3 Las variables aleatorias T1 , T2 T1 , T3 T2 , ..., Ti Ti1 , ... son i. i. d. con distribuci on E (). Corolario 12.1 El tiempo de espera Ti tiene distribuci on (i, ). Demostraci on. Podemos escribir a la variable Ti como una suma telesc opica Ti = T1 + (T2 T1 ) + (T3 T2 ) + ... + (Ti Ti1 ) . Recordando que E () = (1, ) y teniendo en cuenta que Ti una suma de variables independientes todas con distribuci on (1, ) resulta que Ti (i, ) . 2
12.5.
Procesos de Poisson en el plano.
Los procesos de Poisson se pueden generalizar al plano. No vamos a describir estos procesos con detalle, pero daremos una breve presentaci on. Un ejemplo de este tipo de procesos podr a ser los que representan la ubicaci on de los arboles en un bosque. Consideramos ahora el plano en vez de la recta. Supongamos que en ciertos puntos del plano ocurren sucesos en forma aleatoria, como por ejemplo la presencia de un arbol. Luego para cada boreliano B del plano tendremos la variable aleatoria X (B ) que representa la cantidad de sucesos que han ocurrido en B (por ejemplo, la cantidad de arboles que se encuentran en la regi on B ). Los axiomas de un proceso de Poisson en el plano son los siguientes: AP1. Homogeneidad. Dado un boreliano, notemos con A su area. Supongamos que B1 B2 B 2 son boreleanos del plano tal que A (B1 ) = A (B2 ) entonces las variables aleatorias X (B1 ) y X (B2 )
266
V ctor J. Yohai
tienen la misma distribuci on. Esto dice que la distribuci on del n umero de sucesos que ocurren en una regi on del plano s olo depende de su area. AP2. Independencia. Consideremos dos borelianos del plano esencialmente disjuntos B1 , B2 B 2 , es decir tal que A (B1 B2 ) = 0. Entonces las variables aleatorias X (B1 ) y X (B2 ) son independientes. Esto signica que cuando las regiones B1 y B2 tienen area en com un igual a 0, entonces la informaci on de lo que ocurre en una regi on B1 no aporta ninguna informaci on respecto de lo que ocurre en la regi on B2 . AP3. P (X (B ) = 1) = > 0, A(B ) A(B )0 l m o bien P (X (B ) = 1) = A(B ) + o1 (A(B )) . AP4. P ({X (B ) > 1}) = 0, A(B ) A(B )0 l m o equivalentemente existe o2 (t) tal que P ({X (B ) > 1}) = o2 (A(B )) . El siguiente teorema se demuestra de manera totalmente an aloga al correspondiente para procesos de Poisson en la recta.
Teorema 12.4 Si X (B ) es un proceso que satisface AP1, AP2, AP3 y AP4 entonces la distribuci on de X (B ) es Poisson con par ametro A (B ) , es decir X (B ) P (A (B )) . Supongamos que se elija un punto cualquiera del plano (x0 , y0 ), y sea D1 la distancia de este punto (x0 , y0 ) al punto m as cercano donde ocurre un suceso (en el ejemplo, D1 ser a la distancia al arbol m as pr oximo), D2 la distancia de (x0 , y0 ) al punto donde ocurre el segundo suceso m as pr oximo, ..., Di la distancia de (x0 , y0 ) al punto donde ocurre el i- esimo suceso m as 2. pr oximo. El siguiente teorema nos da la distribuci on de D1
2 es E (). Teorema 12.5 La distribuci on de D1
12.5. Procesos de Poisson en el plano.
267
Demostraci on. Sea d > 0 y sea C el c rculo con centro en (x0 , y0 ) y radio d1/2 . Decir que D1 d1/2 es lo mismo que decir que en C ocurri o alg un suceso. Luego
2 {D1 d} = {D1 d1/2 }
= {X (C ) > 0}
= {X (C ) = 0}c .
Luego tomando probabilidades y teniendo en cuenta que A(C ) = d

2 P (D1 d) = 1 P (X (C ) = 0)
= 1 exp(A(C )) = 1 exp(d)
2 tiene distribuci y por lo tanto D1 on E (). 2
El siguiente teorema, del cual no se dar a la demostraci on, es an alogo al correspondiente teorema para Procesos de Poisson en la recta.
2 , D 2 D 2 , D 2 D 2 , ..., D 2 D 2 , ... Teorema 12.6 Las variables aleatorias D1 2 1 3 2 i i1 son i. i. d. con distribuci on E ().
Como corolario tendremos

2 tiene distribuci on (i, ). Corolario 12.2 La variable aleatoria Di

Notas de Probabilidades

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Notas de Probabilidades

Cargado por

Copyright:

Formatos disponibles

Notas de Probabilidades y Estad stica

1.2. Axiomas de probabilidad.

Entonces por ser A una - algebra se tendr a que

Propiedad 1.3 Si A es una - algebra, y A1 , ..., An , ... es una sucesi on de

Demostraci on. Esto resulta de que A = (

Propiedad 1.4 Si A es una - algebra, y A1 , ..., An son elementos de A

1.2. Axiomas de probabilidad.

Denimos para todo A P (A) =

12 Propiedades de la funci on de probabilidad. Propiedad 1.7 P () = 0.

y esto s olo se cumple en el caso de que P () = 0. 2

Propiedad 1.8 Sean A1 , ...., An eventos disjuntos. Luego P (

1.2. Axiomas de probabilidad.

Propiedad 1.12 Sean Ai A, i = 1, 2, ..., k. Entonces

Propiedad 1.13 ( -subaditividad) Sea (An )n1 A y A =

P (A) Demostraci on. Denamos B0 = , B1 = A1 ,

Luego es inmediato que los Bi son disjuntos dos a dos y

Por la aditividad y el hecho de que Bn An , resulta P (Bn ) P (An ) y entonces

Luego P (A) = l m P (An ).

1.2. Axiomas de probabilidad.

y por lo tanto usando la aditividad y la Propiedad 1.1 se tiene

Entonces P (A) = l m P (An ).

Bi . Luego por la propiedad anterior tenemos

y l mite inferior de la sucesi on al conjunto

A = { : est a en innitos conjuntos An }.

An de manera que A. Rec procamente si / A entonces se

(iii) Se obtiene del hecho de que claramente A A . 2

1.2. Axiomas de probabilidad.

Demostraci on. (i) Como lo hicimos anteriormente consideremos

Entonces la sucesi on (Bn )n1 es decreciente y A=

inf {P (Bk )} inf sup{P (Ai )}

Luego, como P (Bk ) es decreciente, se tiene P A = l m P (Bk ) = inf {P (Bk )}

inf sup{P (Ai )} = l mi P (Ai ) .

(ii) Se deja como ejercicio.

18 (iii) De (i) y (ii) tenemos que

Algebra generada por una familia de conjuntos.

Claramente R es no vac a, ya que P () R. Denamos ahora A =

1.3. Algebra generada por una familia de conjuntos.

1.4. Espacios de probabilidad nitos o numerables.

Espacios de probabilidad nitos o numerables.

Demostraci on. Si A entonces A se puede escribir como la siguiente uni on disjunta A= { },

donde cada conjunto { } A. Luego P (A) =

Propiedad 1.28 Si es nito o numerable se cumple que p ( ) = 1.

Demostraci on. En efecto por la Propiedad 1.27 1 = P () =

Denici on 1.7 Decimos que un espacio nito = {1 , .., n } es equiprobable sii p (i ) = p (j ) , i, j.

lo que es un absurdo puesto que

y luego, c= Adem as P (A) =

1.5. Probabilidad condicional.

1.6. Independencia de eventos.

P (A1 A3 ) = P (A1 ) P (A3 )

P (A2 A3 ) = P (A2 ) P (A3 )

1.6. Independencia de eventos.

P (Ai1 Ai2 ) = P (Ai1 ) P (Ai2 )

De (1.4) y (1.5) obtenemos que

y como por la hip oteisis inductiva (1.2) vale para h, se deduce

Demostraci on. Como B se puede escribir como la siguiente uni on disjunta B=

1.6. Independencia de eventos.

(b) Si A , entonces Ac . Como X 1 (A) A, se tendr a que X 1 (Ac ) = X 1 (A)

(a), (b) y (c) prueban que es una - algebra. 2

Espacio de probabilidad asociado a una variable aleatoria.

2.2. Espacio de probabilidad asociado a una variable aleatoria.

Deniremos el concepto de funci on medible

f (x) = inf {fn (x)}, f (x) = sup{fn (x)}.

Tambi en son medibles

2.3. Funci on de distribuci on de una variable aleatoria.