Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Sucesiones de variables
aleatorias
1
2 TEMA 3. SUCESIONES DE VARIABLES ALEATORIAS
Fn (x) → F (x)
recoge las probabilidades que asigna P a los sucesos de la forma (∞, x]:
gurosamente sea algo engorroso. Por definición, F tiene que ser igual a G
en muchos puntos (todos los de continuidad). Además sabemos que tanto F
como G son continuas por la derecha, por ser funciones de distribución. Se
trata de usar la continuidad por la derecha para ver que F también tiene que
ser igual a G en los puntos de discontinuidad, buscando una sucesión que
tienda por la derecha a ese punto y en la que F y G sean iguales.
(CF ∩ CG )c = DF ∪ DG ,
P (Xn ≤ x) → P (X ≤ x) ∀x ∈ CFX .
Ejemplo 3.9. Sea X una variable N (0, 1). Definiendo Xn = X para todo
D
n ∈ N, es trivial que Xn → X en distribución. Pero también Xn = X → − X,
ya que −X es una N (0, 1) y por tanto X y −X tienen la misma distribución.
D
Por eso Xn →X se llama convergencia en distribución, porque solo depende de
la distribución y no de ninguna otra caracterı́stica de las variables. De hecho,
las Xn no tienen por qué estar definidas siquiera sobre el mismo espacio Ω
y no habrı́a problema en que hicieran referencia cada una a un experimento
aleatorio distinto.
3.1. CONVERGENCIA DÉBIL O EN DISTRIBUCIÓN 7
El resto de las nociones de convergencia que vamos a ver sı́ se basan en com-
parar cada Xn (ω) con X(ω) y por tanto sı́ requieren que todas las variables
estén definidas en el espacio muestral Ω del mismo experimento.
w w
Se suele utilizar la notación Fn → F , Pn → P para la convergencia débil (‘w’
D L
por ‘weak’ en inglés), y Xn → X o bien Xn → X para la convergencia en
distribución o ley.
D
Del hecho de que Xn → X obtenemos que ciertas probabilidades de sucesos
de Xn convergen a las de X; pero no podemos garantizar que todas las ca-
racterı́sticas relevantes de Xn converjan a las de X, por ejemplo la esperanza
o la varianza.
P (Xn = 0) = 0 ̸→ 1 = P (0 = 0).
lo que es absurdo.
Sı́ tenemos el siguiente resultado más débil y fácil de demostrar.
D
Proposición 3.14. Sean Xn , X variables aleatorias con Xn →X. Entonces,
D
Xn + c → X + c para cualquier c ∈ R.
D
Del mismo modo se podrı́a ver que c · Xn → c · X. Si sustituimos la constante
D
c por una sucesión Yn →c, ambas propiedades siguen siendo ciertas; esto es el
Teorema de Slutski cuya demostración queda fuera de los objetivos del curso.
Una consecuencia útil del Lema de Portmanteau (otro resultado que no ve-
remos y que da varias condiciones equivalentes a la convergencia débil) es la
siguiente.
D
Proposición 3.15. Sean Xn , X variables aleatorias con Xn →X, y sea I ⊆ R
un intervalo. Si P (X = x) = 0 para todo x en la frontera de I, entonces
P (Xn ∈ I) → P (X ∈ I).
Hay que notar que este resultado no es una consecuencia inmediata de lo que
conocemos para intervalos del tipo (−∞, a]. Por ejemplo, si I = (−∞, a), de
la hipótesis P (X = a) = 0 se sigue que
P (X ∈ I) = P (X < a) = P (X ≤ a),
P (Xn ≤ a) → P (X ≤ a) = P (X < a)
pero no necesariamente se tiene P (Xn ≤ a) = P (Xn < a), por lo que P (Xn ∈
I) → P (X ∈ I) no es inmediato.
D
Corolario 3.16. Sean Xn , X variables aleatorias con Xn →X. Si X es con-
tinua, entonces, para todo intervalo I ⊆ R,
P (Xn ∈ I) → P (X ∈ I).
10 TEMA 3. SUCESIONES DE VARIABLES ALEATORIAS
para todo x ∈ R.
P (|Xn − X| ≤ ε) → 1,
P
y se denota Xn → X.
A = {(x, y) ∈ R2 | |x − y| ≤ ε},
3.2. CONVERGENCIA EN PROBABILIDAD 11
{|Xn − X| ≤ ε} = {(Xn , X) ∈ A} ∈ A
que efectivamente tiende a 1. (En este caso, hemos comprobado todos los ε;
pero, como en la convergencia de sucesiones numéricas, bastarı́a hacerlo con
los ε > 0 que sean suficientemente pequeños.)
D
Ya vimos anteriormente que Xn →0; de hecho, veremos que ambas conver-
gencias son equivalentes cuando el lı́mite es una variable degenerada.
12 TEMA 3. SUCESIONES DE VARIABLES ALEATORIAS
P P
Xn → X =⇒ g(Xn ) → g(X).
P (Y = 0) = P (N (0, 1) ̸= −2) = 1.
Se dice que un suceso ocurre casi seguro cuando tiene probabilidad 1 (aunque
no sea el suceso seguro). Por tanto, las variables X e Y del ejemplo son iguales
casi seguro. Veamos que el lı́mite en probabilidad, aunque no es único visto
como una función, sı́ es único casi seguro.
|X − Y | ≤ |Xn − X| + |Xn − Y |.
P (|X − Y | > ε) = 0
Pero
F|X−Y | (0) = P (|X − Y | ≤ 0) = P (X = Y )
con lo que hemos probado que P (X = Y ) = 1.
P
La condición suficiente es más sencilla. Si Xn → X y P (X = Y ) = 1,
P
debemos ver que Xn → Y .
3.2. CONVERGENCIA EN PROBABILIDAD 15
Para cualquier ε > 0 fijado, si |Xn − Y | > ε entonces bien |Xn − X| > ε o,
si no, forzosamente X ̸= Y . En lenguaje de sucesos,
P (|Xn − Y | > ε) → 0
P
y esto prueba la convergencia Xn → Y .
1. Con Y = Xn , Y ′ = X, y = x obtenemos
2. Con Y = X, Y ′ = Xn , y = x − ε obtenemos
es decir,
FXn (x) → FX (x).
w
Como esto es válido para un x ∈ CFX arbitrario, en efecto FXn → FX , y por
D
definición Xn →X.
P (|Xn − c| ≤ ε) = P (c − ε ≤ Xn ≤ c + ε).
D
Como Xn →c, por la Proposición 3.15 tenemos
P (c − ε ≤ Xn ≤ c + ε) → P (c − ε ≤ c ≤ c + ε) = 1,
Tenı́amos {
n, con probabilidad 1/n,
Xn =
0, con probabilidad 1 − 1/n.
Entonces,
1 1
E[(Xn − 0)2 ] = E[Xn2 ] = n2 · + 0 · (1 − ) = n ̸→ 0,
n n
m.c.
con lo que Xn ̸ → X.
E[(Xn − X)2 ]
P (|Xn − X| ≥ ε) = P ((Xn − X)2 ≥ ε2 ) ≤ →0
ε2
aplicando la desigualdad de Markov a (Xn − X)2 .
ası́, √
|E(Xn ) − E(X)| ≤ E[|Xn − X|2 ] → 0.
Xn − E(Xn )→0.
m.c.
w
Ejemplo 3.32. Nos piden demostrar que γ(n, n) → 1 cuando n → ∞. Pro-
bar esto directamente es muy laborioso: hay que obtener la función de dis-
tribución de la gamma, dada por
{ ∑ k
−nx (nx)
1 − n−1
k=0 e k!
, x>0
Fγ(n,n) (x) =
0, x ≤ 0,
y establecer la convergencia en distribución viendo que
{
1, x > 1
Fγ(n,n) (x) →
0, x < 1,
lo que no es trivial.
En cambio, viendo que la γ(n, n) tiene media n/n = 1 y varianza n/n2 → 0,
automáticamente tenemos que converge en media cuadrática a 1. Esto implica
que converge en probabilidad, y por tanto también en distribución.
Vemos ası́ que en ocasiones es más fácil demostrar convergencias más fuertes
que atacar directamente las más débiles. Otro ejemplo similar es el siguiente.
Más adelante en este tema veremos que esto es solo un caso de un fenómeno
general llamado la ley de los grandes números.
Xn (ω) = 1, ω ∈ [ 12 − n1 , 1 − n1 ],
n
2 , en otro caso,
si n ∈ N, y
0, ω ∈ (−∞, 2 ),
1
X(ω) = 1, ω ∈ [ 12 , 1),
2, en otro caso.
Podemos comprobar que
0, ω ∈ (−∞, 2 ),
1
Xn (ω) → 1, ω ∈ [ 21 , 1),
∞, en otro caso
y por tanto {Xn → X} = (−∞, 1), que tiene probabilidad 1 bajo la distri-
bución U(0, 1). Por consiguiente, Xn →X.
c.s.
3.4. CONVERGENCIA CASI SEGURO 23
An = {|Xn − X| ≤ ε}
y ∩
Bk = {∀n ≥ k |Xn − X| ≤ ε} = An .
n≥k
P
Para tener Xn → X, dada la arbitrariedad de ε, nos basta demostrar que
P (An ) → 1. El esquema que se sigue para ello es el siguiente:
(∗) ∪
lı́m inf P (An ) ≥ lı́m inf P (Bk ) = P ( Bk ) ≥ P (Xn → X) = 1.
n k
k∈N
Entonces tenemos
B1 = C1 , B2 = C1 ∪ C2 , ..., Bk = C1 ∪ . . . ∪ Ck , ...
Estos nuevos sucesos sı́ son incompatibles: en efecto, tomando dos ı́ndices
j < k, tenemos que Cj ⊆ Bj ⊆ Bk−1 pero Ck = Bk \Bk−1 .
Por tanto, aplicando el tercer axioma y la definición de serie,
∪ ∪ ∪
P( Bk ) = P ( (C1 ∪ . . . ∪ Ck )) = P ( Ck )
k∈N k∈N k∈N
∑
∞
= P (Ck ) = lı́m[P (C1 ) + . . . + P (Ck )] = lı́m P (Bk ).
k k
k=1
Ejemplo 3.38. En el Ejemplo 3.35 vimos una sucesión Xn que converge casi
seguro a otra variable X; veamos que no converge en media cuadrática.
Lo primero es notar un hecho importante: en caso de existir, el lı́mite en
media cuadrática forzosamente tiene que ser igual a X casi seguro. En efecto,
si Xn →X y Xn →Y , entonces Xn converge en probabilidad tanto a X como
c.s. m.c.
Ası́,
( )
−2n 1 1 1 1
E[(Xn − X) ] = 2
2
· − + + (2n − 1)2 · → ∞,
2 n n n
Sn = X1 + . . . + Xn
y
X1 + . . . + Xn Sn
Xn = = .
n n
Los teoremas lı́mite que vamos a ver estudian la convergencia de cocientes
del tipo
Sn − a n
,
bn
con 0 ≤ bn → ∞, donde la sucesión {an }n se llama centralizadora, y la
{bn }n normalizadora. La idea es que an son valores que no son aleatorios y
la diferencia Sn − an es pequeña o similar comparada con bn .
Ası́, tenemos los siguientes tipos de teoremas:
Sn −an
Comportamiento de bn
... Nombre del teorema
P
... → 0 Ley débil de los grandes números
. . . →0
c.s.
Ley fuerte de los grandes números
D
. . . →F Teorema del lı́mite central
Si no se indica explı́citamente lo contrario, en las leyes de los grandes números
se suele entender
√ que bn es del orden de n, y en los teoremas del lı́mite central
del orden de n. En el primer caso, podemos reescribir el resultado como
X n − ann → 0 y por tanto establece que, bajo ciertas condiciones, la media
de muchas variables aleatorias tiende a comportarse de manera no aleatoria.
Antes de presentar una ley débil de los grandes números, recordemos que
la varianza de una suma de variables incorreladas es igual a la suma de sus
varianzas (al ser V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X, Y )).
Teorema 3.40. (Ley Débil de los Grandes Números) Sean Xn variables alea-
torias incorreladas con esperanzas E(Xn ) = µn ∈ R y varianzas V ar(Xn ) =
σn2 ∈ R. Si se cumple la condición
∑n
σi2
i=1
→ 0,
n2
entonces
1∑
n
P
Xn − µi → 0.
n i=1
Es decir, se cumple
∑nla Ley Débil de los Grandes Números con sucesión cen-
tralizadora an = i=1 µi y sucesión normalizadora bn = n.
1∑ 1∑ 1∑
n n n
E(X n ) = E( Xi ) = E(Xi ) = µi ,
n i=1 n i=1 n i=1
∑n
1∑ 1 ∑
n n
σ2
V ar(X n ) = V ar( Xi ) = 2 V ar(Xi ) = i=12 i .
n i=1 n i=1 n
El “teorema de oro”de Bernoulli se obtiene sin más que aplicar este corolario
a una sucesión de variables de Bernoulli independientes. Por tanto, aunque
a él le costó veinte años –y probablemente era más listo que nosotros– vemos
que con lenguaje y conceptos modernos se puede llegar por consecuencias
fáciles del hecho trivial (Proposición 3.31) de que
∑
∞
σ2 n
< ∞,
n=1
n2
entonces
1 ∑ c.s.
n
Xn − µi →0.
n i=1
Es decir, se cumple∑la Ley Fuerte de los Grandes Números con sucesión
centralizadora an = ni=1 µi y sucesión normalizadora bn = n.
X n →µ.
c.s.
Como antes, el uso práctico de este resultado está en que, para n grande,
tendremos para cualquier intervalo I ⊆ R que
√
P (B(n, p) ∈ I) ≃ P (N (np, np(1 − p)) ∈ I).
Ejemplo 3.48. Si tiramos un dado perfecto 1200 veces, esperamos que salga
el 6 en torno a 200 veces. ¿Cuál es la probabilidad de que salga más de 225
veces? Dado que el número de caras es una B(1200, 1/6), la respuesta es
1200 (
∑ ) ( )i ( )1000−i
1200 1 5
P (X > 225) = .
i=226
i 6 6
√
Como tenemos np = 200, np(1 − p) = 12′ 91, esa probabilidad es aproxi-
madamente igual a
225 − 200
P (N (200, 12′ 91) > 225) = P (Z > )
12′ 91
= P (Z > 1′ 94) = 1 − Φ(1′ 94) = 0′ 02619.