Está en la página 1de 33

Tema 3

Sucesiones de variables
aleatorias

Hasta ahora, hemos visto el estudio individual de una variable aleatoria y


el simultáneo de varias a través del concepto de vector aleatorio. Sin embar-
go, en muchos de los resultados interesantes de la Teorı́a de la Probabilidad
interviene una cantidad infinita de variables aleatorias. En ese caso hay dos
posibilidades: que trabajemos con sucesos que involucren la distribución de
infinitas variables a la vez (lo que nos lleva a los procesos estocásticos) o que
involucren el comportamiento asintótico de una cantidad finita pero arbitra-
riamente grande de variables (lo que nos lleva a los teoremas lı́mite).
Los procesos estocásticos se estudian en una asignatura posterior. En este
tema veremos las bases para estudiar el fenómeno más básico de una sucesión
de variables aleatorias: si converge o no. Esto se aplicará a la obtención de
teoremas lı́mite en los que se basa la capacidad predictiva de la Estadı́stica
ya que justifican que el comportamiento de una muestra grande tiende a ser
muy similar con independencia de los individuos concretos que la formen
(siempre que estos se hayan elegido al azar).
El concepto de convergencia de variables aleatorias no es inmediato. Como los
valores de las variables de la sucesión dependen del resultado de experimentos
aleatorios que no podemos predecir, se trata de una sucesión de números
que no tienen un valor concreto fijado. ¿Qué quiere decir que converge una
sucesión de la que un término lo mismo puede ser 6 que 3 o 15 cuando se
haga el experimento?
Por ello hay diversos tipos de convergencia con utilidad en distintas situa-
ciones. Vamos a ver cuatro, y de hecho hay más. Aunque partan de enfoques

1
2 TEMA 3. SUCESIONES DE VARIABLES ALEATORIAS

muy distintos, lo que todos ellos tienen en común es la siguiente propiedad


básica: si una sucesión de números reales {xn }n converge a x, entonces al con-
siderar las variables aleatorias degeneradas {xn }n también debemos obtener
que xn → x (y viceversa). Es decir, cualquier noción de convergencia de va-
riables aleatorias debe incluir como caso particular la convergencia habitual
de sucesiones en R.
Los tipos de convergencia que vamos a ver aparecen también en Análisis,
aunque bajo una terminologı́a diferente:
Probabilidad Análisis Matemático
Conv. débil Conv. débil*
Conv. en probabilidad Conv. en medida
Conv. en media cuadrática Conv. en L2
Conv. casi seguro Conv. casi siempre o en casi todo punto

3.1. Convergencia débil o en distribución


El primer tipo de convergencia que vamos a ver suele llamarse débil, en
distribución, o en ley (en terminologı́a francesa, a la distribución de una
variable se la llama su ley).

Definición 3.1. Sean Fn , F : R → [0, 1] funciones de distribución. Se dice


que {Fn }n converge débilmente a F si se cumple que

Fn (x) → F (x)

para todo x ∈ R en el que F es continua.

Como veremos en el tema siguiente y ya hemos utilizado explı́cita o implı́ci-


tamente con anterioridad, cada función de distribución caracteriza a una
distribución de probabilidad sobre R; esto es, si dos distribuciones P y Q
tienen la misma función de distribución, entonces P = Q. Por lo tanto, es-
te concepto nos sirve igualmente como definición de una convergencia de
distribuciones.

Definición 3.2. Sean Pn , P : BR → [0, 1] distribuciones de probabilidad. Se


dice que {Pn }n converge débilmente a P si las funciones de distribución FPn
convergen débilmente a FP .

Obsérvese que la función de distribución de una P es simplemente la que


3.1. CONVERGENCIA DÉBIL O EN DISTRIBUCIÓN 3

recoge las probabilidades que asigna P a los sucesos de la forma (∞, x]:

FP (x) = P ((−∞, x]).

La única diferencia es que partimos directamente de una distribución P sin


mencionar explı́citamente de qué variable procederı́a P .
Parece que un concepto natural de convergencia que a cualquiera se nos
ocurrirı́a es definir que Fn → F cuando Fn (x) → F (x) para todo x ∈ R
(convergencia puntual de las funciones Fn a F ). Sin embargo, la convergencia
puntual serı́a inadecuada por dos razones:
· Si xn → x, la función de distribución de xn puede no converger pun-
tualmente a la de x.
· El lı́mite puntual de funciones de distribución no tiene por qué ser una
función de distribución.
Vamos a verlo con ejemplos.

Ejemplo 3.3. Tomemos las funciones de distribución


{
0, x < 1/n,
Fn (x) =
1, x ≥ 1/n,

que corresponden a las variables aleatorias degeneradas en los puntos 1/n.


Podemos comprobar sin dificultad que el lı́mite puntual de esa sucesión es la
función {
0, x ≤ 0,
G(x) =
1, x > 0.
Esta función no es una función de distribución, puesto que en el punto de
discontinuidad, el 0, es continua por la izquierda en lugar de por la derecha.
Intuitivamente tenemos claro que Fn deberı́a converger a la función de dis-
tribución de la variable degenerada 0, es decir, a
{
0, x < 0,
F (x) =
1, x ≥ 0.

Esta función F sı́ es una función de distribución y coincide con el lı́mite


puntual G en todos los puntos de continuidad (−∞, 0) ∪ (0, ∞). Por lo tanto,
según la definición, Fn → F débilmente. 
4 TEMA 3. SUCESIONES DE VARIABLES ALEATORIAS

Este ejemplo nos muestra por qué la convergencia puntual no es adecuada


para funciones de distribución pero que sı́ es útil como primer paso para estu-
diar la convergencia débil: primero estudiamos la convergencia de Fn (x) para
cada x y luego vemos si podemos “arreglar” los valores lı́mite en los puntos
de discontinuidad o de inexistencia del lı́mite sabiendo que toda función de
distribución tiene que ser continua por la derecha1 .
Es un error creer que si veo que Fn (x) → G(x) para todo x ∈ R, entonces
tendré que Fn converge débilmente. La razón es sutil y consiste en que,
aunque haya convergencia puntual, aún puede ocurrir que el lı́mite puntual
G ni sea una función de distribución (como hemos visto) ni tampoco pueda
“arreglarse” para convertirla en una.

Ejemplo 3.4. Sean Fn las funciones de distribución de las variables n. En-


tonces, para todo x ∈ R tenemos que Fn (x) = 0 para todo n > x y por
tanto Fn → 0 puntualmente. Pero la función nula es continua e incumple la
propiedad de que lı́mx→∞ F (x) = 1, por lo que no podemos modificarla en
sus puntos de discontinuidad para convertirla en una función de distribución.
En consecuencia, {Fn }n converge puntualmente pero no débilmente. 

Es posible estudiar cómodamente la convergencia débil a partir de los con-


ceptos de la asignatura de Topologı́a I, dando al conjunto de las funciones de
distribución una estructura de espacio métrico. A partir de este hecho serı́a
trivial que una sucesión no puede converger débilmente a dos lı́mites distin-
tos a la vez. Esto es importante ya que no es obvio a partir de la definición
que esta no pudiera cumplirse a la vez para dos lı́mites distintos. Por ello,
vamos a ver una demostración de este hecho que no utiliza esos conceptos
topológicos.
Dada una función de distribución F , denotaremos por CF el conjunto de
sus puntos de continuidad y por DF el de sus puntos de discontinuidad.
Recordemos también que un subconjunto denso A ⊆ R es aquel que tiene
intersección no vacı́a con cualquier intervalo abierto (no vacı́o). Por ejemplo,
Q y Qc son densos.

Proposición 3.5. Sean Fn , F, G funciones de distribución. Si Fn → F débil-


mente y Fn → G débilmente, entonces F = G.

Idea de la demostración. La idea es sencilla, aunque ponerla en práctica ri-


1
No es necesario que exista el lı́mite de Fn (x) en los puntos problemáticos x, como
podemos apreciar estudiando el caso de las variables degeneradas en (−1)n /n en lugar de
1/n.
3.1. CONVERGENCIA DÉBIL O EN DISTRIBUCIÓN 5

gurosamente sea algo engorroso. Por definición, F tiene que ser igual a G
en muchos puntos (todos los de continuidad). Además sabemos que tanto F
como G son continuas por la derecha, por ser funciones de distribución. Se
trata de usar la continuidad por la derecha para ver que F también tiene que
ser igual a G en los puntos de discontinuidad, buscando una sucesión que
tienda por la derecha a ese punto y en la que F y G sean iguales.

Vamos a ver la demostración separando por claridad dos lemas.

Lema 3.6. Sea A ⊆ R. Si Ac es numerable, entonces A es denso.

Demostración. Por reducción al absurdo, supongamos que A no fuese denso.


Entonces existirı́a un intervalo (a, b) con a < b tal que A ∩ (a, b) = Ø.
Como (a, b) no corta a A, necesariamente (a, b) ⊆ Ac . Pero si Ac contiene un
intervalo no puede ser numerable, en contradicción con la hipótesis.

Lema 3.7. Sea F una función de distribución. Entonces, DF es numerable.

Demostración. Observemos que



DF = {puntos de discontinuidad de F donde el salto es mayor que 1/n}
n∈N

y cada uno de esos conjuntos es finito: al ser creciente, si F tuviera n o más


saltos de amplitud mayor que 1/n, superarı́a el valor 1, lo que sabemos que
es imposible. Por tanto, DF es numerable por ser una unión numerable de
conjuntos finitos.

Ahora ya estamos preparados para probar la Proposición 3.5.

Demostración. Por definición, para todo x ∈ CF tenemos Fn (x) → F (x)


y para todo x ∈ CG tenemos Fn (x) → G(x). Por lo tanto, sabemos que
F (x) = G(x) para todo x ∈ CF ∩ CG .
Por el Lema 3.7, DF y DG son numerables. Entonces, como

(CF ∩ CG )c = DF ∪ DG ,

el complementario de CF ∩ CG es numerable y por el Lema 3.6 sabemos que


CF ∩ CG es denso.
Sea ahora x ∈ R cualquiera. Queremos construir una sucesión xn → x+
formada por elementos de CF ∩ CG ya que tendremos F (xn ) = G(xn ).
6 TEMA 3. SUCESIONES DE VARIABLES ALEATORIAS

Para obtener x1 , como CF ∩ CG es denso sabemos que corta al intervalo


(x, x + 1) en un punto x1 . Por construcción, |x1 − x| < 1. Ahora construimos
x2 tomando un punto donde CF ∩ CG corta al intervalo (x, x + 1/2), de forma
que |x2 − x| < 1/2. Y ası́ sucesivamente, para obtener xn tomamos un punto
donde CF ∩ CG corta al intervalo (x, x + 1/n) y por tanto |xn − x| < 1/n.
Como 1/n → 0 tenemos que xn → x, y como xn > x para todo n ∈ N
tenemos que xn → x+ . Finalmente, como F (xn ) = G(xn ), por ser F y G
continuas por la derecha tenemos

F (x) = lı́m F (xn ) = lı́m G(xn ) = G(x).


n n

Al ser x ∈ R arbitrario, efectivamente F = G.

Es fácil extender la definición de convergencia débil a variables aleatorias, ya


que cada variable aleatoria tiene una función de distribución.

Definición 3.8. Sean Xn , X variables aleatorias. Se dice que Xn converge


en distribución a X si las funciones de distribución FXn de las Xn convergen
D
débilmente a la función de distribución FX de X, y se denota Xn →X.

Esto es, Xn → X en distribución si

P (Xn ≤ x) → P (X ≤ x) ∀x ∈ CFX .

Ası́, ciertas probabilidades de sucesos relativos a Xn convergen a las corres-


pondientes probabilidades de X. Esto no garantiza que las funciones Xn y X
estén cercanas como funciones definidas en Ω, solo que las probabilidades de
obtener ciertos valores (no en el espacio muestral Ω sino en R) son cercanas
independientemente de los resultados del experimento que den lugar a esos
valores.

Ejemplo 3.9. Sea X una variable N (0, 1). Definiendo Xn = X para todo
D
n ∈ N, es trivial que Xn → X en distribución. Pero también Xn = X → − X,
ya que −X es una N (0, 1) y por tanto X y −X tienen la misma distribución.

D
Por eso Xn →X se llama convergencia en distribución, porque solo depende de
la distribución y no de ninguna otra caracterı́stica de las variables. De hecho,
las Xn no tienen por qué estar definidas siquiera sobre el mismo espacio Ω
y no habrı́a problema en que hicieran referencia cada una a un experimento
aleatorio distinto.
3.1. CONVERGENCIA DÉBIL O EN DISTRIBUCIÓN 7

El resto de las nociones de convergencia que vamos a ver sı́ se basan en com-
parar cada Xn (ω) con X(ω) y por tanto sı́ requieren que todas las variables
estén definidas en el espacio muestral Ω del mismo experimento.
w w
Se suele utilizar la notación Fn → F , Pn → P para la convergencia débil (‘w’
D L
por ‘weak’ en inglés), y Xn → X o bien Xn → X para la convergencia en
distribución o ley.
D
Del hecho de que Xn → X obtenemos que ciertas probabilidades de sucesos
de Xn convergen a las de X; pero no podemos garantizar que todas las ca-
racterı́sticas relevantes de Xn converjan a las de X, por ejemplo la esperanza
o la varianza.

Ejemplo 3.10. Este ejemplo es útil para practicar. Si consideramos una


sucesión de variables B(1/n), podemos comprobar que sus funciones de dis-
tribución son 

0, x < 0,
Fn (x) = 1 − n , 0 ≤ x < 1,
1


1, x ≥ 1.
Intuitivamente pensamos que, como la probabilidad de éxito tiende a 0 y la
de fracaso a 1, esas variables deberı́an converger a una variable degenerada
0 (comprobad que efectivamente convergen en distribución a 0). Como la
esperanza es n1 y la varianza n1 (1− n1 ), es inmediato comprobar que convergen
a las de 0 (esperanza 0 y varianza 0).
Ahora multipliquemos cada variable B(1/n) por un factor n, es decir,
{
n, con probabilidad n1 ,
Xn =
0, con probabilidad 1 − n1 .

Calculando la función de distribución FXn , comprobad que se sigue cumplien-


D
do Xn → 0. Entonces, ved que E(Xn ) = 1 para todo n ∈ N, que no converge
a la de 0; y que V ar(Xn ) → ∞ a pesar de que la varianza del lı́mite es 0. 

Deberı́a ser intuitivamente claro que la convergencia en distribución Xn → X


no garantiza tampoco la convergencia de la función de probabilidad de Xn
a la de X, ya que los puntos con probabilidad mayor que cero son puntos
de discontinuidad de la función de distribución, que es justamente donde la
definición no asegura que exista convergencia. Del mismo modo, en el caso
continuo la convergencia en distribución tampoco garantiza la convergencia
puntual de las funciones de densidad de las variables a la del lı́mite.
8 TEMA 3. SUCESIONES DE VARIABLES ALEATORIAS

Ejemplo 3.11. Basta considerar la sucesión de variables degeneradas Xn =


D
1/n. Sabemos que Xn → 0 pero

P (Xn = 0) = 0 ̸→ 1 = P (0 = 0).

Lo que sı́ se cumple, y podremos utilizar cuando sea conveniente, es que la


convergencia de las funciones de probabilidad o densidad implica la conver-
gencia en distribución.

Proposición 3.12. Sean Xn , X variables aleatorias. Si se cumple alguna de


las siguientes condiciones:
(i) Son discretas y P (Xn = x) → P (X = x) para todo x ∈ R,
(ii) Son continuas y fXn (x) → fX (x) para todo x ∈ R,
D
entonces Xn → X.

No veremos la demostración porque involucra conceptos más avanzados. La


demostración del caso discreto es sencilla en casos particulares que son rele-
vantes en la práctica, como p. ej. que las variables tomen valores enteros.

Ejemplo 3.13. Como aplicación de este resultado obtenemos por ejemplo


w w
que B(n, 1/n) → P(1), o que E(λn ) → E(λ) cuando λn → λ. 

La convergencia en distribución no tiene algunas de las propiedades que intui-


tivamente podrı́amos considerar básicas para una convergencia. Por ejemplo,
D D D
si Xn → X e Yn → Y , no tiene por qué cumplirse que Xn + Yn → X + Y .
Esto, de hecho, es una caracterı́stica básica suya, como podemos ver recor-
dando que si Z es una normal N (0, 1) entonces también −Z lo es y por tanto,
tomando Xn = Z, X = Z, Yn = Z, Y = −Z obtendrı́amos
D
Z + Z → Z + (−Z) = 0,

lo que es absurdo.
Sı́ tenemos el siguiente resultado más débil y fácil de demostrar.

D
Proposición 3.14. Sean Xn , X variables aleatorias con Xn →X. Entonces,
D
Xn + c → X + c para cualquier c ∈ R.

Idea de la demostración. Los puntos de continuidad de FX+c son los mismos


que los de FX pero desplazados en c unidades.
3.1. CONVERGENCIA DÉBIL O EN DISTRIBUCIÓN 9

Demostración. Fijamos un c ∈ R arbitrario. Entonces, para cualquier x ∈ R,

FX+c (x) = P (X + c ≤ x) = P (X ≤ x − c) = FX (x − c).

Por tanto, FX+c es continua en x si y solo si FX lo es en x − c.


Fijamos un punto de continuidad x cualquiera de FX+c . Como sabemos que
FXn (x − c) → FX (x − c), basta notar que, como antes,

FXn +c (x) = P (Xn + c ≤ x) = FXn (x − c) → FX (x − c) = FX+c (x).

D
Del mismo modo se podrı́a ver que c · Xn → c · X. Si sustituimos la constante
D
c por una sucesión Yn →c, ambas propiedades siguen siendo ciertas; esto es el
Teorema de Slutski cuya demostración queda fuera de los objetivos del curso.
Una consecuencia útil del Lema de Portmanteau (otro resultado que no ve-
remos y que da varias condiciones equivalentes a la convergencia débil) es la
siguiente.

D
Proposición 3.15. Sean Xn , X variables aleatorias con Xn →X, y sea I ⊆ R
un intervalo. Si P (X = x) = 0 para todo x en la frontera de I, entonces

P (Xn ∈ I) → P (X ∈ I).

Hay que notar que este resultado no es una consecuencia inmediata de lo que
conocemos para intervalos del tipo (−∞, a]. Por ejemplo, si I = (−∞, a), de
la hipótesis P (X = a) = 0 se sigue que

P (X ∈ I) = P (X < a) = P (X ≤ a),

y por tanto a ∈ CFX . De ahı́

P (Xn ≤ a) → P (X ≤ a) = P (X < a)

pero no necesariamente se tiene P (Xn ≤ a) = P (Xn < a), por lo que P (Xn ∈
I) → P (X ∈ I) no es inmediato.

D
Corolario 3.16. Sean Xn , X variables aleatorias con Xn →X. Si X es con-
tinua, entonces, para todo intervalo I ⊆ R,

P (Xn ∈ I) → P (X ∈ I).
10 TEMA 3. SUCESIONES DE VARIABLES ALEATORIAS

Demostración. Basta notar que X continua con función de densidad f im-


plica ∫ x
P (X = x) = f (x)dx = 0
x

para todo x ∈ R.

3.2. Convergencia en probabilidad

Como hemos visto, la convergencia débil o en distribución nos permite ver


que ciertas probabilidades relativas a variables aleatorias Xn convergen a las
probabilidades correspondientes de X; pero esto no implica que los valores
de Xn estén cercanos a los de X. Por ejemplo, la convergencia de Xn a X en
distribución no implica que Xn − X converja en distribución a 0.
La convergencia en probabilidad formaliza la idea de que “Xn converge a X
si la probabilidad de que Xn esté cerca de X se va haciendo muy alta cuando
n → ∞”.

Definición 3.17. Sean Xn , X variables aleatorias definidas en el mismo es-


pacio de probabilidad (Ω, A, P ). Se dice que Xn converge en probabilidad a
X si, para todo ε > 0,

P (|Xn − X| ≤ ε) → 1,
P
y se denota Xn → X.

Recordemos que el suceso {|Xn −X| ≤ ε} significa que al hacer el experimento


los valores de Xn y X difieren como máximo en ε, y por tanto representa a
los siguientes resultados del experimento:

{ω ∈ Ω | |Xn (ω) − X(ω)| ≤ ε}.

Por ello es imprescindible que Xn y X estén definidas sobre el mismo Ω.


También hay que notar que tiene sentido escribir P (|Xn − X| ≤ ε), es decir,
que efectivamente {|Xn − X| ≤ ε} es un suceso perteneciente a la σ-álgebra
A. Para verlo, podemos considerar el vector aleatorio bidimensional (Xn , X)
y el conjunto A ⊆ R2 dado por

A = {(x, y) ∈ R2 | |x − y| ≤ ε},
3.2. CONVERGENCIA EN PROBABILIDAD 11

que es una banda de puntos cercanos a la diagonal. Entonces tenemos que

{|Xn − X| ≤ ε} = {(Xn , X) ∈ A} ∈ A

puesto que A pertenece a la σ-álgebra de Borel de R2 .


P
Es importante darse cuenta de que la convergencia Xn → X no nos garantiza
nada sobre la convergencia Xn (ω) → X(ω) para resultados del experimento
ω concretos, ya que para cada n los sucesos {|Xn − X| ≤ ε} van aumentando
en probabilidad pero pueden no ser los mismos los ω ∈ Ω que los forman
(véase el Ejemplo 3.39).
Podemos dar varias definiciones equivalentes de convergencia en probabili-
dad, y es un buen ejercicio comprobar que lo son.

Proposición 3.18. Sean Xn , X variables aleatorias definidas en el mismo


espacio de probabilidad. Las siguientes propiedades son equivalentes:
P
(a) Xn → X,
(b) Para todo ε > 0 se cumple P (|Xn − X| < ε) → 1,
(c) Para todo ε > 0 se cumple P (|Xn − X| ≥ ε) → 0,
(d) Para todo ε > 0 se cumple P (|Xn − X| > ε) → 0.

Idea de la demostración. Si |Xn − X| ≤ ε/2, entonces |Xn − X| < ε, y en-


tonces |Xn − X| ≤ ε. Por ello, P (|Xn − X| < ε) queda acotada entre dos
probabilidades que convergen a 1.

Ejemplo 3.19. Consideremos una sucesión Xn de variables con distribución


de Bernoulli B(1/n), y veamos que converge en probabilidad a 0.
Sea ε > 0. Entonces,
{
1, si ε ≥ 1
P (|Xn − 0| ≤ ε) = P (Xn ≤ ε) =
P (Xn = 0) = 1 − n1 , si 0 < ε < 1

que efectivamente tiende a 1. (En este caso, hemos comprobado todos los ε;
pero, como en la convergencia de sucesiones numéricas, bastarı́a hacerlo con
los ε > 0 que sean suficientemente pequeños.)
D
Ya vimos anteriormente que Xn →0; de hecho, veremos que ambas conver-
gencias son equivalentes cuando el lı́mite es una variable degenerada. 
12 TEMA 3. SUCESIONES DE VARIABLES ALEATORIAS

La convergencia en probabilidad tiene algunas propiedades mejores que las


de la convergencia débil, y que además son fáciles de demostrar a partir de
la definición.

Proposición 3.20. Sean Xn , X variables aleatorias definidas en el mismo


espacio de probabilidad. Entonces,
P P
(a) Xn → X si y solo si Xn − X → 0.
P P
(b) Si Xn → X, entonces c · Xn → c · X para todo c ∈ R.
P P
(c) Si Xn → X, entonces Xn + Y → X + Y para toda variable aleatoria Y
definida en el mismo espacio.

Otra propiedad deseable es la siguiente, cuya demostración es un ejercicio


interesante.

Proposición 3.21. Sean Xn , X variables aleatorias definidas en el mismo


espacio de probabilidad. Sea g : R → R una función continua. Entonces,

P P
Xn → X =⇒ g(Xn ) → g(X).

Idea de la demostración. Es crucial darse cuenta de que esto no es conse-


cuencia inmediata de la implicación xn → x =⇒ g(xn ) → g(x) (¿por qué?).
Lo que debemos hacer es fijar un ε > 0 y usar la continuidad de g para
encontrar un δ > 0 con el que aplicar a P (|Xn − X| ≤ δ) la convergencia de
Xn a X.

Recordemos que toda variable aleatoria es una función de Ω en R. El lı́mite en


P
probabilidad no es único: si Xn → X y construimos otra variable Y distinta
de X en algún punto pero con P (X ̸= Y ) = 0, es intuitivo que también
P
tendremos Xn → Y . Podemos comprobar esto con un ejemplo.

Ejemplo 3.22. Tomemos como espacio de probabilidad (Ω, A, P ) =


(R, BR , P ) siendo P una distribución N (0, 1). Sean las variables X e Y dadas
por
X(ω) = 0 ∀ω ∈ R,
{
0, ω ̸= −2
Y =
1, ω = −2.
3.2. CONVERGENCIA EN PROBABILIDAD 13

Ambas variables tienen distribución degenerada en 0, pues

P (Y = 0) = P (N (0, 1) ̸= −2) = 1.

De hecho, la única diferencia entre que una sucesión converja a X o Y está en


el punto ω = −2, que tiene probabilidad 0 de aparecer.
La sucesión Xn = X converge en probabilidad a X (trivialmente) y también
lo hace a Y , ya que

P (|Xn − Y | > ε) = P (Xn = 0, Y = 1) = P ({−2}) = 0

para cualquier ε suficientemente pequeño (0 < ε < 1). 

Se dice que un suceso ocurre casi seguro cuando tiene probabilidad 1 (aunque
no sea el suceso seguro). Por tanto, las variables X e Y del ejemplo son iguales
casi seguro. Veamos que el lı́mite en probabilidad, aunque no es único visto
como una función, sı́ es único casi seguro.

Proposición 3.23. Sean Xn , X, Y variables aleatorias definidas en el mismo


P
espacio de probabilidad, tales que Xn → X. Entonces, son equivalentes:
P
(a) Xn → Y ,
(b) X e Y son iguales casi seguro, es decir, P (X = Y ) = 1.

Idea de la demostración. Si Xn está cerca de X y de Y , entonces X e Y


tienen que ser cercanas. Esto no demuestra que X e Y sean iguales como
queremos, pero haciendo tender a 0 el ε que aparece en la idea de “estar
cerca”vemos que en efecto son iguales.

Demostración. Veamos primero la condición necesaria; es decir, tenemos que


P P
Xn → X y Xn → Y , y debemos ver que P (X = Y ) = 1. Esta es la parte
más sofisticada.
Por la desigualdad triangular, sabemos que, para cualquier n ∈ N,

|X − Y | ≤ |Xn − X| + |Xn − Y |.

Fijemos un ε > 0 cualquiera. En virtud de la desigualdad anterior, tenemos


que
ε ε
|Xn − X| ≤ , |Xn − Y | ≤ =⇒ |X − Y | ≤ ε.
2 2
14 TEMA 3. SUCESIONES DE VARIABLES ALEATORIAS

Ası́, si se cumpliera por contra que |X − Y | > ε, forzosamente tendrı́a que


violarse una las desigualdades a la izquierda de la implicación. Esto es, se
cumplirı́a que |Xn − X| > ε/2 o bien |Xn − Y | > ε/2.
Podemos escribir eso en el lenguaje de sucesos como

{|X − Y | > ε} ⊆ {|Xn − X| > ε/2} ∪ {|Xn − Y | > ε/2},

y tomando probabilidades a ambos lados tenemos

P (|X − Y | > ε) ≤ P ({|Xn − X| > ε/2} ∪ {|Xn − Y | > ε/2})

= P (|Xn − X| > ε/2) + P (|Xn − Y | > ε/2) − P (intersección)


≤ P (|Xn − X| > ε/2) + P (|Xn − Y | > ε/2).
Hasta aquı́ hemos obtenido una desigualdad,

P (|X − Y | > ε) ≤ P (|Xn − X| > ε/2) + P (|Xn − Y | > ε/2),

que relaciona la distancia entre X e Y con sus distancias mutuas a Xn . Por


P P
la hipótesis de que Xn → X y Xn → Y , el término de la derecha tiende a
0. Al ser una cota superior del término de la izquierda (que es no negativo),
este será también igual a 0:

P (|X − Y | > ε) = 0

para cualquier ε > 0.


Finalmente, calculamos la función de distribución de la variable |X − Y |:

F|X−Y | (ε) = P (|X − Y | ≤ ε) = 1;

por tanto, al ser continua por la derecha,

F|X−Y | (0) = lı́m+ F|X−Y | (ε) = 1.


ε→0

Pero
F|X−Y | (0) = P (|X − Y | ≤ 0) = P (X = Y )
con lo que hemos probado que P (X = Y ) = 1.
P
La condición suficiente es más sencilla. Si Xn → X y P (X = Y ) = 1,
P
debemos ver que Xn → Y .
3.2. CONVERGENCIA EN PROBABILIDAD 15

Para cualquier ε > 0 fijado, si |Xn − Y | > ε entonces bien |Xn − X| > ε o,
si no, forzosamente X ̸= Y . En lenguaje de sucesos,

{|Xn − Y | > ε} ⊆ {|Xn − X| > ε} ∪ {X ̸= Y }.

Como antes, de ahı́ obtenemos

P (|Xn − Y | > ε) ≤ P (|Xn − X| > ε) + P (X ̸= Y ).

Por hipótesis, P (|Xn − X| > ε) → 0 y P (X ̸= Y ) = 0, de donde

P (|Xn − Y | > ε) → 0
P
y esto prueba la convergencia Xn → Y .

Hemos visto que si una sucesión Xn converge en distribución a dos variables


aleatorias, estas son iguales en distribución (su distribución es la misma). Ve-
mos ahora que, si la convergencia es en probabilidad, se cumple la propiedad
más fuerte de ser iguales casi seguro. Esto plantea la pregunta siguiente: ¿es
en general más fuerte la convergencia en probabilidad que la convergencia en
distribución?

Teorema 3.24. Sean Xn , X variables aleatorias definidas en el mismo espa-


cio de probabilidad. Entonces,
P D
Xn → X =⇒ Xn →X.

Demostración. Vamos a partir de lo siguiente: si Y, Y ′ son variables aleato-


rias, y ∈ R, y ε > 0, entonces

{Y ≤ y} ⊆ {Y ′ ≤ y + ε} ∪ {|Y − Y ′ | > ε}.

En efecto, si Y ≤ y, entonces o bien Y ′ ≤ y + ε o bien Y ′ > y + ε, en cuyo


caso Y e Y ′ forzosamente se separan en más de ε.
De esa inclusión deducimos que

P (Y ≤ y) ≤ P ({Y ′ ≤ y + ε} ∪ {|Y − Y ′ | > ε)})

≤ P (Y ′ ≤ y + ε) + P (|Y − Y ′ | > ε).


Por lo tanto,
FY (y) ≤ FY ′ (y + ε) + P (|Y − Y ′ | > ε).
Sea ahora x ∈ CFX . Aplicamos esa desigualdad dos veces:
16 TEMA 3. SUCESIONES DE VARIABLES ALEATORIAS

1. Con Y = Xn , Y ′ = X, y = x obtenemos

FXn (x) ≤ FX (x + ε) + P (|Xn − X| > ε).

2. Con Y = X, Y ′ = Xn , y = x − ε obtenemos

FX (x − ε) ≤ FXn (x) + P (|X − Xn | > ε).

Combinando ambas desigualdades, acotamos FXn (x) de la forma siguiente:

FX (x − ε) − P (|Xn − X| > ε) ≤ FXn (x) ≤ FX (x + ε) + P (|Xn − X| > ε).

Por hipótesis, P (|Xn − X| > ε) → 0 y por tanto, haciendo tender n → ∞,

FX (x − ε) ≤ lı́m inf FXn (x) ≤ lı́m sup FXn (x) ≤ FX (x + ε).


n n

Ahora, por ser x un punto de continuidad de FX , haciendo tender ε → 0


tenemos FX (x − ε) → FX (x) y FX (x + ε) → FX (x), de donde

lı́m inf FXn (x) = lı́m sup FXn (x) = FX (x),


n n

es decir,
FXn (x) → FX (x).
w
Como esto es válido para un x ∈ CFX arbitrario, en efecto FXn → FX , y por
D
definición Xn →X.

Con lo que hemos visto, ya es imposible que la implicación recı́proca se


cumpla. En efecto, sabemos que para toda Y se tiene
P P
Xn → X =⇒ Xn + Y → X + Y,

y vimos un ejemplo de que esa implicación no es cierta para la convergencia


en distribución. Por tanto, no pueden ser conceptos equivalentes.
Sin embargo, sı́ hay una situación en que ambos tipos de convergencia son
equivalentes: cuando el lı́mite es degenerado.

Proposición 3.25. Sean Xn variables aleatorias, y c ∈ R. Entonces,


P D
Xn → c ⇐⇒ Xn →c.
3.3. CONVERGENCIA EN MEDIA CUADRÁTICA 17

Demostración. La necesidad es por el Teorema 3.24. Para ver la suficien-


cia, fijemos un ε > 0 cualquiera. Debemos ver que P (|Xn − c| ≤ ε) → 1.
Observemos que

P (|Xn − c| ≤ ε) = P (c − ε ≤ Xn ≤ c + ε).
D
Como Xn →c, por la Proposición 3.15 tenemos

P (c − ε ≤ Xn ≤ c + ε) → P (c − ε ≤ c ≤ c + ε) = 1,

puesto que [c − ε, c + ε] es un intervalo cuyos extremos tienen probabilidad


0 para c:
P (c = c − ε) = 0, P (c = c + ε) = 0.

De aquı́ se deduce que la convergencia en probabilidad tampoco es suficien-


temente fuerte para garantizar la convergencia de la esperanza y la varianza
a las del lı́mite. Esto es ası́ porque vimos en el Ejemplo 3.10 que eso no se
cumplı́a con convergencia en distribución a una variable degenerada, la cual
es equivalente a convergencia en probabilidad.

3.3. Convergencia en media cuadrática

La convergencia en media cuadrática es un caso particular de la convergencia


en media p-ésima que aparecerá en el Análisis Matemático III al estudiar
los espacios Lp (con p ≥ 1). Su importancia para nosotros radica en que
permite garantizar la convergencia de la esperanza y la varianza, lo que tiene
importantes consecuencias en el estudio de los estimadores como veremos
más adelante.

Definición 3.26. Sean Xn , X variables aleatorias definidas en el mismo es-


pacio de probabilidad. Se dice que Xn converge en media cuadrática a X
si
E[(Xn − X)2 ] → 0,
y se denota Xn →X.
m.c.

Aunque esto no es estrictamente necesario según la definición, a menudo


al hablar de convergencia en media cuadrática uno se restringe a variables
18 TEMA 3. SUCESIONES DE VARIABLES ALEATORIAS

aleatorias con varianza finita2 .

Una diferencia entre la convergencia en media cuadrática y la convergencia


en probabilidad es que esta última solo se centra en los resultados del expe-
rimento para los que Xn y X están cerca, no importando si para otros ω ∈ Ω
los valores |Xn (ω) − X(ω)| son muy grandes. En cambio, la convergencia
en media cuadrática puede fallar si Xn y X toman valores muy distintos
en un conjunto de resultados aunque este tenga probabilidad (estrictamente
positiva) muy pequeña.

Ejemplo 3.27. En el Ejemplo 3.10 vimos que una sucesión de variables


B(1/n) converge en distribución a una degenerada 0 (y por tanto también en
probabilidad); y que al multiplicarlas por n siguen convergiendo a 0 en dis-
tribución (y en probabilidad) pero sin que su esperanza y varianza converjan
a las de 0.

Tenı́amos {
n, con probabilidad 1/n,
Xn =
0, con probabilidad 1 − 1/n.

Entonces,

1 1
E[(Xn − 0)2 ] = E[Xn2 ] = n2 · + 0 · (1 − ) = n ̸→ 0,
n n
m.c.
con lo que Xn ̸ → X.

Comprobad que una sucesión B(1/n) sı́ converge a 0 en media cuadrática.

En este ejemplo se observa que el valor de Xn en el conjunto de resultados


con probabilidad 1/n es irrelevante para la convergencia en probabilidad. En
cambio, dependiendo de los valores que asignásemos a Xn en ese conjunto,
convergerı́a o no convergerı́a en media cuadrática. Esto plantea la pregunta
de si la convergencia en media cuadrática es más fuerte que la convergencia
en probabilidad.

Para verlo, necesitamos un lema previo.



Esto es ası́ porque permite definir una función norma, dada por ∥X∥ = E[X 2 ], y
2
m.c.
por tanto Xn → X si y solo si ∥Xn − X∥ → 0. Usando las propiedades de esta función que
se verán en Análisis Matemático III, muy similares a las del valor absoluto, algunas demos-
traciones son mucho más fáciles e intuitivas, y por ello parece aconsejable no demostrar
esos resultados en este curso.
3.3. CONVERGENCIA EN MEDIA CUADRÁTICA 19

Lema 3.28. (Desigualdad de Markov) Sea X una variable aleatoria no ne-


gativa, y sea a > 0. Entonces,
E[X]
P (X ≥ a) ≤ .
a
Demostración. Consideremos la variable aleatoria Y : Ω → R definida de la
forma siguiente: {
0, X(ω) < a,
Y (ω) =
a, X(ω) ≥ a
(podemos comprobar sin dificultad que Y es de hecho una variable aleatoria).
Como X ≥ 0 por hipótesis, se tiene X ≥ Y y por tanto

E(X) ≥ E(Y ) = 0 · P (X < a) + a · P (X ≥ a),

de donde inmediatamente se sigue la conclusión.

Proposición 3.29. Sean Xn , X variables aleatorias definidas en el mismo


espacio de probabilidad. Entonces,
P
Xn →X Xn → X.
m.c.
=⇒

Demostración. Para cualquier ε > 0 fijado,

E[(Xn − X)2 ]
P (|Xn − X| ≥ ε) = P ((Xn − X)2 ≥ ε2 ) ≤ →0
ε2
aplicando la desigualdad de Markov a (Xn − X)2 .

Ya conocemos, por el Ejemplo 3.27, que el recı́proco no puede ser cierto,


ya que existen sucesiones que convergen en probabilidad pero no en media
cuadrática.
Como habı́amos anticipado, la convergencia en media cuadrática garantiza
la convergencia de la esperanza y la varianza.

Proposición 3.30. Sean Xn , X variables aleatorias definidas en el mismo


espacio de probabilidad. Si Xn →X, entonces
m.c.

(a) E(Xn ) → E(X),


(b) V ar(Xn ) → V ar(X)
siempre que tales esperanzas y varianzas sean finitas.
20 TEMA 3. SUCESIONES DE VARIABLES ALEATORIAS

Demostración. Vamos a ver solo la demostración del apartado (a). Primero


observamos que

|E(Xn ) − E(X)| = máx{E(Xn ) − E(X), −E(Xn ) + E(X)}



= máx{E(Xn − X), E(X − Xn )} ≤ E(|Xn − X|) = E(|Xn − X|)2 .
Pero

E(|Xn − X|)2 = E[|Xn − X|2 ] − V ar(|Xn − X|) ≤ E[|Xn − X|2 ];

ası́, √
|E(Xn ) − E(X)| ≤ E[|Xn − X|2 ] → 0.

Se sigue que también E(Xn2 ) → E(X 2 ).


Es fácil probar un resultado cuya demostración parece “demasiado ton-
ta”pero es útil en muchas ocasiones.

Proposición 3.31. Sean Xn , X variables aleatorias definidas en el mismo


espacio de probabilidad. Si V ar(Xn ) → 0, entonces

Xn − E(Xn )→0.
m.c.

Si además E(Xn ) → c, entonces Xn →c.


m.c.

Demostración. Para ver la primera parte, basta darse cuenta de que

E[(Xn − E(Xn ) − 0)2 ] = V ar(Xn ) → 0.

Para la segunda parte, desarrollamos

(Xn − c)2 = [(Xn − E(Xn )) + (E(Xn ) − c)]2

= (Xn − E(Xn ))2 + (E(Xn ) − c)2 + 2(Xn − E(Xn ))(E(Xn ) − c).


Tomando esperanzas a ambos lados,

E[(Xn − c)2 ] = V ar(Xn ) + (E(Xn ) − c)2 + 2 · 0 · (E(Xn ) − c) → 0

ya que V ar(Xn ) → 0 y E(Xn ) → c.

Un ejemplo de la utilidad de este resultado es el siguiente.


3.4. CONVERGENCIA CASI SEGURO 21

w
Ejemplo 3.32. Nos piden demostrar que γ(n, n) → 1 cuando n → ∞. Pro-
bar esto directamente es muy laborioso: hay que obtener la función de dis-
tribución de la gamma, dada por
{ ∑ k
−nx (nx)
1 − n−1
k=0 e k!
, x>0
Fγ(n,n) (x) =
0, x ≤ 0,
y establecer la convergencia en distribución viendo que
{
1, x > 1
Fγ(n,n) (x) →
0, x < 1,
lo que no es trivial.
En cambio, viendo que la γ(n, n) tiene media n/n = 1 y varianza n/n2 → 0,
automáticamente tenemos que converge en media cuadrática a 1. Esto implica
que converge en probabilidad, y por tanto también en distribución. 

Vemos ası́ que en ocasiones es más fácil demostrar convergencias más fuertes
que atacar directamente las más débiles. Otro ejemplo similar es el siguiente.

Ejemplo 3.33. Sean Xn variables N (µ, σ) independientes, y consideremos √


X n = X1 +...+X
n
n
. Por la reproductividad, X1 + . . . + Xn es una N (nµ, nσ)
y por tanto X n es una normal con esperanza µ y varianza σ 2 /n → 0. Ası́,
X n →µ, es decir, la media de n normales independientes e idénticamente
m.c.

distribuidas converge, cuando n → ∞, a la esperanza de la normal. 

Más adelante en este tema veremos que esto es solo un caso de un fenómeno
general llamado la ley de los grandes números.

3.4. Convergencia casi seguro


Como dijimos anteriormente, se dice que un suceso ocurre casi seguro cuando
tiene probabilidad 1. Por tanto, es fácil definir un cuarto tipo de convergencia
para variables aleatorias.

Definición 3.34. Sean Xn , X variables aleatorias definidas en el mismo es-


pacio de probabilidad (Ω, A, P ). Se dice que Xn converge casi seguro a X
si
P (Xn → X) = 1,
y se denota Xn →X.
c.s.
22 TEMA 3. SUCESIONES DE VARIABLES ALEATORIAS

Hay que observar que el suceso {Xn → X} representa el conjunto de resul-


tados {ω ∈ Ω | Xn (ω) → X(ω)} y realmente es un suceso perteneciente a A
porque podemos escribirlo mediante uniones e intersecciones numerables de
la forma siguiente:
{Xn → X} = {∀k ∈ N ∃n0 ∈ N | ∀n ≥ n0 |Xn − X| < 1/k}
∩ ∪ ∩
= {|Xn − X| < 1/k} ∈ A.
k∈N n0 ∈N n≥n0

En la práctica, no es necesario analizar todos los ω ∈ Ω en los que Xn (ω) con-


verja a X(ω) (lo que en algún caso puede ser difı́cil) sino que basta encontrar
un suceso A ⊆ Ω con P (A) = 1 tal que
Xn (ω) → X(ω) ∀ω ∈ A.
Ası́, como A está contenido en {Xn → X}, este tendrá forzosamente proba-
bilidad 1.
Por tanto, el planteamiento que puede seguirse es estudiar la convergencia
de Xn (ω) para ver si existe algún conjunto de probabilidad 1 en el cual
el lı́mite exista y coincida con X(ω). En ese caso, tendremos que Xn →X
c.s.

independientemente de lo que pase en los otros ω ∈ Ω.

Ejemplo 3.35. Tomemos el espacio de probabilidad (Ω, A, P ) con Ω = R,


A = BR y P una distribución uniforme U(0, 1). En ese espacio definimos las
variables aleatorias

 −n
2 , ω ∈ (−∞, 2 − n ),
1 1

Xn (ω) = 1, ω ∈ [ 12 − n1 , 1 − n1 ],

 n
2 , en otro caso,
si n ∈ N, y 

0, ω ∈ (−∞, 2 ),
1

X(ω) = 1, ω ∈ [ 12 , 1),


2, en otro caso.
Podemos comprobar que


0, ω ∈ (−∞, 2 ),
1

Xn (ω) → 1, ω ∈ [ 21 , 1),


∞, en otro caso
y por tanto {Xn → X} = (−∞, 1), que tiene probabilidad 1 bajo la distri-
bución U(0, 1). Por consiguiente, Xn →X. 
c.s.
3.4. CONVERGENCIA CASI SEGURO 23

Ejemplo 3.36. Consideremos ahora el mismo ejemplo pero dotando a


(R, BR ) de la distribución N (0, 1). En este caso, la probabilidad de (−∞, 1)
es menor que 1, por lo que no hay convergencia casi segura. 

Para mostrar que no hay convergencia casi segura, bastará encontrar un


subconjunto de Ω con probabilidad estrictamente positiva en el que no se dé la
convergencia. Por tanto, el segundo ejemplo se puede resolver sin necesidad
de analizar la convergencia, sin más que ver que esta no se da p.ej. en (1, ∞),
que tiene probabilidad estrictamente positiva bajo la normal.
La convergencia casi seguro es más fuerte que la convergencia en probabili-
dad, y por tanto que la convergencia débil.

Teorema 3.37. Sean Xn , X variables aleatorias definidas en el mismo espa-


cio de probabilidad. Entonces,
P
Xn →X Xn → X.
c.s.
=⇒

Demostración. Sabemos que

{Xn → X} = {∀ε > 0 ∃k ∈ N | ∀n ≥ k |Xn − X| ≤ ε}.

Fijamos un ε > 0 arbitrario, y definimos los sucesos

An = {|Xn − X| ≤ ε}

y ∩
Bk = {∀n ≥ k |Xn − X| ≤ ε} = An .
n≥k
P
Para tener Xn → X, dada la arbitrariedad de ε, nos basta demostrar que
P (An ) → 1. El esquema que se sigue para ello es el siguiente:
(∗) ∪
lı́m inf P (An ) ≥ lı́m inf P (Bk ) = P ( Bk ) ≥ P (Xn → X) = 1.
n k
k∈N

De aquı́ se deduce que lı́mn P (An ) = 1 ya que P (An ) ≤ 1 para todo n ∈ N,


por lo que necesariamente el lı́mite superior existe y es también 1.
Todos los pasos excepto (*) son fáciles:
-La primera desigualdad es porque P (Ak ) ≥ P (Bk ) para cada k ∈ N.
-La segunda desigualdad es porque, con el ε > 0 que hemos fijado,

{Xn → X} ⊆ {∃k ∈ N | ∀n ≥ k |Xn − X| ≤ ε}


24 TEMA 3. SUCESIONES DE VARIABLES ALEATORIAS
∪ ∪
= {∀n ≥ k |Xn − X| ≤ ε} = Bk .
k∈N k∈N

-La última igualdad es por la definición de convergencia casi seguro.


Solo nos resta justificar el paso (*); esto puede hacerse utilizando los materia-
les complementarios ∪ de Estadı́stica Descriptiva y Probabilidad pero veamos
directamente que P ( k∈N Bk ) = lı́mk P (Bk ).

Para calcular P ( k∈N Bk ) por el tercer axioma de Kolmogorov necesitamos
sucesos incompatibles, lo que los Bk no son (de hecho, por construcción
Bk−1 ⊆ Bk para cada k ≥ 2). Por ello definimos los sucesos

C1 = B1 , C2 = B2 \B1 , ..., Ck = Bk \Bk−1 , ...

Entonces tenemos

B1 = C1 , B2 = C1 ∪ C2 , ..., Bk = C1 ∪ . . . ∪ Ck , ...

Estos nuevos sucesos sı́ son incompatibles: en efecto, tomando dos ı́ndices
j < k, tenemos que Cj ⊆ Bj ⊆ Bk−1 pero Ck = Bk \Bk−1 .
Por tanto, aplicando el tercer axioma y la definición de serie,
∪ ∪ ∪
P( Bk ) = P ( (C1 ∪ . . . ∪ Ck )) = P ( Ck )
k∈N k∈N k∈N



= P (Ck ) = lı́m[P (C1 ) + . . . + P (Ck )] = lı́m P (Bk ).
k k
k=1

Al ser más fuerte que la convergencia en probabilidad, la convergencia casi


seguro implica convergencia en distribución. Pero la convergencia casi seguro
y la convergencia en media cuadrática, aunque ambas impliquen la conver-
gencia en probabilidad, no son comparables en general.

Ejemplo 3.38. En el Ejemplo 3.35 vimos una sucesión Xn que converge casi
seguro a otra variable X; veamos que no converge en media cuadrática.
Lo primero es notar un hecho importante: en caso de existir, el lı́mite en
media cuadrática forzosamente tiene que ser igual a X casi seguro. En efecto,
si Xn →X y Xn →Y , entonces Xn converge en probabilidad tanto a X como
c.s. m.c.

a Y , y sabemos que el lı́mite en probabilidad es único casi seguro. Por lo


3.4. CONVERGENCIA CASI SEGURO 25

tanto, con ver que Xn no converge a X en media cuadrática, ya tendremos


que Xn no puede converger en media cuadrática a ninguna variable.
Con las definiciones de Xn y X tenemos que


 2−2n ω ∈ (−∞, 12 − n1 )



 ∈ ( 12 − n1 , 12 )
1, ω
(Xn − X) (ω) = 0,
2
ω ∈ [ 12 , 1 − n1 ]



 (2n − 1)2 , ω ∈ (1 − n1 , 1)


(2n − 2)2 , ω ∈ [1, ∞).

Ası́,
( )
−2n 1 1 1 1
E[(Xn − X) ] = 2
2
· − + + (2n − 1)2 · → ∞,
2 n n n

por lo que Xn ̸ →X. 


m.c.

Ejemplo 3.39. Un ejemplo de convergencia en media cuadrática en el que


P (Xn → X) = 0 (en particular, no hay convergencia casi segura) es el
siguiente. Consideramos en el espacio de probabilidad (R, BR , P ) la probabi-
lidad dada por la distribución U(0, 1).
Definimos X1 como la función indicador I[0,1] . Ahora definimos X2 y X3
dividiendo [0, 1] en dos intervalos disjuntos de igual longitud y multiplicando
el indicador de cada intervalo por 2. Definimos los cuatro términos siguientes
X4 , . . . , X7 dividiendo [0, 1] en cuatro intervalos disjuntos de igual longitud y
multiplicando el indicador de cada uno por 3. Para definir los ocho términos
siguientes, dividimos [0, 1] en ocho y multiplicamos cada indicador por 4, y
ası́ sucesivamente.
Veamos que Xn →0, para lo que debemos comprobar que E[Xn2 ] = E[(Xn −
m.c.

0)2 ] → 0. Cada Xn ha sido definida en cierto paso k de la construcción


anterior (de los que hemos hecho explı́citamente los pasos k = 1, 2, 3, 4). Por
la definición de la esperanza,
1 k2
E[Xn2 ] = 02 · P (Xn = 0) + k 2 · P (Xn = k) = k 2 · = ,
2k−1 2k−1
que tiende a 0 cuando n, y por tanto k, tiende a ∞.
Por otro lado, para cualquier ω ∈ [0, 1] y cada paso k de la construcción,
ω pertenece a uno de los intervalos utilizados en ese paso (porque recubren
[0, 1]). Ası́, existe un ı́ndice nk para el que Xnk (ω) = k. Esta subsucesión
26 TEMA 3. SUCESIONES DE VARIABLES ALEATORIAS

tiende a ∞, por lo que Xn (ω) no puede converger a un número real. Como


esto es válido para un ω ∈ [0, 1] arbitrario,

P (Xn no converge) ≥ P ([0, 1]) = 1.

Como la convergencia en media cuadrática implica convergencia en probabi-


lidad, también es un ejemplo de sucesión que converge en probabilidad pero
no casi seguro.

3.5. Introducción a los teoremas lı́mite


El objetivo de los teoremas lı́mite es describir el comportamiento de la suma
(o la media) de un gran número de variables aleatorias3 .
Intuitivamente, supongamos que los valores de una variable aleatoria X se
separan más o menos x unidades respecto a un valor central. Si observamos
muchas veces el valor de X, generaremos una sucesión X1 , . . . , Xn , . . . de
variables aleatorias igualmente distribuidas que X. Si no sabemos nada sobre
ellas, lo que cabrı́a esperar es que la suma X1 + . . . + Xn se pueda separar
más o menos nx unidades de la suma de los valores centrales. Eso ocurre
p. ej. en el caso extremo de que todas las Xn sean iguales.
Sin embargo, no siempre es ası́, especialmente si se da la independencia de
las variables. Por ejemplo, si sumamos n normales N (µ, σ) independientes,

por la reproductividad tenemos que X1 + . . . + Xn es una N (nµ, σ n). Es
decir, tenemos una medida (la desviación tı́pica) según la cual los valores
de cada sumando tienen una dispersión de σ; pero la dispersión de la suma
no√es proporcional al número de sumandos (σn) sino que crece más despacio
(σ n). Por lo tanto, cuanto mayor sea n, menor será la dispersión de la suma
en comparación con número de variables implicadas.
En esta explicación intuitiva ya aparecen dos elementos importantes: en torno
a qué valor aproximado podrı́a estar la suma X1 + . . . + Xn y qué ritmo de
crecimiento podrı́a tener la separación entre el valor verdadero y la aproxima-
ción, que es lo que vamos a llamar la sucesión centralizadora (o centralizante)
y la sucesión normalizadora (o normalizante).
3
Por alguna razón, los teoremas lı́mite no suelen llevar el nombre de su descubridor
sino nombres exóticos como la ley de los grandes números, el teorema del lı́mite central,
la ley del logaritmo iterado, el principio de las grandes desviaciones, etc.
3.6. LEYES DE LOS GRANDES NÚMEROS 27

Dada un sucesión {Xn }n de variables aleatorias, escribiremos

Sn = X1 + . . . + Xn

y
X1 + . . . + Xn Sn
Xn = = .
n n
Los teoremas lı́mite que vamos a ver estudian la convergencia de cocientes
del tipo
Sn − a n
,
bn
con 0 ≤ bn → ∞, donde la sucesión {an }n se llama centralizadora, y la
{bn }n normalizadora. La idea es que an son valores que no son aleatorios y
la diferencia Sn − an es pequeña o similar comparada con bn .
Ası́, tenemos los siguientes tipos de teoremas:
Sn −an
Comportamiento de bn
... Nombre del teorema
P
... → 0 Ley débil de los grandes números
. . . →0
c.s.
Ley fuerte de los grandes números
D
. . . →F Teorema del lı́mite central
Si no se indica explı́citamente lo contrario, en las leyes de los grandes números
se suele entender
√ que bn es del orden de n, y en los teoremas del lı́mite central
del orden de n. En el primer caso, podemos reescribir el resultado como
X n − ann → 0 y por tanto establece que, bajo ciertas condiciones, la media
de muchas variables aleatorias tiende a comportarse de manera no aleatoria.

3.6. Leyes de los grandes números


La primera ley de los grandes números aparece en un libro póstumo de Ja-
kob Bernoulli publicado en 1713. Bernoulli hizo múltiples aportaciones a la
matemática y la fı́sica pero consideraba este resultado su “teorema de oro”(y
ası́ lo llama en el libro) ya que tardó veinte años en encontrar una demostra-
ción rigurosa. Aunque se conocı́a empı́ricamente el fenómeno desde el siglo
XVI, no habı́a sido considerado susceptible de demostración matemática sino
más bien una manifestación del “orden divino del universo”.
La terminologı́a de leyes “débiles” y “fuertes”de los grandes números se debe
a que la convergencia en probabilidad que proporcionan las primeras es más
débil que la convergencia casi seguro que aparece en las segundas.
28 TEMA 3. SUCESIONES DE VARIABLES ALEATORIAS

Antes de presentar una ley débil de los grandes números, recordemos que
la varianza de una suma de variables incorreladas es igual a la suma de sus
varianzas (al ser V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X, Y )).

Teorema 3.40. (Ley Débil de los Grandes Números) Sean Xn variables alea-
torias incorreladas con esperanzas E(Xn ) = µn ∈ R y varianzas V ar(Xn ) =
σn2 ∈ R. Si se cumple la condición
∑n
σi2
i=1
→ 0,
n2
entonces
1∑
n
P
Xn − µi → 0.
n i=1

Es decir, se cumple
∑nla Ley Débil de los Grandes Números con sucesión cen-
tralizadora an = i=1 µi y sucesión normalizadora bn = n.

Idea de la demostración. Aplicar la Proposición 3.31 a la sucesión X n .

Demostración. Calculemos la esperanza y la varianza de X n :

1∑ 1∑ 1∑
n n n
E(X n ) = E( Xi ) = E(Xi ) = µi ,
n i=1 n i=1 n i=1

∑n
1∑ 1 ∑
n n
σ2
V ar(X n ) = V ar( Xi ) = 2 V ar(Xi ) = i=12 i .
n i=1 n i=1 n

Por la Proposición 3.31, si V ar(X n ) → 0 entonces X n − E(X n ) → 0 en


media cuadrática, y por tanto también en probabilidad.
∑n
σi2 ∑ P
Ası́, si i=1
n2
→ 0 se cumplirá que X n − n1 ni=1 µi → 0.

Un caso particular importante de teoremas lı́mite es siempre su aplicación a


sucesiones idénticamente distribuidas.

Corolario 3.41. Sean Xn variables aleatorias incorreladas con esperanza


µ ∈ R y varianza σ 2 ∈ R. Entonces,
P
X n → µ.
3.6. LEYES DE LOS GRANDES NÚMEROS 29

Demostración. Se tiene que


∑n
σi2 nσ 2
i=1
= 2 →0
n2 n
y ∑n
i=1 µi nµ
= =µ
n n
Por el Teorema 3.40,
P
X n − µ → 0,
o equivalentemente
P
X n → µ.

El “teorema de oro”de Bernoulli se obtiene sin más que aplicar este corolario
a una sucesión de variables de Bernoulli independientes. Por tanto, aunque
a él le costó veinte años –y probablemente era más listo que nosotros– vemos
que con lenguaje y conceptos modernos se puede llegar por consecuencias
fáciles del hecho trivial (Proposición 3.31) de que

V ar(Xn ) → 0 =⇒ Xn − E(Xn ) →0.


m.c.

Corolario 3.42. (Teorema de Bernoulli, 1713) Consideremos una sucesión


de repeticiones independientes de un experimento aleatorio, y un suceso A
asociado a ese experimento. Entonces,

no veces que ocurre A en las n primeras repeticiones P


→ P (A).
n

Ese cociente se llamará en temas posteriores proporción muestral y se deno-


tará p̂n .
Vamos ahora a dar una ley fuerte, aunque no podemos demostrarla con nues-
tros conocimientos actuales4 .

Teorema 3.43. (Ley Fuerte de los Grandes Números) Sean Xn variables


aleatorias independientes con esperanzas E(Xn ) = µn ∈ R y varianzas
4
Podéis encontrar una demostración en la Wikipedia, en cuyo caso veréis que es larga
y utiliza resultados de Probabilidad que no hemos visto (como el lema de Borel–Cantelli
o la desigualdad de Chebychev) ası́ como otros propios de Análisis Matemático III (como
el teorema de la convergencia dominada).
30 TEMA 3. SUCESIONES DE VARIABLES ALEATORIAS

V ar(Xn ) = σn2 ∈ R. Si se cumple la condición



σ2 n
< ∞,
n=1
n2

entonces
1 ∑ c.s.
n
Xn − µi →0.
n i=1
Es decir, se cumple∑la Ley Fuerte de los Grandes Números con sucesión
centralizadora an = ni=1 µi y sucesión normalizadora bn = n.

Para el caso de variables i.i.d., tenemos la siguiente consecuencia fácil de


probar.

Corolario 3.44. Sean Xn variables aleatorias independientes con esperanza


µ ∈ R y varianza σ 2 ∈ R. Entonces,

X n →µ.
c.s.

Corolario 3.45. Consideremos una sucesión de repeticiones independientes


de un experimento aleatorio, y un suceso A asociado a ese experimento.
Entonces,

no veces que ocurre A en las n primeras repeticiones c.s.


→P (A).
n

Por la relación entre convergencia en probabilidad y casi seguro, el teorema


de Bernoulli es más débil que este resultado, el cual justifica la interpretación
frecuentista de la probabilidad como lı́mite de la frecuencia relativa del suceso
A en una sucesión de repeticiones del experimento. Por lo tanto, está en la
base de la fiabilidad de los métodos estadı́sticos inferenciales que se verán en
temas posteriores.

3.7. Teorema del Lı́mite Central


Este resultado, también conocido como Teorema Central del Lı́mite (o co-
mo Teorema Fundamental de la Estadı́stica por aquellos que quieren uno a
imitación de los del Álgebra, el Cálculo o la Aritmética), es de una impor-
tancia capital para la estadı́stica moderna ya que en él se basa la extensión
3.7. TEOREMA DEL LÍMITE CENTRAL 31

de métodos válidos para la distribución normal a situaciones mucho más


generales.

√ distribución N (µ, σ),σ por la reproductividad te-


Si Xn son variables i.i.d. con
nemos que Sn es N (nµ, σ n) y que X n es N (µ, √n ). Tipificando, obtenemos
que
Sn − nµ Xn − µ
√ ∼ N (0, 1), √ ∼ N (0, 1).
σ n σ/ n
El Teorema del Lı́mite Central nos dice que podemos reemplazar la distribu-
ción normal por cualquier otra con varianza finita y aun ası́, al aumentar n,
las sumas y medias tienden al comportamiento de la normal.

Teorema 3.46. (Teorema del Lı́mite Central) Sean Xn variables aleatorias


independientes e idénticamente distribuidas con esperanza µ ∈ R y varianza
σ 2 ∈ (0, ∞). Entonces,
Sn − nµ D
√ →N (0, 1)
σ n
o, equivalentemente,
Xn − µ D
√ →N (0, 1).
σ/ n
Es decir, se cumple el teorema central √
del lı́mite con sucesión centralizadora
an = nµ, sucesión normalizadora bn = n y lı́mite N (0, 1).

Una demostración clásica (supuesto que existe la función generatriz de mo-


mentos) prueba la convergencia de las funciones generatrices de momentos
a la de la normal, lo que a su vez implica la convergencia en distribución.
Hay otras más modernas que son casi inmediatas, como la basada en la exis-
tencia de una métrica homogénea apropiada. En ambos casos se requieren
conceptos y resultados que no forman parte del contenido del curso, por lo
que no daremos ninguna demostración a pesar de la gran importancia de este
resultado.
El T.L.C. nos permite simplificar muchı́simo el cálculo de probabilidades
de sumas y medias aproximándolas por las de una normal. Tengamos en
cuenta que, nuestras herramientas para obtener la distribución exacta de
una suma de p. ej. n = 200 variables serı́an la reproductividad, el teorema
del cambio de variable y el cálculo directo de la función de distribución. Si la
reproductividad no es aplicable, las otras dos involucran calcular integrales
en recintos de Rn = R200 . En cambio, la complejidad de la aproximación es
la misma para cualquier n, y su exactitud aumenta: cuanto más grande sea
n, mejor.
32 TEMA 3. SUCESIONES DE VARIABLES ALEATORIAS

En virtud de la convergencia en distribución, tenemos p. ej.


( )
Sn − nµ
P √ ≤ a → Φ(a)
σ n
para todo a ∈ R, de donde obtenemos, sin más que tipificar, la aproximación
( )
x − nµ
P (Sn ≤ x) ≃ Φ √ .
σ n
Habitualmente, se dice que es válido utilizar esa aproximación cuando n ≥ 30,
aunque esto es meramente orientativo.
Recordemos también que, en virtud del Corolario 3.16, se cumple en general
que para cualquier intervalo I
( )
Sn − nµ
P √ ∈ I → P (N (0, 1) ∈ I),
σ n
e igualmente ( )
Xn − µ
P √ ∈ I → P (N (0, 1) ∈ I).
σ/ n
Como aplicación de este resultado podemos obtener la que históricamente
fue la primera formulación del teorema.

Corolario 3.47. (Teorema de De Moivre, 1738) Sea p ∈ (0, 1), y sean Xn


variables aleatorias B(n, p). Entonces,
X − np D
√ n →N (0, 1).
np(1 − p)

Idea de la demostración. Expresar la binomial como suma de n variables


B(p) independientes, y aplicar el Teorema 3.46.

Demostración. Consideremos variables Yn independientes con distribución


B(p). Denotando Sn = Y1 + . . . + Yn , por la reproductividad tenemos que
cada Sn es B(n, p). Como en este caso µ = p y σ 2 = p(1 − p), el Teorema
3.46 nos da
S − np D
√ n →N (0, 1).
np(1 − p)
Como Xn tiene la misma distribución que Sn y la convergencia en distribución
solo depende de la distribución de las variables, también
X − np D
√ n →N (0, 1).
np(1 − p)
3.7. TEOREMA DEL LÍMITE CENTRAL 33

Como antes, el uso práctico de este resultado está en que, para n grande,
tendremos para cualquier intervalo I ⊆ R que

P (B(n, p) ∈ I) ≃ P (N (np, np(1 − p)) ∈ I).

Orientativamente, podemos dar como condiciones para usar esta aproxima-


ción las siguientes: n ≥ 30, p ∈ [0′ 1, 0′ 9], np ≥ 5.

Ejemplo 3.48. Si tiramos un dado perfecto 1200 veces, esperamos que salga
el 6 en torno a 200 veces. ¿Cuál es la probabilidad de que salga más de 225
veces? Dado que el número de caras es una B(1200, 1/6), la respuesta es
1200 (
∑ ) ( )i ( )1000−i
1200 1 5
P (X > 225) = .
i=226
i 6 6

Como tenemos np = 200, np(1 − p) = 12′ 91, esa probabilidad es aproxi-
madamente igual a
225 − 200
P (N (200, 12′ 91) > 225) = P (Z > )
12′ 91
= P (Z > 1′ 94) = 1 − Φ(1′ 94) = 0′ 02619.

También podría gustarte