2016 - Teoría Tema 3

Tema 3
Sucesiones de variables
aleatorias
Hasta ahora, hemos visto el estudio individual de una variable aleatoria y

el simultáneo de varias a través del concepto de vector aleatorio. Sin embar-
go, en muchos de los resultados interesantes de la Teorı́a de la Probabilidad
interviene una cantidad infinita de variables aleatorias. En ese caso hay dos
posibilidades: que trabajemos con sucesos que involucren la distribución de
infinitas variables a la vez (lo que nos lleva a los procesos estocásticos) o que
involucren el comportamiento asintótico de una cantidad finita pero arbitra-
riamente grande de variables (lo que nos lleva a los teoremas lı́mite).
Los procesos estocásticos se estudian en una asignatura posterior. En este
tema veremos las bases para estudiar el fenómeno más básico de una sucesión
de variables aleatorias: si converge o no. Esto se aplicará a la obtención de
teoremas lı́mite en los que se basa la capacidad predictiva de la Estadı́stica
ya que justifican que el comportamiento de una muestra grande tiende a ser
muy similar con independencia de los individuos concretos que la formen
(siempre que estos se hayan elegido al azar).
El concepto de convergencia de variables aleatorias no es inmediato. Como los
valores de las variables de la sucesión dependen del resultado de experimentos
aleatorios que no podemos predecir, se trata de una sucesión de números
que no tienen un valor concreto fijado. ¿Qué quiere decir que converge una
sucesión de la que un término lo mismo puede ser 6 que 3 o 15 cuando se
haga el experimento?
Por ello hay diversos tipos de convergencia con utilidad en distintas situa-
ciones. Vamos a ver cuatro, y de hecho hay más. Aunque partan de enfoques
1
2 TEMA 3. SUCESIONES DE VARIABLES ALEATORIAS
muy distintos, lo que todos ellos tienen en común es la siguiente propiedad

básica: si una sucesión de números reales {xn }n converge a x, entonces al con-
siderar las variables aleatorias degeneradas {xn }n también debemos obtener
que xn → x (y viceversa). Es decir, cualquier noción de convergencia de va-
riables aleatorias debe incluir como caso particular la convergencia habitual
de sucesiones en R.
Los tipos de convergencia que vamos a ver aparecen también en Análisis,
aunque bajo una terminologı́a diferente:
Probabilidad Análisis Matemático
Conv. débil Conv. débil*
Conv. en probabilidad Conv. en medida
Conv. en media cuadrática Conv. en L2
Conv. casi seguro Conv. casi siempre o en casi todo punto
3.1. Convergencia débil o en distribución

El primer tipo de convergencia que vamos a ver suele llamarse débil, en
distribución, o en ley (en terminologı́a francesa, a la distribución de una
variable se la llama su ley).
Definición 3.1. Sean Fn , F : R → [0, 1] funciones de distribución. Se dice

que {Fn }n converge débilmente a F si se cumple que
Fn (x) → F (x)
para todo x ∈ R en el que F es continua.
Como veremos en el tema siguiente y ya hemos utilizado explı́cita o implı́ci-

tamente con anterioridad, cada función de distribución caracteriza a una
distribución de probabilidad sobre R; esto es, si dos distribuciones P y Q
tienen la misma función de distribución, entonces P = Q. Por lo tanto, es-
te concepto nos sirve igualmente como definición de una convergencia de
distribuciones.
Definición 3.2. Sean Pn , P : BR → [0, 1] distribuciones de probabilidad. Se

dice que {Pn }n converge débilmente a P si las funciones de distribución FPn
convergen débilmente a FP .
Obsérvese que la función de distribución de una P es simplemente la que

3.1. CONVERGENCIA DÉBIL O EN DISTRIBUCIÓN 3
recoge las probabilidades que asigna P a los sucesos de la forma (∞, x]:
FP (x) = P ((−∞, x]).
La única diferencia es que partimos directamente de una distribución P sin

mencionar explı́citamente de qué variable procederı́a P .
Parece que un concepto natural de convergencia que a cualquiera se nos
ocurrirı́a es definir que Fn → F cuando Fn (x) → F (x) para todo x ∈ R
(convergencia puntual de las funciones Fn a F ). Sin embargo, la convergencia
puntual serı́a inadecuada por dos razones:
· Si xn → x, la función de distribución de xn puede no converger pun-
tualmente a la de x.
· El lı́mite puntual de funciones de distribución no tiene por qué ser una
función de distribución.
Vamos a verlo con ejemplos.
Ejemplo 3.3. Tomemos las funciones de distribución

{
0, x < 1/n,
Fn (x) =
1, x ≥ 1/n,
que corresponden a las variables aleatorias degeneradas en los puntos 1/n.

Podemos comprobar sin dificultad que el lı́mite puntual de esa sucesión es la
función {
0, x ≤ 0,
G(x) =
1, x > 0.
Esta función no es una función de distribución, puesto que en el punto de
discontinuidad, el 0, es continua por la izquierda en lugar de por la derecha.
Intuitivamente tenemos claro que Fn deberı́a converger a la función de dis-
tribución de la variable degenerada 0, es decir, a
{
0, x < 0,
F (x) =
1, x ≥ 0.
Esta función F sı́ es una función de distribución y coincide con el lı́mite

puntual G en todos los puntos de continuidad (−∞, 0) ∪ (0, ∞). Por lo tanto,
según la definición, Fn → F débilmente.
Este ejemplo nos muestra por qué la convergencia puntual no es adecuada

para funciones de distribución pero que sı́ es útil como primer paso para estu-
diar la convergencia débil: primero estudiamos la convergencia de Fn (x) para
cada x y luego vemos si podemos “arreglar” los valores lı́mite en los puntos
de discontinuidad o de inexistencia del lı́mite sabiendo que toda función de
distribución tiene que ser continua por la derecha1 .
Es un error creer que si veo que Fn (x) → G(x) para todo x ∈ R, entonces
tendré que Fn converge débilmente. La razón es sutil y consiste en que,
aunque haya convergencia puntual, aún puede ocurrir que el lı́mite puntual
G ni sea una función de distribución (como hemos visto) ni tampoco pueda
“arreglarse” para convertirla en una.
Ejemplo 3.4. Sean Fn las funciones de distribución de las variables n. En-

tonces, para todo x ∈ R tenemos que Fn (x) = 0 para todo n > x y por
tanto Fn → 0 puntualmente. Pero la función nula es continua e incumple la
propiedad de que lı́mx→∞ F (x) = 1, por lo que no podemos modificarla en
sus puntos de discontinuidad para convertirla en una función de distribución.
En consecuencia, {Fn }n converge puntualmente pero no débilmente.
Es posible estudiar cómodamente la convergencia débil a partir de los con-

ceptos de la asignatura de Topologı́a I, dando al conjunto de las funciones de
distribución una estructura de espacio métrico. A partir de este hecho serı́a
trivial que una sucesión no puede converger débilmente a dos lı́mites distin-
tos a la vez. Esto es importante ya que no es obvio a partir de la definición
que esta no pudiera cumplirse a la vez para dos lı́mites distintos. Por ello,
vamos a ver una demostración de este hecho que no utiliza esos conceptos
topológicos.
Dada una función de distribución F , denotaremos por CF el conjunto de
sus puntos de continuidad y por DF el de sus puntos de discontinuidad.
Recordemos también que un subconjunto denso A ⊆ R es aquel que tiene
intersección no vacı́a con cualquier intervalo abierto (no vacı́o). Por ejemplo,
Q y Qc son densos.
Proposición 3.5. Sean Fn , F, G funciones de distribución. Si Fn → F débil-

mente y Fn → G débilmente, entonces F = G.
Idea de la demostración. La idea es sencilla, aunque ponerla en práctica ri-

1
No es necesario que exista el lı́mite de Fn (x) en los puntos problemáticos x, como
podemos apreciar estudiando el caso de las variables degeneradas en (−1)n /n en lugar de
1/n.
gurosamente sea algo engorroso. Por definición, F tiene que ser igual a G
en muchos puntos (todos los de continuidad). Además sabemos que tanto F
como G son continuas por la derecha, por ser funciones de distribución. Se
trata de usar la continuidad por la derecha para ver que F también tiene que
ser igual a G en los puntos de discontinuidad, buscando una sucesión que
tienda por la derecha a ese punto y en la que F y G sean iguales.
Vamos a ver la demostración separando por claridad dos lemas.
Lema 3.6. Sea A ⊆ R. Si Ac es numerable, entonces A es denso.
Demostración. Por reducción al absurdo, supongamos que A no fuese denso.

Entonces existirı́a un intervalo (a, b) con a < b tal que A ∩ (a, b) = Ø.
Como (a, b) no corta a A, necesariamente (a, b) ⊆ Ac . Pero si Ac contiene un
intervalo no puede ser numerable, en contradicción con la hipótesis.
Lema 3.7. Sea F una función de distribución. Entonces, DF es numerable.
Demostración. Observemos que

∪
DF = {puntos de discontinuidad de F donde el salto es mayor que 1/n}
n∈N
y cada uno de esos conjuntos es finito: al ser creciente, si F tuviera n o más

saltos de amplitud mayor que 1/n, superarı́a el valor 1, lo que sabemos que
es imposible. Por tanto, DF es numerable por ser una unión numerable de
conjuntos finitos.
Ahora ya estamos preparados para probar la Proposición 3.5.
Demostración. Por definición, para todo x ∈ CF tenemos Fn (x) → F (x)

y para todo x ∈ CG tenemos Fn (x) → G(x). Por lo tanto, sabemos que
F (x) = G(x) para todo x ∈ CF ∩ CG .
Por el Lema 3.7, DF y DG son numerables. Entonces, como
(CF ∩ CG )c = DF ∪ DG ,
el complementario de CF ∩ CG es numerable y por el Lema 3.6 sabemos que

CF ∩ CG es denso.
Sea ahora x ∈ R cualquiera. Queremos construir una sucesión xn → x+
formada por elementos de CF ∩ CG ya que tendremos F (xn ) = G(xn ).
Para obtener x1 , como CF ∩ CG es denso sabemos que corta al intervalo

(x, x + 1) en un punto x1 . Por construcción, |x1 − x| < 1. Ahora construimos
x2 tomando un punto donde CF ∩ CG corta al intervalo (x, x + 1/2), de forma
que |x2 − x| < 1/2. Y ası́ sucesivamente, para obtener xn tomamos un punto
donde CF ∩ CG corta al intervalo (x, x + 1/n) y por tanto |xn − x| < 1/n.
Como 1/n → 0 tenemos que xn → x, y como xn > x para todo n ∈ N
tenemos que xn → x+ . Finalmente, como F (xn ) = G(xn ), por ser F y G
continuas por la derecha tenemos
F (x) = lı́m F (xn ) = lı́m G(xn ) = G(x).

n n
Al ser x ∈ R arbitrario, efectivamente F = G.
Es fácil extender la definición de convergencia débil a variables aleatorias, ya

que cada variable aleatoria tiene una función de distribución.
Definición 3.8. Sean Xn , X variables aleatorias. Se dice que Xn converge

en distribución a X si las funciones de distribución FXn de las Xn convergen
D
débilmente a la función de distribución FX de X, y se denota Xn →X.
Esto es, Xn → X en distribución si
P (Xn ≤ x) → P (X ≤ x) ∀x ∈ CFX .
Ası́, ciertas probabilidades de sucesos relativos a Xn convergen a las corres-

pondientes probabilidades de X. Esto no garantiza que las funciones Xn y X
estén cercanas como funciones definidas en Ω, solo que las probabilidades de
obtener ciertos valores (no en el espacio muestral Ω sino en R) son cercanas
independientemente de los resultados del experimento que den lugar a esos
valores.
Ejemplo 3.9. Sea X una variable N (0, 1). Definiendo Xn = X para todo
D
n ∈ N, es trivial que Xn → X en distribución. Pero también Xn = X → − X,
ya que −X es una N (0, 1) y por tanto X y −X tienen la misma distribución.

D
Por eso Xn →X se llama convergencia en distribución, porque solo depende de
la distribución y no de ninguna otra caracterı́stica de las variables. De hecho,
las Xn no tienen por qué estar definidas siquiera sobre el mismo espacio Ω
y no habrı́a problema en que hicieran referencia cada una a un experimento
aleatorio distinto.
El resto de las nociones de convergencia que vamos a ver sı́ se basan en com-
parar cada Xn (ω) con X(ω) y por tanto sı́ requieren que todas las variables
estén definidas en el espacio muestral Ω del mismo experimento.
w w
Se suele utilizar la notación Fn → F , Pn → P para la convergencia débil (‘w’
D L
por ‘weak’ en inglés), y Xn → X o bien Xn → X para la convergencia en
distribución o ley.
D
Del hecho de que Xn → X obtenemos que ciertas probabilidades de sucesos
de Xn convergen a las de X; pero no podemos garantizar que todas las ca-
racterı́sticas relevantes de Xn converjan a las de X, por ejemplo la esperanza
o la varianza.
Ejemplo 3.10. Este ejemplo es útil para practicar. Si consideramos una

sucesión de variables B(1/n), podemos comprobar que sus funciones de dis-
tribución son 

0, x < 0,
Fn (x) = 1 − n , 0 ≤ x < 1,
1


1, x ≥ 1.
Intuitivamente pensamos que, como la probabilidad de éxito tiende a 0 y la
de fracaso a 1, esas variables deberı́an converger a una variable degenerada
0 (comprobad que efectivamente convergen en distribución a 0). Como la
esperanza es n1 y la varianza n1 (1− n1 ), es inmediato comprobar que convergen
a las de 0 (esperanza 0 y varianza 0).
Ahora multipliquemos cada variable B(1/n) por un factor n, es decir,
{
n, con probabilidad n1 ,
Xn =
0, con probabilidad 1 − n1 .
Calculando la función de distribución FXn , comprobad que se sigue cumplien-

D
do Xn → 0. Entonces, ved que E(Xn ) = 1 para todo n ∈ N, que no converge
a la de 0; y que V ar(Xn ) → ∞ a pesar de que la varianza del lı́mite es 0.
Deberı́a ser intuitivamente claro que la convergencia en distribución Xn → X

no garantiza tampoco la convergencia de la función de probabilidad de Xn
a la de X, ya que los puntos con probabilidad mayor que cero son puntos
de discontinuidad de la función de distribución, que es justamente donde la
definición no asegura que exista convergencia. Del mismo modo, en el caso
continuo la convergencia en distribución tampoco garantiza la convergencia
puntual de las funciones de densidad de las variables a la del lı́mite.
Ejemplo 3.11. Basta considerar la sucesión de variables degeneradas Xn =

D
1/n. Sabemos que Xn → 0 pero
P (Xn = 0) = 0 ̸→ 1 = P (0 = 0).
Lo que sı́ se cumple, y podremos utilizar cuando sea conveniente, es que la

convergencia de las funciones de probabilidad o densidad implica la conver-
gencia en distribución.
Proposición 3.12. Sean Xn , X variables aleatorias. Si se cumple alguna de

las siguientes condiciones:
(i) Son discretas y P (Xn = x) → P (X = x) para todo x ∈ R,
(ii) Son continuas y fXn (x) → fX (x) para todo x ∈ R,
D
entonces Xn → X.
No veremos la demostración porque involucra conceptos más avanzados. La

demostración del caso discreto es sencilla en casos particulares que son rele-
vantes en la práctica, como p. ej. que las variables tomen valores enteros.
Ejemplo 3.13. Como aplicación de este resultado obtenemos por ejemplo

w w
que B(n, 1/n) → P(1), o que E(λn ) → E(λ) cuando λn → λ.
La convergencia en distribución no tiene algunas de las propiedades que intui-

tivamente podrı́amos considerar básicas para una convergencia. Por ejemplo,
D D D
si Xn → X e Yn → Y , no tiene por qué cumplirse que Xn + Yn → X + Y .
Esto, de hecho, es una caracterı́stica básica suya, como podemos ver recor-
dando que si Z es una normal N (0, 1) entonces también −Z lo es y por tanto,
tomando Xn = Z, X = Z, Yn = Z, Y = −Z obtendrı́amos
D
Z + Z → Z + (−Z) = 0,
lo que es absurdo.
Sı́ tenemos el siguiente resultado más débil y fácil de demostrar.
D
Proposición 3.14. Sean Xn , X variables aleatorias con Xn →X. Entonces,
D
Xn + c → X + c para cualquier c ∈ R.
Idea de la demostración. Los puntos de continuidad de FX+c son los mismos

que los de FX pero desplazados en c unidades.
Demostración. Fijamos un c ∈ R arbitrario. Entonces, para cualquier x ∈ R,
FX+c (x) = P (X + c ≤ x) = P (X ≤ x − c) = FX (x − c).
Por tanto, FX+c es continua en x si y solo si FX lo es en x − c.

Fijamos un punto de continuidad x cualquiera de FX+c . Como sabemos que
FXn (x − c) → FX (x − c), basta notar que, como antes,
FXn +c (x) = P (Xn + c ≤ x) = FXn (x − c) → FX (x − c) = FX+c (x).
D
Del mismo modo se podrı́a ver que c · Xn → c · X. Si sustituimos la constante
D
c por una sucesión Yn →c, ambas propiedades siguen siendo ciertas; esto es el
Teorema de Slutski cuya demostración queda fuera de los objetivos del curso.
Una consecuencia útil del Lema de Portmanteau (otro resultado que no ve-
remos y que da varias condiciones equivalentes a la convergencia débil) es la
siguiente.
D
Proposición 3.15. Sean Xn , X variables aleatorias con Xn →X, y sea I ⊆ R
un intervalo. Si P (X = x) = 0 para todo x en la frontera de I, entonces
P (Xn ∈ I) → P (X ∈ I).
Hay que notar que este resultado no es una consecuencia inmediata de lo que
conocemos para intervalos del tipo (−∞, a]. Por ejemplo, si I = (−∞, a), de
la hipótesis P (X = a) = 0 se sigue que
P (X ∈ I) = P (X < a) = P (X ≤ a),
y por tanto a ∈ CFX . De ahı́
P (Xn ≤ a) → P (X ≤ a) = P (X < a)
pero no necesariamente se tiene P (Xn ≤ a) = P (Xn < a), por lo que P (Xn ∈
I) → P (X ∈ I) no es inmediato.
D
Corolario 3.16. Sean Xn , X variables aleatorias con Xn →X. Si X es con-
tinua, entonces, para todo intervalo I ⊆ R,
P (Xn ∈ I) → P (X ∈ I).
Demostración. Basta notar que X continua con función de densidad f im-

plica ∫ x
P (X = x) = f (x)dx = 0
x
para todo x ∈ R.
3.2. Convergencia en probabilidad
Como hemos visto, la convergencia débil o en distribución nos permite ver

que ciertas probabilidades relativas a variables aleatorias Xn convergen a las
probabilidades correspondientes de X; pero esto no implica que los valores
de Xn estén cercanos a los de X. Por ejemplo, la convergencia de Xn a X en
distribución no implica que Xn − X converja en distribución a 0.
La convergencia en probabilidad formaliza la idea de que “Xn converge a X
si la probabilidad de que Xn esté cerca de X se va haciendo muy alta cuando
n → ∞”.
Definición 3.17. Sean Xn , X variables aleatorias definidas en el mismo es-

pacio de probabilidad (Ω, A, P ). Se dice que Xn converge en probabilidad a
X si, para todo ε > 0,
P (|Xn − X| ≤ ε) → 1,
P
y se denota Xn → X.
Recordemos que el suceso {|Xn −X| ≤ ε} significa que al hacer el experimento

los valores de Xn y X difieren como máximo en ε, y por tanto representa a
los siguientes resultados del experimento:
{ω ∈ Ω | |Xn (ω) − X(ω)| ≤ ε}.
Por ello es imprescindible que Xn y X estén definidas sobre el mismo Ω.

También hay que notar que tiene sentido escribir P (|Xn − X| ≤ ε), es decir,
que efectivamente {|Xn − X| ≤ ε} es un suceso perteneciente a la σ-álgebra
A. Para verlo, podemos considerar el vector aleatorio bidimensional (Xn , X)
y el conjunto A ⊆ R2 dado por
A = {(x, y) ∈ R2 | |x − y| ≤ ε},
3.2. CONVERGENCIA EN PROBABILIDAD 11
que es una banda de puntos cercanos a la diagonal. Entonces tenemos que
{|Xn − X| ≤ ε} = {(Xn , X) ∈ A} ∈ A
puesto que A pertenece a la σ-álgebra de Borel de R2 .

P
Es importante darse cuenta de que la convergencia Xn → X no nos garantiza
nada sobre la convergencia Xn (ω) → X(ω) para resultados del experimento
ω concretos, ya que para cada n los sucesos {|Xn − X| ≤ ε} van aumentando
en probabilidad pero pueden no ser los mismos los ω ∈ Ω que los forman
(véase el Ejemplo 3.39).
Podemos dar varias definiciones equivalentes de convergencia en probabili-
dad, y es un buen ejercicio comprobar que lo son.
Proposición 3.18. Sean Xn , X variables aleatorias definidas en el mismo

espacio de probabilidad. Las siguientes propiedades son equivalentes:
P
(a) Xn → X,
(b) Para todo ε > 0 se cumple P (|Xn − X| < ε) → 1,
(c) Para todo ε > 0 se cumple P (|Xn − X| ≥ ε) → 0,
(d) Para todo ε > 0 se cumple P (|Xn − X| > ε) → 0.
Idea de la demostración. Si |Xn − X| ≤ ε/2, entonces |Xn − X| < ε, y en-

tonces |Xn − X| ≤ ε. Por ello, P (|Xn − X| < ε) queda acotada entre dos
probabilidades que convergen a 1.
Ejemplo 3.19. Consideremos una sucesión Xn de variables con distribución

de Bernoulli B(1/n), y veamos que converge en probabilidad a 0.
Sea ε > 0. Entonces,
{
1, si ε ≥ 1
P (|Xn − 0| ≤ ε) = P (Xn ≤ ε) =
P (Xn = 0) = 1 − n1 , si 0 < ε < 1
que efectivamente tiende a 1. (En este caso, hemos comprobado todos los ε;
pero, como en la convergencia de sucesiones numéricas, bastarı́a hacerlo con
los ε > 0 que sean suficientemente pequeños.)
D
Ya vimos anteriormente que Xn →0; de hecho, veremos que ambas conver-
gencias son equivalentes cuando el lı́mite es una variable degenerada.
La convergencia en probabilidad tiene algunas propiedades mejores que las

de la convergencia débil, y que además son fáciles de demostrar a partir de
la definición.

espacio de probabilidad. Entonces,
P P
(a) Xn → X si y solo si Xn − X → 0.
P P
(b) Si Xn → X, entonces c · Xn → c · X para todo c ∈ R.
P P
(c) Si Xn → X, entonces Xn + Y → X + Y para toda variable aleatoria Y
definida en el mismo espacio.
Otra propiedad deseable es la siguiente, cuya demostración es un ejercicio

interesante.

espacio de probabilidad. Sea g : R → R una función continua. Entonces,
P P
Xn → X =⇒ g(Xn ) → g(X).
Idea de la demostración. Es crucial darse cuenta de que esto no es conse-

cuencia inmediata de la implicación xn → x =⇒ g(xn ) → g(x) (¿por qué?).
Lo que debemos hacer es fijar un ε > 0 y usar la continuidad de g para
encontrar un δ > 0 con el que aplicar a P (|Xn − X| ≤ δ) la convergencia de
Xn a X.
Recordemos que toda variable aleatoria es una función de Ω en R. El lı́mite en

P
probabilidad no es único: si Xn → X y construimos otra variable Y distinta
de X en algún punto pero con P (X ̸= Y ) = 0, es intuitivo que también
P
tendremos Xn → Y . Podemos comprobar esto con un ejemplo.
Ejemplo 3.22. Tomemos como espacio de probabilidad (Ω, A, P ) =

(R, BR , P ) siendo P una distribución N (0, 1). Sean las variables X e Y dadas
por
X(ω) = 0 ∀ω ∈ R,
{
0, ω ̸= −2
Y =
1, ω = −2.
Ambas variables tienen distribución degenerada en 0, pues
P (Y = 0) = P (N (0, 1) ̸= −2) = 1.
De hecho, la única diferencia entre que una sucesión converja a X o Y está en

el punto ω = −2, que tiene probabilidad 0 de aparecer.
La sucesión Xn = X converge en probabilidad a X (trivialmente) y también
lo hace a Y , ya que
P (|Xn − Y | > ε) = P (Xn = 0, Y = 1) = P ({−2}) = 0
para cualquier ε suficientemente pequeño (0 < ε < 1).
Se dice que un suceso ocurre casi seguro cuando tiene probabilidad 1 (aunque
no sea el suceso seguro). Por tanto, las variables X e Y del ejemplo son iguales
casi seguro. Veamos que el lı́mite en probabilidad, aunque no es único visto
como una función, sı́ es único casi seguro.
Proposición 3.23. Sean Xn , X, Y variables aleatorias definidas en el mismo

P
espacio de probabilidad, tales que Xn → X. Entonces, son equivalentes:
P
(a) Xn → Y ,
(b) X e Y son iguales casi seguro, es decir, P (X = Y ) = 1.
Idea de la demostración. Si Xn está cerca de X y de Y , entonces X e Y

tienen que ser cercanas. Esto no demuestra que X e Y sean iguales como
queremos, pero haciendo tender a 0 el ε que aparece en la idea de “estar
cerca”vemos que en efecto son iguales.
Demostración. Veamos primero la condición necesaria; es decir, tenemos que

P P
Xn → X y Xn → Y , y debemos ver que P (X = Y ) = 1. Esta es la parte
más sofisticada.
Por la desigualdad triangular, sabemos que, para cualquier n ∈ N,
|X − Y | ≤ |Xn − X| + |Xn − Y |.
Fijemos un ε > 0 cualquiera. En virtud de la desigualdad anterior, tenemos

que
ε ε
|Xn − X| ≤ , |Xn − Y | ≤ =⇒ |X − Y | ≤ ε.
2 2
Ası́, si se cumpliera por contra que |X − Y | > ε, forzosamente tendrı́a que

violarse una las desigualdades a la izquierda de la implicación. Esto es, se
cumplirı́a que |Xn − X| > ε/2 o bien |Xn − Y | > ε/2.
Podemos escribir eso en el lenguaje de sucesos como
{|X − Y | > ε} ⊆ {|Xn − X| > ε/2} ∪ {|Xn − Y | > ε/2},
y tomando probabilidades a ambos lados tenemos
P (|X − Y | > ε) ≤ P ({|Xn − X| > ε/2} ∪ {|Xn − Y | > ε/2})
= P (|Xn − X| > ε/2) + P (|Xn − Y | > ε/2) − P (intersección)

≤ P (|Xn − X| > ε/2) + P (|Xn − Y | > ε/2).
Hasta aquı́ hemos obtenido una desigualdad,
P (|X − Y | > ε) ≤ P (|Xn − X| > ε/2) + P (|Xn − Y | > ε/2),
que relaciona la distancia entre X e Y con sus distancias mutuas a Xn . Por

P P
la hipótesis de que Xn → X y Xn → Y , el término de la derecha tiende a
0. Al ser una cota superior del término de la izquierda (que es no negativo),
este será también igual a 0:
P (|X − Y | > ε) = 0
para cualquier ε > 0.

Finalmente, calculamos la función de distribución de la variable |X − Y |:
F|X−Y | (ε) = P (|X − Y | ≤ ε) = 1;
por tanto, al ser continua por la derecha,
F|X−Y | (0) = lı́m+ F|X−Y | (ε) = 1.

ε→0
Pero
F|X−Y | (0) = P (|X − Y | ≤ 0) = P (X = Y )
con lo que hemos probado que P (X = Y ) = 1.
P
La condición suficiente es más sencilla. Si Xn → X y P (X = Y ) = 1,
P
debemos ver que Xn → Y .
Para cualquier ε > 0 fijado, si |Xn − Y | > ε entonces bien |Xn − X| > ε o,
si no, forzosamente X ̸= Y . En lenguaje de sucesos,
{|Xn − Y | > ε} ⊆ {|Xn − X| > ε} ∪ {X ̸= Y }.
Como antes, de ahı́ obtenemos
P (|Xn − Y | > ε) ≤ P (|Xn − X| > ε) + P (X ̸= Y ).
Por hipótesis, P (|Xn − X| > ε) → 0 y P (X ̸= Y ) = 0, de donde
P (|Xn − Y | > ε) → 0
P
y esto prueba la convergencia Xn → Y .
Hemos visto que si una sucesión Xn converge en distribución a dos variables

aleatorias, estas son iguales en distribución (su distribución es la misma). Ve-
mos ahora que, si la convergencia es en probabilidad, se cumple la propiedad
más fuerte de ser iguales casi seguro. Esto plantea la pregunta siguiente: ¿es
en general más fuerte la convergencia en probabilidad que la convergencia en
distribución?
Teorema 3.24. Sean Xn , X variables aleatorias definidas en el mismo espa-

cio de probabilidad. Entonces,
P D
Xn → X =⇒ Xn →X.
Demostración. Vamos a partir de lo siguiente: si Y, Y ′ son variables aleato-

rias, y ∈ R, y ε > 0, entonces
{Y ≤ y} ⊆ {Y ′ ≤ y + ε} ∪ {|Y − Y ′ | > ε}.
En efecto, si Y ≤ y, entonces o bien Y ′ ≤ y + ε o bien Y ′ > y + ε, en cuyo

caso Y e Y ′ forzosamente se separan en más de ε.
De esa inclusión deducimos que
P (Y ≤ y) ≤ P ({Y ′ ≤ y + ε} ∪ {|Y − Y ′ | > ε)})
≤ P (Y ′ ≤ y + ε) + P (|Y − Y ′ | > ε).

Por lo tanto,
FY (y) ≤ FY ′ (y + ε) + P (|Y − Y ′ | > ε).
Sea ahora x ∈ CFX . Aplicamos esa desigualdad dos veces:
1. Con Y = Xn , Y ′ = X, y = x obtenemos
FXn (x) ≤ FX (x + ε) + P (|Xn − X| > ε).
2. Con Y = X, Y ′ = Xn , y = x − ε obtenemos
FX (x − ε) ≤ FXn (x) + P (|X − Xn | > ε).
Combinando ambas desigualdades, acotamos FXn (x) de la forma siguiente:
FX (x − ε) − P (|Xn − X| > ε) ≤ FXn (x) ≤ FX (x + ε) + P (|Xn − X| > ε).
Por hipótesis, P (|Xn − X| > ε) → 0 y por tanto, haciendo tender n → ∞,
FX (x − ε) ≤ lı́m inf FXn (x) ≤ lı́m sup FXn (x) ≤ FX (x + ε).

n n
Ahora, por ser x un punto de continuidad de FX , haciendo tender ε → 0

tenemos FX (x − ε) → FX (x) y FX (x + ε) → FX (x), de donde
lı́m inf FXn (x) = lı́m sup FXn (x) = FX (x),

n n
es decir,
FXn (x) → FX (x).
w
Como esto es válido para un x ∈ CFX arbitrario, en efecto FXn → FX , y por
D
definición Xn →X.
Con lo que hemos visto, ya es imposible que la implicación recı́proca se

cumpla. En efecto, sabemos que para toda Y se tiene
P P
Xn → X =⇒ Xn + Y → X + Y,
y vimos un ejemplo de que esa implicación no es cierta para la convergencia

en distribución. Por tanto, no pueden ser conceptos equivalentes.
Sin embargo, sı́ hay una situación en que ambos tipos de convergencia son
equivalentes: cuando el lı́mite es degenerado.
Proposición 3.25. Sean Xn variables aleatorias, y c ∈ R. Entonces,

P D
Xn → c ⇐⇒ Xn →c.
3.3. CONVERGENCIA EN MEDIA CUADRÁTICA 17
Demostración. La necesidad es por el Teorema 3.24. Para ver la suficien-

cia, fijemos un ε > 0 cualquiera. Debemos ver que P (|Xn − c| ≤ ε) → 1.
Observemos que
P (|Xn − c| ≤ ε) = P (c − ε ≤ Xn ≤ c + ε).
D
Como Xn →c, por la Proposición 3.15 tenemos
P (c − ε ≤ Xn ≤ c + ε) → P (c − ε ≤ c ≤ c + ε) = 1,
puesto que [c − ε, c + ε] es un intervalo cuyos extremos tienen probabilidad

0 para c:
P (c = c − ε) = 0, P (c = c + ε) = 0.
De aquı́ se deduce que la convergencia en probabilidad tampoco es suficien-

temente fuerte para garantizar la convergencia de la esperanza y la varianza
a las del lı́mite. Esto es ası́ porque vimos en el Ejemplo 3.10 que eso no se
cumplı́a con convergencia en distribución a una variable degenerada, la cual
es equivalente a convergencia en probabilidad.
3.3. Convergencia en media cuadrática
La convergencia en media cuadrática es un caso particular de la convergencia

en media p-ésima que aparecerá en el Análisis Matemático III al estudiar
los espacios Lp (con p ≥ 1). Su importancia para nosotros radica en que
permite garantizar la convergencia de la esperanza y la varianza, lo que tiene
importantes consecuencias en el estudio de los estimadores como veremos
más adelante.

pacio de probabilidad. Se dice que Xn converge en media cuadrática a X
si
E[(Xn − X)2 ] → 0,
y se denota Xn →X.
m.c.
Aunque esto no es estrictamente necesario según la definición, a menudo

al hablar de convergencia en media cuadrática uno se restringe a variables
aleatorias con varianza finita2 .
Una diferencia entre la convergencia en media cuadrática y la convergencia

en probabilidad es que esta última solo se centra en los resultados del expe-
rimento para los que Xn y X están cerca, no importando si para otros ω ∈ Ω
los valores |Xn (ω) − X(ω)| son muy grandes. En cambio, la convergencia
en media cuadrática puede fallar si Xn y X toman valores muy distintos
en un conjunto de resultados aunque este tenga probabilidad (estrictamente
positiva) muy pequeña.
Ejemplo 3.27. En el Ejemplo 3.10 vimos que una sucesión de variables

B(1/n) converge en distribución a una degenerada 0 (y por tanto también en
probabilidad); y que al multiplicarlas por n siguen convergiendo a 0 en dis-
tribución (y en probabilidad) pero sin que su esperanza y varianza converjan
a las de 0.
Tenı́amos {
n, con probabilidad 1/n,
Xn =
0, con probabilidad 1 − 1/n.
Entonces,
1 1
E[(Xn − 0)2 ] = E[Xn2 ] = n2 · + 0 · (1 − ) = n ̸→ 0,
n n
m.c.
con lo que Xn ̸ → X.
Comprobad que una sucesión B(1/n) sı́ converge a 0 en media cuadrática.
En este ejemplo se observa que el valor de Xn en el conjunto de resultados

con probabilidad 1/n es irrelevante para la convergencia en probabilidad. En
cambio, dependiendo de los valores que asignásemos a Xn en ese conjunto,
convergerı́a o no convergerı́a en media cuadrática. Esto plantea la pregunta
de si la convergencia en media cuadrática es más fuerte que la convergencia
en probabilidad.
Para verlo, necesitamos un lema previo.

√
Esto es ası́ porque permite definir una función norma, dada por ∥X∥ = E[X 2 ], y
2
m.c.
por tanto Xn → X si y solo si ∥Xn − X∥ → 0. Usando las propiedades de esta función que
se verán en Análisis Matemático III, muy similares a las del valor absoluto, algunas demos-
traciones son mucho más fáciles e intuitivas, y por ello parece aconsejable no demostrar
esos resultados en este curso.
3.3. CONVERGENCIA EN MEDIA CUADRÁTICA 19
Lema 3.28. (Desigualdad de Markov) Sea X una variable aleatoria no ne-

gativa, y sea a > 0. Entonces,
E[X]
P (X ≥ a) ≤ .
a
Demostración. Consideremos la variable aleatoria Y : Ω → R definida de la
forma siguiente: {
0, X(ω) < a,
Y (ω) =
a, X(ω) ≥ a
(podemos comprobar sin dificultad que Y es de hecho una variable aleatoria).
Como X ≥ 0 por hipótesis, se tiene X ≥ Y y por tanto
E(X) ≥ E(Y ) = 0 · P (X < a) + a · P (X ≥ a),
de donde inmediatamente se sigue la conclusión.

espacio de probabilidad. Entonces,
P
Xn →X Xn → X.
m.c.
=⇒
Demostración. Para cualquier ε > 0 fijado,
E[(Xn − X)2 ]
P (|Xn − X| ≥ ε) = P ((Xn − X)2 ≥ ε2 ) ≤ →0
ε2
aplicando la desigualdad de Markov a (Xn − X)2 .
Ya conocemos, por el Ejemplo 3.27, que el recı́proco no puede ser cierto,

ya que existen sucesiones que convergen en probabilidad pero no en media
cuadrática.
Como habı́amos anticipado, la convergencia en media cuadrática garantiza
la convergencia de la esperanza y la varianza.

espacio de probabilidad. Si Xn →X, entonces
m.c.
(a) E(Xn ) → E(X),

(b) V ar(Xn ) → V ar(X)
siempre que tales esperanzas y varianzas sean finitas.
Demostración. Vamos a ver solo la demostración del apartado (a). Primero

observamos que
|E(Xn ) − E(X)| = máx{E(Xn ) − E(X), −E(Xn ) + E(X)}

√
= máx{E(Xn − X), E(X − Xn )} ≤ E(|Xn − X|) = E(|Xn − X|)2 .
Pero
E(|Xn − X|)2 = E[|Xn − X|2 ] − V ar(|Xn − X|) ≤ E[|Xn − X|2 ];
ası́, √
|E(Xn ) − E(X)| ≤ E[|Xn − X|2 ] → 0.
Se sigue que también E(Xn2 ) → E(X 2 ).

Es fácil probar un resultado cuya demostración parece “demasiado ton-
ta”pero es útil en muchas ocasiones.

espacio de probabilidad. Si V ar(Xn ) → 0, entonces
Xn − E(Xn )→0.
m.c.
Si además E(Xn ) → c, entonces Xn →c.

m.c.
Demostración. Para ver la primera parte, basta darse cuenta de que
E[(Xn − E(Xn ) − 0)2 ] = V ar(Xn ) → 0.
Para la segunda parte, desarrollamos
(Xn − c)2 = [(Xn − E(Xn )) + (E(Xn ) − c)]2
= (Xn − E(Xn ))2 + (E(Xn ) − c)2 + 2(Xn − E(Xn ))(E(Xn ) − c).

Tomando esperanzas a ambos lados,
E[(Xn − c)2 ] = V ar(Xn ) + (E(Xn ) − c)2 + 2 · 0 · (E(Xn ) − c) → 0
ya que V ar(Xn ) → 0 y E(Xn ) → c.
Un ejemplo de la utilidad de este resultado es el siguiente.

3.4. CONVERGENCIA CASI SEGURO 21
w
Ejemplo 3.32. Nos piden demostrar que γ(n, n) → 1 cuando n → ∞. Pro-
bar esto directamente es muy laborioso: hay que obtener la función de dis-
tribución de la gamma, dada por
{ ∑ k
−nx (nx)
1 − n−1
k=0 e k!
, x>0
Fγ(n,n) (x) =
0, x ≤ 0,
y establecer la convergencia en distribución viendo que
{
1, x > 1
Fγ(n,n) (x) →
0, x < 1,
lo que no es trivial.
En cambio, viendo que la γ(n, n) tiene media n/n = 1 y varianza n/n2 → 0,
automáticamente tenemos que converge en media cuadrática a 1. Esto implica
que converge en probabilidad, y por tanto también en distribución.
Vemos ası́ que en ocasiones es más fácil demostrar convergencias más fuertes
que atacar directamente las más débiles. Otro ejemplo similar es el siguiente.
Ejemplo 3.33. Sean Xn variables N (µ, σ) independientes, y consideremos √

X n = X1 +...+X
n
n
. Por la reproductividad, X1 + . . . + Xn es una N (nµ, nσ)
y por tanto X n es una normal con esperanza µ y varianza σ 2 /n → 0. Ası́,
X n →µ, es decir, la media de n normales independientes e idénticamente
m.c.
distribuidas converge, cuando n → ∞, a la esperanza de la normal.
Más adelante en este tema veremos que esto es solo un caso de un fenómeno
general llamado la ley de los grandes números.
3.4. Convergencia casi seguro

Como dijimos anteriormente, se dice que un suceso ocurre casi seguro cuando
tiene probabilidad 1. Por tanto, es fácil definir un cuarto tipo de convergencia
para variables aleatorias.

pacio de probabilidad (Ω, A, P ). Se dice que Xn converge casi seguro a X
si
P (Xn → X) = 1,
y se denota Xn →X.
c.s.
Hay que observar que el suceso {Xn → X} representa el conjunto de resul-

tados {ω ∈ Ω | Xn (ω) → X(ω)} y realmente es un suceso perteneciente a A
porque podemos escribirlo mediante uniones e intersecciones numerables de
la forma siguiente:
{Xn → X} = {∀k ∈ N ∃n0 ∈ N | ∀n ≥ n0 |Xn − X| < 1/k}
∩ ∪ ∩
= {|Xn − X| < 1/k} ∈ A.
k∈N n0 ∈N n≥n0
En la práctica, no es necesario analizar todos los ω ∈ Ω en los que Xn (ω) con-

verja a X(ω) (lo que en algún caso puede ser difı́cil) sino que basta encontrar
un suceso A ⊆ Ω con P (A) = 1 tal que
Xn (ω) → X(ω) ∀ω ∈ A.
Ası́, como A está contenido en {Xn → X}, este tendrá forzosamente proba-
bilidad 1.
Por tanto, el planteamiento que puede seguirse es estudiar la convergencia
de Xn (ω) para ver si existe algún conjunto de probabilidad 1 en el cual
el lı́mite exista y coincida con X(ω). En ese caso, tendremos que Xn →X
c.s.
independientemente de lo que pase en los otros ω ∈ Ω.
Ejemplo 3.35. Tomemos el espacio de probabilidad (Ω, A, P ) con Ω = R,

A = BR y P una distribución uniforme U(0, 1). En ese espacio definimos las
variables aleatorias

 −n
2 , ω ∈ (−∞, 2 − n ),
1 1
Xn (ω) = 1, ω ∈ [ 12 − n1 , 1 − n1 ],

 n
2 , en otro caso,
si n ∈ N, y 

0, ω ∈ (−∞, 2 ),
1
X(ω) = 1, ω ∈ [ 12 , 1),


2, en otro caso.
Podemos comprobar que


0, ω ∈ (−∞, 2 ),
1
Xn (ω) → 1, ω ∈ [ 21 , 1),


∞, en otro caso
y por tanto {Xn → X} = (−∞, 1), que tiene probabilidad 1 bajo la distri-
bución U(0, 1). Por consiguiente, Xn →X.
c.s.
Ejemplo 3.36. Consideremos ahora el mismo ejemplo pero dotando a

(R, BR ) de la distribución N (0, 1). En este caso, la probabilidad de (−∞, 1)
es menor que 1, por lo que no hay convergencia casi segura.
Para mostrar que no hay convergencia casi segura, bastará encontrar un

subconjunto de Ω con probabilidad estrictamente positiva en el que no se dé la
convergencia. Por tanto, el segundo ejemplo se puede resolver sin necesidad
de analizar la convergencia, sin más que ver que esta no se da p.ej. en (1, ∞),
que tiene probabilidad estrictamente positiva bajo la normal.
La convergencia casi seguro es más fuerte que la convergencia en probabili-
dad, y por tanto que la convergencia débil.
Teorema 3.37. Sean Xn , X variables aleatorias definidas en el mismo espa-

cio de probabilidad. Entonces,
P
Xn →X Xn → X.
c.s.
=⇒
Demostración. Sabemos que
{Xn → X} = {∀ε > 0 ∃k ∈ N | ∀n ≥ k |Xn − X| ≤ ε}.
Fijamos un ε > 0 arbitrario, y definimos los sucesos
An = {|Xn − X| ≤ ε}
y ∩
Bk = {∀n ≥ k |Xn − X| ≤ ε} = An .
n≥k
P
Para tener Xn → X, dada la arbitrariedad de ε, nos basta demostrar que
P (An ) → 1. El esquema que se sigue para ello es el siguiente:
(∗) ∪
lı́m inf P (An ) ≥ lı́m inf P (Bk ) = P ( Bk ) ≥ P (Xn → X) = 1.
n k
k∈N
De aquı́ se deduce que lı́mn P (An ) = 1 ya que P (An ) ≤ 1 para todo n ∈ N,

por lo que necesariamente el lı́mite superior existe y es también 1.
Todos los pasos excepto (*) son fáciles:
-La primera desigualdad es porque P (Ak ) ≥ P (Bk ) para cada k ∈ N.
-La segunda desigualdad es porque, con el ε > 0 que hemos fijado,
{Xn → X} ⊆ {∃k ∈ N | ∀n ≥ k |Xn − X| ≤ ε}

∪ ∪
= {∀n ≥ k |Xn − X| ≤ ε} = Bk .
k∈N k∈N
-La última igualdad es por la definición de convergencia casi seguro.

Solo nos resta justificar el paso (*); esto puede hacerse utilizando los materia-
les complementarios ∪ de Estadı́stica Descriptiva y Probabilidad pero veamos
directamente que P ( k∈N Bk ) = lı́mk P (Bk ).
∪
Para calcular P ( k∈N Bk ) por el tercer axioma de Kolmogorov necesitamos
sucesos incompatibles, lo que los Bk no son (de hecho, por construcción
Bk−1 ⊆ Bk para cada k ≥ 2). Por ello definimos los sucesos
C1 = B1 , C2 = B2 \B1 , ..., Ck = Bk \Bk−1 , ...
Entonces tenemos
B1 = C1 , B2 = C1 ∪ C2 , ..., Bk = C1 ∪ . . . ∪ Ck , ...
Estos nuevos sucesos sı́ son incompatibles: en efecto, tomando dos ı́ndices
j < k, tenemos que Cj ⊆ Bj ⊆ Bk−1 pero Ck = Bk \Bk−1 .
Por tanto, aplicando el tercer axioma y la definición de serie,
∪ ∪ ∪
P( Bk ) = P ( (C1 ∪ . . . ∪ Ck )) = P ( Ck )
k∈N k∈N k∈N
∑
∞
= P (Ck ) = lı́m[P (C1 ) + . . . + P (Ck )] = lı́m P (Bk ).
k k
k=1
Al ser más fuerte que la convergencia en probabilidad, la convergencia casi

seguro implica convergencia en distribución. Pero la convergencia casi seguro
y la convergencia en media cuadrática, aunque ambas impliquen la conver-
gencia en probabilidad, no son comparables en general.
Ejemplo 3.38. En el Ejemplo 3.35 vimos una sucesión Xn que converge casi
seguro a otra variable X; veamos que no converge en media cuadrática.
Lo primero es notar un hecho importante: en caso de existir, el lı́mite en
media cuadrática forzosamente tiene que ser igual a X casi seguro. En efecto,
si Xn →X y Xn →Y , entonces Xn converge en probabilidad tanto a X como
c.s. m.c.
a Y , y sabemos que el lı́mite en probabilidad es único casi seguro. Por lo

tanto, con ver que Xn no converge a X en media cuadrática, ya tendremos

que Xn no puede converger en media cuadrática a ninguna variable.
Con las definiciones de Xn y X tenemos que


 2−2n ω ∈ (−∞, 12 − n1 )



 ∈ ( 12 − n1 , 12 )
1, ω
(Xn − X) (ω) = 0,
2
ω ∈ [ 12 , 1 − n1 ]



 (2n − 1)2 , ω ∈ (1 − n1 , 1)


(2n − 2)2 , ω ∈ [1, ∞).
Ası́,
( )
−2n 1 1 1 1
E[(Xn − X) ] = 2
2
· − + + (2n − 1)2 · → ∞,
2 n n n
por lo que Xn ̸ →X.

m.c.
Ejemplo 3.39. Un ejemplo de convergencia en media cuadrática en el que

P (Xn → X) = 0 (en particular, no hay convergencia casi segura) es el
siguiente. Consideramos en el espacio de probabilidad (R, BR , P ) la probabi-
lidad dada por la distribución U(0, 1).
Definimos X1 como la función indicador I[0,1] . Ahora definimos X2 y X3
dividiendo [0, 1] en dos intervalos disjuntos de igual longitud y multiplicando
el indicador de cada intervalo por 2. Definimos los cuatro términos siguientes
X4 , . . . , X7 dividiendo [0, 1] en cuatro intervalos disjuntos de igual longitud y
multiplicando el indicador de cada uno por 3. Para definir los ocho términos
siguientes, dividimos [0, 1] en ocho y multiplicamos cada indicador por 4, y
ası́ sucesivamente.
Veamos que Xn →0, para lo que debemos comprobar que E[Xn2 ] = E[(Xn −
m.c.
0)2 ] → 0. Cada Xn ha sido definida en cierto paso k de la construcción

anterior (de los que hemos hecho explı́citamente los pasos k = 1, 2, 3, 4). Por
la definición de la esperanza,
1 k2
E[Xn2 ] = 02 · P (Xn = 0) + k 2 · P (Xn = k) = k 2 · = ,
2k−1 2k−1
que tiende a 0 cuando n, y por tanto k, tiende a ∞.
Por otro lado, para cualquier ω ∈ [0, 1] y cada paso k de la construcción,
ω pertenece a uno de los intervalos utilizados en ese paso (porque recubren
[0, 1]). Ası́, existe un ı́ndice nk para el que Xnk (ω) = k. Esta subsucesión
tiende a ∞, por lo que Xn (ω) no puede converger a un número real. Como

esto es válido para un ω ∈ [0, 1] arbitrario,
P (Xn no converge) ≥ P ([0, 1]) = 1.
Como la convergencia en media cuadrática implica convergencia en probabi-

lidad, también es un ejemplo de sucesión que converge en probabilidad pero
no casi seguro.
3.5. Introducción a los teoremas lı́mite

El objetivo de los teoremas lı́mite es describir el comportamiento de la suma
(o la media) de un gran número de variables aleatorias3 .
Intuitivamente, supongamos que los valores de una variable aleatoria X se
separan más o menos x unidades respecto a un valor central. Si observamos
muchas veces el valor de X, generaremos una sucesión X1 , . . . , Xn , . . . de
variables aleatorias igualmente distribuidas que X. Si no sabemos nada sobre
ellas, lo que cabrı́a esperar es que la suma X1 + . . . + Xn se pueda separar
más o menos nx unidades de la suma de los valores centrales. Eso ocurre
p. ej. en el caso extremo de que todas las Xn sean iguales.
Sin embargo, no siempre es ası́, especialmente si se da la independencia de
las variables. Por ejemplo, si sumamos n normales N (µ, σ) independientes,
√
por la reproductividad tenemos que X1 + . . . + Xn es una N (nµ, σ n). Es
decir, tenemos una medida (la desviación tı́pica) según la cual los valores
de cada sumando tienen una dispersión de σ; pero la dispersión de la suma
no√es proporcional al número de sumandos (σn) sino que crece más despacio
(σ n). Por lo tanto, cuanto mayor sea n, menor será la dispersión de la suma
en comparación con número de variables implicadas.
En esta explicación intuitiva ya aparecen dos elementos importantes: en torno
a qué valor aproximado podrı́a estar la suma X1 + . . . + Xn y qué ritmo de
crecimiento podrı́a tener la separación entre el valor verdadero y la aproxima-
ción, que es lo que vamos a llamar la sucesión centralizadora (o centralizante)
y la sucesión normalizadora (o normalizante).
3
Por alguna razón, los teoremas lı́mite no suelen llevar el nombre de su descubridor
sino nombres exóticos como la ley de los grandes números, el teorema del lı́mite central,
la ley del logaritmo iterado, el principio de las grandes desviaciones, etc.
3.6. LEYES DE LOS GRANDES NÚMEROS 27
Dada un sucesión {Xn }n de variables aleatorias, escribiremos
Sn = X1 + . . . + Xn
y
X1 + . . . + Xn Sn
Xn = = .
n n
Los teoremas lı́mite que vamos a ver estudian la convergencia de cocientes
del tipo
Sn − a n
,
bn
con 0 ≤ bn → ∞, donde la sucesión {an }n se llama centralizadora, y la
{bn }n normalizadora. La idea es que an son valores que no son aleatorios y
la diferencia Sn − an es pequeña o similar comparada con bn .
Ası́, tenemos los siguientes tipos de teoremas:
Sn −an
Comportamiento de bn
... Nombre del teorema
P
... → 0 Ley débil de los grandes números
. . . →0
c.s.
Ley fuerte de los grandes números
D
. . . →F Teorema del lı́mite central
Si no se indica explı́citamente lo contrario, en las leyes de los grandes números
se suele entender
√ que bn es del orden de n, y en los teoremas del lı́mite central
del orden de n. En el primer caso, podemos reescribir el resultado como
X n − ann → 0 y por tanto establece que, bajo ciertas condiciones, la media
de muchas variables aleatorias tiende a comportarse de manera no aleatoria.
3.6. Leyes de los grandes números

La primera ley de los grandes números aparece en un libro póstumo de Ja-
kob Bernoulli publicado en 1713. Bernoulli hizo múltiples aportaciones a la
matemática y la fı́sica pero consideraba este resultado su “teorema de oro”(y
ası́ lo llama en el libro) ya que tardó veinte años en encontrar una demostra-
ción rigurosa. Aunque se conocı́a empı́ricamente el fenómeno desde el siglo
XVI, no habı́a sido considerado susceptible de demostración matemática sino
más bien una manifestación del “orden divino del universo”.
La terminologı́a de leyes “débiles” y “fuertes”de los grandes números se debe
a que la convergencia en probabilidad que proporcionan las primeras es más
débil que la convergencia casi seguro que aparece en las segundas.
Antes de presentar una ley débil de los grandes números, recordemos que
la varianza de una suma de variables incorreladas es igual a la suma de sus
varianzas (al ser V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X, Y )).
Teorema 3.40. (Ley Débil de los Grandes Números) Sean Xn variables alea-
torias incorreladas con esperanzas E(Xn ) = µn ∈ R y varianzas V ar(Xn ) =
σn2 ∈ R. Si se cumple la condición
∑n
σi2
i=1
→ 0,
n2
entonces
1∑
n
P
Xn − µi → 0.
n i=1
Es decir, se cumple
∑nla Ley Débil de los Grandes Números con sucesión cen-
tralizadora an = i=1 µi y sucesión normalizadora bn = n.
Idea de la demostración. Aplicar la Proposición 3.31 a la sucesión X n .
Demostración. Calculemos la esperanza y la varianza de X n :
1∑ 1∑ 1∑
n n n
E(X n ) = E( Xi ) = E(Xi ) = µi ,
n i=1 n i=1 n i=1
∑n
1∑ 1 ∑
n n
σ2
V ar(X n ) = V ar( Xi ) = 2 V ar(Xi ) = i=12 i .
n i=1 n i=1 n
Por la Proposición 3.31, si V ar(X n ) → 0 entonces X n − E(X n ) → 0 en

media cuadrática, y por tanto también en probabilidad.
∑n
σi2 ∑ P
Ası́, si i=1
n2
→ 0 se cumplirá que X n − n1 ni=1 µi → 0.
Un caso particular importante de teoremas lı́mite es siempre su aplicación a

sucesiones idénticamente distribuidas.
Corolario 3.41. Sean Xn variables aleatorias incorreladas con esperanza

µ ∈ R y varianza σ 2 ∈ R. Entonces,
P
X n → µ.
3.6. LEYES DE LOS GRANDES NÚMEROS 29
Demostración. Se tiene que

∑n
σi2 nσ 2
i=1
= 2 →0
n2 n
y ∑n
i=1 µi nµ
= =µ
n n
Por el Teorema 3.40,
P
X n − µ → 0,
o equivalentemente
P
X n → µ.
El “teorema de oro”de Bernoulli se obtiene sin más que aplicar este corolario
a una sucesión de variables de Bernoulli independientes. Por tanto, aunque
a él le costó veinte años –y probablemente era más listo que nosotros– vemos
que con lenguaje y conceptos modernos se puede llegar por consecuencias
fáciles del hecho trivial (Proposición 3.31) de que
V ar(Xn ) → 0 =⇒ Xn − E(Xn ) →0.

m.c.
Corolario 3.42. (Teorema de Bernoulli, 1713) Consideremos una sucesión

de repeticiones independientes de un experimento aleatorio, y un suceso A
asociado a ese experimento. Entonces,
no veces que ocurre A en las n primeras repeticiones P

→ P (A).
n
Ese cociente se llamará en temas posteriores proporción muestral y se deno-

tará p̂n .
Vamos ahora a dar una ley fuerte, aunque no podemos demostrarla con nues-
tros conocimientos actuales4 .
Teorema 3.43. (Ley Fuerte de los Grandes Números) Sean Xn variables

aleatorias independientes con esperanzas E(Xn ) = µn ∈ R y varianzas
4
Podéis encontrar una demostración en la Wikipedia, en cuyo caso veréis que es larga
y utiliza resultados de Probabilidad que no hemos visto (como el lema de Borel–Cantelli
o la desigualdad de Chebychev) ası́ como otros propios de Análisis Matemático III (como
el teorema de la convergencia dominada).
V ar(Xn ) = σn2 ∈ R. Si se cumple la condición
∑
∞
σ2 n
< ∞,
n=1
n2
entonces
1 ∑ c.s.
n
Xn − µi →0.
n i=1
Es decir, se cumple∑la Ley Fuerte de los Grandes Números con sucesión
centralizadora an = ni=1 µi y sucesión normalizadora bn = n.
Para el caso de variables i.i.d., tenemos la siguiente consecuencia fácil de

probar.
Corolario 3.44. Sean Xn variables aleatorias independientes con esperanza

µ ∈ R y varianza σ 2 ∈ R. Entonces,
X n →µ.
c.s.
Corolario 3.45. Consideremos una sucesión de repeticiones independientes

de un experimento aleatorio, y un suceso A asociado a ese experimento.
Entonces,
no veces que ocurre A en las n primeras repeticiones c.s.

→P (A).
n
Por la relación entre convergencia en probabilidad y casi seguro, el teorema

de Bernoulli es más débil que este resultado, el cual justifica la interpretación
frecuentista de la probabilidad como lı́mite de la frecuencia relativa del suceso
A en una sucesión de repeticiones del experimento. Por lo tanto, está en la
base de la fiabilidad de los métodos estadı́sticos inferenciales que se verán en
temas posteriores.
3.7. Teorema del Lı́mite Central

Este resultado, también conocido como Teorema Central del Lı́mite (o co-
mo Teorema Fundamental de la Estadı́stica por aquellos que quieren uno a
imitación de los del Álgebra, el Cálculo o la Aritmética), es de una impor-
tancia capital para la estadı́stica moderna ya que en él se basa la extensión
3.7. TEOREMA DEL LÍMITE CENTRAL 31
de métodos válidos para la distribución normal a situaciones mucho más

generales.
√ distribución N (µ, σ),σ por la reproductividad te-

Si Xn son variables i.i.d. con
nemos que Sn es N (nµ, σ n) y que X n es N (µ, √n ). Tipificando, obtenemos
que
Sn − nµ Xn − µ
√ ∼ N (0, 1), √ ∼ N (0, 1).
σ n σ/ n
El Teorema del Lı́mite Central nos dice que podemos reemplazar la distribu-
ción normal por cualquier otra con varianza finita y aun ası́, al aumentar n,
las sumas y medias tienden al comportamiento de la normal.
Teorema 3.46. (Teorema del Lı́mite Central) Sean Xn variables aleatorias

independientes e idénticamente distribuidas con esperanza µ ∈ R y varianza
σ 2 ∈ (0, ∞). Entonces,
Sn − nµ D
√ →N (0, 1)
σ n
o, equivalentemente,
Xn − µ D
√ →N (0, 1).
σ/ n
Es decir, se cumple el teorema central √
del lı́mite con sucesión centralizadora
an = nµ, sucesión normalizadora bn = n y lı́mite N (0, 1).
Una demostración clásica (supuesto que existe la función generatriz de mo-

mentos) prueba la convergencia de las funciones generatrices de momentos
a la de la normal, lo que a su vez implica la convergencia en distribución.
Hay otras más modernas que son casi inmediatas, como la basada en la exis-
tencia de una métrica homogénea apropiada. En ambos casos se requieren
conceptos y resultados que no forman parte del contenido del curso, por lo
que no daremos ninguna demostración a pesar de la gran importancia de este
resultado.
El T.L.C. nos permite simplificar muchı́simo el cálculo de probabilidades
de sumas y medias aproximándolas por las de una normal. Tengamos en
cuenta que, nuestras herramientas para obtener la distribución exacta de
una suma de p. ej. n = 200 variables serı́an la reproductividad, el teorema
del cambio de variable y el cálculo directo de la función de distribución. Si la
reproductividad no es aplicable, las otras dos involucran calcular integrales
en recintos de Rn = R200 . En cambio, la complejidad de la aproximación es
la misma para cualquier n, y su exactitud aumenta: cuanto más grande sea
n, mejor.
En virtud de la convergencia en distribución, tenemos p. ej.

( )
Sn − nµ
P √ ≤ a → Φ(a)
σ n
para todo a ∈ R, de donde obtenemos, sin más que tipificar, la aproximación
( )
x − nµ
P (Sn ≤ x) ≃ Φ √ .
σ n
Habitualmente, se dice que es válido utilizar esa aproximación cuando n ≥ 30,
aunque esto es meramente orientativo.
Recordemos también que, en virtud del Corolario 3.16, se cumple en general
que para cualquier intervalo I
( )
Sn − nµ
P √ ∈ I → P (N (0, 1) ∈ I),
σ n
e igualmente ( )
Xn − µ
P √ ∈ I → P (N (0, 1) ∈ I).
σ/ n
Como aplicación de este resultado podemos obtener la que históricamente
fue la primera formulación del teorema.
Corolario 3.47. (Teorema de De Moivre, 1738) Sea p ∈ (0, 1), y sean Xn

variables aleatorias B(n, p). Entonces,
X − np D
√ n →N (0, 1).
np(1 − p)
Idea de la demostración. Expresar la binomial como suma de n variables

B(p) independientes, y aplicar el Teorema 3.46.
Demostración. Consideremos variables Yn independientes con distribución

B(p). Denotando Sn = Y1 + . . . + Yn , por la reproductividad tenemos que
cada Sn es B(n, p). Como en este caso µ = p y σ 2 = p(1 − p), el Teorema
3.46 nos da
S − np D
√ n →N (0, 1).
np(1 − p)
Como Xn tiene la misma distribución que Sn y la convergencia en distribución
solo depende de la distribución de las variables, también
X − np D
√ n →N (0, 1).
np(1 − p)
3.7. TEOREMA DEL LÍMITE CENTRAL 33
Como antes, el uso práctico de este resultado está en que, para n grande,
tendremos para cualquier intervalo I ⊆ R que
√
P (B(n, p) ∈ I) ≃ P (N (np, np(1 − p)) ∈ I).
Orientativamente, podemos dar como condiciones para usar esta aproxima-

ción las siguientes: n ≥ 30, p ∈ [0′ 1, 0′ 9], np ≥ 5.
Ejemplo 3.48. Si tiramos un dado perfecto 1200 veces, esperamos que salga
el 6 en torno a 200 veces. ¿Cuál es la probabilidad de que salga más de 225
veces? Dado que el número de caras es una B(1200, 1/6), la respuesta es
1200 (
∑ ) ( )i ( )1000−i
1200 1 5
P (X > 225) = .
i=226
i 6 6
√
Como tenemos np = 200, np(1 − p) = 12′ 91, esa probabilidad es aproxi-
madamente igual a
225 − 200
P (N (200, 12′ 91) > 225) = P (Z > )
12′ 91
= P (Z > 1′ 94) = 1 − Φ(1′ 94) = 0′ 02619.

2016 - Teoría Tema 3

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

2016 - Teoría Tema 3

Cargado por

Copyright:

Formatos disponibles

Tema 3

Hasta ahora, hemos visto el estudio individual de una variable aleatoria y

muy distintos, lo que todos ellos tienen en común es la siguiente propiedad

3.1. Convergencia débil o en distribución

Definición 3.1. Sean Fn , F : R → [0, 1] funciones de distribución. Se dice

para todo x ∈ R en el que F es continua.

Como veremos en el tema siguiente y ya hemos utilizado explı́cita o implı́ci-

Definición 3.2. Sean Pn , P : BR → [0, 1] distribuciones de probabilidad. Se

Obsérvese que la función de distribución de una P es simplemente la que

FP (x) = P ((−∞, x]).

La única diferencia es que partimos directamente de una distribución P sin

Ejemplo 3.3. Tomemos las funciones de distribución

que corresponden a las variables aleatorias degeneradas en los puntos 1/n.

Esta función F sı́ es una función de distribución y coincide con el lı́mite

Este ejemplo nos muestra por qué la convergencia puntual no es adecuada

Ejemplo 3.4. Sean Fn las funciones de distribución de las variables n. En-

Es posible estudiar cómodamente la convergencia débil a partir de los con-

Proposición 3.5. Sean Fn , F, G funciones de distribución. Si Fn → F débil-

Idea de la demostración. La idea es sencilla, aunque ponerla en práctica ri-

Vamos a ver la demostración separando por claridad dos lemas.

Lema 3.6. Sea A ⊆ R. Si Ac es numerable, entonces A es denso.

Demostración. Por reducción al absurdo, supongamos que A no fuese denso.

Lema 3.7. Sea F una función de distribución. Entonces, DF es numerable.

Demostración. Observemos que

y cada uno de esos conjuntos es finito: al ser creciente, si F tuviera n o más

Ahora ya estamos preparados para probar la Proposición 3.5.

Demostración. Por definición, para todo x ∈ CF tenemos Fn (x) → F (x)

el complementario de CF ∩ CG es numerable y por el Lema 3.6 sabemos que

Para obtener x1 , como CF ∩ CG es denso sabemos que corta al intervalo

F (x) = lı́m F (xn ) = lı́m G(xn ) = G(x).

Al ser x ∈ R arbitrario, efectivamente F = G.

Es fácil extender la definición de convergencia débil a variables aleatorias, ya

Definición 3.8. Sean Xn , X variables aleatorias. Se dice que Xn converge

Esto es, Xn → X en distribución si

Ası́, ciertas probabilidades de sucesos relativos a Xn convergen a las corres-

Ejemplo 3.10. Este ejemplo es útil para practicar. Si consideramos una

Calculando la función de distribución FXn , comprobad que se sigue cumplien-

Deberı́a ser intuitivamente claro que la convergencia en distribución Xn → X

Ejemplo 3.11. Basta considerar la sucesión de variables degeneradas Xn =

Lo que sı́ se cumple, y podremos utilizar cuando sea conveniente, es que la

Proposición 3.12. Sean Xn , X variables aleatorias. Si se cumple alguna de

No veremos la demostración porque involucra conceptos más avanzados. La

Ejemplo 3.13. Como aplicación de este resultado obtenemos por ejemplo

La convergencia en distribución no tiene algunas de las propiedades que intui-

Idea de la demostración. Los puntos de continuidad de FX+c son los mismos

Demostración. Fijamos un c ∈ R arbitrario. Entonces, para cualquier x ∈ R,

FX+c (x) = P (X + c ≤ x) = P (X ≤ x − c) = FX (x − c).

Por tanto, FX+c es continua en x si y solo si FX lo es en x − c.

FXn +c (x) = P (Xn + c ≤ x) = FXn (x − c) → FX (x − c) = FX+c (x).

y por tanto a ∈ CFX . De ahı́

Demostración. Basta notar que X continua con función de densidad f im-

3.2. Convergencia en probabilidad

Como hemos visto, la convergencia débil o en distribución nos permite ver

Definición 3.17. Sean Xn , X variables aleatorias definidas en el mismo es-

Recordemos que el suceso {|Xn −X| ≤ ε} significa que al hacer el experimento

{ω ∈ Ω | |Xn (ω) − X(ω)| ≤ ε}.

Por ello es imprescindible que Xn y X estén definidas sobre el mismo Ω.

que es una banda de puntos cercanos a la diagonal. Entonces tenemos que

puesto que A pertenece a la σ-álgebra de Borel de R2 .

Proposición 3.18. Sean Xn , X variables aleatorias definidas en el mismo

Idea de la demostración. Si |Xn − X| ≤ ε/2, entonces |Xn − X| < ε, y en-

Ejemplo 3.19. Consideremos una sucesión Xn de variables con distribución

La convergencia en probabilidad tiene algunas propiedades mejores que las