Documentos de Académico
Documentos de Profesional
Documentos de Cultura
La función de distribución
1. Introducción
1.1. Contexto
La teorı́a de la probabilidad intenta construir o describir modelos ma-
temáticos que se ajusten a los denominados fenómenos aleatorios o ex-
perimentos aleatorios, que son aquellos en los que, bajo las mismas con-
diciones, no se pueden predecir los resultados. Por ejemplo, el lanzamiento
de un dado.
Todos podemos tener una idea intuitiva de los que es la probabilidad. Por
ejemplo, cuando decimos que un suceso, llamémosle A, tiene una probabilidad
de 0, 5, esperamos que ocurra la mitad de las veces en las que realicemos el
experimento, siempre que se haga en las mismas condiciones y de manera
independiente. Esta idea frecuencial es, en cierto modo, intuitiva, pero si
queremos establecer una teorı́a no podemos dejarnos guiar siempre por la
intuición, ya que en ciertas ocasiones nos puede llevar a un error. Esto se ve
en el siguiente ejemplo, conocido como el problema de Monty-Hall.
1
puerta no 3 después de que nosotros hallamos elegido la puerta no 1, es decir,
nuestra decisión ha afectado a la puerta que abre el presentador. Veamos
cómo afecta:
Por una parte, si la puerta no 1 es la que tiene el coche, entonces el pre-
sentador puede abrir la puerta no 2 o la no 3. En este caso, no es favorable
cambiar de puerta.
Por otra parte, si la puerta no 1 tiene una cabra, entonces el presentador
tendrá que abrir la puerta que no tenga el coche. En este caso, es favorable
cambiar de puerta.
El modo en el que nuestra decisión inicial influye es, por tanto, en el
número de puertas que puede abrir el presentador.
La razón de que la probabilidad de que el coche esté en la puerta no 2
sea de 23 en lugar de 12 es que, en cierto sentido, la puerta no 2 absorbe la
probabilidad de la puerta no 3. En efecto, inicialmente la probabilidad de que
el coche esté en la puerta no 1, no 2 o no 3 es de 31 . Sin embargo, al abrir la
puerta no 3 y ver una cabra, la probabilidad de que el coche esté en la puerta
no 3 es 0, mientras que la probabilidad de que el coche esté en la puerta no 2
pasa a ser 32 . Esto se debe a que una vez elegida la puerta no 1, y antes de
abrir la no 3, la probabilidad de que el coche no esté en la puerta no 1 es de 23 .
El abrir la puerta no 3 no cambia la probabilidad de que el coche no esté en
la puerta no 1(ya que el presentador abrirá la puerta que no tenga el coche), es
decir, la probabilidad de que el coche no esté en la puerta no 1 seguirá siendo
2
3
(aunque ya sepamos que la puerta no 3 tiene una cabra).
Por lo tanto, la puerta no 2 tiene una probabilidad de 23 de tener el coche.
Una forma más fácil de ver este ejemplo es tomando un número más
grande de puertas. Por ejemplo, supongamos que en las mismas condiciones
anteriores tenemos 1000 puertas: una de ellas con un coche y las otras 999
con una cabra. Al igual que antes elegimos la puerta no 1, que tiene una pro-
1
babilidad de 1000 de tener el coche. Esta vez, el presentador abre 998 puertas,
todas con cabras. Supongamos que la puerta que ha dejado sin abrir es la
no 2, y nos hacen la misma pregunta “¿Quieres cambiar de puerta?
999
Ahora la probabilidad de que el coche esté en la puerta no 2 es de 1000 ,
luego tiene sentido cambiar de puerta.
Otro ejemplo muy parecido al anterior es el siguiente:
Ejemplo 1.2 Tres prisioneros A,B,C se enteran de que uno de ellos va a ser
indultado, y saben que el guarda de la prisión sabe a cual de ellos indultarán.
El prisionero A se pone pesado y, después de un buen rato preguntando,
consigue que el guarda le de la siguiente información: “No te diré si tú eres
el indultado o no, sino que el no indultado es el B“.
2
Muy contento, el prisionero A le dice al prisionero C que ambos tienen
una probabilidad de 21 de ser indultados. Entonces el prisionero C se rı́e, ya
que en lugar de eso, es él quien tiene una probabilidad de 23 de ser indultado,
mientras que el prisionero A tiene una probabilidad de 13 .
El contexto adecuado para establecer la teorı́a de la probabilidad es la
teorı́a de la medida, desarrollada, entre otros, por Borel, Lebesgue o Carat-
heodory.
Con toda esta teorı́a de la medida fue Kolmogorov quien, en 1993, da
cuerpo a la teorı́a de la probabilidad. Hasta entonces, el estudio de la pro-
babilidad consistı́a en un compendio de resultados, inicialmente con el fin de
encontrar soluciones a determinados problemas relacionados con juegos de
azar (Fermet y Pascal) y, más adelante, intentando dar respuesta a uno de
los problemas centrales del cálculo de probabilidades, el teorema central del
lı́mite (Bernoulli, De Moivre, Laplace...).
3
1.2. Espacio de probabilidad
Cuando queremos modelizar un experimento aleatorio; por ejemplo, el
lanzamiento de una moneda, el primer elemento que tenemos que describir
es el conjunto de los posibles resultados, que se denomina espacio muestral.
3. Si An ∈ A, n=1,2,..., entonces ∞
S
n=1 An ∈ A.
2. P (Ω) = 1.
4
Una dificultad que se nos plantea es que, al ser P una función de con-
juntos, es difı́cil operar con ella ya que los elementos de A pueden ser muy
complejos. Para ello introducimos el concepto de variable aleatoria, que nos
permite asociar a los elementos de Ω números reales.
Definición 1.4 Se define una variable aleatoria como una función me-
dible X : Ω −→ R; esto es, las imágenes inversas de conjuntos de Borel son
conjuntos medibles,
X −1 (B) = {ω ∈ Ω : X(ω) ∈ B} ∈ A para todo B ∈ B.
Una variable aleatoria X genera sobre el espacio probabilizable (R, B)
una probabilidad inducida PX , que es una medida de Lebesgue-Stieltjes.
Definición 1.5 Dada una variable aleatoria X, se denomina probabilidad
inducida a la medida PX sobre el espacio probabilizable (R, B) definida por
PX (B) = P (X −1 (B)) = P ({ω ∈ Ω : X(ω) ∈ B}).
De ahora en adelante escribiremos P {ω ∈ Ω : X(ω) ∈ B} en lugar
de P ({ω ∈ Ω : X(ω) ∈ B})
Al igual que antes, la función PX es una función de conjunto,
PX : B −→ [0, 1], lo que nos vuelve a dificultar el trabajo ya que no es fácil
de manejar; por lo que se hace necesario buscar una función puntual, esto es,
una función R −→ R.
Como la función PX es una medida de Lebesgue-Stieljes, esto nos lleva a
pensar que la función puntual que nos facilita el trabajo será una función de
distribución.
5
Ejemplo 1.3 En efecto, supongamos que consideramos el experimento alea-
torio consistente en tirar una moneda. Nuestro espacio muestral será Ω =
{Cara, Cruz}.
Definimos las variables aleatorias
X : Ω −→ [0, 1]
X(Cara) = 1, X(Cruz) = 0.
Y : Ω −→ [0, 1]
Y (Cara) = 0, Y (Cruz) = 1.
PX (1) = 12 , PX (0) = 1
2
PY (1) = 12 , PY (0) = 1
2
1. F es monótona no decreciente.
2. F (−∞) = lı́m (F (x)) = 0 y F (∞) = lı́m (F (x)) = 1.
x→−∞ x→∞
6
Z Z x
F (x) = dF (t) = dF (t).
(−∞,x] −∞
2. F es monótona no decreciente.
Entonces existe una única medida de probabilidad PF en (R, B), tal que F es
la función de distribución de PF . Esta medida es
Demostración
Consideremos el conjunto Dn = {x ∈ R : F (x) − F (x− ) ≥ n1 }.
Entonces, para cada n ∈ N, se verifica
1
n
card(Dn ) ≤ PX (Dn ) ≤ 1
7
Consecuentemente, card(Dn ) ≤ n para cada n ∈ N o, lo que es lo mismo,
cada conjunto Dn tiene un número finito de elementos.
Por otra parte se verifica que
∞
S
D(F ) = lı́m (Dn ) = Dn
n→∞ n=1
Al ser cada conjunto Dn finito, y por ser D(F ) unión infinita de los Dn ,
el conjunto D(F ) tiene que ser a lo sumo infinito numerable.
Este resultado sobre el conjunto D(F ) arroja información directa sobre
su complementario.
Demostración
Es inmediato, pues el conjunto de continuidad C(F ) es el complementario
de D(F ) que es a lo sumo numerable y, por tanto, cualquier entorno de un
elemento de R debe contener elementos de C(F ).
El hecho de que el conjunto D(F ) sea denso en R nos permitirá extender
las propiedades de la función de distribución, además de darnos el siguiente
resultado.
Demostración
Sea D un conjunto denso de R donde coinciden F y G.
Sea x ∈ R, como D es denso en R existe una sucesión decreciente {xn }
de puntos de D con xn ↓ x cuando n → ∞.
Ahora bien, al ser F y G continuas por la derecha se tiene que
lı́m (F (xn )) = F (x) y lı́m (G(xn )) = G(x).
n→∞ n→∞
Como F y G coinciden en los puntos de D, las sucesiones {F (xn )} y
{G(xn )} coinciden y, consecuentemente F (x) = G(x).
1.3.1. Clasificación
Vamos a determinar la probabilidad en un punto aislado mediante una
función que llamaremos función de masa de probabilidad o, simplemente,
función de masa o función de probabilidad y viene dad por
8
p(x) = P (X = x) = F (x) − F (x− ) = PX {x}.
Atendiendo a esta función de masa, podemos clasificar las variables alea-
torias en dos grupos: discretas o continuas
Definición 1.8 (Variable aleatoria discreta)
Diremos que una variable aleatoria X con función de distribución F es
discreta si
P
p(x) = 1.
x∈D(F )
1.3.2. Descomposición
Teorema 1.2 (Primera descomposición)
Toda función de distribución F se puede expresar como una combinación
lineal convexa (mixtura) de funciones de distribución de la forma
F = αFd + (1 − α)Fc ,
con 0 ≤ α ≤ 1, donde Fd es la función de distribución de una variable
aleatoria discreta y Fc es una función de distribución continua.
Demostración P
Consideremos el conjunto de discontinuidad D(F ) y sea α = p(x) ≤
x∈D(F )
1.
9
Se define la parte discreta de F como
Fd (x) = α1
P
p(xn ).
xn ≤x
entonces
F (x)−αFd (x)−(F (x− )−αFd (x− ))
Fc (x) − Fc (x− ) = 1−α
= 0.
Veamos un ejemplo práctico de esta descomposición.
Ejemplo 1.7 Consideremos la función de distribución
0 si x < 0
2
x
si 0 ≤ x < 2
16
1
F (x) = 4 si 2 ≤ x < 4
x 5
− 8 si 4 ≤ x < 5
4
1 − 5
si x ≥ 5
4x
Determinamos la parte discreta de F .
D(F ) = {4, 5}
p(4) = F (4) − F (4− ) = 81 ,
p(5) = F (5) − F (5− ) = 18 .
0 si x < 4
Fd (x) = 12 si 4 ≤ x < 5
1 si x ≥ 5
10
Definimos ahora un nuevo tipo de variable aleatoria, que dará lugar a
otra nueva función de distribución.
F = βFs + (1 − β)Fac ,
11
Z Z
E(X) = X(ω) dP (ω) = X dP .
Ω Ω
2. Convergencia en distribución
La convergencia en distribución de variables aleatorias se caracteriza por
la convergencia de la sucesión de funciones de distribución asociadas.
En Teorı́a de la Medida existen tres tipos de convergencia de funciones
medibles: la convergencia casi segura o convergencia para casi todo punto, la
convergencia en medida y la convergencia en Lp .
En Teorı́a de la Probabilidad se usa un tipo de medida llamada proba-
bilidad.Luego en lugar de convergencia en medida diremos convergencia en
probabilidad.
En el caso de las variables aleatorias, que son funciones medibles, esta
convergencia es independiente de la distribución que generen. Además, en
estos casos, la sucesión de variables aleatorias {Xn } está definida en el mismo
espacio de probabilidad (Ω, A, P ).
Nosotros vamos a considerar sucesiones de variables aleatorias {Xx } que
pueden estar definidas sobre distintos espacios de probabilidad {Ωn , A, P ).
Ası́, para cada n, tenemos una función de distribución Fn , definida en todo
R. Tiene sentido por tanto considerar la sucesión de funciones de distribución
{Fn }, lo que nos da los espacios de probabilidad {R, B, PFn }.
12
si lı́m Fn (x) = F (x) para todo x ∈ C(F ).
n→∞
Definición 2.2 Sea {Xn } una sucesión de variables aleatorias y sea {Fn } la
d
sucesión de funciones de distribución asociada. Supongamos que Fn −→ F , y
sea X la variable aleatoria asociada a la función de distribución F . Diremos
entonces que {Xn } converge en distribución a X, y lo denotaremos por
d
Xn −→ X.
Demostración
d
Sea F una función de distribución tal que Fn −→ F . Supongamos que G
es otra función de distribución tal que la sucesión {Fn } converge débilmente
a G. Veamos que F = G.
d d
Como Fn −→ F y Fn −→ G, se verifica
)
lı́m Fn (x) = F (x) ∀x ∈ C(F )
n→∞
⇒ F (x) = G(x) ∀x ∈ F (x) ∩ G(x)
lı́m Fn (x) = G(x) ∀x ∈ C(G)
n→∞
13
Como el conjunto C(F ) ∩ C(G) es denso en R, por la proposición 1.3 se
concluye que F (x) = G(x) para todo x ∈ R o, lo que es lo mismo, F = G.
Viendo este resultado, es lı́cito pensar si ocurre lo mismo con el lı́mite
en distribución de una sucesión de variables aleatorias {Xn }. Pues bien, re-
sulta que no es posible asegurar una unicidad que afecte directamente a las
variables aleatorias; esto es, si X e Y son lı́mite en distribución de {Xn }, no
podemos afirmar que X = Y . Ello se debe a que, aunque sea cierto que el
lı́mite en distribución precisa de un lı́mite débil, que sabemos que es único,
esto no implica que el lı́mite en distribución vaya a serlo, ya que para cada
función de distribución existen bastantes variables aleatorias que la generan.
Sin embargo, podemos dar una unicidad que afecte a las probabilidades
inducidas PX y PY generadas por X e Y respectivamente.
En efecto, por ser X y Y lı́mite en distribución, entonces las funciones de
distribución FX y FY asociadas a las variables X e Y , respectivamente, son
lı́mite débil de la sucesión de funciones de distribución asociada a {Xn }. Aho-
ra podemos aplicar el resultado y obtenemos que FX = FY , lo que desemboca
en la igualdad de las probabilidades inducidas por las variables X e Y .
14
continuidad a la izquierda de la función G en 0 a la continuidad a la derecha,
obteniendo ası́ la función de distribución
(
0 si x < 0,
F (x) =
1 si x ≥ 0,
En este ejemplo hemos partido de una sucesión de distribuciones degene-
radas es un punto y hemos obtenido como lı́mite una función de distribución
cuya variable aleatoria asociada es degenerada en un punto.
Si consideramos ahora la sucesión Xn ∼ δ(− n1 ) con funciones de distribu-
ción (
0 si x < − n1
Fn (x) =
1 si x ≥ − n1
entonces, el lı́mite puntual sı́ es función de distribución porque ahora es
continua por la derecha, y coincide con el lı́mite en distribución:
(
0 si x < 0
lı́m Fn (x) = F (x) =
n→∞ 1 si x ≥ 0
15
En este nuevo ejemplo, una sucesión de distribuciones uniformes tiene
como lı́mite en distribución a una variable aleatoria degenerada.
En este ejemplo vamos a ver cómo una sucesión de distribuciones unifor-
mes discretas converge en distribución a una distribución continua.
16
Con esta definición, el conjunto Q no es un conjunto de PF -probabilidad,
ya que ∂(Q) = R, y PF (R) = 1 6= 0, y es fácil ver que no puede ser
lı́m PFn (Q) = PF (Q)
n→∞
Veamos un último ejemplo.
Vemos entonces que las variables Xn son mixturas de una distribución dege-
nerada en 0 y de una uniforme en [0, n]. Podemos descomponer pues Fn =
1 (d) (c)
F + 12 Fn .
2 n
El lı́mite puntual de la parte continua es 0 en todo R, luego el lı́mite
puntual de la sucesión de funciones será
(
0 si x < 0,
G(x) = 1
2
si x ≥ 0.
En este ejemplo no podemos solucionar el problema del mismo modo que
en los anteriores. Sin embargo, esa situación es salvable definiendo la función
de distribución impropia, que analizaremos más adelante.
17
Algunos de los resultados que vamos a estudiar los recoge Billingsley en un
solo teorema que denomina teorema de la maleta(”portmanteau”); mientras
que otros autores , como Loeve, los analizan de manera separada. Loeve los
denominada teoremas de Helly-Bray; en particular, el referido a la esperanza
de una función continua y acotada.
Trabajaremos directamente con la sucesión de funciones de distribución
{Fn } y obviaremos la sucesión de variables aleatorias.
También es interesante considerar la sucesión de las medidas de proba-
bilidad inducida {PFn } o {PXn }, y que están asociadas a las funciones de
distribución.
d
También usaremos la notación Pn −→ P .
y que además
PF (a, b] = F (b) − F (a). (2)
⇒ Supongamos que se da la convergencia de las funciones de distribu-
ción, es decir,
18
lı́m Fn (x) = F (x) para cada x ∈ C(F ).
n→∞
Entonces se tiene
(2) (1)
lı́m PFn (a, b] = lı́m (Fn (b) − Fn (a)) = lı́m Fn (b) + lı́m Fn (a) =
n→∞ n→∞ n→∞ n→∞
F (b) − F (a) = PF (a, b].
d
Luego PFn −→ PF .
d
⇐ Supongamos ahora que PFn −→ PF .
Como el conjunto C(F ) es denso en R tiene sentido tomar a → −∞ y
obtenemos ası́, para cada x ∈ C(F ),
lı́m sup Fn (x) ≤ F (x) y lı́m inf Fn (x) ≥ F (x− ) para todo x ∈ R.
n→∞ n→∞
Demostración
⇐ Por hipótesis se verifica
lı́m sup Fn (x) ≤ F (x) y lı́m inf Fn (x) ≥ F (x− ) para todo x ∈ R,
n→∞ n→∞
19
Por definición sabemos que F (x− ) = F (x) para cada x ∈ C(F ). Luego
lı́m sup Fn (x) ≤ F (x) y lı́m inf Fn (x) ≥ F (x− ) = F (x) para todo x ∈ C(F ).
n→∞ n→∞
De esta forma, para todo x ∈ C(F ), F (x) = lı́m inf Fn (x) = lı́m sup Fn (x), lo
n→∞ n→∞
que implica que la sucesión {Fn (x)} converge para cada x ∈ C(F ) y
lı́m Fn (x) = F (x), dándose ası́ la condición de convergencia débil.
n→∞
⇒ Supongamos ahora que se da la convergencia débil.
Sea x ∈ R y consideremos y ∈ C(F ) con y > x, entonces
lı́m sup Fn (x) ≤ lı́m Fn (y) = F (y).
n→∞ n→∞
Como y > x era genérico, podemos tomar una sucesión decreciente {yn } ⊂
C(F ) tal que yn → x. Representaremos esto por y ↓ x.
Tomando lı́mite cuando y ↓ x se llega a
lı́m sup Fn (x) ≤ lı́m F (y) = F (x).
n→∞ y↓x
20
Z Z
lı́m dFn (x) = dF (x);
n→∞ R R
esto es,
Z Z
d
Fn −→ F ⇔ g(x)dFn (x) −→ g(x)dF (x) para toda g acotada y
R R
continua.
Demostración
⇒ Verifiquemos primero que si
Z Z
lı́m g(x)dFn (x) = g(x)dF (x),
n→∞ R R
para toda función g acotada y continua entonces se da la convergencia en
distribución; para ello demostraremos que
lı́m sup Fn (x) ≤ F (x) y lı́m inf Fn (x) ≥ F (x− ) para todo x ∈ R
n→∞ n→∞
21
Z Z Z
Fn (x) = dFn (t) ≥ gε− (t)dFn (t) = gε− (t)dFn (t).
(−∞,x] (−∞,x] R
g(x)+M
Consideremos M = sup |g(x)| < ∞, y sea g0 = 2M
.
x∈R
Entonces 0 ≤ g0 (x) ≤ 1, y si demostramos la desigualdad anterior para
g0 la tendremos demostrada para g.
Renombramos g0 como g. Z
Sea ε > 0, como C(F ) es denso en R y dF (x) = 1, existen a, b ∈ C(F )
R
tales que
Z
ε
dF (x) = F (b) − F (a) > 1 − ;
(a,b] 2
y
Z Z Z
ε
dF (x) = dF (x) + dF (x) < .
(a,b]C (−∞,a] (b,∞) 2
Dado que lı́m Fn (x) = F (x) para todo x ∈ C(F ), existirá un N tal que
n→∞
para todo n ≥ N se verifica que
Z
ε
dFn (x) < .
(a,b]C 2
22
Z Z Z Z
ε
g(x)dFn (x) = g(x)dFn (x)+ g(x)dFn (x) < g(x)dFn (x)+ .
R (a,b] (a,b]C (a,b] 2
Entonces
Z Z
ε
lı́m sup g(x)dFn (x) < lı́m sup g(x)dFn (x) + .
R (a,b] 2
entonces
Entonces para xi−1 < x < xi se tiene, al ser |xi − xi−1 | < δ,
23
Como (xi−1 , xi ] es un conjunto PFn -continuo podemos tomar lı́mite y lle-
gamos a
Z m
X ε
lı́m sup g(x)dFn (x) ≤ lı́m g(xi ) + PFn (xi−1 , xi ] =
n→∞ (a,b] n→∞
i=1
4
m m Z
X ε X ε
= g(xi ) + PF (xi−1 , xi ] = g(xi ) + dF (x) =
i=1
4 i=1
4 (xi−1 ,xi ]
m Z m Z
X ε X ε
= g(xi ) + dF (x) ≤ g(x) + dF (x) =
(x i−1 ,x i ] 4 (x i−1 ,x i ] 2
Zi=1 Z i=1
ε ε
= g(x) + dF (x) ≤ g(x)dF (x) + .
(a,b] 2 R 2
24
Z Z Z
lı́m inf g(x)dFn (x) = − lı́m sup (−g(x))dFn (x) ≥ − (−g(x))dF (x) =
R Z R R
= g(x)dF (x).
R
En el desarrollo de esta demostración hemos utilizado dos esperanzas: la
esperanza a trozos (que ya no se usa) y la esperanza usual.
Podemos escribir el teorema de Helly-Bray en término de esperanzas no
la siguiente forma.
Z
Sabemos que g(x)dF (x) es la esperanza matemática de la transforma-
R
ción g(X), donde X es la variable aleatoria asociada a F .
Por lo tanto, la igualdad
Z Z
lı́m g(x)dFn (x) = g(x)dF (x),
n→∞ R R
25
El lı́mite puntual es
0 si x<0
1
si x=0
4
G(x) = x 1
+ si 0<x<2
2 2
1 si x≥2
Para determinar el lı́mite débil tenemos que hacer que el punto de dis-
continuidad lo sea solo por la izquierda, resultando
0
si x < 0
x 1
F (x) = 4 + 2 si 0 ≤ x < 2
1 si x ≥ 2
(
1 si 0 < x ≤ 2
g(x) = I(0,2] =
0 en otro caso
Vamos a determinar
lı́m E(g(Xn )) y E(g(X)).
n→∞
Se tiene
Z Z
E(I(0,2] (Xn )) = I(0,2] (x)dFn (x) = dFn (x) = Fn (2) − Fn (0) =
R (0,2]
1 1 3 1
=1− + = −
2n 4 4 2n
Se tiene entonces que
lı́m E(I(0,2] (Xn )) = 34 .
n→∞
Mientras que
Z Z
E(I(0,2] (X)) = I(0,2] (x)dF (x) = dF (x) = F (2) − F (0) =
R (0,2]
1 1
=1− = .
2 2
Esto es, si g no es continua, entonces,
26
d
Fn −→ F ; lı́m E(g(Xn )) = E(g(X)).
n→∞
27
Esto es, se tiene que
lı́m E(g(Xn )) = E(g(Y ));
n→∞
Sin embargo,
d
Fn 9 G.
Se tiene ahora
Z
E(Xn ) = xdFn (x) =
R
Z 0 Z 2
1 2 1 1 1
=0∗ + ∗ + x dx + x dx =
4 n 4 −1 2n 2
n
4
1 1 1
= + − 2
2 4n 2n
Se tiene entonces que
lı́m E(Xn ) = 12 .
n→∞
28
y la función de densidad de la parte continua es
(
1
si 0 ≤ x < 2
f (x) = 4
0 en otro caso
Se tiene entonces
Z Z 2
1 1 1
E(X) = xdF (x) = 0 ∗ + x dFn (x) = .
R 2 0 4 2
29
Por lo tanto, lı́m E(Xn )) = E(X).
n→∞
Terminamos esta sección con un ejemplo que muestra que la convergencia
débil no implica la convergencia de momentos.
Ejemplo 3.4 Consideremos la sucesión de variables aleatorias binomiales,
{Xn }, donde Xn ∼ B(n, pn ).
Supongamos que pn −→ 0 y que E[Xn ] = npn −→ λ, siendo λ > 0.
Esto implica que Xn −→ X, siendo X ∼ P (λ). Sea F la función de
distribución asociada a X.
Como X ∼ P (λ) se tiene E[X] = λ. Luego lı́m E[Xn ] = E[X] = λ.
n→∞
Veamos que no ocurre lo mismo con los momentos de orden 2.
V ar[X] = λ
=⇒ lı́m V ar[Xn ] 6= V ar[X]
V ar[Xn ] = npn (1 − pn ) −→ qλ n→∞
4. Convergencia vaga
4.1. Distribuciones impropias
Hasta ahora siempre hemos supuesto que la función de distribución lı́mite
F debe verificar que F (−∞) = 0 y F (+∞) = 1; esto nos segura que sea
la función de probabilidad de una medida de probabilidad. En ocasiones, el
lı́mite no verifica alguna de estas condiciones, como ocurre en el de la sucesión
de mixturas de degeneradas con uniformes, donde F (+∞) < 1. Sin embargo,
no debemos despreciar el análisis de esta situación.
30
Equivalentemente, una función de distribución es impropia si, y solo si,
su variación es menor estricta que 0.
Recordemos que la variación de una función de distribución F es
Lo denotaremos por
v
Fn −→ F .
31
lı́m Fn (x) = F (x) = 21 ,
n→∞
pero
mientras que
F (−∞) = F (+∞) = 12 .
v
Por tanto , F no es una función de distribución propia. Luego Fn −→ F
d
pero Fn 9 F .
Otro ejemplo que converge a una función de distribución impropia es el
siguiente
32
1
De nuevo, esta sucesión converge vagamente cuando n → ∞ a F (x) = 2
para todo x ∈ R.
Aunque la convergencia débil implica la convergencia vaga, el problema
de Helly-Bray no se extiende a la convergencia vaga. Esto se ve en el siguiente
ejemplo.
Ejemplo 4.3 Consideremos la sucesión de funciones de distribución con
masa en 0 y n, dada por
0 si x < 0
Fn (x) = 12 si 0 ≤ x < n
1 si x ≥ n
33
Mientras que
Z
1
dF (x) = .
R 2
Demostración
La demostración es análoga a la usada en el teorema de Helly-Bray para
demostrar que
Z Z
lı́m sup g(x)dFn (x) ≤ g(x)dF (x),
(a,b] R
g(−∞) = g(+∞) = 0.
se verifica
Z Z
lı́m g(x)dFn (x) = g(x)dF (x).
n→∞ R R
Demostración
Volvemos a usar la demostración del teorema de Helly-Bray. En este caso
hay que observar que, al ser F impropia, no podemos asegurar que exista un
N tal que para todo n ≥ N se verifica que
34
∈(a,b]c dFn (x) < ε;
( ( (
0 si x < −1 0 si x < 2 0 si x < −3
F1 (x) = F2 (x) = F3 (x) = ···
1 si x ≥ −1 1 si x ≥ 2 1 si x ≥ −3
35
Es obvio que esta sucesión no converge, ni siquiera puntualmente. Sin
embargo, existen dos subsucesiones {F2n } y {F2n+1 } que convergen a las dis-
tribuciones impropias constantes 0 y 1, respectivamente.
Lo que nos muestra este ejemplo es que, aunque una sucesión de funciones
de distribución {Fn } puede no ser convergente, sı́ que tiene alguna subsuce-
sión que es convergente. Esto es análogo al teorema de Bolzano Weierstrass
para sucesiones en R, y es una afirmación válida para cualquier sucesión de
funciones de distribución {Fn }.
Pensar esto tiene cierto sentido, ya que la sucesión de funciones de dis-
tribución está contenida en el intervalo [0, 1], y cada uno de sus elementos es
creciente.
En resumen, queremos probar que cada sucesión de funciones de distri-
bución tiene una subsucesión que converge( al menos vagamente).
Para probar esto, comenzamos viendo una caracterización de la conver-
gencia vaga.
Demostración
La primera implicación es inmediata, ya que si se da la convergencia vaga,
lı́m Fn (x) = F (x) para cada x ∈ C(F ), que es un conjunto denso en R.
n→∞
Para demostrar el recı́proco, vamos a construir una función de distribu-
ción F (propia o impropia) tal que
v
Fn −→ F .
0 ≤ FD (r) ≤ 1, ∀r ∈ D.
36
FD (r) = lı́m Fn (r) ≤ lı́m Fn (s) = FD (s),
n→∞ n→∞
Luego
F (y) ≤ FD (r).
F (x+ ) ≤ FD (r),
luego F (x+ ) es cota inferior del conjunto {FD (r) : r ∈ D, r > x}, lo que
nos permite deducir que
37
Por lo tanto, F (x+ ) = F (x). Luego F es continua por la derecha.
v
Veamos ahora que Fn −→ F . Para ello, probaremos que
Por otra parte, para r, r0 ∈ D con r < r0 se verifica que F (r) ≤ FD (r0 ).
38
Luego
Demostración
Queremos usar el lema anterior. Por ello tenemos que encontrar un con-
junto denso en R, que será Q, y una subsucesión que converja en este con-
junto.
Para seleccionar esta subsucesión vamos a utilizar el método de diagona-
lización de Cantor.
Para ello, comenzamos considerando una numeración {rk , k ≥ 1} de los
elementos de Q.
Consideremos la sucesión de números reales {Fn (r1 )}. Por el teorema de
Bolzano-Weierstrass, esta sucesión tiene una subsucesión {F1,n (r1 )} conver-
gente a un número real x1 , es decir, lı́m F1,n (r1 ) = x1 .
n→∞
Consideremos ahora la subsucesión {F1,n (r2 )}. De nuevo por el teorema de
Bolzano-Weierstrass, existe una subsucesión {F2,n (r2 )} tal que lı́m F2,n (r2 ) =
n→∞
x2 , con x2 ∈ R.
Además, esta subsucesión también verifica lı́m F2,n (r1 ) = x1 , pues es una
n→∞
subsucesión de la primera subsucesión.
39
Continuando con este procedimiento obtenemos una familia de sucesiones
{F1,n }, {F2,n }, {F3,n }... en la que cada sucesión {Fk,n } es una subsucesión de
{Fk−1,n }.
Además, se verifica
Si bien este resultado nos asegura que existe una subsucesión de funciones
de distribución que converge, al menos, vagamente, serı́a interesante ver si
existe alguna condición para que esa convergencia sea vaga.
Comenzamos introduciendo una propiedad referente a una familia de fun-
ciones de distribución.
40
PF (−a, a] > 1 − ε para todo F ∈ H.
Demostración
⇒ Supongamos primero que la familia H es ajustada y veamos que es
relativamente compacta.
Tomemos una sucesión {Fn } de H. Tenemos que probar que ver que tiene
una subsucesión {Fnk } que converge débilmente.
Por el principio de selección de Helly, sabemos que existe una subsucesión
{Fnk } tal que
v
Fnk −→ F .
41
PFn (−a, a] > 1 − ε para todo n;
que lo podemos expresar como
Fn (a) − Fn (−a) > 1 − ε para todo n.
Sean, ahora, α, β ∈ C(F ) tales que
α ≤ −a y β ≥ a,
se tiene que
Fnk (β) − Fnk (α) > 1 − ε para todo nk .
Tomando lı́mite cuando k → ∞ se llega a
F (β) − F (α) = lı́m (Fnk (β) − Fnk (α)) > 1 − ε.
k→∞
42
con lo cual
Fnk (b) − Fnk (a) ≤ Fnk (nk ) − Fnk (−nk ) ≤ 1 − ε.
Tomando lı́mite cuando k → ∞ se llega a
F (b) − F (a) ≤ lı́m sup(Fnk (nk ) − Fnk (−nk )) ≤ 1 − ε < 1.
k→∞
43
d
Fn −→ F .
Demostración
Lo haremos por reducción al absurdo. Supongamos que no se da la con-
vergencia débil a F de la sucesión completa. Entonces existe x ∈ C(F ) tal
que
Fn (x) 9 F (x).
Debe existir una subsucesión {Fnk (x)} de {Fn (x)} que converja a un valor
α 6= F (x).
Sin embargo, por el teorema de Prohorov, existe una subsucesión de {Fnk }
que converge débilmente, y debe hacerlo a F , por hipótesis del teorema.
Tenemos entonces
5. Convolución
Definición 5.1 Sean F1 y F2 dos funciones de distribución. Se define la
convolución de F1 por F2 como la función
Z
(F1 ∗ F2 )(x) = F1 (x − y)dF2 (y) para todo x ∈ R.
R
1. F1 ∗ F2 es monótona no decreciente.
Demostración
44
1. F1 ∗ F2 es monótona no decreciente:
Sean x1 , x2 ∈ R con x1 < x2 . Entonces
Z Z
(F1 ∗ F2 )(x1 ) = F1 (x1 − y)dF2 (y) ≤ F1 (x2 − y)dF2 (y) =
R R
(F1 ∗ F2 )(x2 ),
2. F1 ∗ F2 continua a la derecha:
Consideremos x ∈ R. Se tiene que
Z
lı́m(F1 ∗ F2 )(x + h) = lı́m F1 (x + h − y)dF2 (y).
h↓0 h↓0 R
de donde se llega a
45
Por lo tanto, F1 ∗ F2 es una función de distribución.
La convolución tiene una importante utilidad, ya que nos permite obtener
la función de distribución asociada a la suma de variables aleatorias.
Demostración
Sea Z = X ∗ Y y sea FZ su función de distribución. Entonces,
Z
FZ (z) = P (X + Y ≤ z) = dF(X,Y ) (x, y) =
{x+y≤z}
Z Z Z Z
dF(X,Y )(x, y) = dFX (x) dFY (y) =
Z R (−∞,z−y] R (−∞,z−y]
46
Si z < 0 ⇒ z − y < 0 para todo y ∈ [0, 1] ⇒ FX (z − y) = 0. Entonces
Z
FZ (z) = (FX ∗ FY )(z) = FX (z − y)dFY (y) = 0.
R
47
Al igual que hemos hecho con las funciones de distribución, podemos
definir la convolución para funciones de densidad.
Demostración
De la misma forma que la convolución de funciones de distribución nos
permitı́a obtener la función de distribución de la suma de variables aleatorias,
el producto en distribución nos va a permitir, siempre que sea posible, obtener
la función de densidad de la suma de dos variables aleatorias.
48
Demostración
Tenemos que verificar que
Z z
(F1 ∗ F2 )(z) = (f1 ∗ f2 )(t) dt.
−∞
Ilustremos este teorema con un ejemplo práctico.
Calculemos
Z ∞
fX+Y (z) = (fX ∗ fY )(z) = fX (z − y)fY (y) dy.
−∞
Recuperemos el soporte de X + Y ,
SX+Y |Y = {z ∈ R : 0 ≤ z − y ≤ 1, 0 ≤ y ≤ 1}
49
Entonces
Z ∞
fX+Y (z) = (fX ∗ fY )(z) = fX (z − y)fY (y) dy =
Z z Z 1 −∞ Z z Z 1
fX (z − y)fY (y) dy + fX (z − y)fY (y) dy = 1 dt + 0 dy = z.
0 z 0 z
− Si 0 ≤ y < z − 1 ⇒ z − y ≥ 1 ⇒ fX (z − y) = 0,
− Si z − 1 ≤ y < 1 ⇒ 0 ≤ z − y < 1 ⇒ fX (z − y) = fY (y) = 1.
Entonces
Z ∞ Z z−1
fX+Y (z) = (fX ∗ fY )(z) = (z − y)fY (y) dy = fX (z −
Z 1 −∞ Z z−1 0
Z 1
y)fY (y) dy + fX (z − y)fY (y) dy = 0 dy + 1 dy = 2 − z.
z−1 0 z−1
De esta forma
z
si 0 ≤ z < 1
fX+Y (z) = 2 − z si 1 ≤ z ≤ 2
0 en otro caso
Demostración
Para demostrar que es absolutamente continua tenemos que comprobar
que existe una función f tal que para todo z se tiene que
Z z
(F1 ∗ F2 )(z) = f (t) dt.
−∞
50
Se verifica, para cada z,
Z ∞ Z ∞ Z z−x
(F2 ∗ F1 )(z) = F2 (z − x) dF1 (x) = f2 (t) dt dF1 (x)
−∞ −∞ −∞
Z ∞ Z z Z z
∞∞
= f2 (s − x) ds dF1 (x) = −∞ f2 (s − x) dF1 (x) ds.
−∞ −∞ −∞
51