Tema 1. Función de Distribución

Tema 1.
La función de distribución
1. Introducción
1.1. Contexto
La teorı́a de la probabilidad intenta construir o describir modelos ma-
temáticos que se ajusten a los denominados fenómenos aleatorios o ex-
perimentos aleatorios, que son aquellos en los que, bajo las mismas con-
diciones, no se pueden predecir los resultados. Por ejemplo, el lanzamiento
de un dado.
Todos podemos tener una idea intuitiva de los que es la probabilidad. Por
ejemplo, cuando decimos que un suceso, llamémosle A, tiene una probabilidad
de 0, 5, esperamos que ocurra la mitad de las veces en las que realicemos el
experimento, siempre que se haga en las mismas condiciones y de manera
independiente. Esta idea frecuencial es, en cierto modo, intuitiva, pero si
queremos establecer una teorı́a no podemos dejarnos guiar siempre por la
intuición, ya que en ciertas ocasiones nos puede llevar a un error. Esto se ve
en el siguiente ejemplo, conocido como el problema de Monty-Hall.
Ejemplo 1.1 En un concurso se ofrece escoger entre tres puertas: detrás de

una de ellas hay un coche, y detrás de las otras, cabras. Escoges una puerta,
digamos la no 1, y el presentador, que sabe lo que hay detrás de las puertas,
abre otra, digamos la no 3, que contiene una cabra. Entonces te pregunta:
”¿No prefieres escoger la no 2?”. El problema surge al preguntarnos si será
favorable para nosotros cambiar de puerta o seguir con la puerta no 1, es decir,
si la probabilidad de ganar el coche aumentará o no al cambiar de puerta.
La intuición puede hacernos pensar entonces que, como nos quedan dos
puertas, entonces la probabilidad de que el coche está en una de ellas es de
1
2
, lo que no nos influirı́a a la hora de cambiar de puerta. Sin embargo, la
probabilidad de que el coche esté en la puerta no 2 es de 23 . ¿Qué está fallando
entones? Bien, es lógico pensar que, si tenemos dos puertas, una con un
coche y otra con una cabra, entonces la probabilidad de que el coche esté en
una de ellas es 12 . Pero hay que tener en cuenta que el presentador abre la
1
puerta no 3 después de que nosotros hallamos elegido la puerta no 1, es decir,
nuestra decisión ha afectado a la puerta que abre el presentador. Veamos
cómo afecta:
Por una parte, si la puerta no 1 es la que tiene el coche, entonces el pre-
sentador puede abrir la puerta no 2 o la no 3. En este caso, no es favorable
cambiar de puerta.
Por otra parte, si la puerta no 1 tiene una cabra, entonces el presentador
tendrá que abrir la puerta que no tenga el coche. En este caso, es favorable
cambiar de puerta.
El modo en el que nuestra decisión inicial influye es, por tanto, en el
número de puertas que puede abrir el presentador.
La razón de que la probabilidad de que el coche esté en la puerta no 2
sea de 23 en lugar de 12 es que, en cierto sentido, la puerta no 2 absorbe la
probabilidad de la puerta no 3. En efecto, inicialmente la probabilidad de que
el coche esté en la puerta no 1, no 2 o no 3 es de 31 . Sin embargo, al abrir la
puerta no 3 y ver una cabra, la probabilidad de que el coche esté en la puerta
no 3 es 0, mientras que la probabilidad de que el coche esté en la puerta no 2
pasa a ser 32 . Esto se debe a que una vez elegida la puerta no 1, y antes de
abrir la no 3, la probabilidad de que el coche no esté en la puerta no 1 es de 23 .
El abrir la puerta no 3 no cambia la probabilidad de que el coche no esté en
la puerta no 1(ya que el presentador abrirá la puerta que no tenga el coche), es
decir, la probabilidad de que el coche no esté en la puerta no 1 seguirá siendo
2
3
(aunque ya sepamos que la puerta no 3 tiene una cabra).
Por lo tanto, la puerta no 2 tiene una probabilidad de 23 de tener el coche.
Una forma más fácil de ver este ejemplo es tomando un número más
grande de puertas. Por ejemplo, supongamos que en las mismas condiciones
anteriores tenemos 1000 puertas: una de ellas con un coche y las otras 999
con una cabra. Al igual que antes elegimos la puerta no 1, que tiene una pro-
1
babilidad de 1000 de tener el coche. Esta vez, el presentador abre 998 puertas,
todas con cabras. Supongamos que la puerta que ha dejado sin abrir es la
no 2, y nos hacen la misma pregunta “¿Quieres cambiar de puerta?
999
Ahora la probabilidad de que el coche esté en la puerta no 2 es de 1000 ,
luego tiene sentido cambiar de puerta.

Otro ejemplo muy parecido al anterior es el siguiente:
Ejemplo 1.2 Tres prisioneros A,B,C se enteran de que uno de ellos va a ser
indultado, y saben que el guarda de la prisión sabe a cual de ellos indultarán.
El prisionero A se pone pesado y, después de un buen rato preguntando,
consigue que el guarda le de la siguiente información: “No te diré si tú eres
el indultado o no, sino que el no indultado es el B“.
2
Muy contento, el prisionero A le dice al prisionero C que ambos tienen
una probabilidad de 21 de ser indultados. Entonces el prisionero C se rı́e, ya
que en lugar de eso, es él quien tiene una probabilidad de 23 de ser indultado,
mientras que el prisionero A tiene una probabilidad de 13 .

El contexto adecuado para establecer la teorı́a de la probabilidad es la
teorı́a de la medida, desarrollada, entre otros, por Borel, Lebesgue o Carat-
heodory.
Con toda esta teorı́a de la medida fue Kolmogorov quien, en 1993, da
cuerpo a la teorı́a de la probabilidad. Hasta entonces, el estudio de la pro-
babilidad consistı́a en un compendio de resultados, inicialmente con el fin de
encontrar soluciones a determinados problemas relacionados con juegos de
azar (Fermet y Pascal) y, más adelante, intentando dar respuesta a uno de
los problemas centrales del cálculo de probabilidades, el teorema central del
lı́mite (Bernoulli, De Moivre, Laplace...).
3
1.2. Espacio de probabilidad
Cuando queremos modelizar un experimento aleatorio; por ejemplo, el
lanzamiento de una moneda, el primer elemento que tenemos que describir
es el conjunto de los posibles resultados, que se denomina espacio muestral.
Definición 1.1 Denominamos espacio muestral, y denotamos por Ω, al

conjunto de los posibles resultados del experimento aleatorio. A los subcon-
juntos de Ω de les denominan sucesos.
En el ejemplo de lanzar una moneda, Ω solo tiene dos elementos, ((cara))

y ((cruz)).
Recordemos que el espacio muestral Ω puede tener una naturaleza muy di-
versa: finito, infinito numerable, infinito no numerable, continuo, n-dimensional...
En su proceso para axiomatizar la probabilidad, Kolmogorov establece un
conjunto de subconjuntos de Ω que son interesantes de medir. Dicho conjunto
es una σ-álgebra, a la que denotaremos por A.
Definición 1.2 Una familia A de subconjuntos de Ω es una σ-álgebra sobre

Ω cuando se verifica:
1. A es no vacı́a. Al menos ∅ u Ω están en A.
2. Si A ∈ A entonces Ac ∈ A. Aquı́, y de ahora en adelante, Ac = Ω \ A.
3. Si An ∈ A, n=1,2,..., entonces ∞
S
n=1 An ∈ A.
Por último, necesitamos una función de conjunto P , que verifique la de-

nominada Axiomática de Kolmogorov. Estos axiomas son:
1. Para todo A ∈ A, 0 ≤ P (A) ≤ 1.
2. P (Ω) = 1.
3. Si An ∈ A, n=1,2,..., son tales que Ai ∩ Aj = ∅ para todo i 6= j, se

verifica
∞ ∞
S P
P An = P (An ).
n=1 n=1
En particular, P es una medida finita y σ-aditiva.
Definición 1.3 Llamaremos espacio de probabilidad a la terna (Ω, A, P ),

donde A es una σ-álgebra sobre Ω y P : Ω −→ [0, 1] es una función que ve-
rifica los axiomas de Kolmogorov.
4
Una dificultad que se nos plantea es que, al ser P una función de con-
juntos, es difı́cil operar con ella ya que los elementos de A pueden ser muy
complejos. Para ello introducimos el concepto de variable aleatoria, que nos
permite asociar a los elementos de Ω números reales.
Definición 1.4 Se define una variable aleatoria como una función me-
dible X : Ω −→ R; esto es, las imágenes inversas de conjuntos de Borel son
conjuntos medibles,
X −1 (B) = {ω ∈ Ω : X(ω) ∈ B} ∈ A para todo B ∈ B.
Una variable aleatoria X genera sobre el espacio probabilizable (R, B)
una probabilidad inducida PX , que es una medida de Lebesgue-Stieltjes.
Definición 1.5 Dada una variable aleatoria X, se denomina probabilidad
inducida a la medida PX sobre el espacio probabilizable (R, B) definida por
PX (B) = P (X −1 (B)) = P ({ω ∈ Ω : X(ω) ∈ B}).
De ahora en adelante escribiremos P {ω ∈ Ω : X(ω) ∈ B} en lugar
de P ({ω ∈ Ω : X(ω) ∈ B})
Al igual que antes, la función PX es una función de conjunto,
PX : B −→ [0, 1], lo que nos vuelve a dificultar el trabajo ya que no es fácil
de manejar; por lo que se hace necesario buscar una función puntual, esto es,
una función R −→ R.
Como la función PX es una medida de Lebesgue-Stieljes, esto nos lleva a
pensar que la función puntual que nos facilita el trabajo será una función de
distribución.
1.3. Función de distribución

Definición 1.6 Llamaremos función de distribución de probabilidad
o simplemente función de distribución a una función F : R −→ [0, 1]
definida por
F (x) = PX ((−∞, x]) = P {ω : X(ω) ≤ x}
De manera simplificada escribiremos
F (x) = PX (−∞, x] = P (X ≤ x)
La función de distribución nos va a premitir definir la probabilidad in-
dependientemente de la variable aleatoria escogida. Ocurre lo contrario con
la probabilidad inducida, ya que dos variables aleatorias que sean distintas
pueden inducir la misma probabilidad.
5
Ejemplo 1.3 En efecto, supongamos que consideramos el experimento alea-
torio consistente en tirar una moneda. Nuestro espacio muestral será Ω =
{Cara, Cruz}.
Definimos las variables aleatorias
X : Ω −→ [0, 1]
X(Cara) = 1, X(Cruz) = 0.
Y : Ω −→ [0, 1]
Y (Cara) = 0, Y (Cruz) = 1.
Sean ahora PX y PY las respectivas probabilidades inducidas. Se verifica

entonces
PX (1) = 12 , PX (0) = 1
2
PY (1) = 12 , PY (0) = 1
2
Claramente se ve que PX = PY , mientras que X 6= Y .

Recordemos algunas propiedades de la función de distribución.
Proposición 1.1 La función de distribución verifica las siguientes propie-
dades:
1. F es monótona no decreciente.
2. F (−∞) = lı́m (F (x)) = 0 y F (∞) = lı́m (F (x)) = 1.
x→−∞ x→∞
3. F es continua por la derecha para todo x ∈ R; es decir,
F (x+ ) = lı́m+ (F (x + h)) = F (x)

h→0
4. lı́m− (F (x + h)) existe para todo x ∈ R y verifica

h→0
F (x− ) = lı́m− (F (x + h)) = F (x) − PX {x}.

h→0
El definir la función de distribución continua a la derecha es tan válido

como definirla a la izquierda, ya que se obtienen las mismas propiedades.
Sin embargo, por consenso tomamos la continuidad a la derecha. En algunos
textos aparece definida como continua a la izquierda.
Habitualmente, para hacer incapié en el uso de la integral de Lebesgue,
y para relacionarla con la integral de Riemann, escribiremos
6
Z Z x
F (x) = dF (t) = dF (t).
(−∞,x] −∞
Si F (∞) < 1 entonces hablamos de una distribución impropia.

En el ejemplo anterior vimos que una distribución de probabilidad puede
estar generada por dos variables aleatorias distintas. El siguiente resulta-
do establece que una función de distribución sólo puede estar asociada una
medida de probabilidad.
Teorema 1.1 Sea F : R −→ [0, 1] tal que
1. F (−∞) = lı́m (F (x)) = 0 y F (∞) = lı́m (F (x)) = 1.

x→−∞ x→∞
3. F es continua por la derecha; es decir, F (x+ ) = F (x).
Entonces existe una única medida de probabilidad PF en (R, B), tal que F es
la función de distribución de PF . Esta medida es
PF (a, b] = F (b) − F (a)
Definiremos ahora dos conjuntos importantes asociados a la función de dis-

tribución.
Definición 1.7 Se define el conjunto de probabilidad de la función de

distribución F como el conjunto de puntos donde F es continua; esto es,
C(F ) = {x ∈ R : F (x− ) = F (x)}.
Denotaremos por D(F ) al conjunto de los puntos de discontinuidad que, al

ser F continua por la derecha, resulta ser
D(F ) = {x ∈ R : F (x) − F (x− ) > 0} = (C(F ))c .
El siguiente resultado nos da una importante y útil información acerca del

conjunto de los puntos de discontinuidad.
Proposición 1.2 El conjunto D(F ) de los puntos de discontinuidad de una

función de distribución F es a lo sumo numerable.
Demostración
Consideremos el conjunto Dn = {x ∈ R : F (x) − F (x− ) ≥ n1 }.
Entonces, para cada n ∈ N, se verifica
1
n
card(Dn ) ≤ PX (Dn ) ≤ 1
7
Consecuentemente, card(Dn ) ≤ n para cada n ∈ N o, lo que es lo mismo,
cada conjunto Dn tiene un número finito de elementos.
Por otra parte se verifica que
∞
S
D(F ) = lı́m (Dn ) = Dn
n→∞ n=1
Al ser cada conjunto Dn finito, y por ser D(F ) unión infinita de los Dn ,
el conjunto D(F ) tiene que ser a lo sumo infinito numerable.

Este resultado sobre el conjunto D(F ) arroja información directa sobre
su complementario.
Corolario 1.1 El conjunto de continuidad de F es denso en R.
Demostración
Es inmediato, pues el conjunto de continuidad C(F ) es el complementario
de D(F ) que es a lo sumo numerable y, por tanto, cualquier entorno de un
elemento de R debe contener elementos de C(F ).

El hecho de que el conjunto D(F ) sea denso en R nos permitirá extender
las propiedades de la función de distribución, además de darnos el siguiente
resultado.
Proposición 1.3 Si F y G son dos funciones de distribución tales que F =

G en un subconjunto denso en R, entonces F = G para todos los reales.
Demostración
Sea D un conjunto denso de R donde coinciden F y G.
Sea x ∈ R, como D es denso en R existe una sucesión decreciente {xn }
de puntos de D con xn ↓ x cuando n → ∞.
Ahora bien, al ser F y G continuas por la derecha se tiene que
lı́m (F (xn )) = F (x) y lı́m (G(xn )) = G(x).
n→∞ n→∞
Como F y G coinciden en los puntos de D, las sucesiones {F (xn )} y
{G(xn )} coinciden y, consecuentemente F (x) = G(x).

1.3.1. Clasificación
Vamos a determinar la probabilidad en un punto aislado mediante una
función que llamaremos función de masa de probabilidad o, simplemente,
función de masa o función de probabilidad y viene dad por
8
p(x) = P (X = x) = F (x) − F (x− ) = PX {x}.
Atendiendo a esta función de masa, podemos clasificar las variables alea-
torias en dos grupos: discretas o continuas
Definición 1.8 (Variable aleatoria discreta)
Diremos que una variable aleatoria X con función de distribución F es
discreta si
P
p(x) = 1.
x∈D(F )
Definición 1.9 (Variable aleatoria continua)

Diremos que una variable aleatoria X con función de distribución F es
continua si
p(x) = 0 para todo x ∈ R.
Algunos ejemplos:
Ejemplo 1.4 Distribución binomial
n

X ∼ Bi(n, p). D(F ) = {0, 1, ..., n}, p(x) = k
px (1 − p)n−x .
Ejemplo 1.5 Distribución de Poisson
x
X ∼ P (λ). D(F ) = {0, 1, ...}, p(x) = e−λ λx! .
Ejemplo 1.6 Distribución exponencial
C(F ) = R
(
0 si x < 0
F (x) = −λ
1−e si x ≥ 0
1.3.2. Descomposición
Teorema 1.2 (Primera descomposición)
Toda función de distribución F se puede expresar como una combinación
lineal convexa (mixtura) de funciones de distribución de la forma
F = αFd + (1 − α)Fc ,
con 0 ≤ α ≤ 1, donde Fd es la función de distribución de una variable
aleatoria discreta y Fc es una función de distribución continua.
Demostración P
Consideremos el conjunto de discontinuidad D(F ) y sea α = p(x) ≤
x∈D(F )
1.
9
Se define la parte discreta de F como
Fd (x) = α1
P
p(xn ).
xn ≤x
La parte continua se obtiene despejando

F (x)−αFd (x)
Fc = 1−α
.
De esta forma Fc es continua, ya que
p(x)
Fd (x− ) = α1 p(xn ) y Fd (x) − Fd (x− ) =
P
α
,
xn ≤x
entonces
F (x)−αFd (x)−(F (x− )−αFd (x− ))
Fc (x) − Fc (x− ) = 1−α
= 0.

Veamos un ejemplo práctico de esta descomposición.
Ejemplo 1.7 Consideremos la función de distribución


 0 si x < 0
 2
x
si 0 ≤ x < 2


 16

1
F (x) = 4 si 2 ≤ x < 4
 x 5
− 8 si 4 ≤ x < 5



 4
1 − 5

si x ≥ 5
4x
Determinamos la parte discreta de F .
D(F ) = {4, 5}
p(4) = F (4) − F (4− ) = 81 ,
p(5) = F (5) − F (5− ) = 18 .

0 si x < 4

Fd (x) = 12 si 4 ≤ x < 5

1 si x ≥ 5

Para determinar la parte continua despejamos:

C(F ) = R \ {4, 5}


 0 si x<0

x2
si 0≤x<2


12

F (x) − αFd (x) 
1
Fc (x) = = 3 si 2≤x<4
1−α  x
−1 si 4≤x<5



 3
1 − 5

si x≥5
3x
10

Definimos ahora un nuevo tipo de variable aleatoria, que dará lugar a
otra nueva función de distribución.
Definición 1.10 Variable aleatoria singular

Diremos que una variable aleatoria es singular si existe B ∈ B tal que
PX (B) = 1 y tenga medida de Lebesgue nula, es decir, m(B) = 0.
Definición 1.11 Variable aleatoria absolutamente continua

Diremos que una variable aleatoria es absolutamente continua si para
cada B ∈ B que tenga medida de Lebesgue nula, m(B) = 0, se tiene que
PX (B) = 0.
Teorema 1.3 Sea F la función de distribución de una variable aleatoria.

Entonces F es absolutamente continua si, y solo si, existe una función me-
dible f tal que para todo a < b se tiene que
Z Z b
F (b) − F (a) = f (x)dm(x) = f (x)d(x),
(a,b] a
además, si existe otra función g en estas condiciones, se tiene que g = f casi

seguramente.
Este teorema no es más que la versión del teorema de Radon-Nikodim

aplicado a una medida de probabilidad y a la medida de Lebesgue.
Teorema 1.4 Segunda descomposición

Toda función de distribución F se puede expresar como una combinación
de funciones de distribución de la forma
F = βFs + (1 − β)Fac ,
con 0 ≤ β ≤ 1, donde Fs es una singular y Fac es absolutamente continua.
Este teorema es la versión del teorema de descomposición de Lebesgue

aplicado a una medida de probabilidad y a la medida de Lebesgue.
1.4. Integral de variables aleatorias

La integral de Lebesgue de una variable aleatoria respecto de la medida
de probabilidad recibe el nombre de esperanza; esto es, se define la esperanza
de una variable aleatoria X como
11
Z Z
E(X) = X(ω) dP (ω) = X dP .
Ω Ω
En un problema práctico, la esperanza nos da el resultado que se espe-

ra, es decir, si realizamos un experimento un número ilimitado de veces, la
esperanza será el resultado al que se aproximan los resultados.
Como X está asociada a una función de distribución sobre R, podemos
reescribir la esperanza de X en R como
Z Z
E(X) = d dF (x) = X dP .
R Ω
Recordemos que, si X es una variable aleatoria y g es una función medible

de R en R, entonces
Z Z
E(g(X)) = g(X) dP = g(x) dF (x).
Ω R
2. Convergencia en distribución
La convergencia en distribución de variables aleatorias se caracteriza por
la convergencia de la sucesión de funciones de distribución asociadas.
En Teorı́a de la Medida existen tres tipos de convergencia de funciones
medibles: la convergencia casi segura o convergencia para casi todo punto, la
convergencia en medida y la convergencia en Lp .
En Teorı́a de la Probabilidad se usa un tipo de medida llamada proba-
bilidad.Luego en lugar de convergencia en medida diremos convergencia en
probabilidad.
En el caso de las variables aleatorias, que son funciones medibles, esta
convergencia es independiente de la distribución que generen. Además, en
estos casos, la sucesión de variables aleatorias {Xn } está definida en el mismo
espacio de probabilidad (Ω, A, P ).
Nosotros vamos a considerar sucesiones de variables aleatorias {Xx } que
pueden estar definidas sobre distintos espacios de probabilidad {Ωn , A, P ).
Ası́, para cada n, tenemos una función de distribución Fn , definida en todo
R. Tiene sentido por tanto considerar la sucesión de funciones de distribución
{Fn }, lo que nos da los espacios de probabilidad {R, B, PFn }.
Definición 2.1 Sea {Fn } una sucesión de funciones de distribución . Dire-

mos que {Fn } converge débilmente a la función de distribución F , y lo
denotaremos por
d
Fn −→ F
12
si lı́m Fn (x) = F (x) para todo x ∈ C(F ).
n→∞
La convergencia débil de la sucesión de funciones {Fn } provoca una con-

vergencia de la sucesión de variables aleatorias asociadas {Xn }.
Definición 2.2 Sea {Xn } una sucesión de variables aleatorias y sea {Fn } la
d
sucesión de funciones de distribución asociada. Supongamos que Fn −→ F , y
sea X la variable aleatoria asociada a la función de distribución F . Diremos
entonces que {Xn } converge en distribución a X, y lo denotaremos por
d
Xn −→ X.
Dicho de otra forma, la sucesión de variables aleatorias {Xn } converge en

distribución a la variable aleatoria X si, y sólo si, la sucesión de funciones de
distribución asociada {Fn } converge débilmente a la función de distribución
F asociada a la variable aleatoria X.
Debemos comentar que, por un abuso del lenguaje, estamos denotando
de la misma forma la convergencia débil y la convergencia en distribución.
En algunos textos, la convergencia en distribución de variables aleatorias se
w
denota por Xn −→ X, donde la w proviene del término ”weak”, que en inglés
significa débil.
Vale la pena destacar la condición de convergencia débil de funciones de
distribución que, en otras palabras, equivale a decir que el lı́mite puntual de
la sucesión {Fn } existe para los elementos de C(F ). Este hecho es importante
y muy útil, ya que nos permite afirmar que, de existir, el lı́mite débil de una
sucesión de variables aleatorias {Xn } es único.
Comencemos probando el siguiente resultado.
Teorema 2.1 Si existe el lı́mite débil de una sucesión de funciones de dis-

tribución {Fn }, entonces es único.
Demostración
d
Sea F una función de distribución tal que Fn −→ F . Supongamos que G
es otra función de distribución tal que la sucesión {Fn } converge débilmente
a G. Veamos que F = G.
d d
Como Fn −→ F y Fn −→ G, se verifica
)
lı́m Fn (x) = F (x) ∀x ∈ C(F )
n→∞
⇒ F (x) = G(x) ∀x ∈ F (x) ∩ G(x)
lı́m Fn (x) = G(x) ∀x ∈ C(G)
n→∞
13
Como el conjunto C(F ) ∩ C(G) es denso en R, por la proposición 1.3 se
concluye que F (x) = G(x) para todo x ∈ R o, lo que es lo mismo, F = G.

Viendo este resultado, es lı́cito pensar si ocurre lo mismo con el lı́mite
en distribución de una sucesión de variables aleatorias {Xn }. Pues bien, re-
sulta que no es posible asegurar una unicidad que afecte directamente a las
variables aleatorias; esto es, si X e Y son lı́mite en distribución de {Xn }, no
podemos afirmar que X = Y . Ello se debe a que, aunque sea cierto que el
lı́mite en distribución precisa de un lı́mite débil, que sabemos que es único,
esto no implica que el lı́mite en distribución vaya a serlo, ya que para cada
función de distribución existen bastantes variables aleatorias que la generan.
Sin embargo, podemos dar una unicidad que afecte a las probabilidades
inducidas PX y PY generadas por X e Y respectivamente.
En efecto, por ser X y Y lı́mite en distribución, entonces las funciones de
distribución FX y FY asociadas a las variables X e Y , respectivamente, son
lı́mite débil de la sucesión de funciones de distribución asociada a {Xn }. Aho-
ra podemos aplicar el resultado y obtenemos que FX = FY , lo que desemboca
en la igualdad de las probabilidades inducidas por las variables X e Y .
Ejemplo 2.1 Supongamos que Xn ∼ δ( n1 ), esto es, Xn posee una distribu-

ción degenerada en el punto n1 , luego toda la masa está concentrada en este
punto.
La correspondiente sucesión de funciones de distribución {Fn } viene dada
por
(
0 si x < n1
Fn (x) =
1 si x ≥ n1
El lı́mite puntual de esta función es
(
0 si x ≤ 0
G(x) = lı́m Fn (x) =
n→∞ 1 si x > 0
La función G es continua en todo R menos en el 0. El problema está en que
la discontinuidad en este punto está a la derecha. Por ello, esta función no
es una función de distribución.
Analizando la definición de lı́mite débil podemos ver una forma de so-
lucionar este problema. En efecto, para que una función de distribución F
sea lı́mite débil de la sucesión {Fn } tiene que verificarse lı́m Fn (x) = F (x),
n→∞
para cada x ∈ C(F ). Ahora bien, como G no es continua en 0, por defi-
nición se tiene 0 ∈
/ C(G). Esta es la clave, ya que nos permite pasar de la
14
continuidad a la izquierda de la función G en 0 a la continuidad a la derecha,
obteniendo ası́ la función de distribución
(
0 si x < 0,
F (x) =
1 si x ≥ 0,

En este ejemplo hemos partido de una sucesión de distribuciones degene-
radas es un punto y hemos obtenido como lı́mite una función de distribución
cuya variable aleatoria asociada es degenerada en un punto.
Si consideramos ahora la sucesión Xn ∼ δ(− n1 ) con funciones de distribu-
ción (
0 si x < − n1
Fn (x) =
1 si x ≥ − n1
entonces, el lı́mite puntual sı́ es función de distribución porque ahora es
continua por la derecha, y coincide con el lı́mite en distribución:
(
0 si x < 0
lı́m Fn (x) = F (x) =
n→∞ 1 si x ≥ 0
Veamos ahora un ejemplo en el que las distribuciones son uniformes en

cierto intervalo.
Ejemplo 2.2 Consideremos Xn ∼ U[− n1 , n1 ], con función de distribución es


0
 si x < − n1
1 nx
Fn (x) = 2
+ 2
si − n1 ≤ x < 1
n

1 si x ≥ n1

El lı́mite puntual de esta sucesión de funciones es


0 si x < 0

lı́m Fn (x) = G(x) = 12 si x = 0
n→∞ 
1 si x > 0

En este caso la función G es discontinua en 0, tanto por la derecha como

por la izquierda y, nuevamente, tenemos que considerar la degenerada en 0
como el lı́mite en distribución.
15

En este nuevo ejemplo, una sucesión de distribuciones uniformes tiene
como lı́mite en distribución a una variable aleatoria degenerada.
En este ejemplo vamos a ver cómo una sucesión de distribuciones unifor-
mes discretas converge en distribución a una distribución continua.
Ejemplo 2.3 Supongamos Xn ∼ U{ n1 , n2 , .., 1}. Las funciones de distribu-

ción vienen dadas por



 0 si x < n1 ,
1
si n1 ≤ x < n2 ,



 n

2

si n2 ≤ x < n3 ,
n
Fn (x) = ..


 .
n−1
si n−1




 n n
≤ x < 1,

1 si x ≥ 1,
Para determinar el lı́mite puntual vamos a reescribirla como

0
 si x < 0,
[nx]
Fn (x) = n
si 0 ≤ x < 1,

1 si x ≥ 1,

Vemos que el lı́mite puntual de esta sucesión de funciones es la función


0 si x < 0,

Fn (x) = x si 0 ≤ x < 1,

1 si x ≥ 1.

Luego, en este caso, el lı́mite es una distribución continua: la uniforme en

[0, 1].
Notemos que, aunque pueda parecer paradójico, P (Xn ∈ Q) = 1, mientras

que P (X ∈ Q) = 0, ya que el soporte de X es el intervalo [0, 1].
De esta forma, si definimos las medidas de probabilidad asociadas a las
funciones de distribución, se tiene que
lı́m PFn (Q) 6= PF (Q).
n→∞
Introducimos ahora un nuevo término.

Definición 2.3 Dado el espacio de probabilidad (R, B, P ), se dice que un
conjunto B ∈ B es un conjunto de P-continuidad si P (∂(B)) = 0.
Donde ∂(B) denota la frontera topológica de B.
16
Con esta definición, el conjunto Q no es un conjunto de PF -probabilidad,
ya que ∂(Q) = R, y PF (R) = 1 6= 0, y es fácil ver que no puede ser
lı́m PFn (Q) = PF (Q)
n→∞
Veamos un último ejemplo.
Ejemplo 2.4 Consideremos la sucesión de variables {Xn } con funciones de

distribución dadas por

0
 si x < 0,
Fn (x) = 21 + 2n
x
si 0 ≤ x < n,

1 si x ≥ n.

Podemos descomponer Fn en sus partes continua y discreta. Tenemos ası́ las

funciones de distribución,

0 si x < 0,
( 
(d) 0 si x < 0, (c)
Fn (x) = y Fn (x) = nx si 0 ≤ x < n,
1 si x ≥ 0; 
1 si x ≥ n.

Vemos entonces que las variables Xn son mixturas de una distribución dege-
nerada en 0 y de una uniforme en [0, n]. Podemos descomponer pues Fn =
1 (d) (c)
F + 12 Fn .
2 n
El lı́mite puntual de la parte continua es 0 en todo R, luego el lı́mite
puntual de la sucesión de funciones será
(
0 si x < 0,
G(x) = 1
2
si x ≥ 0.
Esta función no es una función de distribución ya que G(∞) = 21 .

En este ejemplo no podemos solucionar el problema del mismo modo que
en los anteriores. Sin embargo, esa situación es salvable definiendo la función
de distribución impropia, que analizaremos más adelante.
3. Caracterización de la convergencia en dis-

tribución
En esta sección vamos a ver algunas equivalencias de la convergencia en
distribución que pueden resultar muy útiles.
17
Algunos de los resultados que vamos a estudiar los recoge Billingsley en un
solo teorema que denomina teorema de la maleta(”portmanteau”); mientras
que otros autores , como Loeve, los analizan de manera separada. Loeve los
denominada teoremas de Helly-Bray; en particular, el referido a la esperanza
de una función continua y acotada.
Trabajaremos directamente con la sucesión de funciones de distribución
{Fn } y obviaremos la sucesión de variables aleatorias.
También es interesante considerar la sucesión de las medidas de proba-
bilidad inducida {PFn } o {PXn }, y que están asociadas a las funciones de
distribución.
Definición 3.1 Sea {Pn } una sucesión de medidas de probabilidad definidas

sobre (R, B), se dice que Pn converge débilmente a la medida de probabi-
lidad P si para cada par de puntos a < b con P (a) = P (b) = 0 se verifica
que
lı́m Pn (a, b] = P (a, b] .
n→∞
d
También usaremos la notación Pn −→ P .
Notemos que la condición P (a) = P (b) = 0 implica que el intervalo (a, b]

es un conjunto de P -continuidad, ya que
P (∂ (a, b]) = P ({a, b}) = P (a) + P (b) = 0.
Además, no importa el tipo de cierre que usemos para el intervalo (a, b]
Vamos a ver dos caracterizaciones de la convergencia de una sucesión de
funciones de distribución antes de probar el teorema de Helly-Brey.
Proposición 3.1 Sean {Fn } una sucesión de funciones de distribución y
{PFn } la sucesión de probabilidades asociadas y sean también F y PF una
función de distribución y su probabilidad asociada. Entonces,
d d
Fn −→ F si y solo si PFn −→ PF .
Demostración
Observemos que
PF (a) = PF (b) = 0 ⇐⇒ a, b ∈ C(F ) (1)
y que además
PF (a, b] = F (b) − F (a). (2)
⇒ Supongamos que se da la convergencia de las funciones de distribu-
ción, es decir,
18
lı́m Fn (x) = F (x) para cada x ∈ C(F ).
n→∞
Entonces se tiene
(2) (1)
lı́m PFn (a, b] = lı́m (Fn (b) − Fn (a)) = lı́m Fn (b) + lı́m Fn (a) =
n→∞ n→∞ n→∞ n→∞
F (b) − F (a) = PF (a, b].
d
Luego PFn −→ PF .
d
⇐ Supongamos ahora que PFn −→ PF .
Como el conjunto C(F ) es denso en R tiene sentido tomar a → −∞ y
obtenemos ası́, para cada x ∈ C(F ),
Fn (x) = lı́m PFn (a, x] y F (x) = lı́m PF (a, x].

a→−∞ a→−∞
Ahora, tomando lı́mite en n, se llega a

lı́m Fn (x) = lı́m lı́m PFn (a, x] = lı́m PF (a, x] = F (x),
n→∞ n→∞ a→−∞ a→−∞
como querı́amos probar.

La otra caracterización es la siguiente.
d
Lema 3.1 Sean {Fn } y F funciones de distribución. Entonces, Fn −→ F
si, y solo si,
lı́m sup Fn (x) ≤ F (x) y lı́m inf Fn (x) ≥ F (x− ) para todo x ∈ R.
n→∞ n→∞
Demostración
⇐ Por hipótesis se verifica
lı́m sup Fn (x) ≤ F (x) y lı́m inf Fn (x) ≥ F (x− ) para todo x ∈ R,
n→∞ n→∞
en particular, si tomamos x ∈ C(F ), también se tendrán estas desigualdades.
19
Por definición sabemos que F (x− ) = F (x) para cada x ∈ C(F ). Luego
lı́m sup Fn (x) ≤ F (x) y lı́m inf Fn (x) ≥ F (x− ) = F (x) para todo x ∈ C(F ).
n→∞ n→∞
Por lo tanto, si x ∈ C(F ), y teniendo en cuenta la definición de lı́mite superior

e inferior de un conjunto, se tiene
F (x) ≤ lı́m inf Fn (x) ≤ lı́m sup Fn (x) ≤ F (x), para cada x ∈ C(F ).
n→∞ n→∞
De esta forma, para todo x ∈ C(F ), F (x) = lı́m inf Fn (x) = lı́m sup Fn (x), lo
n→∞ n→∞
que implica que la sucesión {Fn (x)} converge para cada x ∈ C(F ) y
lı́m Fn (x) = F (x), dándose ası́ la condición de convergencia débil.
n→∞
⇒ Supongamos ahora que se da la convergencia débil.
Sea x ∈ R y consideremos y ∈ C(F ) con y > x, entonces
lı́m sup Fn (x) ≤ lı́m Fn (y) = F (y).
n→∞ n→∞
En efecto. Al ser y > x, y, para cada n ∈ N, Fn creciente, se verifica

Fn (x) ≤ Fn (y).
Luego
lı́m sup Fn (x) ≤ lı́m inf Fn (y) ≤ lı́m Fn (y) = F (y).
n→∞ n→∞ n→∞
Como y > x era genérico, podemos tomar una sucesión decreciente {yn } ⊂
C(F ) tal que yn → x. Representaremos esto por y ↓ x.
Tomando lı́mite cuando y ↓ x se llega a
lı́m sup Fn (x) ≤ lı́m F (y) = F (x).
n→∞ y↓x
Esto último se debe a la continuidad por la derecha de la función F y a que

y ↓ x.
De manera análoga, se tiene para y ∈ C(F ) con y < x que
lı́m inf Fn (x) ≥ lı́m Fn (y) = F (y),
n→∞ n→∞
y, tomando lı́mite cuando y ↑ x, lı́m inf Fn (x) ≥ lı́m F (y) = F (x− ).

n→∞ y↑x

Teorema 3.1 (Teorema de Helly-Belly) Sean {Fn } y F funciones de dis-

d
tribución. Entonces, Fn −→ F si y solo si para toda función g continua y
acotada se verifica que
20
Z Z
lı́m dFn (x) = dF (x);
n→∞ R R
esto es,
Z Z
d
Fn −→ F ⇔ g(x)dFn (x) −→ g(x)dF (x) para toda g acotada y
R R
continua.
Demostración
⇒ Verifiquemos primero que si
Z Z
lı́m g(x)dFn (x) = g(x)dF (x),
n→∞ R R
para toda función g acotada y continua entonces se da la convergencia en
distribución; para ello demostraremos que
lı́m sup Fn (x) ≤ F (x) y lı́m inf Fn (x) ≥ F (x− ) para todo x ∈ R
n→∞ n→∞
y, por el lema previo, tendremos esta implicación.

Sea x ∈ R, vamos a considerar para todo ε > 0 la función gε+ definida por

1
 si t ≤ x,
+ x+ε+t
gε = ε
si x < t ≤ x + ε,

0 si t > x + ε.

Para todo n se tiene que

Z Z Z
Fn (x) = dFn (t) = gε+ (t)dFn (t) ≤ gε+ (t)dFn (t).
(−∞,x] (−∞,x] R
Tomando lı́mite en n y teniendo en cuenta que gε+ es acotada y continua se

tiene que
Z Z
+
lı́m sup Fn (x) ≤ lı́m gε (t)dFn (t) = gε+ (t)dF (t) ≤ F (x + ε).
n→∞ n→∞ R R
Ahora, si tomamos lı́mite cuando ε → 0, se llega a
lı́m sup Fn (x) ≤ F (x).
n→∞
De manera análoga, definimos gε− como


1
 si t ≤ x − ε,
− x−t
gε (t) = ε
si x − ε < t ≤ x,

0 si t > x.

Se tiene ahora la siguiente relación
21
Z Z Z
Fn (x) = dFn (t) ≥ gε− (t)dFn (t) = gε− (t)dFn (t).
(−∞,x] (−∞,x] R
Tomando lı́mite se tiene que

Z Z
lı́m inf Fn (x) ≥ lı́m gε− (t)dFn (t) = gε− (t)dF (t) ≥
n→∞ n→∞ R R
Z
gε− (t)dF (t) ≥ F (x − ε).
(−∞,x−ε]
Ahora, tomamos lı́mite en ε y se llega a

lı́m inf Fn (x) ≥ F (x− ).
n→∞
⇐ Supongamos ahora que se da la covergencia en distribución; esto es

lı́m Fn (x) = F (x) para todo x ∈ C(F ).
n→∞
Sea g una función continua y acotada, vamos a verificar primero que

Z Z
lı́m sup g(x)dFn (x) ≤ g(x)dF (x).
n→∞ R R
g(x)+M
Consideremos M = sup |g(x)| < ∞, y sea g0 = 2M
.
x∈R
Entonces 0 ≤ g0 (x) ≤ 1, y si demostramos la desigualdad anterior para
g0 la tendremos demostrada para g.
Renombramos g0 como g. Z
Sea ε > 0, como C(F ) es denso en R y dF (x) = 1, existen a, b ∈ C(F )
R
tales que
Z
ε
dF (x) = F (b) − F (a) > 1 − ;
(a,b] 2
y
Z Z Z
ε
dF (x) = dF (x) + dF (x) < .
(a,b]C (−∞,a] (b,∞) 2
Dado que lı́m Fn (x) = F (x) para todo x ∈ C(F ), existirá un N tal que
n→∞
para todo n ≥ N se verifica que
Z
ε
dFn (x) < .
(a,b]C 2
Ası́ que, para todo n ≥ N , teniendo en cuenta que g(x) ≥ 1, se tiene
22
Z Z Z Z
ε
g(x)dFn (x) = g(x)dFn (x)+ g(x)dFn (x) < g(x)dFn (x)+ .
R (a,b] (a,b]C (a,b] 2
Entonces
Z Z
ε
lı́m sup g(x)dFn (x) < lı́m sup g(x)dFn (x) + .
R (a,b] 2
Ahora, por ser g continua en el compacto [ab] es, también, uniformemente

continua.
Esto es, para todo ε > 0 existe δ > 0 tal que si
|x − y| < δ con x, y, ∈ [a, b],
entonces
|g(x) − g(y)| < 4ε ,
lo que implica que
g(x) < g(y) + 4ε .
Consideremos una partición de [a, b], determinada por
a = x0 < x1 < · · · < xm = b,

con xi ∈ C(F ) y xi − xi−1 < δ(i = 1, ..., m).
Entonces para xi−1 < x < xi se tiene, al ser |xi − xi−1 | < δ,
|x − xi | < δ =⇒ g(x) < g(xi ) + 4ε

|xi − x| < δ =⇒ g(xi ) < g(x) + 4ε ,
luego g(x) < g(xi ) + 4ε < g(x) + 2ε .

Se da, entonces, la siguiente relación
Z m Z
X
g(x)dFn (x) = g(x)dFn (x) ≤
(a,b] i=1 (xi−1 ,xi ]
m Z
X ε
≤ g(xi ) + dFn (x) =
i=1 (xi−1 ,xi ]
4
m
X ε
= g(xi ) + PFn (xi−1 , xi ].
i=1
4
Podemos escribir Fn (xi ) − Fn (xi−1 ) en lugar de PFn (xi−1 , xi ].
23
Como (xi−1 , xi ] es un conjunto PFn -continuo podemos tomar lı́mite y lle-
gamos a
Z m
X ε
lı́m sup g(x)dFn (x) ≤ lı́m g(xi ) + PFn (xi−1 , xi ] =
n→∞ (a,b] n→∞
i=1
4
m m Z
X ε X ε
= g(xi ) + PF (xi−1 , xi ] = g(xi ) + dF (x) =
i=1
4 i=1
4 (xi−1 ,xi ]
m Z m Z
X ε X ε
= g(xi ) + dF (x) ≤ g(x) + dF (x) =
(x i−1 ,x i ] 4 (x i−1 ,x i ] 2
Zi=1 Z i=1
ε ε
= g(x) + dF (x) ≤ g(x)dF (x) + .
(a,b] 2 R 2
Ahora, sustituyendo esta acotación en

Z Z
ε
lı́m sup g(x)dFn (x) < lı́m sup g(x)dFn (x) + ,
R (a,b] 2
se llega a
Z Z
lı́m sup g(x)dFn (x) < g(x)dF (x) + ε.
R R
Tomando lı́mite cuando ε → 0, se tiene que

Z Z
lı́m sup g(x)dFn (x) ≤ g(x)dF (x),
R R
y ya hemos probado la primera desigualdad.

Para demostrar la segunda desigualdad razonaremos de forma análoga,
reemplazando g por −g, lo que nos llevará a
24
Z Z Z
lı́m inf g(x)dFn (x) = − lı́m sup (−g(x))dFn (x) ≥ − (−g(x))dF (x) =
R Z R R
= g(x)dF (x).
R

En el desarrollo de esta demostración hemos utilizado dos esperanzas: la
esperanza a trozos (que ya no se usa) y la esperanza usual.
Podemos escribir el teorema de Helly-Bray en término de esperanzas no
la siguiente forma.
Z
Sabemos que g(x)dF (x) es la esperanza matemática de la transforma-
R
ción g(X), donde X es la variable aleatoria asociada a F .
Por lo tanto, la igualdad
Z Z
lı́m g(x)dFn (x) = g(x)dF (x),
n→∞ R R
se puede expresar como
lı́m E(g(Xn )) = E(g(X)),

n→∞
siendo Xn la variable aleatoria asociada a Fn .

Esto nos permite enunciar el teorema de Helly-Bray en función de las
d
esperanzas: Sean {Fn } y F funciones de distribución. Entonces, Fn −→ F
si y solo si para toda función g continua y acotada se verifica que
lı́m E(g(Xn )) = E(g(X)),

n→∞
siendo Xn la variable aleatoria asociada a Fn y X la variable aleatoria aso-

ciada a F .
Con esta observación es muy fácil ver algunos contraejemplos para el
teorema de Helly-Bray.
Ejemplo 3.1 Sea la función de distribución



 0 si x < −1

x+1
si −1 ≤ x < 0


 2n

F (x) = 2n + 4 si 0 ≤ x < n2
1 1
 x
+ 12 si n2 ≤ x < 2




 4
1 si x ≥ 2
25
El lı́mite puntual es


 0 si x<0
1

si x=0
4
G(x) = x 1
 + si 0<x<2
2 2


1 si x≥2
Para determinar el lı́mite débil tenemos que hacer que el punto de dis-
continuidad lo sea solo por la izquierda, resultando

0
 si x < 0
x 1
F (x) = 4 + 2 si 0 ≤ x < 2

1 si x ≥ 2

Vamos a considerar una función discontinua en 0; por ejemplo
(
1 si 0 < x ≤ 2
g(x) = I(0,2] =
0 en otro caso
Vamos a determinar
lı́m E(g(Xn )) y E(g(X)).
n→∞
Se tiene
Z Z
E(I(0,2] (Xn )) = I(0,2] (x)dFn (x) = dFn (x) = Fn (2) − Fn (0) =
R (0,2]

1 1 3 1
=1− + = −
2n 4 4 2n
Se tiene entonces que
lı́m E(I(0,2] (Xn )) = 34 .
n→∞
Mientras que
Z Z
E(I(0,2] (X)) = I(0,2] (x)dF (x) = dF (x) = F (2) − F (0) =
R (0,2]
1 1
=1− = .
2 2
Esto es, si g no es continua, entonces,
26
d
Fn −→ F ; lı́m E(g(Xn )) = E(g(X)).
n→∞
Ejemplo 3.2 Vamos considerar la función de distribución


0
 si x < 0
3x 1
G(x) = 8 + 4 si 0 ≤ x < 2

1 si x ≥ 2

Si Y es la variable aleatoria asociada a G, se tiene que

Z Z
1 3
E(I(0,2] (Y )) = I(0,2] (x)dG(x) = dG(x) = G(2) − G(0) = 1 − =
R (0,2] 4 4
27
Esto es, se tiene que
lı́m E(g(Xn )) = E(g(Y ));
n→∞
Sin embargo,
d
Fn 9 G.
Ejemplo 3.3 Veremos en este ejemplo el comportamiento de alguna función

continua, como g(x) = x.
Para calcular
Z
R
E(g(Xn )) = g(x)dFn (x) y E(g(X)) = R g(x)dF (x),
R
es necesario determinar la función de probabilidad de la parte discreta y la

función de densidad de la continua.
La probabilidad de la parte discreta de Xn es
1
Pn {0} = P (Xn = 0) = 4
y Pn { n2 } = P (Xn = n2 ) = 1
4
y la función de densidad de la parte continua es


1
 2n si −1 ≤ x < 0

fn (x) = 14 si n2 ≤ x < 2

0 en otro caso.

Se tiene ahora
Z
E(Xn ) = xdFn (x) =
R
Z 0 Z 2
1 2 1 1 1
=0∗ + ∗ + x dx + x dx =
4 n 4 −1 2n 2
n
4
1 1 1
= + − 2
2 4n 2n
Se tiene entonces que
lı́m E(Xn ) = 12 .
n→∞
Por otro lado, la probabilidad de la parte discreta de X es

1
P {0} = P (X = 0) = 2
28
y la función de densidad de la parte continua es
(
1
si 0 ≤ x < 2
f (x) = 4
0 en otro caso
Se tiene entonces
Z Z 2
1 1 1
E(X) = xdF (x) = 0 ∗ + x dFn (x) = .
R 2 0 4 2
29
Por lo tanto, lı́m E(Xn )) = E(X).
n→∞

Terminamos esta sección con un ejemplo que muestra que la convergencia
débil no implica la convergencia de momentos.
Ejemplo 3.4 Consideremos la sucesión de variables aleatorias binomiales,
{Xn }, donde Xn ∼ B(n, pn ).
Supongamos que pn −→ 0 y que E[Xn ] = npn −→ λ, siendo λ > 0.
Esto implica que Xn −→ X, siendo X ∼ P (λ). Sea F la función de
distribución asociada a X.
Como X ∼ P (λ) se tiene E[X] = λ. Luego lı́m E[Xn ] = E[X] = λ.
n→∞
Veamos que no ocurre lo mismo con los momentos de orden 2.

V ar[X] = λ
=⇒ lı́m V ar[Xn ] 6= V ar[X]
V ar[Xn ] = npn (1 − pn ) −→ qλ n→∞
4. Convergencia vaga
4.1. Distribuciones impropias
Hasta ahora siempre hemos supuesto que la función de distribución lı́mite
F debe verificar que F (−∞) = 0 y F (+∞) = 1; esto nos segura que sea
la función de probabilidad de una medida de probabilidad. En ocasiones, el
lı́mite no verifica alguna de estas condiciones, como ocurre en el de la sucesión
de mixturas de degeneradas con uniformes, donde F (+∞) < 1. Sin embargo,
no debemos despreciar el análisis de esta situación.
Definición 4.1 Diremos que una función F es una función de distribu-

ción impropia si verifica
2. F es continua por la derecha para todo x ∈ R; es decir,
F (x+ ) = lı́m+ F (x + h) = F (x).

h→0
3. El lı́m− F (x + h) = F (x− ) existe para todo x ∈ R.

h→0
4. F (−∞) = lı́m F (x) > 0 y/o F (+∞) = lı́m F (x) < 1.

x→−∞ x→+∞
30
Equivalentemente, una función de distribución es impropia si, y solo si,
su variación es menor estricta que 0.
Recordemos que la variación de una función de distribución F es
var(F ) = F (+∞) − F (−∞)
Definición 4.2 Una sucesión de funciones de distribución {Fn } converge

vagamente a la función de distribución (propia o impropia) F si, para todo
x ∈ C(F ),
lı́m Fn (x) = F (x).

n→∞
Lo denotaremos por
v
Fn −→ F .
Algunos autores, como Loeve, llaman a ”nuestraçonvergencia débil con-

vergencia completa, y a la que llamamos vaga, la denominan débil. En cual-
quier caso, dentro del conjuntos de funciones de distribuciones propias, la
convergencia completa (débil) y débil (vaga) coinciden.
La diferencia entre convergencia débil y vaga radica en que la medida
asociada a la función de distribución lı́mite no es necesariamente una proba-
bilidad, ya que µF (R) toma un valor inferior a uno. Por este motivo, algunos
autores llaman a estas medidas subprobabilidades.
Mientras que la convergencia débil implica la vaga , en el otro sentido se
verifica la siguiente proposición, que se deja sin demostrar.
Proposición 4.1 Sea {Fn } una sucesión de funciones de distribución. En-

d
tonces Fn −→ F si, y solo si,
v
Fn −→ F , lı́m Fn (−∞) = F (−∞) y lı́m Fn (+∞) = F (+∞).
n→∞ n→∞
Sin embargo, la convergencia vaga no implica necesariamente la conver-

gencia débil, como muestra el siguiente ejemplo.
Ejemplo 4.1 Sea la función de distribución


0 si x < −n

Fn (x) = 12 si −n ≤ x < n

1 si x ≥ n

Se tiene, para todo x ∈ R
31
lı́m Fn (x) = F (x) = 21 ,
n→∞
pero
lı́m Fn (−∞) = 0 y lı́m Fn (+∞) = 1,

n→∞ n→∞
mientras que
F (−∞) = F (+∞) = 12 .
v
Por tanto , F no es una función de distribución propia. Luego Fn −→ F
d
pero Fn 9 F .

Otro ejemplo que converge a una función de distribución impropia es el
siguiente
Ejemplo 4.2 Consideremos la sucesión de variables aleatorias con Xn ∼

U(−n, n), cuya función de distribución es

0
 si x < −n
Fn (x) = x+n 2n
si −n ≤ x < n

1 si x ≥ n.

32
1
De nuevo, esta sucesión converge vagamente cuando n → ∞ a F (x) = 2
para todo x ∈ R.

Aunque la convergencia débil implica la convergencia vaga, el problema
de Helly-Bray no se extiende a la convergencia vaga. Esto se ve en el siguiente
ejemplo.
Ejemplo 4.3 Consideremos la sucesión de funciones de distribución con
masa en 0 y n, dada por

0 si x < 0

Fn (x) = 12 si 0 ≤ x < n

1 si x ≥ n

Claramente, converge vagamente a la función de distribución impropia

(
0 si x < 0
F (x) = 1
2
si x ≥ 0.
Asociada a esta sucesión de funciones de distribución, pueden encontrarse

funciones continuas y acotadas g que verifiquen
Z
lı́m E(g(Xn )) = g(x)dF (x)
n→∞ R
por ejemplo, si consideramos g(x) = e−x , se tiene

Z
1 1 1
lı́m E(g(Xn )) = lı́m e−x dFn (x) = lı́m (e0 + e−n ) = .
n→∞ n→∞ R n→∞ 2 2 2
Mientras que
Z
1 1
g(x)dF (x) = e0 ∗ = .
R 2 2
Sin embargo, dado que no se da la convergencia débil, debe existir alguna
función continua y acotada g para la que no se verifique la propiedad
Z
lı́m E(g(Xn )) = g(x)dF (x)
n→∞ R
por ejemplo, tomando g(x) = 1,

Z
lı́m E(g(Xn )) = lı́m dFn (x) = 1.
n→∞ n→∞ R
33
Mientras que
Z
1
dF (x) = .
R 2

Teorema 4.1 Sea {Fn } una sucesión de funciones de distribución y sea F

una función de distribución impropia.
v
Supongamos que Fn −→ F . Entonces, si g es una función real continua
definida sobre el intervalo [a, b], con a, b ∈ C(F ), se verifica
Z Z
lı́m g(x)dFn (x) = g(x)dF (x).
n→∞ [a,b] [a,b]
Demostración
La demostración es análoga a la usada en el teorema de Helly-Bray para
demostrar que
Z Z
lı́m sup g(x)dFn (x) ≤ g(x)dF (x),
(a,b] R
y la correspondiente desigualdad para el lı́mite inferior, con los cambios opor-

tunos para que afecta al intervalo [a, b].

Este teorema podrı́a haberse planteado como un lema previo al teorema
de Helly-Bray; de hecho, Loeve le denomina lema de Helly-Bray.
Teorema 4.2 Sea {Fn } una sucesión de funciones de distribución y sea F

una función de distribución impropia.
v
Supongamos que Fn −→ F . Entonces, si g es una función real continua
tal que
g(−∞) = g(+∞) = 0.
se verifica
Z Z
lı́m g(x)dFn (x) = g(x)dF (x).
n→∞ R R
Demostración
Volvemos a usar la demostración del teorema de Helly-Bray. En este caso
hay que observar que, al ser F impropia, no podemos asegurar que exista un
N tal que para todo n ≥ N se verifica que
34
∈(a,b]c dFn (x) < ε;
pero ,como g(−∞) = g(+∞) = 0, directamente tenemos la acotación

Z
g(x)dFn (x) < ε;
(a,b]c
y el resto de la demostración es análoga.

Ejemplo 4.4 Sea Fn definida por

(
0 si x < (−1)n n
Fn (x) =
1 si x ≥ (−1)n n
Los primeros términos de esta sucesión son,
( ( (
0 si x < −1 0 si x < 2 0 si x < −3
F1 (x) = F2 (x) = F3 (x) = ···
1 si x ≥ −1 1 si x ≥ 2 1 si x ≥ −3
Se tiene que Fn ∼ δ((−1)n n).
35
Es obvio que esta sucesión no converge, ni siquiera puntualmente. Sin
embargo, existen dos subsucesiones {F2n } y {F2n+1 } que convergen a las dis-
tribuciones impropias constantes 0 y 1, respectivamente.

Lo que nos muestra este ejemplo es que, aunque una sucesión de funciones
de distribución {Fn } puede no ser convergente, sı́ que tiene alguna subsuce-
sión que es convergente. Esto es análogo al teorema de Bolzano Weierstrass
para sucesiones en R, y es una afirmación válida para cualquier sucesión de
funciones de distribución {Fn }.
Pensar esto tiene cierto sentido, ya que la sucesión de funciones de dis-
tribución está contenida en el intervalo [0, 1], y cada uno de sus elementos es
creciente.
En resumen, queremos probar que cada sucesión de funciones de distri-
bución tiene una subsucesión que converge( al menos vagamente).
Para probar esto, comenzamos viendo una caracterización de la conver-
gencia vaga.
Lema 4.1 Una sucesión de funciones de distribución {Fn } converge vaga-

mente si, y solo si, converge en algún subconjunto D denso en R.
Demostración
La primera implicación es inmediata, ya que si se da la convergencia vaga,
lı́m Fn (x) = F (x) para cada x ∈ C(F ), que es un conjunto denso en R.
n→∞
Para demostrar el recı́proco, vamos a construir una función de distribu-
ción F (propia o impropia) tal que
v
Fn −→ F .
Como la sucesión {Fn } converge en D, para cada r ∈ D existe lı́m Fn (r),

n→∞
lo que nos permite definir la función
FD : D −→ R, r 7−→ FD (r) = lı́m Fn (r).

n→∞
A partir de esta función FD vamos a construir una función de distribución

F , que será la candidata a ser lı́mite vago de la sucesión {Fn }.
Observemos primero que, al ser 0 ≤ Fn (r) ≤ 1 para cada n ∈ N y cada
r ∈ D, se verifica
0 ≤ FD (r) ≤ 1, ∀r ∈ D.
Además, si tomamos r < s con r, s ∈ D, entonces
36
FD (r) = lı́m Fn (r) ≤ lı́m Fn (s) = FD (s),
n→∞ n→∞
con lo que se tiene que FD es no decreciente en D.

Definamos ahora la función F .
Sea x ∈ R. Como el conjunto D es denso en R, podemos acercarnos por la
derecha a x, esto es, podemos tomar lı́mite cuando r ↓ x, lo que nos permite
definir
F (x) = lı́m FD (r) = ı́nf{FD (r) : r ∈ D, r > x}.
r↓x
Veamos que F es una función de distribución( no necesariamente propia).

1. F es no decreciente ya que si x, y ∈ R son tales que x < y, entonces
{FD (r) : r ∈ D, r > y} ⊂ {FD (r) : r ∈ D, r > x}.
Luego
F (x) = lı́m FD (r) = ı́nf{FD (r) : r ∈ D, r > x} ≤

r↓x
≤ ı́nf{FD (r) : r ∈ D, r > y} = lı́m FD (r) = F (y).

r↓y
2. Como 0 ≤ FD (r) ≤ 1 para cada r ∈ D, entonces 0 ≤ F (x) ≤ 1.

Luego 0 ≤ F (−∞) y F (+∞) ≤ 1.
3. Para ver que es continua por la derecha. fijamos x ∈ R; entonces, para

cualquier y ∈ R con x < y < r se tiene que
F (y) ≤ FD (r).
Tomando lı́mite cuando y ↓ x se llega a
F (x+ ) ≤ FD (r),
luego F (x+ ) es cota inferior del conjunto {FD (r) : r ∈ D, r > x}, lo que
nos permite deducir que
F (x+ ) ≤ ı́nf{FD (r) : r ∈ D, r > x} = F (x).
Por otra parte
F (x+ ) = lı́m+ F (x + h) ≥ F (x).

h→0
37
Por lo tanto, F (x+ ) = F (x). Luego F es continua por la derecha.
4. Por último, lı́m− F (x + h) existe para todo x ∈ R .

h→0
v
Veamos ahora que Fn −→ F . Para ello, probaremos que
lı́m Fn (x) = F (x) para todo x ∈ C(F ).

n→∞
Sean x ∈ C(F ) y r0 , s ∈ D con r0 < x < s. Por la monotonı́a de Fn se tiene
Fn (r0 ) ≤ Fn (x) ≤ Fn (s).
Tomando lı́mite en n, se llega a
FD (r0 ) = lı́m Fn (r0 ) ≤ lı́m inf Fn (x) ≤

n→∞ n→∞
≤ lı́m sup Fn (x) ≤ lı́m Fn (s) = FD (s) ≤ F (s)
n→∞ n→∞
Por otra parte, para r, r0 ∈ D con r < r0 se verifica que F (r) ≤ FD (r0 ).
38
Luego
F (r) ≤ lı́m inf Fn (x) lı́m sup Fn (x) ≤ F (s).

n→∞ n→∞
Ahora, tomando lı́mite cuando r ↑ x y s ↓ x, y teniendo en cuenta que

x ∈ C(F ), se llega a
F (x) ≤ lı́m inf Fn (x) = lı́m sup Fn (x) ≤ F (x).

n→∞ n→∞
Por lo tanto, para todo x ∈ C(F ), se tiene que
lı́m Fn (x) = F (x),

n→∞
como querı́amos probar.

El siguiente resultado nos permite afirmar que cada sucesión de funciones
de distribución {Fn } tiene una subsucesión que converge a una función de
distribución( propia o impropia).
Teorema 4.3 (Principio de selección de Helly) Sea {Fn } una sucesión de

funciones de distribución. Entonces existe una subsucesión {Fnk } y una fun-
ción de distribución F (propia o impropia) tal que
v
Fnk −→ F .
Demostración
Queremos usar el lema anterior. Por ello tenemos que encontrar un con-
junto denso en R, que será Q, y una subsucesión que converja en este con-
junto.
Para seleccionar esta subsucesión vamos a utilizar el método de diagona-
lización de Cantor.
Para ello, comenzamos considerando una numeración {rk , k ≥ 1} de los
elementos de Q.
Consideremos la sucesión de números reales {Fn (r1 )}. Por el teorema de
Bolzano-Weierstrass, esta sucesión tiene una subsucesión {F1,n (r1 )} conver-
gente a un número real x1 , es decir, lı́m F1,n (r1 ) = x1 .
n→∞
Consideremos ahora la subsucesión {F1,n (r2 )}. De nuevo por el teorema de
Bolzano-Weierstrass, existe una subsucesión {F2,n (r2 )} tal que lı́m F2,n (r2 ) =
n→∞
x2 , con x2 ∈ R.
Además, esta subsucesión también verifica lı́m F2,n (r1 ) = x1 , pues es una
n→∞
subsucesión de la primera subsucesión.
39
Continuando con este procedimiento obtenemos una familia de sucesiones
{F1,n }, {F2,n }, {F3,n }... en la que cada sucesión {Fk,n } es una subsucesión de
{Fk−1,n }.
Además, se verifica
lı́m F1,n (r1 ) = x1 ;

n→∞
lı́m F2,n (ri ) = xi , para i = 1, 2;
n→∞
lı́m F3,n (ri ) = xi , para i = 1, 2, 3;
n→∞
..
.
lı́m Fk,n (ri ) = xi , para i = 1, 2, ..., k;
n→∞
..
.
Si escribimos las funciones en una matriz podemos seleccionar las funcio-

nes de la diagonal, y obtenemos una nueva subsucesión; esto es,
F1,1 F1,2 F1,3 ···

F2,1 F2,2 F2,3 ···
F3,1 F3,2 F3,3 ···
.. .. .. ...
. . .
Consideremos la subsucesión {Fk,k }, que reescribiremos por {Fnk }.

De esta forma, {Fnk } es una subsucesión (excepto un número finito de
funciones) de todas las sucesiones horizontales, y por lo tanto converge en
todo Q.
Tenemos ası́ un conjunto denso numerable en el cual la sucesión converge
y, por el lema previo, se tiene que
v
Fnk −→ F .

Si bien este resultado nos asegura que existe una subsucesión de funciones
de distribución que converge, al menos, vagamente, serı́a interesante ver si
existe alguna condición para que esa convergencia sea vaga.
Comenzamos introduciendo una propiedad referente a una familia de fun-
ciones de distribución.
Definición 4.3 Sea H una familia de funciones de distribución, se dice que

es ajustada(tight en inglés) si para todo ε > 0 existe a > 0 tal que
40
PF (−a, a] > 1 − ε para todo F ∈ H.
Una sucesión de distribuciones que satisface esta propiedad no permite

que la masa se .escape a infinito”; es decir, todas las distribuciones tienen
muy ”poca”masa fuera de intervalos suficientemente grandes.
Esta propiedad nos ayudará a asegurar que la subsucesión tienda a una
función de distribución propia.
También podrı́amos haber escrito F (a) − F (−a) en lugar de PF (−a, a].
Un ejemplo de familia ajustada es Xn ∼ N 0, 1 + n1 , y uno de familia

no ajustada es Xn ∼ N (0, n). Esta familia es .explosiva”.

Otra propiedad asociada a una familia de distribución es la siguiente.
Definición 4.4 Sea H una familia de funciones de distribución, diremos

que H es una familia relativamente compacta(respecto de la convergencia
débil) si cada sucesión {Fn } de funciones de H posee una subsucesión Fnk
que converge débilmente a una función de distribución, no necesariamente
de H.
El caso que nos interesa, que es un caso particular de esta definición,

es el caso en el que H es una sucesión. En este caso, cada subsucesión de
H debe poseer una subsucesión que converja débilmente. Por lo tanto, cada
subsucesión que converja vagamente debe hacerlo débilmente.
Llegados a este punto, podemos enunciar el siguiente resultado, que nos
permite pasar de convergencia vaga a convergencia débil.
Teorema 4.4 (Teorema de Prohorov)

Una familia de funciones de distribución H es relativamente compacta si
y solo si es ajustada.
Demostración
⇒ Supongamos primero que la familia H es ajustada y veamos que es
relativamente compacta.
Tomemos una sucesión {Fn } de H. Tenemos que probar que ver que tiene
una subsucesión {Fnk } que converge débilmente.
Por el principio de selección de Helly, sabemos que existe una subsucesión
{Fnk } tal que
v
Fnk −→ F .
Tenemos que comprobar que F es una distribución propia, lo que nos

llevarı́a a la convergencia débil.
Sea ε > 0 y sea a > 0 tal que
41
PFn (−a, a] > 1 − ε para todo n;
que lo podemos expresar como
Fn (a) − Fn (−a) > 1 − ε para todo n.
Sean, ahora, α, β ∈ C(F ) tales que
α ≤ −a y β ≥ a,
se tiene que
Fnk (β) − Fnk (α) > 1 − ε para todo nk .
Tomando lı́mite cuando k → ∞ se llega a
F (β) − F (α) = lı́m (Fnk (β) − Fnk (α)) > 1 − ε.
k→∞
Ahora, hacemos α → −∞, β → +∞ y ε → 0 y se llega a

F (+∞) − F (−∞) = 1
y, necesariamente,
F (−∞) = 0 y F (+∞) = 1.
Ası́ que F es una función de distribución propia y
d
Fnk −→ F .
⇐ Recı́procamente, consideremos H relativamente compacta y razone-
mos al absurdo, supongamos que es no ajustada, entonces existe algún ε > 0
tal que, para cualquier a > 0 que se elija, existe una función Fa en H verifi-
cando
PFa (−a, a] = Fa (a) − Fa (−a) ≤ 1 − ε.
En particular, para cada n ∈ N debe existir una función de distribución
Fn de H tal que
Fn (n) − Fn (−n) ≤ 1 − ε.
Consideremos la sucesión {Fn }, por ser H relativamente compacta debe
contener una subsucesión {Fnk } que converge débilmente hacia una función
de distribución F . Sean a, b ∈ C(F ), entonces para k suficientemente grande
se tiene que
(a, b] ⊂ (−nk , nk ],
42
con lo cual
Fnk (b) − Fnk (a) ≤ Fnk (nk ) − Fnk (−nk ) ≤ 1 − ε.
Tomando lı́mite cuando k → ∞ se llega a
F (b) − F (a) ≤ lı́m sup(Fnk (nk ) − Fnk (−nk )) ≤ 1 − ε < 1.
k→∞
Pero, como esto debe verificarse para cualesquiera a, b ∈ C(F ), tenemos

que si a → −∞ y b → +∞, entonces
lı́m F (b) − lı́m F (a) = F (+∞) − F (−∞) < 1;
b→∞ a→∞
por lo que F no serı́a función de distribución y llegamos a una contradicción.

Luego H debe ser ajustada.

Veamos algunos ejemplos y contraejemplos para el teorema de Prhorov.
Ejemplo 4.5 Consideremos la familia de variables aleatorias {Xn }, con

n 1
Xn ∼ N (−1) , 1 + .
n
Se trata de una familia ajustada. Posee dos subsucesiones convergentes
débilmente
d d
F2n+1 −→ FX y F2n −→ FY ,
donde X ∼ N (−1, 1) e Y ∼ N (1, 1).
Consideremos ahora la familia de variables aleatorias {Xn }, con
(
N (−1, n) si n es impar
Xn ∼ 1

N 1, 1 + n si n es par.
En este caso la familia no es ajustada. Luego debe poseer alguna subsu-

cesión que converja vagamente. Por ejemplo,
v d
F2n+1 −→ F y F2n −→ FY ,
1
donde F (x) = 2
para todo x ∈ R e Y ∼ N (1, 1).
Teorema 4.5 Sea {Fn } una sucesión ajustada de funciones de distribución

tal que cada subsucesión {Fnk } que converge débilmente lo hace hacia un
mismo lı́mite F ; entonces
43
d
Fn −→ F .
Demostración
Lo haremos por reducción al absurdo. Supongamos que no se da la con-
vergencia débil a F de la sucesión completa. Entonces existe x ∈ C(F ) tal
que
Fn (x) 9 F (x).
Debe existir una subsucesión {Fnk (x)} de {Fn (x)} que converja a un valor
α 6= F (x).
Sin embargo, por el teorema de Prohorov, existe una subsucesión de {Fnk }
que converge débilmente, y debe hacerlo a F , por hipótesis del teorema.
Tenemos entonces
lı́m Fnk (x) = α 6= F (x),

n→∞
lo que nos lleva a contradicción.

d
Por lo tanto, el supuesto de partida es falso, esto es, Fn −→ F .

5. Convolución
Definición 5.1 Sean F1 y F2 dos funciones de distribución. Se define la
convolución de F1 por F2 como la función
Z
(F1 ∗ F2 )(x) = F1 (x − y)dF2 (y) para todo x ∈ R.
R
La siguiente proposición implica que la convolución de funciones de dis-

tribución es una aplicación cerrada.
Proposición 5.1 Sean F1 y F2 dos funciones de distribución. Entonces F1 ∗

F2 es una función de distribución; es decir,
1. F1 ∗ F2 es monótona no decreciente.
2. F1 ∗ F2 es continua por la derecha.
3. lı́m (F1 ∗ F2 )(x) = 0 y lı́m (F1 ∗ F2 )(x) = 1.

x→−∞ x→∞
Demostración
44
1. F1 ∗ F2 es monótona no decreciente:
Sean x1 , x2 ∈ R con x1 < x2 . Entonces
Z Z
(F1 ∗ F2 )(x1 ) = F1 (x1 − y)dF2 (y) ≤ F1 (x2 − y)dF2 (y) =
R R
(F1 ∗ F2 )(x2 ),
pues F1 (x1 − y) ≤ F2 (x2 − y) para todo y ∈ R.
2. F1 ∗ F2 continua a la derecha:
Consideremos x ∈ R. Se tiene que
Z
lı́m(F1 ∗ F2 )(x + h) = lı́m F1 (x + h − y)dF2 (y).
h↓0 h↓0 R
Ahora, como F1 (x + h − y) ≤ 1, podemos aplicar el teorema de conver-

gencia dominada y se tiene que
Z Z
lı́m F1 (x + h − y)dF2 (y) = lı́m F1 (x + h − y)dF2 (y) =
h↓0 R R h↓0
Z
F1 (x − y)dF2 (y),
R
de donde se llega a
lı́m(F1 ∗ F2 )(x + h) = (F1 ∗ F2 )(x).

h↓0
3. lı́m (F1 ∗ F2 )(x) = 0 y lı́m (F1 ∗ F2 )(x) = 1.

x→−∞ x→∞
Aplicando nuevamente el teorema de convergencia dominada,

Z Z
lı́m (F1 ∗F2 )(x) = lı́m F1 (x−y)dF2 (y) = F1 (x−y)dF2 (y) = 0.
x→−∞ x→−∞ R R
Para comprobar el otro lı́mite procedemos de forma análoga:

Z
lı́m (F1 ∗ F2 )(x) = lı́m F1 (x − y)dF2 (y) =
x→∞ x→∞ R
Z
lı́m F1 (x − y)dF2 (y) = 1.
R x→∞
45
Por lo tanto, F1 ∗ F2 es una función de distribución.

La convolución tiene una importante utilidad, ya que nos permite obtener
la función de distribución asociada a la suma de variables aleatorias.
Teorema 5.1 Sean X e Y dos variables aleatorias independientes con fun-

ciones de distribución FX y FY , respectivamente. Entonces FX ∗ FY es la
función de distribución asociada a la variable aleatoria X + Y .
Demostración
Sea Z = X ∗ Y y sea FZ su función de distribución. Entonces,
Z
FZ (z) = P (X + Y ≤ z) = dF(X,Y ) (x, y) =
{x+y≤z}
Z Z Z Z
dF(X,Y )(x, y) = dFX (x) dFY (y) =
Z R (−∞,z−y] R (−∞,z−y]
FX (z − y)dFY (y) = (FX ∗ FY )(Z).

R
Con este resultado, la convolución de funciones de distribución hereda

propiedades de la suma de variables aleatorias, como la conmutatividad y la
asociatividad.
Corolario 5.1 La convolución de funciones de distribución verifica las pro-

piedades conmutativa y asociativa.
Veamos ahora algunos ejemplos.
Ejemplo 5.1 Consideremos X e Y variables con distribución uniforme en

[0, 1].

0 si x < 0

FX = FY = x si 0 ≤ x < 1

1 si x ≥ 1

Determinemos la función de distribución de Z = X + Y ,

Z
FZ (z) = (FX ∗ FY )(z) = FX (z − y)dFY (y).
R
El soporte de Z es SZ = [0, 2]; sin embargo, el que más nos interesa es el

soporte de Z = X + Y condicionado Y , que resulta ser
SZ|Y = {z ∈ R : 0 ≤ z − y ≤ 1, 0 ≤ y ≤ 1}.
46
Si z < 0 ⇒ z − y < 0 para todo y ∈ [0, 1] ⇒ FX (z − y) = 0. Entonces
Z
FZ (z) = (FX ∗ FY )(z) = FX (z − y)dFY (y) = 0.
R
Si 0 ≤ z < 1 se tienen dos opciones, dependiendo del valor de y,

− Si 0 ≤ y < z ⇒ 0 ≤ z − y < 1 ⇒ FX (z − y) = z − y,
− Si z ≤ y < 1 ⇒ z − y < 0 ⇒ FX (z − y) = 0.
Entonces
Z Z
FZ (z) = (FX ∗FY )(z) = FX (z−y) dFY (y) = FX (z−y) dFY (y)+
R [0,z]
Z z Z 1 z
(z − y)2 z2
Z
FX (z − y) dFY (y) = (z − y) dy + 0 dy = − = .
(z,1] 0 z 2 0 2
Si 1 ≤ y < z − 1 se tienen otras dos opciones,

− Si 0 ≤ y < z − 1 ⇒ z − y ≥ 1 ⇒ FX (z − y) = 1,
− Si z − 1 ≤ y < 1 ⇒ 0 ≤ z − y < 1 ⇒ FX (z − y) = z − y.
Entonces
Z
FZ (z) = (FX ∗ FY )(z) = FX (z − y) dFY (y) =
Z ZR
FX (z − y) dFY (y) + FX (z − y) dFY (y) =
[0,z−1) [z−1,1]
Z z−1 Z 1 1
(z − y)2 z2
1 dy + (z − y) dy = z − 1 − = − + 2z − 1.
0 z−1 2 z−1 2
Si z ≥ 2 ⇒ z − y ≥ 1 para todo y ∈ [0, 1] ⇒ FX (z − y) = 1.

Entonces
Z
FZ (z) = (FX ∗ FY )(z) = FX (z − y)dFY (y) = 1
R
Con todo esto, y teniendo en cuenta que FZ (z) = (FX ∗ FY )(z),



 0 si z<0
 z2

si 0≤z<1
FX+Y = 2 z2
 − + 2z − 1 si 1≤z<2
 2


1 si z≥2
47

Al igual que hemos hecho con las funciones de distribución, podemos
definir la convolución para funciones de densidad.
Definición 5.2 Sean f1 y f2 dos funciones de densidad. Se define el producto

de convolución de f1 por f2 como la función
Z ∞
(f1 ∗ f2 )(z) = f1 (z − y)f2 (y) dy para todo z ∈ R.
−∞
Como podrı́a esperarse, el producto en convolución de dos funciones de

densidad vuelve a ser una función de densidad. Luego el producto en convo-
lución es una aplicaión cerrada.
Proposición 5.2 Sean f1 y f2 dos funciones de densidad. Entonces f1 ∗ f2

es una función de densidad, es decir,
1. (f1 ∗ f2 )(z) ≥ 0 para todo z ∈ R.
2. f1 ∗ f2 es integrable Riemman y su integral en R vale 1.
Demostración
1. (f1 ∗ f2 )(z) ≥ 0 para todo z ∈ R.

Se deduce del hecho de que f1 y f2 son funciones de densidad y, por
tanto, son no negativas. Luego su integral será no negativa.
2. f1 ∗ f2 es integrable Riemman y su integral en R vale 1.
Aplicando el teorema de Fubini se tiene
Z ∞ Z ∞ Z ∞
(f1 ∗ f2 )(z) dz = f1 (z − y)f2 (y) dy dz =
−∞
Z ∞ Z ∞ −∞ −∞ Z ∞
f1 (z − y) dz f2 (y) dy = f2 (y) dy = 1.
−∞ −∞ −∞

De la misma forma que la convolución de funciones de distribución nos
permitı́a obtener la función de distribución de la suma de variables aleatorias,
el producto en distribución nos va a permitir, siempre que sea posible, obtener
la función de densidad de la suma de dos variables aleatorias.
Teorema 5.2 Sean F1 y F2 dos funciones de distribución absolutamente

continuas con funciones de densidad f1 y f2 , respectivamente. Entonces F1 ∗
F2 es absolutamente continua con función de densidad f1 ∗ f2 .
48
Demostración
Tenemos que verificar que
Z z
(F1 ∗ F2 )(z) = (f1 ∗ f2 )(t) dt.
−∞
La demostración es análoga a la anterior, por lo que usaremos también el

teorema de Fubini. De esta forma, se tiene
Z z Z z Z ∞
(f1 ∗ f2 )(t) dt = f1 (t − y)f2 (y) dy dt =
Z ∞−∞Z z −∞ −∞ Z
∞
f1 (t − y) dt f2 (y) dy = F1 (z − y)f2 (y) dy =
−∞ −∞ Z −∞
F1 (z − y) dF2 (y) = (F1 ∗ F2 )(z).

R

Ilustremos este teorema con un ejemplo práctico.
Ejemplo 5.2 Vamos a determinar la suma X + Y mediante convolución de

las funciones de densidad
(
1 si 0 ≤ x ≤ 1
fX (x) = fY (x) =
0 en otro caso
Calculemos
Z ∞
fX+Y (z) = (fX ∗ fY )(z) = fX (z − y)fY (y) dy.
−∞
Recuperemos el soporte de X + Y ,
SX+Y |Y = {z ∈ R : 0 ≤ z − y ≤ 1, 0 ≤ y ≤ 1}
Si z < 0 ⇒ z − y < 0 para todo y ∈ [0, 1] ⇒ fX (z − y) = 0,

entonce
Z ∞
fX+Y (z) = (fX ∗ fY )(z) = fX (z − y)fY (y) dy = 0.
−∞
Si 0 ≤ z ≤ 1 se tienen las opciones
− Si 0 ≤ y < z ⇒ 0 ≤ z − y < 1 ⇒ fX (z − y) = fY (y) = 1,

− Si z ≤ y < 1 ⇒ z − y < 0 ⇒ fX (z − y) = 0.
49
Entonces
Z ∞
fX+Y (z) = (fX ∗ fY )(z) = fX (z − y)fY (y) dy =
Z z Z 1 −∞ Z z Z 1
fX (z − y)fY (y) dy + fX (z − y)fY (y) dy = 1 dt + 0 dy = z.
0 z 0 z
Si 1 ≤ z < 2 se tienen las opciones,
− Si 0 ≤ y < z − 1 ⇒ z − y ≥ 1 ⇒ fX (z − y) = 0,
− Si z − 1 ≤ y < 1 ⇒ 0 ≤ z − y < 1 ⇒ fX (z − y) = fY (y) = 1.
Entonces
Z ∞ Z z−1
fX+Y (z) = (fX ∗ fY )(z) = (z − y)fY (y) dy = fX (z −
Z 1 −∞ Z z−1 0
Z 1
y)fY (y) dy + fX (z − y)fY (y) dy = 0 dy + 1 dy = 2 − z.
z−1 0 z−1
Si z > 2 ⇒ z − y < 1 para todo y ∈ [0, 1] ⇒ fX (z − y) = 0,

entonces
Z ∞
fX+Y (z) = (fX ∗ fY )(z) = fX (z − y)fY (y) dy = 0.
−∞
De esta forma

z
 si 0 ≤ z < 1
fX+Y (z) = 2 − z si 1 ≤ z ≤ 2

0 en otro caso

Teorema 5.3 Sean F1 y F2 funciones de distribución. Si F2 es absolutamen-

te continua, entonces F1 ∗ F2 es absolutamente continua.
Demostración
Para demostrar que es absolutamente continua tenemos que comprobar
que existe una función f tal que para todo z se tiene que
Z z
(F1 ∗ F2 )(z) = f (t) dt.
−∞
50
Se verifica, para cada z,
Z ∞ Z ∞ Z z−x
(F2 ∗ F1 )(z) = F2 (z − x) dF1 (x) = f2 (t) dt dF1 (x)
−∞ −∞ −∞
Z ∞ Z z Z z
∞∞

= f2 (s − x) ds dF1 (x) = −∞ f2 (s − x) dF1 (x) ds.
−∞ −∞ −∞
Luego la función de densidad de la convolución es

Z
f (z) = f2 (z − x) dF1 (x).
R
Ejemplo 5.3 Consideremos X ∼ Ge(p) e Y ∼ Exp(λ); esto es

( (
(1 − p)x p si x = 0, 1, 2, ... λe−λx si x ≥ 0
pX (x) = fY (y) =
0 en otro caso 0 en otro caso
De esta forma, la variable aleatoria Z = X + Y tiene una función de

distribución absolutamente continua con función de densidad dada por
Z [z]
X
fZ (z) = fY (z − x) dFX (x) = λe−λ(z−x) (1 − p)x p =
R x=0
1 − [(1 − p)eλ ][z]+1
pλ
1 − (1 − p)eλ
51

Tema 1. Función de Distribución

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema 1. Función de Distribución

Cargado por

Copyright:

Formatos disponibles

Tema 1.

Ejemplo 1.1 En un concurso se ofrece escoger entre tres puertas: detrás de

Definición 1.1 Denominamos espacio muestral, y denotamos por Ω, al

En el ejemplo de lanzar una moneda, Ω solo tiene dos elementos, ((cara))

Definición 1.2 Una familia A de subconjuntos de Ω es una σ-álgebra sobre

2. Si A ∈ A entonces Ac ∈ A. Aquı́, y de ahora en adelante, Ac = Ω \ A.

Por último, necesitamos una función de conjunto P , que verifique la de-

3. Si An ∈ A, n=1,2,..., son tales que Ai ∩ Aj = ∅ para todo i 6= j, se

En particular, P es una medida finita y σ-aditiva.

Definición 1.3 Llamaremos espacio de probabilidad a la terna (Ω, A, P ),

1.3. Función de distribución

Sean ahora PX y PY las respectivas probabilidades inducidas. Se verifica

Claramente se ve que PX = PY , mientras que X 6= Y .

3. F es continua por la derecha para todo x ∈ R; es decir,

F (x+ ) = lı́m+ (F (x + h)) = F (x)

4. lı́m− (F (x + h)) existe para todo x ∈ R y verifica

F (x− ) = lı́m− (F (x + h)) = F (x) − PX {x}.

El definir la función de distribución continua a la derecha es tan válido

Si F (∞) < 1 entonces hablamos de una distribución impropia.

Teorema 1.1 Sea F : R −→ [0, 1] tal que

1. F (−∞) = lı́m (F (x)) = 0 y F (∞) = lı́m (F (x)) = 1.

3. F es continua por la derecha; es decir, F (x+ ) = F (x).

PF (a, b] = F (b) − F (a)

Definiremos ahora dos conjuntos importantes asociados a la función de dis-

Definición 1.7 Se define el conjunto de probabilidad de la función de

C(F ) = {x ∈ R : F (x− ) = F (x)}.

Denotaremos por D(F ) al conjunto de los puntos de discontinuidad que, al

D(F ) = {x ∈ R : F (x) − F (x− ) > 0} = (C(F ))c .

El siguiente resultado nos da una importante y útil información acerca del

Proposición 1.2 El conjunto D(F ) de los puntos de discontinuidad de una

Corolario 1.1 El conjunto de continuidad de F es denso en R.

Proposición 1.3 Si F y G son dos funciones de distribución tales que F =

Definición 1.9 (Variable aleatoria continua)

La parte continua se obtiene despejando

Para determinar la parte continua despejamos:

Definición 1.10 Variable aleatoria singular

Definición 1.11 Variable aleatoria absolutamente continua

Teorema 1.3 Sea F la función de distribución de una variable aleatoria.

además, si existe otra función g en estas condiciones, se tiene que g = f casi

Este teorema no es más que la versión del teorema de Radon-Nikodim

Teorema 1.4 Segunda descomposición

con 0 ≤ β ≤ 1, donde Fs es una singular y Fac es absolutamente continua.

Este teorema es la versión del teorema de descomposición de Lebesgue

1.4. Integral de variables aleatorias

En un problema práctico, la esperanza nos da el resultado que se espe-

Recordemos que, si X es una variable aleatoria y g es una función medible

Definición 2.1 Sea {Fn } una sucesión de funciones de distribución . Dire-

La convergencia débil de la sucesión de funciones {Fn } provoca una con-

Dicho de otra forma, la sucesión de variables aleatorias {Xn } converge en

Teorema 2.1 Si existe el lı́mite débil de una sucesión de funciones de dis-

Ejemplo 2.1 Supongamos que Xn ∼ δ( n1 ), esto es, Xn posee una distribu-

Veamos ahora un ejemplo en el que las distribuciones son uniformes en

Ejemplo 2.2 Consideremos Xn ∼ U[− n1 , n1 ], con función de distribución es

El lı́mite puntual de esta sucesión de funciones es

En este caso la función G es discontinua en 0, tanto por la derecha como

Ejemplo 2.3 Supongamos Xn ∼ U{ n1 , n2 , .., 1}. Las funciones de distribu-

Vemos que el lı́mite puntual de esta sucesión de funciones es la función

Luego, en este caso, el lı́mite es una distribución continua: la uniforme en

Notemos que, aunque pueda parecer paradójico, P (Xn ∈ Q) = 1, mientras

Introducimos ahora un nuevo término.

Ejemplo 2.4 Consideremos la sucesión de variables {Xn } con funciones de

Podemos descomponer Fn en sus partes continua y discreta. Tenemos ası́ las

Esta función no es una función de distribución ya que G(∞) = 21 .