Está en la página 1de 51

Tema 1.

La función de distribución

1. Introducción
1.1. Contexto
La teorı́a de la probabilidad intenta construir o describir modelos ma-
temáticos que se ajusten a los denominados fenómenos aleatorios o ex-
perimentos aleatorios, que son aquellos en los que, bajo las mismas con-
diciones, no se pueden predecir los resultados. Por ejemplo, el lanzamiento
de un dado.
Todos podemos tener una idea intuitiva de los que es la probabilidad. Por
ejemplo, cuando decimos que un suceso, llamémosle A, tiene una probabilidad
de 0, 5, esperamos que ocurra la mitad de las veces en las que realicemos el
experimento, siempre que se haga en las mismas condiciones y de manera
independiente. Esta idea frecuencial es, en cierto modo, intuitiva, pero si
queremos establecer una teorı́a no podemos dejarnos guiar siempre por la
intuición, ya que en ciertas ocasiones nos puede llevar a un error. Esto se ve
en el siguiente ejemplo, conocido como el problema de Monty-Hall.

Ejemplo 1.1 En un concurso se ofrece escoger entre tres puertas: detrás de


una de ellas hay un coche, y detrás de las otras, cabras. Escoges una puerta,
digamos la no 1, y el presentador, que sabe lo que hay detrás de las puertas,
abre otra, digamos la no 3, que contiene una cabra. Entonces te pregunta:
”¿No prefieres escoger la no 2?”. El problema surge al preguntarnos si será
favorable para nosotros cambiar de puerta o seguir con la puerta no 1, es decir,
si la probabilidad de ganar el coche aumentará o no al cambiar de puerta.
La intuición puede hacernos pensar entonces que, como nos quedan dos
puertas, entonces la probabilidad de que el coche está en una de ellas es de
1
2
, lo que no nos influirı́a a la hora de cambiar de puerta. Sin embargo, la
probabilidad de que el coche esté en la puerta no 2 es de 23 . ¿Qué está fallando
entones? Bien, es lógico pensar que, si tenemos dos puertas, una con un
coche y otra con una cabra, entonces la probabilidad de que el coche esté en
una de ellas es 12 . Pero hay que tener en cuenta que el presentador abre la

1
puerta no 3 después de que nosotros hallamos elegido la puerta no 1, es decir,
nuestra decisión ha afectado a la puerta que abre el presentador. Veamos
cómo afecta:
Por una parte, si la puerta no 1 es la que tiene el coche, entonces el pre-
sentador puede abrir la puerta no 2 o la no 3. En este caso, no es favorable
cambiar de puerta.
Por otra parte, si la puerta no 1 tiene una cabra, entonces el presentador
tendrá que abrir la puerta que no tenga el coche. En este caso, es favorable
cambiar de puerta.
El modo en el que nuestra decisión inicial influye es, por tanto, en el
número de puertas que puede abrir el presentador.
La razón de que la probabilidad de que el coche esté en la puerta no 2
sea de 23 en lugar de 12 es que, en cierto sentido, la puerta no 2 absorbe la
probabilidad de la puerta no 3. En efecto, inicialmente la probabilidad de que
el coche esté en la puerta no 1, no 2 o no 3 es de 31 . Sin embargo, al abrir la
puerta no 3 y ver una cabra, la probabilidad de que el coche esté en la puerta
no 3 es 0, mientras que la probabilidad de que el coche esté en la puerta no 2
pasa a ser 32 . Esto se debe a que una vez elegida la puerta no 1, y antes de
abrir la no 3, la probabilidad de que el coche no esté en la puerta no 1 es de 23 .
El abrir la puerta no 3 no cambia la probabilidad de que el coche no esté en
la puerta no 1(ya que el presentador abrirá la puerta que no tenga el coche), es
decir, la probabilidad de que el coche no esté en la puerta no 1 seguirá siendo
2
3
(aunque ya sepamos que la puerta no 3 tiene una cabra).
Por lo tanto, la puerta no 2 tiene una probabilidad de 23 de tener el coche.
Una forma más fácil de ver este ejemplo es tomando un número más
grande de puertas. Por ejemplo, supongamos que en las mismas condiciones
anteriores tenemos 1000 puertas: una de ellas con un coche y las otras 999
con una cabra. Al igual que antes elegimos la puerta no 1, que tiene una pro-
1
babilidad de 1000 de tener el coche. Esta vez, el presentador abre 998 puertas,
todas con cabras. Supongamos que la puerta que ha dejado sin abrir es la
no 2, y nos hacen la misma pregunta “¿Quieres cambiar de puerta?
999
Ahora la probabilidad de que el coche esté en la puerta no 2 es de 1000 ,
luego tiene sentido cambiar de puerta.

Otro ejemplo muy parecido al anterior es el siguiente:
Ejemplo 1.2 Tres prisioneros A,B,C se enteran de que uno de ellos va a ser
indultado, y saben que el guarda de la prisión sabe a cual de ellos indultarán.
El prisionero A se pone pesado y, después de un buen rato preguntando,
consigue que el guarda le de la siguiente información: “No te diré si tú eres
el indultado o no, sino que el no indultado es el B“.

2
Muy contento, el prisionero A le dice al prisionero C que ambos tienen
una probabilidad de 21 de ser indultados. Entonces el prisionero C se rı́e, ya
que en lugar de eso, es él quien tiene una probabilidad de 23 de ser indultado,
mientras que el prisionero A tiene una probabilidad de 13 .


El contexto adecuado para establecer la teorı́a de la probabilidad es la
teorı́a de la medida, desarrollada, entre otros, por Borel, Lebesgue o Carat-
heodory.
Con toda esta teorı́a de la medida fue Kolmogorov quien, en 1993, da
cuerpo a la teorı́a de la probabilidad. Hasta entonces, el estudio de la pro-
babilidad consistı́a en un compendio de resultados, inicialmente con el fin de
encontrar soluciones a determinados problemas relacionados con juegos de
azar (Fermet y Pascal) y, más adelante, intentando dar respuesta a uno de
los problemas centrales del cálculo de probabilidades, el teorema central del
lı́mite (Bernoulli, De Moivre, Laplace...).

3
1.2. Espacio de probabilidad
Cuando queremos modelizar un experimento aleatorio; por ejemplo, el
lanzamiento de una moneda, el primer elemento que tenemos que describir
es el conjunto de los posibles resultados, que se denomina espacio muestral.

Definición 1.1 Denominamos espacio muestral, y denotamos por Ω, al


conjunto de los posibles resultados del experimento aleatorio. A los subcon-
juntos de Ω de les denominan sucesos.

En el ejemplo de lanzar una moneda, Ω solo tiene dos elementos, ((cara))


y ((cruz)).
Recordemos que el espacio muestral Ω puede tener una naturaleza muy di-
versa: finito, infinito numerable, infinito no numerable, continuo, n-dimensional...
En su proceso para axiomatizar la probabilidad, Kolmogorov establece un
conjunto de subconjuntos de Ω que son interesantes de medir. Dicho conjunto
es una σ-álgebra, a la que denotaremos por A.

Definición 1.2 Una familia A de subconjuntos de Ω es una σ-álgebra sobre


Ω cuando se verifica:
1. A es no vacı́a. Al menos ∅ u Ω están en A.

2. Si A ∈ A entonces Ac ∈ A. Aquı́, y de ahora en adelante, Ac = Ω \ A.

3. Si An ∈ A, n=1,2,..., entonces ∞
S
n=1 An ∈ A.

Por último, necesitamos una función de conjunto P , que verifique la de-


nominada Axiomática de Kolmogorov. Estos axiomas son:
1. Para todo A ∈ A, 0 ≤ P (A) ≤ 1.

2. P (Ω) = 1.

3. Si An ∈ A, n=1,2,..., son tales que Ai ∩ Aj = ∅ para todo i 6= j, se


verifica
∞  ∞
S P
P An = P (An ).
n=1 n=1

En particular, P es una medida finita y σ-aditiva.

Definición 1.3 Llamaremos espacio de probabilidad a la terna (Ω, A, P ),


donde A es una σ-álgebra sobre Ω y P : Ω −→ [0, 1] es una función que ve-
rifica los axiomas de Kolmogorov.

4
Una dificultad que se nos plantea es que, al ser P una función de con-
juntos, es difı́cil operar con ella ya que los elementos de A pueden ser muy
complejos. Para ello introducimos el concepto de variable aleatoria, que nos
permite asociar a los elementos de Ω números reales.
Definición 1.4 Se define una variable aleatoria como una función me-
dible X : Ω −→ R; esto es, las imágenes inversas de conjuntos de Borel son
conjuntos medibles,
X −1 (B) = {ω ∈ Ω : X(ω) ∈ B} ∈ A para todo B ∈ B.
Una variable aleatoria X genera sobre el espacio probabilizable (R, B)
una probabilidad inducida PX , que es una medida de Lebesgue-Stieltjes.
Definición 1.5 Dada una variable aleatoria X, se denomina probabilidad
inducida a la medida PX sobre el espacio probabilizable (R, B) definida por
PX (B) = P (X −1 (B)) = P ({ω ∈ Ω : X(ω) ∈ B}).
De ahora en adelante escribiremos P {ω ∈ Ω : X(ω) ∈ B} en lugar
de P ({ω ∈ Ω : X(ω) ∈ B})
Al igual que antes, la función PX es una función de conjunto,
PX : B −→ [0, 1], lo que nos vuelve a dificultar el trabajo ya que no es fácil
de manejar; por lo que se hace necesario buscar una función puntual, esto es,
una función R −→ R.
Como la función PX es una medida de Lebesgue-Stieljes, esto nos lleva a
pensar que la función puntual que nos facilita el trabajo será una función de
distribución.

1.3. Función de distribución


Definición 1.6 Llamaremos función de distribución de probabilidad
o simplemente función de distribución a una función F : R −→ [0, 1]
definida por
F (x) = PX ((−∞, x]) = P {ω : X(ω) ≤ x}
De manera simplificada escribiremos
F (x) = PX (−∞, x] = P (X ≤ x)
La función de distribución nos va a premitir definir la probabilidad in-
dependientemente de la variable aleatoria escogida. Ocurre lo contrario con
la probabilidad inducida, ya que dos variables aleatorias que sean distintas
pueden inducir la misma probabilidad.

5
Ejemplo 1.3 En efecto, supongamos que consideramos el experimento alea-
torio consistente en tirar una moneda. Nuestro espacio muestral será Ω =
{Cara, Cruz}.
Definimos las variables aleatorias

X : Ω −→ [0, 1]
X(Cara) = 1, X(Cruz) = 0.

Y : Ω −→ [0, 1]
Y (Cara) = 0, Y (Cruz) = 1.

Sean ahora PX y PY las respectivas probabilidades inducidas. Se verifica


entonces

PX (1) = 12 , PX (0) = 1
2
PY (1) = 12 , PY (0) = 1
2

Claramente se ve que PX = PY , mientras que X 6= Y .



Recordemos algunas propiedades de la función de distribución.
Proposición 1.1 La función de distribución verifica las siguientes propie-
dades:

1. F es monótona no decreciente.
2. F (−∞) = lı́m (F (x)) = 0 y F (∞) = lı́m (F (x)) = 1.
x→−∞ x→∞

3. F es continua por la derecha para todo x ∈ R; es decir,

F (x+ ) = lı́m+ (F (x + h)) = F (x)


h→0

4. lı́m− (F (x + h)) existe para todo x ∈ R y verifica


h→0

F (x− ) = lı́m− (F (x + h)) = F (x) − PX {x}.


h→0

El definir la función de distribución continua a la derecha es tan válido


como definirla a la izquierda, ya que se obtienen las mismas propiedades.
Sin embargo, por consenso tomamos la continuidad a la derecha. En algunos
textos aparece definida como continua a la izquierda.
Habitualmente, para hacer incapié en el uso de la integral de Lebesgue,
y para relacionarla con la integral de Riemann, escribiremos

6
Z Z x
F (x) = dF (t) = dF (t).
(−∞,x] −∞

Si F (∞) < 1 entonces hablamos de una distribución impropia.


En el ejemplo anterior vimos que una distribución de probabilidad puede
estar generada por dos variables aleatorias distintas. El siguiente resulta-
do establece que una función de distribución sólo puede estar asociada una
medida de probabilidad.

Teorema 1.1 Sea F : R −→ [0, 1] tal que

1. F (−∞) = lı́m (F (x)) = 0 y F (∞) = lı́m (F (x)) = 1.


x→−∞ x→∞

2. F es monótona no decreciente.

3. F es continua por la derecha; es decir, F (x+ ) = F (x).

Entonces existe una única medida de probabilidad PF en (R, B), tal que F es
la función de distribución de PF . Esta medida es

PF (a, b] = F (b) − F (a)

Definiremos ahora dos conjuntos importantes asociados a la función de dis-


tribución.

Definición 1.7 Se define el conjunto de probabilidad de la función de


distribución F como el conjunto de puntos donde F es continua; esto es,

C(F ) = {x ∈ R : F (x− ) = F (x)}.

Denotaremos por D(F ) al conjunto de los puntos de discontinuidad que, al


ser F continua por la derecha, resulta ser

D(F ) = {x ∈ R : F (x) − F (x− ) > 0} = (C(F ))c .

El siguiente resultado nos da una importante y útil información acerca del


conjunto de los puntos de discontinuidad.

Proposición 1.2 El conjunto D(F ) de los puntos de discontinuidad de una


función de distribución F es a lo sumo numerable.

Demostración
Consideremos el conjunto Dn = {x ∈ R : F (x) − F (x− ) ≥ n1 }.
Entonces, para cada n ∈ N, se verifica
1
n
card(Dn ) ≤ PX (Dn ) ≤ 1

7
Consecuentemente, card(Dn ) ≤ n para cada n ∈ N o, lo que es lo mismo,
cada conjunto Dn tiene un número finito de elementos.
Por otra parte se verifica que

S
D(F ) = lı́m (Dn ) = Dn
n→∞ n=1

Al ser cada conjunto Dn finito, y por ser D(F ) unión infinita de los Dn ,
el conjunto D(F ) tiene que ser a lo sumo infinito numerable.

Este resultado sobre el conjunto D(F ) arroja información directa sobre
su complementario.

Corolario 1.1 El conjunto de continuidad de F es denso en R.

Demostración
Es inmediato, pues el conjunto de continuidad C(F ) es el complementario
de D(F ) que es a lo sumo numerable y, por tanto, cualquier entorno de un
elemento de R debe contener elementos de C(F ).

El hecho de que el conjunto D(F ) sea denso en R nos permitirá extender
las propiedades de la función de distribución, además de darnos el siguiente
resultado.

Proposición 1.3 Si F y G son dos funciones de distribución tales que F =


G en un subconjunto denso en R, entonces F = G para todos los reales.

Demostración
Sea D un conjunto denso de R donde coinciden F y G.
Sea x ∈ R, como D es denso en R existe una sucesión decreciente {xn }
de puntos de D con xn ↓ x cuando n → ∞.
Ahora bien, al ser F y G continuas por la derecha se tiene que
lı́m (F (xn )) = F (x) y lı́m (G(xn )) = G(x).
n→∞ n→∞
Como F y G coinciden en los puntos de D, las sucesiones {F (xn )} y
{G(xn )} coinciden y, consecuentemente F (x) = G(x).


1.3.1. Clasificación
Vamos a determinar la probabilidad en un punto aislado mediante una
función que llamaremos función de masa de probabilidad o, simplemente,
función de masa o función de probabilidad y viene dad por

8
p(x) = P (X = x) = F (x) − F (x− ) = PX {x}.
Atendiendo a esta función de masa, podemos clasificar las variables alea-
torias en dos grupos: discretas o continuas
Definición 1.8 (Variable aleatoria discreta)
Diremos que una variable aleatoria X con función de distribución F es
discreta si
P
p(x) = 1.
x∈D(F )

Definición 1.9 (Variable aleatoria continua)


Diremos que una variable aleatoria X con función de distribución F es
continua si
p(x) = 0 para todo x ∈ R.
Algunos ejemplos:
Ejemplo 1.4 Distribución binomial
n

X ∼ Bi(n, p). D(F ) = {0, 1, ..., n}, p(x) = k
px (1 − p)n−x .
Ejemplo 1.5 Distribución de Poisson
x
X ∼ P (λ). D(F ) = {0, 1, ...}, p(x) = e−λ λx! .
Ejemplo 1.6 Distribución exponencial
C(F ) = R
(
0 si x < 0
F (x) = −λ
1−e si x ≥ 0

1.3.2. Descomposición
Teorema 1.2 (Primera descomposición)
Toda función de distribución F se puede expresar como una combinación
lineal convexa (mixtura) de funciones de distribución de la forma
F = αFd + (1 − α)Fc ,
con 0 ≤ α ≤ 1, donde Fd es la función de distribución de una variable
aleatoria discreta y Fc es una función de distribución continua.
Demostración P
Consideremos el conjunto de discontinuidad D(F ) y sea α = p(x) ≤
x∈D(F )
1.

9
Se define la parte discreta de F como
Fd (x) = α1
P
p(xn ).
xn ≤x

La parte continua se obtiene despejando


F (x)−αFd (x)
Fc = 1−α
.
De esta forma Fc es continua, ya que
p(x)
Fd (x− ) = α1 p(xn ) y Fd (x) − Fd (x− ) =
P
α
,
xn ≤x

entonces
F (x)−αFd (x)−(F (x− )−αFd (x− ))
Fc (x) − Fc (x− ) = 1−α
= 0.

Veamos un ejemplo práctico de esta descomposición.
Ejemplo 1.7 Consideremos la función de distribución


 0 si x < 0
 2
x
si 0 ≤ x < 2


 16

1
F (x) = 4 si 2 ≤ x < 4
 x 5
− 8 si 4 ≤ x < 5



 4
1 − 5

si x ≥ 5
4x
Determinamos la parte discreta de F .
D(F ) = {4, 5}
p(4) = F (4) − F (4− ) = 81 ,
p(5) = F (5) − F (5− ) = 18 .

0 si x < 4

Fd (x) = 12 si 4 ≤ x < 5

1 si x ≥ 5

Para determinar la parte continua despejamos:


C(F ) = R \ {4, 5}


 0 si x<0

x2
si 0≤x<2


12

F (x) − αFd (x) 
1
Fc (x) = = 3 si 2≤x<4
1−α  x
−1 si 4≤x<5



 3
1 − 5

si x≥5
3x

10

Definimos ahora un nuevo tipo de variable aleatoria, que dará lugar a
otra nueva función de distribución.

Definición 1.10 Variable aleatoria singular


Diremos que una variable aleatoria es singular si existe B ∈ B tal que
PX (B) = 1 y tenga medida de Lebesgue nula, es decir, m(B) = 0.

Definición 1.11 Variable aleatoria absolutamente continua


Diremos que una variable aleatoria es absolutamente continua si para
cada B ∈ B que tenga medida de Lebesgue nula, m(B) = 0, se tiene que
PX (B) = 0.

Teorema 1.3 Sea F la función de distribución de una variable aleatoria.


Entonces F es absolutamente continua si, y solo si, existe una función me-
dible f tal que para todo a < b se tiene que
Z Z b
F (b) − F (a) = f (x)dm(x) = f (x)d(x),
(a,b] a

además, si existe otra función g en estas condiciones, se tiene que g = f casi


seguramente.

Este teorema no es más que la versión del teorema de Radon-Nikodim


aplicado a una medida de probabilidad y a la medida de Lebesgue.

Teorema 1.4 Segunda descomposición


Toda función de distribución F se puede expresar como una combinación
de funciones de distribución de la forma

F = βFs + (1 − β)Fac ,

con 0 ≤ β ≤ 1, donde Fs es una singular y Fac es absolutamente continua.

Este teorema es la versión del teorema de descomposición de Lebesgue


aplicado a una medida de probabilidad y a la medida de Lebesgue.

1.4. Integral de variables aleatorias


La integral de Lebesgue de una variable aleatoria respecto de la medida
de probabilidad recibe el nombre de esperanza; esto es, se define la esperanza
de una variable aleatoria X como

11
Z Z
E(X) = X(ω) dP (ω) = X dP .
Ω Ω

En un problema práctico, la esperanza nos da el resultado que se espe-


ra, es decir, si realizamos un experimento un número ilimitado de veces, la
esperanza será el resultado al que se aproximan los resultados.
Como X está asociada a una función de distribución sobre R, podemos
reescribir la esperanza de X en R como
Z Z
E(X) = d dF (x) = X dP .
R Ω

Recordemos que, si X es una variable aleatoria y g es una función medible


de R en R, entonces
Z Z
E(g(X)) = g(X) dP = g(x) dF (x).
Ω R

2. Convergencia en distribución
La convergencia en distribución de variables aleatorias se caracteriza por
la convergencia de la sucesión de funciones de distribución asociadas.
En Teorı́a de la Medida existen tres tipos de convergencia de funciones
medibles: la convergencia casi segura o convergencia para casi todo punto, la
convergencia en medida y la convergencia en Lp .
En Teorı́a de la Probabilidad se usa un tipo de medida llamada proba-
bilidad.Luego en lugar de convergencia en medida diremos convergencia en
probabilidad.
En el caso de las variables aleatorias, que son funciones medibles, esta
convergencia es independiente de la distribución que generen. Además, en
estos casos, la sucesión de variables aleatorias {Xn } está definida en el mismo
espacio de probabilidad (Ω, A, P ).
Nosotros vamos a considerar sucesiones de variables aleatorias {Xx } que
pueden estar definidas sobre distintos espacios de probabilidad {Ωn , A, P ).
Ası́, para cada n, tenemos una función de distribución Fn , definida en todo
R. Tiene sentido por tanto considerar la sucesión de funciones de distribución
{Fn }, lo que nos da los espacios de probabilidad {R, B, PFn }.

Definición 2.1 Sea {Fn } una sucesión de funciones de distribución . Dire-


mos que {Fn } converge débilmente a la función de distribución F , y lo
denotaremos por
d
Fn −→ F

12
si lı́m Fn (x) = F (x) para todo x ∈ C(F ).
n→∞

La convergencia débil de la sucesión de funciones {Fn } provoca una con-


vergencia de la sucesión de variables aleatorias asociadas {Xn }.

Definición 2.2 Sea {Xn } una sucesión de variables aleatorias y sea {Fn } la
d
sucesión de funciones de distribución asociada. Supongamos que Fn −→ F , y
sea X la variable aleatoria asociada a la función de distribución F . Diremos
entonces que {Xn } converge en distribución a X, y lo denotaremos por
d
Xn −→ X.

Dicho de otra forma, la sucesión de variables aleatorias {Xn } converge en


distribución a la variable aleatoria X si, y sólo si, la sucesión de funciones de
distribución asociada {Fn } converge débilmente a la función de distribución
F asociada a la variable aleatoria X.
Debemos comentar que, por un abuso del lenguaje, estamos denotando
de la misma forma la convergencia débil y la convergencia en distribución.
En algunos textos, la convergencia en distribución de variables aleatorias se
w
denota por Xn −→ X, donde la w proviene del término ”weak”, que en inglés
significa débil.
Vale la pena destacar la condición de convergencia débil de funciones de
distribución que, en otras palabras, equivale a decir que el lı́mite puntual de
la sucesión {Fn } existe para los elementos de C(F ). Este hecho es importante
y muy útil, ya que nos permite afirmar que, de existir, el lı́mite débil de una
sucesión de variables aleatorias {Xn } es único.
Comencemos probando el siguiente resultado.

Teorema 2.1 Si existe el lı́mite débil de una sucesión de funciones de dis-


tribución {Fn }, entonces es único.

Demostración
d
Sea F una función de distribución tal que Fn −→ F . Supongamos que G
es otra función de distribución tal que la sucesión {Fn } converge débilmente
a G. Veamos que F = G.
d d
Como Fn −→ F y Fn −→ G, se verifica

)
lı́m Fn (x) = F (x) ∀x ∈ C(F )
n→∞
⇒ F (x) = G(x) ∀x ∈ F (x) ∩ G(x)
lı́m Fn (x) = G(x) ∀x ∈ C(G)
n→∞

13
Como el conjunto C(F ) ∩ C(G) es denso en R, por la proposición 1.3 se
concluye que F (x) = G(x) para todo x ∈ R o, lo que es lo mismo, F = G.

Viendo este resultado, es lı́cito pensar si ocurre lo mismo con el lı́mite
en distribución de una sucesión de variables aleatorias {Xn }. Pues bien, re-
sulta que no es posible asegurar una unicidad que afecte directamente a las
variables aleatorias; esto es, si X e Y son lı́mite en distribución de {Xn }, no
podemos afirmar que X = Y . Ello se debe a que, aunque sea cierto que el
lı́mite en distribución precisa de un lı́mite débil, que sabemos que es único,
esto no implica que el lı́mite en distribución vaya a serlo, ya que para cada
función de distribución existen bastantes variables aleatorias que la generan.
Sin embargo, podemos dar una unicidad que afecte a las probabilidades
inducidas PX y PY generadas por X e Y respectivamente.
En efecto, por ser X y Y lı́mite en distribución, entonces las funciones de
distribución FX y FY asociadas a las variables X e Y , respectivamente, son
lı́mite débil de la sucesión de funciones de distribución asociada a {Xn }. Aho-
ra podemos aplicar el resultado y obtenemos que FX = FY , lo que desemboca
en la igualdad de las probabilidades inducidas por las variables X e Y .

Ejemplo 2.1 Supongamos que Xn ∼ δ( n1 ), esto es, Xn posee una distribu-


ción degenerada en el punto n1 , luego toda la masa está concentrada en este
punto.
La correspondiente sucesión de funciones de distribución {Fn } viene dada
por
(
0 si x < n1
Fn (x) =
1 si x ≥ n1
El lı́mite puntual de esta función es
(
0 si x ≤ 0
G(x) = lı́m Fn (x) =
n→∞ 1 si x > 0
La función G es continua en todo R menos en el 0. El problema está en que
la discontinuidad en este punto está a la derecha. Por ello, esta función no
es una función de distribución.
Analizando la definición de lı́mite débil podemos ver una forma de so-
lucionar este problema. En efecto, para que una función de distribución F
sea lı́mite débil de la sucesión {Fn } tiene que verificarse lı́m Fn (x) = F (x),
n→∞
para cada x ∈ C(F ). Ahora bien, como G no es continua en 0, por defi-
nición se tiene 0 ∈
/ C(G). Esta es la clave, ya que nos permite pasar de la

14
continuidad a la izquierda de la función G en 0 a la continuidad a la derecha,
obteniendo ası́ la función de distribución
(
0 si x < 0,
F (x) =
1 si x ≥ 0,


En este ejemplo hemos partido de una sucesión de distribuciones degene-
radas es un punto y hemos obtenido como lı́mite una función de distribución
cuya variable aleatoria asociada es degenerada en un punto.
Si consideramos ahora la sucesión Xn ∼ δ(− n1 ) con funciones de distribu-
ción (
0 si x < − n1
Fn (x) =
1 si x ≥ − n1
entonces, el lı́mite puntual sı́ es función de distribución porque ahora es
continua por la derecha, y coincide con el lı́mite en distribución:

(
0 si x < 0
lı́m Fn (x) = F (x) =
n→∞ 1 si x ≥ 0

Veamos ahora un ejemplo en el que las distribuciones son uniformes en


cierto intervalo.

Ejemplo 2.2 Consideremos Xn ∼ U[− n1 , n1 ], con función de distribución es



0
 si x < − n1
1 nx
Fn (x) = 2
+ 2
si − n1 ≤ x < 1
n

1 si x ≥ n1

El lı́mite puntual de esta sucesión de funciones es



0 si x < 0

lı́m Fn (x) = G(x) = 12 si x = 0
n→∞ 
1 si x > 0

En este caso la función G es discontinua en 0, tanto por la derecha como


por la izquierda y, nuevamente, tenemos que considerar la degenerada en 0
como el lı́mite en distribución.

15

En este nuevo ejemplo, una sucesión de distribuciones uniformes tiene
como lı́mite en distribución a una variable aleatoria degenerada.
En este ejemplo vamos a ver cómo una sucesión de distribuciones unifor-
mes discretas converge en distribución a una distribución continua.

Ejemplo 2.3 Supongamos Xn ∼ U{ n1 , n2 , .., 1}. Las funciones de distribu-


ción vienen dadas por



 0 si x < n1 ,
1
si n1 ≤ x < n2 ,



 n

2

si n2 ≤ x < n3 ,
n
Fn (x) = ..


 .
n−1
si n−1




 n n
≤ x < 1,

1 si x ≥ 1,
Para determinar el lı́mite puntual vamos a reescribirla como

0
 si x < 0,
[nx]
Fn (x) = n
si 0 ≤ x < 1,

1 si x ≥ 1,

Vemos que el lı́mite puntual de esta sucesión de funciones es la función



0 si x < 0,

Fn (x) = x si 0 ≤ x < 1,

1 si x ≥ 1.

Luego, en este caso, el lı́mite es una distribución continua: la uniforme en


[0, 1].

Notemos que, aunque pueda parecer paradójico, P (Xn ∈ Q) = 1, mientras


que P (X ∈ Q) = 0, ya que el soporte de X es el intervalo [0, 1].
De esta forma, si definimos las medidas de probabilidad asociadas a las
funciones de distribución, se tiene que
lı́m PFn (Q) 6= PF (Q).
n→∞

Introducimos ahora un nuevo término.


Definición 2.3 Dado el espacio de probabilidad (R, B, P ), se dice que un
conjunto B ∈ B es un conjunto de P-continuidad si P (∂(B)) = 0.
Donde ∂(B) denota la frontera topológica de B.

16
Con esta definición, el conjunto Q no es un conjunto de PF -probabilidad,
ya que ∂(Q) = R, y PF (R) = 1 6= 0, y es fácil ver que no puede ser
lı́m PFn (Q) = PF (Q)
n→∞
Veamos un último ejemplo.

Ejemplo 2.4 Consideremos la sucesión de variables {Xn } con funciones de


distribución dadas por

0
 si x < 0,
Fn (x) = 21 + 2n
x
si 0 ≤ x < n,

1 si x ≥ n.

Podemos descomponer Fn en sus partes continua y discreta. Tenemos ası́ las


funciones de distribución,

0 si x < 0,
( 
(d) 0 si x < 0, (c)
Fn (x) = y Fn (x) = nx si 0 ≤ x < n,
1 si x ≥ 0; 
1 si x ≥ n.

Vemos entonces que las variables Xn son mixturas de una distribución dege-
nerada en 0 y de una uniforme en [0, n]. Podemos descomponer pues Fn =
1 (d) (c)
F + 12 Fn .
2 n
El lı́mite puntual de la parte continua es 0 en todo R, luego el lı́mite
puntual de la sucesión de funciones será
(
0 si x < 0,
G(x) = 1
2
si x ≥ 0.

Esta función no es una función de distribución ya que G(∞) = 21 .


En este ejemplo no podemos solucionar el problema del mismo modo que
en los anteriores. Sin embargo, esa situación es salvable definiendo la función
de distribución impropia, que analizaremos más adelante.

3. Caracterización de la convergencia en dis-


tribución
En esta sección vamos a ver algunas equivalencias de la convergencia en
distribución que pueden resultar muy útiles.

17
Algunos de los resultados que vamos a estudiar los recoge Billingsley en un
solo teorema que denomina teorema de la maleta(”portmanteau”); mientras
que otros autores , como Loeve, los analizan de manera separada. Loeve los
denominada teoremas de Helly-Bray; en particular, el referido a la esperanza
de una función continua y acotada.
Trabajaremos directamente con la sucesión de funciones de distribución
{Fn } y obviaremos la sucesión de variables aleatorias.
También es interesante considerar la sucesión de las medidas de proba-
bilidad inducida {PFn } o {PXn }, y que están asociadas a las funciones de
distribución.

Definición 3.1 Sea {Pn } una sucesión de medidas de probabilidad definidas


sobre (R, B), se dice que Pn converge débilmente a la medida de probabi-
lidad P si para cada par de puntos a < b con P (a) = P (b) = 0 se verifica
que
lı́m Pn (a, b] = P (a, b] .
n→∞

d
También usaremos la notación Pn −→ P .

Notemos que la condición P (a) = P (b) = 0 implica que el intervalo (a, b]


es un conjunto de P -continuidad, ya que
P (∂ (a, b]) = P ({a, b}) = P (a) + P (b) = 0.
Además, no importa el tipo de cierre que usemos para el intervalo (a, b]
Vamos a ver dos caracterizaciones de la convergencia de una sucesión de
funciones de distribución antes de probar el teorema de Helly-Brey.
Proposición 3.1 Sean {Fn } una sucesión de funciones de distribución y
{PFn } la sucesión de probabilidades asociadas y sean también F y PF una
función de distribución y su probabilidad asociada. Entonces,
d d
Fn −→ F si y solo si PFn −→ PF .
Demostración
Observemos que

PF (a) = PF (b) = 0 ⇐⇒ a, b ∈ C(F ) (1)

y que además
PF (a, b] = F (b) − F (a). (2)
⇒ Supongamos que se da la convergencia de las funciones de distribu-
ción, es decir,

18
lı́m Fn (x) = F (x) para cada x ∈ C(F ).
n→∞

Entonces se tiene
(2) (1)
lı́m PFn (a, b] = lı́m (Fn (b) − Fn (a)) = lı́m Fn (b) + lı́m Fn (a) =
n→∞ n→∞ n→∞ n→∞
F (b) − F (a) = PF (a, b].
d
Luego PFn −→ PF .
d
⇐ Supongamos ahora que PFn −→ PF .
Como el conjunto C(F ) es denso en R tiene sentido tomar a → −∞ y
obtenemos ası́, para cada x ∈ C(F ),

Fn (x) = lı́m PFn (a, x] y F (x) = lı́m PF (a, x].


a→−∞ a→−∞

Ahora, tomando lı́mite en n, se llega a


 
lı́m Fn (x) = lı́m lı́m PFn (a, x] = lı́m PF (a, x] = F (x),
n→∞ n→∞ a→−∞ a→−∞

como querı́amos probar.



La otra caracterización es la siguiente.
d
Lema 3.1 Sean {Fn } y F funciones de distribución. Entonces, Fn −→ F
si, y solo si,

lı́m sup Fn (x) ≤ F (x) y lı́m inf Fn (x) ≥ F (x− ) para todo x ∈ R.
n→∞ n→∞

Demostración
⇐ Por hipótesis se verifica

lı́m sup Fn (x) ≤ F (x) y lı́m inf Fn (x) ≥ F (x− ) para todo x ∈ R,
n→∞ n→∞

en particular, si tomamos x ∈ C(F ), también se tendrán estas desigualdades.

19
Por definición sabemos que F (x− ) = F (x) para cada x ∈ C(F ). Luego
lı́m sup Fn (x) ≤ F (x) y lı́m inf Fn (x) ≥ F (x− ) = F (x) para todo x ∈ C(F ).
n→∞ n→∞

Por lo tanto, si x ∈ C(F ), y teniendo en cuenta la definición de lı́mite superior


e inferior de un conjunto, se tiene
F (x) ≤ lı́m inf Fn (x) ≤ lı́m sup Fn (x) ≤ F (x), para cada x ∈ C(F ).
n→∞ n→∞

De esta forma, para todo x ∈ C(F ), F (x) = lı́m inf Fn (x) = lı́m sup Fn (x), lo
n→∞ n→∞
que implica que la sucesión {Fn (x)} converge para cada x ∈ C(F ) y
lı́m Fn (x) = F (x), dándose ası́ la condición de convergencia débil.
n→∞
⇒ Supongamos ahora que se da la convergencia débil.
Sea x ∈ R y consideremos y ∈ C(F ) con y > x, entonces
lı́m sup Fn (x) ≤ lı́m Fn (y) = F (y).
n→∞ n→∞

En efecto. Al ser y > x, y, para cada n ∈ N, Fn creciente, se verifica


Fn (x) ≤ Fn (y).
Luego
lı́m sup Fn (x) ≤ lı́m inf Fn (y) ≤ lı́m Fn (y) = F (y).
n→∞ n→∞ n→∞

Como y > x era genérico, podemos tomar una sucesión decreciente {yn } ⊂
C(F ) tal que yn → x. Representaremos esto por y ↓ x.
Tomando lı́mite cuando y ↓ x se llega a
lı́m sup Fn (x) ≤ lı́m F (y) = F (x).
n→∞ y↓x

Esto último se debe a la continuidad por la derecha de la función F y a que


y ↓ x.
De manera análoga, se tiene para y ∈ C(F ) con y < x que
lı́m inf Fn (x) ≥ lı́m Fn (y) = F (y),
n→∞ n→∞

y, tomando lı́mite cuando y ↑ x, lı́m inf Fn (x) ≥ lı́m F (y) = F (x− ).


n→∞ y↑x


Teorema 3.1 (Teorema de Helly-Belly) Sean {Fn } y F funciones de dis-


d
tribución. Entonces, Fn −→ F si y solo si para toda función g continua y
acotada se verifica que

20
Z Z
lı́m dFn (x) = dF (x);
n→∞ R R
esto es,
Z Z
d
Fn −→ F ⇔ g(x)dFn (x) −→ g(x)dF (x) para toda g acotada y
R R
continua.
Demostración
⇒ Verifiquemos primero que si
Z Z
lı́m g(x)dFn (x) = g(x)dF (x),
n→∞ R R
para toda función g acotada y continua entonces se da la convergencia en
distribución; para ello demostraremos que
lı́m sup Fn (x) ≤ F (x) y lı́m inf Fn (x) ≥ F (x− ) para todo x ∈ R
n→∞ n→∞

y, por el lema previo, tendremos esta implicación.


Sea x ∈ R, vamos a considerar para todo ε > 0 la función gε+ definida por

1
 si t ≤ x,
+ x+ε+t
gε = ε
si x < t ≤ x + ε,

0 si t > x + ε.

Para todo n se tiene que


Z Z Z
Fn (x) = dFn (t) = gε+ (t)dFn (t) ≤ gε+ (t)dFn (t).
(−∞,x] (−∞,x] R

Tomando lı́mite en n y teniendo en cuenta que gε+ es acotada y continua se


tiene que
Z Z
+
lı́m sup Fn (x) ≤ lı́m gε (t)dFn (t) = gε+ (t)dF (t) ≤ F (x + ε).
n→∞ n→∞ R R
Ahora, si tomamos lı́mite cuando ε → 0, se llega a
lı́m sup Fn (x) ≤ F (x).
n→∞

De manera análoga, definimos gε− como



1
 si t ≤ x − ε,
− x−t
gε (t) = ε
si x − ε < t ≤ x,

0 si t > x.

Se tiene ahora la siguiente relación

21
Z Z Z
Fn (x) = dFn (t) ≥ gε− (t)dFn (t) = gε− (t)dFn (t).
(−∞,x] (−∞,x] R

Tomando lı́mite se tiene que


Z Z
lı́m inf Fn (x) ≥ lı́m gε− (t)dFn (t) = gε− (t)dF (t) ≥
n→∞ n→∞ R R
Z
gε− (t)dF (t) ≥ F (x − ε).
(−∞,x−ε]

Ahora, tomamos lı́mite en ε y se llega a


lı́m inf Fn (x) ≥ F (x− ).
n→∞

⇐ Supongamos ahora que se da la covergencia en distribución; esto es


lı́m Fn (x) = F (x) para todo x ∈ C(F ).
n→∞

Sea g una función continua y acotada, vamos a verificar primero que


Z Z
lı́m sup g(x)dFn (x) ≤ g(x)dF (x).
n→∞ R R

g(x)+M
Consideremos M = sup |g(x)| < ∞, y sea g0 = 2M
.
x∈R
Entonces 0 ≤ g0 (x) ≤ 1, y si demostramos la desigualdad anterior para
g0 la tendremos demostrada para g.
Renombramos g0 como g. Z
Sea ε > 0, como C(F ) es denso en R y dF (x) = 1, existen a, b ∈ C(F )
R
tales que
Z
ε
dF (x) = F (b) − F (a) > 1 − ;
(a,b] 2
y
Z Z Z
ε
dF (x) = dF (x) + dF (x) < .
(a,b]C (−∞,a] (b,∞) 2

Dado que lı́m Fn (x) = F (x) para todo x ∈ C(F ), existirá un N tal que
n→∞
para todo n ≥ N se verifica que
Z
ε
dFn (x) < .
(a,b]C 2

Ası́ que, para todo n ≥ N , teniendo en cuenta que g(x) ≥ 1, se tiene

22
Z Z Z Z
ε
g(x)dFn (x) = g(x)dFn (x)+ g(x)dFn (x) < g(x)dFn (x)+ .
R (a,b] (a,b]C (a,b] 2
Entonces
Z Z
ε
lı́m sup g(x)dFn (x) < lı́m sup g(x)dFn (x) + .
R (a,b] 2

Ahora, por ser g continua en el compacto [ab] es, también, uniformemente


continua.
Esto es, para todo ε > 0 existe δ > 0 tal que si

|x − y| < δ con x, y, ∈ [a, b],

entonces

|g(x) − g(y)| < 4ε ,

lo que implica que

g(x) < g(y) + 4ε .

Consideremos una partición de [a, b], determinada por

a = x0 < x1 < · · · < xm = b,


con xi ∈ C(F ) y xi − xi−1 < δ(i = 1, ..., m).

Entonces para xi−1 < x < xi se tiene, al ser |xi − xi−1 | < δ,

|x − xi | < δ =⇒ g(x) < g(xi ) + 4ε


|xi − x| < δ =⇒ g(xi ) < g(x) + 4ε ,

luego g(x) < g(xi ) + 4ε < g(x) + 2ε .


Se da, entonces, la siguiente relación
Z m Z
X
g(x)dFn (x) = g(x)dFn (x) ≤
(a,b] i=1 (xi−1 ,xi ]
m Z
X  ε
≤ g(xi ) + dFn (x) =
i=1 (xi−1 ,xi ]
4
m 
X ε
= g(xi ) + PFn (xi−1 , xi ].
i=1
4

Podemos escribir Fn (xi ) − Fn (xi−1 ) en lugar de PFn (xi−1 , xi ].

23
Como (xi−1 , xi ] es un conjunto PFn -continuo podemos tomar lı́mite y lle-
gamos a
Z m 
X ε
lı́m sup g(x)dFn (x) ≤ lı́m g(xi ) + PFn (xi−1 , xi ] =
n→∞ (a,b] n→∞
i=1
4
m  m  Z
X ε X ε
= g(xi ) + PF (xi−1 , xi ] = g(xi ) + dF (x) =
i=1
4 i=1
4 (xi−1 ,xi ]
m Z m Z
X  ε X  ε
= g(xi ) + dF (x) ≤ g(x) + dF (x) =
(x i−1 ,x i ] 4 (x i−1 ,x i ] 2
Zi=1  Z i=1
ε ε
= g(x) + dF (x) ≤ g(x)dF (x) + .
(a,b] 2 R 2

Ahora, sustituyendo esta acotación en


Z Z
ε
lı́m sup g(x)dFn (x) < lı́m sup g(x)dFn (x) + ,
R (a,b] 2
se llega a
Z Z
lı́m sup g(x)dFn (x) < g(x)dF (x) + ε.
R R

Tomando lı́mite cuando ε → 0, se tiene que


Z Z
lı́m sup g(x)dFn (x) ≤ g(x)dF (x),
R R

y ya hemos probado la primera desigualdad.


Para demostrar la segunda desigualdad razonaremos de forma análoga,
reemplazando g por −g, lo que nos llevará a

24
Z Z Z
lı́m inf g(x)dFn (x) = − lı́m sup (−g(x))dFn (x) ≥ − (−g(x))dF (x) =
R Z R R

= g(x)dF (x).
R


En el desarrollo de esta demostración hemos utilizado dos esperanzas: la
esperanza a trozos (que ya no se usa) y la esperanza usual.
Podemos escribir el teorema de Helly-Bray en término de esperanzas no
la siguiente forma.
Z
Sabemos que g(x)dF (x) es la esperanza matemática de la transforma-
R
ción g(X), donde X es la variable aleatoria asociada a F .
Por lo tanto, la igualdad
Z Z
lı́m g(x)dFn (x) = g(x)dF (x),
n→∞ R R

se puede expresar como

lı́m E(g(Xn )) = E(g(X)),


n→∞

siendo Xn la variable aleatoria asociada a Fn .


Esto nos permite enunciar el teorema de Helly-Bray en función de las
d
esperanzas: Sean {Fn } y F funciones de distribución. Entonces, Fn −→ F
si y solo si para toda función g continua y acotada se verifica que

lı́m E(g(Xn )) = E(g(X)),


n→∞

siendo Xn la variable aleatoria asociada a Fn y X la variable aleatoria aso-


ciada a F .
Con esta observación es muy fácil ver algunos contraejemplos para el
teorema de Helly-Bray.

Ejemplo 3.1 Sea la función de distribución




 0 si x < −1

x+1
si −1 ≤ x < 0


 2n

F (x) = 2n + 4 si 0 ≤ x < n2
1 1
 x
+ 12 si n2 ≤ x < 2




 4
1 si x ≥ 2

25
El lı́mite puntual es


 0 si x<0
1

si x=0
4
G(x) = x 1
 + si 0<x<2
2 2


1 si x≥2

Para determinar el lı́mite débil tenemos que hacer que el punto de dis-
continuidad lo sea solo por la izquierda, resultando

0
 si x < 0
x 1
F (x) = 4 + 2 si 0 ≤ x < 2

1 si x ≥ 2

Vamos a considerar una función discontinua en 0; por ejemplo

(
1 si 0 < x ≤ 2
g(x) = I(0,2] =
0 en otro caso

Vamos a determinar
lı́m E(g(Xn )) y E(g(X)).
n→∞

Se tiene
Z Z
E(I(0,2] (Xn )) = I(0,2] (x)dFn (x) = dFn (x) = Fn (2) − Fn (0) =
R (0,2]
 
1 1 3 1
=1− + = −
2n 4 4 2n
Se tiene entonces que
lı́m E(I(0,2] (Xn )) = 34 .
n→∞

Mientras que

Z Z
E(I(0,2] (X)) = I(0,2] (x)dF (x) = dF (x) = F (2) − F (0) =
R (0,2]
1 1
=1− = .
2 2
Esto es, si g no es continua, entonces,

26
d
Fn −→ F ; lı́m E(g(Xn )) = E(g(X)).
n→∞

Ejemplo 3.2 Vamos considerar la función de distribución



0
 si x < 0
3x 1
G(x) = 8 + 4 si 0 ≤ x < 2

1 si x ≥ 2

Si Y es la variable aleatoria asociada a G, se tiene que


Z Z
1 3
E(I(0,2] (Y )) = I(0,2] (x)dG(x) = dG(x) = G(2) − G(0) = 1 − =
R (0,2] 4 4

27
Esto es, se tiene que
lı́m E(g(Xn )) = E(g(Y ));
n→∞

Sin embargo,
d
Fn 9 G.

Ejemplo 3.3 Veremos en este ejemplo el comportamiento de alguna función


continua, como g(x) = x.
Para calcular
Z
R
E(g(Xn )) = g(x)dFn (x) y E(g(X)) = R g(x)dF (x),
R

es necesario determinar la función de probabilidad de la parte discreta y la


función de densidad de la continua.
La probabilidad de la parte discreta de Xn es
1
Pn {0} = P (Xn = 0) = 4
y Pn { n2 } = P (Xn = n2 ) = 1
4

y la función de densidad de la parte continua es



1
 2n si −1 ≤ x < 0

fn (x) = 14 si n2 ≤ x < 2

0 en otro caso.

Se tiene ahora
Z
E(Xn ) = xdFn (x) =
R
Z 0 Z 2
1 2 1 1 1
=0∗ + ∗ + x dx + x dx =
4 n 4 −1 2n 2
n
4
1 1 1
= + − 2
2 4n 2n
Se tiene entonces que
lı́m E(Xn ) = 12 .
n→∞

Por otro lado, la probabilidad de la parte discreta de X es


1
P {0} = P (X = 0) = 2

28
y la función de densidad de la parte continua es
(
1
si 0 ≤ x < 2
f (x) = 4
0 en otro caso

Se tiene entonces
Z Z 2
1 1 1
E(X) = xdF (x) = 0 ∗ + x dFn (x) = .
R 2 0 4 2

29
Por lo tanto, lı́m E(Xn )) = E(X).
n→∞


Terminamos esta sección con un ejemplo que muestra que la convergencia
débil no implica la convergencia de momentos.
Ejemplo 3.4 Consideremos la sucesión de variables aleatorias binomiales,
{Xn }, donde Xn ∼ B(n, pn ).
Supongamos que pn −→ 0 y que E[Xn ] = npn −→ λ, siendo λ > 0.
Esto implica que Xn −→ X, siendo X ∼ P (λ). Sea F la función de
distribución asociada a X.
Como X ∼ P (λ) se tiene E[X] = λ. Luego lı́m E[Xn ] = E[X] = λ.
n→∞
Veamos que no ocurre lo mismo con los momentos de orden 2.

V ar[X] = λ
=⇒ lı́m V ar[Xn ] 6= V ar[X]
V ar[Xn ] = npn (1 − pn ) −→ qλ n→∞

4. Convergencia vaga
4.1. Distribuciones impropias
Hasta ahora siempre hemos supuesto que la función de distribución lı́mite
F debe verificar que F (−∞) = 0 y F (+∞) = 1; esto nos segura que sea
la función de probabilidad de una medida de probabilidad. En ocasiones, el
lı́mite no verifica alguna de estas condiciones, como ocurre en el de la sucesión
de mixturas de degeneradas con uniformes, donde F (+∞) < 1. Sin embargo,
no debemos despreciar el análisis de esta situación.

Definición 4.1 Diremos que una función F es una función de distribu-


ción impropia si verifica
1. F es monótona no decreciente.

2. F es continua por la derecha para todo x ∈ R; es decir,

F (x+ ) = lı́m+ F (x + h) = F (x).


h→0

3. El lı́m− F (x + h) = F (x− ) existe para todo x ∈ R.


h→0

4. F (−∞) = lı́m F (x) > 0 y/o F (+∞) = lı́m F (x) < 1.


x→−∞ x→+∞

30
Equivalentemente, una función de distribución es impropia si, y solo si,
su variación es menor estricta que 0.
Recordemos que la variación de una función de distribución F es

var(F ) = F (+∞) − F (−∞)

Definición 4.2 Una sucesión de funciones de distribución {Fn } converge


vagamente a la función de distribución (propia o impropia) F si, para todo
x ∈ C(F ),

lı́m Fn (x) = F (x).


n→∞

Lo denotaremos por
v
Fn −→ F .

Algunos autores, como Loeve, llaman a ”nuestraçonvergencia débil con-


vergencia completa, y a la que llamamos vaga, la denominan débil. En cual-
quier caso, dentro del conjuntos de funciones de distribuciones propias, la
convergencia completa (débil) y débil (vaga) coinciden.
La diferencia entre convergencia débil y vaga radica en que la medida
asociada a la función de distribución lı́mite no es necesariamente una proba-
bilidad, ya que µF (R) toma un valor inferior a uno. Por este motivo, algunos
autores llaman a estas medidas subprobabilidades.
Mientras que la convergencia débil implica la vaga , en el otro sentido se
verifica la siguiente proposición, que se deja sin demostrar.

Proposición 4.1 Sea {Fn } una sucesión de funciones de distribución. En-


d
tonces Fn −→ F si, y solo si,
v
Fn −→ F , lı́m Fn (−∞) = F (−∞) y lı́m Fn (+∞) = F (+∞).
n→∞ n→∞

Sin embargo, la convergencia vaga no implica necesariamente la conver-


gencia débil, como muestra el siguiente ejemplo.

Ejemplo 4.1 Sea la función de distribución



0 si x < −n

Fn (x) = 12 si −n ≤ x < n

1 si x ≥ n

Se tiene, para todo x ∈ R

31
lı́m Fn (x) = F (x) = 21 ,
n→∞

pero

lı́m Fn (−∞) = 0 y lı́m Fn (+∞) = 1,


n→∞ n→∞

mientras que

F (−∞) = F (+∞) = 12 .
v
Por tanto , F no es una función de distribución propia. Luego Fn −→ F
d
pero Fn 9 F .


Otro ejemplo que converge a una función de distribución impropia es el
siguiente

Ejemplo 4.2 Consideremos la sucesión de variables aleatorias con Xn ∼


U(−n, n), cuya función de distribución es

0
 si x < −n
Fn (x) = x+n 2n
si −n ≤ x < n

1 si x ≥ n.

32
1
De nuevo, esta sucesión converge vagamente cuando n → ∞ a F (x) = 2
para todo x ∈ R.

Aunque la convergencia débil implica la convergencia vaga, el problema
de Helly-Bray no se extiende a la convergencia vaga. Esto se ve en el siguiente
ejemplo.
Ejemplo 4.3 Consideremos la sucesión de funciones de distribución con
masa en 0 y n, dada por

0 si x < 0

Fn (x) = 12 si 0 ≤ x < n

1 si x ≥ n

Claramente, converge vagamente a la función de distribución impropia


(
0 si x < 0
F (x) = 1
2
si x ≥ 0.

Asociada a esta sucesión de funciones de distribución, pueden encontrarse


funciones continuas y acotadas g que verifiquen
Z
lı́m E(g(Xn )) = g(x)dF (x)
n→∞ R

por ejemplo, si consideramos g(x) = e−x , se tiene


Z
1 1 1
lı́m E(g(Xn )) = lı́m e−x dFn (x) = lı́m (e0 + e−n ) = .
n→∞ n→∞ R n→∞ 2 2 2
Mientras que
Z
1 1
g(x)dF (x) = e0 ∗ = .
R 2 2
Sin embargo, dado que no se da la convergencia débil, debe existir alguna
función continua y acotada g para la que no se verifique la propiedad
Z
lı́m E(g(Xn )) = g(x)dF (x)
n→∞ R

por ejemplo, tomando g(x) = 1,


Z
lı́m E(g(Xn )) = lı́m dFn (x) = 1.
n→∞ n→∞ R

33
Mientras que
Z
1
dF (x) = .
R 2


Teorema 4.1 Sea {Fn } una sucesión de funciones de distribución y sea F


una función de distribución impropia.
v
Supongamos que Fn −→ F . Entonces, si g es una función real continua
definida sobre el intervalo [a, b], con a, b ∈ C(F ), se verifica
Z Z
lı́m g(x)dFn (x) = g(x)dF (x).
n→∞ [a,b] [a,b]

Demostración
La demostración es análoga a la usada en el teorema de Helly-Bray para
demostrar que
Z Z
lı́m sup g(x)dFn (x) ≤ g(x)dF (x),
(a,b] R

y la correspondiente desigualdad para el lı́mite inferior, con los cambios opor-


tunos para que afecta al intervalo [a, b].

Este teorema podrı́a haberse planteado como un lema previo al teorema
de Helly-Bray; de hecho, Loeve le denomina lema de Helly-Bray.

Teorema 4.2 Sea {Fn } una sucesión de funciones de distribución y sea F


una función de distribución impropia.
v
Supongamos que Fn −→ F . Entonces, si g es una función real continua
tal que

g(−∞) = g(+∞) = 0.

se verifica
Z Z
lı́m g(x)dFn (x) = g(x)dF (x).
n→∞ R R

Demostración
Volvemos a usar la demostración del teorema de Helly-Bray. En este caso
hay que observar que, al ser F impropia, no podemos asegurar que exista un
N tal que para todo n ≥ N se verifica que

34
∈(a,b]c dFn (x) < ε;

pero ,como g(−∞) = g(+∞) = 0, directamente tenemos la acotación


Z
g(x)dFn (x) < ε;
(a,b]c

y el resto de la demostración es análoga.




Ejemplo 4.4 Sea Fn definida por


(
0 si x < (−1)n n
Fn (x) =
1 si x ≥ (−1)n n

Los primeros términos de esta sucesión son,

( ( (
0 si x < −1 0 si x < 2 0 si x < −3
F1 (x) = F2 (x) = F3 (x) = ···
1 si x ≥ −1 1 si x ≥ 2 1 si x ≥ −3

Se tiene que Fn ∼ δ((−1)n n).

35
Es obvio que esta sucesión no converge, ni siquiera puntualmente. Sin
embargo, existen dos subsucesiones {F2n } y {F2n+1 } que convergen a las dis-
tribuciones impropias constantes 0 y 1, respectivamente.


Lo que nos muestra este ejemplo es que, aunque una sucesión de funciones
de distribución {Fn } puede no ser convergente, sı́ que tiene alguna subsuce-
sión que es convergente. Esto es análogo al teorema de Bolzano Weierstrass
para sucesiones en R, y es una afirmación válida para cualquier sucesión de
funciones de distribución {Fn }.
Pensar esto tiene cierto sentido, ya que la sucesión de funciones de dis-
tribución está contenida en el intervalo [0, 1], y cada uno de sus elementos es
creciente.
En resumen, queremos probar que cada sucesión de funciones de distri-
bución tiene una subsucesión que converge( al menos vagamente).
Para probar esto, comenzamos viendo una caracterización de la conver-
gencia vaga.

Lema 4.1 Una sucesión de funciones de distribución {Fn } converge vaga-


mente si, y solo si, converge en algún subconjunto D denso en R.

Demostración
La primera implicación es inmediata, ya que si se da la convergencia vaga,
lı́m Fn (x) = F (x) para cada x ∈ C(F ), que es un conjunto denso en R.
n→∞
Para demostrar el recı́proco, vamos a construir una función de distribu-
ción F (propia o impropia) tal que
v
Fn −→ F .

Como la sucesión {Fn } converge en D, para cada r ∈ D existe lı́m Fn (r),


n→∞
lo que nos permite definir la función

FD : D −→ R, r 7−→ FD (r) = lı́m Fn (r).


n→∞

A partir de esta función FD vamos a construir una función de distribución


F , que será la candidata a ser lı́mite vago de la sucesión {Fn }.
Observemos primero que, al ser 0 ≤ Fn (r) ≤ 1 para cada n ∈ N y cada
r ∈ D, se verifica

0 ≤ FD (r) ≤ 1, ∀r ∈ D.

Además, si tomamos r < s con r, s ∈ D, entonces

36
FD (r) = lı́m Fn (r) ≤ lı́m Fn (s) = FD (s),
n→∞ n→∞

con lo que se tiene que FD es no decreciente en D.


Definamos ahora la función F .
Sea x ∈ R. Como el conjunto D es denso en R, podemos acercarnos por la
derecha a x, esto es, podemos tomar lı́mite cuando r ↓ x, lo que nos permite
definir
F (x) = lı́m FD (r) = ı́nf{FD (r) : r ∈ D, r > x}.
r↓x

Veamos que F es una función de distribución( no necesariamente propia).


1. F es no decreciente ya que si x, y ∈ R son tales que x < y, entonces

{FD (r) : r ∈ D, r > y} ⊂ {FD (r) : r ∈ D, r > x}.

Luego

F (x) = lı́m FD (r) = ı́nf{FD (r) : r ∈ D, r > x} ≤


r↓x

≤ ı́nf{FD (r) : r ∈ D, r > y} = lı́m FD (r) = F (y).


r↓y

2. Como 0 ≤ FD (r) ≤ 1 para cada r ∈ D, entonces 0 ≤ F (x) ≤ 1.


Luego 0 ≤ F (−∞) y F (+∞) ≤ 1.

3. Para ver que es continua por la derecha. fijamos x ∈ R; entonces, para


cualquier y ∈ R con x < y < r se tiene que

F (y) ≤ FD (r).

Tomando lı́mite cuando y ↓ x se llega a

F (x+ ) ≤ FD (r),

luego F (x+ ) es cota inferior del conjunto {FD (r) : r ∈ D, r > x}, lo que
nos permite deducir que

F (x+ ) ≤ ı́nf{FD (r) : r ∈ D, r > x} = F (x).

Por otra parte

F (x+ ) = lı́m+ F (x + h) ≥ F (x).


h→0

37
Por lo tanto, F (x+ ) = F (x). Luego F es continua por la derecha.

4. Por último, lı́m− F (x + h) existe para todo x ∈ R .


h→0

v
Veamos ahora que Fn −→ F . Para ello, probaremos que

lı́m Fn (x) = F (x) para todo x ∈ C(F ).


n→∞

Sean x ∈ C(F ) y r0 , s ∈ D con r0 < x < s. Por la monotonı́a de Fn se tiene

Fn (r0 ) ≤ Fn (x) ≤ Fn (s).

Tomando lı́mite en n, se llega a

FD (r0 ) = lı́m Fn (r0 ) ≤ lı́m inf Fn (x) ≤


n→∞ n→∞
≤ lı́m sup Fn (x) ≤ lı́m Fn (s) = FD (s) ≤ F (s)
n→∞ n→∞

Por otra parte, para r, r0 ∈ D con r < r0 se verifica que F (r) ≤ FD (r0 ).

38
Luego

F (r) ≤ lı́m inf Fn (x) lı́m sup Fn (x) ≤ F (s).


n→∞ n→∞

Ahora, tomando lı́mite cuando r ↑ x y s ↓ x, y teniendo en cuenta que


x ∈ C(F ), se llega a

F (x) ≤ lı́m inf Fn (x) = lı́m sup Fn (x) ≤ F (x).


n→∞ n→∞

Por lo tanto, para todo x ∈ C(F ), se tiene que

lı́m Fn (x) = F (x),


n→∞

como querı́amos probar.



El siguiente resultado nos permite afirmar que cada sucesión de funciones
de distribución {Fn } tiene una subsucesión que converge a una función de
distribución( propia o impropia).

Teorema 4.3 (Principio de selección de Helly) Sea {Fn } una sucesión de


funciones de distribución. Entonces existe una subsucesión {Fnk } y una fun-
ción de distribución F (propia o impropia) tal que
v
Fnk −→ F .

Demostración
Queremos usar el lema anterior. Por ello tenemos que encontrar un con-
junto denso en R, que será Q, y una subsucesión que converja en este con-
junto.
Para seleccionar esta subsucesión vamos a utilizar el método de diagona-
lización de Cantor.
Para ello, comenzamos considerando una numeración {rk , k ≥ 1} de los
elementos de Q.
Consideremos la sucesión de números reales {Fn (r1 )}. Por el teorema de
Bolzano-Weierstrass, esta sucesión tiene una subsucesión {F1,n (r1 )} conver-
gente a un número real x1 , es decir, lı́m F1,n (r1 ) = x1 .
n→∞
Consideremos ahora la subsucesión {F1,n (r2 )}. De nuevo por el teorema de
Bolzano-Weierstrass, existe una subsucesión {F2,n (r2 )} tal que lı́m F2,n (r2 ) =
n→∞
x2 , con x2 ∈ R.
Además, esta subsucesión también verifica lı́m F2,n (r1 ) = x1 , pues es una
n→∞
subsucesión de la primera subsucesión.

39
Continuando con este procedimiento obtenemos una familia de sucesiones
{F1,n }, {F2,n }, {F3,n }... en la que cada sucesión {Fk,n } es una subsucesión de
{Fk−1,n }.
Además, se verifica

lı́m F1,n (r1 ) = x1 ;


n→∞
lı́m F2,n (ri ) = xi , para i = 1, 2;
n→∞
lı́m F3,n (ri ) = xi , para i = 1, 2, 3;
n→∞
..
.
lı́m Fk,n (ri ) = xi , para i = 1, 2, ..., k;
n→∞
..
.

Si escribimos las funciones en una matriz podemos seleccionar las funcio-


nes de la diagonal, y obtenemos una nueva subsucesión; esto es,

F1,1 F1,2 F1,3 ···


F2,1 F2,2 F2,3 ···
F3,1 F3,2 F3,3 ···
.. .. .. ...
. . .

Consideremos la subsucesión {Fk,k }, que reescribiremos por {Fnk }.


De esta forma, {Fnk } es una subsucesión (excepto un número finito de
funciones) de todas las sucesiones horizontales, y por lo tanto converge en
todo Q.
Tenemos ası́ un conjunto denso numerable en el cual la sucesión converge
y, por el lema previo, se tiene que
v
Fnk −→ F .


Si bien este resultado nos asegura que existe una subsucesión de funciones
de distribución que converge, al menos, vagamente, serı́a interesante ver si
existe alguna condición para que esa convergencia sea vaga.
Comenzamos introduciendo una propiedad referente a una familia de fun-
ciones de distribución.

Definición 4.3 Sea H una familia de funciones de distribución, se dice que


es ajustada(tight en inglés) si para todo ε > 0 existe a > 0 tal que

40
PF (−a, a] > 1 − ε para todo F ∈ H.

Una sucesión de distribuciones que satisface esta propiedad no permite


que la masa se .escape a infinito”; es decir, todas las distribuciones tienen
muy ”poca”masa fuera de intervalos suficientemente grandes.
Esta propiedad nos ayudará a asegurar que la subsucesión tienda a una
función de distribución propia.
También podrı́amos haber escrito F (a) − F (−a) en lugar de PF (−a, a].
Un ejemplo de familia ajustada es Xn ∼ N 0, 1 + n1 , y uno de familia


no ajustada es Xn ∼ N (0, n). Esta familia es .explosiva”.


Otra propiedad asociada a una familia de distribución es la siguiente.

Definición 4.4 Sea H una familia de funciones de distribución, diremos


que H es una familia relativamente compacta(respecto de la convergencia
débil) si cada sucesión {Fn } de funciones de H posee una subsucesión Fnk
que converge débilmente a una función de distribución, no necesariamente
de H.

El caso que nos interesa, que es un caso particular de esta definición,


es el caso en el que H es una sucesión. En este caso, cada subsucesión de
H debe poseer una subsucesión que converja débilmente. Por lo tanto, cada
subsucesión que converja vagamente debe hacerlo débilmente.
Llegados a este punto, podemos enunciar el siguiente resultado, que nos
permite pasar de convergencia vaga a convergencia débil.

Teorema 4.4 (Teorema de Prohorov)


Una familia de funciones de distribución H es relativamente compacta si
y solo si es ajustada.

Demostración
⇒ Supongamos primero que la familia H es ajustada y veamos que es
relativamente compacta.
Tomemos una sucesión {Fn } de H. Tenemos que probar que ver que tiene
una subsucesión {Fnk } que converge débilmente.
Por el principio de selección de Helly, sabemos que existe una subsucesión
{Fnk } tal que
v
Fnk −→ F .

Tenemos que comprobar que F es una distribución propia, lo que nos


llevarı́a a la convergencia débil.
Sea ε > 0 y sea a > 0 tal que

41
PFn (−a, a] > 1 − ε para todo n;
que lo podemos expresar como
Fn (a) − Fn (−a) > 1 − ε para todo n.
Sean, ahora, α, β ∈ C(F ) tales que
α ≤ −a y β ≥ a,
se tiene que
Fnk (β) − Fnk (α) > 1 − ε para todo nk .
Tomando lı́mite cuando k → ∞ se llega a
F (β) − F (α) = lı́m (Fnk (β) − Fnk (α)) > 1 − ε.
k→∞

Ahora, hacemos α → −∞, β → +∞ y ε → 0 y se llega a


F (+∞) − F (−∞) = 1
y, necesariamente,
F (−∞) = 0 y F (+∞) = 1.
Ası́ que F es una función de distribución propia y
d
Fnk −→ F .
⇐ Recı́procamente, consideremos H relativamente compacta y razone-
mos al absurdo, supongamos que es no ajustada, entonces existe algún ε > 0
tal que, para cualquier a > 0 que se elija, existe una función Fa en H verifi-
cando
PFa (−a, a] = Fa (a) − Fa (−a) ≤ 1 − ε.
En particular, para cada n ∈ N debe existir una función de distribución
Fn de H tal que
Fn (n) − Fn (−n) ≤ 1 − ε.
Consideremos la sucesión {Fn }, por ser H relativamente compacta debe
contener una subsucesión {Fnk } que converge débilmente hacia una función
de distribución F . Sean a, b ∈ C(F ), entonces para k suficientemente grande
se tiene que
(a, b] ⊂ (−nk , nk ],

42
con lo cual
Fnk (b) − Fnk (a) ≤ Fnk (nk ) − Fnk (−nk ) ≤ 1 − ε.
Tomando lı́mite cuando k → ∞ se llega a
F (b) − F (a) ≤ lı́m sup(Fnk (nk ) − Fnk (−nk )) ≤ 1 − ε < 1.
k→∞

Pero, como esto debe verificarse para cualesquiera a, b ∈ C(F ), tenemos


que si a → −∞ y b → +∞, entonces
lı́m F (b) − lı́m F (a) = F (+∞) − F (−∞) < 1;
b→∞ a→∞

por lo que F no serı́a función de distribución y llegamos a una contradicción.


Luego H debe ser ajustada.

Veamos algunos ejemplos y contraejemplos para el teorema de Prhorov.

Ejemplo 4.5 Consideremos la familia de variables aleatorias {Xn }, con


 
n 1
Xn ∼ N (−1) , 1 + .
n
Se trata de una familia ajustada. Posee dos subsucesiones convergentes
débilmente
d d
F2n+1 −→ FX y F2n −→ FY ,
donde X ∼ N (−1, 1) e Y ∼ N (1, 1).
Consideremos ahora la familia de variables aleatorias {Xn }, con
(
N (−1, n) si n es impar
Xn ∼ 1

N 1, 1 + n si n es par.

En este caso la familia no es ajustada. Luego debe poseer alguna subsu-


cesión que converja vagamente. Por ejemplo,
v d
F2n+1 −→ F y F2n −→ FY ,
1
donde F (x) = 2
para todo x ∈ R e Y ∼ N (1, 1).

Teorema 4.5 Sea {Fn } una sucesión ajustada de funciones de distribución


tal que cada subsucesión {Fnk } que converge débilmente lo hace hacia un
mismo lı́mite F ; entonces

43
d
Fn −→ F .

Demostración
Lo haremos por reducción al absurdo. Supongamos que no se da la con-
vergencia débil a F de la sucesión completa. Entonces existe x ∈ C(F ) tal
que

Fn (x) 9 F (x).

Debe existir una subsucesión {Fnk (x)} de {Fn (x)} que converja a un valor
α 6= F (x).
Sin embargo, por el teorema de Prohorov, existe una subsucesión de {Fnk }
que converge débilmente, y debe hacerlo a F , por hipótesis del teorema.
Tenemos entonces

lı́m Fnk (x) = α 6= F (x),


n→∞

lo que nos lleva a contradicción.


d
Por lo tanto, el supuesto de partida es falso, esto es, Fn −→ F .


5. Convolución
Definición 5.1 Sean F1 y F2 dos funciones de distribución. Se define la
convolución de F1 por F2 como la función
Z
(F1 ∗ F2 )(x) = F1 (x − y)dF2 (y) para todo x ∈ R.
R

La siguiente proposición implica que la convolución de funciones de dis-


tribución es una aplicación cerrada.

Proposición 5.1 Sean F1 y F2 dos funciones de distribución. Entonces F1 ∗


F2 es una función de distribución; es decir,

1. F1 ∗ F2 es monótona no decreciente.

2. F1 ∗ F2 es continua por la derecha.

3. lı́m (F1 ∗ F2 )(x) = 0 y lı́m (F1 ∗ F2 )(x) = 1.


x→−∞ x→∞

Demostración

44
1. F1 ∗ F2 es monótona no decreciente:
Sean x1 , x2 ∈ R con x1 < x2 . Entonces
Z Z
(F1 ∗ F2 )(x1 ) = F1 (x1 − y)dF2 (y) ≤ F1 (x2 − y)dF2 (y) =
R R
(F1 ∗ F2 )(x2 ),

pues F1 (x1 − y) ≤ F2 (x2 − y) para todo y ∈ R.

2. F1 ∗ F2 continua a la derecha:
Consideremos x ∈ R. Se tiene que
Z
lı́m(F1 ∗ F2 )(x + h) = lı́m F1 (x + h − y)dF2 (y).
h↓0 h↓0 R

Ahora, como F1 (x + h − y) ≤ 1, podemos aplicar el teorema de conver-


gencia dominada y se tiene que
Z Z
lı́m F1 (x + h − y)dF2 (y) = lı́m F1 (x + h − y)dF2 (y) =
h↓0 R R h↓0
Z
F1 (x − y)dF2 (y),
R

de donde se llega a

lı́m(F1 ∗ F2 )(x + h) = (F1 ∗ F2 )(x).


h↓0

3. lı́m (F1 ∗ F2 )(x) = 0 y lı́m (F1 ∗ F2 )(x) = 1.


x→−∞ x→∞

Aplicando nuevamente el teorema de convergencia dominada,


Z Z
lı́m (F1 ∗F2 )(x) = lı́m F1 (x−y)dF2 (y) = F1 (x−y)dF2 (y) = 0.
x→−∞ x→−∞ R R

Para comprobar el otro lı́mite procedemos de forma análoga:


Z
lı́m (F1 ∗ F2 )(x) = lı́m F1 (x − y)dF2 (y) =
x→∞ x→∞ R
Z
lı́m F1 (x − y)dF2 (y) = 1.
R x→∞

45
Por lo tanto, F1 ∗ F2 es una función de distribución.

La convolución tiene una importante utilidad, ya que nos permite obtener
la función de distribución asociada a la suma de variables aleatorias.

Teorema 5.1 Sean X e Y dos variables aleatorias independientes con fun-


ciones de distribución FX y FY , respectivamente. Entonces FX ∗ FY es la
función de distribución asociada a la variable aleatoria X + Y .

Demostración
Sea Z = X ∗ Y y sea FZ su función de distribución. Entonces,
Z
FZ (z) = P (X + Y ≤ z) = dF(X,Y ) (x, y) =
 {x+y≤z} 
Z Z Z Z
dF(X,Y )(x, y) = dFX (x) dFY (y) =
Z R (−∞,z−y] R (−∞,z−y]

FX (z − y)dFY (y) = (FX ∗ FY )(Z). 


R

Con este resultado, la convolución de funciones de distribución hereda


propiedades de la suma de variables aleatorias, como la conmutatividad y la
asociatividad.

Corolario 5.1 La convolución de funciones de distribución verifica las pro-


piedades conmutativa y asociativa.

Veamos ahora algunos ejemplos.

Ejemplo 5.1 Consideremos X e Y variables con distribución uniforme en


[0, 1].

0 si x < 0

FX = FY = x si 0 ≤ x < 1

1 si x ≥ 1

Determinemos la función de distribución de Z = X + Y ,


Z
FZ (z) = (FX ∗ FY )(z) = FX (z − y)dFY (y).
R

El soporte de Z es SZ = [0, 2]; sin embargo, el que más nos interesa es el


soporte de Z = X + Y condicionado Y , que resulta ser
SZ|Y = {z ∈ R : 0 ≤ z − y ≤ 1, 0 ≤ y ≤ 1}.

46
Si z < 0 ⇒ z − y < 0 para todo y ∈ [0, 1] ⇒ FX (z − y) = 0. Entonces
Z
FZ (z) = (FX ∗ FY )(z) = FX (z − y)dFY (y) = 0.
R

Si 0 ≤ z < 1 se tienen dos opciones, dependiendo del valor de y,


− Si 0 ≤ y < z ⇒ 0 ≤ z − y < 1 ⇒ FX (z − y) = z − y,
− Si z ≤ y < 1 ⇒ z − y < 0 ⇒ FX (z − y) = 0.
Entonces
Z Z
FZ (z) = (FX ∗FY )(z) = FX (z−y) dFY (y) = FX (z−y) dFY (y)+
R [0,z]
Z z Z 1 z
(z − y)2 z2
Z
FX (z − y) dFY (y) = (z − y) dy + 0 dy = − = .
(z,1] 0 z 2 0 2

Si 1 ≤ y < z − 1 se tienen otras dos opciones,


− Si 0 ≤ y < z − 1 ⇒ z − y ≥ 1 ⇒ FX (z − y) = 1,
− Si z − 1 ≤ y < 1 ⇒ 0 ≤ z − y < 1 ⇒ FX (z − y) = z − y.
Entonces
Z
FZ (z) = (FX ∗ FY )(z) = FX (z − y) dFY (y) =
Z ZR
FX (z − y) dFY (y) + FX (z − y) dFY (y) =
[0,z−1) [z−1,1]
Z z−1 Z 1 1
(z − y)2 z2
1 dy + (z − y) dy = z − 1 − = − + 2z − 1.
0 z−1 2 z−1 2

Si z ≥ 2 ⇒ z − y ≥ 1 para todo y ∈ [0, 1] ⇒ FX (z − y) = 1.


Entonces
Z
FZ (z) = (FX ∗ FY )(z) = FX (z − y)dFY (y) = 1
R

Con todo esto, y teniendo en cuenta que FZ (z) = (FX ∗ FY )(z),




 0 si z<0
 z2

si 0≤z<1
FX+Y = 2 z2
 − + 2z − 1 si 1≤z<2
 2


1 si z≥2

47

Al igual que hemos hecho con las funciones de distribución, podemos
definir la convolución para funciones de densidad.

Definición 5.2 Sean f1 y f2 dos funciones de densidad. Se define el producto


de convolución de f1 por f2 como la función
Z ∞
(f1 ∗ f2 )(z) = f1 (z − y)f2 (y) dy para todo z ∈ R.
−∞

Como podrı́a esperarse, el producto en convolución de dos funciones de


densidad vuelve a ser una función de densidad. Luego el producto en convo-
lución es una aplicaión cerrada.

Proposición 5.2 Sean f1 y f2 dos funciones de densidad. Entonces f1 ∗ f2


es una función de densidad, es decir,
1. (f1 ∗ f2 )(z) ≥ 0 para todo z ∈ R.
2. f1 ∗ f2 es integrable Riemman y su integral en R vale 1.

Demostración

1. (f1 ∗ f2 )(z) ≥ 0 para todo z ∈ R.


Se deduce del hecho de que f1 y f2 son funciones de densidad y, por
tanto, son no negativas. Luego su integral será no negativa.
2. f1 ∗ f2 es integrable Riemman y su integral en R vale 1.
Aplicando el teorema de Fubini se tiene
Z ∞ Z ∞ Z ∞ 
(f1 ∗ f2 )(z) dz = f1 (z − y)f2 (y) dy dz =
−∞
Z ∞ Z ∞ −∞ −∞ Z ∞
f1 (z − y) dz f2 (y) dy = f2 (y) dy = 1.
−∞ −∞ −∞


De la misma forma que la convolución de funciones de distribución nos
permitı́a obtener la función de distribución de la suma de variables aleatorias,
el producto en distribución nos va a permitir, siempre que sea posible, obtener
la función de densidad de la suma de dos variables aleatorias.

Teorema 5.2 Sean F1 y F2 dos funciones de distribución absolutamente


continuas con funciones de densidad f1 y f2 , respectivamente. Entonces F1 ∗
F2 es absolutamente continua con función de densidad f1 ∗ f2 .

48
Demostración
Tenemos que verificar que
Z z
(F1 ∗ F2 )(z) = (f1 ∗ f2 )(t) dt.
−∞

La demostración es análoga a la anterior, por lo que usaremos también el


teorema de Fubini. De esta forma, se tiene
Z z Z z Z ∞ 
(f1 ∗ f2 )(t) dt = f1 (t − y)f2 (y) dy dt =
Z ∞−∞Z z −∞ −∞ Z

f1 (t − y) dt f2 (y) dy = F1 (z − y)f2 (y) dy =
−∞ −∞ Z −∞

F1 (z − y) dF2 (y) = (F1 ∗ F2 )(z).


R


Ilustremos este teorema con un ejemplo práctico.

Ejemplo 5.2 Vamos a determinar la suma X + Y mediante convolución de


las funciones de densidad
(
1 si 0 ≤ x ≤ 1
fX (x) = fY (x) =
0 en otro caso

Calculemos
Z ∞
fX+Y (z) = (fX ∗ fY )(z) = fX (z − y)fY (y) dy.
−∞

Recuperemos el soporte de X + Y ,

SX+Y |Y = {z ∈ R : 0 ≤ z − y ≤ 1, 0 ≤ y ≤ 1}

Si z < 0 ⇒ z − y < 0 para todo y ∈ [0, 1] ⇒ fX (z − y) = 0,


entonce
Z ∞
fX+Y (z) = (fX ∗ fY )(z) = fX (z − y)fY (y) dy = 0.
−∞

Si 0 ≤ z ≤ 1 se tienen las opciones

− Si 0 ≤ y < z ⇒ 0 ≤ z − y < 1 ⇒ fX (z − y) = fY (y) = 1,


− Si z ≤ y < 1 ⇒ z − y < 0 ⇒ fX (z − y) = 0.

49
Entonces
Z ∞
fX+Y (z) = (fX ∗ fY )(z) = fX (z − y)fY (y) dy =
Z z Z 1 −∞ Z z Z 1
fX (z − y)fY (y) dy + fX (z − y)fY (y) dy = 1 dt + 0 dy = z.
0 z 0 z

Si 1 ≤ z < 2 se tienen las opciones,

− Si 0 ≤ y < z − 1 ⇒ z − y ≥ 1 ⇒ fX (z − y) = 0,
− Si z − 1 ≤ y < 1 ⇒ 0 ≤ z − y < 1 ⇒ fX (z − y) = fY (y) = 1.

Entonces
Z ∞ Z z−1
fX+Y (z) = (fX ∗ fY )(z) = (z − y)fY (y) dy = fX (z −
Z 1 −∞ Z z−1 0
Z 1
y)fY (y) dy + fX (z − y)fY (y) dy = 0 dy + 1 dy = 2 − z.
z−1 0 z−1

Si z > 2 ⇒ z − y < 1 para todo y ∈ [0, 1] ⇒ fX (z − y) = 0,


entonces
Z ∞
fX+Y (z) = (fX ∗ fY )(z) = fX (z − y)fY (y) dy = 0.
−∞

De esta forma

z
 si 0 ≤ z < 1
fX+Y (z) = 2 − z si 1 ≤ z ≤ 2

0 en otro caso

Teorema 5.3 Sean F1 y F2 funciones de distribución. Si F2 es absolutamen-


te continua, entonces F1 ∗ F2 es absolutamente continua.

Demostración
Para demostrar que es absolutamente continua tenemos que comprobar
que existe una función f tal que para todo z se tiene que
Z z
(F1 ∗ F2 )(z) = f (t) dt.
−∞

50
Se verifica, para cada z,
Z ∞ Z ∞ Z z−x 
(F2 ∗ F1 )(z) = F2 (z − x) dF1 (x) = f2 (t) dt dF1 (x)
−∞ −∞ −∞
Z ∞ Z z  Z z
∞∞

= f2 (s − x) ds dF1 (x) = −∞ f2 (s − x) dF1 (x) ds.
−∞ −∞ −∞

Luego la función de densidad de la convolución es


Z
f (z) = f2 (z − x) dF1 (x).
R

Ejemplo 5.3 Consideremos X ∼ Ge(p) e Y ∼ Exp(λ); esto es


( (
(1 − p)x p si x = 0, 1, 2, ... λe−λx si x ≥ 0
pX (x) = fY (y) =
0 en otro caso 0 en otro caso

De esta forma, la variable aleatoria Z = X + Y tiene una función de


distribución absolutamente continua con función de densidad dada por
Z [z]
X
fZ (z) = fY (z − x) dFX (x) = λe−λ(z−x) (1 − p)x p =
R x=0
1 − [(1 − p)eλ ][z]+1

1 − (1 − p)eλ

51

También podría gustarte