Está en la página 1de 89

Variables aleatorias

Teoría y ejemplos (Segunda parte)


c 2000 CRESLINE
°

Valores esperados, momentos y funciones carac-


terísticas

om
Concepto de esperanza matemática
Dada una variable aleatoria X definida sobre un espacio muestral Ω numerable,

.c
su esperanza matemática es el número E(X) dado por la fórmula
X
es
E(X) = X(ω) · p({ω}) (1)
ω∈Ω
d
siempre y cuando esta serie sea absolutamente convergente, es decir, siempre
que
en

X
|X(ω)| · P ({ω}) (2)
ω∈Ω
pr

sea convergente. Se dice entonces que existe la esperanza matemática de la


variable X.
Cuando se habla de "esperanza matemática" es corriente omitir el adjetivo.
.a

Se utilizan también otros términos, como "valor esperado", "media" o "valor


medio". En cualquier caso, no se espera encontrar el valor de E(X) al ir obser-
w

vando los valores de X. Por ejemplo, si se lanza una moneda insesgada, y se


gana 1 C= cuando sale cara y nada cuando sale cruz, nunca se obtendrá el valor
w

esperado de 0.5 C =. Sin embargo, lanzando la moneda un gran número n de


veces, sí se puede esperar conseguir alrededor de n/2 C = con buena probabilidad.
w

Así se deduce de la ley de los grandes números, que se estudiará en otra sección.
Evidentemente, cuando Ω sea un espacio finito la condición (2) se cumple au-
tomáticamente, pero cuando Ω sea infinito numerable la condición es esencial,
porque permite calcular la esperanza por cualquier procedimiento de reorde-
nación y asociación de sumandos de la serie (1) sin temor a que se obtengan
resultados contradictorios. Dicho de otra forma, las series absolutamente con-
vergentes tienen una suma definida de manera única, que para nada depende de
como se vayan eligiendo y sumando sus términos.
La esperanza matemática es una generalización del concepto de media arit-
mética. Dada una muestra de valores observados x1 , x2 , ..., xn de una variable
X con sus respectivas frecuencias f1 , f2 , ..., fn . Sabemos que la media de la
muestra es n n
1 X X fi
x= xi · fi = xi ·
N i=1 i=1
N

1
en donde n
X
N= fi
i=1

Las frecuencias relativas fi /N se pueden considerar como las probabilidades que


tienen los valores xi de presentarse en la muestra total de tamaño N . Poniendo
entonces
fi
P (X = xi ) = (i = 1, 2, ..., n)
N
tenemos n
X
x= xi · P (X = xi )
i=1

o sea, resulta (1) en el caso de que Ω sea un espacio muestral finito.

om
Observación 1 Al pensar que el concepto de esperanza está estrechamente vin-
culado a los juegos de azar y, por tanto, con la misma definición de probabilidad,
quizá sorprenda al lector que suprimiendo la condición de convergencia absoluta
(2) puedan producirse sorpresas. El siguiente ejemplo pone de manifiesto este

.c
hecho.
Supongamos que queremos jugar al siguiente juego: lanzamos una moneda
es
al aire hasta que sale cara. Si sale cara en la primera tirada, la banca paga al
jugador 2 C=. Si sale cara en la segunda tirada el jugador recibe 22 C =. Si sale
cara por primera vez en la tirada n-ésima el jugador gana 2n C =. Es claro que
d

la cantidad de euros que el jugador puede ganar en este juego es una variable
en

aleatoria X. ¿Cuál es el valor esperado de X? ¿Estaríamos dispuestos a pagar


este valor por avanzado para participar en este juego?
Los valores que puede tomar X son x1 , x2 , ..., xn , ... , con xn = 2n . Además,
pr

la probabilidad del valor xn correspondiente a la probabilidad del suceso de que


en n tiradas independientes salga cara por primera vez en el último lanzamiento
.a

es µ ¶n
1
P (X = xn ) =
2
w

Por tanto, la esperanza de X viene dada por


w


X
E(X) = xn · P (X = xn )
w

n=1
X∞
1
= 2n ·
n=1
2n
= 1 + 1 + ··· + 1 + ··· = ∞

De este modo hemos encontrado una variable aleatoria para la que no existe la
esperanza matemática o que su valor esperado es infinito.

Valores esperados de variables aleatorias discretas


Si X es una variable aleatoria discreta de función de densidad f (xi ) = P (X =
xi ), se define la esperanza o valor esperado de X por
X
E(X) = xi · f (xi )
i

2
Si la suma es una serie numérica, se exige que sea absolutamente convergente.

Ejemplo 1 En el juego de la ruleta se hace girar una bola encima de una rueda
circular dividida en 37 arcos de la misma longitud, numerados del 0 al 36.
Suponemos que la probabilidad de que ocurra un arco es la misma para todos y,
por tanto, la bola puede caer en cualquier número del 0 al 36 con una probabilidad
de 1/37. Supongamos ahora que jugamos a números impares y que la apuesta
se hace a dos por uno, es decir, si apostamos 1 C = y sale impar, recibimos 2 C =
(incluida la apuesta), y no cobramos nada si sale par. ¿Qué esperamos a ganar
si apostamos continuamente a números impares?
Solución: Sea X la variable aleatoria que indica la cantidad que uno puede
ganar o perder al apostar 1 C = a un número impar. Es claro que X puede tomar
dos valores: X = 1 si sale impar, y X = −1 si sale par o cero (hay que recordar
que la banca se queda con la apuesta si sale cero). Además,

om
18 19
P (X = 1) = y P (X = −1) =
37 37
Como consecuencia, tenemos

.c 1
es
E(X) = 1 · P (X = 1) + (−1) · P (X = −1) = − = −0.027
37
La esperanza de X representa en este caso la ganancia o pérdida media por
d
apuesta. Si hacemos n apuestas de 1 C= a número impar, la ganancia o pérdida
en

media será
X1 + X2 + · · · + Xn
n
pr

y el valor esperado de X será este valor cuando n tienda al infinito (Veremos


más adelante que la ley de los grandes números asegura este hecho). Así, al
apostar 1 C
= a un número impar en la ruleta es un juego injusto para el jugador,
.a

ya que por cada 1000 apuestas se espera que el judador pierda 27 =C.
w

Ejemplo 2 Calcular la esperanza del indicador IA de un suceso A de un espacio


de probabilidades (Ω, A, P ).
w

Solución: Sabemos que IA es una variable aleatoria discreta, definida como


sigue ½
w

1 ω∈A
IA (ω) =
0 ω∈
/A
Además, se tiene
P (IA = 1) = P (ω ∈ A) = P (A)
y
P (IA = 0) = P (ω ∈
/ A) = P (A) = 1 − P (A)
Por tanto,

E(IA ) = 1 · P (IA = 1) + (−1) · P (IA = 0) = P (A)

Como consecuencia, la probabilidad de un suceso es el valor esperado de su


indicador.

3
Valores esperados de las funciones de variables aleatorias discretas
Sea g una función real de variable real y sea X una variable aleatoria sobre
(Ω, A, P ). No vamos a suponer que g sea una función arbitraria, sino que se
supondrá que g(X) es, a su vez, una variable aleatoria. Recordemos que g(X) es
una función definida sobre Ω que asigna a cada ω ∈ Ω el número real g(X(ω)),
y la condición de que g(X) sea una variable aleatoria significa que para todo
número real r, el conjunto

[g(X) ≤ r] = {ω ∈ Ω : g(X(ω)) ≤ r} ∈ A

Teorema 1 Si X es una variable aleatoria discreta que toma los valores x1 , x2 , ..., xn , ...
con función de densidad f (xi ) = P (X = xi ) (i = 1, 2, ...) y g es una función
real de variable real tal que g(X) es una variable aleatoria, entonces
X

om
E(g(X)) = g(xn ) · f (xn )
n

siempre y cuando la serie converga absolutamente.

.c
Demostración: Como X es discreta también lo será g(X). Consideremos
el conjunto T de todos los números reales de la forma g(xn ). Es claro que T será
es
un conjunto finito o infinito numerable. Entonces, por definición de esperanza
tenemos
X X
d
E(g(X)) = t· f (xn )
en

t∈T {xn :g(xn )=t}


X
= t · f (xn )
t∈T
pr

{xn :g(xn )=t}


X
= g(xn ) · f (xn )
.a

n
w

Observación 2 Este teorema puede generalizarse al caso de una función de


n-varias variables aleatorias discretas. Por ejemplo, si X, Y son dos variables
w

aleatorias discretas sobre (Ω, A, P ) con función de densidad conjunta f y g es


una función real de dos argumentos reales tal que g(X, Y ) sea una variable
w

aleatoria sobre (Ω, A, P ), es decir,

[g(X, Y ) ≤ r] = {ω ∈ Ω : g (X(ω), Y (ω)) ≤ r} ∈ A

para todo número real r. Entonces, se cumple que


XX
E (g(X, Y )) = g(xi , yj ) · f (xi , yj )
i j

siempre y cuando la serie doble sea absolutamente convergente.

Ejemplo 3 Sea X una variable aleatoria con distribución de Poisson de parámetro


λ, es decir, tal que
X∞
λn −λ
P (X = n) = e
n=0
n!

4
Calcular la esperanza de Y = e−X .
Solución: Tenemos

E(Y ) = E(e−X )

X
= e−n · P (X = n)
n=0
X∞
(λ/e)n
= e−λ
n=0
n!
1
= e−λ(1− e )

ya que
X∞
(λ/e)n
= eλ/e

om
n=0
n!

Ejemplo 4 Una variable aleatoria bidimensional discreta tiene la seguiente dis-

.c
tribución de probabilidad conjunta
es
Y \X 1 2 3 4
1 0.10 0.10 0.20 0.10
d
2 0.05 0.05 0.05 0.03
3 0.07 0.03 0.10 0.12
en

Calcular E(3X 2 − 7Y 3 + 5).


Solución: Consideremos la función g(X, Y ) = 3X 2 − 7Y 3 + 5, entonces
pr

según la observación 11 tenemos


4 X
X 3
.a

E(3X 2 − 7Y 3 + 5) = h(xi , yj ) f (xi , yj ) = −44.79


i=1 j=1
w
w

Propiedades de la esperanza de variables aleatorias discretas


w

Teorema 2 Sean X, Y dos variables aleatorias discretas para las que existen
E(X), E(Y ), entonces se cumplen las siguientes propiedades:

1. E(1) = 1, siendo 1 la variable aleatoria discreta constante igual a 1


2. E(aX) = aE(X) , para todo a ∈ R
3. |E(X)| ≤ E(|X|)
4. E(X + Y ) = E(X) + E(Y )
5. Si Y ≤ X, entonces E(Y ) ≤ E(X); en particular, si X ≥ 0, entonces
E(X) ≥ 0
6. Si X, Y son variables aleatorias independientes, entonces E(X · Y ) =
E(X) · E(Y )

5
Demostración: (1) Es evidente a partir de la definición de esperanza.
(2) Sea g(X) = aX, entonces por el teorema 20 tenemos
X
E(aX) = axn · P (X = xn )
n
X
= a xn · P (X = xn )
n
= aE(X)
(3) Por definición tenemos
¯ ¯
¯X ¯
¯ ¯
|E(X)| = ¯ xn · P (X = xn )¯
¯ n ¯
X
≤ |xn · P (X = xn )|

om
n
X
= |xn | · P (X = xn )
n

.c
= E(|X|) es
(4) Sea g(X, Y ) = X + Y , entonces por la observación 11 tenemos
X
E(X + Y ) = (xn + ym ) · P (X = xn , Y = ym )
d
n,m
X X X X
en

= xn P (X = xn , Y = ym ) + ym P (X = xn , Y = ym )
n m m n

pero X
pr

P (X = xn , Y = ym ) = P (X = xn )
m
y
.a

X
P (X = xn , Y = ym ) = P (Y = ym )
n
w

son las densidades marginales de X, Y respectivamente. Por tanto, obtenemos


X X
w

E(X + Y ) = xn P (X = xn ) + ym P (Y = ym )
n m
w

= E(X) + E(Y )
(5) Sea g(X, Y ) = X − Y , entonces por la observación 11 tenemos
X
E(X − Y ) = (xn − ym ) · P (X = xn , Y = ym )
n,m

pero si Y ≤ X, entonces ym ≤ xn para todos los n, m y, por tanto,


E(X − Y ) ≥ 0
Por otra parte, los apartados (2) y (4) permiten escribir
E(X − Y ) = E (X + (−Y ))
= E(X) + E(−Y )
= E(X) − E(Y )

6
y, en consecuencia, obtenemos

E(X) − E(Y ) ≥ 0

es decir, E(X) ≥ E(Y ). En particular, si Y = 0, entonces E(Y ) = 0 y, por


tanto, X ≥ 0 implica E(X) ≥ 0.
(6) Sea g(X, Y ) = X · Y . Entonces, por la observación 11 tenemos
X
E(X · Y ) = xn · ym · P (X = xn , Y = ym )
n,m

pero, al ser X, Y independientes, se cumple

P (X = xn , Y = ym ) = P (X = xn ) · P (Y = ym )

om
para todos los n, m. En consecuencia, tenemos
X
E(X · Y ) = xn · ym · P (X = xn ) · P (Y = ym )
n,m
X X

.c
= xn · P (X = xn ) ym · P (Y = ym )
n m
es
= E(X) · E(Y )
d
en

Observación 3 La afirmación recíproca de la propiedad (6) no es cierta: si


E(X · Y ) = E(X) · E(Y ), entonces no necesariamente X, Y son independientes.
El ejemplo 26 demuestra este hecho.
pr

Ejemplo 5 Sea X una variable aleatoria con tres valores −1, 0, 1 y


.a

1
P (X = −1) = P (X = 0) = P (X = 1) =
3
w

Sea Y la variable aleatoria definida por


½
w

0 si X = 0
Y =
1 si X 6= 0
w

Probar que X, Y no son independientes y se cumple E(X · Y ) = E(X) · E(Y ).


Solución: Es claro que
1
P (Y = 0) = P (X = 0) =
3
y
2
P (Y = 1) = P (X = −1) + P (X = 1) =
3
Por tanto, tenemos

E(X) = (−1) · P (X = −1) + 0 · P (X = 0) + 1 · P (X = 1) = 0

y
2
E(Y ) = 0 · P (Y = 0) + 1 · P (Y = 1) =
3

7
Además, tenemos
P (X = 0, Y = 1) = P (∅) = 0
y
2
P (X = 0) · P (Y = 1) =
9
y, como consecuencia, X, Y no son independientes.
Es inmediato comprobar las probabilidades de la siguiente tabla correspon-
diente a la función de densidad conjunta

Y \X −1 0 1
0 0 1/3 0
1 1/3 0 1/3

Por tanto,

om
1 1 1
E(X · Y ) = (−1) · +0· +1· =0
3 3 3
y, en consecuencia, se cumple

.c
E(X · Y ) = E(X) · E(Y )
es
Ejemplo 6 El número total de puntos obtenidos en n tiradas de un dado se
d

designa por X. Hallar E(X).


en

Solución: Podríamos resolver este problema hallando la función de densidad


de la variable aleatoria X, pero es más sencillo tener en cuenta que X es suma
de n variables aleatorias
pr

X = X1 + X2 + · · · + Xn
.a

siendo Xi el número de puntos obtenidos en la i-ésima tirada del dado. Es claro


que
w

6
1X 21 7
E(Xi ) = n= =
6 n=1 6 2
w

Puesto que
w

E(X) = E(X1 ) + E(X2 ) + · · · + E(Xn )


entonces
7n
E(X) =
2

Valores esperados de variables aleatorias absolutamente con-


tinuas
Si X es una variable aleatoria absolutamente continua con función de densidad
f , se define la esperanza o valor esperado de X por
Z +∞
E(X) = x · f (x) dx
−∞

8
siempre y cuando la integral impropia sea absolutamente convergente, es decir,
Z +∞
|x| · f (x) dx
−∞

sea convergente.
Observación 4 1. Como en el caso discreto (ver observación 10), también
existen variables aleatorias absolutamente continuas para las que no existe
su esperanza. Supongamos que X es una variable aleatoria con distribu-
ción de Cauchy, es decir, tal que su función de densidad viene dada
por
1
f (x) =
π(1 + x2 )
Entonces,

om
Z +∞
x
E(X) = 2
dx
−∞ π(1 + x )
Z l

.c
x
= lim dx
k→+∞ −k π(1 + x2 )
l→+∞
es
µ ¶
1 1 + l2
= lim ln
2π k→+∞ 1 + k2
d
l→+∞

y el valor de E(X) depende de la forma en que k y l tienden a +∞. Si


en

primero k tiende a +∞ y luego l tiende a +∞, entonces E(X) tiende a


−∞, mientras que si el límite se toma en orden inverso, entonces E(X)
tiende a +∞. En el caso de que k = l, E(X) = 0. Vemos, pues, que la
pr

distribución de Cauchy no tiene un valor esperado.


.a

2. En general, dada una variable aleatoria X con función de distribución F ,


la esperanza de X se define utilizando la integral de Riemann-Stieljes:
Z +∞
w

E(X) = x dF (x)
w

−∞

Esta definición coincide con la dada para el caso discreto y absolutamente


w

continuo. Para una variable aleatoria con distribución mixta tal que
Z +∞ X
F (x) = α f1 (t) dt + (1 − α) f2 (x)
−∞ xi ≤x

la esperanza se define como sigue


Z +∞ X
E(X) = α xf1 (x) dx + (1 − α) xi f2 (xi )
−∞ i

Ejemplo 7 Sea X una variable aleatoria absolutamente continua que se dis-


tribuye uniformemente en el intervalo (a, b). Calcular la esperanza de X.
Solución: Al tratarse de una distribución uniforme en (a, b) se tiene
½ 1
b−a si x ∈ (a, b)
f (x) =
0 si x ∈
/ (a, b)

9
Entonces, por definición tenemos
Z +∞
E(X) = x · f (x) dx
−∞
Z b
1
= x dx
b−a a
1
= (a + b)
2

Valores esperados de las funciones de variables aleatorias absoluta-


mente continuas

om
Teorema 3 Si X es una variable aleatoria absolutamente continua y g es una
función derivable, entonces
Z +∞
E (g(X)) = g(x) · f (x) dx

.c
−∞ es
siempre que la integral sea absolutamente convergente.
Demostración: Para no complicar excesivamente las cosas, haremos la
demostración para funciones crecientes, aunque el teorema es válido también
d
para funciones decrecientes y, en general, para funciones no monótonas.
Por definición, tenemos
en

Z +∞
E(Y ) = y · fY (y) dy
pr

−∞

mediante el cambio y = g(x), obtenemos


.a

Z +∞
E (g(X)) = g(x) · fY (g(x)) · g 0 (x) dx
w

−∞

Según el teorema 11, se cumple


w

1
w

fY (y) = f (x) ·
g 0 (x)

Entonces, obtenemos
Z +∞
E (g(X)) = g(x) · f (x) dx
−∞

Observación 5 1. En general, dada una variable aleatoria X con función


de distribución F , la esperanza de una función g de X se define utilizando
la integral de Riemann-Stieljes:
Z +∞
E (g(X)) = g(x) dF (x)
−∞

10
Esta definición coincide con la dada para el caso discreto y absolutamente
continuo. Para una variable aleatoria con distribución mixta tal que
Z +∞ X
F (x) = α f1 (t) dt + (1 − α) f2 (x)
−∞ xi ≤x

la esperanza se define como sigue


Z +∞ X
E(g(X)) = α g(x) · f1 (x) dx + (1 − α) g(xi ) · f2 (xi )
−∞ i

2. Este teorema puede generalizarse al caso de una función de n-varias vari-


ables aleatorias absolutamente continuas. Por ejemplo, si X, Y son dos
variables aleatorias absolutamente continuas con función de densidad con-

om
junta f , entonces se cumple que
Z +∞ Z +∞
E (g(X, Y )) = g(x, y) · f (x, y) dx dy

.c
−∞ −∞

siempre y cuando la integral doble sea absolutamente convergente.


es
Ejemplo 8 Una variable aleatoria X tiene como función de densidad
d
½ 2
f (x) = 3 x si x ∈ (1, 2)
en

0 en otro caso

Calcular el valor esperado de g(X) = 3X + X 2 .


pr

Solución: Aplicando el teorema 22, tenemos


Z 2
2x
(3x + x2 )
.a

E (g(X)) = dx
1 3
Z 2 µ ¶
2
w

= 2x2 + x3 dx
1 3
· 3 ¸
w

4 2
2x x 43
= + =
3 6 1 6
w

Ejemplo 9 La función de densidad conjunta de dos variables X, Y con dis-


tribución absolutamente continua es
½
x + y si x, y ∈ (0, 1)
f (x, y) =
0 en otro caso

Calcular la esperanza de Z = XY 2 + 2X.


Solución: Consideremos la función g(X, Y ) = X ·Y 2 +2X. Entonces, según

11
la observación 14, tenemos
Z 1 Z 1
¡ ¢
E XY 2 + 2X = (xy 2 + 2x)(x + y) dx dy
0 0
Z 1 µZ 1 ¶
= (x2 y 2 + 2x2 + xy 3 + 2xy) dx dy
0 0
Z 1 · ¸1
x3 2 2x3 x2 3
= y + + y + x2 y dy
0 3 3 2 0
Z 1µ ¶
1 2 2 1 3
= y + + y + y dy
0 3 3 2
101
=
72

om
Propiedades de la esperanza de variables aleatorias absolutamente
continuas

.c
Teorema 4 Sean X, Y dos variables aleatorias absolutamente continuas para
las que existen E(X), E(Y ), entonces se cumplen las siguientes propiedades:
es
1. E(1) = 1, siendo 1 la variable aleatoria absolutamente continua constante
igual a 1
d
2. Linealidad:
en

E (ag(X) + bh(X)) = aE (g(X)) + bE (h(X))


siendo a, b números reales arbitrarios y g, h funciones reales de variable
pr

real
3. Si X tiene una función de densidad simétrica respecto de un punto c,
.a

entonces E(X) = c
4. |E (g(X))| ≤ E (|g(X)|)
w

5. Si 0 ≤ g(x) ≤ h(x) para todo x ∈ R, entonces 0 ≤ E (g(X)) ≤ E (h(X))


w

6. Si m ≤ g(x) ≤ M para todo x ∈ R, entonces m ≤ E (g(X)) ≤ M


w

7. Si X, Y son independientes, entonces E (X · Y ) = E(X) · E(Y )


Demostración: (1) Por definición tenemos
Z +∞
E(1) = 1 · f (x) dx = 1
−∞

(2) Sea k(X) = ag(X) + bh(X), entonces


Z +∞
E (k(X)) = k(x) · f (x) dx
−∞
Z +∞
= [ag(x) + bh(x)] · f (x) dx
−∞
Z +∞ Z +∞
= a g(x) · f (x) dx + b h(x) · f (x) dx
−∞ −∞
= aE (g(X)) + bE (h(X))

12
(3) Si f es simétrica respecto de un punto c = 0, es decir, f es par, se cumple

f (x) = f (−x)

Entonces
Z +∞
E(X) = x · f (x) dx
−∞
Z 0 Z +∞
= x · f (x) dx + x · f (x) dx
−∞ 0
Z −∞ Z +∞
= − x · f (x) dx + x · f (x) dx
0 0
Z +∞ Z +∞
= − x · f (x) dx + x · f (x) dx

om
0 0
= 0

Ahora bien, si f es simétrica respecto del punto c, entonces

.c
f (c − x) = f (c + x)
es
y, en consecuencia, la variable aleatoria X − c será simétrica respecto de cero y,
por tanto,
0 = E(X − c) = E(X) − c
d

luego,
en

E(X) = c
(4) Tenemos
pr

¯Z +∞ ¯
¯ ¯
|E (g(X))| = ¯¯ g(x) · f (x) dx¯¯
−∞
.a

Z +∞
≤ |g(x)| · f (x) dx
w

−∞
= E (|g(X)|)
w

(5) Puesto que f (x) ≥ 0, entonces


w

0 ≤ g(x) · f (x) ≤ h(x) · f (x)

y, como consecuencia, tenemos


Z +∞ Z +∞
0≤ g(x) · f (x) dx ≤ h(x) · f (x) dx
−∞ −∞

es decir,
0 ≤ E (g(X)) ≤ E (h(X))
(6) Puesto que f (x) ≥ 0, entonces

m · f (x) ≤ g(x) · f (x) ≤ M · f (x)

para todo x ∈ R. Puesto que

0 ≤ g(x) · f (x) − m · f (x)

13
entonces
Z +∞
0 ≤ (g(x) · f (x) − m · f (x)) dx
−∞
Z +∞ Z +∞
= g(x) · f (x) dx − m f (x) dx
−∞ −∞
Z +∞
= g(x) · f (x) dx − m · 1
−∞

luego
m ≤ E (g(X))
Análogamente, se deduce
E (g(X)) ≤ M

om
(7) Sea g(X, Y ) = X · Y , entonces por la observación 14 tenemos
Z +∞ Z +∞
E (g(X, Y )) = xy · f (x, y) dx dy

.c
−∞ −∞
Z +∞ Z +∞
es
= xy · fX (x) · fY (y) dx dy
−∞ −∞
Z +∞ Z +∞
= x · fX (x) dx y · fY (y) dy
d
−∞ −∞
en

= E(X) · E(Y )
pr

Ejemplo 10 Si X, Y son dos variables aleatorias con función de densidad con-


junta ½
.a

kx2 ye−x−y si x ≥ 0 e y ≥ 0
f (x, y) =
0 en otro caso
w

(1) Averiguar si X e Y son o no independientes y (2) calcular E(3XY ).


Solución: Al tratarse de una función de densidad, se cumple
w

Z +∞ Z +∞
w

f (x, y) dx dy = 1
−∞ −∞

Por tanto,
Z +∞ Z +∞
1 = k x2 ye−x−y dx dy
0 0
Z +∞ Z +∞
= k x2 e−x dx ye−y dy
0 0
= k·2·1
= 2k

de donde k = 1/2.

14
(1) Calculemos ahora las funciones de densidad marginales. Tenemos, por
un lado
Z +∞
fX (x) = f (x, y) dy
−∞
Z +∞
1 2 −x−y
= x ye dy
0 2
Z +∞
1 2 −x
= x e ye−y dy
2 0
1 2 −x
= x e
2
y, por tanto, ½ 1 2 −x
fX (x) = 2x e si x ≥ 0

om
0 en otro caso
y, por otro, tenemos
Z +∞
fY (x) = f (x, y) dx

.c
−∞
Z +∞
1 2 −x−y
es
= x ye dx
0 2
Z +∞
1 −y
x2 e−x dx
d
= ye
2 0
en

= ye−y
y, por tanto, ½
ye−y si y ≥ 0
pr

fY (y) =
0 en otro caso
Observamos que
.a

f (x, y) = fX (x) · fY (y)


y, en consecuencia, X e Y son independientes.
w

(2) Al ser X e Y independientes, se cumple


w

E(3XY ) = 3E(XY ) = 3E(X)E(Y )


w

Por tanto, calcularemos E(X) y E(Y ). Tenemos


Z +∞
E(X) = x fX (x) dx
−∞
Z +∞
1
= x3 e−x dx
2 0
= 3
y
Z +∞
E(Y ) = y fY (y) dy
−∞
Z +∞
= y 2 e−y dy
0
= 2

15
y, en consecuencia,
E(3XY ) = 3 · 3 · 2 = 18

Concepto de esperanza condicionada


La distribución condicionada de Y |X = x describe las probabilidades asoci-
adas a los posibles valores de Y cuando la variable aleatoria X ha tomado un
cierto valor x. Por tanto, es natural preguntarse por la esperanza o valor medio
condicionado de Y |X = x. En el caso discreto, definimos
X
E (Y |X = x) = yj · f (yj |X = x)
j

om
y en el caso absolutamente continuo, definimos
Z +∞
E (Y |X = x) = y · f (y|X = x) dy

.c
−∞

y, en general, tenemos
es
X
E (g(Y )|X = x) = g(yj ) · f (yj |X = x)
j
d
en

en el caso discreto, y
Z +∞
E (g(Y )|X = x) = g(y) · f (y|X = x) dy
pr

−∞

Análogamente se define el valor medio de X condicionado por Y = y.


.a

Observación 6 Obsérvese que también podemos calcular la esperanza condi-


cionada por las siguientes fórmulas:
w

X f (x, yj )
w

E (Y |X = x) = yj ·
j
fX (x)
w

1 X
= yj · f (x, yj )
fX (x) j

en el caso discreto, y
Z +∞
f (x, y)
E (Y |X = x) = y· dy
−∞ fX (x)
Z +∞
1
= y · f (x, y) dy
fX (x) −∞

en el caso continuo.

16
La esperanza condicionada como variable aleatoria
Al variar el valor de x puede variar f (Y |X = x) y, por tanto, E(Y |X = x) puede
tomar diferentes valores y, en consecuencia, es una función de x. Entonces,
mediante la función h(x) = E(Y |X = x) podemos construir una nueva variable
aleatoria que designamos por E(Y |X)

X E(Y |X)
Ω −→ R −→ R
ω 7−→ X(ω) 7−→ E(Y |X = X(ω)

Como E(Y |X) es una variable aleatoria podemos plantearnos calcular el valor
de su esperanza. Así tenemos
Z +∞
E (E(Y |X)) = E(Y |X = x) · fX (x) dx

om
−∞
Z +∞ µ Z +∞ ¶
1
= y · f (x, y) dy fX (x) dx
−∞ fX (x) −∞
Z +∞ Z +∞

.c
= y · f (x, y) dx dy
−∞ −∞
Z +∞ Z
es
+∞
= y dy f (x, y) dx
−∞ −∞
Z +∞ Z
d
+∞
= y · fy (y) dy (ya que fy (y) = f (x, y) dx)
en

−∞ −∞
= E(Y )
pr

Del mismo modo se demuestra que E (E(X|Y )) = E(X).

Observación 7 Una de las aplicaciones más importantes de la esparanza condi-


.a

cionada es la regresión. Más adelante trataremos este punto.

Ejemplo 11 Consideremos la variable aleatoria discreta con la siguiente dis-


w

tribución de probabilidad conjunta


w

Y \X 10 11 12 13 14
1 0.02 0.03 0.07 0.02 0.04
w

2 0.01 0.02 0.08 0.15 0.04


3 0.05 0.04 0.09 0.10 0.03
4 0.08 0.06 0.01 0.05 0.01

Calcular: (1) E(X) y E(Y ); (2) E(Y |X = 15); (3) E(X|Y < 3) y (4) E(Y 2 |11 <
X ≤ 13).
Solución: (1) Para calcular E(X) y E(Y ), primero necesitamos las dis-
tribuciones de probabilidad marginales de X e Y . Así, tenemos

xi 10 11 12 13 14
P (X = xi ) 0.16 0.15 0.25 0.32 0.12
y
yj 1 2 3 4
P (Y = yj ) 0.18 0.30 0.31 0.21

17
Por tanto,
5
X
E(X) = xi P (X = xi ) = 12.09
i=1
y
4
X
E(Y ) = yj P (Y = yj ) = 2.55
j=1

(2) Por definición, tenemos


4
X
E (Y |X = 15) = yj · P (Y = yj |X = 15)
j=1

X 4
1

om
= yj · P (X = 15, Y = yj )
P (X = 15) j=1
1
= (1 · 0.03 + 2 · 0.02 + 3 · 0.04 + 4 · 0.06)
0.15

.c
0.43
= = 2.87
0.15
es
(3) Por definición, tenemos
d
5
X
E (X|Y < 3) = xi · P (X = xi |Y < 3)
en

i=1
X 5
1
= xi · P (X = xi , Y < 3)
pr

P (Y < 3) i=1

pero,
.a

P (Y < 3) = P (Y = 1) + P (Y = 2) = 0.48
y
w

5
X 5
X
w

xi · P (X = xi , Y < 3) = xi · [P (X = xi , Y = 1) + P (X = xi , Y = 2)]
i=1 i=1
w

= 10 · 0.03 + 11 · 0.05 + 12 · 0.15 + 13 · 0.17 + 14 · 0.08 = 5.98

Por tanto,
5.98
E (X|Y < 3) = = 12.458
0.48
(4) Por definición, tenemos
4
X
2
E(Y |11 < X ≤ 13) = yj2 · P (Y = yj |11 < X ≤ 13)
j=1

X 4
1
= y 2 · P (Y = yj , 11 < X ≤ 13)
P (11 < X ≤ 13) j=1 j

pero
P (11 < X ≤ 13) = P (X = 12) + P (X = 13) = 0.57

18
y
4
X 4
X
yj2 · P (Y = yj , 11 < X ≤ 13) = yj2 · [P (Y = yj , X = 12) + P (Y = yj , X = 13)]
j=1 j=1
= 1 · 0.09 + 4 · 0.23 + 9 · 0.19 + 16 · 0.06 = 3.68

Por tanto,
3.68
E(Y 2 |11 < X ≤ 13) = = 6.4561
0.57

Ejemplo 12 Dadas dos variables aleatorias absolutamente continuas X, Y con


función de densidad conjunta
½

om
12 si 0 < 2x ≤ 3y < 1
f (x, y) =
0 en otro caso

Calcular las esperanzas condicionadas.

.c
Solución: Primero calcularemos las funciones de densidad marginales. Así,
para 0 < x < 1/2 tenemos
es
Z +∞
fX (x) = f (x, y) dy
d
−∞
Z 1/3
en

= 12 dy
2x/3
= 4 − 8x
pr

y, por tanto, ½
4 − 8x si 0 < x < 1/2
fX (x) =
.a

0 en otro caso
Por otro lado, para 0 < y < 1/3 tenemos
w

Z +∞
w

fY (y) = f (x, y) dx
−∞
Z
w

3y/2
= 12 dx
0
= 18y

y, por tanto, ½
18y si 0 < y < 1/3
fY (y) =
0 en otro caso
En segundo lugar, calcularemos las funciones de densidad condicionadas. Así,
para 0 < x < 1/2 tenemos

f (x, y)
f (y|X = x) =
fX (x)
12 3
= =
4 − 8x 1 − 2x

19
siempre que 2x/3 ≤ y < 1/3; en cualquier otro caso, la función se anula. Por
otro lado, para 0 < y < 1/3 tenemos

f (x, y)
f (x|Y = y) =
fY (y)
12 2
= =
18y 3y
siempre que 0 < x < 3y/2; en cualquier otro caso, la función se anula. Final-
mente, podemos ahora calcular las esperanzas condicionadas. Así, tenemos
Z +∞
E (Y |X = x) = y · f (y|X = x) dy
−∞
Z 1/3
3

om
= y· dy
2x/3 1 − 2x
· 2 ¸1/3
3 y
=
1 − 2x 2 2x/3

.c
1 + 2x
=
6
es
y
Z
d
+∞
E(X|Y = y) = x · f (x|Y = y) dx
en

−∞
Z 3y/2
2
= x· dx
0 3y
pr

· ¸3y/2
2 x2
=
3y 2 0
.a

3y
=
4
w
w

Momentos de variables aleatorias


w

Bajo ciertas condiciones, los momentos caracterizan la distribución de una vari-


able aleatoria, en el sentido de que si existen todos, existe una sola distribución
con tales momentos.

Momentos simples
Dada una variable aleatoria X, se llama momento de orden k (respecto al
origen) al valor medio, si existe, de la variable X k

mk = E(X k )

y, £en general,
¤ se llama momento de orden k respecto a un punto c al valor
E (X − c)k . Los momentos respecto al valor medio se llaman momentos
centrales de orden k h i
µk = E (X − E(X))k

20
En ambos casos, k puede ser cualquier número real no necesariamente entero.
En particular, si X es una variable aleatoria discreta, entonces
X X
mk = xki · P (X = xi ) y µk = (xi − E(X))k · P (X = xi )
i i

y, si X es una variable aleatoria absolutamente continua, entonces


Z +∞ Z +∞
k k
mk = x · f (x) dx y µk = (x − E(X)) · f (x) dx
−∞ −∞

Observación 8 De los momentos hay dos que merecen especial atención. El


momento de orden 1, m1 = E(X) = µ, media de la distribución, describe
donde está centrada la distribución de probabilidad de la variable aleatoria X
y, por tanto, es un valor que caracteriza a dicha distribución£ de probabilidad.
¤

om
El otro momento es el momento central de orden 2, µ2 = E (X − µ)2 = σ 2 ,
varianza de la distribución, describe la forma de la distribución, es decir, la
forma en que se dispersan los valores de la variable aleatoria X respecto del valor
esperado µ = E(X); es también un valor que caracteriza a dicha distribución.

.c
Además de la media y la varianza, como medidas de centralización y dis-
persión, el conocimiento de momentos de orden superior proporcionan mayor
es
información sobre la forma de la distribución de la variable aleatoria. Cono-
ciendo los momentos centrales de orden 3 y de orden 4 se puede obtener el
d
coeficiente de asimetría
en

µ3 µ3
γ1 = =
3/2
µ2 σ3
pr

y el coeficiente de curtosis o apuntamiento


µ4 µ
γ2 = = 44
.a

µ22 σ
Estos coeficientes se interpretan de la siguiente manera. Si la distribución es
w

simétrica, entonces γ 1 = 0 y, además, si la distribución es asimétrica por la


derecha (izquierda), entonces γ 1 > 0 (γ 1 < 0). El coeficiente de curtosis toma
w

como referencia la función de densidad de una distribución normal de parámet-


ros µ y σ para la que γ 2 = 3. Entonces, si γ 2 > 3, la distribución es más
w

apuntada que la normal, y si γ 2 < 3, la distribución es menos apuntada.

Momentos mixtos
Las definiciones de los momentos simples se generalizan para variables aleato-
rias n-dimensionales. Sin embargo, para facilitar la escritura aquí sólo consid-
eraremos el caso de variables aleatorias bidimensionales. Dadas dos variables
aleatorias X, Y se llama momento mixto de orden k + h (respecto al origen)
al valor medio, si existe, de la variable X k Y h

mkh = E(X k Y h )

y se llama momento mixto central de orden k + h al valor


h i
µkh = E (X − E(X))k (Y − E(Y ))h

21
De nuevo, en ambos casos, k y h son números reales cualesquiera no necesaria-
mente enteros. En particular, si (X, Y ) es una variable aleatoria bidimensional
discreta, entonces
XX
mr = xki yjh · P (X = xi , Y = yj )
i j
y XX k h
µr = (xi − E(X)) (yj − E(Y )) · P (X = xi , Y = yj )
i j
y, si (X, Y ) es una variable aleatoria bidimensional absolutamente continua,
entonces Z +∞
mr = xk y h · f (x, y) dx dy
−∞
y Z

om
+∞
µr = (x − E(X))k (y − E(Y ))h · f (x, y) dx dy
−∞
Observación 9 Es claro que los momentos mixtos de orden 1 son las medias

.c
de X y de Y
m10 = E(X) = µX y m01 = E(Y ) = µY
es
Si k = 2 y h = 0 se obtiene la varianza de X
£ ¤
µ20 = E (X − µX )2 = σ 2X
d
por lo que se denomina varianza marginal de X. Análogamente,
£ ¤
en

µ02 = E (Y − µY )2 = σ 2Y
se llama varianza marginal de Y . Es claro que los momentos mixtos centrales
de orden 1 son nulos. Es especialmente importante el momento mixto central
pr

de orden 1 + 1, que recibe el nombre de covarianza de X, Y


µ11 = E [(X − µX ) (Y − µY )] = σ XY
.a

La covarianza nos permitirá dar una medida de la dependencia lineal entre las
w

variables aleatorias X e Y .
Es inmediato comprobar que
w

µ20 = m20 − m210


µ02 = m02 − m201
w

µ11 = m11 − m10 m01


En efecto, tenemos
£ ¤ ¡ ¢
µ20 = E (X − m10 )2 = E X 2 − 2m10 X + m210
= E(X 2 ) − 2m10 E(X) + m210
= m20 − m210
La segunda fórmula se obtiene del mismo modo y, la última, se obtiene como
sigue
µ11 = E [(X − m10 ) (Y − m01 )]
= E(XY − m01 X − m10 Y + m10 m01 )
= E(XY ) − m01 E(X) − m10 E(Y ) + m10 m01
= m11 − m10 m01

22
Concepto de varianza y sus propiedades
La esperanza o valor esperado de una variable aleatoria describe donde está
centrada su distribución de probabilidad y, por tanto, es un valor que caracteriza
a dicha distribución de probabilidad. Sin embargo, la esperanza por sí sola no
da una descripción adecuada de la forma de la distribución, es necesario saber
cómo se dispersan los valores de la variable aleatoria respecto del valor esperado.
La medida de dispersión más utilizada en Estadística es la varianza, y ahora se
generaliza para variables aleatorias.
Dada una muestra de valores observados x1 , x2 , ..., xn de una variable X con
sus respectivas frecuencias f1 , f2 , ..., fn , la dispersión de un valor xi respecto a
la media x se puede medir por

(xi − x)2

om
y la media de esta dispersión viene dada por
Xn
fi
s2 = (xi − x)2 ·
N

.c
i=1

en donde
es
n
X
N= fi
i=1
d
Las frecuencias relativas fi /N se pueden considerar como las probabilidades que
en

tienen los valores xi de presentarse en la muestra total de tamaño N . Poniendo


entonces
fi
P (X = xi ) = (i = 1, 2, ..., n)
pr

N
tenemos
X n
.a

s2 = (xi − x)2 · P (X = xi ) (3)


i=1
w

que se llama varianza de la muestra. Vamos a extender esta idea al caso de una
variable aleatoria.
w

Se llama varianza de una variable aleatoria X y se denota por σ 2X o V ar(X),


o simplemente σ 2 cuando no hay confución posible, al valor del momento central
w

de orden 2 h i
2
σ 2 = V ar(X) = E (X − E(X))
si existe. Así, tenemos
X 2
σ2 = (xi − µ) · f (xi )
i

en el caso discreto (obsérvese la analogía entre esta fórmula y (3)), y


Z +∞
σ2 = (x − µ)2 · f (x) dx
−∞

en el caso absolutamente continuo, siendo µ = E(X).


Como ya hemos dicho, la varianza de una variable aleatoria X será una
medida de dispersión de X respecto de su valor medio µ, en el sentido de

23
que si X toma valores muy alejados de µ, entonces |X − µ| será una variable
aleatoria£que muy ¤probablemente tomará valores grandes y, en consecuencia,
σ 2 = E (X − µ)2 será grande, mientras que si X toma valores cercanos a
µ, entonces la variable aleatoria |X − µ| tomará muy probablemente valores
pequeños y, por tanto, σ 2 será pequeña.
Se llama desviación típica o estándar a la raíz cuadrada positiva de la
varianza. Es una medida de dispersión de la misma dimensión física que la
variable aleatoria y se indica por σ
r h i
p
σ = V ar(X) = E (X − E(X))2

Propiedades de la varianza

om
Teorema 5 Sean X, Y dos variables aleatorias que tienen una distribución con-
junta discreta o absolutamente continua y ambas tienen momento de segundo
orden finito, entonces

1. V ar(X) = E(X 2 ) − (E(X))2


2. V ar(a) = 0, con a ∈ R
.c
es
3. V ar(aX) = a2 V ar(X), con a ∈ R
d
4. V ar(aX + b) = a2 V ar(X)
en

5. Si X, Y son independientes, entonces V ar(X + Y ) = V ar(X) + V ar(Y )

Demostración: (1) Es inmediato, pues, tenemos


pr

h i
V ar(X) = E (X − E(X))2
.a

h i
= E X 2 − 2XE(X) + (E(X))2
w

= E(X 2 ) − 2 (E(X))2 + (E(X))2


= E(X 2 ) − (E(X))2
w

(2) Es también inmediato, pues,


w

h i
2
V ar(a) = E (a − E(a))
= E(0) = 0

(3) Aplicando el apartado (1), tenemos

V ar(aX) = E(a2 X 2 ) − (E(aX))2


2
= a2 E(X 2 ) − a2 (E(X))
h i
2
= a2 E(X 2 ) − (E(X))
= a2 V ar(X)

24
(4) Aplicando de nuevo el apartado (1), tenemos
£ ¤
V ar(aX + b) = E (aX + b)2 − (E(aX + b))2
= E(a2 X 2 + 2abX + b2 ) − (aE(X) + b)2
2
= a2 E(X 2 ) + 2abE(X) + b2 − a2 (E(X)) − 2abE(X) − b2
h i
2
= a2 E(X 2 ) − (E(X))
= a2 V ar(X)
(5) Si X, Y son independientes, entonces E(XY ) = E(X) · E(Y ). Aplicando
ahora el apartado (1), tenemos
£ ¤ 2
V ar(X + Y ) = E (X + Y )2 − (E(X + Y ))
2
= E(X 2 + 2XY + Y 2 ) − (E(X) + E(Y ))

om
2 2
= E(X 2 ) + 2E(X)E(Y ) + E(Y 2 ) − (E(X)) − 2E(X)E(Y ) − (E(Y ))
= V ar(X) + V ar(Y )

.c
Ejemplo 13 Calcular la varianza del número de puntos obtenidos en la tirada
es
de un dado ordinario.
Solución: La variable aleatoria X "número de puntos en la tirada de un
d
dado" es discreta y toma los valores 1, 2, ..., 6 con probabilidad 1/6. Por tanto,
1 21 7
en

E(X) = (1 + 2 + · · · + 6) = =
6 6 2
y, además, se cumple
pr

1 2 91
E(X 2 ) = (1 + 22 + · · · + 62 ) =
6 6
.a

Entonces,
2
V ar(X) = E(X 2 ) − (E(X))
w

µ ¶2
91 7 35
= − =
w

6 2 12
w

Ejemplo 14 Calcular la varianza de la variable aleatoria absolutamente con-


tinua con función de densidad
½ 1

2 x
si x ∈ (0, 1)
f (x) =
0 en otro caso
Solución: Tenemos
Z +∞
E(X) = x f (x) dx
−∞
Z 1
x
= √ dx
0 2 x
· ¸1
1 x3/2 1
= =
2 3/2 0 3

25
y también
Z +∞
2
E(X ) = x2 f (x) dx
−∞
Z 1
x2
= √ dx
0 2 x
· ¸1
1 x5/2 1
= =
2 5/2 0 5

Como consecuencia, obtenemos


2
V ar(X) = E(X 2 ) − (E(X))
µ ¶2
1 1 4

om
= − =
5 3 45

.c
Ejemplo 15 Sean X e Y variables aleatorias independientes
£ con¤ varianzas fini-
tas tales que E(X) = E(Y ). (1) Demostrar que E (X − Y )2 = V ar(X) +
es
V ar(Y ); (2) Si V ar(X) = V ar(Y ) = 3, determinar los valores de V ar(X − Y )
y V ar(2X − 3Y + 1).
Solución: (1) Tenemos
d
£ ¤
E (X − Y )2 = E(X 2 − 2XY + Y 2 )
en

= E(X 2 ) − 2E(X)E(Y ) + E(Y 2 )


2 2
= E(X 2 ) − (E(X)) − (E(Y )) + E(Y 2 )
pr

= V ar(X) + V ar(Y )
.a

(2) Al ser X, Y independientes, también lo son X e −Y . Entonces tenemos

V ar(X − Y ) = V ar(X) + V ar(−Y )


w

= V ar(X) + (−1)2 V ar(Y )


w

= V ar(X) + V ar(Y ) = 6
w

Del mismo modo, 2X y −3Y + 1 son independientes y, por tanto, tenemos

V ar(2X − 3Y + 1) = V ar(2X) + V ar(−3Y + 1)


= 4V ar(X) + 9V ar(Y )
= 12 + 27 = 39

Teoremas de Markov y Tchebychev


Los siguientes resultados establecen cotas para las probabilidades en términos
de los momentos de una variable aleatoria X.

26
Teorema 6 (Teorema de Tchebychev) Sea X una variable aleatoria (disc-
reta o absolutamente continua) tal que, para un cierto k > 0 (no necesaria-
mente entero), el momento de orden k de |X| existe, entonces para cada > 0
se cumple ³ ´
E |X|k
P (|X| ≥ ) ≤ k

Demostración: Haremos la demostración para el caso en que la variable


aleatoria X sea absolutamente continua, con función de densidad f . Por defini-
ción tenemos
³ ´ Z +∞
k
E |X| = |x|k f (x) dx
−∞

Dado > 0, entonces podemos escribir


´ Z − Z Z

om
³ +∞
k k k k
E |X| = |x| f (x) dx + |x| f (x) dx + |x| f (x) dx
−∞ −

Ahora bien, Z Z

.c
k k
|x| f (x) dx = |x| f (x) dx
− |x|<
es
y Z Z Z
− +∞
|x|k f (x) dx + |x|k f (x) dx = |x|k f (x) dx
d
−∞ |x|≥
en

Por tanto,
³ ´ Z Z
k k
E |X| = |x| f (x) dx + |x|k f (x) dx
pr

|x|< |x|≥

Puesto que f es una función no negativa, las dos integrales anteriores son posi-
.a

tivas y, por tanto, podemos escribir


³ ´ Z Z
E |X|k ≥ |x|k f (x) dx ≥ k
w

f (x) dx
|x|≥ |x|≥
w

Ahora bien, Z
f (x) dx = P (|x| ≥ )
w

|x|≥

y, en consecuencia, obtenemos
³ ´
E |X|k ≥ k
· P (|x| ≥ )

es decir, ³ ´
E |X|k
P (|x| ≥ ) ≤ k

Observación 10 Este resultado nos dice que es improbable que una variable
aleatoria (con al menos algún momento finito) tome valores excesivamente grandes,
pues, si es grande 1/ k , con k > 0, será pequeño y la probabilidad de que
|X| ≤ será también pequeña.

27
De este teorema se deducen dos desigualdades importantes en términos de
los momentos. Para k = 1, tenemos la desigualdad de Markov
E (|X|)
P (|X| ≥ ) ≤

y, para k = 2, tenemos la desigualdad de Tchebychev


¡ ¢
E X2
P (|X| ≥ ) ≤ 2

Teorema 7 (Teorema de Markov) Sea X una variable aleatoria (discreta o


absolutamente continua), g una función de la variable real x, no negativa y tal
que E (g(X)) existe, entonces para cada > 0 se cumple
E (g(X))

om
P (g(X) ≥ ) ≤

Demostración: Haremos la demostración para el caso en que la variable


aleatoria X sea absolutamente continua, con función de densidad f . Dada > 0,

.c
consideremos el conjunto es
A = {ω ∈ Ω : g (X(ω)) ≥ }

Entonces, se cumple
d
Z +∞
E (g(X)) = g(x) f (x) dx
en

−∞
Z
≥ g(x) f (x) dx
pr

A
Z
≥ f (x) dx
.a

A
= · P (g(X) ≥ )
w

luego,
E (g(X))
P (g(X) ≥ ) ≤
w
w

Corolario 1 (Desigualdad de Tchebychev) Sea X una variable aleatoria


(discreta o absolutamente continua) con valor medio µ = E(X) y varianza σ 2
finitas. Entonces para cada k > 0 se cumple
1
P (|X − µ| ≥ kσ) ≤
k2
Demostración: Tomando en el teorema de Markov g(x) = (x − µ)2 y
= k2 σ 2 , deducimos
£ ¤
¡ 2 2 2
¢ E (X − µ)2 σ2 1
P (X − µ) ≥ k σ ≤ 2 2
= 2 2
= 2
k σ k σ k
Ahora bien, se cumple
¡ ¢
P (X − µ)2 ≥ k2 σ 2 = P (|X − µ| ≥ kσ)

28
y, por tanto, obtenemos
1
P (|X − µ| ≥ kσ) ≤
k2

Observación 11 Otra expresión de esta desigualdad es


1
P (µ − kσ < X < µ + kσ) ≥ 1 −
k2
y se obtiene calculando la probabilidad del suceso contrario en la desigualdad de
Tchebychev. En efecto, tenemos
1
1 − P (|X − µ| < kσ) ≤
k2

om
es decir,
1
P (|X − µ| < kσ) ≥ 1 −
k2

.c
luego,
1
P (µ − kσ < X < µ + kσ) ≥ 1 −
k2
es
Esta desigualdad se interpreta diciendo que la probabilidad de que una variable
aleatoria X tome un valor que dista del valor medio en menos de k veces su
d
desviación típica es por lo menos 1 − 1/k 2 . Se pone así de manifiesto la impor-
en

tancia del valor medio y de la desviación típica como medidas fundamentales


para caracterizar la distribución de una variable aleatoria.

Ejemplo 16 El número de pasajeros que en un día toman el tren entre dos


pr

ciudades es una variable aleatoria X con valor medio 200 y varianza 100. Si
cada vagón de pasajeros tiene una capacidad para 40 viajeros, calcular el número
.a

de vagones necesarios para asegurar con una probabilidad de al menos 0.95 que
se cubra en ese día la demanda de los pasajeros entre ambas ciudades.
w

Solución: Aplicando la desigualdad de Tchebychev en la forma dada en la


observación 20, tenemos
w

1
P (|X − 200| < k · 10) ≥ 1 −
k2
w

Haciendo
1
1− k2 = 0.95 y k > 0 ⇐⇒ k = 4. 472 1
tenemos

P (X − 200 < 44.721) ≥ P (|X − 200| < 44.721) ≥ 0.95

es decir,
P (X < 244.721) ≥ 0.95
Este último resultado significa que como máximo pueden viajar 244 pasajeros
con una probabilidad de al menos 0.95. Como los vagones tienen 40 plazas,
necesitamos 7 vagones ya que
244
= 6.1
40

29
Ejemplo 17 Una máquina produce ejes cuyo diámetro medio es de 22 mm con
una desviación típica de 0.3 mm. Se aceptan como buenos los ejes que tienen
un diámetro comprendido entre 20 y 24 mm. Obtener una cota del porcentaje
de ejes defectuosos que fabrica la máquina.
Solución: Indicamos por X la variable aleatoria "diámetro de los ejes que
produce la máquina". El suceso "un eje no es defectuoso" es [20 ≤ X ≤ 24] y,
por tanto, el suceso contrario "un eje defectuoso" es
[20 > X > 24] = [|X − 22| > 2]
Mediante la desigualdad de Tchebychev
1
P (|X − µ| ≥ kσ) ≤ (k > 0)
k2
podemos obtener una cota superior de la probabilidad de que un eje sea defec-

om
tuoso. En efecto, haciendo
2 20
k · σ = k · 0.3 = 2 =⇒ k= =
0.3 3

.c
tenemos µ ¶2
3 9
P (|X − 22| ≥ 2) ≤ = = 0.0225
es
20 400
luego, el porcentaje de ejes defectuosos fabricados por la máquina es menor que
d
2.25 %.
en

Otras medidas de posición y dispersión


Aunque el valor medio es la medida de posición más utilizada, en algunos casos
pr

no existe y en otros puede ser afectada por valores extremos de la variable.


Se llama mediana de una variable aleatoria X con función de distribución
.a

F a cualquier valor x de X tal que


1 1
F (x) ≤ y 1 − F (x) <
w

2 2
es decir, la mediana es un punto que divide la "masa" de probabilidad en dos
w

partes iguales. Para las distribuciones absolutamente continuas la mediana es


única.
w

La moda se define solamente en el caso discreto o absolutamente continuo.


En el primer caso, se define como cualquier valor xi de X tal que
f (xi−1 ) ≤ f (xi ) y f (xi ) ≥ f (xi+1 )
En el segundo caso, se define como cualquier valor x de X que se corresponda
con un máximo relativo de la función de densidad. Una distribución se llama
unimodal, bimodal, etc., según que tenga una sola moda, dos modas, etc.
Se llama desviación media de una variable aleatoria X al primer momento
respecto de una mediana xm en valor absoluto
E(|X − xm |)
Es fácil demostrar que E(|X − c|) es mínima cuando c = xm . De este modo,
la desviación media constituye una buena medida de dispersión de la variable
aleatoria respecto de la mediana.

30
Ejemplo 18 La función de densidad de una variable aleatoria X con distribu-
ción absolutamente continua es
½ 2
2xe−x si x > 0
f (x) =
0 en otro caso
Encontrar la moda, la mediana y la desviación media.
Solución: Sabemos que la moda es un máximo relativo de f . Por tanto,
2 √
f 0 (x) = (2 − 4x2 )e−x = 0 ⇐⇒ x = ±1/ 2
√ √ √
Puesto que f 00 (1/ 2) > 0 y f 00 (−1/ 2) < 0, en x = 1/ 2 hay un máximo
relativo y, por tanto, hay una única moda

x = 1/ 2

om
y la distribución de X es unimodal. Es claro que la función de distribución de
X es Z x
2 2
F (x) = 2te−t dt = 1 − e−x
0

.c
si x > 0. Como la mediana es el valor xm de X para el cual F (xm ) = 1/2,
tenemos √
2
es
1 − e−xm = 1/2 ⇐⇒ xm = ln 2
Por último, la desviación media es por definición
¯ √ ¯¯
d
¯
E(|X − xm |) = E(¯X − ln 2¯)
en

Z +∞ ¯ √ ¯¯
¯ 2
= ¯x − ln 2¯ · 2xe−x dx
0

pr

Z ln 2 √ Z +∞ √
−x2 2
= (−x + ln 2) · 2xe dx + √ (x − ln 2) · 2xe−x dx
0 ln 2
.a

Z √ Z ln 2 √
2 √
ln 2
2
= − 2x2 e−x dx + ln 2 2xe−x dx
w

0 0
Z +∞ √ Z +∞
2 2
+ √ 2x2 e−x dx − ln 2 √ 2xe−x dx
w

ln 2 ln 2
Z √ Z
ln 2 +∞
2 2
w

= − 2x2 e−x dx + √ 2x2 e−x dx


0 ln 2

Ahora bien, integrando por partes, obtenemos


Z Z
2 2 2
2x2 e−x dx = −xe−x + e−x dx

y, por tanto,
Z √ Z
¯ √ ¯¯ ln 2 +∞
¯ 2 2
E(¯X − ln 2¯) = − 2x2 e−x dx + √ 2x2 e−x dx
0 ln 2
Z √ Z
h i√ln 2 ln 2 h i+∞ +∞
−x2 −x2 −x2 2
= xe − e dx + −xe √ + √ e−x dx
0 0 ln 2 ln 2
Z +∞ Z √
√ ln 2
− ln 2 −x2 2
= 2 ln 2e + √ e dx − e−x dx
ln 2 0

31
El valor numérico de las dos integrales se puede calcular teniendo en cuenta la
tabla de la distribución normal de parámetros µ = 0 y σ = 1 cuya función de
distribución viene dada por
Z z
1 2
FZ (z) = P (Z ≤ z) = √ e−t /2 dt
2π −∞

En efecto, haciendo el cambio x = t/ 2, tenemos
Z √ Z √
ln 2
−x2 1 2 ln 2
2 √ ³ √ ´ √
e dx = √ e−t /2
dt = π FZ ( 2 ln 2) − FZ (0) = π(0.8790−0.5)
0 2 0

y
Z Z
+∞
1 +∞ √ ³ √ ´ √

om
−x2 2

√ e dx = √ √ e−z /2
dz = π FZ (+∞) − FZ ( 2 ln 2) = π(1−0.8790)
ln 2 2 2 ln 2

Por tanto, obtenemos

.c
Z Z √
+∞ ln 2 √
−x2 2

√ e dx − e−x dx = π(1 − 0.8790 − 0.8790 + 0.5) = −0.45729


es
ln 2 0

Finalmente, obtenemos la desviación media


d
¯ √ ¯¯ √
¯
E(¯X − ln 2¯) = 2 ln 2e− ln 2 − 0.45729 = 0.37526
en
pr

Concepto de covarianza y sus propiedades


La medida del grado de interdependencia lineal entre dos variables estadísticas
.a

es la covarianza. Dada una muestra de n pares de observaciones de dos variables


estadísticas X, Y
w

(x1 , y1 ), (x2 , y2 ), ..., (xn , yn )


w

entonces la covarianza de la muestra viene dada por


n
1X
w

sXY = (xi − x)(yi − y)


n i=1

siendo n n
1X X
x= xi y y= yi
n i=1 i=1

Ahora queremos generalizar este concepto al caso de variables aleatorias.


Se llama covarianza de dos variables aleatorias X, Y y se denota por σ XY
o Cov(X, Y ), al valor del momento mixto central de orden 1 + 1

σ XY = Cov(X, Y ) = E [(X − E(X)) (Y − E(Y ))]

si existe.

32
Propiedades de la covarianza
Teorema 8 Si X, Y son variables aleatorias (discretas o absolutamente contin-
uas), entonces

1. Cov(X, Y ) = E(XY ) − E(X)E(Y )


2. Cov(X, X) = V ar(X)
3. Cov(X, Y ) = Cov(X, Y )
4. Cov(aX, bY ) = abCov(X, Y ), con a, b ∈ R
5. Cov(X + Y, Z) = Cov(X, Z) + Cov(Y, Z)
6. V ar(X ± Y ) = V ar(X) + V ar(Y ) ± 2Cov(X, Y )

om
7. Si X, Y son independientes, entonces Cov(X, Y ) = 0

Demostración: (1) Por definición tenemos

.c
Cov(X, Y ) = E [(X − E(X)) (Y − E(Y ))]
= E (XY − XE(Y ) − Y E(X) + E(X)E(Y ))
es
= E(XY ) − E(Y )E(X) − E(X)E(Y ) + E(X)E(Y )
= E(XY ) − E(X)E(Y )
d

(2) Por el apartado (1), tenemos


en

2
Cov(X, X) = E(X 2 ) − (E(X)) = V ar(X)
pr

(3) Es inmediato al ser R un cuerpo conmutativo.


(4) Por el apartado (1), tenemos
.a

Cov(aX, bY ) = E(aX · bY ) − E(aX)E(bY )


= abE(XY ) − abE(X)E(Y )
w

= abCov(X, Y )
w

(5) Por el apartado (1), tenemos


w

Cov(X + Y, Z) = E ((X + Y )Z) − E(X + Y )E(Z)


= E(XZ) + E(Y Z) − E(X)E(Z) − E(Y )E(Z)
= Cov(X, Z) + Cov(Y, Z)

(6) Por el apartado (1) del teorema , tenemos


£ ¤
V ar(X + Y ) = E (X + Y )2 − (E(X + Y ))2
= E(X 2 + 2XY + Y 2 ) − (E(X) + E(Y ))2
2 2
= E(X 2 ) + 2E(XY ) + E(Y 2 ) − (E(X)) − 2E(X)E(Y ) − (E(Y ))
2 2
= E(X 2 ) − (E(X)) + E(Y 2 ) − (E(Y )) + 2 [E(XY ) − E(X)E(Y )]
= V ar(X) + V ar(Y ) + 2Cov(X, Y )

Análogamente se comprueba la otra fórmula.

33
(7) Si X, Y son independientes, entonces E(XY ) = E(X)E(Y ) y, por tanto,
obtenemos
Cov(X, Y ) = E(XY ) − E(X)E(Y ) = 0
El recíproco de esta propiedad es falso, pues existen pares de variables aleatorias
dependientes que tienen covarianza cero, lo cual nos indica que no podemos
utilizar la covarianza como un test para la independencia. No obstante, es claro
que si Cov(X, Y ) 6= 0, entonces X, Y son dependientes.

Ejemplo 19 Se lanza un dado al aire. Sea X la variable aleatoria "número de


puntos obtenidos" e Y la variable aleatoria que vale 0 si sale 1,2 o 3, y vale 1
si sale 4,5 o 6. Calcular la covarianza de X e Y .
Solución: La distribución de probabilidad conjunta viene dada por la sigu-
iente tabla
Y \X 1 2 3 4 5 6

om
0 1/6 1/6 1/6 0 0 0
1 0 0 0 1/6 1/6 1/6
Entonces, es inmediato comprobar que E(X) = 7/2 y E(Y ) = 1/2. Además se

.c
cumple es
6 X
X 2
4 5 6 15 5
E(XY ) = xi yj · P (X = xi , Y = yj ) = + + = =
i=1 j=1
6 6 6 6 2
d

Luego, obtenemos que


en

Cov(X, Y ) = E(XY ) − E(X)E(Y )


5 7 3
pr

= − =
2 4 4
.a

Ejemplo 20 La función de densidad conjunta de dos variables aleatorias abso-


w

lutamente continuas X, Y es
½ 3 2 2
2 (x + y ) si x, y ∈ (0, 1)
w

f (x, y) =
0 en otro caso
w

Calcular la covarianza de X e Y .
Solución: Primero debemos calcular las funciones de densidad marginales.
Así, tenemos
Z +∞
fX (x) = f (x, y) dy
−∞
Z 1
3
= (x2 + y 2 ) dy
2 0
µ ¶
3 1
= x2 +
2 3

luego ½ ¡ 2 1¢
3
2 x +3 si x ∈ (0, 1)
fX (x) =
0 si x ∈
/ (0, 1)

34
Análogamente,
Z +∞
fY (y) = f (x, y) dx
−∞
Z 1
3
= (x2 + y 2 ) dx
2 0
µ ¶
3 1
= + y2
2 3
luego ½ ¡1 ¢
3
2 3 + y2 si y ∈ (0, 1)
fY (y) =
0 si y ∈
/ (0, 1)
De aquí, obtenemos
Z

om
+∞
E(X) = x · fX (x) dx
−∞
Z 1µ ¶
3x3 x
= + dx

.c
0 2 2
5
=
es
8
y
Z
d
+∞
E(Y ) = y · fY (y) dy
en

−∞
Z 1µ ¶
y 3y 3
= + dy
0 2 2
pr

5
=
8
.a

Por otra parte, tenemos


Z +∞ Z +∞
w

E(XY ) = xy · f (x, y) dx dy
−∞ −∞
Z 1 Z 1
w

3
= (x3 y + xy 3 ) dx dy
2 0 0
w

3
=
8
Por consiguiente, obtenemos
Cov(X, Y ) = E(XY ) − E(X)E(Y )
3 25 1
= − =−
8 64 64

Regresión lineal
Regresión y correlación lineal entre dos variables estadísticas
Nuestro objetivo es generalizar el concepto de regresión lineal al caso de variables
aleatorias. Sin embargo, antes daremos un breve repaso de este concepto al caso

35
de muestras de variables estadísticas. Consideremos el caso de n pares de valores
observados
(x1 , y1 ), (x2 , y2 ), ..., (xn , yn )
correspondientes a dos variables estadísticas X, Y . Se llama regresión lineal
al problema de encontrar una recta

y = ax + b

de manera que los valores de ybi = axi + b se ajusten del mejor modo posible
a los yi . Utilizando el criterio de los mínimos cuadrados, es decir, que la
suma de todos los errores ei = yi − ybi elevados al cuadrado sea mínima
n
X n
X n
X
e2i = (yi − ybi )2 = (yi − axi − b)2

om
i=1 i=1 i=1

esta expresión es una función G de a y b,


n
X

.c
G(a, b) = (yi − axi − b)2 (4)
i=1
es
y para minimizarla se tiene en cuenta la condición necesaria de mínimo, es decir,
las ecuaciones
d
∂G(a, b) ∂G(a, b)
=0 y =0
∂a ∂b
en

de donde se obtienen
sXY
b
a= 2 y bb = y − b ax
sX
pr

siendo x, y, las medias marginales, s2X , la varianza marginal y sXY , la covarianza


de la muestra. A la recta
.a

y=b ax + bb
se la llama recta de regresión de Y sobre X y se acostumbra a expresar en
w

la forma
sXY
y − y = 2 (x − x)
w

sX
y al coeficiente
w

sXY
βY X =
s2X
se le llama coeficiente de regresión de Y sobre X. Análogamente se en-
cuentra la recta de regresión de X sobre Y

cy + db
x=b

que se expresa en la forma siguiente


sXY
x−x= (y − y)
s2Y

y al coeficiente
sXY
β XY =
s2Y

36
se le llama coeficiente de regresión de X sobre Y . La recta de regresión de
Y sobre X sirve para predecir y conocido x; la recta de regresión de X sobre Y
sirve para predecir x conocido y.
De (4) se obtiene la siguiente identidad fundamental
n µ ¶
1X s2
a, bb) =
G(b axi − bb) = s2Y 1 − 2XY2 = s2Y (1 − r2 ) ≥ 0
(yi − b (5)
n i=1 sX sY

que expresa el error mínimo cuadrático medio de estimación de Y por la


recta y = ax + b, siendo
s2XY
r2 = = β Y X · β XY
s2X s2Y
que se llama coeficiente de determinación, y satisface 0 ≤ r2 ≤ 1. Por

om
definición, el coeficiente de correlación lineal es
sXY
r=
sX sY

.c
Es un coeficiente de gran importancia en Estadística que da una medida del
grado del buen ajuste de Y como función lineal de X. Algunas de sus propiedades
es
son:
1. De (5) se obtiene 1 − r2 ≥ 0 y, por tanto, −1 ≤ r ≤ 1, además de tener el
d
mismo signo que sXY y los coeficientes de regresión β Y X y β XY .
en

2. Si r2 = 1, es decir, r = ±1, según (5), el error mínimo cuadrático medio


es cero, lo que implica
pr

axi + bb
yi = b (i = 1, 2, ...n)
es decir, una variable es exactamente combinación lineal de la otra. En
.a

este caso se dice que hay correlación total.


3. Si r2 = 0, o sea, r = 0, según (5), tenemos que el error mínimo cuadrático
w

medio es s2Y . Entonces yi difiere mucho de la predicción baxi + bb. En este


w

caso se dice que las variables X, Y están incorrelacionadas (condición


que cumplen las variables independientes).
w

4. Si 0 < r < 1, se dice que la correlación es positiva y, en tal caso, si crece


(resp. decrece) X cabe esperar que Y crezca (resp. decrezca).
5. Si −1 < r < 0, se dice que la correlación es negativa y, en tal caso, si
crece (resp. decrece) X cabe esperar que Y decrezca (resp. crezca).
Por lo tanto, el coeficiente de correlación r es una medida del grado de
interdependencia lineal entre dos variables estadísticas.
Si restamos a la variable Y la parte debida a X según la regresión lineal
ebi = yi − ybi
se obtienen los residuos de la aproximación. La varianza de estos residuos s2rY ,
llamada varianza residual, es
s2rY = s2Y (1 − r2 ) (6)

37
y puede interpretarse como la variabilidad propia de Y una vez eliminada la
influencia que sobre Y tiene la variable X. De (6), obtenemos

s2Y = s2rY + r2 s2Y

es decir, la varianza de Y se descompone en dos partes: s2rY , la varianza residual,


y r2 s2Y , la varianza explicada o parte de la varianza que es debida a la influencia
sobre ella de la variable X. De este modo, el coeficiente de determinación r2
puede interpretarse como la parte de la variabilidad de Y (en tanto por uno)
debida a la variable X. Al valor
p
srY = sY 1 − r2

se le llama error típico y no es más que la desviación típica de una predicción


ax + bb.
yb = b

om
Regresión entre dos variables aleatorias
Antes de ver la regresión lineal entre dos variables aleatorias, trataremos un caso

.c
más sencillo de regresión. Supongamos que queremos aproximar una variable
aleatoria X a un número real constante no aleatorio α. Una manera de hacerlo
es
consiste en encontrar α mediante el criterio de que el error cuadrático medio
£ ¤
= E (X − α)2
d
en

sea mínimo. Es claro que el error dependerá de α y, por tanto, será mínimo si
d
=0
pr


Ahora bien, se cumple que
.a

d d £ ¤
= E (X − α)2
dα dα
w

d ¡ ¢
= E(X 2 ) − 2αE(X) + α2

w

= −2E(X) + 2α
w

Por tanto, será mínimo si


α = E(X)
Hemos visto, pues, que la mejor manera de aproximar una variable aleatoria X
por una constante es mediante su valor medio. En este caso, el error mínimo
cometido es la varianza de X
h i
2
= E (X − E(X)) = σ2

Como consecuencia, la aproximación de X por su valor medio sólo será una


buena aproximación si la varianza de X es pequeña. Si no lo es, la sustitución de
X por E(X) no es efeciente y en tales casos hay que buscar otras aproximaciones
mejores. Una de estas, consiste en aproximar X mediante una función lineal de
una variable aleatoria Y
aY + b

38
de forma que el error cuadrático medio
h i
2
E (X − (aY + b))

sea mínimo.
En general, la regresión consiste básicamente en aproximar una variable
aleatoria X que tiene una distribución de probabilidad desconocida o muy com-
pleja mediante una función de una cierta variable aleatoria Y con distribución
conocida o más sencilla que la distribución de X. Si la función de Y es lineal
tenemos la regresión lineal (simple o múltiple), mientras que si la función de
Y es arbitraria, tenemos la regresión no lineal.
Dada una variable aleatoria X, la regresión lineal simple consiste en aprox-
imar X mediante aY + b, siendo Y otra variable aleatoria, de manera que el
error cuadrático medio
h i

om
2
(a, b) = E (X − (aY + b))

sea mínimo. Los resultados que se obtienen a partir de esta condición son una
generalización del caso muestral y, por este motivo, no haremos sus demostra-

.c
ciones.
Recta de regresión de X sobre Y :
es
Cov(X, Y )
x − E(X) = (y − E(Y ))
V ar(Y )
d

Recta de regresión de Y sobre X:


en

Cov(X, Y )
y − E(Y ) = (x − E(X))
V ar(X)
pr

Coeficientes de regresión:
Cov(X, Y ) Cov(X, Y )
.a

β XY = y βY X =
V ar(Y ) V ar(X)
Error mínimo cuadrático medio de Y sobre X:
w

min = V ar(Y ) · (1 − ρ2 )
w

Coeficiente de determinación:
w

0 ≤ ρ2 = β Y X · β XY ≤ 1
Coeficiente de correlación lineal (poblacional):
Cov(X, Y )
−1 ≤ ρ = p p ≤1
V ar(X) V ar(Y )

Varianza residual de Ye = Y − β Y X X − β 0 , con β 0 = E(X) − β XY E(Y )


V ar(Ye ) = V ar(Y )(1 − ρ2 )
Error típico: p
σ Ye = V ar(Y )(1 − ρ2 )
Es importante no confundir r con ρ, pues ρ es constante, mientras que r varía
con la muestra. En todo caso, puede considerarse r como una estimación de ρ.
Las propiedades de ρ son análogas a las de r:

39
1. −1 ≤ ρ ≤ 1
2. Si ρ = ±1, una variable es exactamente función lineal de la otra, o sea,
Y = βY X X + β0.
3. Si ρ = 0, se dice que las variables aleatorias están incorrelacionadas. En
particular, si son independientes, Cov(X, Y ) = 0 y, por tanto, ρ = 0. El
recíproco en general es falso.
4. ρ es invariante por transformaciones lineales de las variables aleatorias, es
decir,
ρ(X, Y ) = ρ(aX + b, cX + d)

Por lo tanto, el coeficiente de correlación ρ es una medida estándar del


grado de interdependencia lineal entre dos variables aleatorias, que tiene la

om
ventaja sobre la covarianza de no depender de la dimensión física de las variables
aleatorias.
Ejemplo 21 La función de densidad conjunta de dos variables aleatorias abso-

.c
lutamente continuas X, Y es
½ 3 2 2
2 (x + y ) si x, y ∈ (0, 1)
es
f (x, y) =
0 en otro caso

(1) Calcular el coeficiente de correlación; (2) determinar las rectas de regresión,


d
y (3) ¿qué porcentaje de la variabilidad de X es debida a Y ?
en

Solución: Sabemos por el ejemplo 41 que


5 5 3 1
E(X) = E(Y ) = E(XY ) = Cov(X, Y ) = −
8 8 8 64
pr

Vamos ahora a calcular las varianzas marginales. Tenemos,


Z +∞
.a

E(X 2 ) = x2 fX (x) dx
−∞
Z 1 µ ¶
w

3 x2
= x4 + dx
2 3
w

0
7
=
w

15
luego,
2
V ar(X) = E(X 2 ) − (E(X))
µ ¶2
7 5 73
= − =
15 8 960
Además, tenemos
Z +∞
E(Y 2 ) = y 2 fY (y) dy
−∞
Z µ ¶
3 1 y2 4
= +y dy
2 0 3
7
=
15

40
luego,
2
V ar(Y ) = E(Y 2 ) − (E(Y ))
µ ¶2
7 5 73
= − =
15 8 960

(1) Por tanto, el coeficiente de correlación es

Cov(X, Y ) −1/64
ρ= p p =p p = −0.2055
V ar(X) V ar(Y ) 73/960 73/960

que nos dice que la dependencia es negativa y débil; obsérvese que las dos
variables no son independientes, pues

om
f (x, y) 6= fX (x) · fY (y)

(2) Los coeficientes de regresión son:

.c
Cov(X, Y ) −1/64
β XY = = = −15/73
V ar(Y ) 73/960
es
y
Cov(X, Y ) −1/64
βY X = = = −15/73
V ar(X) 73/960
d

y, por tanto, la recta de regresión de Y sobre X es


en

µ ¶
5 15 5
y− =− x−
8 73 8
pr

y la recta de regresión de X sobre Y es


.a

µ ¶
5 15 5
x− =− y−
8 73 8
w

(3) El coeficiente de determinación es


w

µ ¶2
15
ρ2 = β Y X · β XY = − = 0.0422
w

73

es decir, hay un 4.22 % de la variabilidad de X que es debida a la de Y , lo que


nos indica que el ajuste por rectas de regresión no es aceptable.

A veces la aproximación lineal simple de una variable aleatoria X es poco


adecuada. Se puede entonces ensayar una función polinómica, exponencial, etc.
Pero lo más interesante es determinar una función g de una variable aleatoria
Y de modo que entre todas las curvas posibles se cumpla que
h i
2
E (X − g(Y ))

sea mínimo. El siguiente teorema soluciona este problema, afirmando que la


esperanza condicionada es la función que hace que la aproximación sea la mejor
posible.

41
Teorema 9 Si queremos aproximar una variable aleatoria X mediante una fun-
ción g de la variable aleatoria Y , entonces la esperanza condicionada E(X|Y )
tiene el error cuadrático medio más pequeño entre todas las posibles aproxima-
ciones de X, es decir,
h i h i
E (X − E(X|Y ))2 ≤ E (X − g(Y ))2
h i
2
para cualquier función g de la variable aleatoria Y tal que E (X − g(Y ))
exista. Entonces a la función g(y) = E(X|Y = y) se la llama función de
regresión de X sobre Y y a su representación gráfica, curva de regresión
de X sobre Y .
Demostración: Haremos la demostración suponiendo que X, Y son dos
variables aleatorias absolutamente continuas con función de densidad conjunta

om
f . Sea g una función de la variable aleatoria Y tal que el error cuadrático medio
h i
= E (X − g(Y ))2

.c
exista. Puesto que
f (x, y) = f (x|y) fY (y)
es
entonces tenemos
h i
= E (X − g(Y ))2
d

Z +∞ Z +∞
en

= [x − g(y)]2 f (x, y) dx dy
−∞ −∞
Z +∞ Z +∞
pr

2
= fY (y) dy [x − g(y)] f (x|y) dx
−∞ −∞
.a

Sea Z +∞
h (g(y)) = [x − g(y)]2 f (x|y) dx
w

−∞

entonces podemos escribir


w

Z +∞
= fY (y) h (g(y)) dy
w

−∞

Al ser fY una función no negativa, será mínimo si h (g(y)) es mínimo. Ahora


bien, tenemos
Z +∞ Z +∞ Z +∞
h (g(y)) = x2 f (x|y) dx−2g(y) x f (x|y) dx+(g(y))2 f (x|y) dx
−∞ −∞ −∞

pero Z +∞
f (x|y) dx = 1
−∞
y Z +∞
xn f (x|y) dx = E(X n |Y ) (n = 1, 2)
−∞

42
Por tanto, obtenemos una funcional h de g(y)

h (g(y)) = E(X 2 |Y ) − 2g(y)E(X|Y ) + (g(y))2

Mediante el cálculo variacional se puede demostrar que una condición necesaria


para que h (g(y)) sea mínimo es que su variación δh = 0, es decir,


δh = h [g(y) + αδy]α=0
∂α
∂ h 2
i
= E(X 2 |Y ) − 2 (g(y) + αδy) E(X|Y ) + (g(y) + αδy)
∂α α=0
= [−2δyE(X|Y ) + 2(g(y) + αδy)δy]α=0
= [−2E(X|Y ) + 2g(y)] δy

om
Por tanto,
δh = 0 ⇐⇒ −2E(X|Y ) + 2g(y) = 0
es decir,

.c
g(y) = E(X|Y )
es
Observación 12 1. Análogamente se obtiene la curva de regresión de Y
sobre X
d
y = h(x)
en

siendo h(x) = E(Y |X = x).


2. Es claro que si E(Y |X = x) coincide con la recta de regresión de Y so-
pr

bre X, entonces se dice que Y tiene regresión lineal respecto de X. En


general, si sustituimos las curvas de regresión E(X|Y ) y E(Y |X) por las
rectas de regresión podemos cometer graves errores al intentar obtener me-
.a

diante ellas los valores de las esperanzas condicionadas si el coeficiente de


determinación ρ2 es muy cercano a cero, mientras que si ρ2 es próximo a
w

1, el ajuste por rectas de regresión es aceptable.


w

3. En general, para medir el grado de ajuste entre la distribución conjunta


y la curva de regresión de Y sobre X se utiliza la llamada razón de
w

correlación de Y sobre X que se define por


£ ¤
2 E (h(X) − E(Y ))2
ηY X =
V ar(Y )

Se verifica: (1) 0 ≤ η2Y X ≤ 1; (2) η2Y X ≥ ρ2 ; (3) si η2Y X = 0, entonces


la curva de regresión se reduce a la recta y = E(Y ), y una variable difiere
mucho de ser función de la otra; (4) si η2Y X = 1, entonces toda la dis-
tribución conjunta está concentrada en la curva de regresión de Y sobre
X, es decir, se cumple la relación funcional

Y = h(X)

y, cuando y = h(x) es una recta, se dice que Y tiene regresión lineal


respecto de X.

43
Ejemplo 22 Hallar la curva de regresión de Y sobre X, sabiendo que la función
de densidad conjunta es
½ 1
f (x, y) = 8 (x + y) si x, y ∈ (0, 2)
0 en otro caso
¿La regresión entre X e Y es lineal? Calcular también la razón de correlación
de Y sobre X.
Solución: La curva de regresión de Y sobre X viene dada por

y = h(x) = E(Y |X = x)

siendo Z +∞
1
E(Y |X = x) = y · f (x, y) dy
fX (x) −∞

om
pero, para 0 < x < 2, tenemos
Z +∞
fX (x) = f (x, y) dy
−∞

.c
Z 2
1
= (x + y) dy
8 0
es
1
= (x + 1)
4
d
y se anula en otro caso. Por tanto, para 0 < x < 2 tenemos
en

Z 2
4 1
E(Y |X = x) = (xy + y 2 ) dy
x+1 0 8
µ ¶
pr

1 8
= · 2x +
2(x + 1) 3
.a

3x + 4
=
3x + 3
w

y la curva de regresión es
3x + 4
w

y = h(x) = (0 < x < 2)


3x + 3
w

Es claro que la regresión no es lineal. La razón de correlación es


£ ¤
2 E (h(X) − E(Y ))2
ηY X =
V ar(Y )
Se comprueba enseguida que
7 11
E(Y ) = y V ar(Y ) =
6 36
y se cumple
µ ¶2
2 3x + 4 7
(h(X) − E(Y )) = −
3x + 3 6
µ ¶2
1 1−x
=
36 1 + x

44
luego,
Z " µ ¶2 #
£ ¤ 2
1 1−x 1
E (h(X) − E(Y ))2 = · (x + 1) dx
0 36 1+x 4
Z 2
1 (1 − x)2
= dx
144 0 1+x
Z 2 Z 2
1 1 4
= (x − 3) dx + dx
144 0 144 0 x + 1
1 1
= − + ln 3
36 36
Por consiguiente, obtenemos
£ ¤
E (h(X) − E(Y ))2
η2Y X =

om
V ar(Y )
µ ¶
36 1 1
= − + ln 3
11 36 36
= 0.009

.c
Obsérvese que X, Y son dependientes, pues η 2Y X 6= 0, pero la dependencia es
es
muy débil.

Función característica y función generatriz de momentos


d

Disponemos ya de dos funciones que nos ayudan a entender una variable aleato-
en

ria: la función de distribución y la función de densidad. En este apartado


introduciremos dos nuevas funciones que podremos utilizar para describir las
pr

variables aleatorias desde una perspectiva diferente. Nos estamos refiriendo a la


función característica y a la función generatriz de momentos. Ambas funciones
son equivalentes en muchos sentidos. La diferencia esencial entre ellas reside en
.a

que la primera siempre está definida para una variable aleatoria, mientras que
la segunda puede no estarlo.
w

Hasta ahora sólo hemos tratado con variables aleatorias reales. No obstante,
la definición de esperanza puede extenderse sin dificultades al caso de una vari-
w

able aleatoria compleja Z = X +iY , donde X e Y son variables aleatorias reales.


En efecto, si los valores esperados de X e Y existen, entonces el valor esperado
w

de Z se define por
E(Z) = E(X) + iE(Y )
Un caso en que trataremos con variable aleatorias complejas es el de la función
característica de una variable aleatoria real X. Esta función es la esperanza de
la variable aleatoria compleja
eitX = cos tX + i sin tX
que depende del parámetro real t.

Definiciones de función característica y de función generatriz de mo-


mentos
Se llama función característica de la variable aleatoria real X a la función ϕ
definida por
ϕ(t) = E(eitX )

45
Para una variable aleatoria discreta X, tenemos
X
ϕ(t) = eitxn P (X = xn )
n

y para una variable aleatoria absolutamente continua X con función de densidad


f , tenemos Z +∞
ϕ(t) = eitx f (x) dx
−∞
Se llama función generatriz de momentos de la variable aleatoria X a la
función definida por
g(t) = E(etX )
siempre que E(etX ) sea finito. Para una variable aleatoria discreta X, tenemos
X

om
g(t) = etxn P (X = xn )
n

y para una variable aleatoria absolutamente continua X con función de densidad

.c
f , tenemos Z +∞
g(t) = etx f (x) dx
es
−∞

Observación 13 1. La función característica de una variable aleatoria X


d
es una función de variable real que toma valores complejos. Además, es
una función que siempre existe aunque no exista la esperanza de X. En
en

efecto, por definición tenemos

ϕ(t) = E(eitX ) = E(cos tX) + iE(sin tX)


pr

Entonces, ϕ(t) existirá si E(cos tX) y E(t sin X) son finitos, pero
.a

|E(cos tX)| ≤ E(|cos tX|) ≤ E(1) = 1

y, por tanto, E(cos tX) es finito; lo mismo ocurre con E(sin tX). En el
w

apartado 1 de la observación 13 hemos visto que para la distribución de


Cauchy
w

1
f (x) =
π(1 + x2 )
w

la esperanza no es finita. Sin embargo, mediante el cálculo de residuos se


puede demostrar que
Z +∞
1
ϕ(t) = eitx dx
−∞ π(1 + x2 )
Z
1 +∞ eitx
= dx
π −∞ 1 + x2
= e−|t|

y ϕ(t) existe para todo t ∈ R.


2. La función generatriz de momentos de una variable aleatoria es una fun-
ción real de variable real. Evidentemente, para que exista la función gen-
eratriz de momentos tendrá que existir el correspondiente valor esperado.

46
Ejemplo 23 Calcular la función característica y la función generatriz de mo-
mentos de (1) la distribución de Poisson de parámetro λ y (2) la distribución
normal de parámetros µ = 0 y σ = 1.
Solución: (1) Para una variable aleatoria X con distribución de Poisson de
parámetro λ > 0 se tiene

λn −λ
P (X = n) = e (n = 0, 1, 2, ...)
n!
Por tanto,

X
ϕ(t) = eitn P (X = n)
n=0
X∞
(λeit )n
= e−λ

om
n=0
n!
it
= e−λ eλe
£ ¤
= exp λ(eit − 1)

Además, se tiene
.c
es

X
g(t) = etn P (X = n)
d
n=0
X∞
en

(λet )n
= e−λ
n=0
n!
t
= e−λ eλe
pr

£ ¤
= exp λ(et − 1)
.a

(2) Para una variable aleatoria X con distribución normal de parámetros


µ = 0 y σ = 1 se tiene
w

1 2
f (x) = √ e−x /2

w

Por tanto,
Z +∞
w

1 2
ϕ(t) = eitx √ e−x /2 dx
−∞ 2π
Z +∞
1 2
= √ eitx−x /2 dx
2π −∞
Z
1 −t2 /2 +∞ −(x−it)2 /2
= √ e e dx
2π −∞
2
= e−t /2

47
Además, se tiene
Z +∞
1 2
g(t) = etx √ e−x /2 dx
−∞ 2π
Z +∞
1 2
= √ etx−x /2 dx
2π −∞
Z
1 t2 /2 +∞ −(x−t)2 /2
= √ e e dx
2π −∞
2
= et /2

Ejemplo 24 Calcular la función característica de la variable aleatoria con la

om
siguiente distribución mixta

P (X = 1) = 0.1, P (X = 2) = 0.2, P (X = 3) = 0.3

.c
y
f (x) = 0.04x
es
para 4 ≤ x ≤ 6, y cero en cualquier otro caso.
Solución: Por definición, tenemos
d

ϕ(t) = E(eitX )
en

X3 Z 6
= eitx P (X = n) + eitx · 0.04x dx
n=1 4
pr

Z 6
= 0.1eit + 0.2e2it + 0.3e3it + 0.04 xeitx dx
4
.a

pero
· ¸6
w

Z 6 Z 6
itx eitx eitx
xe dx = − dx
it it
w

4 4 4
· ¸
itx 6
e 1 £ itx ¤6
= − e 4
w

it 4 (it)2
e6it − e4it e6it − e4it
= +
it t2
luego,
µ ¶
it 2it 3it e6it − e4it e6it − e4it
ϕ(t) = 0.1e + 0.2e + 0.3e + 0.04 +
it t2

Propiedades de las funciones características


Las propiedades más importantes de las funciones características se recogen en
el siguiente teorema.

48
Teorema 10 La función característica ϕX de una variable aleatoria X (disc-
reta o absolutamente continua) satisface las siguientes propiedades:

1. ϕX (0) = 1 y |ϕX (t)| ≤ 1, para todo t ∈ R


2. ϕX (−t) = ϕX (t), en donde la barra denota el complejo conjugado de ϕX (t)
3. Si Y = aX + b, entonces ϕY (t) = eitb ϕX (at), para todo a, b ∈ R
4. Si X, Y son variables aleatorias independientes, entonces

ϕX+Y (t) = ϕX (t)ϕY (t)

Demostración: (1) Es evidente ϕX (0) = 1 ya que ϕX (0) = E(e0 ) = E(1) =


1. Por otra parte,

om
¯ ¯
|ϕX (t)| = ¯E(eitX )¯
¯ ¯
≤ E(¯eitx ¯)

.c
= E(1)
= 1
es
ya que
¯ itx ¯ p
¯e ¯ = cos2 tx + sin2 tx = 1
d

(2) Puesto que


en

ϕX (t) = E(cos tX) + iE(sin tX)


tenemos,
pr

ϕX (−t) = E(e−itX )
= E(cos tX − i sin tX)
.a

= E(cos tX) − iE(sin tX)


w

= ϕX (t)

(3) Tenemos
w

ϕY (t) = E(eitY )
w

= E(eit(aX+b) )
= E(eitaX eitb )
= eitb E(eitaX )
= eitb ϕX (aX)

(4) Tenemos

ϕX+Y (t) = E(eit(X+Y ) )


= E(eitX eitY )
= E(eitX )E(eitY )
= ϕX (t)ϕY (t)

49
Ejemplo 25 Dadas n variables aleatorias X1 , X2 , ..., Xn , independientes y con
funciones características ϕ1 , ϕ2 , ..., ϕn , se define una nueva variable aleatoria Y
por
Xn
Y = (ai Xi + bi )
i=1
Calcular la función característica ϕ de Y .
Solución: Por definición, tenemos
ϕ(t) = E(eitY )
" Ã n
!#
X
= E exp it (ai Xi + bi )
i=1
" n
#
Y
= E exp it (ai Xi + bi )

om
i=1

Al ser las variables aleatorias Xi independientes, las variables exp it (ai Xi + bi )


también lo son, y, por tanto,
"n #

.c
Y
ϕ(t) = E exp it (ai Xi + bi )
es
i=1
n
Y
= E [exp it (ai Xi + bi )]
d
i=1
Yn
£ ¤
en

= E eitai Xi · eitbi
i=1
Yn
¡ itbi ¡ ¢¢
pr

= e · E eitai Xi
i=1
Yn
.a

¡ itbi ¢
= e · ϕi (ai t)
i=1
w

Yn n
Y
= eitbi · ϕi (ai t)
w

i=1 i=1
à n
! n
X Y
w

= exp it bi · ϕi (ai t)
i=1 i=1

Propiedades de la función generatriz de momentos


Teorema 11 La función generatriz de momentos g de una variable aleatoria
X (discreta o absolutamente continua) satisface las siguientes propiedades:
1. Si Y = aX + b, entonces gY (t) = etb gX (at), para todo a, b ∈ R
2. Si X, Y son variables aleatorias independientes, entonces
gX+Y (t) = gX (t)gY (t)

Demostración: Es análoga a los correspondientes apartados del teorema


29.

50
Cálculo de los momentos mediante la función característica
La utilidad práctica de la función característica se pone de manifiesto en el
siguiente teorema.

Teorema 12 Si una variable aleatoria X (discreta o absolutamente continua)


tiene todos sus momentos de orden n ∈ N finitos, entonces
1 (n)
mn = E(X n ) = ϕ (0) (n = 1, 2, 3, ...)
in
Demostración: Para una variable aleatoria discreta X tenemos
" #
(n) dn X itxk
ϕ (t) = e P (X = xk )
dtn
k

om
X dn ¡ ¢
= n
eitxk P (X = xk )
dt
k

.c
Ahora bien, tenemos
dn ¡ itxk ¢
e = in xnk eitxk
dtn
es
Por tanto, X
ϕ(n) (t) = in xnk eitxk P (X = xk )
d
k
en

Finalmente, en el punto t = 0, tenemos


X
ϕ(n) (0) = in xnk P (X = xk )
pr

k
= in E(X n )
= in mn
.a

Del mismo modo, para una variable aleatoria absolutamente continua, tenemos
w

·Z +∞ ¸
dn
ϕ(n) (t) = itx
w

e f (x) dx
dtn −∞
Z +∞
w

n
= i xn eitx f (x) dx
−∞

tomando t = 0, obtenemos
Z +∞
(n) n
ϕ (0) = i xn f (x) dx
−∞
= in E(X n )
= in mn

Obsérvese que si X tiene todos los momentos finitos, entonces la función carac-

51
terística puede desarrollarse en serie de Taylor en un entorno del punto x = 0
Z +∞
ϕX (t) = eitx f (x) dx
−∞
Z+∞ µ ¶
it (it)2 2 (it)n n
= 1+ x+ x + ··· + x + · · · f (x) dx
−∞ 1! 2! n!
Z +∞ Z +∞ Z
it (it)2 +∞ 2
= f (x) dx + x f (x) dx + x f (x) dx
−∞ 1! −∞ 2! −∞
Z
(it)n +∞ n
+··· + x f (x) dx + · · ·
n! −∞
it (it)2 (it)n
= 1+ m1 + m2 + · · · + mn + · · ·
1! 2! n!

om
Ejemplo 26 Hallar los dos primeros momentos de la distribución binomial de
parámetros n y p.
Solución: Recordemos que una variable aleatoria con distribución bino-

.c
mial de parámetros n y p es la suma de n variables aleatorias de Bernoulli de
parámetro p independientes. Una variable aleatoria X sigue una distribución
es
de Bernoulli de parámetro p si X toma sólo dos valores 1 (éxito) y 0 (fracaso)
con la siguiente distribución de probabilidad
½
d
p si x = 1
P (X = x) = (p + q = 1)
en

q si x = 0
luego, su función característica es
pr

ϕX (t) = E(eitX ) = peit + qe0 = peit + q


Por consiguiente, si Y es una variable aleatoria con distribución binomial de
.a

parámetros n y p
Xn
Y = Xi
w

i=1
siendo cada Xi una variable aleatoria de Bernoulli de parámetro p. Entonces,
w

al ser las Xi independientes, tenemos que la función característica de Y es


w

n
Y
ϕ(t) = ϕXi (t)
i=1
¡ it ¢n
= pe + q (p + q = 1)
Podemos pasar a calcular ahora los momentos pedidos. Se cumple
1 (n)
mn = ϕ (0) (k = 1, 2, 3, ...)
in
luego, tenemos
1 0
m1 = ϕ (0)
·i ¸
n(peit + q)n−1 · ipeit
=
i t=0
= np

52
y
1 00
m2 = 2
ϕ (0)
·i ¸
n(n − 1)(peit + q)n−2 · i2 p2 e2it + n(peit + q)n−1 · i2 peit
=
i2 t=0
= n(n − 1)p2 + np

Ejemplo 27 Estudiar la distribución de una variable aleatoria X que tiene


todos sus momentos finitos e iguales a un número real a. ¿Qué condición ha de
cumplir a?
Solución: Como todos los momentos existen y

om
E(X) = E(X 2 ) = · · · = E(X n ) = · · · = a

la función característica de X puede desarrollarse en serie de Taylor en un

.c
entorno del punto x = 0

(it)2 (it)n
es
it
ϕX (t) = 1 + m1 + m2 + · · · + mn + · · ·
1! 2! n!
ita (it)2 a (it)n a
d
= 1+ + + ··· + + ···
1! µ 2! n! ¶
en

it (it)2 (it)n
= 1−a+a 1+ + + ··· + + ···
1! 2! n!
= 1 − a + aeit
pr

es decir,
ϕX (t) = 1 − a + aeit
.a

pero debe cumplirse que


w

|ϕX (t)| ≤ 1
es decir,
w

¯ ¯
¯1 − a + aeit ¯ ≤ |1 − a| + |a| ≤ 1
w

luego
0≤a≤1
Poniendo ahora p = a y q = 1 − a, obtenemos

ϕX = q + peit

que es la función característica de la distribución de Bernoulli (ver ejemplo 47).


En resumen, se ha de cumplir que 0 ≤ a ≤ 1 y la distribución de X es una
Bernoulli de parámetro a.

Cálculo de los momentos mediante la función generatriz de momentos


La utilidad práctica de la función generatriz de momentos, si existe, se pone de
manifiesto en el siguiente teorema.

53
Teorema 13 Si una variable aleatoria X (discreta o absolutamente continua)
tiene todos sus momentos de orden n ∈ N finitos para la que existe la función
generatriz de momentos, entonces

mn = E(X n ) = g (n) (0) (k = 1, 2, 3, ...)

Demostración: Consideremos el desarrollo en serie de Taylor de h(x) = etx


en x = 0, se tiene
t t2 tn
etx = 1 + x + x2 + · · · + xn + · · ·
1! 2! n!
de donde
Z +∞
g(t) = etx f (x) dx

om
−∞
Z +∞ µ ¶
t t2 2 tn n
= 1 + x + x + · · · + x + · · · f (x) dx
−∞ 1! 2! n!

.c
derivando sucesivamente respecto de t en t = 0, resulta
Z +∞ µ ¶ Z +∞
tn−1 n
es
g 0 (t) = x + tx2 + · · · + x + · · · f (x) dx =⇒ g 0 (0) = x f (x) dx = m1
−∞ (n − 1)! −∞
Z +∞ µ ¶ Z +∞
tn−2 n
d
00 2 00
g (t) = x + ··· + x + · · · f (x) dx =⇒ g (0) = x2 f (x) dx = m2
(n − 2)!
en

−∞ −∞
reiterando este proceso se concluye que

g (n) (0) = mn
pr

La demostración para el caso de variable aleatoria discreta es análogo.


.a

Teoremas de unicidad y de inversión


w

La función característica de una variable aleatoria proporciona información so-


bre ella en el sentido de que permite conocer fácilmente todos sus momentos de
w

orden n ∈ N. De hecho podemos afirmar aún más: conocer la función caracterís-


tica equivale a conocer la distribución de probabilidad de la variable aleatoria.
w

Los dos teoremas siguientes, que damos sin demostración, justifican esta última
afirmación.
El primero nos dice que cualquier función de distribución F (x) = P (X ≤ x)
está unívocamente determinada por su función característica. Como consecuen-
cia, la función característica caracteriza la variable aleatoria, en el sentido de
que dos variables aleatorias con la misma función característica tienen la misma
función de distribución.

Teorema 14 (Teorema de unicidad) Sean F1 y F2 dos funciones de dis-


tribución con la misma función característica, entonces F1 = F2 .

Es claro que si conocemos la función de densidad de una variable aleatoria


la misma definición de función característica determina ϕ(t) de forma unívoca.
El problema ahora es conocer la función de densidad a partir del conocimiento
de la función característica. El segundo teorema resuelve este último problema.

54
Teorema 15 (Teorema de inversión) Sean ϕ y F la función característica y
la función de distribución de una varfiable aleatoria X. Entonces, para parejas
arbitrarias de puntos a y b (a < b) donde F es continua, se cumple la siguiente
fórmula Z c −ita
1 e − e−itb
F (b) − F (a) = lim ϕ(t) dt
c→+∞ 2π −c it
que suele llamarse fórmula de inversión.

Para el caso de una variable aleatoria absolutamente continua X con función


de distribución F diferenciable y tal que F 0 (x) = f (x) sea la función de densidad,
la fórmula de inversión puede escribirse de un modo más sencillo, como lo indica
el siguiente corolario.

Corolario 2 Si la función de distribución de una variable aleatoria absoluta-

om
mente continua F es diferenciable y F 0 (x) = f (x), entonces se cumple
Z +∞
1
f (x) = e−itx ϕ(t) dt

.c
2π −∞

siempre que |ϕ(t)| sea integrable en toda la recta real; dicho en otras palabras,
es
la función característica y la función de densidad son transformadas de Fourier
la una de la otra.
d

Observación 14 La función de densidad es una integral en el plano complejo


en

que puede resolverse, salvo casos sencillos, por el método de los residuos.

Para variables aleatorias discretas, el siguiente teorema proporciona la fór-


pr

mula de inversión.

Teorema 16 Sea X una variable aleatoria discreta que toma los valores x1 , x2 , ..., xn , ...
.a

con probabilidad no nula, y sea ϕ su función característica. Entonces, la función


de densidad de X viene dada por la siguiente fórmula
w

" Z T #
1 −itxn
w

P (X = xn ) = lim e ϕ(t) dt (n = 1, 2, 3, ...)


T →+∞ 2T −T
w

Ejemplo 28 Una variable aleatoria X se dice que es simétrica si su función de


densidad es par, es decir, f (x) = f (−x) para todo x ∈ R. (1) ¿Qué debe verificar
la función característica para que la variable sea simétrica? (2) Averiguar si la
variable aleatoria X de función de función característica
½
1 − |t| si |t| ≤ 1
ϕX (x) =
0 si |t| > 1

(3) ¿Tiene momentos esta variable aleatoria? (4) Hallar la función de densidad
de la variable aleatoria X del apartado (2).
Solución: (1) Si X es simétrica, entonces X y −X se distribuyen de la
misma manera. Por tanto, X y −X tienen la misma función característica y,
por tanto,
ϕX (t) = ϕ−X (t) = ϕX (−t) = ϕX (t)

55
para todo t ∈ R. La condición ϕX (t) = ϕX (t) es equivalente a decir que ϕX (t)
es un número real y, en consecuencia, ϕX ha de ser una función real de variable
real par.
(2) Es claro que ϕX es una función real par, luego

ϕX (t) = ϕX (−t) = ϕ−X (t)

y, por tanto, según el teorema de unicidad, X y −X tienen la misma distribución


y, como consecuencia, X es simétrica.
(3) Esta variable aleatoria no tiene momentos porque la función caracterís-
tica no es derivable en x = 0.
(4) Aplicando la fórmula de inversión, tenemos
Z +∞
1
f (x) = e−itx ϕX (t) dt

om
2π −∞

y observando la gráfica de ϕX

.c
d es
en
pr
.a
w

podemos escribir
Z Z
w

0 1
1 1
f (x) = e−itx (1 + t) dt + e−itx (1 − t) dt
2π −1 2π 0
w

pero
Z 0 · ¸0 Z 0
e−itx 1
e−itx (1 + t) dt = (1 + t) − e−itx dt
−1 −ix −1 −ix −1
· ¸0
1 1 e−itx
= − +
ix ix −ix −1
1 1
= − − (1 − eix )
ix (ix)2

y del mismo modo se obtiene


Z 1
1 1
e−itx (1 − t) dt = + (e−ix − 1)
0 ix (ix)2

56
Por lo tanto, tenemos
· ¸ · ¸
1 1 1 ix 1 1 1 −ix
f (x) = − − (1 − e ) + + (e − 1)
2π ix (ix)2 2π ix (ix)2
1
= (2 − eix − e−ix )
2πx2µ ¶
1 eix + e−ix
= 1 −
πx2 2
1 − cos x
=
πx2

Funciones características bidimensionales

om
De manera análoga al caso unidimensional se define la función característica y la
función generatriz de momentos de variables aleatorias n-dimensionales. Como
hemos hecho en otros casos, aquí sólo trataremos el caso bidimensional, dejando

.c
la generalización para el lector. Trataremos sólo las funciones características y
dejaremos también al lector el trabajo de reescribir la definición y propiedades
es
de la función generatriz de momentos para variables aleatorias bidimensionales.
Se llama función característica de una variable aleatoria bidimensional (X, Y )
a la función
d
ϕ(u, v) = E [exp (i(uX + vY ))]
en

Es una función en las variables reales u, v que toma valores complejos. En el


caso discreto, tenemos
XX
pr

ϕ(u, v) = exp [i(uxh + vyk )] P (X = xh , Y = yk )


h k
.a

y, en el caso absolutamente continuo,


Z +∞ Z +∞
w

ϕ(u, v) = exp [i(ux + vy)] f (x, y) dx dy


−∞ −∞
w

Del mismo modo que en el caso unidimensional, se puede demostrar que la


w

función característica caracteriza totalmente a la función de distribución con-


junta. Las propiedades de las funciones características para variables aleatorias
bidimensionales se recogen en el siguiente teorema.

Teorema 17 La función característica ϕXY de una variable aleatoria bidi-


mensional (X, Y ) (discreta o absolutamente continua) satisface las siguientes
propiedades:

1. ϕXY (0, 0) = 1 y |ϕXY (u, v)| ≤ 1, para todo (u, v) ∈ R2


2. ϕX (t) = ϕXY (t, 0) y ϕY (t) = ϕXY (0, t)
3. El momento mixto de orden k + h, si existe, es
¸
1 ∂ k+h ϕXY (u, v)
mkh = E(X k Y h ) = ·
ik+h ∂uk ∂v h u=v=0

57
4. Si Z = X + Y , entonces

ϕZ (t) = ϕXY (t, t)

5. Dos variables aleatorias X, Y son independientes si y sólo si

ϕXY (u, v) = ϕX (u) · ϕY (v)

6. Si Z = X + Y y X, Y son independientes, entonces

ϕZ (t) = ϕX (t) · ϕY (t)

Demostración: (1) Se hace del mismo modo que en el caso unidimensional


(ver teorema 29).

om
(2) Es claro que

ϕXY (t, 0) = E [exp (i(tX + 0 · Y ))] = E(eitX ) = ϕX (t)

.c
y del mismo modo se hace la otra relación.
(3) De la definición, mediante derivación parcial, es fácil deducir esta fór-
es
mula; se deja al lector su comprobación. Además, se puede demostrar que bajo
ciertas condiciones ϕXY admite un desarrollo en serie expresado en términos de
los momentos mixtos (al igual que ocurría en el caso unidimensional).
d
(4) En efecto,
en

ϕZ (t) = E(eitZ ) = E(exp(it(X + Y ))) = E(exp(i(tX + tY ))) = ϕXY (t, t)

(5) En efecto, si X, Y son independientes, entonces


pr

ϕXY (u, v) = E [exp (i(uX + vY ))]


E(eiuX · eivY )
.a

=
= E(eiuX ) · E(eivY )
w

= ϕX (u) · ϕY (v)
w

No demostraremos el recíproco de esta afirmación por exigir la aplicación del


teorema de inversión.
w

(6) Es evidente a partir de (4) y (5).

Ejemplo 29 Dada la variable bidimensional discreta (X, Y ) con distribución


de probabilidad conjunta
Y \X 1 2
1 0.1 0.2
2 0.1 0.6
Calcular la función característica de (X, Y ) y encontrar el momento mixto de
orden 1 + 1 respecto al origen.
Solución: Por definición tenemos
2 X
X 2
ϕXY (u, v) = exp [i(uh + vk)] P (X = h, Y = k)
h=1 k=1
i(u+v)
= e · 0.1 + ei(u+2v) · 0.1 + ei(2u+v) · 0.2 + ei(2u+2v) · 0.6

58
y si el momento pedido existe, se puede calcular mediante
¸
1 ∂ 2 ϕXY (u, v)
m11 = 2 ·
i ∂u∂v u=v=0

Para ello, calculamos primero


∂ϕXY (u, v)
= 0.1iei(u+v) + 0.1iei(u+2v) + 0.4iei(2u+v) + 1.2iei(2u+2v)
∂u
Entonces
∂ 2 ϕXY (u, v)
= 0.1i2 ei(u+v) + 0.2i2 ei(u+2v) + 0.4i2 ei(2u+v) + 2.4i2 ei(2u+2v)
∂u∂v
y, por tanto,

om
¸
0.1i2 ei(u+v) + 0.2i2 ei(u+2v) + 0.4i2 ei(2u+v) + 2.4i2 ei(2u+2v)
m11 =
i2 u=v=0
= 3.1

.c
es
Ejemplo 30 Hallar la función característica de (X, Y ), sabiendo que la función
de densidad conjunta es
½
d
x + y si x, y ∈ (0, 1)
f (x, y) =
en

0 en otro caso

Solución: Por definición tenemos


Z +∞ Z +∞
pr

ϕ(u, v) = exp [i(ux + vy)] f (x, y) dx dy


−∞ −∞
Z 1Z 1
.a

i(ux+vy)
= e (x + y) dx dy
0 0
w

Z 1Z 1 Z 1 Z 1
ivy iux
= e e x dx dy + eiux eivy y dx dy
w

0 0 0 0

Calculando cada una de estas integrales, tenemos


w

Z 1Z 1 Z 1 · iux ¸1
xe eiux
eivy eiux x dx dy = eivy − dy
0 0 0 iu (iu)2 0
µ iu ¶Z 1
e eiu 1
= + 2 − 2 eivy dy
iu u u 0
µ iu ¶ · ivy ¸1
e eiu 1 e
= + 2 − 2
iu u u iv
µ iu iu
¶ µ iv 0 ¶
e e 1 e 1
= + 2 − 2 −
iu u u iv iv
y del mismo modo se obtiene
Z 1Z 1 µ iu ¶ µ iv ¶
iux ivy e 1 e eiv 1
e e y dx dy = − + 2 − 2
0 0 iu iu iv v v

59
Por consiguiente, obtenemos que
µ iu ¶ µ iv ¶ µ iu ¶ µ iv ¶
e eiu 1 e 1 e 1 e eiv 1
ϕ(u, v) = + 2 − 2 − + − + 2 − 2
iu u u iv iv iu iu iv v v

Convergencia de sucesiones de variables aleato-


rias
En las secciones anteriores nos hemos ocupado del concepto de variable aleato-
ria tanto unidimensional como bidimensinal, estudiando sus aspectos funda-
mentales a través de su función de densidad, su función de distribución, de sus

om
momentos y de su función característica. Pero en muchas situaciones tendremos
que analizar el comportamiento límite de una sucesión de variables aleatorias
definidas sobre un mismo espacio de probabilidades y no necesariamente inde-
pendientes. En esta sección nos ocuparemos de la convergencia de sucesiones

.c
de variables aleatorias. es
Tipos de convergencia
Sea (Xn ) una sucesión de variables aleatorias (reales) definidas sobre un mismo
d
espacio de probabilidades (Ω, A, P ). Para cada ω ∈ Ω, la sucesión (Xn (ω)) es
en

una sucesión de números reales que puede ser convergente o divergente según
sea ω. En otras palabras, la existencia o no del límite de la sucesión

lim Xn
pr

n→∞

dependerá de los sucesos elementales. Esta dependencia origina tres maneras


.a

distintas de definir la convergencia de variables aleatorias: la convergencia casi


segura, la convergencia en probabilidad y la convergencia en media cuadrática.
w

Por otra parte, si (Fi ) es la sucesión de funciones de distribución asociada a la


sucesión de variables aleatorias (Xi ), estudiaremos también la convergencia de
w

(Fi ) que nos llevará a la convergencia en distribución.


w

Convergencia segura y casi segura


El concepto más fuerte de convergencia de sucesiones de variables aleatorias es
el de convergencia segura. Una sucesión de variables aleatorias (Xn ) se dice
que converge seguro a la variable aleatoria X si para todo ω ∈ Ω la sucesión
(Xn (ω)) converge a X(ω), es decir,

lim Xn (ω) = X(ω) (7)


n→∞

para todo ω ∈ Ω.
Este tipo de convergencia se da en muy pocos casos y, en general, lo que
ocurre es que (7) se cumple sólo para un cierto subconjunto C de Ω, es decir,
un suceso de A; obsérvese que en el caso de convergencia segura C = Ω.
Un criterio de convergencia un poco menos fuerte es el de convergencia casi
segura o en probabilidad 1. Una sucesión de variables aleatorias (Xn ) se dice

60
que converge casi seguro a la variable aleatoria X si (7) se cumple sólo para
un suceso de probabilidad 1, es decir, si
n o
C = ω ∈ Ω : lim Xn (ω) = X(ω)
n→∞

entonces
P (C) = 1
Obsérvese que en el caso de convergencia casi segura P (C) = 0, siendo
n o
C = ω ∈ Ω : lim Xn (ω) 6= X(ω) 6= ∅
n→∞

Evidentemente, si C = Ω, la convergencia es segura.


La convergencia casi segura se indica por

om
c.s.
Xn −→ X

y viene a significar que (Xn ) converge a X en el sentido ordinario del análisis

.c
matemático, salvo en conjuntos de probabilidad nula.

Observación 15 Teniendo en cuenta que para cada ω ∈ C la condición


es
lim Xn (ω) = X(ω)
n→∞
d

significa que para todo > 0 existe un número natural m tal que para todo
en

n ≥ m se cumple
|Xn (ω) − X(ω)| <
pr

entonces el conjunto
n o
C = ω ∈ Ω : lim Xn (ω) = X(ω)
.a

n→∞

puede también expresarse en la siguiente forma


w

∞ [
\ ∞ \ ∞ ½ ¾
1
C= ω ∈ Ω : |Xn (ω) − X(ω)| <
w

m=1 n=m
k
k=1
w

y, en consecuencia, también tenemos que


∞ \
[ ∞ [ ∞ ½ ¾
1
C= ω ∈ Ω : |Xn (ω) − X(ω)| ≥
m=1 n=m
k
k=1

Convergencia en probabilidad
Una sucesión de variables aleatorias (Xn ) se dice que converge en probabil-
idad a la variable aleatoria X si para todo > 0 se cumple

lim P ({ω ∈ Ω : |Xn (ω) − X(ω)| ≥ }) = 0 (8)


n→∞

o de forma equivalente

lim P ({ω ∈ Ω : |Xn (ω) − X(ω)| < }) = 1


n→∞

61
El concepto de convergencia en probabilidad es esencialmente distinto de la
convergencia determinista, pues (8) sólo afirma que dado > 0, la probabilidad
de que Xn difiera de X en más de es menor que una cantidad tan pequeña
como se quiera, a partir de un n suficientemente grande. En particular, (Xn )
converge en probabilidad a la constante a si
lim P ({ω ∈ Ω : |Xn (ω) − a| ≥ }) = 0
n→∞

Esta convergencia en probabilidad se llama también convergencia estocástica


y se dice que (Xn ) converge estocásticamente a X. Abreviadamente lo
indicaremos por
P
Xn −→ X
Observación 16 1. La convergencia en probabilidad significa que la difer-
encia entre Xn y X es muy probable que sea muy pequeña si n es grande,

om
pero esto no implica que sea pequeña para todo ω de un cierto subconjunto
C de Ω aunque n sea muy grande. En consecuencia, la convergencia en
probabilidad es un concepto más débil que la convergencia casi segura (ver
teorema 37).

.c
2. Indicamos a continuación las principales propiedades de la convergencia
es
en probabilidad:
P P
(a) Si Xn −→ X, entonces Xn − X −→ 0
d
P P
(b) Si Xn −→ X y g es una función continua, entonces g(Xn ) −→ g(X)
en

P P
(c) Si Xn −→ X y Yn −→ Y , y g es una función real continua de las
P
variables x, y, entonces g(Xn , Yn ) −→ g(X, Y ). En particular, se
pr

cumplen
P
Xn ± Yn −→ X ± Y
.a

P
Xn · Yn −→ X · Y
Xn P X P
−→ (Yn −→ Y 6= 0)
w

Yn Y
Con todo esto vemos que las sumas, productos y cocientes de suce-
w

siones de variables aleatorias convergen en probabilidad a las corre-


spondientes sumas, productos y cocientes de los límites en probabili-
w

dad (si existen) de aquellas variables aleatorias.

Convergencia en media cuadrática


Una sucesión de variables aleatorias (Xn ) se dice que converge en media
cuadrática a la variable aleatoria X si E(Xn2 ) y E(X 2 ) son finitos y
£ ¤
lim E (Xn − X)2 = 0
n→∞

Abreviadamente lo indicaremos por


m.c.
Xn −→ X
En general, se dice que (Xn ) converge en media de orden r (r > 0) a X si
E(|Xn |r ) y E(|X|r ) son finitos y
lim E [(Xn − X)r ] = 0
n→∞

62
Convergencia en distribución
Una sucesión de variables aleatorias X1 , X2 , ... con funciones de distribución
F1 , F2 , ... se dice que converge en distribución o en ley a la variable aleatoria
X con función de distribución F si

lim Fn (x) = F (x)


n→∞

en todos los puntos x donde F es continua. Abreviadamente lo indicaremos por


D
Xn −→ X

Relación entre los distintos tipos de convergencia


En este apartado demostraremos que existe una cierta relación entre los difer-

om
entes tipos de convergencia y que podemos resumir en el siguiente diagrama
casi segura en media cuadrática
& .

.c
en probabilidad

es
en distribución

Lema 1 La sucesión de variables aleatorias (Xn ) converge casi seguro a la vari-


d
able aleatoria X si y sólo si
µ ½ ¾¶
en

1
P lim sup ω ∈ Ω : |Xn (ω) − X(ω)| ≥ =0
k
pr

para todo k = 1, 2, 3, ....


Demostración: Supongamos que
µ ½ ¾¶
.a

1
P lim sup ω ∈ Ω : |Xn (ω) − X(ω)| ≥ =0 (9)
k
w

para todo k = 1, 2, 3, .... Consideremos los conjuntos


½ ¾
w

1
Ank = ω ∈ Ω : |Xn (ω) − X(ω)| ≥ (k, n = 1, 2, 3, ...)
k
w

Por la observación 24 podemos escribir


∞ \
[ ∞ [ ∞ ½ ¾ [∞ \∞ [ ∞
1
C= ω ∈ Ω : |Xn (ω) − X(ω)| ≥ = Ank
m=1 n=m
k m=1 n=m
k=1 k=1

De la desigualdad de Boole, obtenemos



à ∞ ∞ !
X \ [
P (C) ≤ P Ank
k=1 m=1 n=m

Ahora bien, por la definición de límite superior de una sucesión de sucesos,


tenemos ∞ [ ∞
\
Ank = lim sup Ank
m=1 n=m

63
y, por tanto,

X
P (C) ≤ P (lim sup Ank )
k=1

y por (9), obtenemos


P (C) = 0
o lo que es equivalente,
P (C) = 1
Por tanto, la sucesión (Xn ) converge casi seguro a X.
Recíprocamente, supongamos que (Xn ) converge casi seguro a X. Observa-
mos en primer lugar que
\ ∞
∞ [ ∞ \
[ ∞ [

lim sup Ank = Ank ⊂ Ank = C

om
m=1 n=m k=1 m=1 n=m

y, por tanto,
P (C) ≥ P (lim sup Ank )

.c
Ahora bien, puesto que (Xn ) converge casi seguro a X, entonces P (C) = 0 y,
como consecuencia, obtenemos
es
µ ½ ¾¶
1
P (lim sup Ank ) = P lim sup ω ∈ Ω : |Xn (ω) − X(ω)| ≥ =0
k
d
en

para todo k = 1, 2, 3, ....

Observación 17 Si (Xn ) es una sucesión de variables mutuamente independi-


entes, entonces se puede demostrar que la condición
pr

µ ½ ¾¶
1
P lim sup ω ∈ Ω : |Xn (ω) − X(ω)| ≥ =0
.a

k
para todo k = 1, 2, 3, ..., es equivalente a la siguiente condición
w

X∞ µ½ ¾¶
1
w

P ω ∈ Ω : |Xn (ω) − X(ω)| ≥ <∞


n=1
k
w

y, como consecuencia, tenemos el siguiente criterio de convergencia casi segura:


si (Xn ) es una sucesión de variables mutuamente independientes, entonces (Xn )
converge casi seguro a X si y sólo si

X
P ({ω ∈ Ω : |Xn (ω) − X(ω)| ≥ }) < ∞
n=1

para cualquier > 0 dado.

Teorema 18 La convergencia casi segura implica la convergencia en probabili-


dad.
Demostración: Supongamos que la sucesión de variables aleatorias (Xn )
converge casi seguro a la variable aleatoria X. Según el lema 1, entonces se
cumple
P (lim sup Ank ) = 0 (10)

64
para todo k = 1, 2, 3, ..., siendo
½ ¾
1
Ank = ω ∈ Ω : |Xn (ω) − X(ω)| ≥
k

De la definición de límite superior de una sucesión de sucesos, tenemos


∞ [
\ ∞
lim sup Ank = Ank
m=1 n=m

pero la sucesión B1k , B2k , ... definida por



[
Bmk = Ank
m=n

om
es decreciente y, por tanto,

\ ∞ [
\ ∞
lim Bmk = Bmk = Ank = lim sup Ank

.c
m→∞
m=1 m=1 n=m
es
De la propiedad de continuidad de la probabilidad, deducimos
³ ´
P (lim sup Ank ) = P lim Bmk = lim P (Bmk ) (11)
d
m→∞ m→∞
en

De la definición de Bmk , vemos que

Bmk = Amk ∪ Am+1k ∪ · · ·


pr

y, por tanto, se cumple


Amk ⊂ Bmk
.a

luego,
P (Amk ) ≤ P (Bmk )
w

Entonces, de (10) y (11), deducimos


w

0 = P (lim sup Ank ) = lim P (Bmk ) ≥ lim P (Amk )


m→∞ m→∞
w

es decir,
lim P (Amk ) ≤ 0
m→∞

pero como las probabilidades no son negativas, obtenemos


µ½ ¾¶
1
lim P (Amk ) = lim P ω ∈ Ω : |Xm (ω) − X(ω)| ≥ =0
m→∞ m→∞ k

para todo k = 1, 2, 3, .... Por consiguiente, la sucesión (Xn ) converge en proba-


bilidad a X.

Observación 18 El recíproco, en general, no es cierto (ver ejemplo 52).

65
Ejemplo 31 Sea (Xn ) una sucesión de variables aleatorias mutuamente inde-
pendientes tales que
½ 1
0 con probabilidad 1 − n+1
Xn = 1
1 con probabilidad n+1

Probar que (Xn ) no converge casi seguramente a X = 0 y, en cambio, (Xn )


converge en probabilidad a 0.
Solución: Según la observación 26, como que para todo > 0 se cumple

X ∞
X 1
P ({ω ∈ Ω : |Xn (ω)| ≥ }) =
n=1 n=1
n + 1

es divergente, al tratarse de la serie armónica, (Xn ) no converge casi seguramente

om
a X = 0. En cambio, para todo > 0 se cumple
1
lim P ({ω ∈ Ω : |Xn (ω)| ≥ }) = lim =0
n→∞ n→∞ n+1

.c
y, por tanto, (Xn ) converge en probabilidad a X = 0.
es
A continuación demostraremos que la convergencia en media cuadrática (si
existe) es también un concepto más fuerte que el de convergencia en probabili-
dad.
d
en

Teorema 19 La convergencia en media cuadrática (si existe) implica la con-


vergencia en probabilidad.
Demostración: Supongamos que la sucesión de variables aleatorias (Xn )
pr

converge en media cuadrática a la variable aleatoria X. Entonces, por la de-


sigualdad de Tchebychev aplicada a la variable Xn − X, tenemos
³ ´
.a

E |Xn − X|2
P (|Xn − X| ≥ ) ≤ 2
w

pero, por hipótesis, se cumple


w

£ ¤
lim E (Xn − X)2 = 0
n→∞
w

y, por tanto,
lim P (|Xn − X| ≥ ) = 0
n→∞

es decir, (Xn ) converge en probabilidad a X.

Observación 19 El recíproco, en general, no es cierto (ver ejemplo 53).

Ejemplo 32 Sea (Xn ) una sucesión de variables aleatorias mutuamente inde-


pendientes tales que
½
0 con probabilidad 1 − n1
Xn =
1 con probabilidad n1

Probar que: (1) (Xn ) converge en probabilidad a 0; (2) (Xn ) no converge casi
seguramente a 0; (3) (Xn ) converge en media cuadrática a 0.

66
Solución: (1) En efecto, es evidente que para todo > 0 se cumple
1
P (|Xn | ≥ ) = P (Xn = 1) =
n
y, por tanto,
1
lim P (|Xn | ≥ ) = lim =0
n→∞ n→∞ n

y, en consecuencia, (Xn ) converge en probabilidad a 0.


(2) En efecto,
X∞ X∞
1
P (|Xn | ≥ ) =
n=1 n=1
n

no es convergente, pues es la serie armónica y, por tanto, (Xn ) no converge casi


seguramente a 0.

om
(3) En efecto,
µ ¶
¡ ¢ 1 1 1
E Xn 2 = 02 · 1 − + 12 · =

.c
n n n
y, por tanto, ¡ ¢
es
lim E Xn 2 = 0
n→∞

es decir, (Xn ) converge en media cuadrática a 0.


d
Obsérvese que con este ejemplo también hemos demostrado que la conver-
en

gencia en media cuadrática no implica la convergencia casi segura. También


se puede ver que la convergencia en media cuadrática no es implicada por la
convergencia casi segura. En efecto, la sucesión (Xn ) de variables aleatorias
pr

mutuamente independientes definida por


½
0 con probabilidad 1 − n12
.a

Xn =
n con probabilidad n12
w

es convergente casi seguro a X = 0, pues para > 0 dado se cumple



X ∞
X X∞
w

1
P (|Xn | ≥ ) = P (Xn = n) = <∞
n=1 n=1 n=1
n2
w

y, en cambio, no converge en media cuadrática, pues


µ ¶
¡ 2¢ 1 1
E Xn = 0 · 1 − 2 + n2 · 2 = 1
2
n n
y, por tanto, ¡ ¢
lim E Xn 2 = 1 6= 0
n→∞

A continuación demostraremos que la convergencia en distribución es un


concepto más débil que el de convergencia en probabilidad.

67
Teorema 20 La convergencia en probabilidad implica la convergencia en dis-
tribución.
Demostración: Supongamos que la sucesión de variables aleatorias (Xn )
converge en probabilidad a la variable aleatoria X. Sean Fn (n = 1, 2, ...) y F
las funciones de distribución de Xn (n = 1, 2, ...) y X. Tenemos

[Xn ≤ x] = [Xn ≤ x, X ≤ y] ∪ [Xn ≤ x, X > y]


⊂ [X ≤ y] ∪ [Xn ≤ x, X > y]

luego,
P (Xn ≤ x) = P (X ≤ y) + P (Xn ≤ x, X > y)
es decir,
Fn (x) = F (y) + P (Xn ≤ x, X > y) (12)

om
Si y > x, entonces

[Xn ≤ x, X > y] ⊂ [|Xn − X| ≥ y − x]

.c
y, por tanto,
P (Xn ≤ x, X > y) ≤ P (|Xn − X| ≥ y − x)
es
De aquí y de (12), obtenemos

Fn (x) = F (y) + P (Xn ≤ x, X > y) ≤ F (y) + P (|Xn − X| ≥ y − x)


d
en

P
pero, por hipótesis, Xn −→ X, entonces

lim P (|Xn − X| ≥ ) = 0
n→∞
pr

para todo > 0. Tomando = y − x > 0, obtenemos


.a

lim Fn (x) ≤ F (x + ) (13)


n→∞
w

Por el mismo razonamiento, pero cambiando X por Xn , tenemos


w

[X ≤ y] = [Xn ≤ x, X ≤ y] ∪ [Xn > x, X ≤ y]


⊂ [Xn ≤ x] ∪ [Xn > x, X ≤ y]
w

luego,
P (X ≤ y) = P (Xn ≤ x) + P (Xn > x, X ≤ y)
es decir,
F (y) = Fn (x) + P (Xn > x, X ≤ y) (14)
Si y < x, entonces

[Xn > x, X ≤ y] ⊂ [|Xn − X| ≥ x − y]

y, por tanto,
P (Xn > x, X ≤ y) ≤ P (|Xn − X| ≥ x − y)
De aquí y de (14), obtenemos

F (y) = Fn (x) + P (Xn > x, X ≤ y) ≤ Fn (x) + P (|Xn − X| ≥ x − y)

68
P
pero, por hipótesis, Xn −→ X, entonces

lim P (|Xn − X| ≥ ) = 0
n→∞

para todo > 0. Tomando = x − y > 0, obtenemos

F (x − ) ≤ lim Fn (x) (15)


n→∞

Por consiguiente, de (13) y (15), obtenemos

F (x − ) ≤ lim Fn (x) ≤ F (x + )
n→∞

Ahora bien, si x es un punto de continuidad de F , entonces

F (x − ) = F (x + ) = F (x)

om
y, por tanto, deducimos
lim Fn (x) = F (x)
n→∞

.c
que es lo que queríamos demostrar. es
Observación 20 El recíproco, en general, no es cierto (ver ejemplo 54).

Ejemplo 33 Sea Y una variable aleatoria definida por


d
½
1 con P (Y = 1) = 1/2
Y =
en

−1 con P (Y = −1) = 1/2

Definimos la sucesión (Xn ) mediante


pr

½
Y si n es par
Xn =
−Y si n es impar
.a

Probar que (Xn ) converge en distribución a Y y, en cambio, no converge en


probabilidad a Y .
w

Solución: Es claro que Xn = ±1 con probabilidad 1/2 en ambos casos. Por


w

tanto, las variables Xn e Y tienen la misma función de distribución y, como


consecuencia,
w

lim Fn (x) = lim F (x) = F (x)


n→∞ n→∞

es decir, (Xn ) converge en distribución a Y . Ahora bien, es claro que


½
0 si n es par
Xn − Y =
−2Y si n es impar

y se cumple
1 1
P (|X2n−1 − Y | ≥ 1) = P (2 |Y | ≥ 1) = P (|Y | ≥ 1/2) = + =1
2 2
para todo n = 1, 2, 3, ..., y, por tanto,

lim P (|X2n−1 − Y | ≥ 1) = 1 6= 0
n→∞

y, en consecuencia, (Xn ) no converge en probabilidad a Y .

69
No obstante, si una sucesión de variables aleatorias converge en distribución
a una constante no aleatoria, entonces el siguiente teorema prueba que la con-
vergencia en distribución implica la convergencia en probabilidad a la constante.

Teorema 21 Sea (Xn ) una sucesión de variables aleatorias que converge en


distribución a una constante c no aleatoria. Entonces, (Xn ) también converge
en probabilidad a c.
Demostración: Si (Xn ) converge en distribución a c, entonces

lim Fn (x) = F (x) = c


n→∞

y, por tanto, ½
0 si x ≤ c
F (x) =
1 si x > c

om
De este modo, para > 0 tenemos

P (|Xn − c| > ) = P (Xn < c − ) + P (Xn > c + )

.c
= Fn (c − ) + 1 − Fn (c + )

luego,
es
lim P (|Xn − c| > ) = F (c − ) + 1 − F (c + ) = 0 + 1 − 1 = 0
n→∞
d

y, por tanto, (Xn ) también converge en probabilidad a c.


en

En la mayor parte de las aplicaciones, el criterio de convergencia en distribu-


ción no se utiliza en términos de las funciones de distribución Fn , sino a través
pr

de las funciones características. Enunciamos sin demostración el teorema de


Glivenko que permite hacer esto.
.a

Teorema 22 (Teorema de Glivenko) Sea X1 , X2 , ... una sucesión de vari-


ables aleatorias con funciones características ϕ1 , ϕ2 , ..., entonces (Xn ) converge
w

en distribución a la variable aleatoria X si y sólo si


w

lim ϕn (t) = ϕ(t)


n→∞
w

para todo t ∈ R, siendo ϕ la función característica de X.

Observación 21 El siguiente resultado, debido a Lévy-Cramer, nos permite


estudiar la convergencia en probabilidad utilizando las funciones características:
sea (Xn ) una sucesión de variables aleatorias con funciones de distribución Fn
y característica ϕn , entonces (Xn ) converge a X en probabilidad si y sólo si

lim ϕn (t) = ϕ(t)


n→∞

y ϕ es continua en t = 0, siendo ϕ la función característica de X.

70
Las leyes de los grandes números
Sea (Xn ) una sucesión de variables aleatorias definidas sobre un mismo espacio
de probabilidades (Ω, A, P ). Consideremos la sucesión de sumas parciales (Sn )
definida por
Xn
Sn = Xk
k=1
El nombre genérico de "leyes de los grandes números" hace referencia a un con-
junto de teoremas que tratan sobre el comportamiento asintótico de (Sn ) cuando
n tiende a infinito. El problema general consiste en encontrar las condiciones
que aseguren la existencia de límites de la forma
µ ¶
Sn − an
lim
n→∞ bn

om
siendo (an ) y (bn ) sucesiones (no aleatorias) de números reales.

Ley débil de los grandes números

.c
Se dice que una sucesión (Xn ) de variables aleatorias satisface una ley débil
de los grandes números si existen sucesiones numéricas (an ) y (bn ) tales que
es
Sn −an P
bn −→ 0
d
Una condición suficiente para que una sucesión satisfaga la ley débil de los
en

grandes números viene dada por el siguiente teorema.


Teorema 23 (Ley débil de los grandes números de Tchebychev) Sea
(Xn ) una sucesión de variables aleatorias mutuamente independientes que tienen
pr

varianzas finitas y acotadas por una misma constante α


h i
.a

σ 2n = E (Xn − E(Xn ))2 ≤ α

para todo n ∈ N, entonces


w

Sn −E(Sn ) P
−→ 0
w

n
Sn −E(Sn )
Demostración: Por la desigualdad de Tchebichev aplicada a n
w

obtenemos ³ ´
¯ ¯ E |S − E(S )|
2
¯ Sn − E(Sn ) ¯ n n
P (¯¯ ¯≥ )≤
¯
n n2 2
para todo > 0. Ahora bien, como las variables aleatorias Xn (n = 1, 2, 3, ...)
son mutuamente independientes, se cumple
³ ´
2
E (Sn − E(Sn )) = V ar(Sn )
à n !
X
= V ar Xk
k=1
n
X
= V ar(Xk )
k=1
≤ nα

71
Por tanto,
³ ´
¯ ¯ E |Sn − E(Sn )|
2
¯ Sn − E(Sn ) ¯ α
P (¯¯ ¯≥ )≤
¯ 2 2
≤ 2
n n n

y, en consecuencia, ¯ ¯
¯ Sn − E(Sn ) ¯
lim P (¯¯ ¯≥ )=0
¯
n→∞ n
para todo > 0.

Corolario 3 (Ley clásica de los grandes números de Bernoulli) Sea


(Xn ) una sucesión de variables aleatorias mutuamente independientes que tienen
la misma esperanza

om
E(Xn ) = µ (n = 1, 2, 3, ...)
y varianzas finitas y acotadas por una misma constante

σ2n ≤ α

para todo n ∈ N. Entonces


.c
es
X1 +X2 +···+Xn P
n −→ µ
d
Demostración: Es claro que
à n !
en

X n
X
E(Sn ) = E Xk = E(Xk ) = nµ
k=1 k=1
pr

Entonces, por el teorema 42, la sucesión


.a

Sn − nµ X1 + X2 + · · · + Xn
= −µ
n n
w

converge en probabilidad a 0. Por tanto,


w

X1 + X2 + · · · + Xn
n
w

converge en probabilidad a µ.

Observación 22 1. El significado empírico de esta ley es el siguiente: dadas


n observaciones independientes x1 , x2 , ..., xn de una variable aleatoria X,
la media de esta muestra
n
1X
x= xk
n
k=1

se aproxima al valor medio de X a medida que crece n.


2. De la ley clásica de los grandes números se deduce la llamada primera
ley empírica del azar: dado un suceso de probabilidad p, en una serie de
pruebas de un experimento aleatorio, la frecuencia relativa se aproxima a
p. En efecto, sea Nn el número de veces que sale un determinado resultado

72
A en n pruebas independientes de un experimento aleatorio. La frecuencia
relativa de A en las n pruebas es
Nn
fn (A) =
n
Ahora bien, podemos escribir Nn en la forma

Nn = X1 + X2 + · · · + Xn

donde las Xk son variables aleatorias independientes que sólo pueden tomar
los valores 1 o 0 según ocurra o no ocurra A. Si además suponemos que
la probabilidad de que ocurra A es la misma en todas las pruebas, tenemos
½
1 con P (Xk = 1) = p
Xk =

om
0 con P (Xk = 0) = 1 − p

siendo p = P (A). Por tanto, en este caso tenemos

.c
µ = E(Xk ) = 1 · p + 0 · (1 − p) = p
es
y entonces, aplicando la ley clásica de los grandes números, obtenemos
P
fn (A) −→ p = P (A)
d

A continuación enunciamos el teorema de Khintchine sin hacer la demostración.


en

Teorema 24 (Ley débil de los grandes números de Khintchine) Si (Xn )


es una sucesión de variables aleatorias mutuamente independientes, idéntica-
pr

mente distribuidas y con esperanza finita. Entonces


X1 +X2 +···+Xn P
−→ µ
.a

siendo µ = E(Xn ).
w

Observación 23 Son consecuencias de la ley débil de los grandes números de


w

Khintchine, en el caso de que los momentos correspondientes existan


w

1. n
1X k P
X −→ E(Xnk )
n i=1 i

2. n
1X P
(Xi − E(Xi ))2 −→ V ar(Xn )
n i=1

En general, cualquier parámetro que sea función de los momentos (coefi-


ciente de correlación, covarianza, asimetría, curtosis) puede aproximarse por el
correspondiente parámetro muestral si el número de observaciones n es grande.

73
Ley fuerte de los grandes números
Se dice que una sucesión (Xn ) de variables aleatorias satisface una ley fuerte
de los grandes números si existen sucesiones numéricas (an ) y (bn ) tales que
Sn −an c.s.
bn −→ 0

Únicamente enunciaremos sin demostración los teoremas de Borel y de Kol-


mogorov que dan condiciones suficientes para que una sucesión (Xn ) satisfaga
la ley fuerte de los grandes números.
Teorema 25 (Ley fuerte de los grandes números de Borel) Sea (Xn )
una sucesión de variables aleatorias mutuamente independientes que tienen la
misma esperanza
E(Xn ) = µ (n = 1, 2, 3, ...)

om
y momentos centrales finitos y acotados hasta el orden cuatro
E (|Xn − µ|r ) ≤ αr (0 < r ≤ 4)
para todo n ∈ N. Entonces

.c
X1 +X2 +···+Xn c.s.
n −→ µ
es
Observación 24 En la observación 30 hemos visto la ley clásica de los grandes
números según la cual dado un suceso de probabilidad p, en una serie de pruebas
de un experimento aleatorio, la frecuencia relativa se aproxima a p. Ahora,
d

según la ley fuerte de los grandes números de Borel, la frecuencia relativa de un


en

suceso de probabilidad p converge casi seguro a p. Por tanto, la convergencia es


más fuerte que la que se desprende de la ley más débil.
pr

Teorema 26 (Ley fuerte de los grandes números de Kolgomorov) Sea


(Xn ) una sucesión de variables aleatorias mutuamente independientes con vari-
anzas σ 2n finitas, y sea (bn ) una sucesión divergente de números reales positivos
.a

tales que
X∞
σ 2n
<∞
w

b2
n=1 n
w

entonces la sucesión (Xn ) sigue la ley fuerte de los grandes números


Sn −E(Sn ) c.s.
−→ 0
w

bn

En particular, si
X∞
σ 2n
<∞
n=1
n2
entonces
Sn −E(Sn ) c.s.
n −→ 0
Teorema 27 (Teorema de Kolgomorov) La condición necesaria y suficiente
para que una sucesión (Xn ) de variables aleatorias independientes e idéntica-
mente distribuidas cumpla la siguiente ley fuerte
X1 +X2 +···+Xn c.s.
n −→ µ
siendo µ = E(Xn ) (n = 1, 2, 3, ...), es que
E(|Xn |) < ∞

74
Observación 25 Si las variables aleatorias Xn son idénticamente distribuidas,
es decir, todas tienen la misma función de distribución, entonces desaparece la
restricción de que las varianzas sean finitas.

Ejemplo 34 Sea (Xn ) una sucesión de variables aleatorias absolutamente con-


tinuas, independientes e idénticamente distribuidas. Comprobar si la sucesión
satisface la ley fuerte de los grandes números en los casos siguientes: (1) la
función de densidad de Xn es

fn (x) = e−|x| (n = 1, 2, 3, ...)

para todo x ∈ R, y (2) la función de densidad de Xn es


e
fn (x) =
x2 ln x

om
para todo x ∈ (e, +∞) y se anula en cualquier otro caso.
Solución: Según el teorema de Kolgomorov, en ambos casos hemos de com-
probar que Z

.c
+∞
E(|Xn |) = |x| · fn (x) dx < ∞
−∞
es
para que la sucesión satisfaga la ley fuerte de los grandes números.
(1) En este caso tenemos
d
Z +∞ Z +∞
en

E(|Xn |) = |x| · e−|x| dx = 2 xe−x dx = 2


−∞ 0

y, por tanto, la sucesión satisface la ley fuerte de los grandes números. Además,
pr

como Z +∞
µ = E(Xn ) = x · e−|x| dx = 0
.a

−∞

entonces
X1 + X2 + · · · + Xn c.s.
w

−→ 0
n
w

(2) En este caso tenemos


Z
w

+∞
e
E(|Xn |) = |x| · dx
e x2 ln x
Z +∞
1
= e dx = ∞
e x ln x

y, por tanto, la sucesión no satisface la ley fuerte de los grandes números.

Aplicaciones al análisis matemático. El método Monte Carlo


Aplicaciones al análisis matemático
Teorema 28 Sea (Xn ) una sucesión de variables aleatorias, independientes e
idénticamente distribuidas, con esperanza µ = E(Xn ) que satisface una ley de
los grandes números
X1 +X2 +···+Xn
n −→ µ

75
y sea f cualquier función continua y acotada en R, entonces
· µ ¶¸
X1 + X2 + · · · + Xn
E f −→ f (µ)
n
Demostración: Sea Sn = X1 + X2 + · · · + Xn , entonces por ser f una
función continua y acotada, tenemos
µ ¶ µ ¶
Sn Sn
lim f = f lim
n→∞ n n→∞ n

pero, por hipótesis,


Sn
−→ µ
n
luego, µ ¶

om
Sn
f −→ f (µ)
n
y, por tanto, · µ ¶¸
Sn

.c
E f −→ f (µ)
n
es
Mediante este teorema de naturaleza totalmente probabilística puede demostrarse
d
algunos resultados clásicos del análisis matemático. A continuación, a modo de
ejemplo, damos uno de estos resultados.
en

Ejemplo 35 (Teorema de aproximación de Weierstrass) Cualquier fun-


ción continua y acotada f en el intervalo [0, 1] puede aproximarse uniforme-
pr

mente en dicho intervalo por una sucesión de funciones polinómicas.


Solución: Consideremos una sucesión de variables aleatorias (Xn ), inde-
.a

pendientes y con distribución de Bernoulli, es decir, tales que


½
1 con probabilidad p
w

Xn =
0 con probabilidad 1 − p
w

para todo n ∈ N. Por tanto,


w

µ = E(Xn ) = p (n = 1, 2, 3, ...)

En este caso, la función de distribución de


n
X
Sn = Xi
i=1

es del tipo binomial de parámetros n y p, es decir,


µ ¶
n k
P (Sn = k) = p (1 − p)n−k (k = 0, 1, 2, ..., n)
k
Por tanto, obtenemos
· µ ¶¸ Xn µ ¶ µ ¶
X1 + X2 + · · · + Xn k n k
E f = f · p (1 − p)n−k
n n k
k=0

76
pero si f es continua y acotada en [0, 1], por el teorema 47, deducimos
· µ ¶¸
X1 + X2 + · · · + Xn
lim E f = f (µ) = f (p)
n→∞ n

Si hacemos p = x y tenemos en cuenta que 0 ≤ p ≤ 1, entonces


" n µ ¶ µ ¶ #
X k n k
lim f · x (1 − x)n−k = f (x)
n→∞ n k
k=0

para todo x ∈ [0, 1]. Observemos que las funciones


n
X µ ¶ µ ¶
k n k
Pn (x) = f · x (1 − x)n−k
n k

om
k=0

son polinomios de grado n. Por lo tanto, obtenemos

lim Pn (x) = f (x)

.c
n→∞

en el intervalo [0, 1]. Ahora se puede demostrar que la convergencia es uniforme.


es
Otra aplicación de las leyes de los grandes números consiste en una técnica
d
de gran utilidad en el cálculo numérico de integrales definidas en el intervalo
en

[0, 1]. Esta técnica es conocida como el método Monte Carlo.

El método Monte Carlo


pr

Sea f : [0, 1] → [0, 1] una función continua. Consideremos dos sucesiones


de variables aleatorias (Xn ) y (Yn ) absolutamente continuas e independientes,
.a

distribuidas uniformemente sobre el intervalo [0, 1], es decir, con función de


densidad
w

½ ½
1 si x ∈ [0, 1] 1 si y ∈ [0, 1]
fXn (x) = y fYn (y) =
0 si x ∈/ [0, 1] 0 si y ∈/ [0, 1]
w

Definimos otra sucesión (Zn ) mediante


w

½
1 si f (Xn ) > Yn
Zn = (n = 1, 2, 3, ...)
0 si f (Xn ) < Yn

Es claro que

E(Zn ) = 1 · P (Zn = 1) + 0 · P (Zn = 0)


= P (Zn = 1)
= P (f (Xn ) > Yn )

pero, al ser Xn e Yn independientes y distribuidas uniformente sobre [0, 1], la


función de densidad conjunta es
½
1 si x, y ∈ [0, 1]
fXn Yn (x, y) = fXn (x) · fYn (y) =
0 si x, y ∈
/ [0, 1]

77
Por tanto,
Z 1 Z f (x) Z 1
P (f (Xn ) > Yn ) = 1 dx dy = f (x) dx
0 0 0

Entonces, por la ley fuerte de los grandes números, obtenemos


n Z 1
1X c.s.
Zk −→ µ = E(Zn ) = f (x) dx
n 0
k=1

es decir, Ã !
Z n
1
1X
f (x) dx = lim Zk
0 n→∞ n
k=1

om
El teorema del límite central
Las leyes de los grandes números son resultados sobre convergencia en proba-
bilidad y convergencia casi segura de sucesiones del tipo

.c
Sn − an
(16)
es
bn
hacia cero, con
n
X
d
Sn = Xk
en

k=1

La pregunta que se plantea de forma inmediata es en qué condiciones (16)


coverge en distribución hacia una variable aleatoria. La respuesta a esta cuestión
pr

se conoce genéricamente como el teorema del límite central. Como veremos en


este apartado el teorema de límite central no es más que un conjunto de teoremas
.a

que responden al problema planteado.


En general, aquí diremos que una sucesión de variables aleatorias (Xn ) in-
dependientes satisface el teorema central del límite si existen dos sucesiones
w

de números reales (no aleatorios) tales que la variable aleatoria suma Sn cumple
w

Sn − an D
−→ Z
bn
w

siendo Z una variable aleatoria con distribución normal estándar, es decir, la de


parámetros µ = 0 y σ = 1; desde ahora escribiremos Z ∼ N (0, 1) para indicar
que Z tiene una distribución normal estándar.

Teorema 29 (Teorema de Lévy-Lindeberg) Sea (Xn ) una sucesión de vari-


ables aleatorias independientes e idénticamente distribuidas, con esperanza µ y
varianza σ 2 finita. Entonces
Sn − nµ D
√ −→ Z ∼ N (0, 1)
σ n
Demostración: Sea Yn = Xn − µ (n = 1, 2, 3, ...). Es claro que las Yn son
variables aleatorias independientes con

E(Yn ) = 0 y E(Yn2 ) = σ 2 (n = 1, 2, 3, ...)

78
Consideremos ahora las variables aleatorias
n
1 X Sn − nµ
Zn = √ Yi = √
σ n i=1 σ n

Primero vamos a demostrar que la función característica de Zn tiende a la


función característica de la distribución normal estándar
2
ϕ(t) = e−t /2

En efecto, si ϕn es la función característica de Zn , entonces por definición ten-


emos

ϕn (t) = E(eitZn )
" Ã !#

om
n
it X
= E exp √ Yi
σ n i=1

Ahora bien, de la independencia de las variables Yn , obtenemos

.c
·
n
Y µ ¶¸
itYi
es
ϕn (t) = E exp √
i=1
σ n
Yn µ ¶
t
d
= ϕYi √
i=1
σ n
en

Ahora bien, las variables Yn están idénticamente distribuidas y, por tanto, todas
ellas tienen la misma función característica ϕ. Así, tenemos
pr

· µ ¶¸n
t
ϕn (t) = ϕ √ (17)
σ n
.a

Desarrollando ahora ϕ en serie de Taylor en t = 0, obtenemos


w

µ ¶ µ ¶
t t t2 1
ϕ √ = ϕ(0) + √ ϕ0 (0) + 2 ϕ00 (0) + O
w

σ n σ n 2σ n n3/2
w

en donde el símbolo µ ¶
1
O
n3/2
indica que el resto de los términos de la serie son infinitésimos de orden igual o
superior a 1/n3/2 cuando n tiende a infinito. De las propiedades de la función
característica (ver los teoremas 29 y 31), obtenemos

ϕ(0) = 1, ϕ0 (0) = iE(Yn ) = 0, ϕ00 (0) = i2 E(Yn2 ) = −σ 2

Así, tenemos µ ¶ µ ¶
t t2 1
ϕ √ =1− +O
σ n 2n n3/2

79
Por tanto, de (17), tenemos
· µ ¶¸n
t
lim ϕn (t) = lim ϕ √
n→∞ n→∞ σ n
· µ ¶¸n
t2 1
= lim 1 − +O
n→∞ 2n n3/2
· 2 n
¸
t
= lim 1 −
n→∞ 2n
2
= e−t /2

es decir, la función característica de


Sn − nµ
Zn = √

om
σ n

tiende a la función característica de la distribución normal estándar y, en conse-


cuencia, por el teorema de Glivenko (ver teorema 41), obtenemos que la función

.c
de distribución de Zn también tenderá a la función de distribución normal es-
tándar.
es
Observación 26 En la práctica, podemos hacer la aproximación

d
Sn = X1 + X2 + · · · + Xn ≈ N (nµ, σ n)
en

es decir, la distribución de la variable suma √


Sn se puede aproximar por una
normal de parámetros µ = nE(Xn ) y σ = σ Xn n, siempre que las variables Xn
sean independientes, idénticamente distribuidas y n sea suficientemente grande.
pr

Ejemplo 36 Sea (Xn ) una sucesión de variables aleatorias de Poisson de parámetro


.a

λ = 2 e independientes. Definimos las variables aleatorias


n
X
w

Yn = Xn (n = 1, 2, 3, ...)
k=1
w

Calcular P (90 < Y50 < 110).


Solución: Observamos primero que
w

µ = E(Xn )

X
= n · P (Xn = n)
n=0
X∞
2n
= n · e−2
n=0
n!

X 2n
= e−2
n=1
(n − 1)!
X∞
−2 2n−1
= 2e
n=1
(n − 1)!
= 2e−2 · e2 = 2

80
y como

X
E(Xn2 ) = n2 · P (Xn = n)
n=0
X∞
2n
= n2 · e−2
n=0
n!

X n2n
= e−2
n=1
(n − 1)!
X∞
n2n−1
= 2e−2
n=1
(n − 1)!
∞ µ
X (n − 1)2n−1 ¶
2n−1
= 2e−2 +

om
n=1
(n − 1)! (n − 1)!
X∞ X∞
2 −2 2n−2 −2 2n−1
= 2 e + 2e
(n − 2)! (n − 1)!

.c
n=2 n=1
= 4e−2 · e2 + 2e−2 · e2 = 6
es
tenemos
2
V ar(Xn ) = E(Xn2 ) − (E(Xn )) = 6 − 4 = 2
d
Aplicando el teorema de Lévy-Lindeberg, obtenemos
en

Yn − 2n D
√ −→ Z ∼ N (0, 1)
2n
pr

y, por tanto, la variable aleatoria


Y50 − 100
Z= ∼ N (0, 1)
.a

10
se distribuye aproximadamente como una normal estándar. Como consecuencia,
w

obtenemos
µ ¶
90 − 100 Y50 − 100 110 − 100
w

P (90 < Y50 < 110) = P < <


10 10 10
= P (−1 < Z < 1)
w

= 0.8413 − 0.1587
= 0.6826

Corolario 4 (Teorema de De Moivre-Laplace) Sea (Xn ) una sucesión de


variables aleatorias independientes e identicamente distribuidas, con distribu-
ción de Bernouilli de parámetro p. Entonces
Sn − np D
√ −→ Z ∼ N (0, 1) (q = 1 − p)
npq
Demostración: Tenemos
½
1 con probabilidad p
Xn = (n = 1, 2, 3, ...)
0 con probabilidad 1 − p

81
Entonces,
p p p √
µ = E(Xn ) = p y σ= V ar(Xn ) = p − p2 = p(1 − p) = pq
siendo q = 1 − p. Por el teorema de Lévy-Lindeberg,
Sn − np D
√ −→ Z ∼ N (0, 1)
npq

Observación 27 Si las Xn son independientes e idénticamente distribuidas,


con distribución de Bernouilli de parámetro p, entonces
n
X
Sn = Xk
k=1

om
se distribuye como una binomial de parámetros n y p, el teorema de De Moivre-
Laplace también establece que

Sn = X1 + X2 + · · · + Xn ≈ N (np, npq)

.c
es decir, podemos aproximar la distribución binomial de parámetros n y p por

una normal de parámetros µ = np y σ = npq, siempre que n sea suficiente-
es
mente grande.
Ejemplo 37 Se lanza 1000 veces una moneda perfecta. Si sale cara en la prueba
d
k-ésima hacemos Xk = 1 y si sale cruz, Xk = 0. Calcular
à !
en

1000
X
P 500 < Xk < 550
k=1
pr

Solución: Al tratarse de variables aleatorias de Bernoulli de parámetro


p = 1/2 e independientes, podemos aplicar el teorema de De Moivre-Laplace
.a

Sn − np D
√ −→ Z ∼ N (0, 1) (q = 1 − p)
npq
w

siendo n
X
w

Sn = Xk
k=1
w

y, por tanto, la variable aleatoria


S1000 − 500
Z= √ ∼ N (0, 1)
250
se distribuye aproximadamente como una normal estándar. Como consecuencia,
obtenemos
à 1000
!
X
P 500 < Xk < 550 = P (500 < S1000 < 550)
k=1
µ ¶
500 − 500 550 − 500
= P √ <Z< √
250 250
= P (0 < Z < 3.16)
= 0.4992

82
El teorema 48 es una versión del teorema del límite central. Otra versión,
menos restrictiva, viene dada por el teorema de Liapunov. En concreto, este teo-
rema no exige que las variables aleatorias de la sucesión dada sean idénticamente
distribuidas. Enunciaremos este teorema sin hacer la demostración.

Teorema 30 (Teorema de Liapunov) Sea (Xn ) una sucesión de variables £ ¤


aleatorias independientes con esperanzas µ = E(Xn ) y varianzas σ 2n = E (Xn − µn )2
finitas para todo n = 1, 2, 3, .... Si se cumple

1 X h i
n
3
lim 3 E |Xk − µk | = 0
n→∞ σ
Sn k=1

siendo n
X
Sn = Xk

om
k=1
y
n
X
σ 2Sn = σ 2k

.c
k=1
entonces
es
Sn − E(Sn ) D
p −→ Z ∼ N (0, 1)
V ar(Sn )
d
Observación 28 Este resultado es fundamental para la gran mayoría de apli-
caciones prácticas. Por ejemplo, gracias a este resultado podemos suponer que
en

muchas variables aleatorias como pesos, alturas, etc. siguen una distribución
normal, porque cada una de ellas es suma de un gran número de variables aleato-
rias independientes. Así la altura de una persona es suma de muchos factores:
pr

hereditario, alimentación, tipo de vida, etc. Los errores, llamados aleatorios,


que se presentan en observaciones astronómicas, pesadas de una balanza, etc.
.a

y, en general, en la mayoría de las medidas con algún aparato, son la suma de


un número elevado de errores elementales independientes: corrientes de aire, vi-
w

braciones, error de apreciación, etc. Por tal motivo los errores aleatorios siguen
también una distribución normal.
w

Rapidez en la convergencia. Teorema de Poisson


w

Consideremos una sucesión de variables aleatorias (Xn ) que satisface el teorema


del límite central, es decir, se dan las condiciones suficientes para que
Sn − E(Sn ) D
p −→ Z ∼ N (0, 1)
V ar(Sn )
Una cuestión que se plantea de forma natural es la de saber con qué rapidez la
función de distribución Fn de la variable aleatoria
Sn − E(Sn )
p
V ar(Sn )
tiende a la función de distribución normal estándar
Z x
1 2
Φ(x) = √ e−t /2 dt
2π −∞

83
La respuesta a esta pregunta tiene implicaciones muy importantes en la práctica,
pues, si la convergencia es rápida, entonces podremos aproximar Fn por Φ para
valores de n relativamente pequeños, mientras que si la convergencia es lenta,
la aproximación de Fn por Φ sólo se podrá hacer para valores grandes o muy
grandes de n. En muchos casos la situación es de este modo como se pone de
manifiesto en el siguiente teorema que damos sin demostración.

Teorema 31 (Teorema de Berry-Essen) Sea (Xn ) una sucesión de vari-


2
ables
£ aleatorias ¤ independientes con esperanzas µ = E(Xn ) y varianzas σ n =
2
E (Xn − µn ) finitas para todo n = 1, 2, 3, ..., que satisface el teorema del
límite central. Sea Fn la función de distribución de la variable aleatoria
Sn − E(Sn )
p
V ar(Sn )

om
y sea Φ la función de distribución normal estándar
Z x
1 2
Φ(x) = √ e−t /2 dt
2π −∞
Entonces, se cumple
.c
es
cγ n
|Fn (x) − Φ(x)| ≤ (18)
σ 3Sn
para todo x ∈ R y n ∈ N, siendo c es una constante tal que
d
en

1
c≥ √

n
X
pr

σ 2Sn = σ 2k
k=1
.a

y
n
X h i
γn = E |Xk − µk |3
w

k=1
w

Observación 29 Si las variables aleatorias Xn están idénticamente distribuidas,


entonces
σ2Sn = nσ 2 y γ n = nγ
w

y, como consecuencia, la condición (18) se escribe ahora como sigue



|Fn (x) − Φ(x)| ≤ √
σ3 n

De aquí, al ser muy lenta la convergencia de 1/ n a cero, vemos que, en general,
Fn converge lentamente a Φ. Además, si σ es pequeña, la convergencia es aún
más lenta.
Por ejemplo, para variables aleatorias de Bernoulli con
½
1 con probabilidad p
Xn = (n = 1, 2, 3, ...)
0 con probabilidad 1 − p
tenemos
µ=p σ 2 = pq γ = pq(p2 + q 2 )

84
siendo q = 1 − p. En este caso (18) se expresa como sigue

c(p2 + q 2 )
|Fn (x) − Φ(x)| ≤ √
npq

Por tanto, la aproximación de Fn por Φ es bastante pobre para valores de p


próximos a 0 o 1, incluso si n es grande. Sin embargo, el problema de la conver-
gencia a la distribución normal estándar para sumas de variables de Bernoulli
queda resuelto por el teorema de Poisson, cuando p está próximo a 0 o 1.

El siguiente teorema probará que la distribución de Poisson puede obetenerse


como límite de una distribución binomial.

Teorema 32 (Teorema de Poisson) Supongamos que para cada n ≥ 1 ten-


emos una sucesión de variables aleatorias de Bernoulli Xn1 , Xn2 , ..., Xnn con

om
½
1 con probabilidad pn
Xnk = (k = 1, 2, ...n)
0 con probabilidad 1 − pn

.c
Dicho de otro modo, tenemos una sucesión bidimensional de variable aleatorias
de Bernoulli
es
X11
X21 , X22
X31 , X32 , X33
d

···
en

Xn1 , Xn2 , Xn3 , ..., Xnn


···
Sea
pr

n
X
Sn = Xnk
.a

k=1

Si
lim pn = 0
w

n→∞

de manera que
w

lim npn = λ > 0


n→∞
w

entonces
e−λ λk
lim P (Sn = k) = (k = 0, 1, 2, ...)
n→∞ k!
es decir, la distribución de la variable suma Sn tiende a una distribución de
Poisson.
Demostración: Al ser las variables aleatorias Xnk independientes, la fun-
ción característica ϕn de Sn se escribe como sigue
n
Y ¡ ¢
ϕn (t) = E eitXnk
k=1

Ahora bien, es claro que


¡ ¢
E eitXnk = e0 P (Xnk = 0) + eit P (Xnk = 1) = 1 − pn + eit pn = 1 + pn (eit − 1)

85
para k = 1, 2, ..., n. Por tanto, obtenemos
£ ¤n
ϕn (t) = 1 + pn (eit − 1) (19)

Si
lim pn = 0
n→∞

de manera que
lim npn = λ > 0
n→∞

entonces podemos escribir


µ ¶
λ 1
pn = + O
n n2

om
luego, de (19), obtenemos
· µ ¶¸n
λ it 1
ϕn (t) = 1 + (e − 1) + O
n n2

.c
y, en consecuencia, £ ¤
es
lim ϕn (t) = exp λ(eit − 1)
n→∞

que es la función característica de la distribución de Poisson de parámetro λ.


d
De este modo, por el teorema de Glivenko (ver teorema 41), deducimos
en

e−λ λk
lim P (Sn = k) = (k = 0, 1, 2, ...)
n→∞ k!
pr

que es lo que queríamos demostrar.

Observación 30 Para sumas


.a

n
X
Sn = Xk
w

k=1
w

de variables aleatorias de Bernoulli, independientes y con P (Xn = 1) = p (n =


1, 2, 3, ...), es decir, para una distribución binomial de parámetros n y p, son
w

posibles dos distribuciones límite. Por un lado, según el teorema de De Moivre-


Laplace, tenemos la distribución normal estándar
Sn − np D
√ −→ Z ∼ N (0, 1) (q = 1 − p)
npq

aproximación que funciona bien cuando p no está próximo a 0 o 1 y n es sufi-


cientemente grande. Por otro lado, según este teorema, tenemos la distribución
de Poisson
e−λ λk
lim P (Sn = k) = (k = 0, 1, 2, ...)
n→∞ k!
aproximación que funciona bien cuando p está próximo a 0 o 1 aunque sea n
grande. No obstante, si λ es suficientemente grande, la distribución de Poisson
puede aproximarse a la distribución normal estándar (ver teorema 52).

86
Teorema 33 Sea X una variable aleatoria de Poisson con parámetro λ y con-
sideremos la siguiente variable aleatoria
X −λ
Yλ = √
λ
Entonces, cuando λ tiende a infinito, la distribución de Yλ tiende a la distribu-
ción normal estándar.
Demostración: Por las propiedades de la función característica, obtenemos
la función característica de Yλ
µ ¶
¡ ¢ √ t
ϕλ (t) = E eitYλ = e−it λ ϕX √
λ
donde ϕX es la función característica de X, es decir,

om
£ ¤
ϕX (t) = exp λ(eit − 1)

Por tanto,
µ ¶ h √ i

.c
√ t √
ϕλ (t) = e−itλ
ϕX √ = exp −it λ + λ(eit/ λ − 1)
λ
es
√ √
Si λ tiende a infinito, podemos desarrollar eit/ λ
en serie de potencias de 1/ λ
µ ¶
d
√ it t2 1
eit/ λ
=1+ √ − +O
λ 2λ λ3/2
en

y, por tanto, obtenemos


h √ i · 2 µ ¶¸
pr

√ t 1
ϕλ (t) = exp −it λ + λ(eit/ λ − 1) = exp − + O
2 λ1/2
.a

y, en consecuencia, tenemos
2
lim ϕλ (t) = e−t /2
w

n→∞

que es la función característica de la distribución normal estándar. De este


w

modo, por el teorema de Glivenko (ver teorema 41), deducimos que cuando λ
w

tiende a infinito, la distribución de Yλ tiende a la distribución normal estándar.

Corrección de continuidad
En las aplicaciones prácticas, para aproximar una distribución discreta, como
lo son la binomial y la de Poisson, a una distribución normal estándar que es
absolutamente continua, hay que utilizar la corrección de continuidad.
Como consecuencia del teorema de De Moivre-Laplace, para n grande, la
distribución binomial de parámetros n y p puede considerarse
p aproximadamente
una distribución normal de parámetros µ = np y σ = np(1 − p). Así, si X es
un variable aleatoria binomial de parámetros n y p, cuya función de distribución
es
[x] µ ¶
X n k
F (x) = p (1 − p)n−k
k
k=0

87
Entonces, la fórmula de la aproximación con corrección de continuidad de la
binomial a la normal estándar es
b µ ¶
X n k
P (a ≤ X ≤ b) = p (1 − p)n−k = P (a − 0.5 ≤ X ≤ b + 0.5)
k
k=a
Z b0
1 2
' √ e−t /2 dt = Φ(b0 ) − Φ(a0 )
2π a0
para cualquier pareja de enteros no negativos a y b (b > a), siendo

a − np − 0.5 b − np + 0.5
a0 = p y b0 = p
np(1 − p) np(1 − p)

En general, la aproximación es suficiente si n ≥ 30 y 0.1 < p < 0.9. Si 0.1 ≥

om
p ≥ 0.9 o n < 30, la aproximación es aceptable si np > 5. Si p ' 0.5, la
proximación sigue siendo válida si np > 3, incluso para valores muy moderados
de n. Si n ≥ 30, 0.1 ≥ p ≥ 0.9 y np ≤ 5, la binomial puede aproximarse a

.c
una distribución de Poisson de parámetro λ = np por el teorema de Poisson.
Finalmente, si n < 30 y np ≤ 5, la binomial debe calcularse directamente como
es
una binomial, utilizando las tablas.
En el teorema 52 hemos demostrado que la distribución de Poisson √ puede
aproximarse por la distribución normal de parámetros µ = λ y σ = λ, si
d
el parámetro λ es suficientemente grande. En la práctica, la aproximación se
considera aceptable si λ > 5, mejorando a medida que aumenta λ. La fórmula
en

de la aproximación con corrección de continuidad es


b
X λk
pr

P (a ≤ X ≤ b) = e−λ = P (a − 0.5 ≤ X ≤ b + 0.5)


k!
k=a
Z
.a

b0
1 2
' √ e−t /2
dt = Φ(b0 ) − Φ(a0 )
2π a0
w

para cualquier pareja de enteros no negativos a y b (b > a), siendo


w

a − λ − 0.5 b − λ + 0.5
a0 = √ y b0 = √
w

λ λ
Ejemplo 38 Se sabe que el 1 % de los artículos importados de un determinado
país tiene algún defecto. Si tomamos una muestra de 30 artículos, determinar
la probabilidad de que tres o más de ellos tengan algún defecto.
Solución: Es claro que el número X de artículos con algún defecto de la
muestra sigue una distribución binomial de parámetros n = 30 y p = 0.01.
Luego, la probabilidad que nos piden es P (X ≥ 3). Para calcularla, podemos
hacer una aproximación a la distribución de Poisson, pues p ≤ 0.1, n ≥ 30 y
np ≤ 5. En este caso, el parámetro de la distribución de Poisson es λ = np = 0.3.
Por tanto,

P (X ≥ 3) = 1 − P (X < 3) = 1 − P (X ≤ 2) ' 1 − 0.9964 = 0.0036

en donde hemos utilizado las tablas de la distribución de Poisson.

88
Ejemplo 39 Calcular las siguientes probabilidades, directamente y por aprox-
imación a la distribución normal estándar: (1) P (3 ≤ X ≤ 6), siendo X una
variable aleatoria binomial de parámetros n = 20 y p = 0.26, y (2) P (2 ≤ X ≤
10), donde X es una variablea aleatoria de Poisson de parámetro λ = 6.
Solución: (1) Utilizando las tablas de la distribución binomial, obtenemos
directamente
X6 µ ¶
20
P (3 ≤ X ≤ 6) = · 0.26k · 0.7420−k = 0.67697
k
k=3
p √
Puesto que µ = np = 20 · 0.26 = 5.2 y σ = np(1 − p) = 20 · 0.26 · 0.74 =
1.96, por aproximación a la distribución normal estándar, tenemos

P (3 ≤ X ≤ 6) = P (3 − 0.5 ≤ X ≤ 6 + 0.5)

om
= P (2.5 ≤ X ≤ 6.5)
µ ¶
2.5 − 5.2 X − 5.2 6.5 − 5.2
' P ≤ ≤
1.96 1.96 1.96

.c
= P (−1.378 ≤ Z ≤ 0.663)
= 0.66225
es
donde Z ∼ N (0, 1). Observamos que la aproximación es aceptable.
d
(2) Utilizando las tablas de la distribución de Poisson, obtenemos directa-
mente
en

X10
6k
P (2 ≤ X ≤ 10) = e−6 = 0.94003
k!
k=2

pr

Puesto que µ = λ = 6 y σ = 6, por aproximación a la normal estándar,


tenemos
.a

P (2 ≤ X ≤ 10) = P (2 − 0.5 ≤ X ≤ 10 + 0.5)


= P (1.5 ≤ X ≤ 10.5)
w

µ ¶
1.5 − 6 X −6 10.5 − 6
' P √ ≤ √ ≤ √
w

6 6 6
= P (−1.837 ≤ Z ≤ 1.837)
w

= 0.93375

donde Z ∼ N (0, 1). Observamos que la aproximación también es aceptable.

89

También podría gustarte