Documentos de Académico
Documentos de Profesional
Documentos de Cultura
om
Concepto de esperanza matemática
Dada una variable aleatoria X definida sobre un espacio muestral Ω numerable,
.c
su esperanza matemática es el número E(X) dado por la fórmula
X
es
E(X) = X(ω) · p({ω}) (1)
ω∈Ω
d
siempre y cuando esta serie sea absolutamente convergente, es decir, siempre
que
en
X
|X(ω)| · P ({ω}) (2)
ω∈Ω
pr
Así se deduce de la ley de los grandes números, que se estudiará en otra sección.
Evidentemente, cuando Ω sea un espacio finito la condición (2) se cumple au-
tomáticamente, pero cuando Ω sea infinito numerable la condición es esencial,
porque permite calcular la esperanza por cualquier procedimiento de reorde-
nación y asociación de sumandos de la serie (1) sin temor a que se obtengan
resultados contradictorios. Dicho de otra forma, las series absolutamente con-
vergentes tienen una suma definida de manera única, que para nada depende de
como se vayan eligiendo y sumando sus términos.
La esperanza matemática es una generalización del concepto de media arit-
mética. Dada una muestra de valores observados x1 , x2 , ..., xn de una variable
X con sus respectivas frecuencias f1 , f2 , ..., fn . Sabemos que la media de la
muestra es n n
1 X X fi
x= xi · fi = xi ·
N i=1 i=1
N
1
en donde n
X
N= fi
i=1
om
Observación 1 Al pensar que el concepto de esperanza está estrechamente vin-
culado a los juegos de azar y, por tanto, con la misma definición de probabilidad,
quizá sorprenda al lector que suprimiendo la condición de convergencia absoluta
(2) puedan producirse sorpresas. El siguiente ejemplo pone de manifiesto este
.c
hecho.
Supongamos que queremos jugar al siguiente juego: lanzamos una moneda
es
al aire hasta que sale cara. Si sale cara en la primera tirada, la banca paga al
jugador 2 C=. Si sale cara en la segunda tirada el jugador recibe 22 C =. Si sale
cara por primera vez en la tirada n-ésima el jugador gana 2n C =. Es claro que
d
la cantidad de euros que el jugador puede ganar en este juego es una variable
en
es µ ¶n
1
P (X = xn ) =
2
w
∞
X
E(X) = xn · P (X = xn )
w
n=1
X∞
1
= 2n ·
n=1
2n
= 1 + 1 + ··· + 1 + ··· = ∞
De este modo hemos encontrado una variable aleatoria para la que no existe la
esperanza matemática o que su valor esperado es infinito.
2
Si la suma es una serie numérica, se exige que sea absolutamente convergente.
Ejemplo 1 En el juego de la ruleta se hace girar una bola encima de una rueda
circular dividida en 37 arcos de la misma longitud, numerados del 0 al 36.
Suponemos que la probabilidad de que ocurra un arco es la misma para todos y,
por tanto, la bola puede caer en cualquier número del 0 al 36 con una probabilidad
de 1/37. Supongamos ahora que jugamos a números impares y que la apuesta
se hace a dos por uno, es decir, si apostamos 1 C = y sale impar, recibimos 2 C =
(incluida la apuesta), y no cobramos nada si sale par. ¿Qué esperamos a ganar
si apostamos continuamente a números impares?
Solución: Sea X la variable aleatoria que indica la cantidad que uno puede
ganar o perder al apostar 1 C = a un número impar. Es claro que X puede tomar
dos valores: X = 1 si sale impar, y X = −1 si sale par o cero (hay que recordar
que la banca se queda con la apuesta si sale cero). Además,
om
18 19
P (X = 1) = y P (X = −1) =
37 37
Como consecuencia, tenemos
.c 1
es
E(X) = 1 · P (X = 1) + (−1) · P (X = −1) = − = −0.027
37
La esperanza de X representa en este caso la ganancia o pérdida media por
d
apuesta. Si hacemos n apuestas de 1 C= a número impar, la ganancia o pérdida
en
media será
X1 + X2 + · · · + Xn
n
pr
ya que por cada 1000 apuestas se espera que el judador pierda 27 =C.
w
1 ω∈A
IA (ω) =
0 ω∈
/A
Además, se tiene
P (IA = 1) = P (ω ∈ A) = P (A)
y
P (IA = 0) = P (ω ∈
/ A) = P (A) = 1 − P (A)
Por tanto,
3
Valores esperados de las funciones de variables aleatorias discretas
Sea g una función real de variable real y sea X una variable aleatoria sobre
(Ω, A, P ). No vamos a suponer que g sea una función arbitraria, sino que se
supondrá que g(X) es, a su vez, una variable aleatoria. Recordemos que g(X) es
una función definida sobre Ω que asigna a cada ω ∈ Ω el número real g(X(ω)),
y la condición de que g(X) sea una variable aleatoria significa que para todo
número real r, el conjunto
[g(X) ≤ r] = {ω ∈ Ω : g(X(ω)) ≤ r} ∈ A
Teorema 1 Si X es una variable aleatoria discreta que toma los valores x1 , x2 , ..., xn , ...
con función de densidad f (xi ) = P (X = xi ) (i = 1, 2, ...) y g es una función
real de variable real tal que g(X) es una variable aleatoria, entonces
X
om
E(g(X)) = g(xn ) · f (xn )
n
.c
Demostración: Como X es discreta también lo será g(X). Consideremos
el conjunto T de todos los números reales de la forma g(xn ). Es claro que T será
es
un conjunto finito o infinito numerable. Entonces, por definición de esperanza
tenemos
X X
d
E(g(X)) = t· f (xn )
en
n
w
4
Calcular la esperanza de Y = e−X .
Solución: Tenemos
E(Y ) = E(e−X )
∞
X
= e−n · P (X = n)
n=0
X∞
(λ/e)n
= e−λ
n=0
n!
1
= e−λ(1− e )
ya que
X∞
(λ/e)n
= eλ/e
om
n=0
n!
.c
tribución de probabilidad conjunta
es
Y \X 1 2 3 4
1 0.10 0.10 0.20 0.10
d
2 0.05 0.05 0.05 0.03
3 0.07 0.03 0.10 0.12
en
Teorema 2 Sean X, Y dos variables aleatorias discretas para las que existen
E(X), E(Y ), entonces se cumplen las siguientes propiedades:
5
Demostración: (1) Es evidente a partir de la definición de esperanza.
(2) Sea g(X) = aX, entonces por el teorema 20 tenemos
X
E(aX) = axn · P (X = xn )
n
X
= a xn · P (X = xn )
n
= aE(X)
(3) Por definición tenemos
¯ ¯
¯X ¯
¯ ¯
|E(X)| = ¯ xn · P (X = xn )¯
¯ n ¯
X
≤ |xn · P (X = xn )|
om
n
X
= |xn | · P (X = xn )
n
.c
= E(|X|) es
(4) Sea g(X, Y ) = X + Y , entonces por la observación 11 tenemos
X
E(X + Y ) = (xn + ym ) · P (X = xn , Y = ym )
d
n,m
X X X X
en
= xn P (X = xn , Y = ym ) + ym P (X = xn , Y = ym )
n m m n
pero X
pr
P (X = xn , Y = ym ) = P (X = xn )
m
y
.a
X
P (X = xn , Y = ym ) = P (Y = ym )
n
w
E(X + Y ) = xn P (X = xn ) + ym P (Y = ym )
n m
w
= E(X) + E(Y )
(5) Sea g(X, Y ) = X − Y , entonces por la observación 11 tenemos
X
E(X − Y ) = (xn − ym ) · P (X = xn , Y = ym )
n,m
6
y, en consecuencia, obtenemos
E(X) − E(Y ) ≥ 0
P (X = xn , Y = ym ) = P (X = xn ) · P (Y = ym )
om
para todos los n, m. En consecuencia, tenemos
X
E(X · Y ) = xn · ym · P (X = xn ) · P (Y = ym )
n,m
X X
.c
= xn · P (X = xn ) ym · P (Y = ym )
n m
es
= E(X) · E(Y )
d
en
1
P (X = −1) = P (X = 0) = P (X = 1) =
3
w
0 si X = 0
Y =
1 si X 6= 0
w
y
2
E(Y ) = 0 · P (Y = 0) + 1 · P (Y = 1) =
3
7
Además, tenemos
P (X = 0, Y = 1) = P (∅) = 0
y
2
P (X = 0) · P (Y = 1) =
9
y, como consecuencia, X, Y no son independientes.
Es inmediato comprobar las probabilidades de la siguiente tabla correspon-
diente a la función de densidad conjunta
Y \X −1 0 1
0 0 1/3 0
1 1/3 0 1/3
Por tanto,
om
1 1 1
E(X · Y ) = (−1) · +0· +1· =0
3 3 3
y, en consecuencia, se cumple
.c
E(X · Y ) = E(X) · E(Y )
es
Ejemplo 6 El número total de puntos obtenidos en n tiradas de un dado se
d
X = X1 + X2 + · · · + Xn
.a
6
1X 21 7
E(Xi ) = n= =
6 n=1 6 2
w
Puesto que
w
8
siempre y cuando la integral impropia sea absolutamente convergente, es decir,
Z +∞
|x| · f (x) dx
−∞
sea convergente.
Observación 4 1. Como en el caso discreto (ver observación 10), también
existen variables aleatorias absolutamente continuas para las que no existe
su esperanza. Supongamos que X es una variable aleatoria con distribu-
ción de Cauchy, es decir, tal que su función de densidad viene dada
por
1
f (x) =
π(1 + x2 )
Entonces,
om
Z +∞
x
E(X) = 2
dx
−∞ π(1 + x )
Z l
.c
x
= lim dx
k→+∞ −k π(1 + x2 )
l→+∞
es
µ ¶
1 1 + l2
= lim ln
2π k→+∞ 1 + k2
d
l→+∞
E(X) = x dF (x)
w
−∞
continuo. Para una variable aleatoria con distribución mixta tal que
Z +∞ X
F (x) = α f1 (t) dt + (1 − α) f2 (x)
−∞ xi ≤x
9
Entonces, por definición tenemos
Z +∞
E(X) = x · f (x) dx
−∞
Z b
1
= x dx
b−a a
1
= (a + b)
2
om
Teorema 3 Si X es una variable aleatoria absolutamente continua y g es una
función derivable, entonces
Z +∞
E (g(X)) = g(x) · f (x) dx
.c
−∞ es
siempre que la integral sea absolutamente convergente.
Demostración: Para no complicar excesivamente las cosas, haremos la
demostración para funciones crecientes, aunque el teorema es válido también
d
para funciones decrecientes y, en general, para funciones no monótonas.
Por definición, tenemos
en
Z +∞
E(Y ) = y · fY (y) dy
pr
−∞
Z +∞
E (g(X)) = g(x) · fY (g(x)) · g 0 (x) dx
w
−∞
1
w
fY (y) = f (x) ·
g 0 (x)
Entonces, obtenemos
Z +∞
E (g(X)) = g(x) · f (x) dx
−∞
10
Esta definición coincide con la dada para el caso discreto y absolutamente
continuo. Para una variable aleatoria con distribución mixta tal que
Z +∞ X
F (x) = α f1 (t) dt + (1 − α) f2 (x)
−∞ xi ≤x
om
junta f , entonces se cumple que
Z +∞ Z +∞
E (g(X, Y )) = g(x, y) · f (x, y) dx dy
.c
−∞ −∞
0 en otro caso
E (g(X)) = dx
1 3
Z 2 µ ¶
2
w
= 2x2 + x3 dx
1 3
· 3 ¸
w
4 2
2x x 43
= + =
3 6 1 6
w
11
la observación 14, tenemos
Z 1 Z 1
¡ ¢
E XY 2 + 2X = (xy 2 + 2x)(x + y) dx dy
0 0
Z 1 µZ 1 ¶
= (x2 y 2 + 2x2 + xy 3 + 2xy) dx dy
0 0
Z 1 · ¸1
x3 2 2x3 x2 3
= y + + y + x2 y dy
0 3 3 2 0
Z 1µ ¶
1 2 2 1 3
= y + + y + y dy
0 3 3 2
101
=
72
om
Propiedades de la esperanza de variables aleatorias absolutamente
continuas
.c
Teorema 4 Sean X, Y dos variables aleatorias absolutamente continuas para
las que existen E(X), E(Y ), entonces se cumplen las siguientes propiedades:
es
1. E(1) = 1, siendo 1 la variable aleatoria absolutamente continua constante
igual a 1
d
2. Linealidad:
en
real
3. Si X tiene una función de densidad simétrica respecto de un punto c,
.a
entonces E(X) = c
4. |E (g(X))| ≤ E (|g(X)|)
w
12
(3) Si f es simétrica respecto de un punto c = 0, es decir, f es par, se cumple
f (x) = f (−x)
Entonces
Z +∞
E(X) = x · f (x) dx
−∞
Z 0 Z +∞
= x · f (x) dx + x · f (x) dx
−∞ 0
Z −∞ Z +∞
= − x · f (x) dx + x · f (x) dx
0 0
Z +∞ Z +∞
= − x · f (x) dx + x · f (x) dx
om
0 0
= 0
.c
f (c − x) = f (c + x)
es
y, en consecuencia, la variable aleatoria X − c será simétrica respecto de cero y,
por tanto,
0 = E(X − c) = E(X) − c
d
luego,
en
E(X) = c
(4) Tenemos
pr
¯Z +∞ ¯
¯ ¯
|E (g(X))| = ¯¯ g(x) · f (x) dx¯¯
−∞
.a
Z +∞
≤ |g(x)| · f (x) dx
w
−∞
= E (|g(X)|)
w
es decir,
0 ≤ E (g(X)) ≤ E (h(X))
(6) Puesto que f (x) ≥ 0, entonces
13
entonces
Z +∞
0 ≤ (g(x) · f (x) − m · f (x)) dx
−∞
Z +∞ Z +∞
= g(x) · f (x) dx − m f (x) dx
−∞ −∞
Z +∞
= g(x) · f (x) dx − m · 1
−∞
luego
m ≤ E (g(X))
Análogamente, se deduce
E (g(X)) ≤ M
om
(7) Sea g(X, Y ) = X · Y , entonces por la observación 14 tenemos
Z +∞ Z +∞
E (g(X, Y )) = xy · f (x, y) dx dy
.c
−∞ −∞
Z +∞ Z +∞
es
= xy · fX (x) · fY (y) dx dy
−∞ −∞
Z +∞ Z +∞
= x · fX (x) dx y · fY (y) dy
d
−∞ −∞
en
= E(X) · E(Y )
pr
kx2 ye−x−y si x ≥ 0 e y ≥ 0
f (x, y) =
0 en otro caso
w
Z +∞ Z +∞
w
f (x, y) dx dy = 1
−∞ −∞
Por tanto,
Z +∞ Z +∞
1 = k x2 ye−x−y dx dy
0 0
Z +∞ Z +∞
= k x2 e−x dx ye−y dy
0 0
= k·2·1
= 2k
de donde k = 1/2.
14
(1) Calculemos ahora las funciones de densidad marginales. Tenemos, por
un lado
Z +∞
fX (x) = f (x, y) dy
−∞
Z +∞
1 2 −x−y
= x ye dy
0 2
Z +∞
1 2 −x
= x e ye−y dy
2 0
1 2 −x
= x e
2
y, por tanto, ½ 1 2 −x
fX (x) = 2x e si x ≥ 0
om
0 en otro caso
y, por otro, tenemos
Z +∞
fY (x) = f (x, y) dx
.c
−∞
Z +∞
1 2 −x−y
es
= x ye dx
0 2
Z +∞
1 −y
x2 e−x dx
d
= ye
2 0
en
= ye−y
y, por tanto, ½
ye−y si y ≥ 0
pr
fY (y) =
0 en otro caso
Observamos que
.a
15
y, en consecuencia,
E(3XY ) = 3 · 3 · 2 = 18
om
y en el caso absolutamente continuo, definimos
Z +∞
E (Y |X = x) = y · f (y|X = x) dy
.c
−∞
y, en general, tenemos
es
X
E (g(Y )|X = x) = g(yj ) · f (yj |X = x)
j
d
en
en el caso discreto, y
Z +∞
E (g(Y )|X = x) = g(y) · f (y|X = x) dy
pr
−∞
X f (x, yj )
w
E (Y |X = x) = yj ·
j
fX (x)
w
1 X
= yj · f (x, yj )
fX (x) j
en el caso discreto, y
Z +∞
f (x, y)
E (Y |X = x) = y· dy
−∞ fX (x)
Z +∞
1
= y · f (x, y) dy
fX (x) −∞
en el caso continuo.
16
La esperanza condicionada como variable aleatoria
Al variar el valor de x puede variar f (Y |X = x) y, por tanto, E(Y |X = x) puede
tomar diferentes valores y, en consecuencia, es una función de x. Entonces,
mediante la función h(x) = E(Y |X = x) podemos construir una nueva variable
aleatoria que designamos por E(Y |X)
X E(Y |X)
Ω −→ R −→ R
ω 7−→ X(ω) 7−→ E(Y |X = X(ω)
Como E(Y |X) es una variable aleatoria podemos plantearnos calcular el valor
de su esperanza. Así tenemos
Z +∞
E (E(Y |X)) = E(Y |X = x) · fX (x) dx
om
−∞
Z +∞ µ Z +∞ ¶
1
= y · f (x, y) dy fX (x) dx
−∞ fX (x) −∞
Z +∞ Z +∞
.c
= y · f (x, y) dx dy
−∞ −∞
Z +∞ Z
es
+∞
= y dy f (x, y) dx
−∞ −∞
Z +∞ Z
d
+∞
= y · fy (y) dy (ya que fy (y) = f (x, y) dx)
en
−∞ −∞
= E(Y )
pr
Y \X 10 11 12 13 14
1 0.02 0.03 0.07 0.02 0.04
w
Calcular: (1) E(X) y E(Y ); (2) E(Y |X = 15); (3) E(X|Y < 3) y (4) E(Y 2 |11 <
X ≤ 13).
Solución: (1) Para calcular E(X) y E(Y ), primero necesitamos las dis-
tribuciones de probabilidad marginales de X e Y . Así, tenemos
xi 10 11 12 13 14
P (X = xi ) 0.16 0.15 0.25 0.32 0.12
y
yj 1 2 3 4
P (Y = yj ) 0.18 0.30 0.31 0.21
17
Por tanto,
5
X
E(X) = xi P (X = xi ) = 12.09
i=1
y
4
X
E(Y ) = yj P (Y = yj ) = 2.55
j=1
X 4
1
om
= yj · P (X = 15, Y = yj )
P (X = 15) j=1
1
= (1 · 0.03 + 2 · 0.02 + 3 · 0.04 + 4 · 0.06)
0.15
.c
0.43
= = 2.87
0.15
es
(3) Por definición, tenemos
d
5
X
E (X|Y < 3) = xi · P (X = xi |Y < 3)
en
i=1
X 5
1
= xi · P (X = xi , Y < 3)
pr
P (Y < 3) i=1
pero,
.a
P (Y < 3) = P (Y = 1) + P (Y = 2) = 0.48
y
w
5
X 5
X
w
xi · P (X = xi , Y < 3) = xi · [P (X = xi , Y = 1) + P (X = xi , Y = 2)]
i=1 i=1
w
Por tanto,
5.98
E (X|Y < 3) = = 12.458
0.48
(4) Por definición, tenemos
4
X
2
E(Y |11 < X ≤ 13) = yj2 · P (Y = yj |11 < X ≤ 13)
j=1
X 4
1
= y 2 · P (Y = yj , 11 < X ≤ 13)
P (11 < X ≤ 13) j=1 j
pero
P (11 < X ≤ 13) = P (X = 12) + P (X = 13) = 0.57
18
y
4
X 4
X
yj2 · P (Y = yj , 11 < X ≤ 13) = yj2 · [P (Y = yj , X = 12) + P (Y = yj , X = 13)]
j=1 j=1
= 1 · 0.09 + 4 · 0.23 + 9 · 0.19 + 16 · 0.06 = 3.68
Por tanto,
3.68
E(Y 2 |11 < X ≤ 13) = = 6.4561
0.57
om
12 si 0 < 2x ≤ 3y < 1
f (x, y) =
0 en otro caso
.c
Solución: Primero calcularemos las funciones de densidad marginales. Así,
para 0 < x < 1/2 tenemos
es
Z +∞
fX (x) = f (x, y) dy
d
−∞
Z 1/3
en
= 12 dy
2x/3
= 4 − 8x
pr
y, por tanto, ½
4 − 8x si 0 < x < 1/2
fX (x) =
.a
0 en otro caso
Por otro lado, para 0 < y < 1/3 tenemos
w
Z +∞
w
fY (y) = f (x, y) dx
−∞
Z
w
3y/2
= 12 dx
0
= 18y
y, por tanto, ½
18y si 0 < y < 1/3
fY (y) =
0 en otro caso
En segundo lugar, calcularemos las funciones de densidad condicionadas. Así,
para 0 < x < 1/2 tenemos
f (x, y)
f (y|X = x) =
fX (x)
12 3
= =
4 − 8x 1 − 2x
19
siempre que 2x/3 ≤ y < 1/3; en cualquier otro caso, la función se anula. Por
otro lado, para 0 < y < 1/3 tenemos
f (x, y)
f (x|Y = y) =
fY (y)
12 2
= =
18y 3y
siempre que 0 < x < 3y/2; en cualquier otro caso, la función se anula. Final-
mente, podemos ahora calcular las esperanzas condicionadas. Así, tenemos
Z +∞
E (Y |X = x) = y · f (y|X = x) dy
−∞
Z 1/3
3
om
= y· dy
2x/3 1 − 2x
· 2 ¸1/3
3 y
=
1 − 2x 2 2x/3
.c
1 + 2x
=
6
es
y
Z
d
+∞
E(X|Y = y) = x · f (x|Y = y) dx
en
−∞
Z 3y/2
2
= x· dx
0 3y
pr
· ¸3y/2
2 x2
=
3y 2 0
.a
3y
=
4
w
w
Momentos simples
Dada una variable aleatoria X, se llama momento de orden k (respecto al
origen) al valor medio, si existe, de la variable X k
mk = E(X k )
y, £en general,
¤ se llama momento de orden k respecto a un punto c al valor
E (X − c)k . Los momentos respecto al valor medio se llaman momentos
centrales de orden k h i
µk = E (X − E(X))k
20
En ambos casos, k puede ser cualquier número real no necesariamente entero.
En particular, si X es una variable aleatoria discreta, entonces
X X
mk = xki · P (X = xi ) y µk = (xi − E(X))k · P (X = xi )
i i
om
El otro momento es el momento central de orden 2, µ2 = E (X − µ)2 = σ 2 ,
varianza de la distribución, describe la forma de la distribución, es decir, la
forma en que se dispersan los valores de la variable aleatoria X respecto del valor
esperado µ = E(X); es también un valor que caracteriza a dicha distribución.
.c
Además de la media y la varianza, como medidas de centralización y dis-
persión, el conocimiento de momentos de orden superior proporcionan mayor
es
información sobre la forma de la distribución de la variable aleatoria. Cono-
ciendo los momentos centrales de orden 3 y de orden 4 se puede obtener el
d
coeficiente de asimetría
en
µ3 µ3
γ1 = =
3/2
µ2 σ3
pr
µ22 σ
Estos coeficientes se interpretan de la siguiente manera. Si la distribución es
w
Momentos mixtos
Las definiciones de los momentos simples se generalizan para variables aleato-
rias n-dimensionales. Sin embargo, para facilitar la escritura aquí sólo consid-
eraremos el caso de variables aleatorias bidimensionales. Dadas dos variables
aleatorias X, Y se llama momento mixto de orden k + h (respecto al origen)
al valor medio, si existe, de la variable X k Y h
mkh = E(X k Y h )
21
De nuevo, en ambos casos, k y h son números reales cualesquiera no necesaria-
mente enteros. En particular, si (X, Y ) es una variable aleatoria bidimensional
discreta, entonces
XX
mr = xki yjh · P (X = xi , Y = yj )
i j
y XX k h
µr = (xi − E(X)) (yj − E(Y )) · P (X = xi , Y = yj )
i j
y, si (X, Y ) es una variable aleatoria bidimensional absolutamente continua,
entonces Z +∞
mr = xk y h · f (x, y) dx dy
−∞
y Z
om
+∞
µr = (x − E(X))k (y − E(Y ))h · f (x, y) dx dy
−∞
Observación 9 Es claro que los momentos mixtos de orden 1 son las medias
.c
de X y de Y
m10 = E(X) = µX y m01 = E(Y ) = µY
es
Si k = 2 y h = 0 se obtiene la varianza de X
£ ¤
µ20 = E (X − µX )2 = σ 2X
d
por lo que se denomina varianza marginal de X. Análogamente,
£ ¤
en
µ02 = E (Y − µY )2 = σ 2Y
se llama varianza marginal de Y . Es claro que los momentos mixtos centrales
de orden 1 son nulos. Es especialmente importante el momento mixto central
pr
La covarianza nos permitirá dar una medida de la dependencia lineal entre las
w
variables aleatorias X e Y .
Es inmediato comprobar que
w
22
Concepto de varianza y sus propiedades
La esperanza o valor esperado de una variable aleatoria describe donde está
centrada su distribución de probabilidad y, por tanto, es un valor que caracteriza
a dicha distribución de probabilidad. Sin embargo, la esperanza por sí sola no
da una descripción adecuada de la forma de la distribución, es necesario saber
cómo se dispersan los valores de la variable aleatoria respecto del valor esperado.
La medida de dispersión más utilizada en Estadística es la varianza, y ahora se
generaliza para variables aleatorias.
Dada una muestra de valores observados x1 , x2 , ..., xn de una variable X con
sus respectivas frecuencias f1 , f2 , ..., fn , la dispersión de un valor xi respecto a
la media x se puede medir por
(xi − x)2
om
y la media de esta dispersión viene dada por
Xn
fi
s2 = (xi − x)2 ·
N
.c
i=1
en donde
es
n
X
N= fi
i=1
d
Las frecuencias relativas fi /N se pueden considerar como las probabilidades que
en
N
tenemos
X n
.a
que se llama varianza de la muestra. Vamos a extender esta idea al caso de una
variable aleatoria.
w
de orden 2 h i
2
σ 2 = V ar(X) = E (X − E(X))
si existe. Así, tenemos
X 2
σ2 = (xi − µ) · f (xi )
i
23
que si X toma valores muy alejados de µ, entonces |X − µ| será una variable
aleatoria£que muy ¤probablemente tomará valores grandes y, en consecuencia,
σ 2 = E (X − µ)2 será grande, mientras que si X toma valores cercanos a
µ, entonces la variable aleatoria |X − µ| tomará muy probablemente valores
pequeños y, por tanto, σ 2 será pequeña.
Se llama desviación típica o estándar a la raíz cuadrada positiva de la
varianza. Es una medida de dispersión de la misma dimensión física que la
variable aleatoria y se indica por σ
r h i
p
σ = V ar(X) = E (X − E(X))2
Propiedades de la varianza
om
Teorema 5 Sean X, Y dos variables aleatorias que tienen una distribución con-
junta discreta o absolutamente continua y ambas tienen momento de segundo
orden finito, entonces
h i
V ar(X) = E (X − E(X))2
.a
h i
= E X 2 − 2XE(X) + (E(X))2
w
h i
2
V ar(a) = E (a − E(a))
= E(0) = 0
24
(4) Aplicando de nuevo el apartado (1), tenemos
£ ¤
V ar(aX + b) = E (aX + b)2 − (E(aX + b))2
= E(a2 X 2 + 2abX + b2 ) − (aE(X) + b)2
2
= a2 E(X 2 ) + 2abE(X) + b2 − a2 (E(X)) − 2abE(X) − b2
h i
2
= a2 E(X 2 ) − (E(X))
= a2 V ar(X)
(5) Si X, Y son independientes, entonces E(XY ) = E(X) · E(Y ). Aplicando
ahora el apartado (1), tenemos
£ ¤ 2
V ar(X + Y ) = E (X + Y )2 − (E(X + Y ))
2
= E(X 2 + 2XY + Y 2 ) − (E(X) + E(Y ))
om
2 2
= E(X 2 ) + 2E(X)E(Y ) + E(Y 2 ) − (E(X)) − 2E(X)E(Y ) − (E(Y ))
= V ar(X) + V ar(Y )
.c
Ejemplo 13 Calcular la varianza del número de puntos obtenidos en la tirada
es
de un dado ordinario.
Solución: La variable aleatoria X "número de puntos en la tirada de un
d
dado" es discreta y toma los valores 1, 2, ..., 6 con probabilidad 1/6. Por tanto,
1 21 7
en
E(X) = (1 + 2 + · · · + 6) = =
6 6 2
y, además, se cumple
pr
1 2 91
E(X 2 ) = (1 + 22 + · · · + 62 ) =
6 6
.a
Entonces,
2
V ar(X) = E(X 2 ) − (E(X))
w
µ ¶2
91 7 35
= − =
w
6 2 12
w
25
y también
Z +∞
2
E(X ) = x2 f (x) dx
−∞
Z 1
x2
= √ dx
0 2 x
· ¸1
1 x5/2 1
= =
2 5/2 0 5
om
= − =
5 3 45
.c
Ejemplo 15 Sean X e Y variables aleatorias independientes
£ con¤ varianzas fini-
tas tales que E(X) = E(Y ). (1) Demostrar que E (X − Y )2 = V ar(X) +
es
V ar(Y ); (2) Si V ar(X) = V ar(Y ) = 3, determinar los valores de V ar(X − Y )
y V ar(2X − 3Y + 1).
Solución: (1) Tenemos
d
£ ¤
E (X − Y )2 = E(X 2 − 2XY + Y 2 )
en
= V ar(X) + V ar(Y )
.a
= V ar(X) + V ar(Y ) = 6
w
26
Teorema 6 (Teorema de Tchebychev) Sea X una variable aleatoria (disc-
reta o absolutamente continua) tal que, para un cierto k > 0 (no necesaria-
mente entero), el momento de orden k de |X| existe, entonces para cada > 0
se cumple ³ ´
E |X|k
P (|X| ≥ ) ≤ k
om
³ +∞
k k k k
E |X| = |x| f (x) dx + |x| f (x) dx + |x| f (x) dx
−∞ −
Ahora bien, Z Z
.c
k k
|x| f (x) dx = |x| f (x) dx
− |x|<
es
y Z Z Z
− +∞
|x|k f (x) dx + |x|k f (x) dx = |x|k f (x) dx
d
−∞ |x|≥
en
Por tanto,
³ ´ Z Z
k k
E |X| = |x| f (x) dx + |x|k f (x) dx
pr
|x|< |x|≥
Puesto que f es una función no negativa, las dos integrales anteriores son posi-
.a
f (x) dx
|x|≥ |x|≥
w
Ahora bien, Z
f (x) dx = P (|x| ≥ )
w
|x|≥
y, en consecuencia, obtenemos
³ ´
E |X|k ≥ k
· P (|x| ≥ )
es decir, ³ ´
E |X|k
P (|x| ≥ ) ≤ k
Observación 10 Este resultado nos dice que es improbable que una variable
aleatoria (con al menos algún momento finito) tome valores excesivamente grandes,
pues, si es grande 1/ k , con k > 0, será pequeño y la probabilidad de que
|X| ≤ será también pequeña.
27
De este teorema se deducen dos desigualdades importantes en términos de
los momentos. Para k = 1, tenemos la desigualdad de Markov
E (|X|)
P (|X| ≥ ) ≤
om
P (g(X) ≥ ) ≤
.c
consideremos el conjunto es
A = {ω ∈ Ω : g (X(ω)) ≥ }
Entonces, se cumple
d
Z +∞
E (g(X)) = g(x) f (x) dx
en
−∞
Z
≥ g(x) f (x) dx
pr
A
Z
≥ f (x) dx
.a
A
= · P (g(X) ≥ )
w
luego,
E (g(X))
P (g(X) ≥ ) ≤
w
w
28
y, por tanto, obtenemos
1
P (|X − µ| ≥ kσ) ≤
k2
om
es decir,
1
P (|X − µ| < kσ) ≥ 1 −
k2
.c
luego,
1
P (µ − kσ < X < µ + kσ) ≥ 1 −
k2
es
Esta desigualdad se interpreta diciendo que la probabilidad de que una variable
aleatoria X tome un valor que dista del valor medio en menos de k veces su
d
desviación típica es por lo menos 1 − 1/k 2 . Se pone así de manifiesto la impor-
en
ciudades es una variable aleatoria X con valor medio 200 y varianza 100. Si
cada vagón de pasajeros tiene una capacidad para 40 viajeros, calcular el número
.a
de vagones necesarios para asegurar con una probabilidad de al menos 0.95 que
se cubra en ese día la demanda de los pasajeros entre ambas ciudades.
w
1
P (|X − 200| < k · 10) ≥ 1 −
k2
w
Haciendo
1
1− k2 = 0.95 y k > 0 ⇐⇒ k = 4. 472 1
tenemos
es decir,
P (X < 244.721) ≥ 0.95
Este último resultado significa que como máximo pueden viajar 244 pasajeros
con una probabilidad de al menos 0.95. Como los vagones tienen 40 plazas,
necesitamos 7 vagones ya que
244
= 6.1
40
29
Ejemplo 17 Una máquina produce ejes cuyo diámetro medio es de 22 mm con
una desviación típica de 0.3 mm. Se aceptan como buenos los ejes que tienen
un diámetro comprendido entre 20 y 24 mm. Obtener una cota del porcentaje
de ejes defectuosos que fabrica la máquina.
Solución: Indicamos por X la variable aleatoria "diámetro de los ejes que
produce la máquina". El suceso "un eje no es defectuoso" es [20 ≤ X ≤ 24] y,
por tanto, el suceso contrario "un eje defectuoso" es
[20 > X > 24] = [|X − 22| > 2]
Mediante la desigualdad de Tchebychev
1
P (|X − µ| ≥ kσ) ≤ (k > 0)
k2
podemos obtener una cota superior de la probabilidad de que un eje sea defec-
om
tuoso. En efecto, haciendo
2 20
k · σ = k · 0.3 = 2 =⇒ k= =
0.3 3
.c
tenemos µ ¶2
3 9
P (|X − 22| ≥ 2) ≤ = = 0.0225
es
20 400
luego, el porcentaje de ejes defectuosos fabricados por la máquina es menor que
d
2.25 %.
en
2 2
es decir, la mediana es un punto que divide la "masa" de probabilidad en dos
w
30
Ejemplo 18 La función de densidad de una variable aleatoria X con distribu-
ción absolutamente continua es
½ 2
2xe−x si x > 0
f (x) =
0 en otro caso
Encontrar la moda, la mediana y la desviación media.
Solución: Sabemos que la moda es un máximo relativo de f . Por tanto,
2 √
f 0 (x) = (2 − 4x2 )e−x = 0 ⇐⇒ x = ±1/ 2
√ √ √
Puesto que f 00 (1/ 2) > 0 y f 00 (−1/ 2) < 0, en x = 1/ 2 hay un máximo
relativo y, por tanto, hay una única moda
√
x = 1/ 2
om
y la distribución de X es unimodal. Es claro que la función de distribución de
X es Z x
2 2
F (x) = 2te−t dt = 1 − e−x
0
.c
si x > 0. Como la mediana es el valor xm de X para el cual F (xm ) = 1/2,
tenemos √
2
es
1 − e−xm = 1/2 ⇐⇒ xm = ln 2
Por último, la desviación media es por definición
¯ √ ¯¯
d
¯
E(|X − xm |) = E(¯X − ln 2¯)
en
Z +∞ ¯ √ ¯¯
¯ 2
= ¯x − ln 2¯ · 2xe−x dx
0
√
pr
Z ln 2 √ Z +∞ √
−x2 2
= (−x + ln 2) · 2xe dx + √ (x − ln 2) · 2xe−x dx
0 ln 2
.a
Z √ Z ln 2 √
2 √
ln 2
2
= − 2x2 e−x dx + ln 2 2xe−x dx
w
0 0
Z +∞ √ Z +∞
2 2
+ √ 2x2 e−x dx − ln 2 √ 2xe−x dx
w
ln 2 ln 2
Z √ Z
ln 2 +∞
2 2
w
y, por tanto,
Z √ Z
¯ √ ¯¯ ln 2 +∞
¯ 2 2
E(¯X − ln 2¯) = − 2x2 e−x dx + √ 2x2 e−x dx
0 ln 2
Z √ Z
h i√ln 2 ln 2 h i+∞ +∞
−x2 −x2 −x2 2
= xe − e dx + −xe √ + √ e−x dx
0 0 ln 2 ln 2
Z +∞ Z √
√ ln 2
− ln 2 −x2 2
= 2 ln 2e + √ e dx − e−x dx
ln 2 0
31
El valor numérico de las dos integrales se puede calcular teniendo en cuenta la
tabla de la distribución normal de parámetros µ = 0 y σ = 1 cuya función de
distribución viene dada por
Z z
1 2
FZ (z) = P (Z ≤ z) = √ e−t /2 dt
2π −∞
√
En efecto, haciendo el cambio x = t/ 2, tenemos
Z √ Z √
ln 2
−x2 1 2 ln 2
2 √ ³ √ ´ √
e dx = √ e−t /2
dt = π FZ ( 2 ln 2) − FZ (0) = π(0.8790−0.5)
0 2 0
y
Z Z
+∞
1 +∞ √ ³ √ ´ √
om
−x2 2
√ e dx = √ √ e−z /2
dz = π FZ (+∞) − FZ ( 2 ln 2) = π(1−0.8790)
ln 2 2 2 ln 2
.c
Z Z √
+∞ ln 2 √
−x2 2
siendo n n
1X X
x= xi y y= yi
n i=1 i=1
si existe.
32
Propiedades de la covarianza
Teorema 8 Si X, Y son variables aleatorias (discretas o absolutamente contin-
uas), entonces
om
7. Si X, Y son independientes, entonces Cov(X, Y ) = 0
.c
Cov(X, Y ) = E [(X − E(X)) (Y − E(Y ))]
= E (XY − XE(Y ) − Y E(X) + E(X)E(Y ))
es
= E(XY ) − E(Y )E(X) − E(X)E(Y ) + E(X)E(Y )
= E(XY ) − E(X)E(Y )
d
2
Cov(X, X) = E(X 2 ) − (E(X)) = V ar(X)
pr
= abCov(X, Y )
w
33
(7) Si X, Y son independientes, entonces E(XY ) = E(X)E(Y ) y, por tanto,
obtenemos
Cov(X, Y ) = E(XY ) − E(X)E(Y ) = 0
El recíproco de esta propiedad es falso, pues existen pares de variables aleatorias
dependientes que tienen covarianza cero, lo cual nos indica que no podemos
utilizar la covarianza como un test para la independencia. No obstante, es claro
que si Cov(X, Y ) 6= 0, entonces X, Y son dependientes.
om
0 1/6 1/6 1/6 0 0 0
1 0 0 0 1/6 1/6 1/6
Entonces, es inmediato comprobar que E(X) = 7/2 y E(Y ) = 1/2. Además se
.c
cumple es
6 X
X 2
4 5 6 15 5
E(XY ) = xi yj · P (X = xi , Y = yj ) = + + = =
i=1 j=1
6 6 6 6 2
d
= − =
2 4 4
.a
lutamente continuas X, Y es
½ 3 2 2
2 (x + y ) si x, y ∈ (0, 1)
w
f (x, y) =
0 en otro caso
w
Calcular la covarianza de X e Y .
Solución: Primero debemos calcular las funciones de densidad marginales.
Así, tenemos
Z +∞
fX (x) = f (x, y) dy
−∞
Z 1
3
= (x2 + y 2 ) dy
2 0
µ ¶
3 1
= x2 +
2 3
luego ½ ¡ 2 1¢
3
2 x +3 si x ∈ (0, 1)
fX (x) =
0 si x ∈
/ (0, 1)
34
Análogamente,
Z +∞
fY (y) = f (x, y) dx
−∞
Z 1
3
= (x2 + y 2 ) dx
2 0
µ ¶
3 1
= + y2
2 3
luego ½ ¡1 ¢
3
2 3 + y2 si y ∈ (0, 1)
fY (y) =
0 si y ∈
/ (0, 1)
De aquí, obtenemos
Z
om
+∞
E(X) = x · fX (x) dx
−∞
Z 1µ ¶
3x3 x
= + dx
.c
0 2 2
5
=
es
8
y
Z
d
+∞
E(Y ) = y · fY (y) dy
en
−∞
Z 1µ ¶
y 3y 3
= + dy
0 2 2
pr
5
=
8
.a
E(XY ) = xy · f (x, y) dx dy
−∞ −∞
Z 1 Z 1
w
3
= (x3 y + xy 3 ) dx dy
2 0 0
w
3
=
8
Por consiguiente, obtenemos
Cov(X, Y ) = E(XY ) − E(X)E(Y )
3 25 1
= − =−
8 64 64
Regresión lineal
Regresión y correlación lineal entre dos variables estadísticas
Nuestro objetivo es generalizar el concepto de regresión lineal al caso de variables
aleatorias. Sin embargo, antes daremos un breve repaso de este concepto al caso
35
de muestras de variables estadísticas. Consideremos el caso de n pares de valores
observados
(x1 , y1 ), (x2 , y2 ), ..., (xn , yn )
correspondientes a dos variables estadísticas X, Y . Se llama regresión lineal
al problema de encontrar una recta
y = ax + b
de manera que los valores de ybi = axi + b se ajusten del mejor modo posible
a los yi . Utilizando el criterio de los mínimos cuadrados, es decir, que la
suma de todos los errores ei = yi − ybi elevados al cuadrado sea mínima
n
X n
X n
X
e2i = (yi − ybi )2 = (yi − axi − b)2
om
i=1 i=1 i=1
.c
G(a, b) = (yi − axi − b)2 (4)
i=1
es
y para minimizarla se tiene en cuenta la condición necesaria de mínimo, es decir,
las ecuaciones
d
∂G(a, b) ∂G(a, b)
=0 y =0
∂a ∂b
en
de donde se obtienen
sXY
b
a= 2 y bb = y − b ax
sX
pr
y=b ax + bb
se la llama recta de regresión de Y sobre X y se acostumbra a expresar en
w
la forma
sXY
y − y = 2 (x − x)
w
sX
y al coeficiente
w
sXY
βY X =
s2X
se le llama coeficiente de regresión de Y sobre X. Análogamente se en-
cuentra la recta de regresión de X sobre Y
cy + db
x=b
y al coeficiente
sXY
β XY =
s2Y
36
se le llama coeficiente de regresión de X sobre Y . La recta de regresión de
Y sobre X sirve para predecir y conocido x; la recta de regresión de X sobre Y
sirve para predecir x conocido y.
De (4) se obtiene la siguiente identidad fundamental
n µ ¶
1X s2
a, bb) =
G(b axi − bb) = s2Y 1 − 2XY2 = s2Y (1 − r2 ) ≥ 0
(yi − b (5)
n i=1 sX sY
om
definición, el coeficiente de correlación lineal es
sXY
r=
sX sY
.c
Es un coeficiente de gran importancia en Estadística que da una medida del
grado del buen ajuste de Y como función lineal de X. Algunas de sus propiedades
es
son:
1. De (5) se obtiene 1 − r2 ≥ 0 y, por tanto, −1 ≤ r ≤ 1, además de tener el
d
mismo signo que sXY y los coeficientes de regresión β Y X y β XY .
en
axi + bb
yi = b (i = 1, 2, ...n)
es decir, una variable es exactamente combinación lineal de la otra. En
.a
37
y puede interpretarse como la variabilidad propia de Y una vez eliminada la
influencia que sobre Y tiene la variable X. De (6), obtenemos
om
Regresión entre dos variables aleatorias
Antes de ver la regresión lineal entre dos variables aleatorias, trataremos un caso
.c
más sencillo de regresión. Supongamos que queremos aproximar una variable
aleatoria X a un número real constante no aleatorio α. Una manera de hacerlo
es
consiste en encontrar α mediante el criterio de que el error cuadrático medio
£ ¤
= E (X − α)2
d
en
sea mínimo. Es claro que el error dependerá de α y, por tanto, será mínimo si
d
=0
pr
dα
Ahora bien, se cumple que
.a
d d £ ¤
= E (X − α)2
dα dα
w
d ¡ ¢
= E(X 2 ) − 2αE(X) + α2
dα
w
= −2E(X) + 2α
w
38
de forma que el error cuadrático medio
h i
2
E (X − (aY + b))
sea mínimo.
En general, la regresión consiste básicamente en aproximar una variable
aleatoria X que tiene una distribución de probabilidad desconocida o muy com-
pleja mediante una función de una cierta variable aleatoria Y con distribución
conocida o más sencilla que la distribución de X. Si la función de Y es lineal
tenemos la regresión lineal (simple o múltiple), mientras que si la función de
Y es arbitraria, tenemos la regresión no lineal.
Dada una variable aleatoria X, la regresión lineal simple consiste en aprox-
imar X mediante aY + b, siendo Y otra variable aleatoria, de manera que el
error cuadrático medio
h i
om
2
(a, b) = E (X − (aY + b))
sea mínimo. Los resultados que se obtienen a partir de esta condición son una
generalización del caso muestral y, por este motivo, no haremos sus demostra-
.c
ciones.
Recta de regresión de X sobre Y :
es
Cov(X, Y )
x − E(X) = (y − E(Y ))
V ar(Y )
d
Cov(X, Y )
y − E(Y ) = (x − E(X))
V ar(X)
pr
Coeficientes de regresión:
Cov(X, Y ) Cov(X, Y )
.a
β XY = y βY X =
V ar(Y ) V ar(X)
Error mínimo cuadrático medio de Y sobre X:
w
min = V ar(Y ) · (1 − ρ2 )
w
Coeficiente de determinación:
w
0 ≤ ρ2 = β Y X · β XY ≤ 1
Coeficiente de correlación lineal (poblacional):
Cov(X, Y )
−1 ≤ ρ = p p ≤1
V ar(X) V ar(Y )
39
1. −1 ≤ ρ ≤ 1
2. Si ρ = ±1, una variable es exactamente función lineal de la otra, o sea,
Y = βY X X + β0.
3. Si ρ = 0, se dice que las variables aleatorias están incorrelacionadas. En
particular, si son independientes, Cov(X, Y ) = 0 y, por tanto, ρ = 0. El
recíproco en general es falso.
4. ρ es invariante por transformaciones lineales de las variables aleatorias, es
decir,
ρ(X, Y ) = ρ(aX + b, cX + d)
om
ventaja sobre la covarianza de no depender de la dimensión física de las variables
aleatorias.
Ejemplo 21 La función de densidad conjunta de dos variables aleatorias abso-
.c
lutamente continuas X, Y es
½ 3 2 2
2 (x + y ) si x, y ∈ (0, 1)
es
f (x, y) =
0 en otro caso
E(X 2 ) = x2 fX (x) dx
−∞
Z 1 µ ¶
w
3 x2
= x4 + dx
2 3
w
0
7
=
w
15
luego,
2
V ar(X) = E(X 2 ) − (E(X))
µ ¶2
7 5 73
= − =
15 8 960
Además, tenemos
Z +∞
E(Y 2 ) = y 2 fY (y) dy
−∞
Z µ ¶
3 1 y2 4
= +y dy
2 0 3
7
=
15
40
luego,
2
V ar(Y ) = E(Y 2 ) − (E(Y ))
µ ¶2
7 5 73
= − =
15 8 960
Cov(X, Y ) −1/64
ρ= p p =p p = −0.2055
V ar(X) V ar(Y ) 73/960 73/960
que nos dice que la dependencia es negativa y débil; obsérvese que las dos
variables no son independientes, pues
om
f (x, y) 6= fX (x) · fY (y)
.c
Cov(X, Y ) −1/64
β XY = = = −15/73
V ar(Y ) 73/960
es
y
Cov(X, Y ) −1/64
βY X = = = −15/73
V ar(X) 73/960
d
µ ¶
5 15 5
y− =− x−
8 73 8
pr
µ ¶
5 15 5
x− =− y−
8 73 8
w
µ ¶2
15
ρ2 = β Y X · β XY = − = 0.0422
w
73
41
Teorema 9 Si queremos aproximar una variable aleatoria X mediante una fun-
ción g de la variable aleatoria Y , entonces la esperanza condicionada E(X|Y )
tiene el error cuadrático medio más pequeño entre todas las posibles aproxima-
ciones de X, es decir,
h i h i
E (X − E(X|Y ))2 ≤ E (X − g(Y ))2
h i
2
para cualquier función g de la variable aleatoria Y tal que E (X − g(Y ))
exista. Entonces a la función g(y) = E(X|Y = y) se la llama función de
regresión de X sobre Y y a su representación gráfica, curva de regresión
de X sobre Y .
Demostración: Haremos la demostración suponiendo que X, Y son dos
variables aleatorias absolutamente continuas con función de densidad conjunta
om
f . Sea g una función de la variable aleatoria Y tal que el error cuadrático medio
h i
= E (X − g(Y ))2
.c
exista. Puesto que
f (x, y) = f (x|y) fY (y)
es
entonces tenemos
h i
= E (X − g(Y ))2
d
Z +∞ Z +∞
en
= [x − g(y)]2 f (x, y) dx dy
−∞ −∞
Z +∞ Z +∞
pr
2
= fY (y) dy [x − g(y)] f (x|y) dx
−∞ −∞
.a
Sea Z +∞
h (g(y)) = [x − g(y)]2 f (x|y) dx
w
−∞
Z +∞
= fY (y) h (g(y)) dy
w
−∞
pero Z +∞
f (x|y) dx = 1
−∞
y Z +∞
xn f (x|y) dx = E(X n |Y ) (n = 1, 2)
−∞
42
Por tanto, obtenemos una funcional h de g(y)
∂
δh = h [g(y) + αδy]α=0
∂α
∂ h 2
i
= E(X 2 |Y ) − 2 (g(y) + αδy) E(X|Y ) + (g(y) + αδy)
∂α α=0
= [−2δyE(X|Y ) + 2(g(y) + αδy)δy]α=0
= [−2E(X|Y ) + 2g(y)] δy
om
Por tanto,
δh = 0 ⇐⇒ −2E(X|Y ) + 2g(y) = 0
es decir,
.c
g(y) = E(X|Y )
es
Observación 12 1. Análogamente se obtiene la curva de regresión de Y
sobre X
d
y = h(x)
en
Y = h(X)
43
Ejemplo 22 Hallar la curva de regresión de Y sobre X, sabiendo que la función
de densidad conjunta es
½ 1
f (x, y) = 8 (x + y) si x, y ∈ (0, 2)
0 en otro caso
¿La regresión entre X e Y es lineal? Calcular también la razón de correlación
de Y sobre X.
Solución: La curva de regresión de Y sobre X viene dada por
y = h(x) = E(Y |X = x)
siendo Z +∞
1
E(Y |X = x) = y · f (x, y) dy
fX (x) −∞
om
pero, para 0 < x < 2, tenemos
Z +∞
fX (x) = f (x, y) dy
−∞
.c
Z 2
1
= (x + y) dy
8 0
es
1
= (x + 1)
4
d
y se anula en otro caso. Por tanto, para 0 < x < 2 tenemos
en
Z 2
4 1
E(Y |X = x) = (xy + y 2 ) dy
x+1 0 8
µ ¶
pr
1 8
= · 2x +
2(x + 1) 3
.a
3x + 4
=
3x + 3
w
y la curva de regresión es
3x + 4
w
44
luego,
Z " µ ¶2 #
£ ¤ 2
1 1−x 1
E (h(X) − E(Y ))2 = · (x + 1) dx
0 36 1+x 4
Z 2
1 (1 − x)2
= dx
144 0 1+x
Z 2 Z 2
1 1 4
= (x − 3) dx + dx
144 0 144 0 x + 1
1 1
= − + ln 3
36 36
Por consiguiente, obtenemos
£ ¤
E (h(X) − E(Y ))2
η2Y X =
om
V ar(Y )
µ ¶
36 1 1
= − + ln 3
11 36 36
= 0.009
.c
Obsérvese que X, Y son dependientes, pues η 2Y X 6= 0, pero la dependencia es
es
muy débil.
Disponemos ya de dos funciones que nos ayudan a entender una variable aleato-
en
que la primera siempre está definida para una variable aleatoria, mientras que
la segunda puede no estarlo.
w
Hasta ahora sólo hemos tratado con variables aleatorias reales. No obstante,
la definición de esperanza puede extenderse sin dificultades al caso de una vari-
w
de Z se define por
E(Z) = E(X) + iE(Y )
Un caso en que trataremos con variable aleatorias complejas es el de la función
característica de una variable aleatoria real X. Esta función es la esperanza de
la variable aleatoria compleja
eitX = cos tX + i sin tX
que depende del parámetro real t.
45
Para una variable aleatoria discreta X, tenemos
X
ϕ(t) = eitxn P (X = xn )
n
om
g(t) = etxn P (X = xn )
n
.c
f , tenemos Z +∞
g(t) = etx f (x) dx
es
−∞
Entonces, ϕ(t) existirá si E(cos tX) y E(t sin X) son finitos, pero
.a
y, por tanto, E(cos tX) es finito; lo mismo ocurre con E(sin tX). En el
w
1
f (x) =
π(1 + x2 )
w
46
Ejemplo 23 Calcular la función característica y la función generatriz de mo-
mentos de (1) la distribución de Poisson de parámetro λ y (2) la distribución
normal de parámetros µ = 0 y σ = 1.
Solución: (1) Para una variable aleatoria X con distribución de Poisson de
parámetro λ > 0 se tiene
λn −λ
P (X = n) = e (n = 0, 1, 2, ...)
n!
Por tanto,
∞
X
ϕ(t) = eitn P (X = n)
n=0
X∞
(λeit )n
= e−λ
om
n=0
n!
it
= e−λ eλe
£ ¤
= exp λ(eit − 1)
Además, se tiene
.c
es
∞
X
g(t) = etn P (X = n)
d
n=0
X∞
en
(λet )n
= e−λ
n=0
n!
t
= e−λ eλe
pr
£ ¤
= exp λ(et − 1)
.a
1 2
f (x) = √ e−x /2
2π
w
Por tanto,
Z +∞
w
1 2
ϕ(t) = eitx √ e−x /2 dx
−∞ 2π
Z +∞
1 2
= √ eitx−x /2 dx
2π −∞
Z
1 −t2 /2 +∞ −(x−it)2 /2
= √ e e dx
2π −∞
2
= e−t /2
47
Además, se tiene
Z +∞
1 2
g(t) = etx √ e−x /2 dx
−∞ 2π
Z +∞
1 2
= √ etx−x /2 dx
2π −∞
Z
1 t2 /2 +∞ −(x−t)2 /2
= √ e e dx
2π −∞
2
= et /2
om
siguiente distribución mixta
.c
y
f (x) = 0.04x
es
para 4 ≤ x ≤ 6, y cero en cualquier otro caso.
Solución: Por definición, tenemos
d
ϕ(t) = E(eitX )
en
X3 Z 6
= eitx P (X = n) + eitx · 0.04x dx
n=1 4
pr
Z 6
= 0.1eit + 0.2e2it + 0.3e3it + 0.04 xeitx dx
4
.a
pero
· ¸6
w
Z 6 Z 6
itx eitx eitx
xe dx = − dx
it it
w
4 4 4
· ¸
itx 6
e 1 £ itx ¤6
= − e 4
w
it 4 (it)2
e6it − e4it e6it − e4it
= +
it t2
luego,
µ ¶
it 2it 3it e6it − e4it e6it − e4it
ϕ(t) = 0.1e + 0.2e + 0.3e + 0.04 +
it t2
48
Teorema 10 La función característica ϕX de una variable aleatoria X (disc-
reta o absolutamente continua) satisface las siguientes propiedades:
om
¯ ¯
|ϕX (t)| = ¯E(eitX )¯
¯ ¯
≤ E(¯eitx ¯)
.c
= E(1)
= 1
es
ya que
¯ itx ¯ p
¯e ¯ = cos2 tx + sin2 tx = 1
d
ϕX (−t) = E(e−itX )
= E(cos tX − i sin tX)
.a
= ϕX (t)
(3) Tenemos
w
ϕY (t) = E(eitY )
w
= E(eit(aX+b) )
= E(eitaX eitb )
= eitb E(eitaX )
= eitb ϕX (aX)
(4) Tenemos
49
Ejemplo 25 Dadas n variables aleatorias X1 , X2 , ..., Xn , independientes y con
funciones características ϕ1 , ϕ2 , ..., ϕn , se define una nueva variable aleatoria Y
por
Xn
Y = (ai Xi + bi )
i=1
Calcular la función característica ϕ de Y .
Solución: Por definición, tenemos
ϕ(t) = E(eitY )
" Ã n
!#
X
= E exp it (ai Xi + bi )
i=1
" n
#
Y
= E exp it (ai Xi + bi )
om
i=1
.c
Y
ϕ(t) = E exp it (ai Xi + bi )
es
i=1
n
Y
= E [exp it (ai Xi + bi )]
d
i=1
Yn
£ ¤
en
= E eitai Xi · eitbi
i=1
Yn
¡ itbi ¡ ¢¢
pr
= e · E eitai Xi
i=1
Yn
.a
¡ itbi ¢
= e · ϕi (ai t)
i=1
w
Yn n
Y
= eitbi · ϕi (ai t)
w
i=1 i=1
à n
! n
X Y
w
= exp it bi · ϕi (ai t)
i=1 i=1
50
Cálculo de los momentos mediante la función característica
La utilidad práctica de la función característica se pone de manifiesto en el
siguiente teorema.
om
X dn ¡ ¢
= n
eitxk P (X = xk )
dt
k
.c
Ahora bien, tenemos
dn ¡ itxk ¢
e = in xnk eitxk
dtn
es
Por tanto, X
ϕ(n) (t) = in xnk eitxk P (X = xk )
d
k
en
k
= in E(X n )
= in mn
.a
Del mismo modo, para una variable aleatoria absolutamente continua, tenemos
w
·Z +∞ ¸
dn
ϕ(n) (t) = itx
w
e f (x) dx
dtn −∞
Z +∞
w
n
= i xn eitx f (x) dx
−∞
tomando t = 0, obtenemos
Z +∞
(n) n
ϕ (0) = i xn f (x) dx
−∞
= in E(X n )
= in mn
Obsérvese que si X tiene todos los momentos finitos, entonces la función carac-
51
terística puede desarrollarse en serie de Taylor en un entorno del punto x = 0
Z +∞
ϕX (t) = eitx f (x) dx
−∞
Z+∞ µ ¶
it (it)2 2 (it)n n
= 1+ x+ x + ··· + x + · · · f (x) dx
−∞ 1! 2! n!
Z +∞ Z +∞ Z
it (it)2 +∞ 2
= f (x) dx + x f (x) dx + x f (x) dx
−∞ 1! −∞ 2! −∞
Z
(it)n +∞ n
+··· + x f (x) dx + · · ·
n! −∞
it (it)2 (it)n
= 1+ m1 + m2 + · · · + mn + · · ·
1! 2! n!
om
Ejemplo 26 Hallar los dos primeros momentos de la distribución binomial de
parámetros n y p.
Solución: Recordemos que una variable aleatoria con distribución bino-
.c
mial de parámetros n y p es la suma de n variables aleatorias de Bernoulli de
parámetro p independientes. Una variable aleatoria X sigue una distribución
es
de Bernoulli de parámetro p si X toma sólo dos valores 1 (éxito) y 0 (fracaso)
con la siguiente distribución de probabilidad
½
d
p si x = 1
P (X = x) = (p + q = 1)
en
q si x = 0
luego, su función característica es
pr
parámetros n y p
Xn
Y = Xi
w
i=1
siendo cada Xi una variable aleatoria de Bernoulli de parámetro p. Entonces,
w
n
Y
ϕ(t) = ϕXi (t)
i=1
¡ it ¢n
= pe + q (p + q = 1)
Podemos pasar a calcular ahora los momentos pedidos. Se cumple
1 (n)
mn = ϕ (0) (k = 1, 2, 3, ...)
in
luego, tenemos
1 0
m1 = ϕ (0)
·i ¸
n(peit + q)n−1 · ipeit
=
i t=0
= np
52
y
1 00
m2 = 2
ϕ (0)
·i ¸
n(n − 1)(peit + q)n−2 · i2 p2 e2it + n(peit + q)n−1 · i2 peit
=
i2 t=0
= n(n − 1)p2 + np
om
E(X) = E(X 2 ) = · · · = E(X n ) = · · · = a
.c
entorno del punto x = 0
(it)2 (it)n
es
it
ϕX (t) = 1 + m1 + m2 + · · · + mn + · · ·
1! 2! n!
ita (it)2 a (it)n a
d
= 1+ + + ··· + + ···
1! µ 2! n! ¶
en
it (it)2 (it)n
= 1−a+a 1+ + + ··· + + ···
1! 2! n!
= 1 − a + aeit
pr
es decir,
ϕX (t) = 1 − a + aeit
.a
|ϕX (t)| ≤ 1
es decir,
w
¯ ¯
¯1 − a + aeit ¯ ≤ |1 − a| + |a| ≤ 1
w
luego
0≤a≤1
Poniendo ahora p = a y q = 1 − a, obtenemos
ϕX = q + peit
53
Teorema 13 Si una variable aleatoria X (discreta o absolutamente continua)
tiene todos sus momentos de orden n ∈ N finitos para la que existe la función
generatriz de momentos, entonces
om
−∞
Z +∞ µ ¶
t t2 2 tn n
= 1 + x + x + · · · + x + · · · f (x) dx
−∞ 1! 2! n!
.c
derivando sucesivamente respecto de t en t = 0, resulta
Z +∞ µ ¶ Z +∞
tn−1 n
es
g 0 (t) = x + tx2 + · · · + x + · · · f (x) dx =⇒ g 0 (0) = x f (x) dx = m1
−∞ (n − 1)! −∞
Z +∞ µ ¶ Z +∞
tn−2 n
d
00 2 00
g (t) = x + ··· + x + · · · f (x) dx =⇒ g (0) = x2 f (x) dx = m2
(n − 2)!
en
−∞ −∞
reiterando este proceso se concluye que
g (n) (0) = mn
pr
Los dos teoremas siguientes, que damos sin demostración, justifican esta última
afirmación.
El primero nos dice que cualquier función de distribución F (x) = P (X ≤ x)
está unívocamente determinada por su función característica. Como consecuen-
cia, la función característica caracteriza la variable aleatoria, en el sentido de
que dos variables aleatorias con la misma función característica tienen la misma
función de distribución.
54
Teorema 15 (Teorema de inversión) Sean ϕ y F la función característica y
la función de distribución de una varfiable aleatoria X. Entonces, para parejas
arbitrarias de puntos a y b (a < b) donde F es continua, se cumple la siguiente
fórmula Z c −ita
1 e − e−itb
F (b) − F (a) = lim ϕ(t) dt
c→+∞ 2π −c it
que suele llamarse fórmula de inversión.
om
mente continua F es diferenciable y F 0 (x) = f (x), entonces se cumple
Z +∞
1
f (x) = e−itx ϕ(t) dt
.c
2π −∞
siempre que |ϕ(t)| sea integrable en toda la recta real; dicho en otras palabras,
es
la función característica y la función de densidad son transformadas de Fourier
la una de la otra.
d
que puede resolverse, salvo casos sencillos, por el método de los residuos.
mula de inversión.
Teorema 16 Sea X una variable aleatoria discreta que toma los valores x1 , x2 , ..., xn , ...
.a
" Z T #
1 −itxn
w
(3) ¿Tiene momentos esta variable aleatoria? (4) Hallar la función de densidad
de la variable aleatoria X del apartado (2).
Solución: (1) Si X es simétrica, entonces X y −X se distribuyen de la
misma manera. Por tanto, X y −X tienen la misma función característica y,
por tanto,
ϕX (t) = ϕ−X (t) = ϕX (−t) = ϕX (t)
55
para todo t ∈ R. La condición ϕX (t) = ϕX (t) es equivalente a decir que ϕX (t)
es un número real y, en consecuencia, ϕX ha de ser una función real de variable
real par.
(2) Es claro que ϕX es una función real par, luego
om
2π −∞
y observando la gráfica de ϕX
.c
d es
en
pr
.a
w
podemos escribir
Z Z
w
0 1
1 1
f (x) = e−itx (1 + t) dt + e−itx (1 − t) dt
2π −1 2π 0
w
pero
Z 0 · ¸0 Z 0
e−itx 1
e−itx (1 + t) dt = (1 + t) − e−itx dt
−1 −ix −1 −ix −1
· ¸0
1 1 e−itx
= − +
ix ix −ix −1
1 1
= − − (1 − eix )
ix (ix)2
56
Por lo tanto, tenemos
· ¸ · ¸
1 1 1 ix 1 1 1 −ix
f (x) = − − (1 − e ) + + (e − 1)
2π ix (ix)2 2π ix (ix)2
1
= (2 − eix − e−ix )
2πx2µ ¶
1 eix + e−ix
= 1 −
πx2 2
1 − cos x
=
πx2
om
De manera análoga al caso unidimensional se define la función característica y la
función generatriz de momentos de variables aleatorias n-dimensionales. Como
hemos hecho en otros casos, aquí sólo trataremos el caso bidimensional, dejando
.c
la generalización para el lector. Trataremos sólo las funciones características y
dejaremos también al lector el trabajo de reescribir la definición y propiedades
es
de la función generatriz de momentos para variables aleatorias bidimensionales.
Se llama función característica de una variable aleatoria bidimensional (X, Y )
a la función
d
ϕ(u, v) = E [exp (i(uX + vY ))]
en
57
4. Si Z = X + Y , entonces
om
(2) Es claro que
.c
y del mismo modo se hace la otra relación.
(3) De la definición, mediante derivación parcial, es fácil deducir esta fór-
es
mula; se deja al lector su comprobación. Además, se puede demostrar que bajo
ciertas condiciones ϕXY admite un desarrollo en serie expresado en términos de
los momentos mixtos (al igual que ocurría en el caso unidimensional).
d
(4) En efecto,
en
=
= E(eiuX ) · E(eivY )
w
= ϕX (u) · ϕY (v)
w
58
y si el momento pedido existe, se puede calcular mediante
¸
1 ∂ 2 ϕXY (u, v)
m11 = 2 ·
i ∂u∂v u=v=0
om
¸
0.1i2 ei(u+v) + 0.2i2 ei(u+2v) + 0.4i2 ei(2u+v) + 2.4i2 ei(2u+2v)
m11 =
i2 u=v=0
= 3.1
.c
es
Ejemplo 30 Hallar la función característica de (X, Y ), sabiendo que la función
de densidad conjunta es
½
d
x + y si x, y ∈ (0, 1)
f (x, y) =
en
0 en otro caso
i(ux+vy)
= e (x + y) dx dy
0 0
w
Z 1Z 1 Z 1 Z 1
ivy iux
= e e x dx dy + eiux eivy y dx dy
w
0 0 0 0
Z 1Z 1 Z 1 · iux ¸1
xe eiux
eivy eiux x dx dy = eivy − dy
0 0 0 iu (iu)2 0
µ iu ¶Z 1
e eiu 1
= + 2 − 2 eivy dy
iu u u 0
µ iu ¶ · ivy ¸1
e eiu 1 e
= + 2 − 2
iu u u iv
µ iu iu
¶ µ iv 0 ¶
e e 1 e 1
= + 2 − 2 −
iu u u iv iv
y del mismo modo se obtiene
Z 1Z 1 µ iu ¶ µ iv ¶
iux ivy e 1 e eiv 1
e e y dx dy = − + 2 − 2
0 0 iu iu iv v v
59
Por consiguiente, obtenemos que
µ iu ¶ µ iv ¶ µ iu ¶ µ iv ¶
e eiu 1 e 1 e 1 e eiv 1
ϕ(u, v) = + 2 − 2 − + − + 2 − 2
iu u u iv iv iu iu iv v v
om
momentos y de su función característica. Pero en muchas situaciones tendremos
que analizar el comportamiento límite de una sucesión de variables aleatorias
definidas sobre un mismo espacio de probabilidades y no necesariamente inde-
pendientes. En esta sección nos ocuparemos de la convergencia de sucesiones
.c
de variables aleatorias. es
Tipos de convergencia
Sea (Xn ) una sucesión de variables aleatorias (reales) definidas sobre un mismo
d
espacio de probabilidades (Ω, A, P ). Para cada ω ∈ Ω, la sucesión (Xn (ω)) es
en
una sucesión de números reales que puede ser convergente o divergente según
sea ω. En otras palabras, la existencia o no del límite de la sucesión
lim Xn
pr
n→∞
para todo ω ∈ Ω.
Este tipo de convergencia se da en muy pocos casos y, en general, lo que
ocurre es que (7) se cumple sólo para un cierto subconjunto C de Ω, es decir,
un suceso de A; obsérvese que en el caso de convergencia segura C = Ω.
Un criterio de convergencia un poco menos fuerte es el de convergencia casi
segura o en probabilidad 1. Una sucesión de variables aleatorias (Xn ) se dice
60
que converge casi seguro a la variable aleatoria X si (7) se cumple sólo para
un suceso de probabilidad 1, es decir, si
n o
C = ω ∈ Ω : lim Xn (ω) = X(ω)
n→∞
entonces
P (C) = 1
Obsérvese que en el caso de convergencia casi segura P (C) = 0, siendo
n o
C = ω ∈ Ω : lim Xn (ω) 6= X(ω) 6= ∅
n→∞
om
c.s.
Xn −→ X
.c
matemático, salvo en conjuntos de probabilidad nula.
significa que para todo > 0 existe un número natural m tal que para todo
en
n ≥ m se cumple
|Xn (ω) − X(ω)| <
pr
entonces el conjunto
n o
C = ω ∈ Ω : lim Xn (ω) = X(ω)
.a
n→∞
∞ [
\ ∞ \ ∞ ½ ¾
1
C= ω ∈ Ω : |Xn (ω) − X(ω)| <
w
m=1 n=m
k
k=1
w
Convergencia en probabilidad
Una sucesión de variables aleatorias (Xn ) se dice que converge en probabil-
idad a la variable aleatoria X si para todo > 0 se cumple
o de forma equivalente
61
El concepto de convergencia en probabilidad es esencialmente distinto de la
convergencia determinista, pues (8) sólo afirma que dado > 0, la probabilidad
de que Xn difiera de X en más de es menor que una cantidad tan pequeña
como se quiera, a partir de un n suficientemente grande. En particular, (Xn )
converge en probabilidad a la constante a si
lim P ({ω ∈ Ω : |Xn (ω) − a| ≥ }) = 0
n→∞
om
pero esto no implica que sea pequeña para todo ω de un cierto subconjunto
C de Ω aunque n sea muy grande. En consecuencia, la convergencia en
probabilidad es un concepto más débil que la convergencia casi segura (ver
teorema 37).
.c
2. Indicamos a continuación las principales propiedades de la convergencia
es
en probabilidad:
P P
(a) Si Xn −→ X, entonces Xn − X −→ 0
d
P P
(b) Si Xn −→ X y g es una función continua, entonces g(Xn ) −→ g(X)
en
P P
(c) Si Xn −→ X y Yn −→ Y , y g es una función real continua de las
P
variables x, y, entonces g(Xn , Yn ) −→ g(X, Y ). En particular, se
pr
cumplen
P
Xn ± Yn −→ X ± Y
.a
P
Xn · Yn −→ X · Y
Xn P X P
−→ (Yn −→ Y 6= 0)
w
Yn Y
Con todo esto vemos que las sumas, productos y cocientes de suce-
w
62
Convergencia en distribución
Una sucesión de variables aleatorias X1 , X2 , ... con funciones de distribución
F1 , F2 , ... se dice que converge en distribución o en ley a la variable aleatoria
X con función de distribución F si
om
entes tipos de convergencia y que podemos resumir en el siguiente diagrama
casi segura en media cuadrática
& .
.c
en probabilidad
↓
es
en distribución
1
P lim sup ω ∈ Ω : |Xn (ω) − X(ω)| ≥ =0
k
pr
1
P lim sup ω ∈ Ω : |Xn (ω) − X(ω)| ≥ =0 (9)
k
w
1
Ank = ω ∈ Ω : |Xn (ω) − X(ω)| ≥ (k, n = 1, 2, 3, ...)
k
w
63
y, por tanto,
∞
X
P (C) ≤ P (lim sup Ank )
k=1
om
m=1 n=m k=1 m=1 n=m
y, por tanto,
P (C) ≥ P (lim sup Ank )
.c
Ahora bien, puesto que (Xn ) converge casi seguro a X, entonces P (C) = 0 y,
como consecuencia, obtenemos
es
µ ½ ¾¶
1
P (lim sup Ank ) = P lim sup ω ∈ Ω : |Xn (ω) − X(ω)| ≥ =0
k
d
en
µ ½ ¾¶
1
P lim sup ω ∈ Ω : |Xn (ω) − X(ω)| ≥ =0
.a
k
para todo k = 1, 2, 3, ..., es equivalente a la siguiente condición
w
X∞ µ½ ¾¶
1
w
64
para todo k = 1, 2, 3, ..., siendo
½ ¾
1
Ank = ω ∈ Ω : |Xn (ω) − X(ω)| ≥
k
om
es decreciente y, por tanto,
∞
\ ∞ [
\ ∞
lim Bmk = Bmk = Ank = lim sup Ank
.c
m→∞
m=1 m=1 n=m
es
De la propiedad de continuidad de la probabilidad, deducimos
³ ´
P (lim sup Ank ) = P lim Bmk = lim P (Bmk ) (11)
d
m→∞ m→∞
en
luego,
P (Amk ) ≤ P (Bmk )
w
es decir,
lim P (Amk ) ≤ 0
m→∞
65
Ejemplo 31 Sea (Xn ) una sucesión de variables aleatorias mutuamente inde-
pendientes tales que
½ 1
0 con probabilidad 1 − n+1
Xn = 1
1 con probabilidad n+1
om
a X = 0. En cambio, para todo > 0 se cumple
1
lim P ({ω ∈ Ω : |Xn (ω)| ≥ }) = lim =0
n→∞ n→∞ n+1
.c
y, por tanto, (Xn ) converge en probabilidad a X = 0.
es
A continuación demostraremos que la convergencia en media cuadrática (si
existe) es también un concepto más fuerte que el de convergencia en probabili-
dad.
d
en
E |Xn − X|2
P (|Xn − X| ≥ ) ≤ 2
w
£ ¤
lim E (Xn − X)2 = 0
n→∞
w
y, por tanto,
lim P (|Xn − X| ≥ ) = 0
n→∞
Probar que: (1) (Xn ) converge en probabilidad a 0; (2) (Xn ) no converge casi
seguramente a 0; (3) (Xn ) converge en media cuadrática a 0.
66
Solución: (1) En efecto, es evidente que para todo > 0 se cumple
1
P (|Xn | ≥ ) = P (Xn = 1) =
n
y, por tanto,
1
lim P (|Xn | ≥ ) = lim =0
n→∞ n→∞ n
om
(3) En efecto,
µ ¶
¡ ¢ 1 1 1
E Xn 2 = 02 · 1 − + 12 · =
.c
n n n
y, por tanto, ¡ ¢
es
lim E Xn 2 = 0
n→∞
Xn =
n con probabilidad n12
w
1
P (|Xn | ≥ ) = P (Xn = n) = <∞
n=1 n=1 n=1
n2
w
67
Teorema 20 La convergencia en probabilidad implica la convergencia en dis-
tribución.
Demostración: Supongamos que la sucesión de variables aleatorias (Xn )
converge en probabilidad a la variable aleatoria X. Sean Fn (n = 1, 2, ...) y F
las funciones de distribución de Xn (n = 1, 2, ...) y X. Tenemos
luego,
P (Xn ≤ x) = P (X ≤ y) + P (Xn ≤ x, X > y)
es decir,
Fn (x) = F (y) + P (Xn ≤ x, X > y) (12)
om
Si y > x, entonces
.c
y, por tanto,
P (Xn ≤ x, X > y) ≤ P (|Xn − X| ≥ y − x)
es
De aquí y de (12), obtenemos
P
pero, por hipótesis, Xn −→ X, entonces
lim P (|Xn − X| ≥ ) = 0
n→∞
pr
luego,
P (X ≤ y) = P (Xn ≤ x) + P (Xn > x, X ≤ y)
es decir,
F (y) = Fn (x) + P (Xn > x, X ≤ y) (14)
Si y < x, entonces
y, por tanto,
P (Xn > x, X ≤ y) ≤ P (|Xn − X| ≥ x − y)
De aquí y de (14), obtenemos
68
P
pero, por hipótesis, Xn −→ X, entonces
lim P (|Xn − X| ≥ ) = 0
n→∞
F (x − ) ≤ lim Fn (x) ≤ F (x + )
n→∞
F (x − ) = F (x + ) = F (x)
om
y, por tanto, deducimos
lim Fn (x) = F (x)
n→∞
.c
que es lo que queríamos demostrar. es
Observación 20 El recíproco, en general, no es cierto (ver ejemplo 54).
½
Y si n es par
Xn =
−Y si n es impar
.a
y se cumple
1 1
P (|X2n−1 − Y | ≥ 1) = P (2 |Y | ≥ 1) = P (|Y | ≥ 1/2) = + =1
2 2
para todo n = 1, 2, 3, ..., y, por tanto,
lim P (|X2n−1 − Y | ≥ 1) = 1 6= 0
n→∞
69
No obstante, si una sucesión de variables aleatorias converge en distribución
a una constante no aleatoria, entonces el siguiente teorema prueba que la con-
vergencia en distribución implica la convergencia en probabilidad a la constante.
y, por tanto, ½
0 si x ≤ c
F (x) =
1 si x > c
om
De este modo, para > 0 tenemos
.c
= Fn (c − ) + 1 − Fn (c + )
luego,
es
lim P (|Xn − c| > ) = F (c − ) + 1 − F (c + ) = 0 + 1 − 1 = 0
n→∞
d
70
Las leyes de los grandes números
Sea (Xn ) una sucesión de variables aleatorias definidas sobre un mismo espacio
de probabilidades (Ω, A, P ). Consideremos la sucesión de sumas parciales (Sn )
definida por
Xn
Sn = Xk
k=1
El nombre genérico de "leyes de los grandes números" hace referencia a un con-
junto de teoremas que tratan sobre el comportamiento asintótico de (Sn ) cuando
n tiende a infinito. El problema general consiste en encontrar las condiciones
que aseguren la existencia de límites de la forma
µ ¶
Sn − an
lim
n→∞ bn
om
siendo (an ) y (bn ) sucesiones (no aleatorias) de números reales.
.c
Se dice que una sucesión (Xn ) de variables aleatorias satisface una ley débil
de los grandes números si existen sucesiones numéricas (an ) y (bn ) tales que
es
Sn −an P
bn −→ 0
d
Una condición suficiente para que una sucesión satisfaga la ley débil de los
en
Sn −E(Sn ) P
−→ 0
w
n
Sn −E(Sn )
Demostración: Por la desigualdad de Tchebichev aplicada a n
w
obtenemos ³ ´
¯ ¯ E |S − E(S )|
2
¯ Sn − E(Sn ) ¯ n n
P (¯¯ ¯≥ )≤
¯
n n2 2
para todo > 0. Ahora bien, como las variables aleatorias Xn (n = 1, 2, 3, ...)
son mutuamente independientes, se cumple
³ ´
2
E (Sn − E(Sn )) = V ar(Sn )
à n !
X
= V ar Xk
k=1
n
X
= V ar(Xk )
k=1
≤ nα
71
Por tanto,
³ ´
¯ ¯ E |Sn − E(Sn )|
2
¯ Sn − E(Sn ) ¯ α
P (¯¯ ¯≥ )≤
¯ 2 2
≤ 2
n n n
y, en consecuencia, ¯ ¯
¯ Sn − E(Sn ) ¯
lim P (¯¯ ¯≥ )=0
¯
n→∞ n
para todo > 0.
om
E(Xn ) = µ (n = 1, 2, 3, ...)
y varianzas finitas y acotadas por una misma constante
σ2n ≤ α
X n
X
E(Sn ) = E Xk = E(Xk ) = nµ
k=1 k=1
pr
Sn − nµ X1 + X2 + · · · + Xn
= −µ
n n
w
X1 + X2 + · · · + Xn
n
w
converge en probabilidad a µ.
72
A en n pruebas independientes de un experimento aleatorio. La frecuencia
relativa de A en las n pruebas es
Nn
fn (A) =
n
Ahora bien, podemos escribir Nn en la forma
Nn = X1 + X2 + · · · + Xn
donde las Xk son variables aleatorias independientes que sólo pueden tomar
los valores 1 o 0 según ocurra o no ocurra A. Si además suponemos que
la probabilidad de que ocurra A es la misma en todas las pruebas, tenemos
½
1 con P (Xk = 1) = p
Xk =
om
0 con P (Xk = 0) = 1 − p
.c
µ = E(Xk ) = 1 · p + 0 · (1 − p) = p
es
y entonces, aplicando la ley clásica de los grandes números, obtenemos
P
fn (A) −→ p = P (A)
d
siendo µ = E(Xn ).
w
1. n
1X k P
X −→ E(Xnk )
n i=1 i
2. n
1X P
(Xi − E(Xi ))2 −→ V ar(Xn )
n i=1
73
Ley fuerte de los grandes números
Se dice que una sucesión (Xn ) de variables aleatorias satisface una ley fuerte
de los grandes números si existen sucesiones numéricas (an ) y (bn ) tales que
Sn −an c.s.
bn −→ 0
om
y momentos centrales finitos y acotados hasta el orden cuatro
E (|Xn − µ|r ) ≤ αr (0 < r ≤ 4)
para todo n ∈ N. Entonces
.c
X1 +X2 +···+Xn c.s.
n −→ µ
es
Observación 24 En la observación 30 hemos visto la ley clásica de los grandes
números según la cual dado un suceso de probabilidad p, en una serie de pruebas
de un experimento aleatorio, la frecuencia relativa se aproxima a p. Ahora,
d
tales que
X∞
σ 2n
<∞
w
b2
n=1 n
w
bn
En particular, si
X∞
σ 2n
<∞
n=1
n2
entonces
Sn −E(Sn ) c.s.
n −→ 0
Teorema 27 (Teorema de Kolgomorov) La condición necesaria y suficiente
para que una sucesión (Xn ) de variables aleatorias independientes e idéntica-
mente distribuidas cumpla la siguiente ley fuerte
X1 +X2 +···+Xn c.s.
n −→ µ
siendo µ = E(Xn ) (n = 1, 2, 3, ...), es que
E(|Xn |) < ∞
74
Observación 25 Si las variables aleatorias Xn son idénticamente distribuidas,
es decir, todas tienen la misma función de distribución, entonces desaparece la
restricción de que las varianzas sean finitas.
om
para todo x ∈ (e, +∞) y se anula en cualquier otro caso.
Solución: Según el teorema de Kolgomorov, en ambos casos hemos de com-
probar que Z
.c
+∞
E(|Xn |) = |x| · fn (x) dx < ∞
−∞
es
para que la sucesión satisfaga la ley fuerte de los grandes números.
(1) En este caso tenemos
d
Z +∞ Z +∞
en
y, por tanto, la sucesión satisface la ley fuerte de los grandes números. Además,
pr
como Z +∞
µ = E(Xn ) = x · e−|x| dx = 0
.a
−∞
entonces
X1 + X2 + · · · + Xn c.s.
w
−→ 0
n
w
+∞
e
E(|Xn |) = |x| · dx
e x2 ln x
Z +∞
1
= e dx = ∞
e x ln x
75
y sea f cualquier función continua y acotada en R, entonces
· µ ¶¸
X1 + X2 + · · · + Xn
E f −→ f (µ)
n
Demostración: Sea Sn = X1 + X2 + · · · + Xn , entonces por ser f una
función continua y acotada, tenemos
µ ¶ µ ¶
Sn Sn
lim f = f lim
n→∞ n n→∞ n
om
Sn
f −→ f (µ)
n
y, por tanto, · µ ¶¸
Sn
.c
E f −→ f (µ)
n
es
Mediante este teorema de naturaleza totalmente probabilística puede demostrarse
d
algunos resultados clásicos del análisis matemático. A continuación, a modo de
ejemplo, damos uno de estos resultados.
en
Xn =
0 con probabilidad 1 − p
w
µ = E(Xn ) = p (n = 1, 2, 3, ...)
76
pero si f es continua y acotada en [0, 1], por el teorema 47, deducimos
· µ ¶¸
X1 + X2 + · · · + Xn
lim E f = f (µ) = f (p)
n→∞ n
om
k=0
.c
n→∞
½ ½
1 si x ∈ [0, 1] 1 si y ∈ [0, 1]
fXn (x) = y fYn (y) =
0 si x ∈/ [0, 1] 0 si y ∈/ [0, 1]
w
½
1 si f (Xn ) > Yn
Zn = (n = 1, 2, 3, ...)
0 si f (Xn ) < Yn
Es claro que
77
Por tanto,
Z 1 Z f (x) Z 1
P (f (Xn ) > Yn ) = 1 dx dy = f (x) dx
0 0 0
es decir, Ã !
Z n
1
1X
f (x) dx = lim Zk
0 n→∞ n
k=1
om
El teorema del límite central
Las leyes de los grandes números son resultados sobre convergencia en proba-
bilidad y convergencia casi segura de sucesiones del tipo
.c
Sn − an
(16)
es
bn
hacia cero, con
n
X
d
Sn = Xk
en
k=1
de números reales (no aleatorios) tales que la variable aleatoria suma Sn cumple
w
Sn − an D
−→ Z
bn
w
78
Consideremos ahora las variables aleatorias
n
1 X Sn − nµ
Zn = √ Yi = √
σ n i=1 σ n
ϕn (t) = E(eitZn )
" Ã !#
om
n
it X
= E exp √ Yi
σ n i=1
.c
·
n
Y µ ¶¸
itYi
es
ϕn (t) = E exp √
i=1
σ n
Yn µ ¶
t
d
= ϕYi √
i=1
σ n
en
Ahora bien, las variables Yn están idénticamente distribuidas y, por tanto, todas
ellas tienen la misma función característica ϕ. Así, tenemos
pr
· µ ¶¸n
t
ϕn (t) = ϕ √ (17)
σ n
.a
µ ¶ µ ¶
t t t2 1
ϕ √ = ϕ(0) + √ ϕ0 (0) + 2 ϕ00 (0) + O
w
σ n σ n 2σ n n3/2
w
en donde el símbolo µ ¶
1
O
n3/2
indica que el resto de los términos de la serie son infinitésimos de orden igual o
superior a 1/n3/2 cuando n tiende a infinito. De las propiedades de la función
característica (ver los teoremas 29 y 31), obtenemos
Así, tenemos µ ¶ µ ¶
t t2 1
ϕ √ =1− +O
σ n 2n n3/2
79
Por tanto, de (17), tenemos
· µ ¶¸n
t
lim ϕn (t) = lim ϕ √
n→∞ n→∞ σ n
· µ ¶¸n
t2 1
= lim 1 − +O
n→∞ 2n n3/2
· 2 n
¸
t
= lim 1 −
n→∞ 2n
2
= e−t /2
om
σ n
.c
de distribución de Zn también tenderá a la función de distribución normal es-
tándar.
es
Observación 26 En la práctica, podemos hacer la aproximación
√
d
Sn = X1 + X2 + · · · + Xn ≈ N (nµ, σ n)
en
Yn = Xn (n = 1, 2, 3, ...)
k=1
w
µ = E(Xn )
∞
X
= n · P (Xn = n)
n=0
X∞
2n
= n · e−2
n=0
n!
∞
X 2n
= e−2
n=1
(n − 1)!
X∞
−2 2n−1
= 2e
n=1
(n − 1)!
= 2e−2 · e2 = 2
80
y como
∞
X
E(Xn2 ) = n2 · P (Xn = n)
n=0
X∞
2n
= n2 · e−2
n=0
n!
∞
X n2n
= e−2
n=1
(n − 1)!
X∞
n2n−1
= 2e−2
n=1
(n − 1)!
∞ µ
X (n − 1)2n−1 ¶
2n−1
= 2e−2 +
om
n=1
(n − 1)! (n − 1)!
X∞ X∞
2 −2 2n−2 −2 2n−1
= 2 e + 2e
(n − 2)! (n − 1)!
.c
n=2 n=1
= 4e−2 · e2 + 2e−2 · e2 = 6
es
tenemos
2
V ar(Xn ) = E(Xn2 ) − (E(Xn )) = 6 − 4 = 2
d
Aplicando el teorema de Lévy-Lindeberg, obtenemos
en
Yn − 2n D
√ −→ Z ∼ N (0, 1)
2n
pr
10
se distribuye aproximadamente como una normal estándar. Como consecuencia,
w
obtenemos
µ ¶
90 − 100 Y50 − 100 110 − 100
w
= 0.8413 − 0.1587
= 0.6826
81
Entonces,
p p p √
µ = E(Xn ) = p y σ= V ar(Xn ) = p − p2 = p(1 − p) = pq
siendo q = 1 − p. Por el teorema de Lévy-Lindeberg,
Sn − np D
√ −→ Z ∼ N (0, 1)
npq
om
se distribuye como una binomial de parámetros n y p, el teorema de De Moivre-
Laplace también establece que
√
Sn = X1 + X2 + · · · + Xn ≈ N (np, npq)
.c
es decir, podemos aproximar la distribución binomial de parámetros n y p por
√
una normal de parámetros µ = np y σ = npq, siempre que n sea suficiente-
es
mente grande.
Ejemplo 37 Se lanza 1000 veces una moneda perfecta. Si sale cara en la prueba
d
k-ésima hacemos Xk = 1 y si sale cruz, Xk = 0. Calcular
à !
en
1000
X
P 500 < Xk < 550
k=1
pr
Sn − np D
√ −→ Z ∼ N (0, 1) (q = 1 − p)
npq
w
siendo n
X
w
Sn = Xk
k=1
w
82
El teorema 48 es una versión del teorema del límite central. Otra versión,
menos restrictiva, viene dada por el teorema de Liapunov. En concreto, este teo-
rema no exige que las variables aleatorias de la sucesión dada sean idénticamente
distribuidas. Enunciaremos este teorema sin hacer la demostración.
1 X h i
n
3
lim 3 E |Xk − µk | = 0
n→∞ σ
Sn k=1
siendo n
X
Sn = Xk
om
k=1
y
n
X
σ 2Sn = σ 2k
.c
k=1
entonces
es
Sn − E(Sn ) D
p −→ Z ∼ N (0, 1)
V ar(Sn )
d
Observación 28 Este resultado es fundamental para la gran mayoría de apli-
caciones prácticas. Por ejemplo, gracias a este resultado podemos suponer que
en
muchas variables aleatorias como pesos, alturas, etc. siguen una distribución
normal, porque cada una de ellas es suma de un gran número de variables aleato-
rias independientes. Así la altura de una persona es suma de muchos factores:
pr
braciones, error de apreciación, etc. Por tal motivo los errores aleatorios siguen
también una distribución normal.
w
83
La respuesta a esta pregunta tiene implicaciones muy importantes en la práctica,
pues, si la convergencia es rápida, entonces podremos aproximar Fn por Φ para
valores de n relativamente pequeños, mientras que si la convergencia es lenta,
la aproximación de Fn por Φ sólo se podrá hacer para valores grandes o muy
grandes de n. En muchos casos la situación es de este modo como se pone de
manifiesto en el siguiente teorema que damos sin demostración.
om
y sea Φ la función de distribución normal estándar
Z x
1 2
Φ(x) = √ e−t /2 dt
2π −∞
Entonces, se cumple
.c
es
cγ n
|Fn (x) − Φ(x)| ≤ (18)
σ 3Sn
para todo x ∈ R y n ∈ N, siendo c es una constante tal que
d
en
1
c≥ √
2π
n
X
pr
σ 2Sn = σ 2k
k=1
.a
y
n
X h i
γn = E |Xk − µk |3
w
k=1
w
84
siendo q = 1 − p. En este caso (18) se expresa como sigue
c(p2 + q 2 )
|Fn (x) − Φ(x)| ≤ √
npq
om
½
1 con probabilidad pn
Xnk = (k = 1, 2, ...n)
0 con probabilidad 1 − pn
.c
Dicho de otro modo, tenemos una sucesión bidimensional de variable aleatorias
de Bernoulli
es
X11
X21 , X22
X31 , X32 , X33
d
···
en
n
X
Sn = Xnk
.a
k=1
Si
lim pn = 0
w
n→∞
de manera que
w
entonces
e−λ λk
lim P (Sn = k) = (k = 0, 1, 2, ...)
n→∞ k!
es decir, la distribución de la variable suma Sn tiende a una distribución de
Poisson.
Demostración: Al ser las variables aleatorias Xnk independientes, la fun-
ción característica ϕn de Sn se escribe como sigue
n
Y ¡ ¢
ϕn (t) = E eitXnk
k=1
85
para k = 1, 2, ..., n. Por tanto, obtenemos
£ ¤n
ϕn (t) = 1 + pn (eit − 1) (19)
Si
lim pn = 0
n→∞
de manera que
lim npn = λ > 0
n→∞
om
luego, de (19), obtenemos
· µ ¶¸n
λ it 1
ϕn (t) = 1 + (e − 1) + O
n n2
.c
y, en consecuencia, £ ¤
es
lim ϕn (t) = exp λ(eit − 1)
n→∞
e−λ λk
lim P (Sn = k) = (k = 0, 1, 2, ...)
n→∞ k!
pr
n
X
Sn = Xk
w
k=1
w
86
Teorema 33 Sea X una variable aleatoria de Poisson con parámetro λ y con-
sideremos la siguiente variable aleatoria
X −λ
Yλ = √
λ
Entonces, cuando λ tiende a infinito, la distribución de Yλ tiende a la distribu-
ción normal estándar.
Demostración: Por las propiedades de la función característica, obtenemos
la función característica de Yλ
µ ¶
¡ ¢ √ t
ϕλ (t) = E eitYλ = e−it λ ϕX √
λ
donde ϕX es la función característica de X, es decir,
om
£ ¤
ϕX (t) = exp λ(eit − 1)
Por tanto,
µ ¶ h √ i
.c
√ t √
ϕλ (t) = e−itλ
ϕX √ = exp −it λ + λ(eit/ λ − 1)
λ
es
√ √
Si λ tiende a infinito, podemos desarrollar eit/ λ
en serie de potencias de 1/ λ
µ ¶
d
√ it t2 1
eit/ λ
=1+ √ − +O
λ 2λ λ3/2
en
√ t 1
ϕλ (t) = exp −it λ + λ(eit/ λ − 1) = exp − + O
2 λ1/2
.a
y, en consecuencia, tenemos
2
lim ϕλ (t) = e−t /2
w
n→∞
modo, por el teorema de Glivenko (ver teorema 41), deducimos que cuando λ
w
Corrección de continuidad
En las aplicaciones prácticas, para aproximar una distribución discreta, como
lo son la binomial y la de Poisson, a una distribución normal estándar que es
absolutamente continua, hay que utilizar la corrección de continuidad.
Como consecuencia del teorema de De Moivre-Laplace, para n grande, la
distribución binomial de parámetros n y p puede considerarse
p aproximadamente
una distribución normal de parámetros µ = np y σ = np(1 − p). Así, si X es
un variable aleatoria binomial de parámetros n y p, cuya función de distribución
es
[x] µ ¶
X n k
F (x) = p (1 − p)n−k
k
k=0
87
Entonces, la fórmula de la aproximación con corrección de continuidad de la
binomial a la normal estándar es
b µ ¶
X n k
P (a ≤ X ≤ b) = p (1 − p)n−k = P (a − 0.5 ≤ X ≤ b + 0.5)
k
k=a
Z b0
1 2
' √ e−t /2 dt = Φ(b0 ) − Φ(a0 )
2π a0
para cualquier pareja de enteros no negativos a y b (b > a), siendo
a − np − 0.5 b − np + 0.5
a0 = p y b0 = p
np(1 − p) np(1 − p)
om
p ≥ 0.9 o n < 30, la aproximación es aceptable si np > 5. Si p ' 0.5, la
proximación sigue siendo válida si np > 3, incluso para valores muy moderados
de n. Si n ≥ 30, 0.1 ≥ p ≥ 0.9 y np ≤ 5, la binomial puede aproximarse a
.c
una distribución de Poisson de parámetro λ = np por el teorema de Poisson.
Finalmente, si n < 30 y np ≤ 5, la binomial debe calcularse directamente como
es
una binomial, utilizando las tablas.
En el teorema 52 hemos demostrado que la distribución de Poisson √ puede
aproximarse por la distribución normal de parámetros µ = λ y σ = λ, si
d
el parámetro λ es suficientemente grande. En la práctica, la aproximación se
considera aceptable si λ > 5, mejorando a medida que aumenta λ. La fórmula
en
b0
1 2
' √ e−t /2
dt = Φ(b0 ) − Φ(a0 )
2π a0
w
a − λ − 0.5 b − λ + 0.5
a0 = √ y b0 = √
w
λ λ
Ejemplo 38 Se sabe que el 1 % de los artículos importados de un determinado
país tiene algún defecto. Si tomamos una muestra de 30 artículos, determinar
la probabilidad de que tres o más de ellos tengan algún defecto.
Solución: Es claro que el número X de artículos con algún defecto de la
muestra sigue una distribución binomial de parámetros n = 30 y p = 0.01.
Luego, la probabilidad que nos piden es P (X ≥ 3). Para calcularla, podemos
hacer una aproximación a la distribución de Poisson, pues p ≤ 0.1, n ≥ 30 y
np ≤ 5. En este caso, el parámetro de la distribución de Poisson es λ = np = 0.3.
Por tanto,
88
Ejemplo 39 Calcular las siguientes probabilidades, directamente y por aprox-
imación a la distribución normal estándar: (1) P (3 ≤ X ≤ 6), siendo X una
variable aleatoria binomial de parámetros n = 20 y p = 0.26, y (2) P (2 ≤ X ≤
10), donde X es una variablea aleatoria de Poisson de parámetro λ = 6.
Solución: (1) Utilizando las tablas de la distribución binomial, obtenemos
directamente
X6 µ ¶
20
P (3 ≤ X ≤ 6) = · 0.26k · 0.7420−k = 0.67697
k
k=3
p √
Puesto que µ = np = 20 · 0.26 = 5.2 y σ = np(1 − p) = 20 · 0.26 · 0.74 =
1.96, por aproximación a la distribución normal estándar, tenemos
P (3 ≤ X ≤ 6) = P (3 − 0.5 ≤ X ≤ 6 + 0.5)
om
= P (2.5 ≤ X ≤ 6.5)
µ ¶
2.5 − 5.2 X − 5.2 6.5 − 5.2
' P ≤ ≤
1.96 1.96 1.96
.c
= P (−1.378 ≤ Z ≤ 0.663)
= 0.66225
es
donde Z ∼ N (0, 1). Observamos que la aproximación es aceptable.
d
(2) Utilizando las tablas de la distribución de Poisson, obtenemos directa-
mente
en
X10
6k
P (2 ≤ X ≤ 10) = e−6 = 0.94003
k!
k=2
√
pr
µ ¶
1.5 − 6 X −6 10.5 − 6
' P √ ≤ √ ≤ √
w
6 6 6
= P (−1.837 ≤ Z ≤ 1.837)
w
= 0.93375
89