Está en la página 1de 14

Captulo 4

Esperanza de Variables
Aleatorias Discretas
Considere que participamos en un cierto juego de azar. Para poder jugar, debemos pagar una cuota
de a dolares y como resultado de jugar recibimos X dolares, donde X es una variable aleatoria con
{x1, x2, . . . , xr} como sus valores posibles. La pregunta es, Deberamos jugar el juego?. Si es que vamos
a jugar una sola vez, entonces esta pregunta es muy difcil. Sin embargo, supongamos que jugamos un
gran n umero de veces. Despues de n juegos pagaramos na dolares y recibiramos X1 + +Xn dolares.
Si asumimos que los sucesivos juegos constituyen repeticiones independientes del mismo experimento
(observando un valor de X) entonces podemos tomar a las variables aleatorias X1 + + Xn como
mutuamente independientes y con densidad com un f de X. Sea Nn(xi) que denote el numero de
juegos en los que obtuvimos el valor xi, es decir, el n umero de X

i
s que asumieron el valor xi. Entonces
podemos escribir
X1 + + Xn =
r

i=1
xiNn(xi).
La cantidad promedio recibida es entonces
X1 + + Xn
n
=
r

i=1
xi
_
Nn(xi)
n
_
.
De acuerdo a la interpretacion de la frecuencia relativa, si n es grande, los n umeros Nn(xi)/n deberan
ser aproximadamente igual a f(xi), y por tanto la suma de la derecha debera ser aproximadamente
igual a =

r
i=1
xif(xi). Por tanto, parece razonable anticipar una ganancia neta al jugar si > a y
el esperar una perdida neta si < a. Si = a entonces anticiparamos el quedarnos tablas.
La cantidad

r
i=1
xif(xi) es llamada la esperanza de la variable aleatoria X. Mas a un, sea X una
variable aleatoria discreta la cual asume un n umero nito de valores x1, . . . , xr. Entonces el valor
esperado de X, denotado por EX o por , es el n umero
(4.1) EX =
r

i=1
xif(xi),
donde f es la densidad de X.
Suponga que X tiene distribucion uniforme en el conjunto {x1, . . . , xr}. Entonces f(xi) = P(X =
xi) = r
1
, y de (4.1) vemos que EX = (x1 + +xr)r
1
, as que en este caso, EX solo es el promedio
aritmetico de los posibles valores de X. En general, (4.1) muestra que EX es un promedio ponderado
de los posibles valores de X; el peso unido a el i-esimo valor xi es su probabilidad f(xi).
El valor esperado EX es tambien llamado la media de X (o de la densidad f de X) y es denotado
frecuentemente por . La media es una forma de tratar de resumir una distribucion de probabilidad
por un solo numero que se supone representa un valor tpico de X. Que tan bueno es esto depende
de cuan cerca los valores de X se aglomeren alrededor del valor . Examinaremos esta pregunta con
mas detalle cuando discutamos la varianza de X en la Seccion 4.3.
Ejemplo 1 Distribucion Binomial. Sea X una variable aleatoria con distribucion binomial de
parametros n y p. Encuentre EX.
Para n = 1, X asume los valores 0 y 1 con probabilidades 1 p y p respectivamente. As
EX = 0 P(X = 0) + 1 P(X = 1) = p.
Ya que una variable aleatoria con densidad binomial con parametros n y p es solamente una variable
aleatoria indicadora, vemos que podemos encontrar la probabilidad del evento A para el cual X = 1
calculando la esperanza de su indicador.
Ahora calculemos EX para cualquier n 1. En este caso X asume los valores 0, 1, 2, . . . , n, y
EX =
n

j=0
j
_
n
j
_
p
j
(1 p)n j.
Para calcular esta cantidad observamos que
j
_
n
j
_
=
jn!
j!(n j)!
=
n(n 1)!
(j 1)![(n 1) (j 1)]!
= n
_
n 1
j 1
_
.
Entonces
EX = n
n

j=1
_
n 1
j 1
_
p
j
(1 p)
nj
.
Haciendo el cambio de variable i = j 1 observamos que
EX = np
n1

i=0
_
n 1
i
_
p
i
(1 p)
ni1
.
Por el teorema del Binomio
n1

i=0
_
n 1
i
_
p
i
(1 p)
ni1
= [p + (1 p)
n1
] = 1
as vemos que
EX = np.
4.1. Denici on de Esperanza
Suponga ahora que X es una variable aleatoria discreta con x1, x2, . . . sus valores posibles. Nos
gustara denir la esperanza de X como
(4.2) EX =

j=1
xjf(xj).
Si X solo toma un n umero nito de valores x1, . . . , xr, entonces (4.2) no es mas que nuestra denicion
previa. En el caso general discreto, esta denicion es valida solamente si la suma

j
xjf(xj) esta bien
denida. Para que este sea el caso requerimos que

j
|xj|f(xj) < . Esto nos conduce a la siguiente
Denicion 1 Sea X una variable aleatoria discreta con densidad f. Si

j
|xj|f(xj) < , decimos
que X tiene esperanza nita y denimos su esperanza por (4.2). Por otro lado, si

j
|xj|f(xj) = ,
decimos que X no tiene esperanza nita y EX no esta denida.
Si X es una variable aleatoria no-negativa, el hecho de que X tenga esperanza nita usualmente se
denota por EX < .
Ejemplo 2 Distribucion de Poisson. Sea X una variable aleatoria con distribucion de Poisson con
parametro p. Encuentre EX.
Ahora
EX =

j=0
jp(1 p)
j
= p(1 p)

j=0
j(1 p)
j1
= p(1 p)

j=0
d
dp
(1 p)
j
.
Ya que una serie de potencias puede ser diferenciada termino a termino, se sigue que
EX = p(1 p)
d
dp

j=0
(1 p)
j
.
Utilizando la formula para la suma de una progresion geometrica, vemos que
EX = p(1 p)
d
dp
_
1
p
_
= p(1 p)
_
1
p
2
_
.
Como consecuencia
EX =
1 p
p
.
Ahora consideraremos un ejemplo de una densidad que no posee esperanza nita.
Ejemplo 3 Sea f la funcion denida en R por
f(x) =
_

_
1
x(x+1)
, x = 1, 2, . . . ,
0, en caso contrario.
La funcion f obviamente satisface las propiedades 1 y 2 de la denicion de funciones de densidad dada
en el Captulo 3. Para ver que f satisface la propiedad 3 notemos que
1
x(x + 1)
=
1
x

1
x + 1
y entonces

x=1
f(x) =

x=1
_
1
x

1
x + 1
_
= (1
1
2
) + (
1
2

1
3
) + = 1.
Por lo tanto se cumple 3 y f es una densidad. Ahora f no tiene esperanza nita porque

x=1
|x|f(x) =

x=1
1
x + 1
y es bien sabido que la serie armonica

x=1
x
1
no converge.
4.2. Propiedades de la esperanza
Usualmente queremos calcular la esperanza de una variable aleatoria como Z = X1 +X2 o Z = X
2
que es en si misma una funcion (X) del vector aleatorio X. Por supuesto, si conocemos la densidad fZ
de Z, esto se puede hacer utilizando (4.2). Muy frecuentemente, sin embargo, la densidad de Z puede
no ser conocida, o el calculo de EZ a partir de una densidad conocida de Z puede ser muy difcil.
Nuestro siguiente resultado nos dara una forma de decidir si Z tiene esperanza nita y, en caso de que
la tenga, el metodo para calcular EZ directamente en terminos de la densidad fX y de la funcion .
Antes de mencionar este resultado introducimos una convencion sobre la notacion. Sea X un vector
aleatorio discreto r-dimensional con posibles valores x1, x2, . . . y densidad f, y sea una funcion real
denida en R
r
. Entonces
(4.3)

x
(x)f(x) =

j
(xj)f(xj).
Teorema 1 Sea X un vector aleatorio discreto con densidad f, y sea una funcion real denida en
R
r
. Entonces la variable aleatoria Z = (X) tiene esperanza nita si y solo si
(4.4)

x
|(x)|f(x) <
y, cuando se cumple (4.4),
(4.5) EZ =

x
(x)f(x).
Demostracion: Sean z1, z2, . . . que denoten los posibles valores de Z y sean x1, x2, . . . los posibles
valores de X. Para todo zj existe al menos un xi tal que zj = (xi), pero puede haber mas de una de
tales xi. Sea Aj la coleccion de tales x

i
s, esto es
Aj := {xi|(xi) = zj}.
Entonces {X Aj} y {Z = zj} denotan los mismos eventos. por tanto
P(Z = zj) = P(X Aj) =

xAj
fX(x).
Como consecuencia,

j
|zj|fZ(zj) =

j
|zj|P(Z = zj)
=

j
|zj|

xAj
fX(x)
=

xAj
|zj|fX(x).
Ya que (x) = zj para todo x Aj, se sigue que

j
|zj|fZ(zj) =

xAj
|(x)|fX(x).
Por su denicion, los conjuntos Aj son disjuntos para los distintos valores de j, y su union es el
conjunto de todos los valores posibles de X. Por lo tanto

j
|zj|fZ(zj) =

x
|(x)|fX(x).
Esto muestra que Z tiene esperanza nita si y solo si (4.4) se cumple.
Si Z tiene esperanza nita, repitiendo el argumento de arriba eliminando los signos de valor absoluto,
concluimos que (4.5) se cumple.

Sea X una variable aleatoria con densidad f y sea (x) = |x|. Entonces por el Teorema 1, |X| tiene
esperanza nita si y solo si

x
|x|f(x) < . Pero, de acuerdo a nuestra denicion de esperanza, X
tiene esperanza nita si y solo si la misma serie converge. Por lo tanto vemos que X tiene esperanza
nita si y solo si E|X| < .
Utilizaremos ahora el Teorema 1 para establecer las siguientes propiedades importantes de la espe-
ranza.
Teorema 2 Sean X y Y dos variables aleatorias con esperanza nita.
1. Si c es una constante y P(X = c) = 1, entonces EX = c.
2. Si c es una constante, entonces cX tiene esperanza nita y E(cX) = cEX.
3. X + Y tiene esperanza nita y
E(X + Y ) = EX + EY.
4. Suponga que P(X Y ) = 1. Entonces EX EY ; a un mas, EX = EY s y solo s P(X = Y ) = 1.
5. |EX| E|X|.
Demostracion: La prueba de 1 es muy simple. Si P(X = c) = 1, entonces X tiene densidad fX(x) = 0
para x = c y fX(c) = 1. As, de (4.2)
EX =

x
xfX(x) = cfX(c) = c.
Para demostrar 2, sea (x) = cx y observe que

x
|cx|fX(x) = |c|

x
|x|fX(x) < ,
por lo tanto cX tiene esperanza nita. Entonces, de (4.5)
E(cX) =

x
(cx)fX(x) = c

x
xfX(x) = cEX.
Para establecer 3 hacemos (x, y) = x + y y sea f la densidad conjunta de X y Y . entonces

x,y
|x + y|f(x, y)

x,y
|x|f(x, y) +

x,y
|y|f(x, y)
=

x
|x|

y
f(x, y) +

y
|y|

x
f(x, y)
=

x
|x|fX(x) +

y
|y|fY (y) <
y as X + Y tiene esperanza nita. Aplicando (4.5) vemos que
E(X + Y ) =

x,y
(x + y)f(x, y)
=

x,y
xf(x, y) +

x,y
yf(x, y)
= EX + EY.
Para probar 4 observe que Z = X Y = X + (Y ), y por 2 y 3 vemos que
EX EY = E(X Y ) = EZ =

z
zfZ(z).
Ya que P(Z 0) = P(X Y ) = 1, los valores zi que Z = X Y asume deben de ser todos no
negativos. Entonces

z
zfZ(z) 0 y por lo tanto EXEY 0. Esto lleva a la primer parte de 4. Si
EX = EY entonces EZ = 0. Pero entonces
0 = EZ =

i
zifZ(zi).
Ahora, la suma de terminos no negativos solo puede ser cero si todos y cada uno de los terminos
individuales son iguales a 0. Ya que fZ(zi) > 0 debe pasar que zi = 0. Por lo tanto el unico valor
posible para Z es 0, as P(Z = 0) = 1.
Finalmente, 5 se sigue de 4 y 2 porque |X| X |X| y por lo tanto E|X| EX EX. Esto
concluye la prueba del teorema.

Se sigue facilmente de 2 y 3 que si X1, . . . , Xn son cualesquiera n variables aleatorias cada una con
esperanza nita, y c1, . . . , cn son cualesquiera n constantes, entonces
(4.6) E(c1X1 + + cnXn) = c1EX1 + + cnEXn.
Es util el saber que una variable aleatoria acotada siempre posee esperanza nita. Precisamente,
Teorema 3 Sea X una variable aleatoria tal que para alguna constante M, P(|X| M) = 1. Entonces
X tiene esperanza nita y |EX| M.
Demostracion: Sean x1, x2, . . . los valores posibles de X. Entonces |xi| M para todo i. De hecho,
si |xi| > M para alg un valor posible xi, entonces
P(|X| > M) P(|X| = |xi|) > 0,
lo cual contradice el hecho de que P(|X| M) = 1. Como consecuencia

i
|xi|f(xi) M

i
f(xi) M,
as que X tiene esperanza nita. A un mas, de 5 del Teorema 2,
|EX| E|X| =

i
|xi|f(xi) M.
Esto completa la prueba.

Facilmente se sigue del Teorema 3 y de 3 del Teorema 2 que si X yY son dos variables aleatorias tales
que Y posee esperanza nita y para alguna constante M, P(|X Y | M) = 1, entonces X tambien
tiene esperanza nta y |EX EY | M. Se deja al lector la prueba de este hecho.
Como la esperanza de la suma de dos variables aleatorias es la suma de sus esperanzas, podramos
suponer que la esperanza de un producto es el producto de las esperanzas. Que esto no sea cierto
en general se puede ver si consideramos la variable aleatoria X cuyos posibles valores son 1 y 1,
asumiendo cada uno con probabilidad 1/2 y haciendo Y = X. Entonces EX = EY = 0 pero EXY =
EX
2
= 1.
Hay un caso importante cuando la regla del producto es valida, a saber, cuando X y Y son variables
aleatorias independientes. Establecemos esto formalmente como sigue.
Teorema 4 Sean X y Y dos variables aleatorias independientes cada una con esperanza nita. En-
tonces XY tiene esperanza nita y
(4.7) E(XY ) = (EX)(EY ).
Demostracion: Observe que como X y Y son independientes, la densidad conjunta de X y Y es
fX(x)fY (y). Por lo tanto

x,y
|xy|f(x, y) =

x,y
|x||y|fX(x)fY (y)
=
_

x
|x|fX(x)
__

y
|y|fy(y)
_
< ,
as, XY tiene esperanza nita. utilizando el Teorema 1, concluimos que
E(XY ) =

x,y
(x, y)fX(x)fY (y)
=
_

x
fX(x)
__

y
fY (y)
_
= (EX)(EY ).

El recproco de esta propiedad no se cumple; pueden existir dos variables aleatorias X y Y tales que
E(XY ) = (EX)(EY ) a un cuando X y Y no sean independientes.
Ejemplo 4 Sea que (X, Y ) asuma los valores (1, 0), (0, 1), (1, 0) y (0, 1) con igual probabilidad.
entonces EX = EY = 0. Ya que XY = 0, se sigue que E(XY ) = 0 y as E(XY ) = (EX)(EY ). Para
ver que X y Y no son independientes, observe que, por ejemplo, P(X = 0) = P(Y = 0) = 1/2, y
tambien P(X = 0, Y = 0) = 0. Entonces
P(X = 0, Y = 0) = P(X = 0)P(Y = 0).
Frecuentemente es mas facil calcular esperanzas utilizando las propiedades dadas en el Teorema 2
que utilizando directamente la denicion. Ahora ilustraremos esta tecnica con varios ejemplos.
Ejemplo 5 Distribucion binomial. Sabemos ya del Ejemplo 1 que la esperanza de la distribucion
binomial con parametros n y p es np. Tambien se puede derivar este hecho de una manera muy sencilla
utilizando la propiedad de que la esperanza de una suma es la suma de las esperanzas (3 del Teorema 2).
Para esto, sean X1, . . . , Xn n variables aleatorias de Bernoulli independientes cada una con parametro
p y hagamos Sn = X1 + +Xn. Entonces Sn tiene distribucion binomial con parametros n y p. Por
la primer parte del Ejemplo 1, EXi = p, 1 i n, y as
E(Sn) = E(X1 + + Xn) =
n

i=1
EXi = np.
Ejemplo 6 Distribucion hipergeometrica. Suponga que se tiene una poblacion de r objetos, de los
cuales r1 son de un tipo dado y r r1 de otro. Se extrae una muestra aleatoria de tama no n de esta
poblacion. Sea Sn el n umero de objetos del primer tipo que se obtuvieron. Calcule ESn.
Sabemos que Sn tiene la distribucion hipergeometrica, as que podemos calcular ESn utilizando (4.2).
Sin embargo, es mucho mas sencillo proceder introduciendo las variables indicadoras X1, . . . , Xn como
sigue. La variable aleatoria Xi = 1 si y solo si el i-esimo elemento de la muestra es del primer tipo.
Entonces
EXi = P(Xi) = 1 =
r1
1
.
Pero Sn = X1 + + Xn, as utilizando 3 del Teorema 2 vemos que
ESn =
n

i=1
EXi = n
r1
r
.
Note que las variables aleatorias Xi, 1 i n no son independientes.
Ejemplo 7 Suponga que se tiene una poblacion de r objetos distintos etiquetados 1, 2, . . . , r. Los ob-
jetos son extrados con reemplazo hasta que se han obtenido exactamente k r objetos distintos. Sea
Sk que denote el tama no de la muestra requerida. Calcule EXk.
Es claro que S1 = 1 y as ES1 = 1. Asumamos que k 2 y sea Xi = Si+1 Si, i = 1, 2, . . . , k 1.
Claramente entonces Sk = 1 + X1 + + Xk1. Ahora Xi es el n umero de objetos que deben ser
extrados despues de que entre a la muestra el i-esimo objeto nuevo y hasta que entre el (i + 1)-esimo
objeto nuevo a la muestra. Un razonamiento momentaneo muestra que el evento {Xi = n} ocurre
si y solo si los primeros (n 1) objetos extrados despues de que el i-esimo objeto nuevo entre a la
muestra duplica uno de los i objetos previos, y que el n-esimo objeto extrado despues de que el i-esimo
objeto nuevo entre es diferente de alguno de los i objetos previos. Entonces, como los ensayos son
independientes,
P(Xi = n) =
_
i
r
_
n1
_
1
i
r
_
, n = 1, 2, . . . .
Esto muestra que la variable aleatoria Xi 1 tiene la distribucion geometrica con parametro pi =
1 (i/r). Por lo tanto por el Ejemplo 3, E(Xi 1) = p
1
i
(1 pi), y
EXi = p
1
i
(1 pi) + 1 = p
1
i
= (1
i
r
)
1
= r(r i)
1
.
Como consecuencia,
(4.8)
ESk = 1 +
k1

i=1
_
r
r 1
_
=
k1

i=0
_
r
r 1
_
= r
_
1
r
+
1
r 1
+ +
1
r k + 1
_
.
Ya que lo utilizaremos posteriormente, hacemos notar que por construccion, las variables aleatorias
Xi son mutuamente independientes.
En el captulo previo hemos visto que las variables aleatorias con valores en los enteros no negativos
X juegan un papel predominante. Para este tipo de variables aleatorias con frecuencia el siguiente
teorema se puede aplicar tanto para decidir si X tiene esperanza nita como para calcular la esperanza
de X.
Teorema 5 Sea X una variable aleatoria con valores en los enteros no negativos. Entonces X tiene
esperanza nita si y solo si la serie

x=1
P(X x) converge. Si esto sucede, entonces
(4.9) EX =

x=1
P(x x).
Demostracion: . Mostraremos que
(4.10)

x=1
xP(X = x) =

x=1
P(X x),
de lo cual el teorema se sigue inmediatamente. Para este n primero escribimos el lado izquierdo de
(4.10) como

x=1
P(X = x)
x

y=1
1.
Se permite intercambiar el orden de la suma y reescribir esta expresion como

y=1

x=y
P(X = x) =

y=1
P(X y).
Reemplazando la variable muda y por la variable muda x en el lado derecho de esta igualdad, obtenemos
el lado derecho de (4.10). Esto muestra que (4.10) se cumple, como se deseaba.

Para una aplicacion elemental de este teorema, suponga que X es una variable aleatoria que tiene
distribucion geometrica con parametro p. Entonces P(X x) = (1 p)
x
y as por el teorema anterior
se tiene
EX =

x=1
(1 p)
x
= (1 p) + (1 p)
2
+ = p
1
(1 p).
Esto concuerda con el resultado encontrado en el Ejemplo 3.
4.3. Momentos
Sea X una variable aleatoria discreta, y sea r 0 un n umero entero. Decimos que X tiene un
momento de orden r si X
r
tiene esperanza nita. En tal caso denimos el r-esimo momento de
X como EX
r
. Si X tiene un momento de orden r entonces el r-esimo momento de X , donde es
la media de X, es llamado el r-esimo momento central (o el r-esimo momento respecto a la
media) de X. Por el Teorema 1 podemos calcular el r-esimo momento y el r-esimo momento central
de X directamente de la densidad f por las formulas
(4.11) EX
r
=

x
x
r
f(x)
y
(4.12) E(X )
r
=

x
(x )
r
f(x).
En vista de (4.11) y (4.12), el r-esimo momento y el r-esimo momento central estan determinados
por la densidad f, de esta manera tiene sentido el hablar de ellos como el r-esimo momento y el r-esimo
momento central de esta densidad.
Suponga que X tiene un momento de orden r; entonces X tiene un momento de orden k para todo
k r. Para ver esto, observe que si |x| < 1, entonces
|x
k
| = |x|
k
1
mientras que para |x| > 1,
|x|
k
|x|
r
.
As que en cualquier caso es verdad que
|x|
k
|x|
r
+ 1.
Entonces, por el teorema de comparacion para la convergencia de series, vemos que

x
|x|
k
f(x)

x
[|x|
r
+ 1]f(x) = E(|X|
r
) + 1 < ,
as X
k
tiene esperanza nita.
Por otro lado, como se mostro en el Ejemplo 4, una variable aleatoria X puede no tener siquiera un
primer momento. Una simple modicacion de este ejemplo muestra que una variable aleatoria puede
tener un momento de orden r pero no poseer momento alguno de orden superior (Vea el Ejercicio 9).
El primer momento (r = 1) es solamente la media de X. En general, mientras mas momentos de X
conozcamos, mayor es la informacion que ganamos acerca de la distribucion de X; sin embargo, en las
aplicaciones, frecuentemente los de mayor interes solo son los dos primeros.
Por la propiedad 3 del Teorema 2 sabemos que si tanto X como Y poseen primer momento nito,
entonces X + Y tambien lo posee. Demostraremos a continuacion que esta caracterstica deseable se
se sigue cumpliendo tambien para momentos de orden r.
Teorema 6 Si las variables aleatorias X y Y tienen momentos de orden r, entonces X + Y tambien
tiene momento de orden r.
Demostracion: Este teorema se basa en la siguiente desigualdad sencilla. Para cualquier entero no
negativo j con j r
(4.13) |x|
j
|y|
rj
|x|
r
+|y|
r
, x, y R.
Para ver esto, observe que si |x| |y|, entonces |x|
j
|y|
rj
|y|
j
|y|
rj
= |y|
r
|x|
r
+ |y|
r
; mientras
que si |x| |y|, entonces |x|
j
|y|
rj
|x|
r
|x|
r
+ |y|
r
. Por lo tanto (4.13) se cumple. Utilizando
(4.13) y el teorema de la expansion binomial vemos ahora que
|x + y|
r
(|x| +|y|)
r
=
r

j=0
_
r
j
_
|x|
j
|y|
rj

j=0
_
r
j
_
(|x|
r
+|y|
r
).
Pero
r

j=0
_
r
j
_
= 2
r
porque
2
r
= (1 + 1)
r
=
r

j=0
_
r
j
_
1
j
1
rj
=
r

j=0
_
r
j
_
.
Como consecuencia
|x + y|
r
2
r
(|x|
r
+|y|
r
).
Sea f la densidad conjunta de X y Y . Entonces

x,y
|x + y|
r
f(x, y) 2
r

x,y
(|x|
r
+|y|
r
)f(x, y)
= 2
r
E(|X|
r
+|Y |
r
)
= 2
r
(E|X|
r
+ E|Y |
r
) < .
As que, por el Teorema 1, (X + Y )
r
tiene esperanza nita.

Se sigue facilmente por induccion que si X1, X2, . . . , Xn tienen todas un momento de orden r,
as tambien X1 + + Xn.
Sea X una variable aleatoria con segundo momento nito. Entonces la varianza de X, denotada
por Var X o V (X), se dene por
Var X = E[(X EX)
2
].
Expandiendo el lado de la derecha vemos que
Var X = E[X
2
(2X)(EX) + (EX)
2
]
EX
2
2(EX)
2
+ (EX)
2
.
En otras palabras
(4.14) Var X = EX
2
(EX)
2
.
Usualmente denotamos a EX por y a Var X por
2
. El n umero no negativo =

Var X es llamado
la desviacion estandar de X o de fX.
De acuerdo a nuestra discusion previa, la media es el valor promedio de la variable aleatoria X.
Una aplicacion de la varianza es como una medida de dispersion de la distribucion de X respecto a
la media . Mientras mas tienda X a desviarse de su valor medio , mas grande se vuelve el valor
(X )
2
, y as la varianza tambien tiende a aumentar.
Por otra parte, Var X = 0 s y solo si X es una constante. Para ver esto observe que si P(X = c) = 1
para alguna constante c, entonces EX = c y Var X = 0. Recprocamente, si Var X = 0, entonces
E[(X EX)
2
] = 0 y as P((X EX)
2
= 0) = 1. Consecuentemente P(X = EX) = 1.
Un uso alternativo para la media y la varianza esta dado por el siguiente problema, el cual es de
sumo interes en estadstica. Sea X una variable aleatoria que posea segundo momento nito, y suponga
que queremos elegir un valor de a que minimize E(X a)
2
. Tal valor nos proveera del mejor ajuste
de X a una constante si el error fuera medido en terminos de la desviacion media cuadrada.
Una forma de resolver este problema es el utilizar Calculo. Note que
E(X a)
2
= EX
2
2aEX + a
2
.
Si diferenciamos con respecto a a y hacemos la derivada igual cero, vemos que a = EX. Como la
segunda derivada es positiva (de hecho, es igual a 2), el punto corresponde a un mnimo, y el valor
mnimo es Var X.
Hay una segunda forma de resolver este problema que tambien es importante comprender. Note que
(X a)
2
= [(X ) + ( a)]
2
= (X )
2
+ 2(X )( a) + ( a)
2
.
Ya que E(X ) = 0, se sigue que el termino que pertenece a los productos cruzados tiene esperanza
cero y por lo tanto
(4.15)
E(X a)
2
= E(X )
2
+ ( a)
2
= Var X + ( a)
2
.
Ahora es claro de (4.15) que E(X a)
2
se encuentra en un mnimo cuando = a, y que su valor
mnimo es Var X.
Frecuentemente podemos hallar los momentos de una variable aleatoria con valores en los enteros
no negativos simplemente diferenciando su funcion generadora de probabilidad X. Por simplicidad,
suponga que

x
fX(x)t
x
0
<
para alg un t0 > 1. Entonces podemos ver a x como denida en t0 < t < t0 por
(t) =

x=0
fX(x)t
x
, t0 < t < t0.
Podemos diferenciar X(t) cualquier n umero de veces diferenciando la serie de potencias correspon-
diente termino a termino. En particular

X
(t) =

x=1
xfX(x)t
x1
, t0 < t < t0,
y

X
(t) =

x=2
x(x 1)fX(x)t
x2
, t0 < t < t0.
Por nuestras suposiciones sobre t0, podemos hacer t0 = 1 en estas formulas, obteniendo

X
(1) =

x=1
xfX(x) = EX
y

X
(1) =

x=2
x(x 1)fX(x) = EX(X 1).
Por lo tanto la media y la varianza de X pueden ser obtenidas de X en terminos de las formulas
EX = X(1)
y
Var X = EX
2
(EX)
2
=

X
(1) +

X
(1) (

X
(1))
2
.
Se pueden desarrollar formulas similares para los otros momentos de X en terminos de las derivadas
superiores de X(t) en t = 1.
Ahora ilustraremos el uso de estas formulas con los siguientes ejemplos.
Ejemplo 8 Distribucion binomial negativa. Sea X una variable aleatoria con distribucion bino-
mial negativa de parametros y p. Encuentre la media y la varianza de X.
Del Ejemplo 17 del Captulo 3, sabemos que la funcion generadora de probabilidad de X esta dada
por X(t) = p

[1 t(1 p)]

. Consecuentemente,

X
(t) = p

[1 t(1 p)]
(+1)
(1 p)
y

X
(t) = ( + 1)p

[1 t(1 p)]
(+2)
(1 p)
2
.
Entonces

X
(1) =
_
1 p
p
_
y

X
(1) = ( + 1)
_
1 p
p
_
2
.
As, EX = p
1
(1 p) y
Var X = ( + 1)
_
1 p
p
_
2
+
_
1 p
p
_

2
_
1 p
p
_
2
=
1 p
p
2
.
En particular, si X tiene la distribucion geometrica con parametro p, entonces EX = p
1
(1p) (como
ya hemos visto) y Var X = p
2
(1 p).
Ejemplo 9 Distribucion de Poisson. Sea X una variable aleatoria con distribucion de Poisson con
parametro . Halle la media y la varianza de X.
En el Ejemplo 18 del Captulo 3 encontramos que X(t) = e
(t1)
. Entonces

X
(t) = e
(t1)
y

X
(t) =
2
e
(t1)
.
Como consecuencia

X
(1) = y

X
(1) =
2
. Inmediatamente se sigue que
EX = ,
lo cual concuerda con la respuesta hallada en el Ejemplo 2, y
Var X =
2
+
2
= .
Esto muestra que si X tiene la distribucion de Poisson de parametro , entones la media y la varianza
de X son ambas iguales a .
4.4. Varianza de una suma
Sean X y Y dos variables aleatorias cada una con segundo momento nito. Entonces X + Y tiene
segundo momento nito y por lo tanto varianza nita. Ahora
Var (X + Y ) = E[(X + Y ) E(X + Y )]
2
= E[(X EX) + (Y EY )]
2
= E(X EX)
2
+ E(Y EY )
2
+ 2E[(X EX)(Y EY )]
= Var X + Var Y + 2E[(X EX)(Y EY )].
As, a diferencia de la media, la varianza de una suma de dos variables aleatorias no es, en general, la
suma de las varianzas. La cantidad
E[(X EX)(Y EY )]
es llamada la covarianza de X y Y y escrita Cov (X, Y ). As tenemos la importante formula
(4.16) Var (X + Y ) = Var X + Var Y + 2Cov (X, Y ).
ahora
(X EX)(Y EY ) = XY (Y )(EX) X(EY ) + (EX)(EY ),
y as tomando esperanzas vemos que
(4.17) Cov (X, Y ) = E[(X EX)(Y EY )] = E(XY ) (EX)(EY ).
De esta forma, es claro que Cov (X, Y ) = 0 cada que X y Y sean independientes. (el Ejemplo 5 muestra
que el recproco es falso.) Vemos de (4.16) que si X y Y son variables aleatorias independientes con
segundo momento nito, entonces Var (X + Y ) = Var X + Var Y.
En particular si P(Y = x) = 1 para una constante c, entonces X y Y son independientes y la
varianza de Y es igual a cero; consecuentemente
(4.18) Var (X + c) = Var X + Var (c) = Var X.
Mas a un, si X1, X2, . . . , Xn son n variables aleatorias cada una con segundo momento nito, entonces
(4.19) Var
_
n

i=1
Xi
_
=
n

i=1
Var Xi + 2
n1

i=1
n

j=i+1
Cov (Xi, Xj),
y, en particular, si X1, . . . , Xn son mutuamente independientes, entonces
(4.20) Var
_
n

i=1
Xi
_
=
n

i=1
Var Xi.
Se pueden derivar estas formulas por un calculo directo similar (pero un poco mas complicado) al
utilizado para el caso n = 2, o se pueden establecer del caso n = 2 por induccion sobre n.
En particular, si X1, X2, . . . , Xn son variables aleatorias independientes con varianza com un
2
(por
ejemplo, si cada una tiene la misma densidad), entonces
(4.21) Var (X1 + X2 + + Xn) = nVar X1 = n
2
.
Otro hecho elemental pero demasiado util es que Var (aX) = a
2
Var (X). Se deja la vericacion de este
hecho al lector.
Ejemplo 10 Distribucion binomial. Sean X1, . . . , Xn n variables aleatorias de Bernoulli indepen-
dientes cada una con la misma probabilidad p de asumir el valor 1. Entonces (vease el Ejemplo 6)
la suma Sn = X1 + + Xn tiene distribucion binomial con parametros n y p. Previamente hemos
mostrado que ESn = np. Utilizando (4.21) encontramos de una vez que
Var Sn = nVar X1.
Ahora X
2
1
= X1 porque X1 es ya sea 0 o 1. Entonces EX
2
1
= EX1 = p y as
Var X1 = EX
2
1
(EX1)
2
= p p
2
= p(1 p).
Como consecuencia Var Sn = np(1 p).
En resumen, la media de una variable aleatoria con distribucion binomial es np y su varianza es
np(1 p).
Ejemplo 11 Distribucion hipergeometrica. Considere la misma situacion que en el Ejemplo 7.
Ahora queremos calcular Var Sn, para obtener as la varianza de una distribucion hipergeometrica.
Para este n utilizaremos la ecuacion (4.19).
Para los indicadores dependientes X1, . . . , Xn hallamos previamente que
P(Xi = 1) = EXi =
r1
r
.
Ya que X
2
i
= Xi vemos que
Var Xi = EX
2
i
(EXi)
2
=
_
r1
r
_

_
r1
r
_
2
=
_
r1
r
__
1
r1
r
_
.
Como siguiente paso debemos calcular las covarianzas. Asuma que 1 i < j n. Ahora XiXj = 0 a
menos que tanto Xi como Xj sean 1, entonces
Cov (Xi, Xj) = E(XiXj) (EXi)(EXj)
=
r1(r1 1)
r(r 1)

_
r1
r
_
2
=
_
r1
r
_
_
r1 1
r

r1
r
_
=
_
r1
r
_
_
r1 r
r(r 1)
_
,
y as
n1

i=1
n

j=i+1
Cov (Xi, Xj) =
n(n 1)
2
_
r1
r
_
_
r1 r
r(r 1)
_
.
Ahora se sigue de (4.19) que
Var Sn = n
r1(r r1)
r
2
n(n 1)
r1(r r1)
r
2
(r 1)
= n
_
r1
r
__
1
r1
r
_
_
1
n 1
r 1
_
.
Es interesante el comparar la media y la varianza para la distribucion hipergeometrica con las de la
distribucion binomial que tiene la misma probabilidad de exito p = (r1/r). Suponga que tenemos una
poblacion de r objetos con r1 de un primer tipo y r r1 de un segundo tipo. Se extrae una muestra
aleatoria de tama no n de la poblacion. Sea Y que denote el n umero de objetos del primer tipo en la
muestra.
Si el muestreo es hecho con reemplazo entonces Y tiene distribucion binomial con parametros n y
p = (r1/r), y as
EY = n
_
r1
r
_
y Var Y = n
_
r1
r
__
1
r1
r
_
.
Por otro lado, si el muestreo se realiza sin reemplazo. entonces Y tiene la distribucion hipergeometri-
ca,
EY = n
_
r1
r
_
y Var Y = n
_
r1
r
__
1
r1
r
_
_
1
n 1
r 1
_
.
La media es la misma en ambos casos, pero en el muestreo sin reemplazo la varianza es menor.
Intuitivamente, mientras mas cerca este n de r mas determinista se vuelve Y cuando obtenemos
muestras sin reemplazo. De hecho, si n = r la varianza es cero y P(Y = r1) = 1. Pero si r es grande
comparado con n, de tal manera que (n/r) sea cercano a cero, la proporcion de las varianzas obtenidas
en los muestreos con o sin reemplazo es cercana a uno. Esto es como debiera ser, ya que para n jo y
r grande hay poca diferencia entre el muestreo con reemplazo y el muestreo sin reemplazo.
4.5. Coeciente de correlaci on
Sean X y Y dos variables aleatorias con varianzas nitas distintas de cero. Una medida del grado de
dependencia entre las dos variables aleatorias es el coeciente de correlacion (X, Y ) denido por
(4.22) = (X, Y ) =
Cov (X, Y )
_
(Var X)(Var Y )
.
Dichas variables aleatorias se dicen estar no correlacionadas si = 0. Ya que (Cov (X, Y ) = 0
si X y Y son independientes, vemos de una vez que las variables aleatorias independientes no estan
correlacionadas. Tambien es posible que variables aleatorias dependientes no esten correlacionadas,
como se puede ver en el Ejemplo 5.
En estadstica es importante el saber que el coeciente de correlacion siempre se encuentra entre 1
y 1, y que || = 1 si y solo si P(X = aY ) = 1 para alguna constante a. Estos hechos son consecuencias
faciles de la siguiente desigualdad basica, llamada la Desigualdad de Schwarz.
Teorema 7 La Desigualdad de Schwarz. Sean X y Y variables aleatorias con segundo momento
nito. Entonces
(4.23) [E(XY )]
2
(EX
2
)(EY
2
).
A un mas, la igualdad se cumple en (4.23) si y solo si P(Y = 0) = 1 o P(X = aY ) = 1 para alguna
constante a.
Demostracion: Si P(Y = 0) = 1, entonces P(XY = 0) = 1, EXY = 0 y EY
2
= 0; as en este caso
en (4.23) se cumple la igualdad. Tambien, si P(X = aY ) = 1, entonces un simple calculo mostrara que
ambos lados de (4.23) son iguales a (a
2
EY
2
)
2
.
Ahora mostraremos que (4.23) siempre se cumple. De la discusion anterior podemos asumir que
P(Y = 0) < 1 y as EY
2
> 0. La prueba se basa en un simple pero inteligente truco. Observe que para
cualquier n umero real
0 E(X Y )
2
=
2
EY
2
2EXY + EX
2
.
Esta es una funcion cuadratica en . Ya que el coeciente EY
2
de
2
es positivo, se alcanza el mnimo
para alg un valor de , digamos = a, el cual puede ser hallado por el metodo usual del calculo de hacer
la derivada igual a 0 y resolver. La respuesta es a = [E(XY )][EY
2
]
1
. Ya que el valor correspondiente
de la funcion es
(4.24) 0 E(X aY )
2
= EX
2

[E(XY )]
2
EY
2
se sigue que (4.23) se cumple. Si la igualdad se cumple en la desigualdad de Schwarz (4.23), entonces
de (4.24) vemos que E(X aY )
2
= 0, as que
P[(X aY ) = 0] = 1.
Esto completa la demostracion.

Aplicando la desigualdad de Schwarz a las variables aleatorias (XEX) y (Y EY ) nos damos cuenta
de que
(E[(X EX)(Y EY )])
2
[E(X EX)
2
][E(Y EY )
2
];
esto es,
[Cov (X, Y )]
2
(Var X)(Var Y ).
As, por la denicion de
|(X, Y )| 1.
Tambien vemos del Teorema 7 que || = 1 si y solo si P(X = aY ) = 1 para alguna constante a.
El coeciente de correlacion es de uso limitado dentro de la teora de la probabilidad. Aparece
principalmente en estadstica y una discusion mas amplia de el sera pospuesta hasta el Volumen II.
4.6. Desigualdad de Tchebychev
Sea X una variable aleatoria no negativa con esperanza nita, y sea t un n umero real positivo.
Denimos la variable aleatoria Y haciendo Y = 0 si X < t y Y = t si X t. As Y es una variable
aleatoria discreta con dos posibles valores 0 y t la cual los asume con probabilidades P(Y = 0) =
P(X < t) y P(Y = t) = P(X t) respectivamente. Entonces
EY = t P(Y = t) + 0 P(Y = 0) = tP(Y = t) = tP(X t).
Claramente se tiene X Y y por lo tanto EX EY . As
EX EY = tP(X t)
o
(4.25) P(X t)
EX
t
.
Una gran variedad de desigualdades muy utiles se pueden deducir de (4.25). La mas importante de
ellas es la desigualdad de Tchebychev.
Desigualdad de Tchebychev. Sea X una variable aleatoria con esperanza y varianza nita
2
.
entonces para cualquier n umero real t > 0
(4.26) P(|X | t)

2
t
2
.
Para demostrar (4.26), apliquemos (4.25) a la variable aleatoria no negativa (X )
2
y al n umero t
2
.
Concluimos que
P((X )
2
t
2
)
E(X )
2
t
2
=

2
t
2
.
Ya que (X )
2
t
2
si y solo si |X | t vemos que (4.26) se cumple.
La desigualdad de Tchebychev nos da una cota superior en terminos de Var X y t para la probabilidad
de que X se desvie de su media en mas de t unidades. Su virtud yace en su gran generalidad. No se hizo
ning un tipo de suposicion sobre la distribucion de X salvo que tuviera varianza nita. Esta desigualdad
es el punto de partida para numerosos desarrollos teoricos. Para la mayora de las distribuciones que
aparecen en los casos practicos, existen cotas mucho mas nas para P(|X | t) que la ofrecida
as por la desigualdad de Tchebychev; sin embargo, los ejemplos muestran que en general la cota dada
por la desigualdad de Tchebychev no puede ser mejorada (vease el Ejercicio 26).
Sean X1, . . . , Xn n variables aleatorias independientes con la misma distribucion. Estas variables
aleatorias se pueden ver como n mediciones independientes de alguna cantidad que se distribuye de
acuerdo a su distribucion en com un. En este sentido a veces hablaremos de las variables aleatorias
X1, . . . , Xn como que constituyen una muestra aleatoria de tama no n de esta distribucion.
Suponga que la distribucion en com un de estas variables aleatorias tiene media nita . Entonces para
n sucientemente grande esperaramos que su media aritmetica Sn/n = (X1, . . . , Xn)/n se encuentre
cerca de . Si las Xi tambien poseen varianza nita, entonces
Var
_
Sn
n
_
=
n
2
n
2
=

2
n
y as Var (Sn/n) 0 cuando n . Como se discutio en la Seccion 4.3, esto implica que cuando n se
vuelve grande la distribucion Sn/n se concentra mas alrededor de su media . Precisando, aplicando
la desigualdad de Tchebychev a Sn/n obtenemos la desigualdad
(4.27) P
_

Sn
n

Var (Sn/n)

2
=

2
n
2
.
En particular, se sigue de (4.27) que para cualquier > 0
(4.28) lm
n
P
_

Sn
n


_
= 0.
Podemos interpretar (4.28) de la siguiente manera. El n umero se puede ver como la precision
deseada en la aproximacion a por Sn/n. La ecuacion (4.28) nos asegura que no importando que tan
peque no se elija el n umero , la probabilidad de que Sn/n se aproxime a dentro de esta precision,
esto es, P(|(Sn/n) | < ), converge a 1 cuando el n umero de observaciones crece. este hecho se
llama la Ley Debil de los N umeros Grandes. Hemos demostrado esta ley solo bajo la suposicion
de que la varianza en com un de las Xi es nita. De hecho, esto no es necesario; todo lo que se necesita
es que las variables aleatorias Xi tengan media nita. Mencionaremos este resultado mas general en el
siguiente teorema. La demostracion sera dada en el Captulo 8.
Teorema 8 Ley Debil de los N umeros Grandes. Sean X1, X2, . . . , Xn variables aleatorias inde-
pendientes que tengan distribucion com un con media nita y sea Sn = X1 + +Xn. Entonces para
cualquier > 0
lm
n
P
_

Sn
n


_
= 0.
Siempre que las variables aleatorias Xi tengan media nita, la ley debil se cumple. Sin embargo,
cuando tambien poseen varianza nita, entonces (4.27) se cumple. Este es un enunciado mas preciso ya
que nos ofrece una cota superior para P
_
Sn
n


_
. en terminos de n. A continuacion ilustraremos
el uso de (4.27) aplicandolo a variables aleatorias con distribucion binomial.
Sean X1, X2, . . . , Xn n variables aleatorias de Bernoulli independientes las cuales asumen el valor 1
con probabilidad com un p. Entonces = p y
2
= p(1 p). Por lo tanto, (4.27) muestra que
(4.29) P
_

Sn
n
p

p(1 p)
n
2
.
Ya que p(1 p) 1/4 si 0 < p < 1 (porque por los metodos usuales del calculo se puede demostrar
que p(1 p) tiene un valor maximo en p = 1/2), se sigue que sin importar que pueda ser p,
(4.30) P
_

Sn
n
p

1
4n
2
.
La ecuacion (4.29) es util cuando queremos saber el valor de p, mientras que (4.30) nos da una cota
sobre P
_
Sn
n
p


_
la cual es valida para cualquier valor de p. Si p es cercano a 1/2, (4.29) y (4.30)
no dieren en mucho, pero si p se encuentra lejos de 1/2 la estimacion dada por (4.29) puede ser mucho
mejor. (De hecho, a un las cotas dadas por (4.29) son demasiado pobres). En el Captulo 7 discutiremos
otro metodo el cual lleva a estimaciones mucho mejores.
Suponga que se dan > 0 y > 0. Podemos utilizar (4.29) o (4.30) para hallar una cota inferior
sobre el n umero de ensayos que son necesarios para asegurarnos de que
P
_

Sn
n
p


_
.
De hecho, de (4.29) vemos que este sera el caso si p(1 p)/n
2
. Resolviendo para n encontramos
que n p(1 p)/
2
. Si en vez de esto utilizamos (4.30), entonces n (4
2
)
1
ensayos lo haran.
Mencionamos de nuevo que estas cotas sobre n dadas por la desigualdad de Tchebychev son demasiado
pobres y que de hecho un n umero mucho menor de ensayos seran sucientes.
Como una ilustracion de la diferencia entre estas dos estimaciones para n, elija =.1 y =.01.
Entonces
2
= 10
4
y de (4.30) vemos que para garantizar que
P
_

Sn
n
p

.1
_
.01
necesitaramos n = 10
4
/4 = 2500 observaciones. Suponga, sin embargo, que sabemos que p =.1.
Entonces, como p(1 p) =.09 vemos de (4.29) que n .09 10
4
= 900 observaciones bastaran. Para
p = 1/2, (4.29) nos ofrece la misma estimacion que (4.30), a saber 2500.
Para ilustrar que las cotas de Tchebychev son realmente pobres para este caso de la distribucion
binomial, suponga n =100 y p = 1/2. De (4.29) obtenemos as
P
_

Sn
n
.5

.1
_
.25.
Se debe comparar esto con el valor exacto para esta probabilidad, el cual es de .038.
Ejercicios
1.-Sea N un entero positivo y f la funcion denida por
f(x) =
_

_
2x
N(N+1)
, x = 1, 2, . . . , N,
0, en caso contrario.
Muestre que esta f es una funcion de densidad discreta y halle su media. Sugerencia:
N

x=1
x =
N(N + 1)
2
y
N

x=1
x
2
=
N(N + 1)(2N + 1)
6
.
2.-Sea que X tenga densidad binomial con parametros n = 4 y p. Halle E[sin(X/2)].
3.-Suponga que X tiene densidad de Poisson con parametro . Calcule la media de (1 + X)
1
.
4.-Si X tiene media 1 y Y tiene media 3, Cual es la media de 2X + 5Y ?.
5.-Suponga que X y Y son dos variables aleatorias tales que
P(|X Y | M) = 1
para alguna constante M. Demuestre que si Y tiene esperanza nita, entonces tambien X tiene espe-
ranza nita y |EX EY | M.
6.-Sea X una variable aleatoria con distribucion geometrica y sea M > 0 un entero. Sea Z =
min (X, M). Calcule la media de Y .Sugerencia: Utilize el Teorema 5.
7.-Sea X una variable aleatoria con distribucion geometrica y sea M > 0 un entero. Sea Y =
max (X, M). Calcule la media de Y .Sugerencia: Calcule P(Y < y) y despues utilize el Teorema 5.
8.-Sea X uniformemente distribuida sobre {0, 1, . . . , N}. Encuentre la media y la varianza de X
utilizando el tip del Ejercicio 1.
9.-Construya un ejemplo de una densidad que tenga momento nito de orden r, pero no posea
momento alguno de orden superior.Sugerencia: Considere la serie

x=1
x
(r+2)
y conviertala en una
densidad.
10.-Suponga que X y Y son dos variables aleatorias independientes tales que EX
4
= 2, EY
2
= 1,
EX
2
= 1 y EY = 0. Calcule Var (X
2
Y ).
11.-Demuestre que Var (aX) = a
2
Var X.
12.-Sea X una variable aleatoria con distribucion binomial de parametros n y p. Utilize la funcion
generadora de probabilidad de X para calcular su media y su varianza.
13.-Sea X una variable aleatoria con valores en los enteros no negativos.
(a)Muestre que
X(t) = Et
X
, 1 t 1,

X
(t) = EXt
X1
, 1 < t < 1,

X
(t) = EX(X 1)t
X2
, 1 < t < 1.
(b) Utilize el Teorema 4 para volver a derivar el resultado de que si X y Y son variables aleatorias
independientes con valores en los enteros no negativos, entonces
X+Y (t) = X(t)Y (t), 1 t 1.
14.-Sean X y Y dos variables aleatorias con segundo momento nito. Calcule la media y la varianza
de 2X + 3Y en terminos de las correspondientes a X y Y .
15.-Sean X1, . . . , Xn variables aleatorias con densidad com un, media y varianza
2
tambien co-
munes. Sea X = (X1 + + Xn)/n.
(a)Si escribimos Xk X = (Xk ) (X ), muestre que
n

k=1
(Xk X)
2
=
n

k=1
(Xk )
2
n(X )
2
.
(b) Concluya de (a) que
E
_
n

k=1
(Xk X)
2
_
= (n 1)
2
.
16.-Suponga que se distribuyen n bolas al azar en r cajas. Sea Xi = 1 si la caja i esta vaca y Xi = 0
en caso contrario.
(a)Calcule EXi.
(b)Para i = j, calcule E(XiXj).
(c)Sea Sr que denote el n umero de cajas vacas. Escriba Sr = X1 + +Xr, y utilize el resultado del
inciso (a) para calcular ESr.
(d)Utilize el resultado de (a) y (b) para calcular Var Sr.
17.-Suponga que se tienen dos mazos de n cartas, cada una numerada 1, 2, . . . , n. Los dos mazos se
barajan y las cartas son emparejadas una contra la otra. Decimos que un emparejamiento ocurre en
la posicion i si la i-esima carta de cada mazo tiene el mismo n umero. Sea Sn el n umero de empareja-
mientos.
(a)Calcule ESn.
(b)Calcule Var Sn.Sugerencia: Sea Xi = 1 si hay un emparejamiento en la posicion i, y sea Xi = 0
en caso contrario. Entonces Sn = X1 + + Xn. De los resultados del captulo 2 sabemos que
P(Xi = 1) = 1/n y que si i = j, P(Xi = 1, Xj = 1) =
1
n(n1)
.
18.-Considere la variable aleatoria Sk introducida en el Ejemplo 8. Calcule Var Sk.
19.-Establezca las siguientes propiedades de la covarianza:
(a)Cov (X, Y ) = Cov (Y, X);
(b)Cov (

m
i=1
aiXi,

n
j=1
bjYj) =

m
i=1

n
j=1
aibjCov (Xi, Yj).
20.-Sean X1, X2 y X3 variables aleatorias independientes con varianzas positivas nitas
2
1
,
2
2
y
2
3
respectivamente. Halle la correlacion entre X1 X2 y X2 + X3.
21.-Suponga que X y Y son dos variables aleatorias tales que (X, Y ) = 1/2, Var X = 1 y Var Y = 2.
Calcule Var (X 2Y ).
22.-Una caja tiene 3 bolas rojas y 2 bolas negras. Se extrae una muestra aleatoria de tama no 2 sin
reemplazo. Sea U el n umero de bolas rojas seleccionadas y V el n umero de bolas negras seleccionadas
as. Calcule (U, V ).
23.-Suponga que una caja tiene 3 bolas etiquetadas 1,2 y 3. Se seleccionan dos bolas sin reemplazo
de la caja. Sea X que represente el n umero de la primera bola y Y el n umero de la segunda bola.
Calcule Cov (X, Y ) y (X, Y ).
24.-Suponga que se repite n veces un experimento que tiene r resultados posibles 1, 2 . . . , r, los
cuales ocurren con probabilidades p1, . . . , pr. Sea X que denote el n umero de veces que ocurre el
primer resultado y Y que represente el n umero de veces que ocurre el segundo. Muestre que
(X, Y ) =
_
p1p2
(1 p1)(1 p2)
efectuando los siguientes pasos. Sea Ii = 1 si el i-esimo ensayo dio el primer resultado, y que sea Ii = 0
en caso contrario. De manera similar, sea Ji = 1 si el i-esimo ensayo dio el segundo resultado, y sea
Ji = 0 en caso contrario. Entonces X = I1 + +In y Y = J1 + +Jn. Ahora demuestre lo siguiente:
(a)E(IiJi) = 0.
(b)Si i = j, E(IiJj) = p1p2.
(c) E(XY ) = E (

n
i=1
IiJi) + E
_

n
i=1

j=i
IiJi
_
= n(n 1)p1p2.
(d)Cov (X, Y ) = np1p2.
(e)(X, Y ) =
_
p1p2
(1p1)(1p2)
.
25.-Suponga que se tiene una poblacion de r objetos, la cual consiste en r1 objetos del tipo 1, r2
objetos del tipo 2 y r3 objetos del tipo 3, donde r1 + r2 + r3 = r. Se extrae de esta poblacion una
muestra aleatoria de tama no n r sin reemplazo. Sea que X denote el n umero de objetos del tipo 1
en la muestra y Y que denote el n umero de objetos del tipo 2. Calcule (X, Y ) haciendo lo siguiente.
Sea Ii = 1 o 0 seg un el i-esimo elemento en la muestra sea del tipo 1 o no y sea Ji = 1 o 0 seg un el
i-esimo elemento de la muestra sea del tipo 2 o no.
(a)Muestre que EIi = r1/r y que EJi = r2/r.
(b) Muestre que para i = j,
EIiJj =
r1r2
r(r 1)
y que E(IiJi) = 0.
(c) Haga X = I1 + + In y Y = J1 + + Jn y utilize (a) y (b) para calcular E(XY ), Var X y
Var Y .
(d) Utilize (c) para calcular (X, Y ). Compare con el correspondiente coeciente de correlacion en el
Ejercicio 24 con p1 = r1/r y p2 = r2/r.
26.-Sea X una variable aleatoria con densidad f dada por
f(x) =
_

_
1/18, x = 1, 3,
16/18, x = 2.
Muestre que existe un valor de tal que P(|X | ) = Var X/
2
, as que en general la cota dada
por la desigualdad de Tchebychev no pude ser mejorada.
27.-Un fabricante de pernos sabe que el 5 % de su produccion resulta defectuosa. En su entrega de
10000 piezas da la garanta de regresar el dinero si en el embarque mas de a pernos resultan defectuosos.
Que tan peque na puede el fabricante elegir la a y a un as estar seguro de que no necesitara devolver
el dinero mas del 1 % de las veces?.
28.-Sea X una variable aleatoria con densidad de Poisson de parametro . Utilize la desigualdad de
Tchebychev para vericar las siguientes desigualdades:
(a)P
_
X

2
_

; (b)P(X 2)
1

.
29.-Sea X una variable aleatoria con valores en los enteros no negativos cuya funcion generadora de
probabilidad es X(t) = Et
X
, la cual es nita para todo t y sea x0 un n umero positivo. Argumentando
como en la prueba de la desigualdad de Tchebychev, verique las siguientes desigualdades:
(a)P(X x0)
X(t)
t
x0
, 0 t 1;
(b)P(X x0)
X(t)
t
x0
, t 1.
30.-Sea que X tenga densidad de Poisson con parametro . Verique las siguientes desigualdades:
(a)P
_
X

2
_

_
2
e
_
/2
; (b)P(X 2)
_
e
4
_

.
Sugerencia: Utilize calculo para minimizar los lados derechos de las desigualdades en el Ejercicio 29.
Estas desigualdades son mucho mas exactas, especialmente para valores grandes de , que aquellas
dadas en el Ejercicio 28.
Los ejercicios del 31 al 36 desarrollan y aplican las nociones de densidades condicionales y esperanza
condicional
Sean X y Y variables aleatorias discretas. La densidad condicional f
Y |X
(y|x) de Y dada X = x
se dene por
f
Y |X
(y|x) =
_

_
P(Y = y|X = x), si P(X = x) > 0,
0, en caso contrario.
Para toda x tal que P(X = x) > 0 se sigue que f
Y |X
(y|x) es una densidad en y. El ejemplo 14(d) del
Captulo 3 se puede interpretar diciendo que si X y Y son dos variables aleatorias independientes cada
una con distribucion geometrica con parametro p, entonces, para z 0, la densidad condicional de Y
dado X + Y = z es la densidad uniforme en {0, 1, . . . , z}.
Sea que Y tenga esperanza nita. La esperanza condicional de Y dada X = x se dene como
la media de la media de la densidad de Y dada X = x, i.e., como
E[Y |X = x] =

y
yf
Y |X
(y|x).
31.-Verique las siguientes propiedades de la densidad condicional y de la esperanza condicional:
(a)fY (y) =

x
fX(x)f
Y |X
(y|x); (b)EY =

x
fX(x)E[Y |X = x].
32.-Sean X y Y variables aleatorias independientes cada una con densidad geometrica con parametro
p. Encuentre E[Y |X +Y = z], donde z es un entero no negativo. Sugerencia: Utilize el Ejemplo 14(d)
y el Ejercicio 8.
33.-Sean X y Y variables aleatorias independientes con distribucion de Poisson con parametros 1
y 2 respectivamente. Calcule E[Y |X + Y = z] donde z es un entero no negativo. Sugerencia: Utilize
el resultado del Ejercicio 35 del Captulo 3.
34.-Sea N una variable aleatoria con valores en los enteros no negativos. Sean {Yn}, n 0, variables
aleatorias cada una de las cuales posee esperanza nita y es independiente de N. Demuestre que
E[YN|N = n] = EYn.
35.-Sean {Xn}, n 1 variables aleatorias independientes con media nita com un y varianza
2
.
Sea S0 = 0 y Sn = X 1 + + Xn, n 1. Sea N una variable aleatoria con valores en los enteros
no negativos con media y varianza nitas, y suponga que N es independiente de todas las variables
aleatorias denidas en terminos de {Xn}, n 1. Por lo tanto SN tiene media y varianza nitas. Muestre
que
ESN = EN, ES
2
N
=
2
EN +
2
EN
2
,
y
Var SN =
2
EN +
2
Var N.
Sugerencia: Utilize los ejercicios 31(b) y 34.
35.-Obtenga los resultados del Ejercicio 35 diferenciando la funcion generadora de probabilidad de
SN encontrada en el Ejemplo 19 del Captulo 3, haciendo t = 1.

También podría gustarte