Está en la página 1de 15

Capı́tulo 5

Variables aleatorias bidimensionales

5.1. Distribución de probabilidad conjunta

En un experimento aleatorio es bastante frecuente definir más de una variable aleatoria. Por ejemplo,
en la fabricación de una pieza se pueden definir dos variables aleatorias Long y Diam que miden dos
dimensiones sobre la misma pieza, su longitud y el diámetro de una perforación. Cada una de estas varia-
bles se puede estudiar por separado. Por otra parte, por ser ambas variables medidas de la misma pieza,
pequeñas alteraciones en el proceso de fabricación, por ejemplo variaciones en la presión y temperatura,
pueden generar valores para Long y Diam en regiones especı́ficas del espacio de dos dimensiones. El
conocimiento de la distribución conjunta de las dos variables proporciona información que no es evidente
a partir de las distribuciones de cada una de ellas por separado.

En general, dadas dos variables aleatorias la distribución de probabilidad que define simultáneamente
su comportamiento se denomina distribución de probabilidad conjunta. En ocasiones, a esta distri-
bución de probabilidad se le llama distribución de probabilidad bivariante. Por simplificar la presentación
se considera el análisis de dos variables. Las definiciones y los resultados se extienden fácilmente cualquier
número de variables aleatorias.

Sean X e Y dos variables aleatorias discretas, la distribución de probabilidad de X e Y se define


sobre el conjunto de pares {(xi , yj ) : i = 1, 2, · · · , j = 1, 2, · · · } en el rango de (X, Y ) que tienen una
probabilidad positiva y la función de masa de probabilidad conjunta de (X, Y ) es:

P (X = xi , Y = yj ) = pij , i = 1, 2, · · · , j = 1, 2, · · ·

Al par (X, Y ) se le denomina variable aleatoria bidimensional discreta. Por ser un función de masa
de probabilidad ha de verificar:

1. P (X = xi , Y = yj ) ≥ 0, i = 1, 2, · · · , j = 1, 2, · · ·
XX
2. P (X = xi , Y = yj ) = 1
i j

105
106 Variables aleatorias bidimensionales C.Galé.

Se supone que la función de masa de probabilidad conjunta es cero en todos los valores para los que la
probabilidad no se ha especificado. Los conjuntos {xi : i = 1, 2, · · · } y {yj : j = 1, 2, · · · } son el rango de
X e Y , respectivamente, es decir, el conjunto de valores tomados con probabilidad positiva.

Ejemplo 23. En un receptor de información digital cada bit se clasifica según la calidad de la señal
recibida y el 90 % son aceptables, el 8 % dudosos y el 2 % inaceptables. A partir de un mensaje de 4 bits,
se define la variable X como el número de bits aceptables e Y el número de bits dudosos. Calcular la
distribución conjunta de (X, Y ).

Las variables X e Y por separado siguen una distribución Bin(4, 0,9) y Bin(4, 0,08), respectivamente,
con rango {0, 1, 2, 3, 4}. En la siguiente tabla de doble entrada se indican los pares (i, j) en el rango de
(X, Y ) y su función de masa de probabilidad conjunta:

Y \X 0 1 2 3 4

0 1.6×10−7 2.88×10−5 1.94×10−3 5.83×10−2 0.6561


1 2.56×10−6 3.46×10−4 1.56×10−2 0.2333
2 1.54×10−5 1.38×10−3 3.11×10−2
3 4.1×10−5 1.84×10−3
4 4.1×10−5

Por ejemplo,

P (X = 0, Y = 0) = P ( “número de bits inaceptables sea 4” ) = 0,024 =


= 1,6 × 10−7

P (X = 3, Y = 3) =0

4!
P (X = 1, Y = 2) = 0,9 · 0,082 · 0,02 = 1,38 × 10−3
1!2!1!
La misma discusión se puede hacer de dos variables aleatorias continuas, X e Y . La distribución
conjunta en el caso continuo nos ha de proporcionar un método para calcular la probabilidad de que X
e Y tomen valor en cualquier región del plano (R2 ). Al par (X, Y ) se le denomina variable aleatoria
bidimensional continua.

Se denomina función de densidad de probabilidad conjunta para las variables X e Y y se denota por
f(X,Y ) (x, y) a una función real de variable real que verifica:

1. f(X,Y ) (x, y) ≥ 0, ∀(x, y) ∈ R2


R∞ R∞
2. −∞ −∞ f(X,Y ) (x, y) dx dy = 1
Z Z
2
3. ∀U ⊂ R , P ((X, Y ) ∈ U ) = f(X,Y ) (x, y) dx dy
U

La función de densidad conjunta de (X, Y ) determina una superficie en R3 . La probabilidad de que el


par (X, Y ) tome un valor en una región U del plano es igual al volumen bajo la superficie dada por
C.Galé. 107

f(X,Y ) (x, y) sobre la región U . De ahora en adelante, se supone que la función f(X,Y ) (x, y) está definida
sobre todo el plano y es nula en los valores en los que no se especifica.

La función de densidad f(X,Y ) (x, y) no representa ninguna probabilidad, cuando se integra sobre una
región del plano (R2 ) es cuando se obtiene una probabilidad.
Ejemplo 24. Una fotocopiadora tiene instalada una componente en reserva por si falla una componente
con una labor muy importante. Se definen las variables aleatorias T1 =“Tiempo en horas hasta el fallo
de la componente primaria” y T2 =“Tiempo en horas hasta el fallo de la componente de reserva”. Ambas
variables miden el tiempo desde un mismo instante inicial y como la componente de reserva no se utiliza
hasta que falla la componente principal se deduce que T1 < T2 , además se supone que la duración de cada
componente es exponencial de parámetro 0.003 y 0.002, respectivamente. La distribución de probabilidad
conjunta de la variable (T1 , T2 ) es:
f(T1 ,T2 ) (x, y) = 6 · 10−6 e−0,001x−0,002y x<y

Notemos que, T2 no sigue una distribución exponencial, porque la componente de reserva no se utiliza
hasta que la primera componente falla.

Al calcular cualquier probabilidad relativa a la variable (T1 , T2 ) se ha de tener cuidado al determinar


el recinto de integración en el que la función de densidad no es nula. Por ejemplo, la probabilidad de que
el tiempo de vida de la componente primaria sea inferior a 1000 horas y el de la componente de reserva
a 2000 horas se calcula de la siguiente forma:
Z 1000 µZ 2000 ¶
P (T1 ≤ 1000, T2 ≤ 2000) = 6 · 10−6 e−0,001x−0,002y dy dx = 0,915
0 x

La distribución de probabilidad de una variable aleatoria bidimensional también queda caracterizada


por la función de distribución acumulada, que se denota por F (x, y) y se define del mismo modo
que el caso unidimensional:
F (x, y) = P (X ≤ x, Y ≤ y) (x, y) ∈ R2
En el caso continuo, se verifica:
∂ 2 F (x, y)
= f (x, y)
∂x∂y
En algunos experimentos se definen variables aleatorias bidimensionales mixtas, es decir, una de las
variables es discreta y otra es continua. Por ejemplo, una compañı́a recoge datos sobre los desperdicios
desechados por los hogares de una región, para realizar un estudio y planificar qué equipos necesita para
recolectar y procesar la basura. Dos variables de interés en este estudio pueden ser, la variable discreta
T am que mide el número de miembros en la familia y la variable continua M etal que mide el peso de los
artı́culos de metal desechados.

Sea (X, Y ) una variable aleatoria bidimensional y g una función real definida sobre R2 , entonces el
valor esperado o esperanza de g(X, Y ) se define:
 X

 g(xi , yj )pij (X, Y ) discreta


 {(i,j):pij >0}
E (g(X, Y )) =

 Z ∞ µZ ∞ ¶


 g(x, y)f(X,Y ) (x, y) dy dx (X, Y ) continua
−∞ −∞
108 Variables aleatorias bidimensionales C.Galé.

El valor E (g(X, Y )) se puede ver como la media ponderada de la función g(·, ·) evaluada en cada punto
en el rango de (X, Y ) y es un número que no depende de x ni de y.

En este contexto es posible introducir los momentos de las variables X e Y ya definidos anteriormente
y otros nuevos que implican a la distribución conjunta. El (r,s)-ésimo momento respecto del origen
de la variable (X, Y ), se denota por αrs y se define como E(X r Y s ).

Del mismo modo, el (r,s)-ésimo momento respecto de la media de (X, Y ), se denota por µrs y
se define como E ((X − E(X))r (Y − E(Y ))s ).

5.2. Distribución de probabilidad marginal

Cuando en un experimento aleatorio se define más de una variable aleatoria es muy importante dis-
tinguir entre la distribución de probabilidad conjunta y la distribución de cada una de las variables
individualmente. La distribución de probabilidad individual de una variable aleatoria se denomina dis-
tribución de probabilidad marginal. En general, la distribución de probabilidad marginal de X se
puede determinar a partir de la distribución conjunta de X y otras variables aleatorias.

Sea (X, Y ) una variable bidimensional discreta, con función de masa de probabilidad conjunta {pij :
i = 1, 2, · · · , j = 1, 2, · · · }, entonces la función de masa de probabilidad marginal de X es:
X
P (X = xi ) = pi• = P (X = xi , Y = yj ) i = 1, 2, · · ·
{j: pij >0}

donde la suma se extiende en los puntos del rango de (X, Y ) para los que X = xi . Del mismo modo la
distribución marginal de Y es:
X
P (Y = yj ) = p•j = P (X = xi , Y = yj ) j = 1, 2, · · ·
{i: pij >0}

Para calcular los valores de E(X) y V (X) se puede utilizar directamente la distribución de proba-
bilidad conjunta de (X, Y ) o bien calcular en primer lugar la distribución marginal de X y luego por el
método usual calcular E(X) y V (X). Es decir,
X X X
E(X) = xi pij = xi pij =
{(i,j): pij >0} i {j: pij >0}
X X X
= xi pij = xi pi•
i {j: pij >0} {i: pi• >0}
X 2
X 2
V (X) = (xi − E(X)) pij = (xi − E(X)) pi•
{(i,j): pij >0} {i: pi• >0}

Notemos que, el concepto de r-ésimo momento de la variable respecto del origen es un momento
correspondiente a la distribución marginal X y en este contexto se puede definir considerando la función
g(x, y) = xr . Por tanto, E(X r ) = αr0 y E(Y r ) = α0r , en particular, E(X) = α10 y E(Y ) = α01 .
Los momentos µr0 y µ0s son los momentos r-ésimo y s-ésimo respecto de la media de las distribuciones
marginales X e Y , respectivamente. En particular, µ20 es la varianza de X y µ02 la de Y .
C.Galé. 109

Ejemplo 25. En el ejemplo 23, calcular la distribución marginal de la variable X (número de bits
aceptables) y su valor medio.

El rango de la variable X es {0, 1, 2, 3, 4} y su función de masa de probabilidad asociada al valor i se


obtiene sumando para cada valor i la columna de la tabla de la distribución conjunta. Por ejemplo,

P (X = 3) = P (X = 3, Y = 0) + P (X = 3, Y = 1) = 0,0583 + 0,2333 = 0,292

Notemos que, este resultado coincide con la distribución de probabilidad de una Bin(4, 0,9). En este ejem-
plo, la distribución marginal de X se puede determinar directamente de la descripción del experimento,
pero esto no ocurre siempre y en otros casos sólo se puede calcular a partir de la distribución conjunta.

Para calcular el valor esperado de la variable X a partir de la distribución conjunta:

E(X) = 0(1,6 × 10−7 + · · · + 4,1 × 10−5 ) + · · · + 4(0,6561) = 3,6 = 4 × 0,9

De manera análoga, dada (X, Y ) una variable bidimensional continua con función de densidad con-
junta f(X,Y ) (x, y), la función de densidad marginal de X es:
Z ∞
fX (x) = f(X,Y ) (x, y) dy
−∞

donde hay que tener cuidado e integrar sobre el rango de valores para los que f(X,Y ) (x, y) es no nula
y definir el rango de valores para los que fX (x) es distinta de cero. Del mismo modo la distribución
marginal de Y es: Z ∞
fY (y) = f(X,Y ) (x, y) dx
−∞
donde también se calcular el rango de valores para los que fY (y) es distinta de cero.

En general, para calcular cualquier probabilidad en la que interviene una sola variable se puede utilizar
la distribución de probabilidad conjunta o la distribución marginal. Por ejemplo, dada la distribución
conjunta de (X, Y ) se tiene que P (a < X < b) = P (a < X < b, −∞ < Y < ∞).
Ejemplo 26. Con los datos del ejemplo 24, calcular la probabilidad de que el tiempo de vida de la
componente en reserva supere las dos mil horas.

En primer lugar, teniendo en cuenta el rango de valores en los que la función de densidad conjunta es
no nula:
P (Y > 2000) = P (−∞ < X < ∞, Y > 2000) =
R 2000 ¡R ∞ ¢ R ∞ ¡R ∞ ¢
= 0 2000
6 · 10−6 e−0,001x−0,002y dy dx + 2000 x 6 · 10−6 e−0,001x−0,002y dy dx =

= 0,0475 + 0,0025 = 0,05,


donde al establecer los recintos de integración se ha tenido en cuenta que f(X,Y ) (x, y) es no nula para
0 ≤ x < y < ∞. Otra alternativa es calcular en primer lugar la función de densidad marginal de la
variable Y y después calcular esa probabilidad de la manera usual:
R∞ Ry
fY (y) = −∞ f(X,Y ) (x, y) dx = 6 · 10−3 e−0,002y 0 10−3 e−0,001x dx
¡ ¢
= 6 · 10−3 e−0,002y −e−0,001y + 1 = 6 · 10−3 (e−0,002y − e−0,003y ) y≥0
110 Variables aleatorias bidimensionales C.Galé.

Entonces,
Z ∞
P (Y > 2000) = 6 · 10−3 (e−0,002y − e−0,003y )dy = 3e−4 − 2e−6 = 0,055 − 0,005 = 0,05
2000

De la forma usual se pueden calcular las funciones de distribución marginales de X e Y . A continuación


se considera el caso continuo, en el caso discreto se calculan del mismo modo, sustituyendo la integral
por el sumatorio.
Z x Z x µZ ∞ ¶
F (x) = P (X ≤ x) = fX (t)dt = f(X,Y ) (t, y)dy dt = F (x, ∞)
−∞ −∞ −∞

Z y Z y µZ ∞ ¶
F (y) = P (Y ≤ y) = fY (t)dt = f(X,Y ) (x, t)dx dt = F (∞, y)
−∞ −∞ −∞

Las funciones de distribución marginales se pueden determinar a partir de distribución de probabilidad


conjunta. El recı́proco no es, en general, cierto. Es decir, conocidas las distribuciones marginales no se
puede determinar la distribución de probabilidad conjunta.

Ejercicio 19. Si se supone conocida la distribución conjunta de la variable (X, Y ) continua, determinar
la expresión de E(X) y V (X).

5.3. Distribución de probabilidad condicional

En un experimento aleatorio, la información sobre una variable puede cambiar las probabilidades
asociadas a otras variables definidas sobre el mismo experimento. Por ejemplo, en el ejemplo 23 de
transmisión de bits, si el número de bits correctamente transmitidos ha sido 4, entonces se puede asegurar
que la variable Y toma el valor 0 con probabilidad 1.

En este momento, se recuerda la definición de probabilidad condicionada para dos sucesos A y B:

P (A ∩ B)
P (A|B) =
P (B)

Esta definición se puede aplicar en particular a los sucesos A = {Y = yj } y B = {X = xi }, donde xi


está en el rango de X e yj en el de Y .

Sea (X, Y ) una variable bidimensional discreta que toma los valores {(xi , yj ) : i = 1, 2, · · · , j =
1, 2, · · · } y la función de masa probabilidad conjunta {pij : i = 1, 2, · · · , j = 1, 2, · · · )}. La función de
masa de probabilidad condicional de Y dada X = xi (i = 1, 2, · · · ) es:

P (X = xi , Y = yj ) pij
pj|i = P (Y = yj |X = xi ) = = j = 1, 2, · · ·
P (X = xi ) pi•

donde la probabilidad condicionada se calcula sólo a valores xi con pi• > 0. Del mismo modo, dado yj
con p•j > 0 la función de masa de probabilidad condicional de X dado Y = yj es:

P (X = xi , Y = yj ) pij
pi|j = P (X = xi |Y = yj ) = = i = 1, 2, · · ·
P (Y = yj ) p•j
C.Galé. 111

Ejercicio 20. Comprobar que las funciones de masa de probabilidad definidas verifican las propiedades
de función de masa de probabilidad.

Para la variable Y condicionada a X = xi se pueden calcular cualquiera de las caracterı́sticas definidas


para las variables aleatorias. La media condicionada de Y dada X = xi , se denota por E(Y |X = xi )
y se define: X X
E(Y |X = xi ) = yj P (Y = yj |X = xi ) = yj pj|i
{j:pij >0} {j:pij >0}

y la varianza condicionada de Y dada X = xi , se denota por V (Y |X = xi ) y se define:


X
V (Y |X = xi ) = (yj − E(Y |X = xi ))2 pj|i =
{j:pij >0}
 
X
= yj 2 pj|i  − E(Y |X = xi )2
{j:pij >0}

Ejemplo 27. Con los datos del ejemplo 23 definir la distribución de probabilidad de Y dada X = 3 y
calcular su media y varianza.

Dado X = 3, los únicos valores que puede tomar Y con probabilidad positiva son 0 y 1, luego el rango
de Y |X = 3 es {0, 1} y su función de masa de probabilidad:

P (X=3,Y =0) 0,05832


P (Y = 0|X = 3) = P (X=3) = = 0,2
0,2916

P (X=3,Y =1) 0,2333


P (Y = 1|X = 3) = P (X=3) = = 0,8
0,2916

La media y varianza condicional de Y dada X = 3 se obtiene a partir de la función de masa anterior:

E(Y |X = 3) = (0 × 0,2) + (1 × 0,8) = 0,8

V (Y |X = 3) = (0 − 0,8)2 0,2 + (1 − 0,8)2 0,8 = 0,16

y significa que cuando en un mensaje de 4 bits se sabe que 3 han sido correctos, en media se esperan 0.8
bits dudosos.

De forma análoga, sea (X, Y ) una variable bidimensional continua con función de densidad conjunta
f(X,Y ) (x, y). La función de densidad condicional de Y dada X = x (fX (x) > 0) es:

f(X,Y ) (x, y)
fY |X=x (y) =
fX (x)

donde el rango en el que fY |X=x (y) 6= 0 se determina a partir del rango de valores en el que la función
de densidad conjunta es no nula. De forma simétrica se introduce la función de densidad condicional de
X dada Y = y con fY (y) > 0:
f(X,Y ) (x, y)
fX|Y =y (x) =
fY (y)
112 Variables aleatorias bidimensionales C.Galé.

La función de densidad fY |X=x (y) se utiliza para calcular probabilidades relativas a la variable Y cuando
se conoce que la variable X toma cierto valor x. No tiene sentido calcular probabilidades condicionadas
a valores de X = x con fX (x) = 0 ó de Y = y con fY (y) = 0. Además, si se tiene en cuenta que Y |X = x
es una variable aleatoria:
Z
1. P (Y ∈ U |X = x) = fY |X=x (y) dy, ∀U ⊂ R.
U

2. La media condicionada de Y dada X = x es igual


Z ∞
E(Y |X = x) = yfY |X=x (y) dy
−∞

3. La varianza condicionada de Y dada X = x es igual


Z ∞
2
V (Y |X = x) = (y − E(Y |X = x)) fY |X=x (y) dy =
−∞
µZ ∞ ¶
= y fY |X=x (y) dy − E(Y |X = x)2
2
−∞
Ejercicio 21. Comprobar que la función definida fY |X=x (y) (fX (x) > 0), verifica las propiedades de
función de densidad.

Es muy importante establecer la región o rango de valores en los que una distribución de probabilidad
conjunta, marginal o condicional tiene valor no nulo. El ejemplo inicial de la fotocopiadora ilustra este
hecho.
Ejemplo 28. Con los datos del ejemplo 24, calcular la distribución de probabilidad de la variable
T2 |T1 = x y determinar la probabilidad de que el tiempo hasta el fallo de la componente de reserva supere
las 2000 horas, si la componente principal ha fallado a las 1500 horas de funcionamiento.

La distribución de probabilidad conjunta de la variable (T1 , T2 ) es:


f(T1 ,T2 ) (x, y) = 6 · 10−6 e−0,001x−0,002y x<y
En primer lugar, se calcula la función de densidad marginal de T1 :
Z ∞ Z ∞
fT1 (x) = f(T1 ,T2 ) (x, y)dy = 6 · 10−6 e−0,001x−0,002y dy = 0,003e−0,003x
−∞ x

que es la función de densidad de una variable exponencial con parámetro λ=0.003. Dado x > 0, por ser
f(T1 ,T2 ) (x, y) distinta de cero para los valores 0 < x < y < ∞, la función de densidad condicional de T2
dada T1 = x es no nula para los valores de y > x y se define:
6 · 10−6 e−0,001x−0,002y
fT2 |T1 =x (y) = = 0,002e−0,002x−0,002y
0,003e−0,003x
En particular, la función de densidad condicional de T2 dado T1 = 1500 horas es:
fT2 |T1 =1500 (y) = 0,002e−3−0,002y y > 1500
Para determinar la probabilidad de que el tiempo hasta el fallo de la componente de reserva supere las
2000 horas, dado que la principal ha fallado a las 1500 horas, se calcula:
Z ∞ Z ∞
P (T2 > 2000|T1 = 1500) = fT2 |T1 =1500 (y)dy = 0,002e−3−0,002y dy = 0,368
2000 2000
C.Galé. 113

5.4. Variables aleatorias independientes

En los experimentos aleatorios también se definen variables de forma que, el conocimiento de una
variable no cambia ninguna probabilidad relativa a otra. Por ejemplo, al moldear una pieza de plástico,
se define la variable X que toma el valor 0 si la pieza es conforme a las especificaciones de color y 1 en
caso contrario y la variable Y que toma valor 0 si la pieza es conforme a las especificaciones de longitud y
1 en caso contrario. En este ejemplo, el conocimiento de que una pieza se ajusta o no a las especificaciones
de color no cambia la probabilidad de que se ajuste o no a las especificaciones de longitud.

El concepto de independencia de variables aleatorias se introduce en el mismo sentido que para los
sucesos aleatorios. Sea (X, Y ) una variable bidimensional discreta, se dice que las variables X e Y son
independientes si se verifica cualquiera de las siguientes afirmaciones:

- P (X = xi , Y = yj ) = P (X = xi )P (Y = yj ), i = 1, 2, · · · j = 1, 2, · · ·

- P (Y = yj |X = xi ) = P (Y = yj ), i = 1, 2, · · · j = 1, 2, · · · con pi• > 0

- P (X = xi |Y = yj ) = P (X = xi ), i = 1, 2, · · · j = 1, 2, · · · con p•j > 0

Se comprueba que la afirmaciones anteriores son equivalentes. Además, si la igualdad P (X = xi , Y =


yj ) = P (X = xi )P (Y = yj ) no se verifica para algún par (xi , yj ) en el rango de (X, Y ) entonces las
variables X e Y no son independientes.

De forma análoga, sea (X, Y ) una variable bidimensional continua, se dice que las variables X e Y
son independientes si se verifica cualquiera de las siguientes afirmaciones:

1. f(X,Y ) (x, y) = fX (x)fY (y), ∀(x, y) ∈ R2

2. fY |X=x (y) = fY (y), ∀y con fX (x) > 0

3. fX|Y =y (x) = fX (x), ∀x con fY (y) > 0

4. P (X ∈ U, Y ∈ V ) = P (X ∈ U )P (Y ∈ V ), ∀U, V ⊂ R

Se comprueba que las afirmaciones anteriores son equivalentes.

Dada una variable bidimensional, (X, Y ), si el rango de valores no es un rectángulo, entonces X e


Y no pueden ser independientes porque el conocimiento de una de ellas puede determinar el rango de
valores de la otra que reciben una probabilidad positiva. Esta situación se aprecia en los ejemplos 23 y
24. Por otra parte, si el rango es un rectángulo las variables X e Y pueden ser independientes o no serlo.

Ejemplo 29. Comprobar en los ejemplos 23 y 24 que las variables definidas no son independientes.

En el primer ejemplo, basta decir que P (Y = 0|X = 3) = 0,2 6= P (Y = 0) = 0,716.

En el segundo ejemplo, se ha calculado la función de densidad marginal de Y y la de Y condicionada


a X = x y no coinciden, luego las variables X e Y no son independientes. En ambos ejemplos, el hecho
de que el rango de (X, Y ) no sea rectangular permite determinar rápidamente que las variables no son
independientes.
114 Variables aleatorias bidimensionales C.Galé.

En muchas ocasiones, del conocimiento del sistema bajo estudio se deduce que las variables aleatorias
son independientes, entonces los cálculos de las probabilidades en las que intervienen dichas variables
se pueden determinar a partir de las distribuciones de probabilidad marginales de las mismas. Es decir,
cuando X e Y son independientes es posible conocer la distribución conjunta de (X, Y ) a partir de las
distribuciones marginales.

Propiedades: Dadas X e Y variables aleatorias independientes y a, b ∈ R constantes:

1. E(XY ) = E(X)E(Y )

2. V (aX + bY ) = a2 V (X) + b2 V (Y )

3. Una constante a es independiente de cualquier variable aleatoria X.

4. Dadas g(·) y h(·) dos funciones reales de variable real, las variables g(X) y h(Y ) son independientes.

5.5. Covarianza y correlación

Cuando en un experimento aleatorio se define más de una variable, el interés se centra principalmente
en conocer como se relacionan estas variables y en ocasiones, llegar a predecir el valor de una variable a
partir del comportamiento de las otras. Una medida de interés en este aspecto es la covarianza entre
las variables X e Y , se denota por Cov(X, Y ) ó σXY y coincide con el momento µ11 :

Cov(X, Y ) = E ((X − E(X))(Y − E(Y )))

La covarianza es una medida de la variabilidad conjunta de X e Y , luego es una medida de la relación entre
dos variables aleatorias. Si se representan en el plano R2 los valores (x, y) de (X, Y ) reciben probabilidad
positiva y tienden a caer sobre una recta de pendiente positiva, entonces Cov(X, Y ) es positiva y si
tienden a caer sobre una recta de pendiente negativa es negativa. En este sentido la covarianza es una
medida de la asociación lineal entre las variables (X, Y ). Aunque puede existir una relación no lineal
entre las variables y no ser detectada por la covarianza.

Ejercicio 22. Comprobar la igualdad Cov(X, Y ) = E(XY ) − E(X)E(Y ) (esta expresión facilita el
cálculo de la covarianza).

Propiedades: Sean X, Y y Z variables aleatorias y a, b ∈ R dos constantes, entonces:

1. Cov(X, X) = V (X), Cov(X, Y ) = Cov(Y, X) y Cov(X, a) = 0

2. Cov(X + Y, Z) = Cov(X, Z) + Cov(Y, Z)

3. Cov(X, Y + Z) = Cov(X, Y ) + Cov(X, Z)

4. Cov(aX, bY ) = a b Cov(X, Y ).

5. Si X e Y son variables independientes, entonces Cov(X, Y ) = 0.

Ejemplo 30. Razonar el signo de la covarianza entre las variables X e Y en el ejemplo 23.
C.Galé. 115

Por ser X el número de bits correctos e Y el número de bits dudosos en una transmisión de 4 bits, se
tiene que X + Y ≤ 4. Por tanto, si X está cerca de 4, Y tomará valores próximos a 0 y viceversa. Por
tanto la Cov(X, Y ) será negativa. Se puede comprobar numéricamente.

La unidad de medida de la covarianza es el producto de la unidad de medida de X por la de Y ,


lo que en ocasiones es difı́cil de interpretar. Por este motivo se introduce una medida estandarizada de
la asociación lineal que existe entre dos variables. Dadas X e Y dos variables aleatorias, se define el
coeficiente de correlación entre X e Y y se denota por ρXY :

Cov(X, Y )
ρXY =
σX σY

Si ρXY 6= 0 se dicen que las variables son correladas y si ρXY = 0 son incorreladas. El coeficiente
de correlación tiene el mismo signo que la covarianza (positivo, negativo o cero). Además, por ser una
medida adimensional permite analizar y comparar relaciones lineales entre pares de variables medidas en
diferentes unidades.

Propiedades: Sean X, Y y Z variables aleatorias y a, b ∈ R dos constantes, entonces:

1. −1 ≤ ρXY ≤ 1
µ ¶
X − E(X) Y − E(Y )
2. ρXY = Cov ,
σX σY

3. Si Y = aX + b, entonces ρXY = 1 si a > 0 y ρXY = −1 si a < 0.

4. Si X e Y son variables independientes, entonces ρXY = 0.

La demostración de estas propiedades es sencilla y basta utilizar la definición del coeficiente de corre-
lación. Dadas dos variables independientes es lógico no esperar ningún tipo de relación entre ambas, en
particular lineal. Esta observación se prueba en la última propiedad, independencia implica incorrelación.
Es importante señalar que el recı́proco no es cierto. El hecho de obtener Cov(X, Y ) = 0 no es condición
suficiente para asegurar la independencia de variables aleatorias.

5.6. Distribución Normal bivariante

En el apartado 5.1 se definieron dos variables Long y Diam que son las medidas de dos dimensiones
sobre una misma pieza. Cada variable tiene un comportamiento Normal y cabe esperar que por ser
medidas de la misma pieza no sean independientes. Este ejemplo muestra como en muchas aplicaciones es
importante conocer la distribución conjunta de dos variables normales que no son independientes. En este
sentido, resulta de gran interés extender la distribución Normal unidimensional al caso bidimensional.

La función de densidad de una distribución Normal bivariante de parámetros µX (−∞ < µX <
116 Variables aleatorias bidimensionales C.Galé.

∞), µY (−∞ < µY < ∞), σX (> 0), σY (> 0), ρ(−1 ≤ ρ ≤ 1), se denota por N (µX , µY , σX , σY , ρ) es:
1
f (x, y) = p
2πσX σY 1 − ρ2
µ µ ¶¶
−1 (x − µX )2 2ρ(x − µX )(y − µY ) (y − µY )2
exp 2 − +
2(1 − ρ2 ) σX σX σY σY2

para −∞ < x, y < ∞, es decir, la función de densidad de la distribución normal bivariante es positiva
en todo el plano real R2 . Además, se comprueba que E(X) = µX , E(Y ) = µY , V (X) = σX 2
, V (Y ) = σY2
y ρ es el coeficiente de correlación entre X e Y . La distribución normal bivariante tiene gran utilidad
práctica en el cálculo de probabilidades en las que intervienen variables aleatorias normales correladas.

Las distribuciones de probabilidad marginales de X e Y son distribuciones N (µX , σX ) y N (µY , σY ),


respectivamente.

En relación a las distribuciones condicionales:


σX p
X condicionada a Y = y es N (µx + ρ (y − µY ), σX 1 − ρ2 ),
σY
σY p
Y condicionada a X = x es N (µy + ρ (x − µX ), σY 1 − ρ2 ),
σX
Propiedad

Dada (X, Y ) variable bidimensional con distribución normal bivariante, X e Y son independientes si
y solo si X e Y son incorreladas.

Esta propiedad nos dice que para la distribución normal bivariante independencia e incorrelación son
conceptos equivalentes. Notemos que, si ρ = 0 entonces:
µ µ ¶¶
1 −1 (x − µX )2 (y − µY )2
f (x, y) = exp 2 +
2πσX σY 2 σX σY2
µ ¶
1 −1 (x − µX )2
fX (x) = √ exp 2
2πσX 2 σX
µ ¶
1 −1 (y − µY )2
fY (y) = √ exp
2πσY 2 σY2
Luego f (x, y) = fX (x)fY (y).

5.7. Variables aleatorias n-dimensionales.


Distribución multinomial

Al comenzar el capı́tulo se comentó que elegir el caso bidimensional era por simplicidad en la nota-
ción. Sin embargo, en algunos casos se definen más de dos variables en un mismo experimento. Todos los
conceptos introducidos para el estudio de variables bidimensionales (X, Y ) se pueden generalizar a va-
riables n-dimensionales (X1 , · · · , Xn ). La necesidad de introducir estas variables se justifica al encontrar
C.Galé. 117

en la mayorı́a de los experimentos aleatorios gran cantidad de variables aleatorias de las que nos interesa
conocer cómo interactúan. La dificultad de trabajar con variables n-dimensionales es fundamentalmente
debida a la notación.

Dada (X1 , · · · , Xn ) una variable n-dimensional se puede definir la distribución de probabilidad con-
junta de las n variables, la distribución marginal de cada una de ellas, la distribución conjunta de cualquier
subconjunto de las mismas y la distribución condicionada de un subconjunto de variables dados los valores
de otro subconjunto de las mismas.

El concepto de independencia también se generaliza a más de dos variables aleatorias. Dadas las
variables discretas X1 , · · · , Xn se dice que son independientes si y solo si
P (X1 = x1 , · · · , Xn = xn ) = P (X1 = x1 ) · · · P (Xn = xn )
para cualesquiera valores (x1 , · · · , xn ) en el rango de (X1 , · · · , Xn ).

En el caso continuo, las variables X1 , · · · , Xn se dice que son independientes si y solo si


f(X1 ,··· ,Xn ) (x1 , · · · , xn ) = fX1 (x1 ) · · · fXn (xn )
Un ejemplo de variable n-dimensional discreta es la variable multinomial que es una generalización
inmediata de la distribución binomial. Se considera una prueba que tiene más de dos posibles resultados,
por ejemplo la calidad de un producto puede ser clasificada en superior, media o baja. En general, se
supone que cada prueba admite k resultados mutuamente excluyentes con probabilidades p1 , p2 , · · · , pk
Xk
de modo que pi = 1. El experimento aleatorio consiste en realizar n pruebas independientes y se
i=1
define la variable k-dimensional (X1 , · · · , Xk ) donde Xi cuenta el número de pruebas de las n realizadas
que han dado como resultado i, con i = 1, · · · , k.

Para definir la función de masa de probabilidad de una variable multinomial (X1 , · · · , Xk ) de paráme-
tros (k, p1 , · · · , pk ) se ha de determinar para todos los valores en el rango de (X1 , · · · , Xk ), que es el
k
X
conjunto {(x1 , · · · , xk ) : 0 ≤ xi ≤ n, i = 1, · · · , k, xi = n}:
i=1
n!
P (X1 = x1 , · · · , Xk = xk ) = px1 · · · pxkk
x1 ! · · · xk ! 1
k
X
Notemos que, en realidad se tiene una variable (k − 1)-dimensional porque al imponer que xi = n, el
i=1
valor de una de las variables se puede determinar conocido el de las demás. Por tanto se define la variable
(X1 , · · · , Xk−1 ) de parámetros (k, p1 , · · · , pk−1 ) con función de masa de probabilidad
n!
P (X1 = x1 , · · · , Xk−1 = xk−1 ) =
x1 ! · · · xk−1 !(n − x1 − · · · − xk−1 )!
x
px1 1 · · · pk−1
k−1
(1 − p1 − · · · − pk−1 )n−x1 −···−xk−1
para 0 ≤ xi ≤ n.

En cada prueba se puede observar si el resultado es el i-ésimo, i = 1, · · · , k o no lo es. La variable Xi


se define como el número de veces que aparece el resultado i en las n pruebas, entonces se deduce que la
distribución marginal de Xi , i = 1, · · · , k es binomial de parámetros n y pi . También se puede comprobar
analı́ticamente.
118 Variables aleatorias bidimensionales C.Galé.

5.8. Combinación lineal de variables


aleatorias. Propiedad de reproductividad

En este apartado se analiza un caso particular de variable aleatoria definida como función de otras
variables aleatorias. Sean X1 , · · · , Xn variables aleatorias y c1 , · · · , cn ∈ R constantes, entonces se define
la variable aleatoria X como combinación lineal de las variables dadas:

X = c1 X1 + · · · + cn Xn

Las caracterı́sticas de la variable X se pueden calcular a partir de la distribución de probabilidad conjunta


de (X1 , · · · , Xn ):
E(X) = c1 E(X1 ) + · · · + cn E(Xn )

n
X n−1
X n
X
V (X) = c2i V (Xi ) + 2 ci cj Cov(Xi , Xj )
i=1 i=1 j=i+1

Además, si X1 , · · · , Xn son independientes entonces


n
X
V (X) = c2i V (Xi )
i=1

En la última propiedad es importante la hipótesis de independencia. Para comprobarlo se considera


el siguiente ejemplo. Sea X una variable aleatoria e Y = −X, claramente X e Y son correladas con
ρXY = −1, luego no son independientes. Se define la variable Z = X + Y como combinación lineal de X e
Y . La variable Z es una variable degenerada en 0, es decir P (Z = 0) = 1 y V (Z) = 0, independientemente
de las varianzas de X e Y .

Los resultados anteriores se pueden utilizar para calcular la media y varianza de una distribución
binomial negativa que es suma de variables geométricas independientes y también de una distribución
Erlang si se interpreta como suma de variables exponenciales independientes del mismo parámetro.

Una combinación lineal especial es aquella en que las constantes ci = 1/n, ∀i y las variables Xi (para
i = 1, · · · , n) están igualmente distribuı́das y son independientes. Se denomina media muestral y se
denota por X:
X1 + · · · + Xn
X=
n
Si E(Xi ) = µ y V (Xi ) = σ 2 (i = 1, · · · , n) entonces E(X) = µ y por la hipótesis de independencia
σ2
V (X) = .
n
Una importante propiedad que verifican algunas distribuciones de probabilidad discretas y continuas
es la reproductividad. Sean X1 , · · · , Xn variables aleatorias con una misma distribución de probabilidad
e independientes, sea θi un parámetro que define la distribución de Xi , i = 1, · · · , n, entonces se dice que
la distribución de probabilidad es reproductiva con respecto al parámetro θ si X1 + · · · + Xn tiene
la misma distribución de probabilidad con parámetro θ = θ1 + · · · + θn .

A continuación se enumeran varias distribuciones de probabilidad que verifican esta propiedad con
respecto a alguno de sus paramétros.
C.Galé. 119

1. La distribución binomial es reproductiva respecto a su parámetro n. Dadas X1 , · · · , Xm indepen-


dientes con distribución Bin(ni , p), i = 1, · · · , m, entonces X1 + · · · + Xm es Bin(n1 + · · · + nm , p).

2. La distribución Poisson es reproductiva respecto a su parámetro λ. Dadas X1 , · · · , Xm indepen-


dientes con distribución P (λi ), i = 1, · · · , m, entonces X1 + · · · + Xm es P (λ1 + · · · + λm ).

3. La distribución binomial negativa es reproductiva respecto a su parámetro k. Dadas X1 , · · · , Xm in-


dependientes con distribución BinN eg(ki , p), i = 1, · · · , m, entonces X1 +· · ·+Xm es BinN eg(k1 +
· · · + km , p).

4. La distribución Erlang es reproductiva respecto a su parámetro n. Dadas X1 , · · · , Xm independien-


tes con distribución Erlang(ni , p), i = 1, · · · , m, entonces X1 +· · ·+Xm es Erlang(n1 +· · ·+nm , p).

5. La distribución χ2 es reproductiva respecto a su parámetro n. Dadas X1 , · · · , Xm independientes


con distribución χ2ni , i = 1, · · · , m, entonces X1 + · · · + Xm es χ2n1 +···+nm .

En el caso de X1 , · · · , Xm variables independientes con distribución N (µi , σi ), i = 1, · · · , n, la variable

X = c1 X1 + · · · + cn Xn

es Normal de media y varianza:


Pn 2 2
E(X) = c1 µ1 + · · · + cn µn V (X) = i=1 ci σi

También podría gustarte