Tema 5 Teoria Bidimensional Cgale

Capı́tulo 5
Variables aleatorias bidimensionales
5.1. Distribución de probabilidad conjunta
En un experimento aleatorio es bastante frecuente definir más de una variable aleatoria. Por ejemplo,
en la fabricación de una pieza se pueden definir dos variables aleatorias Long y Diam que miden dos
dimensiones sobre la misma pieza, su longitud y el diámetro de una perforación. Cada una de estas varia-
bles se puede estudiar por separado. Por otra parte, por ser ambas variables medidas de la misma pieza,
pequeñas alteraciones en el proceso de fabricación, por ejemplo variaciones en la presión y temperatura,
pueden generar valores para Long y Diam en regiones especı́ficas del espacio de dos dimensiones. El
conocimiento de la distribución conjunta de las dos variables proporciona información que no es evidente
a partir de las distribuciones de cada una de ellas por separado.
En general, dadas dos variables aleatorias la distribución de probabilidad que define simultáneamente
su comportamiento se denomina distribución de probabilidad conjunta. En ocasiones, a esta distri-
bución de probabilidad se le llama distribución de probabilidad bivariante. Por simplificar la presentación
se considera el análisis de dos variables. Las definiciones y los resultados se extienden fácilmente cualquier
número de variables aleatorias.
Sean X e Y dos variables aleatorias discretas, la distribución de probabilidad de X e Y se define

sobre el conjunto de pares {(xi , yj ) : i = 1, 2, · · · , j = 1, 2, · · · } en el rango de (X, Y ) que tienen una
probabilidad positiva y la función de masa de probabilidad conjunta de (X, Y ) es:
P (X = xi , Y = yj ) = pij , i = 1, 2, · · · , j = 1, 2, · · ·
Al par (X, Y ) se le denomina variable aleatoria bidimensional discreta. Por ser un función de masa
de probabilidad ha de verificar:
1. P (X = xi , Y = yj ) ≥ 0, i = 1, 2, · · · , j = 1, 2, · · ·
XX
2. P (X = xi , Y = yj ) = 1
i j
105
106 Variables aleatorias bidimensionales C.Galé.
Se supone que la función de masa de probabilidad conjunta es cero en todos los valores para los que la
probabilidad no se ha especificado. Los conjuntos {xi : i = 1, 2, · · · } y {yj : j = 1, 2, · · · } son el rango de
X e Y , respectivamente, es decir, el conjunto de valores tomados con probabilidad positiva.
Ejemplo 23. En un receptor de información digital cada bit se clasifica según la calidad de la señal
recibida y el 90 % son aceptables, el 8 % dudosos y el 2 % inaceptables. A partir de un mensaje de 4 bits,
se define la variable X como el número de bits aceptables e Y el número de bits dudosos. Calcular la
distribución conjunta de (X, Y ).
Las variables X e Y por separado siguen una distribución Bin(4, 0,9) y Bin(4, 0,08), respectivamente,
con rango {0, 1, 2, 3, 4}. En la siguiente tabla de doble entrada se indican los pares (i, j) en el rango de
(X, Y ) y su función de masa de probabilidad conjunta:
Y \X 0 1 2 3 4
0 1.6×10−7 2.88×10−5 1.94×10−3 5.83×10−2 0.6561

1 2.56×10−6 3.46×10−4 1.56×10−2 0.2333
2 1.54×10−5 1.38×10−3 3.11×10−2
3 4.1×10−5 1.84×10−3
4 4.1×10−5
Por ejemplo,
P (X = 0, Y = 0) = P ( “número de bits inaceptables sea 4” ) = 0,024 =

= 1,6 × 10−7
P (X = 3, Y = 3) =0
4!
P (X = 1, Y = 2) = 0,9 · 0,082 · 0,02 = 1,38 × 10−3
1!2!1!
La misma discusión se puede hacer de dos variables aleatorias continuas, X e Y . La distribución
conjunta en el caso continuo nos ha de proporcionar un método para calcular la probabilidad de que X
e Y tomen valor en cualquier región del plano (R2 ). Al par (X, Y ) se le denomina variable aleatoria
bidimensional continua.
Se denomina función de densidad de probabilidad conjunta para las variables X e Y y se denota por
f(X,Y ) (x, y) a una función real de variable real que verifica:
1. f(X,Y ) (x, y) ≥ 0, ∀(x, y) ∈ R2

R∞ R∞
2. −∞ −∞ f(X,Y ) (x, y) dx dy = 1
Z Z
2
3. ∀U ⊂ R , P ((X, Y ) ∈ U ) = f(X,Y ) (x, y) dx dy
U
La función de densidad conjunta de (X, Y ) determina una superficie en R3 . La probabilidad de que el

par (X, Y ) tome un valor en una región U del plano es igual al volumen bajo la superficie dada por
C.Galé. 107
f(X,Y ) (x, y) sobre la región U . De ahora en adelante, se supone que la función f(X,Y ) (x, y) está definida
sobre todo el plano y es nula en los valores en los que no se especifica.
La función de densidad f(X,Y ) (x, y) no representa ninguna probabilidad, cuando se integra sobre una
región del plano (R2 ) es cuando se obtiene una probabilidad.
Ejemplo 24. Una fotocopiadora tiene instalada una componente en reserva por si falla una componente
con una labor muy importante. Se definen las variables aleatorias T1 =“Tiempo en horas hasta el fallo
de la componente primaria” y T2 =“Tiempo en horas hasta el fallo de la componente de reserva”. Ambas
variables miden el tiempo desde un mismo instante inicial y como la componente de reserva no se utiliza
hasta que falla la componente principal se deduce que T1 < T2 , además se supone que la duración de cada
componente es exponencial de parámetro 0.003 y 0.002, respectivamente. La distribución de probabilidad
conjunta de la variable (T1 , T2 ) es:
f(T1 ,T2 ) (x, y) = 6 · 10−6 e−0,001x−0,002y x<y
Notemos que, T2 no sigue una distribución exponencial, porque la componente de reserva no se utiliza
hasta que la primera componente falla.
Al calcular cualquier probabilidad relativa a la variable (T1 , T2 ) se ha de tener cuidado al determinar

el recinto de integración en el que la función de densidad no es nula. Por ejemplo, la probabilidad de que
el tiempo de vida de la componente primaria sea inferior a 1000 horas y el de la componente de reserva
a 2000 horas se calcula de la siguiente forma:
Z 1000 µZ 2000 ¶
P (T1 ≤ 1000, T2 ≤ 2000) = 6 · 10−6 e−0,001x−0,002y dy dx = 0,915
0 x
La distribución de probabilidad de una variable aleatoria bidimensional también queda caracterizada

por la función de distribución acumulada, que se denota por F (x, y) y se define del mismo modo
que el caso unidimensional:
F (x, y) = P (X ≤ x, Y ≤ y) (x, y) ∈ R2
En el caso continuo, se verifica:
∂ 2 F (x, y)
= f (x, y)
∂x∂y
En algunos experimentos se definen variables aleatorias bidimensionales mixtas, es decir, una de las
variables es discreta y otra es continua. Por ejemplo, una compañı́a recoge datos sobre los desperdicios
desechados por los hogares de una región, para realizar un estudio y planificar qué equipos necesita para
recolectar y procesar la basura. Dos variables de interés en este estudio pueden ser, la variable discreta
T am que mide el número de miembros en la familia y la variable continua M etal que mide el peso de los
artı́culos de metal desechados.
Sea (X, Y ) una variable aleatoria bidimensional y g una función real definida sobre R2 , entonces el
valor esperado o esperanza de g(X, Y ) se define:
 X

 g(xi , yj )pij (X, Y ) discreta


 {(i,j):pij >0}
E (g(X, Y )) =

 Z ∞ µZ ∞ ¶


 g(x, y)f(X,Y ) (x, y) dy dx (X, Y ) continua
−∞ −∞
El valor E (g(X, Y )) se puede ver como la media ponderada de la función g(·, ·) evaluada en cada punto
en el rango de (X, Y ) y es un número que no depende de x ni de y.
En este contexto es posible introducir los momentos de las variables X e Y ya definidos anteriormente
y otros nuevos que implican a la distribución conjunta. El (r,s)-ésimo momento respecto del origen
de la variable (X, Y ), se denota por αrs y se define como E(X r Y s ).
Del mismo modo, el (r,s)-ésimo momento respecto de la media de (X, Y ), se denota por µrs y
se define como E ((X − E(X))r (Y − E(Y ))s ).
5.2. Distribución de probabilidad marginal
Cuando en un experimento aleatorio se define más de una variable aleatoria es muy importante dis-
tinguir entre la distribución de probabilidad conjunta y la distribución de cada una de las variables
individualmente. La distribución de probabilidad individual de una variable aleatoria se denomina dis-
tribución de probabilidad marginal. En general, la distribución de probabilidad marginal de X se
puede determinar a partir de la distribución conjunta de X y otras variables aleatorias.
Sea (X, Y ) una variable bidimensional discreta, con función de masa de probabilidad conjunta {pij :
i = 1, 2, · · · , j = 1, 2, · · · }, entonces la función de masa de probabilidad marginal de X es:
X
P (X = xi ) = pi• = P (X = xi , Y = yj ) i = 1, 2, · · ·
{j: pij >0}
donde la suma se extiende en los puntos del rango de (X, Y ) para los que X = xi . Del mismo modo la
distribución marginal de Y es:
X
P (Y = yj ) = p•j = P (X = xi , Y = yj ) j = 1, 2, · · ·
{i: pij >0}
Para calcular los valores de E(X) y V (X) se puede utilizar directamente la distribución de proba-
bilidad conjunta de (X, Y ) o bien calcular en primer lugar la distribución marginal de X y luego por el
método usual calcular E(X) y V (X). Es decir,
X X X
E(X) = xi pij = xi pij =
{(i,j): pij >0} i {j: pij >0}
X X X
= xi pij = xi pi•
i {j: pij >0} {i: pi• >0}
X 2
X 2
V (X) = (xi − E(X)) pij = (xi − E(X)) pi•
{(i,j): pij >0} {i: pi• >0}
Notemos que, el concepto de r-ésimo momento de la variable respecto del origen es un momento
correspondiente a la distribución marginal X y en este contexto se puede definir considerando la función
g(x, y) = xr . Por tanto, E(X r ) = αr0 y E(Y r ) = α0r , en particular, E(X) = α10 y E(Y ) = α01 .
Los momentos µr0 y µ0s son los momentos r-ésimo y s-ésimo respecto de la media de las distribuciones
marginales X e Y , respectivamente. En particular, µ20 es la varianza de X y µ02 la de Y .
C.Galé. 109
Ejemplo 25. En el ejemplo 23, calcular la distribución marginal de la variable X (número de bits
aceptables) y su valor medio.
El rango de la variable X es {0, 1, 2, 3, 4} y su función de masa de probabilidad asociada al valor i se

obtiene sumando para cada valor i la columna de la tabla de la distribución conjunta. Por ejemplo,
P (X = 3) = P (X = 3, Y = 0) + P (X = 3, Y = 1) = 0,0583 + 0,2333 = 0,292
Notemos que, este resultado coincide con la distribución de probabilidad de una Bin(4, 0,9). En este ejem-
plo, la distribución marginal de X se puede determinar directamente de la descripción del experimento,
pero esto no ocurre siempre y en otros casos sólo se puede calcular a partir de la distribución conjunta.
Para calcular el valor esperado de la variable X a partir de la distribución conjunta:
E(X) = 0(1,6 × 10−7 + · · · + 4,1 × 10−5 ) + · · · + 4(0,6561) = 3,6 = 4 × 0,9
De manera análoga, dada (X, Y ) una variable bidimensional continua con función de densidad con-
junta f(X,Y ) (x, y), la función de densidad marginal de X es:
Z ∞
fX (x) = f(X,Y ) (x, y) dy
−∞
donde hay que tener cuidado e integrar sobre el rango de valores para los que f(X,Y ) (x, y) es no nula
y definir el rango de valores para los que fX (x) es distinta de cero. Del mismo modo la distribución
marginal de Y es: Z ∞
fY (y) = f(X,Y ) (x, y) dx
−∞
donde también se calcular el rango de valores para los que fY (y) es distinta de cero.
En general, para calcular cualquier probabilidad en la que interviene una sola variable se puede utilizar
la distribución de probabilidad conjunta o la distribución marginal. Por ejemplo, dada la distribución
conjunta de (X, Y ) se tiene que P (a < X < b) = P (a < X < b, −∞ < Y < ∞).
Ejemplo 26. Con los datos del ejemplo 24, calcular la probabilidad de que el tiempo de vida de la
componente en reserva supere las dos mil horas.
En primer lugar, teniendo en cuenta el rango de valores en los que la función de densidad conjunta es
no nula:
P (Y > 2000) = P (−∞ < X < ∞, Y > 2000) =
R 2000 ¡R ∞ ¢ R ∞ ¡R ∞ ¢
= 0 2000
6 · 10−6 e−0,001x−0,002y dy dx + 2000 x 6 · 10−6 e−0,001x−0,002y dy dx =
= 0,0475 + 0,0025 = 0,05,

donde al establecer los recintos de integración se ha tenido en cuenta que f(X,Y ) (x, y) es no nula para
0 ≤ x < y < ∞. Otra alternativa es calcular en primer lugar la función de densidad marginal de la
variable Y y después calcular esa probabilidad de la manera usual:
R∞ Ry
fY (y) = −∞ f(X,Y ) (x, y) dx = 6 · 10−3 e−0,002y 0 10−3 e−0,001x dx
¡ ¢
= 6 · 10−3 e−0,002y −e−0,001y + 1 = 6 · 10−3 (e−0,002y − e−0,003y ) y≥0
Entonces,
Z ∞
P (Y > 2000) = 6 · 10−3 (e−0,002y − e−0,003y )dy = 3e−4 − 2e−6 = 0,055 − 0,005 = 0,05
2000
De la forma usual se pueden calcular las funciones de distribución marginales de X e Y . A continuación

se considera el caso continuo, en el caso discreto se calculan del mismo modo, sustituyendo la integral
por el sumatorio.
Z x Z x µZ ∞ ¶
F (x) = P (X ≤ x) = fX (t)dt = f(X,Y ) (t, y)dy dt = F (x, ∞)
−∞ −∞ −∞
Z y Z y µZ ∞ ¶
F (y) = P (Y ≤ y) = fY (t)dt = f(X,Y ) (x, t)dx dt = F (∞, y)
−∞ −∞ −∞
Las funciones de distribución marginales se pueden determinar a partir de distribución de probabilidad

conjunta. El recı́proco no es, en general, cierto. Es decir, conocidas las distribuciones marginales no se
puede determinar la distribución de probabilidad conjunta.
Ejercicio 19. Si se supone conocida la distribución conjunta de la variable (X, Y ) continua, determinar
la expresión de E(X) y V (X).
5.3. Distribución de probabilidad condicional
En un experimento aleatorio, la información sobre una variable puede cambiar las probabilidades
asociadas a otras variables definidas sobre el mismo experimento. Por ejemplo, en el ejemplo 23 de
transmisión de bits, si el número de bits correctamente transmitidos ha sido 4, entonces se puede asegurar
que la variable Y toma el valor 0 con probabilidad 1.
En este momento, se recuerda la definición de probabilidad condicionada para dos sucesos A y B:
P (A ∩ B)
P (A|B) =
P (B)
Esta definición se puede aplicar en particular a los sucesos A = {Y = yj } y B = {X = xi }, donde xi

está en el rango de X e yj en el de Y .
Sea (X, Y ) una variable bidimensional discreta que toma los valores {(xi , yj ) : i = 1, 2, · · · , j =
1, 2, · · · } y la función de masa probabilidad conjunta {pij : i = 1, 2, · · · , j = 1, 2, · · · )}. La función de
masa de probabilidad condicional de Y dada X = xi (i = 1, 2, · · · ) es:
P (X = xi , Y = yj ) pij
pj|i = P (Y = yj |X = xi ) = = j = 1, 2, · · ·
P (X = xi ) pi•
donde la probabilidad condicionada se calcula sólo a valores xi con pi• > 0. Del mismo modo, dado yj
con p•j > 0 la función de masa de probabilidad condicional de X dado Y = yj es:
P (X = xi , Y = yj ) pij
pi|j = P (X = xi |Y = yj ) = = i = 1, 2, · · ·
P (Y = yj ) p•j
C.Galé. 111
Ejercicio 20. Comprobar que las funciones de masa de probabilidad definidas verifican las propiedades
de función de masa de probabilidad.
Para la variable Y condicionada a X = xi se pueden calcular cualquiera de las caracterı́sticas definidas

para las variables aleatorias. La media condicionada de Y dada X = xi , se denota por E(Y |X = xi )
y se define: X X
E(Y |X = xi ) = yj P (Y = yj |X = xi ) = yj pj|i
{j:pij >0} {j:pij >0}
y la varianza condicionada de Y dada X = xi , se denota por V (Y |X = xi ) y se define:

X
V (Y |X = xi ) = (yj − E(Y |X = xi ))2 pj|i =
{j:pij >0}
 
X
= yj 2 pj|i  − E(Y |X = xi )2
{j:pij >0}
Ejemplo 27. Con los datos del ejemplo 23 definir la distribución de probabilidad de Y dada X = 3 y
calcular su media y varianza.
Dado X = 3, los únicos valores que puede tomar Y con probabilidad positiva son 0 y 1, luego el rango
de Y |X = 3 es {0, 1} y su función de masa de probabilidad:
P (X=3,Y =0) 0,05832

P (Y = 0|X = 3) = P (X=3) = = 0,2
0,2916
P (X=3,Y =1) 0,2333

P (Y = 1|X = 3) = P (X=3) = = 0,8
0,2916
La media y varianza condicional de Y dada X = 3 se obtiene a partir de la función de masa anterior:
E(Y |X = 3) = (0 × 0,2) + (1 × 0,8) = 0,8
V (Y |X = 3) = (0 − 0,8)2 0,2 + (1 − 0,8)2 0,8 = 0,16
y significa que cuando en un mensaje de 4 bits se sabe que 3 han sido correctos, en media se esperan 0.8
bits dudosos.
De forma análoga, sea (X, Y ) una variable bidimensional continua con función de densidad conjunta
f(X,Y ) (x, y). La función de densidad condicional de Y dada X = x (fX (x) > 0) es:
f(X,Y ) (x, y)
fY |X=x (y) =
fX (x)
donde el rango en el que fY |X=x (y) 6= 0 se determina a partir del rango de valores en el que la función
de densidad conjunta es no nula. De forma simétrica se introduce la función de densidad condicional de
X dada Y = y con fY (y) > 0:
f(X,Y ) (x, y)
fX|Y =y (x) =
fY (y)
La función de densidad fY |X=x (y) se utiliza para calcular probabilidades relativas a la variable Y cuando
se conoce que la variable X toma cierto valor x. No tiene sentido calcular probabilidades condicionadas
a valores de X = x con fX (x) = 0 ó de Y = y con fY (y) = 0. Además, si se tiene en cuenta que Y |X = x
es una variable aleatoria:
Z
1. P (Y ∈ U |X = x) = fY |X=x (y) dy, ∀U ⊂ R.
U
2. La media condicionada de Y dada X = x es igual

Z ∞
E(Y |X = x) = yfY |X=x (y) dy
−∞
3. La varianza condicionada de Y dada X = x es igual

Z ∞
2
V (Y |X = x) = (y − E(Y |X = x)) fY |X=x (y) dy =
−∞
µZ ∞ ¶
= y fY |X=x (y) dy − E(Y |X = x)2
2
−∞
Ejercicio 21. Comprobar que la función definida fY |X=x (y) (fX (x) > 0), verifica las propiedades de
función de densidad.
Es muy importante establecer la región o rango de valores en los que una distribución de probabilidad
conjunta, marginal o condicional tiene valor no nulo. El ejemplo inicial de la fotocopiadora ilustra este
hecho.
Ejemplo 28. Con los datos del ejemplo 24, calcular la distribución de probabilidad de la variable
T2 |T1 = x y determinar la probabilidad de que el tiempo hasta el fallo de la componente de reserva supere
las 2000 horas, si la componente principal ha fallado a las 1500 horas de funcionamiento.
La distribución de probabilidad conjunta de la variable (T1 , T2 ) es:

f(T1 ,T2 ) (x, y) = 6 · 10−6 e−0,001x−0,002y x<y
En primer lugar, se calcula la función de densidad marginal de T1 :
Z ∞ Z ∞
fT1 (x) = f(T1 ,T2 ) (x, y)dy = 6 · 10−6 e−0,001x−0,002y dy = 0,003e−0,003x
−∞ x
que es la función de densidad de una variable exponencial con parámetro λ=0.003. Dado x > 0, por ser
f(T1 ,T2 ) (x, y) distinta de cero para los valores 0 < x < y < ∞, la función de densidad condicional de T2
dada T1 = x es no nula para los valores de y > x y se define:
6 · 10−6 e−0,001x−0,002y
fT2 |T1 =x (y) = = 0,002e−0,002x−0,002y
0,003e−0,003x
En particular, la función de densidad condicional de T2 dado T1 = 1500 horas es:
fT2 |T1 =1500 (y) = 0,002e−3−0,002y y > 1500
Para determinar la probabilidad de que el tiempo hasta el fallo de la componente de reserva supere las
2000 horas, dado que la principal ha fallado a las 1500 horas, se calcula:
Z ∞ Z ∞
P (T2 > 2000|T1 = 1500) = fT2 |T1 =1500 (y)dy = 0,002e−3−0,002y dy = 0,368
2000 2000
C.Galé. 113
5.4. Variables aleatorias independientes
En los experimentos aleatorios también se definen variables de forma que, el conocimiento de una
variable no cambia ninguna probabilidad relativa a otra. Por ejemplo, al moldear una pieza de plástico,
se define la variable X que toma el valor 0 si la pieza es conforme a las especificaciones de color y 1 en
caso contrario y la variable Y que toma valor 0 si la pieza es conforme a las especificaciones de longitud y
1 en caso contrario. En este ejemplo, el conocimiento de que una pieza se ajusta o no a las especificaciones
de color no cambia la probabilidad de que se ajuste o no a las especificaciones de longitud.
El concepto de independencia de variables aleatorias se introduce en el mismo sentido que para los
sucesos aleatorios. Sea (X, Y ) una variable bidimensional discreta, se dice que las variables X e Y son
independientes si se verifica cualquiera de las siguientes afirmaciones:
- P (X = xi , Y = yj ) = P (X = xi )P (Y = yj ), i = 1, 2, · · · j = 1, 2, · · ·
- P (Y = yj |X = xi ) = P (Y = yj ), i = 1, 2, · · · j = 1, 2, · · · con pi• > 0
- P (X = xi |Y = yj ) = P (X = xi ), i = 1, 2, · · · j = 1, 2, · · · con p•j > 0
Se comprueba que la afirmaciones anteriores son equivalentes. Además, si la igualdad P (X = xi , Y =

yj ) = P (X = xi )P (Y = yj ) no se verifica para algún par (xi , yj ) en el rango de (X, Y ) entonces las
variables X e Y no son independientes.
De forma análoga, sea (X, Y ) una variable bidimensional continua, se dice que las variables X e Y
son independientes si se verifica cualquiera de las siguientes afirmaciones:
1. f(X,Y ) (x, y) = fX (x)fY (y), ∀(x, y) ∈ R2
2. fY |X=x (y) = fY (y), ∀y con fX (x) > 0
3. fX|Y =y (x) = fX (x), ∀x con fY (y) > 0
4. P (X ∈ U, Y ∈ V ) = P (X ∈ U )P (Y ∈ V ), ∀U, V ⊂ R
Se comprueba que las afirmaciones anteriores son equivalentes.
Dada una variable bidimensional, (X, Y ), si el rango de valores no es un rectángulo, entonces X e

Y no pueden ser independientes porque el conocimiento de una de ellas puede determinar el rango de
valores de la otra que reciben una probabilidad positiva. Esta situación se aprecia en los ejemplos 23 y
24. Por otra parte, si el rango es un rectángulo las variables X e Y pueden ser independientes o no serlo.
Ejemplo 29. Comprobar en los ejemplos 23 y 24 que las variables definidas no son independientes.
En el primer ejemplo, basta decir que P (Y = 0|X = 3) = 0,2 6= P (Y = 0) = 0,716.
En el segundo ejemplo, se ha calculado la función de densidad marginal de Y y la de Y condicionada

a X = x y no coinciden, luego las variables X e Y no son independientes. En ambos ejemplos, el hecho
de que el rango de (X, Y ) no sea rectangular permite determinar rápidamente que las variables no son
independientes.
En muchas ocasiones, del conocimiento del sistema bajo estudio se deduce que las variables aleatorias
son independientes, entonces los cálculos de las probabilidades en las que intervienen dichas variables
se pueden determinar a partir de las distribuciones de probabilidad marginales de las mismas. Es decir,
cuando X e Y son independientes es posible conocer la distribución conjunta de (X, Y ) a partir de las
distribuciones marginales.
Propiedades: Dadas X e Y variables aleatorias independientes y a, b ∈ R constantes:
1. E(XY ) = E(X)E(Y )
2. V (aX + bY ) = a2 V (X) + b2 V (Y )
3. Una constante a es independiente de cualquier variable aleatoria X.
4. Dadas g(·) y h(·) dos funciones reales de variable real, las variables g(X) y h(Y ) son independientes.
5.5. Covarianza y correlación
Cuando en un experimento aleatorio se define más de una variable, el interés se centra principalmente
en conocer como se relacionan estas variables y en ocasiones, llegar a predecir el valor de una variable a
partir del comportamiento de las otras. Una medida de interés en este aspecto es la covarianza entre
las variables X e Y , se denota por Cov(X, Y ) ó σXY y coincide con el momento µ11 :
Cov(X, Y ) = E ((X − E(X))(Y − E(Y )))
La covarianza es una medida de la variabilidad conjunta de X e Y , luego es una medida de la relación entre
dos variables aleatorias. Si se representan en el plano R2 los valores (x, y) de (X, Y ) reciben probabilidad
positiva y tienden a caer sobre una recta de pendiente positiva, entonces Cov(X, Y ) es positiva y si
tienden a caer sobre una recta de pendiente negativa es negativa. En este sentido la covarianza es una
medida de la asociación lineal entre las variables (X, Y ). Aunque puede existir una relación no lineal
entre las variables y no ser detectada por la covarianza.
Ejercicio 22. Comprobar la igualdad Cov(X, Y ) = E(XY ) − E(X)E(Y ) (esta expresión facilita el
cálculo de la covarianza).
Propiedades: Sean X, Y y Z variables aleatorias y a, b ∈ R dos constantes, entonces:
1. Cov(X, X) = V (X), Cov(X, Y ) = Cov(Y, X) y Cov(X, a) = 0
2. Cov(X + Y, Z) = Cov(X, Z) + Cov(Y, Z)
3. Cov(X, Y + Z) = Cov(X, Y ) + Cov(X, Z)
4. Cov(aX, bY ) = a b Cov(X, Y ).
5. Si X e Y son variables independientes, entonces Cov(X, Y ) = 0.
Ejemplo 30. Razonar el signo de la covarianza entre las variables X e Y en el ejemplo 23.
C.Galé. 115
Por ser X el número de bits correctos e Y el número de bits dudosos en una transmisión de 4 bits, se
tiene que X + Y ≤ 4. Por tanto, si X está cerca de 4, Y tomará valores próximos a 0 y viceversa. Por
tanto la Cov(X, Y ) será negativa. Se puede comprobar numéricamente.
La unidad de medida de la covarianza es el producto de la unidad de medida de X por la de Y ,

lo que en ocasiones es difı́cil de interpretar. Por este motivo se introduce una medida estandarizada de
la asociación lineal que existe entre dos variables. Dadas X e Y dos variables aleatorias, se define el
coeficiente de correlación entre X e Y y se denota por ρXY :
Cov(X, Y )
ρXY =
σX σY
Si ρXY 6= 0 se dicen que las variables son correladas y si ρXY = 0 son incorreladas. El coeficiente
de correlación tiene el mismo signo que la covarianza (positivo, negativo o cero). Además, por ser una
medida adimensional permite analizar y comparar relaciones lineales entre pares de variables medidas en
diferentes unidades.
Propiedades: Sean X, Y y Z variables aleatorias y a, b ∈ R dos constantes, entonces:
1. −1 ≤ ρXY ≤ 1
µ ¶
X − E(X) Y − E(Y )
2. ρXY = Cov ,
σX σY
3. Si Y = aX + b, entonces ρXY = 1 si a > 0 y ρXY = −1 si a < 0.
4. Si X e Y son variables independientes, entonces ρXY = 0.
La demostración de estas propiedades es sencilla y basta utilizar la definición del coeficiente de corre-
lación. Dadas dos variables independientes es lógico no esperar ningún tipo de relación entre ambas, en
particular lineal. Esta observación se prueba en la última propiedad, independencia implica incorrelación.
Es importante señalar que el recı́proco no es cierto. El hecho de obtener Cov(X, Y ) = 0 no es condición
suficiente para asegurar la independencia de variables aleatorias.
5.6. Distribución Normal bivariante
En el apartado 5.1 se definieron dos variables Long y Diam que son las medidas de dos dimensiones
sobre una misma pieza. Cada variable tiene un comportamiento Normal y cabe esperar que por ser
medidas de la misma pieza no sean independientes. Este ejemplo muestra como en muchas aplicaciones es
importante conocer la distribución conjunta de dos variables normales que no son independientes. En este
sentido, resulta de gran interés extender la distribución Normal unidimensional al caso bidimensional.
La función de densidad de una distribución Normal bivariante de parámetros µX (−∞ < µX <
∞), µY (−∞ < µY < ∞), σX (> 0), σY (> 0), ρ(−1 ≤ ρ ≤ 1), se denota por N (µX , µY , σX , σY , ρ) es:
1
f (x, y) = p
2πσX σY 1 − ρ2
µ µ ¶¶
−1 (x − µX )2 2ρ(x − µX )(y − µY ) (y − µY )2
exp 2 − +
2(1 − ρ2 ) σX σX σY σY2
para −∞ < x, y < ∞, es decir, la función de densidad de la distribución normal bivariante es positiva
en todo el plano real R2 . Además, se comprueba que E(X) = µX , E(Y ) = µY , V (X) = σX 2
, V (Y ) = σY2
y ρ es el coeficiente de correlación entre X e Y . La distribución normal bivariante tiene gran utilidad
práctica en el cálculo de probabilidades en las que intervienen variables aleatorias normales correladas.
Las distribuciones de probabilidad marginales de X e Y son distribuciones N (µX , σX ) y N (µY , σY ),

respectivamente.
En relación a las distribuciones condicionales:

σX p
X condicionada a Y = y es N (µx + ρ (y − µY ), σX 1 − ρ2 ),
σY
σY p
Y condicionada a X = x es N (µy + ρ (x − µX ), σY 1 − ρ2 ),
σX
Propiedad
Dada (X, Y ) variable bidimensional con distribución normal bivariante, X e Y son independientes si
y solo si X e Y son incorreladas.
Esta propiedad nos dice que para la distribución normal bivariante independencia e incorrelación son
conceptos equivalentes. Notemos que, si ρ = 0 entonces:
µ µ ¶¶
1 −1 (x − µX )2 (y − µY )2
f (x, y) = exp 2 +
2πσX σY 2 σX σY2
µ ¶
1 −1 (x − µX )2
fX (x) = √ exp 2
2πσX 2 σX
µ ¶
1 −1 (y − µY )2
fY (y) = √ exp
2πσY 2 σY2
Luego f (x, y) = fX (x)fY (y).
5.7. Variables aleatorias n-dimensionales.

Distribución multinomial
Al comenzar el capı́tulo se comentó que elegir el caso bidimensional era por simplicidad en la nota-
ción. Sin embargo, en algunos casos se definen más de dos variables en un mismo experimento. Todos los
conceptos introducidos para el estudio de variables bidimensionales (X, Y ) se pueden generalizar a va-
riables n-dimensionales (X1 , · · · , Xn ). La necesidad de introducir estas variables se justifica al encontrar
C.Galé. 117
en la mayorı́a de los experimentos aleatorios gran cantidad de variables aleatorias de las que nos interesa
conocer cómo interactúan. La dificultad de trabajar con variables n-dimensionales es fundamentalmente
debida a la notación.
Dada (X1 , · · · , Xn ) una variable n-dimensional se puede definir la distribución de probabilidad con-
junta de las n variables, la distribución marginal de cada una de ellas, la distribución conjunta de cualquier
subconjunto de las mismas y la distribución condicionada de un subconjunto de variables dados los valores
de otro subconjunto de las mismas.
El concepto de independencia también se generaliza a más de dos variables aleatorias. Dadas las
variables discretas X1 , · · · , Xn se dice que son independientes si y solo si
P (X1 = x1 , · · · , Xn = xn ) = P (X1 = x1 ) · · · P (Xn = xn )
para cualesquiera valores (x1 , · · · , xn ) en el rango de (X1 , · · · , Xn ).
En el caso continuo, las variables X1 , · · · , Xn se dice que son independientes si y solo si

f(X1 ,··· ,Xn ) (x1 , · · · , xn ) = fX1 (x1 ) · · · fXn (xn )
Un ejemplo de variable n-dimensional discreta es la variable multinomial que es una generalización
inmediata de la distribución binomial. Se considera una prueba que tiene más de dos posibles resultados,
por ejemplo la calidad de un producto puede ser clasificada en superior, media o baja. En general, se
supone que cada prueba admite k resultados mutuamente excluyentes con probabilidades p1 , p2 , · · · , pk
Xk
de modo que pi = 1. El experimento aleatorio consiste en realizar n pruebas independientes y se
i=1
define la variable k-dimensional (X1 , · · · , Xk ) donde Xi cuenta el número de pruebas de las n realizadas
que han dado como resultado i, con i = 1, · · · , k.
Para definir la función de masa de probabilidad de una variable multinomial (X1 , · · · , Xk ) de paráme-
tros (k, p1 , · · · , pk ) se ha de determinar para todos los valores en el rango de (X1 , · · · , Xk ), que es el
k
X
conjunto {(x1 , · · · , xk ) : 0 ≤ xi ≤ n, i = 1, · · · , k, xi = n}:
i=1
n!
P (X1 = x1 , · · · , Xk = xk ) = px1 · · · pxkk
x1 ! · · · xk ! 1
k
X
Notemos que, en realidad se tiene una variable (k − 1)-dimensional porque al imponer que xi = n, el
i=1
valor de una de las variables se puede determinar conocido el de las demás. Por tanto se define la variable
(X1 , · · · , Xk−1 ) de parámetros (k, p1 , · · · , pk−1 ) con función de masa de probabilidad
n!
P (X1 = x1 , · · · , Xk−1 = xk−1 ) =
x1 ! · · · xk−1 !(n − x1 − · · · − xk−1 )!
x
px1 1 · · · pk−1
k−1
(1 − p1 − · · · − pk−1 )n−x1 −···−xk−1
para 0 ≤ xi ≤ n.
En cada prueba se puede observar si el resultado es el i-ésimo, i = 1, · · · , k o no lo es. La variable Xi

se define como el número de veces que aparece el resultado i en las n pruebas, entonces se deduce que la
distribución marginal de Xi , i = 1, · · · , k es binomial de parámetros n y pi . También se puede comprobar
analı́ticamente.
5.8. Combinación lineal de variables

aleatorias. Propiedad de reproductividad
En este apartado se analiza un caso particular de variable aleatoria definida como función de otras
variables aleatorias. Sean X1 , · · · , Xn variables aleatorias y c1 , · · · , cn ∈ R constantes, entonces se define
la variable aleatoria X como combinación lineal de las variables dadas:
X = c1 X1 + · · · + cn Xn
Las caracterı́sticas de la variable X se pueden calcular a partir de la distribución de probabilidad conjunta

de (X1 , · · · , Xn ):
E(X) = c1 E(X1 ) + · · · + cn E(Xn )
n
X n−1
X n
X
V (X) = c2i V (Xi ) + 2 ci cj Cov(Xi , Xj )
i=1 i=1 j=i+1
Además, si X1 , · · · , Xn son independientes entonces

n
X
V (X) = c2i V (Xi )
i=1
En la última propiedad es importante la hipótesis de independencia. Para comprobarlo se considera

el siguiente ejemplo. Sea X una variable aleatoria e Y = −X, claramente X e Y son correladas con
ρXY = −1, luego no son independientes. Se define la variable Z = X + Y como combinación lineal de X e
Y . La variable Z es una variable degenerada en 0, es decir P (Z = 0) = 1 y V (Z) = 0, independientemente
de las varianzas de X e Y .
Los resultados anteriores se pueden utilizar para calcular la media y varianza de una distribución
binomial negativa que es suma de variables geométricas independientes y también de una distribución
Erlang si se interpreta como suma de variables exponenciales independientes del mismo parámetro.
Una combinación lineal especial es aquella en que las constantes ci = 1/n, ∀i y las variables Xi (para
i = 1, · · · , n) están igualmente distribuı́das y son independientes. Se denomina media muestral y se
denota por X:
X1 + · · · + Xn
X=
n
Si E(Xi ) = µ y V (Xi ) = σ 2 (i = 1, · · · , n) entonces E(X) = µ y por la hipótesis de independencia
σ2
V (X) = .
n
Una importante propiedad que verifican algunas distribuciones de probabilidad discretas y continuas
es la reproductividad. Sean X1 , · · · , Xn variables aleatorias con una misma distribución de probabilidad
e independientes, sea θi un parámetro que define la distribución de Xi , i = 1, · · · , n, entonces se dice que
la distribución de probabilidad es reproductiva con respecto al parámetro θ si X1 + · · · + Xn tiene
la misma distribución de probabilidad con parámetro θ = θ1 + · · · + θn .
A continuación se enumeran varias distribuciones de probabilidad que verifican esta propiedad con
respecto a alguno de sus paramétros.
C.Galé. 119
1. La distribución binomial es reproductiva respecto a su parámetro n. Dadas X1 , · · · , Xm indepen-

dientes con distribución Bin(ni , p), i = 1, · · · , m, entonces X1 + · · · + Xm es Bin(n1 + · · · + nm , p).
2. La distribución Poisson es reproductiva respecto a su parámetro λ. Dadas X1 , · · · , Xm indepen-

dientes con distribución P (λi ), i = 1, · · · , m, entonces X1 + · · · + Xm es P (λ1 + · · · + λm ).
3. La distribución binomial negativa es reproductiva respecto a su parámetro k. Dadas X1 , · · · , Xm in-

dependientes con distribución BinN eg(ki , p), i = 1, · · · , m, entonces X1 +· · ·+Xm es BinN eg(k1 +
· · · + km , p).
4. La distribución Erlang es reproductiva respecto a su parámetro n. Dadas X1 , · · · , Xm independien-

tes con distribución Erlang(ni , p), i = 1, · · · , m, entonces X1 +· · ·+Xm es Erlang(n1 +· · ·+nm , p).
5. La distribución χ2 es reproductiva respecto a su parámetro n. Dadas X1 , · · · , Xm independientes

con distribución χ2ni , i = 1, · · · , m, entonces X1 + · · · + Xm es χ2n1 +···+nm .
En el caso de X1 , · · · , Xm variables independientes con distribución N (µi , σi ), i = 1, · · · , n, la variable
X = c1 X1 + · · · + cn Xn
es Normal de media y varianza:

Pn 2 2
E(X) = c1 µ1 + · · · + cn µn V (X) = i=1 ci σi

Tema 5 Teoria Bidimensional Cgale

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema 5 Teoria Bidimensional Cgale

Cargado por

Copyright:

Formatos disponibles

Capı́tulo 5

Variables aleatorias bidimensionales

5.1. Distribución de probabilidad conjunta

Sean X e Y dos variables aleatorias discretas, la distribución de probabilidad de X e Y se define

0 1.6×10−7 2.88×10−5 1.94×10−3 5.83×10−2 0.6561

P (X = 0, Y = 0) = P ( “número de bits inaceptables sea 4” ) = 0,024 =

1. f(X,Y ) (x, y) ≥ 0, ∀(x, y) ∈ R2

La función de densidad conjunta de (X, Y ) determina una superficie en R3 . La probabilidad de que el

Al calcular cualquier probabilidad relativa a la variable (T1 , T2 ) se ha de tener cuidado al determinar

La distribución de probabilidad de una variable aleatoria bidimensional también queda caracterizada

5.2. Distribución de probabilidad marginal

El rango de la variable X es {0, 1, 2, 3, 4} y su función de masa de probabilidad asociada al valor i se

P (X = 3) = P (X = 3, Y = 0) + P (X = 3, Y = 1) = 0,0583 + 0,2333 = 0,292

Para calcular el valor esperado de la variable X a partir de la distribución conjunta:

E(X) = 0(1,6 × 10−7 + · · · + 4,1 × 10−5 ) + · · · + 4(0,6561) = 3,6 = 4 × 0,9

= 0,0475 + 0,0025 = 0,05,

De la forma usual se pueden calcular las funciones de distribución marginales de X e Y . A continuación

Las funciones de distribución marginales se pueden determinar a partir de distribución de probabilidad

5.3. Distribución de probabilidad condicional

En este momento, se recuerda la definición de probabilidad condicionada para dos sucesos A y B:

Esta definición se puede aplicar en particular a los sucesos A = {Y = yj } y B = {X = xi }, donde xi

Para la variable Y condicionada a X = xi se pueden calcular cualquiera de las caracterı́sticas definidas

y la varianza condicionada de Y dada X = xi , se denota por V (Y |X = xi ) y se define:

P (X=3,Y =0) 0,05832

P (X=3,Y =1) 0,2333

La media y varianza condicional de Y dada X = 3 se obtiene a partir de la función de masa anterior:

E(Y |X = 3) = (0 × 0,2) + (1 × 0,8) = 0,8

V (Y |X = 3) = (0 − 0,8)2 0,2 + (1 − 0,8)2 0,8 = 0,16

2. La media condicionada de Y dada X = x es igual

3. La varianza condicionada de Y dada X = x es igual

La distribución de probabilidad conjunta de la variable (T1 , T2 ) es:

5.4. Variables aleatorias independientes

- P (Y = yj |X = xi ) = P (Y = yj ), i = 1, 2, · · · j = 1, 2, · · · con pi• > 0

- P (X = xi |Y = yj ) = P (X = xi ), i = 1, 2, · · · j = 1, 2, · · · con p•j > 0

Se comprueba que la afirmaciones anteriores son equivalentes. Además, si la igualdad P (X = xi , Y =

1. f(X,Y ) (x, y) = fX (x)fY (y), ∀(x, y) ∈ R2

2. fY |X=x (y) = fY (y), ∀y con fX (x) > 0

3. fX|Y =y (x) = fX (x), ∀x con fY (y) > 0

Se comprueba que las afirmaciones anteriores son equivalentes.

Dada una variable bidimensional, (X, Y ), si el rango de valores no es un rectángulo, entonces X e

En el primer ejemplo, basta decir que P (Y = 0|X = 3) = 0,2 6= P (Y = 0) = 0,716.

En el segundo ejemplo, se ha calculado la función de densidad marginal de Y y la de Y condicionada

Propiedades: Dadas X e Y variables aleatorias independientes y a, b ∈ R constantes:

3. Una constante a es independiente de cualquier variable aleatoria X.

5.5. Covarianza y correlación

Cov(X, Y ) = E ((X − E(X))(Y − E(Y )))

Propiedades: Sean X, Y y Z variables aleatorias y a, b ∈ R dos constantes, entonces:

1. Cov(X, X) = V (X), Cov(X, Y ) = Cov(Y, X) y Cov(X, a) = 0

2. Cov(X + Y, Z) = Cov(X, Z) + Cov(Y, Z)

3. Cov(X, Y + Z) = Cov(X, Y ) + Cov(X, Z)

5. Si X e Y son variables independientes, entonces Cov(X, Y ) = 0.

La unidad de medida de la covarianza es el producto de la unidad de medida de X por la de Y ,

Propiedades: Sean X, Y y Z variables aleatorias y a, b ∈ R dos constantes, entonces:

3. Si Y = aX + b, entonces ρXY = 1 si a > 0 y ρXY = −1 si a < 0.

4. Si X e Y son variables independientes, entonces ρXY = 0.

5.6. Distribución Normal bivariante

Las distribuciones de probabilidad marginales de X e Y son distribuciones N (µX , σX ) y N (µY , σY ),

En relación a las distribuciones condicionales:

5.7. Variables aleatorias n-dimensionales.

En el caso continuo, las variables X1 , · · · , Xn se dice que son independientes si y solo si

En cada prueba se puede observar si el resultado es el i-ésimo, i = 1, · · · , k o no lo es. La variable Xi

5.8. Combinación lineal de variables

Las caracterı́sticas de la variable X se pueden calcular a partir de la distribución de probabilidad conjunta