Documentos de Académico
Documentos de Profesional
Documentos de Cultura
A veces es necesario definir el espacio muestral con dos o más variables conjuntas, porque la
experiencia que queremos modelizar da como resultado pares o n-uplas de valores asociados.
Por ejemplo, la altura y peso de las personas pueden ser conceptualizados como valores
asociados, a través de un espacio bidimensional.
Desarrollaremos la estadística en dos variables siendo que los conceptos en última instancia
sólo amplían los ya vistos para una sola. Sólo en contadas ocasiones usaremos más de dos
variables, pero no introduciremos con esto ningún concepto nuevo.
En dos variables, el espacio muestral es un plano.
Si llamamos a las coordenadas del plano VARx y VARy, cada punto de e ste plano (x, y) es un
resultado del espacio muestral.
Las variables podrán ser ambas continuas o ambas discretas o una continua y una discreta, y
con las debidas diferencias (probabilidad vs. densidad, integrales vs. sumatorias, etc.) las definiciones
y conclusiones que obtendremos para cada una serán equivalentes para las otras dos situaciones.
Sólo para reforzar el concepto repetiremos para v.a. discreta algunas definiciones y
conclusiones, que en general desarrollaremos para variable bicontinua. El lector las podrá extender a
las otras alternativas “mutatis mutandi”.
Expresaremos con f[(VARx = x) (VARy = y)] la función densidad de las variables continuas
VARx y VARy. Geométricamente representa una superficie siempre positiva cuyo volumen encerrado
es 1.
Su escritura abreviada será f(x, y).
Las probabilidades ahora serán volúmenes (prisma bajo la superficie), y el diferencial
probabilidad será:
dP(x, y) = f(x, y) dx dy
d
c
a b
VA R x
c a b VA R x
d
VA R y
Puede observarse en ambos el significado gráfico de la P[(a < VARx < b) (c < VARy < d)]
39
Estimación Bayesiana
Expresaremos con P[(VARx = x) (VARy = y)] la función de probab ilidad conjunta de las
variables discretas VARx y VARy.
VA R x
VA R x
VA R y
40
Capítulo III
La probabilidad P(x < VARx < x + dx) = f(VARx = x) dx que en el espacio muestral de VARx (el eje
VARx) está representado por el área diferencial, en el espacio conjunto (el plano) es el volumen de la
“rebanada” de la función conjunta entre x y x + dx.
f( x , y )
f ( VA R x = x )
P ( x < VA R x < x + d x )
y
f ( x, y )
f (VARx = x / VAR y = y ) = f ( x / y ) = para v.a. continuas
f ( y)
P ( x, y )
P (VARx = x / VAR y = y ) = P ( x / y ) = para v.a. distretas
P( y)
f (a, y )
De la definición: f ( y / a) =
f (a)
Siendo a un valor particular de VARx, dividimos la curva f(a, y) por su área f(a), de tal manera
que la nueva función f(y/ a) será una función de y con área 1.
41
Estimación Bayesiana
f (x , y )
f ( VA R x = x )
f ( VA R x = a , VA R y = y )
f ( VA R x = a ) = f (y / a )
f ( VA R x = a )
f ( VA R y = y )
a x
VA R y
y
f ( VA R x = a , VA R y = y )
La función marginal f(x) puede entenderse también como la esperanza matemática (respecto
de y) de la función condicional f(x/ y), o sea: f(x) = Ey[f(x/ y)] y también f(y) = Ex[f(y/ x)].
En realidad pueden definirse muchas familias condicionales en una variable; por ejemplo, VARx
condicional a {VARy > y} o a {VARy < y}, etc.
También puede definirse como función conjunta f(x, y/ A) siendo A cualquier suceso; por
ejemplo,
A = {{x < b} {c ≤ y < d}} o el que se nos ocurra.
El desarrollo de estas funciones condicionales no tendrá uso didáctico por lo que quedan
restringidas al caso particular de cada problema; el lector ya debería estar capacitado para su
desarrollo sin inconvenientes partiendo de la definición de condicionalidad.
+∞ +∞
para v.a. discreta: E[ g ( x, y )] = ∑∑ g ( x, y) P( x, y)
−∞ −∞
∫
= h( x )
−∞ ∫
∫
f ( x, y ) dy dx = h( x) f ( x ) dx = E[h( x)]
−∞ −∞
Casos particulares:
g(x, y) E[g(x, y)] Lectura
x µx media de x
y µy media de y
(x – µ x)2 σx 2
variancia de x
(y – µ y)2 σy 2
variancia de y
(x – µ x) (y – µ y) Cxy covarianza de x, y
+∞ +∞
42
Capítulo III
(y - )
y
y y
x VA R x x VA R x
+∞
Por definición µ y / x = ∫ y f ( y / x) dy
−∞
Nótese que µ y/ x es una media de y para cada valor particular de x que da la media de la
variable VARy condicional a VARx = x, luego es una función h(x).
La línea definida por los puntos medios de las variables condicionales se denomina línea de
regresión.
En el caso de que las líneas de regresión fuesen rectas, la pendiente positiva implicará
covarianza positiva; la pendiente negativa, en cambio, covarianza negativa.
La covarianza nula (en el caso de regresiones lineales) implica dos rectas: una paralela al eje y:
la µ x/ y, y la otra paralela al eje x: la µ y/ x. O sea, en e ste caso todas las medias condicionales son
iguales y además iguales a la media µ x y µ y respectivamente.
Dado que la covarianza tiene las unidades de las variables (proviene de función lineal de
ambas variables) lo mismo que las desviaciones estándar de cada una; el cociente entre estos
valores será adimensional: es el coeficiente de correlación ρ.
C xy
ρ=
σx σy
43
Estimación Bayesiana
o lo que es lo mismo
f(x/ y) = f(x) (funciones condicionales = marginal)
o
f(y/ x) = f(y) (funciones condicionales = marginal)
Dejamos para el lector demostrar que si hay independencia, la Cxy = 0 (la covarianza es nula) y
por ende el coeficiente de correlación es nulo; aunque co varianza nula no implica necesariamente
independencia.
Gráficamente significa que los cortes en el sentido de x e y llevados a tener área 1 son
respectivamente iguales (funciones condicionales), e iguales además a la correspondiente marginal.
Siendo las funciones condicionales y marginales iguales, sus medias también lo son; luego, las
líneas de regresión son rectas perpendiculares entre sí, coincidentes con µ x y µ y.
Son respectivamente iguales también las variancias condicionales y marginales.
Desde luego que vale el razonamiento de siempre: en independencia, la información respecto
de la ocurrencia de algún suceso en una variable no modifica la información (función de densidad)
respecto de la otra; y viceversa, la no modificación (no información de condi cionamiento) implica
independencia.
Ejemplos:
a) VARIABLES ALEATORIAS BIDISCRETAS
Sea un juego consistente en extraer 3 bolillas de una urna con 2 blancas y 3 negras, luego de
lo cual se arroja una moneda tantas veces como bolillas negras se obtuvieron.
Describiremos con X la cantidad de bolillas negras en la extracción (en lugar de VARx, más
extenso, símbolo que no debe ser confundido con el valor genérico x de la variable) y con Y la
cantidad de caras.
Queda planteado un espacio muestral en dos dimensione s del que no conocemos la función
conjunta, pero podemos plantear en forma inmediata la función marginal P(X = x) y la familia de
m
funciones condicionales P(X = x/ Y = y). Queda entonces, recordando que C( m, n ) = son la
n
combinaciones de m tomadas de a n:
3 2
x 3 − x para x = 1; 2; 3
P( x) = 5
3
0 para x ≠ 1; 2; 3
44
Capítulo III
x
0,5 para 0 ≤ y ≤ x (entero)
x
P ( y / x ) = y
0 para el resto de y
con medias
µ y/ x = 1 = 0,5 µ y/ x = 2 = 1 µ y/ x = 3 = 1,5
Luego, en forma genérica:
6 ⋅ 0,5 x
P ( x, y ) = P ( y / x) P( x ) =
5 ⋅ [(3 − x)!]2 ( x − y )! ( x − 1)! y!
válida para las v.a. x e y enteras tales que 0 ≤ y ≤ x ; x = 1; 2; 3 que no es más que el producto
ordenado de las probabilidades calculadas anteriormente y que gráficamente se representa de la
siguiente forma:
en perspectiva axonom étrica en el pla no
P (x, y) y
0,0125
3
0,15 0,0375
1 2 3 2
0
0,15 0,3 0,0375
1 x 1
2 0,15 0,15 0,0125
3 x
y 0 1 2 3
En el cuadro que sigue pueden verse las probabilidades marginal es como suma de filas y
columnas respectivamente: de acuerdo a la definición
i =3 i =3
P (Y = y ) = ∑ P ( X = i, Y = y )
i =1
P ( X = x) = ∑ P ( X = x, Y = i )
i =1
variables cuyas medias y variancias son (aplicando definición en una o dos variables, es
indistinto):
45
Estimación Bayesiana
µ y = 0,9 µ x = 0,9
σ y2 = 2,79 σ x2 = 0,36
σ y = 1,67 σ x = 0,6
Las funciones de probabilidad condicionales P(x/ y) se obtienen dividiendo cada valor de una
fila por su suma (analice definición). Las funciones de probabilidad condicionales P(y/ x) se obtienen
dividiendo cada valor de una columna por su suma.
µx/ y µx/ y
0,15 0
P( X = 1 / Y = 0) = = 0,48 P( X = 1 / Y = 2) = =0
0,3125 0,1875
0,15 0,15
P( X = 2 / Y = 0) = = 0,48 1,56 P( X = 2 / Y = 2) = = 0,8 2,77
0,3125 0,1875
0,0125 0,0375
P( X = 3 / Y = 0) = = 0,04 P( X = 3 / Y = 2) = = 0, 2
0,3125 0,1875
0,15 0
P( X = 1 / Y = 1) = = 0,3077 P( X = 1 / Y = 3) = =0
0,4875 0,0125
0,3 0
P( X = 2 / Y = 1) = = 0,6154 1,77 P( X = 2 / Y = 3) = =0 3,00
0,4875 0,0125
0,0375 0,0125
P( X = 3 / Y = 1) = = 0,0769 P( X = 3 / Y = 3) = =1
0,4875 0,0125
(en el último caso X deja de ser variable aleatoria, puesto que la información de Y = 3 no deja
más alternativa para X que tomar el valor 3).
C xy 0,18
ρ= = = 0,1796
σx σy 1,67 ⋅ 0,60
3
f ( x, y ) = ( x 2 y + x ) para 0 ≤ y ≤ 2 y 0 ≤ x ≤ 1
5
siendo la variable aleatoria X el tiempo para correr y la variable Y el tiempo empleado en nadar.
Note que conocer la función conjunta es conocer “todo” de las variables. Podremos calcular:
1) Las funciones marginales:
Del tiempo para la carrera:
2
3 6
f ( x) =
5 ∫
( x 2 y + x) dy = ( x 2 + x ) para 0 ≤ x ≤ 1
0
5
46
Capítulo III
∫
3 1 3
f ( y) = ( x 2 y + x ) dx = y + para 0 ≤ y ≤ 2
5 5 10
0
f ( x, y ) 6 x 2 y + 6 x
f ( x / y) = = para 0 ≤ x ≤ 1
f ( y) 2y + 3
funciones de v.a. x paramétricas para valores de y comprendidos entre 0 y 2 (para cada valor
de y corresponderá un espacio muestral diferente y una función densidad diferente de variable x).
Con estas funciones tendremos las P de tener los tiempos x en carrera “sabiendo” que se tardó
un tiempo y en natación. En forma equivalente:
f ( x, y ) x2 y + x
f ( y / x) = = para 0 ≤ y ≤ 2
f ( x) 2( x 2 + x )
Con estas funciones tendremos las P de tener los tiempos y en natación “sabiendo” que se
tardó un tiempo x en carrera.
3) Medias condicionale
Por definición:
1
6x 2 y + 6 x 3y + 4
µx/ y = x ∫ 0
2y + 3
dx =
4y + 6
47
Estimación Bayesiana
+∞
µ x = E y (µ x / y ) = ∫µ
−∞
x/ y f ( y ) dy
2
3y + 4 1 3
Utilicemos esta última: µ x = E y (µ x / y ) = ∫ 4 y + 6 ( 5 y + 10 ) dy = 0,7
0
∫ ∫ 5 (x
6 2 6
E(x 2 ) = x2 ( x + x) dx = 4
+ x 3 ) dx = 0,54
5
0 0
2 2
y3 3y2
∫ ∫
1 3 8
E( y2 ) = y 2 ( y + ) dy = ( + ) dy =
5 10 5 10 5
0 0
2
8 17
σ y2 = E ( y 2 ) − E ( y ) 2 = − = 0,316
5 15
{S = s} = {( X = i ) (Y = s − i )} = {( X = s − i ) (Y = i )}
i =1 i =1
que lleva a:
i = +∞
P ( S = s) = ∑ P( X = i, Y = s − i )
i = −∞
Por ejemplo:
48
Capítulo III
P(S = 1) = 0,15
P(S = 2) = 0,3
P(S = 3) = 0,3125
P(S = 4) = 0,1875
P(S = 5) = 0,0375
P(S = 6) = 0,0125
P(S = i) = 0 para i ≠ 1; 2; 3; 4; 5; 6
Note en el gráfico X, Y que hemos sumado para cada valor s todas las probabilidades
correspondientes a los resultados del espacio muestral ubicados en la recta x + y = s o sea y = –x + s
(recta a –45º con ordenada al origen s). Hemos obtenido la variable suma.
y
0,0125
3
0,15 0,0375
2
0,15 0,3 0,0375
1
S= 6
0,15 0,15 0,0125
0 1 2 3 x
S= 5
S= 0 S= 1 S= 2 S= 3 S= 4
y=s x
x
Luego, analíticamente, siendo Rec el recinto de integración, en este caso x + y ≤ s:
+∞ s − x
F ( S = s ) = P( S ≤ s) =
∫∫ f ( x, y) dx dy = ∫ ∫ f ( x, y) dy dx
Re c − ∞ −∞
Por supuesto, para hallar la f(s) no tenemos más que derivar esta última expresión.
Podemos interpretar la relación entre la función densidad conjunta y la función densidad de la
v.a. suma ( f(S = s) ds = P(s ≤ S ≤ s + ds) ) como una “rebanada” de la función conjunta f(x, y) cortada a
–45º en la posición s del eje S (ver gráfico).
y S
ds
s s+ d s x
49
Estimación Bayesiana
s s−x
∫ ∫ 5 (x
3
2
y + x ) dy dx para 0 ≤ s ≤ 1
01 0
s−x
∫ ∫ 5 (x
3
F ( S = s ) = P (S ≤ s ) = 2
y + x ) dy dx para 1 ≤ s ≤ 2
0 0
1 s −1 2 s− y
∫∫ ∫ ∫
3 2 3 2
( x y + x ) dy dx + ( x y + x) dx dy para 2 ≤ s ≤ 3
5 5
0 0 s −1 0
s5 s3
+ para 0 ≤ s ≤ 1
100 10
s
2
3s 7
F (S = s) = + − para 1 ≤ s ≤ 2
10 5 20 50
s 3s 3 9 s 2 27 s 31
− 100 + 10 − 10 + 20 − 50 para 2 ≤ s ≤ 3
De la misma forma que hemos obtenido la variable suma podemos obtener la variable
diferencia
D = Y – X. Observe que sólo debemos cambiar el recinto de integración; el concepto es el mismo.
Queremos calcular P(D ≤ d). El suceso {D ≤ d} es equivalente al suceso {X =x; Y = y donde y – x ≤ d}.
Despejando y tenemos que y ≤ d + x. Gráficamente:
y D=1 D =d
D=0
D = -1
1 x
La función distribución de la variable D será entonces:
+∞ d + x
F (D = d ) =
∫ ∫ f ( x, y) dy dx
−∞ −∞
m
si x > 0 ⇒ y≤
x
y⋅x ≤ m ⇒
si x < 0 ⇒ m
y≥
x
50
Capítulo III
M =m
x
M =m
Ya estamos en condiciones de generalizar para una variable Z tal que z = g(x, y). Podremos
encontrar la F(x) integrando la f(x, y) en el recinto correspondiente a g(x, y) ≤ z.
y
= { g ( x, y ) z }
g (x, y ) = z
51
Estimación Bayesiana
Nótese que en el fondo cualquie ra de estas variables planteadas como una equivalencia de
sucesos en el espacio muestral correspondiente con el bidimensional X, Y puede ser pensado como
un cambio de variable.
Este cambio de variable en dos dimensiones puede establecerse directamente a través de las
funciones densidad con sólo definir la relación entre el recinto diferencial dx ⋅ dy y el recinto que nos
interese. Entonces, si tomamos funciones monótonas:
z = gz(x, y) w = gw(x, y)
la relación entre (x, y) y (z, w) será biunívoca, es decir, a cada valor del par (x, y) le corresponde
un valor de (z, w) y viceversa. Por lo tanto, se puede expresar el mismo sistema de ecuaciones pero
habiendo despejado z y w en función de x e y:
x = gx–1(z, w) y = gy–1(z, w)
Además, como los sucesos {X = x; Y = y} y {Z = z; W = w} son equivalentes:
f(z, w) dz dw = f(x, y) dx dy
f ( x, y )
f ( z, w) =
J
x = g −x1 ( z , w); y = g −y1 ( z , w)
z ′x z ′y
donde J es el módulo del jacobiano y J =
w′x w′y
f ( X = x, Y = y )
Entonces: f ( Z = z, W = w) = = f ( X = w, Y = z − w)
1 y = z −w ; x= w
+∞ +∞
Luego f (Z = z) = ∫ f (Z = z,W = w) dw = ∫ f ( X = w, Y = z − w) dw
−∞ −∞
o sea, luego de encontrar la expresión de la función f(w, z), las marginales f(w) y f(z) serán,
respectivamente, las expresiones de la función f(x) (puesto que w = x) y de f(x + y) (puesto que z = x +
y).
Si hubiésemos utilizado, por ejemp lo, las expresiones z = x + y y r = x y, las respectivas
marginales f(z) y f(r) de la conjunta f(z, r) no serían más que las expresiones de las funciones de
densidad de las variables suma y producto.
En forma semejante se puede desarrollar cualquier relación entre x e y deseada.
Queda como ejercicio para el lector por aplicación de la definición de esperanza matemática
demostrar que:
52
Capítulo III
σ (2x + y ) = E ([( x + y ) − ( µ x + µ y )] 2 ) = σ x2 + σ y2 + 2 C xy
O sea, la variancia de la suma de variables no es igual a la suma de las variancias (puede ser
mayor o menor según sea la covarianza Cxy positiva o negativa).
Únicamente con covarianza nula la variancia de la suma es la suma de las variancias; por
ejemplo en el caso que las variables sean independientes (que es una situación frecuente pero no es
la única posibilidad de tener Cxy = 0 ).
i=n
Si X s = ∑ ai X i con los ai tanto positivos como negativos, resulta:
i =1
i =n
la media µ X s = ∑ ai µ X i
i =1
Propongamos el siguiente problema: sea VAR una variable aleatoria, la experiencia se repite 3
veces, en forma independiente (la variable correspondiente a cada una de ellas la llamaremos VAR1;
VAR2 y VAR3) y se toma como valor resultante el mayor de los tres: este valor corresponderá a una
nueva variable aleatoria que denominaremos VARmax.
La pregunta es: ¿cómo será la función de densidad de VARmax? Habrá que hacer corresponder
los sucesos en ambos espacios
53
Estimación Bayesiana
n − 1
f (VARint r = x) = n f (VAR = x) F (VAR = x) n − r (1 − F (VAR = x)) r −1
r − 1
f(MAX = x) = 3 x2 0≤x≤1
cuya gráfica es:
f( M A X = x )
3
2 3x2
1
0 0
0 1 x
Observe el cambio con respecto a la experiencia individual uniforme, en el que resulta que
valores mayores son más probables, tal como era de esperar.
VA R y y=x
y=z
x=z VA R x
54
Capítulo III
VA R y
z + dz
z
z z + dz VA R x
VA R y y=x
y=z
x=z VA R x
z + dz
z
z z + dz VA R x
z 3 z
∫ ∫
3 2
( z 2 y + z ) dy + ( x z + x) dx para 0 < z ≤ 1
5 5
10 0
3
f ( MAX ( x, y ) ∫
= z ) = ( x 2 z + x) dx
0 5
para 1 < z ≤ 2
0 para z < 0 ∨ z > 2
Desarrollando queda:
55
Estimación Bayesiana
1 4 9 2
2 z + 10 z para 0 < z ≤ 1
1 3
f (Z = z) = z + para 1 < z ≤ 2
5 10
0 para z < 0 ó z > 2
56