T3 PDF

TEMA 3
3.1 La distribución conjunta de dos (o más) variables.

Veamos las definiciones básicas, en el caso de dos v.a.s X, Y sobre un mismo espacio de probabilidad (Ω, F, P).
Definiciones:
1) La función de distribución FX,Y : R2 → [0, 1] es la dada por
FX,Y (x, y) = P(X ≤ x, Y ≤ y) .
Las FX , FY se llaman entonces sus distribuciones marginales.
Observaciones:
Como el suceso {X ≤ x} es la unión creciente de los {X ≤ x, Y ≤ y} cuando y → ∞, la marginal FX
coincide con
FX (x) = P(X ≤ x) = lı́m P(X ≤ x, Y ≤ y) = supy FX,Y (x, y),
y→∞
y lo mismo para la FY .
Para v.a.s X1 , . . . , Xn , la definición es la misma: para cada x = (x1 , . . . , xn ) ∈ Rn ,
FX (x) = P(Xi ≤ xi para cada i),
donde X = (X1 , . . . , Xn ) es un vector aleatorio, que es como conviene pensar en el par (X, Y ).
VER (más abajo) el Ejemplo 1
2) La función de masa pX,Y es pX,Y (x, y) = P(X = x, Y = y), si ambas son discretas; su relación con la
función de distribución: si {xi }, {yj } son las valores de ambas variables,
!
FX,Y (x, y) = pX,Y (xi , yj ).
xi ≤x, yj ≤y
VER Ejemplos 2 y 3
3) Se dice que el vector (X, Y ) tiene distribución continua si hay una fX,Y : R → [0, ∞), llamada su
2
densidad conjunta, tal que

""
FX,Y (x, y) = fX,Y (x, y) dx dy
{X≤x, Y ≤y}
(el análogo de la suma del caso anterior).

Observaciones:
Al escribir FX,Y (x, y) como una integral iterada vemos que la marginal FX es en este caso
" a #" ∞ $
FX (a) = lı́m FX,Y (a, b) = fX,Y (x, y) dy dx
b↑∞ −∞ −∞
de modo que X tiene distribución continua, con densidad (todo igual para Y , claro)
" ∞
fX (x) = fX,Y (x, y) dy.
−∞
Si en la integral iterada (o escrita en el otro orden ...

" x #" y $
FX,Y (x, y) = fX,Y (x, y) dy dx
−∞ −∞
derivamos primero respecto de x, luego de y, resulta ... y derivando en el otro orden)

∂ ∂
FX,Y (x, y) = fX,Y (x, y),
∂y ∂x
que muestra cómo pasar de la FX,Y (x, y) a la fX,Y (x, y). VER Ejemplos 4 y 5
Ejemplos:
Ejemplo 1) Sean X, Y el número de reyes y número de ases que salen al extraer al azar dos de las 4×10
cartas de una baraja. Hay seis valores posibles del par X, Y , que podemos ver como puntos del plano, sobre
los que se colocan sus respectivas masas de probabilidad, que en % son: Ejercicio: hallarlas.
2 0,77
1 16,4 2,05
Y =0 63,6 16,4 0,77
X=0 1 2
En ese caso, FX,Y (a, b) = 0 salvo que a, b sean ambos ≥ 0, en cuyo caso FX,Y (a, b) es la suma de las masas
de los valores cubiertos por el cuadrante {x ≤ a, y ≤ b}. Comparar Definición 2).
Ejemplo 2) Más simple que el anterior, pese a haber ahora infinitos valores: X, Y independientes, ambas
con distribución Geométricap . Por la independencia, pX,Y (j, k) = pX (j)pY (k) = p2 q j+k−2 si j, k > 0.
1
Ejemplo 3) Esta vez las v.a.s NO son discretas: X, Y independientes, ambas con distribución Exp1 .
Usando de nuevo la independencia,
%
(1 − e−x )(1 − e−y ) si x, y > 0,
FX,Y (x, y) = FX (x) FY (y) =
0 si no.
Con las observaciones que siguen a la Definición 3) podemos deducir que su función de densidad conjunta
es también el producto
%
e−x e−y si x, y > 0,
fX,Y (x, y) =
0 si no
de las dos densidades marginales fX , fY , y verificar que FX,Y (x, y) se recupera con la integral iterada
" x #" y $
fX,Y (x, y) dy dx .
−∞ −∞
Ejemplo 4) Con las X, Y del ejemplo anterior, sean ahora U = mı́n{X, Y }, V = máx{X, Y }.
Queremos FU,V (u, v). De las igualdades
%
{X ≤ u, Y ≤ v} ∪ {X ≤ v, Y ≤ u} si u < v,
{U ≤ u, V ≤ v} =
{X ≤ v, Y ≤ v} si u ≥ v,
%
FX,Y (u, v) + FX,Y (v, u) − FX,Y (u, u) si u < v,
resulta FU,V (u, v) =
FX,Y (v, v) si u ≥ v,
%
2 fX,Y (u, v) = 2 e−u−v si 0 < u < v,
y al derivar fU,V (u, v) =
0 si no.
%
U = X,
La conclusión refleja lo siguiente: como debe ser o al revés, el par U, V cae en un ‘punto gordo’
V = Y,
del dominio 0 < u < v si y sólo si el X, Y cae en la unión de ese punto y su simétrico respecto de x = y.
Y también ilustra el hecho de que la densidad fX,Y (x, y) suele ser la forma más simple de expresar y
manejar la distribución conjunta en el caso continuo (como lo es la función de masa en el discreto) aunque
la FX,Y sea insustituible para hacer argumentos generales, entre otras cosas.
Ejercicio: con la fórmula que sigue a la DEF 3, hallar las marginales fU , fV .
Ejemplo 5) Queremos hallar la distribución marginal de X +Y , para la que no tenemos (aún) una fórmula
preparada. Empezamos por lo tanto con la FX+Y : si s > 0
" s " s−x " s " s−x
FX+Y (s) = P(X + Y ≤ s) = fX,Y dy dx = e−x
e−y dy dx = (1 − e−s ) − se−s
0 0 0 0
%
se−s si s > 0,
de donde fX+Y (s) = Nótese que esa es la Gamma con w = 2, λ = 1.
0 si no.
Comentarios: %
2(e−v − e−2v ) si s > 0,
Se habrá hallado tras el Ejemplo 4 que U ∼ Exp2 , mientras que fV (v) =
0 si no.
Ambas cosas tienen un significado inteligible:
– si recordamos que la Exp1 era por ejemplo el ‘tiempo hasta que observemos la siguiente estrella
fugaz’, podemos pensar en U = mı́n{X, Y } del modo siguiente: X, Y son los tiempos correspondientes
a dos ‘clases’ de estrellas (digamos las del este y las del oeste), igualmente abundantes (puesto que
tienen el mismo tiempo medio =1), con lo que U es el tiempo hasta observar alguna de ellas, y como esa
población es doble, su parámetro λ = 1/E(U ) debe ser doble también, porque se dobla la frecuencia;
– se puede comprobar que la fV hallada coincide con la de la suma de dos v.a.s independientes que
sean Exp con parámetros 1 y 2; la razón es la siguiente: acabamos de ver que U es Exp2 , y se tiene
obviamente V = U + (V − U ); pero el segundo sumando es el ‘tiempo que falta aún hasta observar una
de la otra clase’ (la que no era U ), y ya sabemos que la Exponencial ‘no tiene memoria’: como ya ha
transcurrido el tiempo U , la distribución del tiempo que falta es la misma que al principio: Exp1 .
El cálculo hecho en el Ejemplo 5 va a generalizarse pronto para la densidad de la suma X + Y de v.a.s
continuas independientes. Y tendrá un nombre propio: convolución de fX con fY .
3.2 El caso de variables independientes.
Se trata ahora de generalizar ideas que hemos visto en los ejemplos anteriores. Revisando los Ejemplos 2 y 3 se
ve que es plausible lo que afirma la siguiente
PROPOSICION A:
% equivale&a cada uno de los hechos siguientes:
El que las v.a.s X1 , . . . , Xn sean independientes
pX (x) = i pXi (xi ) , en el caso discreto
i) que se tenga, para cada x = (xi ) ∈ Rn , &
fX (x) = i fXi (xi ) , en el caso continuo.
ii) que pX (x) en el caso discreto (fX (x) en el continuo) sea un producto de funciones de cada variable.
Prueba: &
Recordemos que la definición de independencia pide que se tenga FX (x) = i FXi (xi ), es decir pide la
independencia de los sucesos {Xi ≤ xi }, i = 1, . . . , n.
i) Ya hemos observado que esa independencia implica la de cualesquiera sucesos relacionados uno con
cada variable, en particular los {Xi = xi }, y eso es lo que dice i) en el caso discreto. La implicación
recı́proca sale en ese caso de la suma que hemos dado (para el caso n = 2) tras la definición de función
conjunta de masa, y que produce FX en términos de pX . En el caso continuo, las dos implicaciones se
obtienen con la integral que expresa FX en términos de fX y con la derivada ‘cruzada’ de orden n que
recupera la fX .
ii) Pensemos en el caso n = 2. Si fX,Y (x, y) = f1 (x)f2 (y), podemos suponer ambas ≥ 0 puesto que lo es
fX,Y , y es inmediato que las marginales son fi si ponemos a cada una el factor constante adecuado para
que tenga integral 1. Exactamente la misma idea en el caso discreto y para cualquier n. !
El Ejemplo 5 se generaliza de este modo:
PROPOSICION B: La densidad de la suma X + Y de v.a.s continuas independientes es
'∞
fX+Y (s) = −∞ fX (x)fY (s − x) dx
que se llama la convolución fX ∗ fY .
Observaciones:
El análogo discreto es la suma (donde el segundo
( factor de cada sumando puede ser =0)
pX+Y (s) = pX (xi )pY (s − xi )
xi ∈X(Ω)
que ya usamos por ejemplo para la suma de puntos de dos (o más) dados.
Para n > 2 v.a.s independientes, lo mismo: fP Xi = fX1 ∗ · · · ∗ fXn = fX1 ∗ (fX2 ∗ · · · ∗ fXn ) .
Prueba de B:
'∞ ) ' s−x *
Basta derivar la FX+Y (s) = P(X + Y ≤ s) = −∞ fX (x) −∞ fY (y) dy dx .
El punto ‘técnico’ es que ‘pasamos la derivada dentro de la integral’ ; la idea de por qué eso es legı́timo:
una integral es como una suma, y la derivada de una suma es la suma de las derivadas. !
Querrı́amos decir, como otro apartado de la Proposición A, lo que parece más intuitivo:
‘X, Y son independientes si la distribución de Y condicionada a X = x es la misma ∀x’.
Si son discretas, esto es cierto y es un ejercicio sencillo el ver que equivale a i).
Pero tiene un problema si son continuas: no hemos definido probabilidades condicionadas a un suceso
que tenga P = 0, como es el ‘X = x’ en ese caso. Si lo miramos por analogı́a con el caso discreto, se ve cuál
deberı́a
' ser la afirmación: que la función g(y) = fX,Y (x, y) sea la misma para cada x, salvo por el factor
g(y) dy por el que habrá que dividirla para que sea una densidad (y que será entonces el valor de fX (x)).
Como esta afirmación equivale a ii), definimos
'∞
fY |X (y|x) = fX,Y (x, y)/c(x), con c(x) = −∞ fX,Y (x, y) dy
y le llamamos (‘abusando del lenguaje’) la densidad de Y condicionada a X = x.
Se puede llegar formalmente a esta definición tomando el lı́mite cuando δ ↓ 0 de la densidad condicionada
al suceso x ≤ X ≤ x + δ, que tendrá P > 0 si fX (x) > 0.
Ejemplos: '∞ '∞
En el Ejemplo 4 era fU,V (u, v) = 2 e−(v+u) si 0 < u < v, y como u e−(v−u) dv = 0 e−w dw = 1, la
densidad de V condicionada a U = u es fU,V (u, v)/2e−2u = e−(v−u) para v > u. Otra forma de decir
lo mismo: si es U = u, la variable W = V − U tiene densidad fW (w) = e−w para w > 0, que como se
ve no depende del valor de U ; la conclusión (ya citada antes) es que W, U son independientes.
Pregunta parecida: si conocemos X + Y = s en el Ejemplo 3, ¿cuál será la densidad (condicionada) de
X? Si hemos entendido lo anterior, la tentación es razonar ası́: como fX,Y (x, y) = e−s (constante) sobre
el segmento x ∈ [0, s] de la recta X + Y = s, y fX,Y (x, y) = 0 fuera de él, la densidad condicionada
de X es la Uniforme[0, s]. La respuesta es correcta ‘por milagro’: para contestarla habrı́a que haber
hallado primero la distribución conjunta de X, X + Y , y entonces su restricción a la recta X + Y = s.
Si ha salido bien es, como veremos, gracias a que el cambio de variables (X, Y ) → (X, X + Y ) es lineal.
3.3 Esperanza y varianza en el caso multivariante.
El concepto de valor esperado se extiende sin más al caso de un vector aleatorio: si X = (X1 , . . . , Xn ), la misma
definición que en el caso n = 1 da el vector E(X) de coordenadas E(Xi ).
¿Y para la varianza?
La apuesta más ingenua serı́a el vector de coordenadas var(Xi ). Una más astuta, la E(|X − E(X)|2 ), donde | | es
ahora el módulo de ese vector de desviaciones. Veremos que la extensión genuina es otra.
Definición: Para dos v.a.s X, Y , definimos su% covarianza como
X0 = X − E(X)
cov(X, Y ) = E(X0 Y0 ), donde son las versiones centradas de X, Y .
Y0 = Y − E(Y )
Observación:
Por lo tanto, var(X) = cov(X, X), y la igualdad var(X) = E(X 2 ) − E(X)2 es un caso particular de:
cov(X, Y ) = E(XY ) − E(X)E(Y ) Ejercicio: comprobarlo.
con lo que en particular cov(X, Y ) = 0 si X, Y son independientes.
Pero no al revés !! (como vimos en el Ejercicio 2, Hoja 3).
Ejemplo 7) Siendo X, Y, U, V como en el Ejemplo 4) de 3.1, busquemos la cov(X, V ).
Ya sabemos que E(X) = 1, E(V ) = 3/2, porque X, Y ∼ Exp1 , U ∼ Exp2 y porque se tiene evidentemente
X + Y = U + V . Para hallar
% E(XV ) podemos usar la %
e−x−y si x, y > 0, X si Y ≤ X,
fX,Y (x, y) = , teniendo en cuenta que V =
0 si no, Y si V > X.
" ∞ #" x " ∞ $ " ∞
+ , 1 9
E(XV ) = xe−x xe−y dy + ye−y dy dx = xe−x x + e−x dx = 2 + =
0 0 x 0 4 4
de donde cov(X, V ) = 9/4 − 1 · 3/2 = 3/4. Un cálculo idéntico darı́a la cov(X, U ), pero no hace falta:
podemos usar el hecho de que para cualesquiera v.a.s X, Y, Z se tiene
cov(X, Y + cZ) = cov(X, Y ) + c cov(X, Z) Ejercicio: probarlo.
es decir, que cov(X, Y ) es lineal en Y si fijamos X, y razonar ası́:
3 1
X +Y =U +V ⇒ cov(X, U ) = cov(X, X) + cov(X, Y ) − cov(X, V ) = 1 + 0 − =
4 4
donde se ha usado que cov(X, X) = var(X) = 1 y que cov(X, Y ) = 0 porque X, Y son independientes.
Definición:
La matriz de varianzas-covarianzas del vector aleatorio X = (X1 , . . . , Xn ) es la de entradas
cij = cov(Xi , Xj ).
Esta es la versión n-dimensional de la varianza, que incluye en su diagonal las var(Xi ).
Para entender su significado, vamos primero a visitar algunas ideas de análisis de datos.
3.4 Una ojeada a la historia del Cálculo de Probabilidades y la Estadı́stica.
Algunos nombres y fechas: Ver http://www-history.mcs.st-and.ac.uk/
!"#$$#%&#%'#$()*+%%,-.,%!%-/
01)"2#%!)23)1+%%,-45%!%-4
67$"2*"))8%9:;<#82+%%,-4=%!%=/
>2))3%?#@*A8+%%,-B4%!%,C4C
D)3AE%0#$8A:11"+%%,-/B%!%,C./
FE$)7)(%&#%GA"H$#+%%,--C%!%,C/B
!"#$$#!I"(A8%J)K1)3#+%%,CB=%!%,L4C
F&$"#8!G)$"#%J#<#8&$#+%%,C/4%!%,L55
6)$1%'$"#&$"37%M):22+%%,CCC%!%,L//
'$)83"2%M)1*A8+%%,L44%!%,=,,
N)$1%!#)$2A8+%%,L/C%!%,=5-
O("1#%0A$#1+%%,LC,%!%,=/-
F8&$#;%?"PA1)#H"37%NA1(A<A$AH+%%,=.5%!%LC
IAQ*@)$#%#2*)&R2*"3A+%&#2&#%#1%Q"8%&#%1A2%,=-.
En el libro de Freedman hay muchas referencias a la historia:
En el Cap. 14 se explica la correspondencia entre Fermat y Pascal, en los 1650’s, sobre la llamada
Paradoja del Chevalier de Méré: por qué resulta ser
más probable sacar al menos un · en 4 tiradas de un dado
que sacar al menos un · · en 24 tiradas de dos dados.
La idea (demasiado) ingenua es que nos quedamos igual si tenemos ‘6 veces más oportunidades de
conseguir una cosa 6 veces menos probable’.1 Pero las probabilidades de ambas cosas (con dados
equilibrados) son:
1 − (5/6)4 = 51.8 % , 1 − (35/36)24 = 49.1 % .
El intercambio de ideas entre Fermat y Pascal como consecuencia de ese problema es uno de los
momentos fundacionales del Cálculo de Probabilidades.
A partir de los datos:

Hemos introducido los modelos de probabilidad como descripciones del comportamiento a largo plazo de
los resultados de un experimento. Para eso hemos tenido que seleccionar ejemplos particularmente simples,
con descripción sencilla que se pueda dar por sentada a priori, como en los dados del problema anterior.
Pero la pregunta interesante es la contraria: dados los resultados de algún experimento,
a) cómo resumirlos|visualizarlos,
b) cómo asignarles un modelo de probabilidad y los parámetros del mismo.
El libro de Freedman comienza con este punto de vista, dando ejemplos de datos y un ejemplo de a):
cómo la misma idea de nuestras funciones de densidad permite ver una gran cantidad de datos como un
histograma: representando cada 1 % de los datos como una unidad de área bajo una gráfica 2.
Con esta representación aparece de nuevo la idea del ‘centro de gravedad’ de los datos: el valor medio
N
1 !
x̄ = xi
N 1
Un ejemplo histórico de b) se encuentra en el Ars Conjectandi de Jacob Bernoulli (publicado en 1713, años
después de su muerte). La pregunta que plantea Bernoulli es (en traducción simplificada) la siguiente:
supongamos una urna con un total de n bolas R y B, por ejemplo en proporción 3:2 (desconocida para
nosotros); ‘todos saben’ –dice Bernoulli– que si se extraen bolas con reemplazamiento, la proporción de R
extraı́das tenderá a la larga a la proporción p de R en la urna3; pero ¿cuántas extracciones harán falta para
tener ‘casi seguridad’ (digamos, con un 0.1 % de incertidumbre) de cuál es la proporción en la urna?
Este intento de cuantificar la ‘ley de los grandes números’ inaugura lo que mucho después se ha llamado
estimación paramétrica; la pregunta de Bernoulli coincide esencialmente con la siguiente:
Si X ∼ BinomialN,p , desde qué valor de N se tendrá, para un ε, δ dados,
P(|X/N − p| < ε) > 1 − δ .
Bernoulli consigue responderla con valores de N que resultan ‘desalentadoramente grandes’; en retrospec-
tiva podemos ver que su demanda de ‘certeza’ era excesiva para casi todos los casos prácticos, y respondı́a
más bien a la necesidad de transmitir la idea de que ‘podemos conseguir a la larga certeza total’.
Nace la Normal:
Poco tiempo después, Abraham de Moivre retoma el problema y prueba que para N grande, la Normal
de media µ = N p y varianza σ 2 = N pq aproxima la BinomialN,p ; es decir si X tiene esa distribución, e Y
es Normal con igual media y varianza,
P(a σ < X − µ < b σ) ≈ P(a σ < Y − µ < b σ)
para cada a, b ∈ R, y la aproximación tiende a la igualdad cuando N → ∞ (pero es ya excelente con N no
muy grandes). Esto da un método general para responder toda clase de preguntas como la de Bernoulli,
que de Moivre explica en su libro The Doctrine of Chances, 1738.
Supongamos por ejemplo ε = 1/100, δ =0.1 % .
La Tabla de la Normal estándar Z nos dice que 1 − δ < P(|Z| < 3.3) .
Esa será aproximadamente para nuestra X la P(|X − N p| < 3.3 σ), y queremos que sea
1 − δ < P( |X − N p| < N ε) ,
-
es decir, basta con que se tenga 3.3 N p(1 − p) ≤ N ε.
Sustituyendo los valores de ε = 1/100 y de p = 3/5 se llega a N ≥ 26136.
1La versión correcta de esa intuición es que el número esperado de ‘éxitos’ coincide: 2/3 en ambos casos.
2Se han visto ejemplos de histogramas en el Laboratorio.
3Eso es lo que llamamos ahora la ley de los grandes números.
Mı́nimos cuadrados:
Hay una relación profunda y no evidente entre la media y la varianza que hemos definido para v.a.s.:
la función q(a) = E(|X − a|2 ) tiene derivada q ' (a) = −2 E(X − a) = 2(a − E(X) ),
luego su valor mı́nimo es q(E(X)) = var(X).
La idea es la misma que aparece por ejemplo en escritos de Huygens4 sobre la Mecánica de un sólido:
respecto de ejes de dirección fijada, el momento de inercia es mı́nimo si el eje pasa por el c.d.g. del sólido.
Y podemos enunciarla en sentido contrario:
(
N
definir el ‘valor central’ de unos datos como el a que minimiza la suma de cuadrados S(a) = (xi − a)2 .
i=1
Como antes, basta derivar respecto de a para ver que el mı́nimo se alcanza en a = x̄.
Eso hace que las dos ideas ‘se apoyen mutuamente’: supongamos que los xi son medidas con errores de
una cantidad desconocida x; podemos escribir
xi = a + εi , donde a es nuestra apuesta sobre su valor exacto, εi los errores;
la relación citada invita a usar a = x̄ como la mejor apuesta posible, y la media cuadrática S(x̄)/N como
una estimación del tamaño de los ε2i .
Legendre presenta esta idea en un escrito5 de 1805 como apoyo a la de usar mı́nimos cuadrados para
resolver SEL sobredeterminados (con más ecuaciones que incógnitas). Tales sistemas de ecuaciones aparecen
de modo natural al repetir, para obtener mayor precisión, las medidas que deben llevar al cálculo de ciertas
cantidades, ya que esas medidas vienen acompañadas de sus inevitables errores aleatorios.
Medidas con errores y máxima verosimilitud:

El tema del escrito de Legendre ilustra una de las razones de la importancia histórica de este asunto:
medidas astronómicas reiteradas6, o medidas topográficas, que se intensificaron en los siglos XVII-XVIII.
Gauss, que habı́a trabajado intensamente en ambos tipos de medidas7, argumenta de esta forma en 1809
para defender x̄ como la mejor apuesta para el ‘verdadero valor’ que tratamos de medir:
supongamos para esos errores de medida, como es razonable, una densidad ϕ(x) simétrica respecto de 0;
viendo los errores como funciones εi = xi − a de nuestra apuesta a sobre el valor exacto, lo natural es
tomar el valor de a que haga máxima la probabilidad de haber cometido esos errores.
Esta idea se convertirá más tarde en un método estadı́stico bajo el nombre de máxima verosimilitud.
Claro que esa probabilidad es 0 en este caso para todo a, puesto que suponemos una distribución continua
de los errores, pero la condición equivalente es que sea máximo el producto
&
P (a) = i ϕ(xi − a)
2
Supongamos por un momento que la densidad sea una Normal: ϕ(x) = c · e−h x , que ya en el siglo XVIII
se habı́a usado por varios autores, entre ellos Gauss, como modelo para los errores. Tomando el log P (a)
es fácil ver que en ese caso
d d !
P (a) = 0 ⇔ (xi − a)2 = 0 ⇒ a = x̄ .
da da i
Pero Gauss da la vuelta al argumento: sólo la densidad Normal puede dar ese resultado para cada
conjunto de valores xi , porque si llamamos L(x) = (log ϕ(x))' , la implicación
!
L(xi − a) = 0 ⇒ a = x̄
i
sólo será cierta si L es lineal: L(x) = bx , con lo que log ϕ(x) = b0 + bx2 /2, y ϕ es una Normal simétrica.
De este modo Gauss completa el ‘argumento moral y estético’ de Legendre en favor de x̄ y los ‘mı́nimos
cuadrados’, aclarando además la relación privilegiada de éstos con la densidad Normal.
Pero falta aún ver por qué los errores de medida deben someterse a la belleza de este argumento . . .
El CLT:
En los años siguientes, Laplace prueba el teorema que extiende lo hecho por de Moivre, explica ası́ el papel
singular de la Normal y permite entender que los errores de medida, y muchas otras obras del azar, se
ajusten a ella. Es el llamado Teorema Central del Lı́mite, que se irá perfeccionando y entendiendo mejor a
lo largo del siglo y medio siguiente y del que veremos una versión en el Tema 4 del programa.
4Que también escribe un libro clave sobre Cálculo de Probabilidades: De ratiociniis in Ludo Aleae, 1657.
5Nouvelles méthodes pour la détermination des orbites des comètes.
6Que además eran indispensables para la navegación hasta que alguien consiguió construir relojes que conservasen la hora largo
tiempo en las condiciones de un barco (John Harrison, hacia 1720-60).
7Me atrevo a recomendar una muy notable ‘novela histórica’ sobre Gauss, Alexander von Humboldt y las actividades de ambos
en ese campo: Daniel Kehlmann, Die Vermessung der Welt, 2005 (La Medición Del Mundo, 2006).
3.5 La función generatriz y sus amigas. Las cuatro cosas que he contado sobre la
función generatriz de momentos MX (t) = E(etX )
y sobre la función caracterı́stica φX (t) = E(e itX )
pueden leerse (con algún detalle técnico más) en las pgs. 111-120 (Cap. 7) del G-W.
3.6 Correlación.
Recordemos qué era un producto escalar en un espacio vectorial E: una función
E×E → R
que es
(u, v) → 0u, v1
bilineal (lineal en v para u fijado, y al revés),
simétrica: 0u, v1 = 0v, u1,
definida positiva: para cada u, 0u, u1 ≥ 0 y además 0u, u1 = 0 ⇒ u = 0.
Consecuencia de esos axiomas es la
Desigualdad de Cauchy-Schwarz: 0u, v12 ≤ 0u, u10v, v1 .
Prueba: Llamemos8 |u|2 = 0u, u1; supongamos que es |u| |v| > 0, porque si uno de los vectores es 0, no hay
nada que probar. Entonces
. .2
.u v .. 0u, v1 0u, v1
0≤. . ± =1±2 +1 ⇒ ± ≤ 1, es decir, ± 0u, v1 ≤ |u| |v| .
|u| |v| . |u| |v| |u| |v| !
En el caso del producto escalar ordinario, la fracción 0u, v1/(|u||v|) es el coseno del ángulo que forman los
dos vectores; pero de la Prueba se desprende que, también en el caso general, esta desigualdad es estricta
salvo que u/|u|, v/|v| sean iguales u opuestos, es decir, salvo que u, v sean proporcionales.
La covarianza es un producto escalar:
Ya sabı́amos que es bilineal, simétrica y que cov(X, X) = var(X) ≥ 0.
Sólo queda por lo tanto aclarar en qué espacio vectorial estamos pensando para que sea definida positiva
como corresponde a un producto escalar, puesto que var(X) = 0 sólo implica que se tenga X = E(X) c.s.
(usamos el adverbio ‘casi-seguramente’, abreviado ‘c.s.’ para decir que algo tiene P = 1).
La respuesta se puede dar de dos formas, a partir del espacio vectorial formado por todas las v.a. X : Ω → R;
de manera formal, tomando el cociente por el subespacio de las ‘casi-seguramente constantes’;
o de manera menos formal pero más intuitiva, y equivalente a la anterior: tomando el subespacio de
las que tienen E = 0, las centradas, y manteniendo para la discusión que sigue (y un poco también
en general) la idea de que var(X) y cov(X, Y ) pertenecen realmente a sus centradas, de las cuales las
demás v.a.s son ‘trasladadas’, y de las que toman prestados esos parámetros.
Una vez dicho esto, la prueba de la desigualdad de C-S se puede repetir exactamente, recordando que
hemos llamado σX 2
= var(X) y dando el nombre coeficiente de correlación ρX,Y al cociente
cov(X, Y )
−1 ≤ ρX,Y = ≤1.
σX σY
Y la consecuencia de la prueba también se aplica, pero sin olvidar que hablamos de las centradas:
ρX,Y = ±1 si y sólo si Y − EY es proporcional a X − EX.
En cambio, las llamaremos incorreladas si ρX,Y = 0, es decir si cov(X, Y ) = 0 (que será cierto en particular
si son independientes). Por lo tanto podemos “metafóricamente” decir que ρX,Y es el coseno del ángulo
que forma Y − EY con X − EX. Los siguientes ejemplos mostrarán lo cerca que está esa metáfora de ser
una verdad precisa.
Ejemplos: De acuerdo con la idea expuesta antes, tomemos en ellos sólo v.a.s centradas.
Sean X, R independientes, X ∼ Uniforme(−1, 1), R ∼ Uniforme(r−, r) y sea Y = aX + R. Es fácil ver
que (X, Y ) es Uniforme en el paralelogramo |x| < 1, |y − ax| < r, que ax = E(Y |X = x) y que
var(X) = E(X 2 ) = 1/3
var(R) = r2 var(X),
var(Y ) = (a2 + r2 )var(X),
cov(X, Y ) = E(XY ) = aE(X 2 ) + E(XR) = a var(X), con lo que
a
ρX,Y = √
a + r2
2
que tiende a ±1 (según el signo de a) si hacemos r ↓ 0, es decir si apagamos el ‘ruido’ R = Y − aX.

Todo es esencialmente igual si en el ejemplo anterior
-tomamos X ∼ Normal(0, σ ), R ∼ Normal (0, r ):
2 2
ρX,Y = aσ/( (aσ)2 + r2 ).

8Aunque esta notación pertenece realmente al producto escalar ordinario, conviene usarla para ver mejor que la idea es la misma
en el caso general.
3.7 Elogio de las matrices.
Podemos incluir el ejemplo anterior en toda una familia de ellos. Tomemos como ‘sistema de coordenadas’ un par
Z = (Z1 , Z2 ) de v.a.s Normales(0, 1) e independientes. Dicho de otro modo, que tienen densidad conjunta
1 2 1 2 1 −|z|2 /2
fZ (z1 , z2 ) = √ e−z1 /2 √ e−z2 /2 = e .
2π 2π 2π
Varianzas-covarianzas:
Si X, Y son dos combinaciones lineales de las Zi : / 0
v1
X = u1 Z1 + u2 Z2 , Y = v1 Z1 + v2 Z2 , o escrito ‘matricialmente’: Y = (Z1 , Z2 )
v2
y lo mismo para X, el hecho de que la cov(X, Y ) es bilineal permite escribir
1 2/ 0
v1
cov(X, Y ) = (u1 , u2 ) V arZ
v2
donde V arZ es la matriz de varianzas-covarianzas de Z (que por lo dicho sobre las Zi , es la matriz unidad).
Pero por el mismo precio podemos calcular de un golpe toda la matriz de varianzas-covarianzas de X, Y :
3 41 23 4
u1 u2 u1 v1
V arX,Y = V arZ = L LT
v1 v2 u2 v2
donde LT es la traspuesta de L, la matriz que expresa el vector (X, Y ) como función lineal del Z.
En el ejemplo anterior,
3 4 3 2 4
σ σ aσ 2
L= , V arX,Y = L L =T
.
aσ s aσ 2 (aσ)2 + s2
Y mejor que eso, podemos ver cómo depende en general esa matriz de los vectores u, v de coeficientes:
3 4
|u|2 u · v
V arX,Y = L L =
T
,
u · v |v|2
donde vemos que ρX,Y es, en este caso literalmente, el cos del ángulo formado por u, v. Ahora es inmediato
contestar preguntas como: 3 4
cos α sen α
¿Qué matrices L darán σX =1= σY ? Respuesta: L = , y entonces ρX,Y = cos(α−β).
cos β sen β
¿Qué matrices L darán ρX,Y = 0 es decir, X, Y incorreladas? Respuesta: Las que tengan u ⊥ v.
¿Qué matrices L darán ρX,Y = ±1? Respuesta: Las que tengan u, v proporcionales.
Pero es razonable excluir este caso, porque entonces no estamos produciendo dos v.a.s, sino esen-
cialmente dos copias de una misma X. En consecuencia, suponemos desde ahora que L es regular ; y
podemos también suponer que tiene det(L) > 0, porque al permutar las columnas de L producimos
exactamente el mismo par X, Y , ya que Z1 , Z2 son idénticas.
Hay una pregunta que no se responde con esto, la de si X, Y serán independientes (no tienen por
qué serlo) en el caso de ser incorreladas. Para eso hay que mirar su densidad conjunta.
3.8 La densidad bi-Normal.

Pensemos en cualquier trozo D del plano z = (z1 , z2 ) y en su imagen por la biyección lineal (x, y) = L(z).
El suceso A =‘z ∈ D’ es idéntico al ‘L(z) ∈ L(D)’, luego P(A) puede calcularse integrando en un plano o en el
otro: "" "" ""
P(A) = fZ (z) dz1 dz2 = fX,Y (x, y) dx dy = fX,Y (L(z)) J(z) dz1 dz2
D L(D) D
donde la última igualdad es la fórmula de cambio de variables en la integral doble y J(z) es el factor local de
‘corrección de áreas’, el jacobiano de la biyección en cada punto. Pero en nuestro caso ese factor es la constante
det(L), luego fX,Y (L(z)) debe coincidir con fZ (z) salvo factor constante. Recordando que
1 −|z|2 /2 2
fZ (z) = e , resulta fX,Y (L(z)) = cte · e−|z|, es decir
/2
fX,Y (x, y) = cte · e−q(x,y)/2 ,
2π
1 2/ x 0
donde q(x, y) es la forma cuadrática |L (x, y)| = (x, y) Q
−1 2
, con Q = (L−1 )T L−1 = (L LT )−1 .
y
Esto es lo que denominamos una Normal Bivariante. Veamos de nuevo . . .
Ejemplos:
El primero, para responder la pregunta lanzada hace poco: X, Y eran incorreladas si u ⊥ v. Pero eso
equivale a que LLT sea diagonal y a que lo sea su inversa Q, con lo que en ese caso q(x, y) = ax2 + by 2 ,
y efectivamente fX,Y (x, y) es producto de una función de x y otra de y, ambas densidades Normales!
De la igualdad fX,Y (L(z)) = cte · fZ (z) se desprende también que L aplica las curvas de nivel de FZ
(cı́rculos) sobre las de fX,Y , que en consecuencia son elipses; en el caso que acabamos de ver, esas
elipses tienen como ejes los de coordenadas x, y.
En el otro caso sencillo visto antes, cuando σX = σY = 1, la matriz LLT , y en consecuencia también
su inversa Q, tiene iguales las dos entradas de su diagonal y eso permite escribir q(x, y) en la forma
a(x + y)2 + b(x − y)2 ; es decir, X ± Y son Normales independientes y ‘sus elipses’ tiene como ejes las
diagonales del plano x, y. Ver en relación con este caso el Ejemplo A) de la Hoja 4.
Éste es el caso que aparece en el Grimmett-Welsh como la Normal Bivariante Estándar. Lo es en
el sentido siguiente:
cada Normal Bivariante se puede reducir a ésta con el cambio de escala X/σX , Y /σY .
A la conclusión de que X, Y son Normales podemos llegar de modo general: cada Zi tiene la misma
función caracterı́stica φ(t) = E(e itZi ) = exp(−t2 /2), luego cada X = c1 Z1 + c2 Z2 tiene
φX (t) = E(e it(c1 Z1 +c2 Z2 ) ) = E(e itc1 Z1 )E(e itc2 Z2 ) = φ(c1 t)φ(c2 t) = exp(−|c|2 t2 /2)
que es la de una Normal con varianza |c|2 . Esto es otra peculiaridad de las Normales.
Nótese que hemos probado que las X, Y de una Normal Bivariante son independientes si están inco-
rreladas, pero NO hemos probado que eso sea cierto en general para dos Normales.
Contraejemplo: si llamamos Φ(z) a la densidad de la Z ∼ Normal(0,1), hay una abscisa a > 0 tal que
" a
1 1
z 2 Φ(z) dz = = var(Z)
−a 2 2
%
Z si |Z| < a
y si definimos W = es fácil ver que E(W Z) = 0 y que W es Normal(0,1).
−Z si no,
3.9 La “influencia mutua” de las variables en una Normal Bivariante.

Una pregunta natural al describir y analizar datos de dos cantidades es la de cómo depende una de la otra.
En el lenguaje de su distribución conjunta, eso se traduce en esta pregunta:
¿cuál es, para cada x ∈ R, la distribución de Y condicionada a X = x ?
Ejemplo: Supongamos que nuestras % X, Y (una vez centradas) tienen la distribución dada por
/ 0 3 4/ 0
X = σX Z1 X σX Z1
[1] es decir, = ,
Y = aX + sZ2 Y aσX s Z2
un ejemplo que ya hemos visto antes; como Z2 es independiente de Z1 y por lo tanto también del valor de
X, la distribución de Y condicionada a X = x es la de ax + sZ2 , es decir Normal(µ, r2 ) con µ = ax.
Ya sabemos que la distribución de Y es la Normal(0, σY2 ) con
σY2 = (aσX )2 + s2 .
Estos dos sumandos parten la dispersión total de Y en ‘la heredada de X + la independiente de ella’.
Observemos lo que hace esa función lineal con las curvas de nivel de la densidad de (Z1 , Z2 ); en la figura
vemos el cuadrado unidad, el trozo de cı́rculo tangente a él, y la imagen de ambos.
3 4
σX (!X , a!X)
= s
aσX s
En particular vemos que las elipses de nivel de fX,Y tienen tangente vertical precisamente en los puntos
de la recta y = ax, donde se sitúan las E(Y |X = x) para cada x.
Los pares de Normales dadas por las fórmulas [1] son en realidad todas las Normales Bivariantes, porque:
• la matriz G de un giro produce, como hemos visto, dos variables con distribución conjunta idéntica a
la de Z = (Z1 , Z2 ), y
• cada matriz L con /det(L) 0 >10 es el/producto
0 3 de un giro y4una matriz como la de [1]:
2 1 2/ 0
X Z1 σX Z1
= L = G
Y Z2 aσX s Z2
(basta que giro inverso GT lleve la segunda columna de L al eje vertical), de modo que las X, Y producidas
por L tienen la misma distribución que en [1].
Falta ahora contestar la siguiente pregunta natural: ¿qué distribución tiene X condicionada a Y = y?
La tentación natural es decir:
X = (Y − sZ2 )/a, luego la distribución de X|Y = y es Normal(y/a, (s/a)2 ).
FALSO, porque Z2 NO es independiente de Y !!
De modo que necesitamos (si es posible) escribir X como cY + W donde W sea independiente de Y .
Para ver que eso puede hacerse, sin que demasiadas letras nos nublen la imagen, supongamos que estamos
en el caso σX = 1 = σY que hemos llamado Normal Bivariante Estándar (lo que se consigue, como
vimos, con un simple “cambio de unidades en cada variable”). Eso equivale a que nuestra matriz sea
3 4
1
a s
con a2 + s2 = 1. Sabemos que en ese caso W debe ser un múltiplo de sZ1 − aZ2 para ser independiente de
Y = aZ1 + sZ2 . La tarea es pues escribir X = Z1 como c1 Y + c2 (sZ1 − aZ2 ) y la solución resulta ser
X = aY + s2 Z1 − saZ2 .
Todo es ahora simétrico: la W = s2 Z1 − saZ2 tiene también varianza s2 , y la varianza de X se parte en los dos
sumandos a2 var(Y ) + var(W ) = a2 + s2 = 1, como ocurrı́a con la de Y . Además, el “coeficiente de dependencia
mutua” resulta coincidir con
ρX,Y = cov(X, Y ) = cov(Z1 , aZ1 + sZ2 ) = a .
Ésa es la pendiente de la recta y = ax donde se sitúan los valores medios E(Y |X = x), pero también, “simétrica-
mente”, la de la recta x = ay donde se se sitúan los E(X|Y = y). En los puntos de esta otra recta es donde las
elipses tienen tangente horizontal (recordemos que sus ejes son las diagonales del plano en este caso estándar );
ambas rectas coinciden si y sólo si es ρX,Y = ±1 (lo que NO puede ocurrir si la matriz L es regular), mientras
que coinciden con los ejes si y sólo si ρX,Y = 0.
3.10 Las dos lineas de las medias: regresión.
Recordemos qué propiedad caracterizaba al valor medio E(X) de una v.a. X: es la constante c que hace más
pequeña la E(|X − c|2 ) = var(X) + (c − E(X))2 .
Dada ahora la distribución conjunta de dos v.a.s X, Y , podemos plantearnos en los mismos términos la pregunta
de qué recta y = ax + b describe mejor la forma en que Y depende de X, del modo siguiente:
Hallar los valores a, b que hacen mı́nima la E(|Y − (aX + b)|2 ).
La respuesta es fácil de dar, porque p(a, b) = E(|Y − (aX + b)|2 ) es un polinomio de grado 2. Pero quizá la forma
más clara de llegar a ella es la siguiente:
En primer lugar, debe anularse la
∂p(a, b)
= −2 E(Y − (aX + b)) = −2( E(Y ) − (a E(X) + b) ),
∂b
es decir, el punto (E(X), E(Y )) debe estar en la recta buscada: E(Y ) = a E(X) + b.
Si suponemos ahora que las variables están centradas (es decir, que hemos tomado ese punto de las medias
como origen), será b = 0 y la recta y = ax que buscamos debe cumplir
∂p(a, b)
0= = −2 E(X(Y − aX)) , 0 = E(XY ) − a E(X 2 ) = cov(XY ) − a var(X),
∂a
es decir, cov(XY ) σY
a= = ρX,Y .
var(X) σX
La recta buscada, a la que llamamos la recta de regresión de Y sobre X, es por lo tanto
y − E(Y ) x − E(X)
= ρX,Y .
σY σX
Ejercicio: comprobar que el mı́nimo de E(|Y − (aX + b)|2 ) que se consigue ası́ es (1 − ρ2X,Y )σY2 .
Observaciones clave:
Ésta es exactamente, en el caso de una Normal Bivariante, la ‘recta de las medias’ y = E(Y |X = x).
Exactamente igual que en aquel caso, podemos intercambiar los papeles de las variables: la recta que se
obtiene entonces es y − E(Y ) x − E(X)
ρX,Y = ,
σY σX
la simétrica de la anterior en el plano de las variables tipificadas (centradas y divididas por su desviación).
Todo lo que acabamos de hacer vale exactamente igual en el caso de unos datos xi , yi , i = 1, . . . , N si
ponemos en lugar de las E(X), E(Y ), var(X), cov(X, Y ), . . . las medias y varianzas muestrales:
N N N N
1 ! 1 ! 1 ! 1 !
x̄ = xi , ȳ = yi , Sx2 = (xi − x̄)2 , (xi − x̄)(yi − ȳ), . . .
N i=1 N i=1 N i=1 N i=1
Para ver por qué es ası́, basta con repetir el argumento con estas definiciones, o más fácil aún: éstas
definiciones coinciden con las anteriores si usamos como distribución conjunta de X, Y la uniforme sobre
los N puntos (xi , yi ): probabilidad 1/N en cada uno.
El siguiente gráfico ilustra varias de las ideas expuestas en las páginas previas.
! =1=!
X Y
! " ">0
1
ρ s
! " ρ2 + s2 = 1 en ambos casos

1
simple cambio de escala
ρ s
!X=1=!Y
"<0 !
Y
!X
Arriba a la izquierda vemos el cuadrado unidad de R2 acompañado del cı́rculo unidad, una de las curvas de nivel
de la densidad Normal “canónica”, correspondiente al vector Z que se usa en 3.7 a 3.9.
Las dos flechas que salen de allı́ representan dos funciones lineales que producen Normales Bivariantes Estándar
(ver 3.9), y en las figuras a las que se dirigen vemos, junto con los parámetros de cada Bi-normal, las imágenes del
cı́rculo y cuadrado unidad, ası́ como las dos rectas de regresión y la que Freedman llama la SD-line (en linea de
puntos), la linea de pendiente σY /σX por el punto de las medias, que es aquı́ el origen; ésta es al mismo tiempo
la bisectriz de los ejes (por ser σX = σY ) y es uno de los ejes de la elipse, y de cada una de las elipses dilatadas
de ésa, que son las curvas de nivel de la densidad conjunta.
La flecha restante, que corresponde a un cambio de escala en cada variable (una función lineal con matriz diagonal)
permite ver qué cambia y qué sigue igual bajo ese cambio: las rectas de regresión son las imágenes de las de arriba,
y siguen siendo los puntos donde las curvas de nivel tienen tangente vertical u horizontal; pero las simetrı́as se
han roto: ni son simétricas las dos rectas de regresión, ni la SD-line (que es la imagen de su predecesora) coincide
con la bisectriz de los ejes de coordenadas ni con un eje de las elipses.
Recordemos también que si tenemos una distribución de datos con esos mismos parámetros, sus rectas de regresión
seguirán siendo las que vemos en estas figuras, porque el argumento que lleva a la solución del problema de mı́nimos
cuadrados (ver 3.10) no depende en modo alguno de que la distribución sea Normal.

T3 PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

T3 PDF

Cargado por

Copyright:

Formatos disponibles

TEMA 3

3.1 La distribución conjunta de dos (o más) variables.

densidad conjunta, tal que

(el análogo de la suma del caso anterior).

Si en la integral iterada (o escrita en el otro orden ...

derivamos primero respecto de x, luego de y, resulta ... y derivando en el otro orden)

A partir de los datos:

Medidas con errores y máxima verosimilitud:

que tiende a ±1 (según el signo de a) si hacemos r ↓ 0, es decir si apagamos el ‘ruido’ R = Y − aX.

ρX,Y = aσ/( (aσ)2 + r2 ).

3.8 La densidad bi-Normal.

3.9 La “influencia mutua” de las variables en una Normal Bivariante.

Hallar los valores a, b que hacen mı́nima la E(|Y − (aX + b)|2 ).

! " ρ2 + s2 = 1 en ambos casos

También podría gustarte