Está en la página 1de 11

TEMA 3

3.1 La distribución conjunta de dos (o más) variables.


Veamos las definiciones básicas, en el caso de dos v.a.s X, Y sobre un mismo espacio de probabilidad (Ω, F, P).
Definiciones:
1) La función de distribución FX,Y : R2 → [0, 1] es la dada por
FX,Y (x, y) = P(X ≤ x, Y ≤ y) .
Las FX , FY se llaman entonces sus distribuciones marginales.
Observaciones:
Como el suceso {X ≤ x} es la unión creciente de los {X ≤ x, Y ≤ y} cuando y → ∞, la marginal FX
coincide con
FX (x) = P(X ≤ x) = lı́m P(X ≤ x, Y ≤ y) = supy FX,Y (x, y),
y→∞
y lo mismo para la FY .
Para v.a.s X1 , . . . , Xn , la definición es la misma: para cada x = (x1 , . . . , xn ) ∈ Rn ,
FX (x) = P(Xi ≤ xi para cada i),
donde X = (X1 , . . . , Xn ) es un vector aleatorio, que es como conviene pensar en el par (X, Y ).
VER (más abajo) el Ejemplo 1
2) La función de masa pX,Y es pX,Y (x, y) = P(X = x, Y = y), si ambas son discretas; su relación con la
función de distribución: si {xi }, {yj } son las valores de ambas variables,
!
FX,Y (x, y) = pX,Y (xi , yj ).
xi ≤x, yj ≤y
VER Ejemplos 2 y 3
3) Se dice que el vector (X, Y ) tiene distribución continua si hay una fX,Y : R → [0, ∞), llamada su
2

densidad conjunta, tal que


""
FX,Y (x, y) = fX,Y (x, y) dx dy
{X≤x, Y ≤y}

(el análogo de la suma del caso anterior).


Observaciones:
Al escribir FX,Y (x, y) como una integral iterada vemos que la marginal FX es en este caso
" a #" ∞ $
FX (a) = lı́m FX,Y (a, b) = fX,Y (x, y) dy dx
b↑∞ −∞ −∞

de modo que X tiene distribución continua, con densidad (todo igual para Y , claro)
" ∞
fX (x) = fX,Y (x, y) dy.
−∞

Si en la integral iterada (o escrita en el otro orden ...


" x #" y $
FX,Y (x, y) = fX,Y (x, y) dy dx
−∞ −∞

derivamos primero respecto de x, luego de y, resulta ... y derivando en el otro orden)


∂ ∂
FX,Y (x, y) = fX,Y (x, y),
∂y ∂x
que muestra cómo pasar de la FX,Y (x, y) a la fX,Y (x, y). VER Ejemplos 4 y 5

Ejemplos:
Ejemplo 1) Sean X, Y el número de reyes y número de ases que salen al extraer al azar dos de las 4×10
cartas de una baraja. Hay seis valores posibles del par X, Y , que podemos ver como puntos del plano, sobre
los que se colocan sus respectivas masas de probabilidad, que en % son: Ejercicio: hallarlas.
2 0,77
1 16,4 2,05
Y =0 63,6 16,4 0,77
X=0 1 2
En ese caso, FX,Y (a, b) = 0 salvo que a, b sean ambos ≥ 0, en cuyo caso FX,Y (a, b) es la suma de las masas
de los valores cubiertos por el cuadrante {x ≤ a, y ≤ b}. Comparar Definición 2).
Ejemplo 2) Más simple que el anterior, pese a haber ahora infinitos valores: X, Y independientes, ambas
con distribución Geométricap . Por la independencia, pX,Y (j, k) = pX (j)pY (k) = p2 q j+k−2 si j, k > 0.
1
Ejemplo 3) Esta vez las v.a.s NO son discretas: X, Y independientes, ambas con distribución Exp1 .
Usando de nuevo la independencia,
%
(1 − e−x )(1 − e−y ) si x, y > 0,
FX,Y (x, y) = FX (x) FY (y) =
0 si no.

Con las observaciones que siguen a la Definición 3) podemos deducir que su función de densidad conjunta
es también el producto
%
e−x e−y si x, y > 0,
fX,Y (x, y) =
0 si no
de las dos densidades marginales fX , fY , y verificar que FX,Y (x, y) se recupera con la integral iterada
" x #" y $
fX,Y (x, y) dy dx .
−∞ −∞

Ejemplo 4) Con las X, Y del ejemplo anterior, sean ahora U = mı́n{X, Y }, V = máx{X, Y }.
Queremos FU,V (u, v). De las igualdades
%
{X ≤ u, Y ≤ v} ∪ {X ≤ v, Y ≤ u} si u < v,
{U ≤ u, V ≤ v} =
{X ≤ v, Y ≤ v} si u ≥ v,
%
FX,Y (u, v) + FX,Y (v, u) − FX,Y (u, u) si u < v,
resulta FU,V (u, v) =
FX,Y (v, v) si u ≥ v,
%
2 fX,Y (u, v) = 2 e−u−v si 0 < u < v,
y al derivar fU,V (u, v) =
0 si no.
%
U = X,
La conclusión refleja lo siguiente: como debe ser o al revés, el par U, V cae en un ‘punto gordo’
V = Y,
del dominio 0 < u < v si y sólo si el X, Y cae en la unión de ese punto y su simétrico respecto de x = y.
Y también ilustra el hecho de que la densidad fX,Y (x, y) suele ser la forma más simple de expresar y
manejar la distribución conjunta en el caso continuo (como lo es la función de masa en el discreto) aunque
la FX,Y sea insustituible para hacer argumentos generales, entre otras cosas.
Ejercicio: con la fórmula que sigue a la DEF 3, hallar las marginales fU , fV .
Ejemplo 5) Queremos hallar la distribución marginal de X +Y , para la que no tenemos (aún) una fórmula
preparada. Empezamos por lo tanto con la FX+Y : si s > 0
" s " s−x " s " s−x
FX+Y (s) = P(X + Y ≤ s) = fX,Y dy dx = e−x
e−y dy dx = (1 − e−s ) − se−s
0 0 0 0
%
se−s si s > 0,
de donde fX+Y (s) = Nótese que esa es la Gamma con w = 2, λ = 1.
0 si no.
Comentarios: %
2(e−v − e−2v ) si s > 0,
Se habrá hallado tras el Ejemplo 4 que U ∼ Exp2 , mientras que fV (v) =
0 si no.
Ambas cosas tienen un significado inteligible:
– si recordamos que la Exp1 era por ejemplo el ‘tiempo hasta que observemos la siguiente estrella
fugaz’, podemos pensar en U = mı́n{X, Y } del modo siguiente: X, Y son los tiempos correspondientes
a dos ‘clases’ de estrellas (digamos las del este y las del oeste), igualmente abundantes (puesto que
tienen el mismo tiempo medio =1), con lo que U es el tiempo hasta observar alguna de ellas, y como esa
población es doble, su parámetro λ = 1/E(U ) debe ser doble también, porque se dobla la frecuencia;
– se puede comprobar que la fV hallada coincide con la de la suma de dos v.a.s independientes que
sean Exp con parámetros 1 y 2; la razón es la siguiente: acabamos de ver que U es Exp2 , y se tiene
obviamente V = U + (V − U ); pero el segundo sumando es el ‘tiempo que falta aún hasta observar una
de la otra clase’ (la que no era U ), y ya sabemos que la Exponencial ‘no tiene memoria’: como ya ha
transcurrido el tiempo U , la distribución del tiempo que falta es la misma que al principio: Exp1 .
El cálculo hecho en el Ejemplo 5 va a generalizarse pronto para la densidad de la suma X + Y de v.a.s
continuas independientes. Y tendrá un nombre propio: convolución de fX con fY .
3.2 El caso de variables independientes.
Se trata ahora de generalizar ideas que hemos visto en los ejemplos anteriores. Revisando los Ejemplos 2 y 3 se
ve que es plausible lo que afirma la siguiente
PROPOSICION A:
% equivale&a cada uno de los hechos siguientes:
El que las v.a.s X1 , . . . , Xn sean independientes
pX (x) = i pXi (xi ) , en el caso discreto
i) que se tenga, para cada x = (xi ) ∈ Rn , &
fX (x) = i fXi (xi ) , en el caso continuo.
ii) que pX (x) en el caso discreto (fX (x) en el continuo) sea un producto de funciones de cada variable.
Prueba: &
Recordemos que la definición de independencia pide que se tenga FX (x) = i FXi (xi ), es decir pide la
independencia de los sucesos {Xi ≤ xi }, i = 1, . . . , n.
i) Ya hemos observado que esa independencia implica la de cualesquiera sucesos relacionados uno con
cada variable, en particular los {Xi = xi }, y eso es lo que dice i) en el caso discreto. La implicación
recı́proca sale en ese caso de la suma que hemos dado (para el caso n = 2) tras la definición de función
conjunta de masa, y que produce FX en términos de pX . En el caso continuo, las dos implicaciones se
obtienen con la integral que expresa FX en términos de fX y con la derivada ‘cruzada’ de orden n que
recupera la fX .
ii) Pensemos en el caso n = 2. Si fX,Y (x, y) = f1 (x)f2 (y), podemos suponer ambas ≥ 0 puesto que lo es
fX,Y , y es inmediato que las marginales son fi si ponemos a cada una el factor constante adecuado para
que tenga integral 1. Exactamente la misma idea en el caso discreto y para cualquier n. !
El Ejemplo 5 se generaliza de este modo:
PROPOSICION B: La densidad de la suma X + Y de v.a.s continuas independientes es
'∞
fX+Y (s) = −∞ fX (x)fY (s − x) dx
que se llama la convolución fX ∗ fY .
Observaciones:
El análogo discreto es la suma (donde el segundo
( factor de cada sumando puede ser =0)
pX+Y (s) = pX (xi )pY (s − xi )
xi ∈X(Ω)
que ya usamos por ejemplo para la suma de puntos de dos (o más) dados.
Para n > 2 v.a.s independientes, lo mismo: fP Xi = fX1 ∗ · · · ∗ fXn = fX1 ∗ (fX2 ∗ · · · ∗ fXn ) .
Prueba de B:
'∞ ) ' s−x *
Basta derivar la FX+Y (s) = P(X + Y ≤ s) = −∞ fX (x) −∞ fY (y) dy dx .
El punto ‘técnico’ es que ‘pasamos la derivada dentro de la integral’ ; la idea de por qué eso es legı́timo:
una integral es como una suma, y la derivada de una suma es la suma de las derivadas. !
Querrı́amos decir, como otro apartado de la Proposición A, lo que parece más intuitivo:
‘X, Y son independientes si la distribución de Y condicionada a X = x es la misma ∀x’.
Si son discretas, esto es cierto y es un ejercicio sencillo el ver que equivale a i).
Pero tiene un problema si son continuas: no hemos definido probabilidades condicionadas a un suceso
que tenga P = 0, como es el ‘X = x’ en ese caso. Si lo miramos por analogı́a con el caso discreto, se ve cuál
deberı́a
' ser la afirmación: que la función g(y) = fX,Y (x, y) sea la misma para cada x, salvo por el factor
g(y) dy por el que habrá que dividirla para que sea una densidad (y que será entonces el valor de fX (x)).
Como esta afirmación equivale a ii), definimos
'∞
fY |X (y|x) = fX,Y (x, y)/c(x), con c(x) = −∞ fX,Y (x, y) dy
y le llamamos (‘abusando del lenguaje’) la densidad de Y condicionada a X = x.
Se puede llegar formalmente a esta definición tomando el lı́mite cuando δ ↓ 0 de la densidad condicionada
al suceso x ≤ X ≤ x + δ, que tendrá P > 0 si fX (x) > 0.
Ejemplos: '∞ '∞
En el Ejemplo 4 era fU,V (u, v) = 2 e−(v+u) si 0 < u < v, y como u e−(v−u) dv = 0 e−w dw = 1, la
densidad de V condicionada a U = u es fU,V (u, v)/2e−2u = e−(v−u) para v > u. Otra forma de decir
lo mismo: si es U = u, la variable W = V − U tiene densidad fW (w) = e−w para w > 0, que como se
ve no depende del valor de U ; la conclusión (ya citada antes) es que W, U son independientes.
Pregunta parecida: si conocemos X + Y = s en el Ejemplo 3, ¿cuál será la densidad (condicionada) de
X? Si hemos entendido lo anterior, la tentación es razonar ası́: como fX,Y (x, y) = e−s (constante) sobre
el segmento x ∈ [0, s] de la recta X + Y = s, y fX,Y (x, y) = 0 fuera de él, la densidad condicionada
de X es la Uniforme[0, s]. La respuesta es correcta ‘por milagro’: para contestarla habrı́a que haber
hallado primero la distribución conjunta de X, X + Y , y entonces su restricción a la recta X + Y = s.
Si ha salido bien es, como veremos, gracias a que el cambio de variables (X, Y ) → (X, X + Y ) es lineal.
3.3 Esperanza y varianza en el caso multivariante.
El concepto de valor esperado se extiende sin más al caso de un vector aleatorio: si X = (X1 , . . . , Xn ), la misma
definición que en el caso n = 1 da el vector E(X) de coordenadas E(Xi ).
¿Y para la varianza?
La apuesta más ingenua serı́a el vector de coordenadas var(Xi ). Una más astuta, la E(|X − E(X)|2 ), donde | | es
ahora el módulo de ese vector de desviaciones. Veremos que la extensión genuina es otra.
Definición: Para dos v.a.s X, Y , definimos su% covarianza como
X0 = X − E(X)
cov(X, Y ) = E(X0 Y0 ), donde son las versiones centradas de X, Y .
Y0 = Y − E(Y )
Observación:
Por lo tanto, var(X) = cov(X, X), y la igualdad var(X) = E(X 2 ) − E(X)2 es un caso particular de:
cov(X, Y ) = E(XY ) − E(X)E(Y ) Ejercicio: comprobarlo.
con lo que en particular cov(X, Y ) = 0 si X, Y son independientes.
Pero no al revés !! (como vimos en el Ejercicio 2, Hoja 3).
Ejemplo 7) Siendo X, Y, U, V como en el Ejemplo 4) de 3.1, busquemos la cov(X, V ).
Ya sabemos que E(X) = 1, E(V ) = 3/2, porque X, Y ∼ Exp1 , U ∼ Exp2 y porque se tiene evidentemente
X + Y = U + V . Para hallar
% E(XV ) podemos usar la %
e−x−y si x, y > 0, X si Y ≤ X,
fX,Y (x, y) = , teniendo en cuenta que V =
0 si no, Y si V > X.
" ∞ #" x " ∞ $ " ∞
+ , 1 9
E(XV ) = xe−x xe−y dy + ye−y dy dx = xe−x x + e−x dx = 2 + =
0 0 x 0 4 4
de donde cov(X, V ) = 9/4 − 1 · 3/2 = 3/4. Un cálculo idéntico darı́a la cov(X, U ), pero no hace falta:
podemos usar el hecho de que para cualesquiera v.a.s X, Y, Z se tiene
cov(X, Y + cZ) = cov(X, Y ) + c cov(X, Z) Ejercicio: probarlo.
es decir, que cov(X, Y ) es lineal en Y si fijamos X, y razonar ası́:
3 1
X +Y =U +V ⇒ cov(X, U ) = cov(X, X) + cov(X, Y ) − cov(X, V ) = 1 + 0 − =
4 4
donde se ha usado que cov(X, X) = var(X) = 1 y que cov(X, Y ) = 0 porque X, Y son independientes.
Definición:
La matriz de varianzas-covarianzas del vector aleatorio X = (X1 , . . . , Xn ) es la de entradas
cij = cov(Xi , Xj ).
Esta es la versión n-dimensional de la varianza, que incluye en su diagonal las var(Xi ).
Para entender su significado, vamos primero a visitar algunas ideas de análisis de datos.
3.4 Una ojeada a la historia del Cálculo de Probabilidades y la Estadı́stica.
Algunos nombres y fechas: Ver http://www-history.mcs.st-and.ac.uk/
!"#$$#%&#%'#$()*+%%,-.,%!%-/
01)"2#%!)23)1+%%,-45%!%-4
67$"2*"))8%9:;<#82+%%,-4=%!%=/
>2))3%?#@*A8+%%,-B4%!%,C4C
D)3AE%0#$8A:11"+%%,-/B%!%,C./
FE$)7)(%&#%GA"H$#+%%,--C%!%,C/B

!"#$$#!I"(A8%J)K1)3#+%%,CB=%!%,L4C
F&$"#8!G)$"#%J#<#8&$#+%%,C/4%!%,L55
6)$1%'$"#&$"37%M):22+%%,CCC%!%,L//

'$)83"2%M)1*A8+%%,L44%!%,=,,

N)$1%!#)$2A8+%%,L/C%!%,=5-
O("1#%0A$#1+%%,LC,%!%,=/-

F8&$#;%?"PA1)#H"37%NA1(A<A$AH+%%,=.5%!%LC

IAQ*@)$#%#2*)&R2*"3A+%&#2&#%#1%Q"8%&#%1A2%,=-.
En el libro de Freedman hay muchas referencias a la historia:
En el Cap. 14 se explica la correspondencia entre Fermat y Pascal, en los 1650’s, sobre la llamada
Paradoja del Chevalier de Méré: por qué resulta ser
más probable sacar al menos un · en 4 tiradas de un dado
que sacar al menos un · · en 24 tiradas de dos dados.
La idea (demasiado) ingenua es que nos quedamos igual si tenemos ‘6 veces más oportunidades de
conseguir una cosa 6 veces menos probable’.1 Pero las probabilidades de ambas cosas (con dados
equilibrados) son:
1 − (5/6)4 = 51.8 % , 1 − (35/36)24 = 49.1 % .
El intercambio de ideas entre Fermat y Pascal como consecuencia de ese problema es uno de los
momentos fundacionales del Cálculo de Probabilidades.

A partir de los datos:


Hemos introducido los modelos de probabilidad como descripciones del comportamiento a largo plazo de
los resultados de un experimento. Para eso hemos tenido que seleccionar ejemplos particularmente simples,
con descripción sencilla que se pueda dar por sentada a priori, como en los dados del problema anterior.
Pero la pregunta interesante es la contraria: dados los resultados de algún experimento,
a) cómo resumirlos|visualizarlos,
b) cómo asignarles un modelo de probabilidad y los parámetros del mismo.
El libro de Freedman comienza con este punto de vista, dando ejemplos de datos y un ejemplo de a):
cómo la misma idea de nuestras funciones de densidad permite ver una gran cantidad de datos como un
histograma: representando cada 1 % de los datos como una unidad de área bajo una gráfica 2.
Con esta representación aparece de nuevo la idea del ‘centro de gravedad’ de los datos: el valor medio
N
1 !
x̄ = xi
N 1

Un ejemplo histórico de b) se encuentra en el Ars Conjectandi de Jacob Bernoulli (publicado en 1713, años
después de su muerte). La pregunta que plantea Bernoulli es (en traducción simplificada) la siguiente:
supongamos una urna con un total de n bolas R y B, por ejemplo en proporción 3:2 (desconocida para
nosotros); ‘todos saben’ –dice Bernoulli– que si se extraen bolas con reemplazamiento, la proporción de R
extraı́das tenderá a la larga a la proporción p de R en la urna3; pero ¿cuántas extracciones harán falta para
tener ‘casi seguridad’ (digamos, con un 0.1 % de incertidumbre) de cuál es la proporción en la urna?
Este intento de cuantificar la ‘ley de los grandes números’ inaugura lo que mucho después se ha llamado
estimación paramétrica; la pregunta de Bernoulli coincide esencialmente con la siguiente:
Si X ∼ BinomialN,p , desde qué valor de N se tendrá, para un ε, δ dados,
P(|X/N − p| < ε) > 1 − δ .
Bernoulli consigue responderla con valores de N que resultan ‘desalentadoramente grandes’; en retrospec-
tiva podemos ver que su demanda de ‘certeza’ era excesiva para casi todos los casos prácticos, y respondı́a
más bien a la necesidad de transmitir la idea de que ‘podemos conseguir a la larga certeza total’.

Nace la Normal:
Poco tiempo después, Abraham de Moivre retoma el problema y prueba que para N grande, la Normal
de media µ = N p y varianza σ 2 = N pq aproxima la BinomialN,p ; es decir si X tiene esa distribución, e Y
es Normal con igual media y varianza,
P(a σ < X − µ < b σ) ≈ P(a σ < Y − µ < b σ)
para cada a, b ∈ R, y la aproximación tiende a la igualdad cuando N → ∞ (pero es ya excelente con N no
muy grandes). Esto da un método general para responder toda clase de preguntas como la de Bernoulli,
que de Moivre explica en su libro The Doctrine of Chances, 1738.
Supongamos por ejemplo ε = 1/100, δ =0.1 % .
La Tabla de la Normal estándar Z nos dice que 1 − δ < P(|Z| < 3.3) .
Esa será aproximadamente para nuestra X la P(|X − N p| < 3.3 σ), y queremos que sea
1 − δ < P( |X − N p| < N ε) ,
-
es decir, basta con que se tenga 3.3 N p(1 − p) ≤ N ε.
Sustituyendo los valores de ε = 1/100 y de p = 3/5 se llega a N ≥ 26136.

1La versión correcta de esa intuición es que el número esperado de ‘éxitos’ coincide: 2/3 en ambos casos.
2Se han visto ejemplos de histogramas en el Laboratorio.
3Eso es lo que llamamos ahora la ley de los grandes números.
Mı́nimos cuadrados:
Hay una relación profunda y no evidente entre la media y la varianza que hemos definido para v.a.s.:
la función q(a) = E(|X − a|2 ) tiene derivada q ' (a) = −2 E(X − a) = 2(a − E(X) ),
luego su valor mı́nimo es q(E(X)) = var(X).
La idea es la misma que aparece por ejemplo en escritos de Huygens4 sobre la Mecánica de un sólido:
respecto de ejes de dirección fijada, el momento de inercia es mı́nimo si el eje pasa por el c.d.g. del sólido.
Y podemos enunciarla en sentido contrario:
(
N
definir el ‘valor central’ de unos datos como el a que minimiza la suma de cuadrados S(a) = (xi − a)2 .
i=1
Como antes, basta derivar respecto de a para ver que el mı́nimo se alcanza en a = x̄.
Eso hace que las dos ideas ‘se apoyen mutuamente’: supongamos que los xi son medidas con errores de
una cantidad desconocida x; podemos escribir
xi = a + εi , donde a es nuestra apuesta sobre su valor exacto, εi los errores;
la relación citada invita a usar a = x̄ como la mejor apuesta posible, y la media cuadrática S(x̄)/N como
una estimación del tamaño de los ε2i .
Legendre presenta esta idea en un escrito5 de 1805 como apoyo a la de usar mı́nimos cuadrados para
resolver SEL sobredeterminados (con más ecuaciones que incógnitas). Tales sistemas de ecuaciones aparecen
de modo natural al repetir, para obtener mayor precisión, las medidas que deben llevar al cálculo de ciertas
cantidades, ya que esas medidas vienen acompañadas de sus inevitables errores aleatorios.

Medidas con errores y máxima verosimilitud:


El tema del escrito de Legendre ilustra una de las razones de la importancia histórica de este asunto:
medidas astronómicas reiteradas6, o medidas topográficas, que se intensificaron en los siglos XVII-XVIII.
Gauss, que habı́a trabajado intensamente en ambos tipos de medidas7, argumenta de esta forma en 1809
para defender x̄ como la mejor apuesta para el ‘verdadero valor’ que tratamos de medir:
supongamos para esos errores de medida, como es razonable, una densidad ϕ(x) simétrica respecto de 0;
viendo los errores como funciones εi = xi − a de nuestra apuesta a sobre el valor exacto, lo natural es
tomar el valor de a que haga máxima la probabilidad de haber cometido esos errores.
Esta idea se convertirá más tarde en un método estadı́stico bajo el nombre de máxima verosimilitud.
Claro que esa probabilidad es 0 en este caso para todo a, puesto que suponemos una distribución continua
de los errores, pero la condición equivalente es que sea máximo el producto
&
P (a) = i ϕ(xi − a)
2
Supongamos por un momento que la densidad sea una Normal: ϕ(x) = c · e−h x , que ya en el siglo XVIII
se habı́a usado por varios autores, entre ellos Gauss, como modelo para los errores. Tomando el log P (a)
es fácil ver que en ese caso
d d !
P (a) = 0 ⇔ (xi − a)2 = 0 ⇒ a = x̄ .
da da i
Pero Gauss da la vuelta al argumento: sólo la densidad Normal puede dar ese resultado para cada
conjunto de valores xi , porque si llamamos L(x) = (log ϕ(x))' , la implicación
!
L(xi − a) = 0 ⇒ a = x̄
i

sólo será cierta si L es lineal: L(x) = bx , con lo que log ϕ(x) = b0 + bx2 /2, y ϕ es una Normal simétrica.
De este modo Gauss completa el ‘argumento moral y estético’ de Legendre en favor de x̄ y los ‘mı́nimos
cuadrados’, aclarando además la relación privilegiada de éstos con la densidad Normal.
Pero falta aún ver por qué los errores de medida deben someterse a la belleza de este argumento . . .

El CLT:
En los años siguientes, Laplace prueba el teorema que extiende lo hecho por de Moivre, explica ası́ el papel
singular de la Normal y permite entender que los errores de medida, y muchas otras obras del azar, se
ajusten a ella. Es el llamado Teorema Central del Lı́mite, que se irá perfeccionando y entendiendo mejor a
lo largo del siglo y medio siguiente y del que veremos una versión en el Tema 4 del programa.

4Que también escribe un libro clave sobre Cálculo de Probabilidades: De ratiociniis in Ludo Aleae, 1657.
5Nouvelles méthodes pour la détermination des orbites des comètes.
6Que además eran indispensables para la navegación hasta que alguien consiguió construir relojes que conservasen la hora largo
tiempo en las condiciones de un barco (John Harrison, hacia 1720-60).
7Me atrevo a recomendar una muy notable ‘novela histórica’ sobre Gauss, Alexander von Humboldt y las actividades de ambos
en ese campo: Daniel Kehlmann, Die Vermessung der Welt, 2005 (La Medición Del Mundo, 2006).
3.5 La función generatriz y sus amigas. Las cuatro cosas que he contado sobre la
función generatriz de momentos MX (t) = E(etX )
y sobre la función caracterı́stica φX (t) = E(e itX )
pueden leerse (con algún detalle técnico más) en las pgs. 111-120 (Cap. 7) del G-W.
3.6 Correlación.
Recordemos qué era un producto escalar en un espacio vectorial E: una función
E×E → R
que es
(u, v) → 0u, v1
bilineal (lineal en v para u fijado, y al revés),
simétrica: 0u, v1 = 0v, u1,
definida positiva: para cada u, 0u, u1 ≥ 0 y además 0u, u1 = 0 ⇒ u = 0.
Consecuencia de esos axiomas es la
Desigualdad de Cauchy-Schwarz: 0u, v12 ≤ 0u, u10v, v1 .
Prueba: Llamemos8 |u|2 = 0u, u1; supongamos que es |u| |v| > 0, porque si uno de los vectores es 0, no hay
nada que probar. Entonces
. .2
.u v .. 0u, v1 0u, v1
0≤. . ± =1±2 +1 ⇒ ± ≤ 1, es decir, ± 0u, v1 ≤ |u| |v| .
|u| |v| . |u| |v| |u| |v| !
En el caso del producto escalar ordinario, la fracción 0u, v1/(|u||v|) es el coseno del ángulo que forman los
dos vectores; pero de la Prueba se desprende que, también en el caso general, esta desigualdad es estricta
salvo que u/|u|, v/|v| sean iguales u opuestos, es decir, salvo que u, v sean proporcionales.
La covarianza es un producto escalar:
Ya sabı́amos que es bilineal, simétrica y que cov(X, X) = var(X) ≥ 0.
Sólo queda por lo tanto aclarar en qué espacio vectorial estamos pensando para que sea definida positiva
como corresponde a un producto escalar, puesto que var(X) = 0 sólo implica que se tenga X = E(X) c.s.
(usamos el adverbio ‘casi-seguramente’, abreviado ‘c.s.’ para decir que algo tiene P = 1).
La respuesta se puede dar de dos formas, a partir del espacio vectorial formado por todas las v.a. X : Ω → R;
de manera formal, tomando el cociente por el subespacio de las ‘casi-seguramente constantes’;
o de manera menos formal pero más intuitiva, y equivalente a la anterior: tomando el subespacio de
las que tienen E = 0, las centradas, y manteniendo para la discusión que sigue (y un poco también
en general) la idea de que var(X) y cov(X, Y ) pertenecen realmente a sus centradas, de las cuales las
demás v.a.s son ‘trasladadas’, y de las que toman prestados esos parámetros.
Una vez dicho esto, la prueba de la desigualdad de C-S se puede repetir exactamente, recordando que
hemos llamado σX 2
= var(X) y dando el nombre coeficiente de correlación ρX,Y al cociente
cov(X, Y )
−1 ≤ ρX,Y = ≤1.
σX σY
Y la consecuencia de la prueba también se aplica, pero sin olvidar que hablamos de las centradas:
ρX,Y = ±1 si y sólo si Y − EY es proporcional a X − EX.
En cambio, las llamaremos incorreladas si ρX,Y = 0, es decir si cov(X, Y ) = 0 (que será cierto en particular
si son independientes). Por lo tanto podemos “metafóricamente” decir que ρX,Y es el coseno del ángulo
que forma Y − EY con X − EX. Los siguientes ejemplos mostrarán lo cerca que está esa metáfora de ser
una verdad precisa.
Ejemplos: De acuerdo con la idea expuesta antes, tomemos en ellos sólo v.a.s centradas.
Sean X, R independientes, X ∼ Uniforme(−1, 1), R ∼ Uniforme(r−, r) y sea Y = aX + R. Es fácil ver
que (X, Y ) es Uniforme en el paralelogramo |x| < 1, |y − ax| < r, que ax = E(Y |X = x) y que
var(X) = E(X 2 ) = 1/3
var(R) = r2 var(X),
var(Y ) = (a2 + r2 )var(X),
cov(X, Y ) = E(XY ) = aE(X 2 ) + E(XR) = a var(X), con lo que
a
ρX,Y = √
a + r2
2

que tiende a ±1 (según el signo de a) si hacemos r ↓ 0, es decir si apagamos el ‘ruido’ R = Y − aX.


Todo es esencialmente igual si en el ejemplo anterior
-tomamos X ∼ Normal(0, σ ), R ∼ Normal (0, r ):
2 2

ρX,Y = aσ/( (aσ)2 + r2 ).


8Aunque esta notación pertenece realmente al producto escalar ordinario, conviene usarla para ver mejor que la idea es la misma
en el caso general.
3.7 Elogio de las matrices.
Podemos incluir el ejemplo anterior en toda una familia de ellos. Tomemos como ‘sistema de coordenadas’ un par
Z = (Z1 , Z2 ) de v.a.s Normales(0, 1) e independientes. Dicho de otro modo, que tienen densidad conjunta
1 2 1 2 1 −|z|2 /2
fZ (z1 , z2 ) = √ e−z1 /2 √ e−z2 /2 = e .
2π 2π 2π
Varianzas-covarianzas:
Si X, Y son dos combinaciones lineales de las Zi : / 0
v1
X = u1 Z1 + u2 Z2 , Y = v1 Z1 + v2 Z2 , o escrito ‘matricialmente’: Y = (Z1 , Z2 )
v2
y lo mismo para X, el hecho de que la cov(X, Y ) es bilineal permite escribir
1 2/ 0
v1
cov(X, Y ) = (u1 , u2 ) V arZ
v2
donde V arZ es la matriz de varianzas-covarianzas de Z (que por lo dicho sobre las Zi , es la matriz unidad).
Pero por el mismo precio podemos calcular de un golpe toda la matriz de varianzas-covarianzas de X, Y :
3 41 23 4
u1 u2 u1 v1
V arX,Y = V arZ = L LT
v1 v2 u2 v2
donde LT es la traspuesta de L, la matriz que expresa el vector (X, Y ) como función lineal del Z.
En el ejemplo anterior,
3 4 3 2 4
σ σ aσ 2
L= , V arX,Y = L L =T
.
aσ s aσ 2 (aσ)2 + s2
Y mejor que eso, podemos ver cómo depende en general esa matriz de los vectores u, v de coeficientes:
3 4
|u|2 u · v
V arX,Y = L L =
T
,
u · v |v|2
donde vemos que ρX,Y es, en este caso literalmente, el cos del ángulo formado por u, v. Ahora es inmediato
contestar preguntas como: 3 4
cos α sen α
¿Qué matrices L darán σX =1= σY ? Respuesta: L = , y entonces ρX,Y = cos(α−β).
cos β sen β
¿Qué matrices L darán ρX,Y = 0 es decir, X, Y incorreladas? Respuesta: Las que tengan u ⊥ v.
¿Qué matrices L darán ρX,Y = ±1? Respuesta: Las que tengan u, v proporcionales.
Pero es razonable excluir este caso, porque entonces no estamos produciendo dos v.a.s, sino esen-
cialmente dos copias de una misma X. En consecuencia, suponemos desde ahora que L es regular ; y
podemos también suponer que tiene det(L) > 0, porque al permutar las columnas de L producimos
exactamente el mismo par X, Y , ya que Z1 , Z2 son idénticas.
Hay una pregunta que no se responde con esto, la de si X, Y serán independientes (no tienen por
qué serlo) en el caso de ser incorreladas. Para eso hay que mirar su densidad conjunta.

3.8 La densidad bi-Normal.


Pensemos en cualquier trozo D del plano z = (z1 , z2 ) y en su imagen por la biyección lineal (x, y) = L(z).
El suceso A =‘z ∈ D’ es idéntico al ‘L(z) ∈ L(D)’, luego P(A) puede calcularse integrando en un plano o en el
otro: "" "" ""
P(A) = fZ (z) dz1 dz2 = fX,Y (x, y) dx dy = fX,Y (L(z)) J(z) dz1 dz2
D L(D) D

donde la última igualdad es la fórmula de cambio de variables en la integral doble y J(z) es el factor local de
‘corrección de áreas’, el jacobiano de la biyección en cada punto. Pero en nuestro caso ese factor es la constante
det(L), luego fX,Y (L(z)) debe coincidir con fZ (z) salvo factor constante. Recordando que
1 −|z|2 /2 2
fZ (z) = e , resulta fX,Y (L(z)) = cte · e−|z|, es decir
/2
fX,Y (x, y) = cte · e−q(x,y)/2 ,

1 2/ x 0
donde q(x, y) es la forma cuadrática |L (x, y)| = (x, y) Q
−1 2
, con Q = (L−1 )T L−1 = (L LT )−1 .
y
Esto es lo que denominamos una Normal Bivariante. Veamos de nuevo . . .
Ejemplos:
El primero, para responder la pregunta lanzada hace poco: X, Y eran incorreladas si u ⊥ v. Pero eso
equivale a que LLT sea diagonal y a que lo sea su inversa Q, con lo que en ese caso q(x, y) = ax2 + by 2 ,
y efectivamente fX,Y (x, y) es producto de una función de x y otra de y, ambas densidades Normales!
De la igualdad fX,Y (L(z)) = cte · fZ (z) se desprende también que L aplica las curvas de nivel de FZ
(cı́rculos) sobre las de fX,Y , que en consecuencia son elipses; en el caso que acabamos de ver, esas
elipses tienen como ejes los de coordenadas x, y.
En el otro caso sencillo visto antes, cuando σX = σY = 1, la matriz LLT , y en consecuencia también
su inversa Q, tiene iguales las dos entradas de su diagonal y eso permite escribir q(x, y) en la forma
a(x + y)2 + b(x − y)2 ; es decir, X ± Y son Normales independientes y ‘sus elipses’ tiene como ejes las
diagonales del plano x, y. Ver en relación con este caso el Ejemplo A) de la Hoja 4.
Éste es el caso que aparece en el Grimmett-Welsh como la Normal Bivariante Estándar. Lo es en
el sentido siguiente:
cada Normal Bivariante se puede reducir a ésta con el cambio de escala X/σX , Y /σY .

A la conclusión de que X, Y son Normales podemos llegar de modo general: cada Zi tiene la misma
función caracterı́stica φ(t) = E(e itZi ) = exp(−t2 /2), luego cada X = c1 Z1 + c2 Z2 tiene
φX (t) = E(e it(c1 Z1 +c2 Z2 ) ) = E(e itc1 Z1 )E(e itc2 Z2 ) = φ(c1 t)φ(c2 t) = exp(−|c|2 t2 /2)
que es la de una Normal con varianza |c|2 . Esto es otra peculiaridad de las Normales.
Nótese que hemos probado que las X, Y de una Normal Bivariante son independientes si están inco-
rreladas, pero NO hemos probado que eso sea cierto en general para dos Normales.
Contraejemplo: si llamamos Φ(z) a la densidad de la Z ∼ Normal(0,1), hay una abscisa a > 0 tal que
" a
1 1
z 2 Φ(z) dz = = var(Z)
−a 2 2
%
Z si |Z| < a
y si definimos W = es fácil ver que E(W Z) = 0 y que W es Normal(0,1).
−Z si no,

3.9 La “influencia mutua” de las variables en una Normal Bivariante.


Una pregunta natural al describir y analizar datos de dos cantidades es la de cómo depende una de la otra.
En el lenguaje de su distribución conjunta, eso se traduce en esta pregunta:
¿cuál es, para cada x ∈ R, la distribución de Y condicionada a X = x ?
Ejemplo: Supongamos que nuestras % X, Y (una vez centradas) tienen la distribución dada por
/ 0 3 4/ 0
X = σX Z1 X σX Z1
[1] es decir, = ,
Y = aX + sZ2 Y aσX s Z2

un ejemplo que ya hemos visto antes; como Z2 es independiente de Z1 y por lo tanto también del valor de
X, la distribución de Y condicionada a X = x es la de ax + sZ2 , es decir Normal(µ, r2 ) con µ = ax.
Ya sabemos que la distribución de Y es la Normal(0, σY2 ) con
σY2 = (aσX )2 + s2 .
Estos dos sumandos parten la dispersión total de Y en ‘la heredada de X + la independiente de ella’.
Observemos lo que hace esa función lineal con las curvas de nivel de la densidad de (Z1 , Z2 ); en la figura
vemos el cuadrado unidad, el trozo de cı́rculo tangente a él, y la imagen de ambos.

3 4
σX (!X , a!X)
= s
aσX s

En particular vemos que las elipses de nivel de fX,Y tienen tangente vertical precisamente en los puntos
de la recta y = ax, donde se sitúan las E(Y |X = x) para cada x.
Los pares de Normales dadas por las fórmulas [1] son en realidad todas las Normales Bivariantes, porque:
• la matriz G de un giro produce, como hemos visto, dos variables con distribución conjunta idéntica a
la de Z = (Z1 , Z2 ), y
• cada matriz L con /det(L) 0 >10 es el/producto
0 3 de un giro y4una matriz como la de [1]:
2 1 2/ 0
X Z1 σX Z1
= L = G
Y Z2 aσX s Z2
(basta que giro inverso GT lleve la segunda columna de L al eje vertical), de modo que las X, Y producidas
por L tienen la misma distribución que en [1].
Falta ahora contestar la siguiente pregunta natural: ¿qué distribución tiene X condicionada a Y = y?
La tentación natural es decir:
X = (Y − sZ2 )/a, luego la distribución de X|Y = y es Normal(y/a, (s/a)2 ).
FALSO, porque Z2 NO es independiente de Y !!
De modo que necesitamos (si es posible) escribir X como cY + W donde W sea independiente de Y .
Para ver que eso puede hacerse, sin que demasiadas letras nos nublen la imagen, supongamos que estamos
en el caso σX = 1 = σY que hemos llamado Normal Bivariante Estándar (lo que se consigue, como
vimos, con un simple “cambio de unidades en cada variable”). Eso equivale a que nuestra matriz sea
3 4
1
a s
con a2 + s2 = 1. Sabemos que en ese caso W debe ser un múltiplo de sZ1 − aZ2 para ser independiente de
Y = aZ1 + sZ2 . La tarea es pues escribir X = Z1 como c1 Y + c2 (sZ1 − aZ2 ) y la solución resulta ser
X = aY + s2 Z1 − saZ2 .
Todo es ahora simétrico: la W = s2 Z1 − saZ2 tiene también varianza s2 , y la varianza de X se parte en los dos
sumandos a2 var(Y ) + var(W ) = a2 + s2 = 1, como ocurrı́a con la de Y . Además, el “coeficiente de dependencia
mutua” resulta coincidir con
ρX,Y = cov(X, Y ) = cov(Z1 , aZ1 + sZ2 ) = a .
Ésa es la pendiente de la recta y = ax donde se sitúan los valores medios E(Y |X = x), pero también, “simétrica-
mente”, la de la recta x = ay donde se se sitúan los E(X|Y = y). En los puntos de esta otra recta es donde las
elipses tienen tangente horizontal (recordemos que sus ejes son las diagonales del plano en este caso estándar );
ambas rectas coinciden si y sólo si es ρX,Y = ±1 (lo que NO puede ocurrir si la matriz L es regular), mientras
que coinciden con los ejes si y sólo si ρX,Y = 0.
3.10 Las dos lineas de las medias: regresión.
Recordemos qué propiedad caracterizaba al valor medio E(X) de una v.a. X: es la constante c que hace más
pequeña la E(|X − c|2 ) = var(X) + (c − E(X))2 .
Dada ahora la distribución conjunta de dos v.a.s X, Y , podemos plantearnos en los mismos términos la pregunta
de qué recta y = ax + b describe mejor la forma en que Y depende de X, del modo siguiente:

Hallar los valores a, b que hacen mı́nima la E(|Y − (aX + b)|2 ).

La respuesta es fácil de dar, porque p(a, b) = E(|Y − (aX + b)|2 ) es un polinomio de grado 2. Pero quizá la forma
más clara de llegar a ella es la siguiente:
En primer lugar, debe anularse la
∂p(a, b)
= −2 E(Y − (aX + b)) = −2( E(Y ) − (a E(X) + b) ),
∂b
es decir, el punto (E(X), E(Y )) debe estar en la recta buscada: E(Y ) = a E(X) + b.
Si suponemos ahora que las variables están centradas (es decir, que hemos tomado ese punto de las medias
como origen), será b = 0 y la recta y = ax que buscamos debe cumplir
∂p(a, b)
0= = −2 E(X(Y − aX)) , 0 = E(XY ) − a E(X 2 ) = cov(XY ) − a var(X),
∂a
es decir, cov(XY ) σY
a= = ρX,Y .
var(X) σX
La recta buscada, a la que llamamos la recta de regresión de Y sobre X, es por lo tanto
y − E(Y ) x − E(X)
= ρX,Y .
σY σX
Ejercicio: comprobar que el mı́nimo de E(|Y − (aX + b)|2 ) que se consigue ası́ es (1 − ρ2X,Y )σY2 .
Observaciones clave:
Ésta es exactamente, en el caso de una Normal Bivariante, la ‘recta de las medias’ y = E(Y |X = x).
Exactamente igual que en aquel caso, podemos intercambiar los papeles de las variables: la recta que se
obtiene entonces es y − E(Y ) x − E(X)
ρX,Y = ,
σY σX
la simétrica de la anterior en el plano de las variables tipificadas (centradas y divididas por su desviación).
Todo lo que acabamos de hacer vale exactamente igual en el caso de unos datos xi , yi , i = 1, . . . , N si
ponemos en lugar de las E(X), E(Y ), var(X), cov(X, Y ), . . . las medias y varianzas muestrales:
N N N N
1 ! 1 ! 1 ! 1 !
x̄ = xi , ȳ = yi , Sx2 = (xi − x̄)2 , (xi − x̄)(yi − ȳ), . . .
N i=1 N i=1 N i=1 N i=1
Para ver por qué es ası́, basta con repetir el argumento con estas definiciones, o más fácil aún: éstas
definiciones coinciden con las anteriores si usamos como distribución conjunta de X, Y la uniforme sobre
los N puntos (xi , yi ): probabilidad 1/N en cada uno.
El siguiente gráfico ilustra varias de las ideas expuestas en las páginas previas.

! =1=!
X Y
! " ">0
1
ρ s

! " ρ2 + s2 = 1 en ambos casos


1
simple cambio de escala
ρ s

!X=1=!Y
"<0 !
Y

!X

Arriba a la izquierda vemos el cuadrado unidad de R2 acompañado del cı́rculo unidad, una de las curvas de nivel
de la densidad Normal “canónica”, correspondiente al vector Z que se usa en 3.7 a 3.9.
Las dos flechas que salen de allı́ representan dos funciones lineales que producen Normales Bivariantes Estándar
(ver 3.9), y en las figuras a las que se dirigen vemos, junto con los parámetros de cada Bi-normal, las imágenes del
cı́rculo y cuadrado unidad, ası́ como las dos rectas de regresión y la que Freedman llama la SD-line (en linea de
puntos), la linea de pendiente σY /σX por el punto de las medias, que es aquı́ el origen; ésta es al mismo tiempo
la bisectriz de los ejes (por ser σX = σY ) y es uno de los ejes de la elipse, y de cada una de las elipses dilatadas
de ésa, que son las curvas de nivel de la densidad conjunta.
La flecha restante, que corresponde a un cambio de escala en cada variable (una función lineal con matriz diagonal)
permite ver qué cambia y qué sigue igual bajo ese cambio: las rectas de regresión son las imágenes de las de arriba,
y siguen siendo los puntos donde las curvas de nivel tienen tangente vertical u horizontal; pero las simetrı́as se
han roto: ni son simétricas las dos rectas de regresión, ni la SD-line (que es la imagen de su predecesora) coincide
con la bisectriz de los ejes de coordenadas ni con un eje de las elipses.
Recordemos también que si tenemos una distribución de datos con esos mismos parámetros, sus rectas de regresión
seguirán siendo las que vemos en estas figuras, porque el argumento que lleva a la solución del problema de mı́nimos
cuadrados (ver 3.10) no depende en modo alguno de que la distribución sea Normal.

También podría gustarte