Está en la página 1de 14

distmultiv.doc 05/03/2015 vgaribay@eio.uva.

es 1

Tema 1: Distribuciones Multivariantes


1.- Conceptos de Repaso.
Leyes de Probabilidad Conjunta.
Leyes Marginales.
Leyes condicionadas.
Independencia.
Momentos.
2.- Matrices aleatorias
 X1 
 X11 ... X1p   
  X2
Matriz aleatoria nxp dimensional X=  ... ...  =(Xij); Vector aleatorio p-dim X=   .
 ... 
 X n1 ... X np   
 
 Xp 
 EX1   μ1 
   
 EX 2   μ 2 
Esperanza o media del v.a. (vector aleatorio) X es el vector = EX= =
 ...   ... 
   
 EX p   μ p 
Análogamente, esperanza o media de la matriz aleatoria X es la matriz nxp EX= (EXij)= (ij)
Transformaciones lineales de vectores o matrices aleatorias X:
 a11 ... a1p   c1 
   
Sea Y=AX+C con A=      y C=  ...  constantes. Entonces, EY= A EX + C.
 a k1 ... a kp  c 
   k
Sea Y=AXB+ C con A, B y C matrices de constantes. Entonces, EY= A EX B+ C.
Matriz de varianzas-covarianzas X (o matriz de dispersión) de un vector aleatorio X:
Es la matriz X de término genérico Cov(Xi, Xj): X= Cov(X)= E(X-)(X-)t =
 (X1 -μ1 ) 2 ... (X1 -μ1 )(X p -μ p )   Var X1 ... Cov(X1 , X p ) 
   
=E    =     = (ij)
 (X -μ )(X -μ ) ... (X p -μ p ) 2   Cov(X , X ) ... Var X p 
 p p 1 1   p 1 
X= E(XXt)- EX EXt (generaliza la conocida relación VarX=EX2- E2X).
Transformaciones lineales: Sea Y=AX+C. Entonces Y=X At. En efecto,
 Y= E(Y-Y)(Y-Y)t = E(AX+C--C)( AX+C--C )t =A E(X-)(X-)t At= X At
Matriz de correlaciones RX de un vector aleatorio X:
σ ij
Es la matriz RX de término genérico Corr(Xi, Xj)= ij =
σii σ jj
σ 0 
-1/2 -1/2 -1/2 1 1  11
RX= D X D , siendo D = diag( , ... , ) ; D=   
σ11 σ pp  
0 σ pp 
distmultiv.doc 05/03/2015 vgaribay@eio.uva.es 2

Matriz de Covarianzas para dos vectores aleatorios X e Y:


Cov(X,Y)= ( Cov(Xi, Yj))= E(X-EX)(Y-EY)t
Generaliza la matriz de dispersión, pues X= Cov(X,X)
Transformaciones lineales. Cov(AX+C, BY+D)= A Cov(X,Y) Bt

3.- Repaso de Álgebra y Geometría


i) (AB)t=B t A t; det(A)=det(At); det(AB)= detA det B; (AB) -1= B-1 A-1; (At)-1= (A-1)t.
ii) P ortogonal: PPt=PtP=I; Pt=P-1; La transformación x→ Px es en este caso un giro de ejes.
iii) Valores propios i y vectores propios xi de una matriz simétrica semidefinida positiva A:
Axi=i xi; i ≥0 i; rg(A)=nº de autovalores positivos
u1 ... up vectores propios unitarios (uit ui =1) y ortogonales (uit uj=0) asociados a 1 ... p
iv) Diagonalización (Pt P=) y reconstrucción (= P  Pt) de  a partir de los i y los ui:
Si =diag(1,..., p) y P= (u1|...|up), se tiene que P=P
...y como P es ortogonal (PtP=I=PPt), tenemos: Pt P= y = P Pt
Nota: tr(A)=  i λ i Det(A)= λ i i

v) A simétrica es definida positiva (se nota A>0) si: xtAx>0 x,; i >0 i.
A simétrica es semidefinida positiva (se nota A0) si: xtAx0 x,; i ≥0 i.
vi) Si  es una matriz pxp simétrica y 0, existe una matriz B pxp tal que  = B Bt.
En efecto, B= P1/2 verifica la condición: B Bt= P1/2 1/2 Pt= P Pt=  

vii) A idempotente (AA=A) y simétrica (At=A).


Sus autovalores serán 1 ó 0 (pues x=Ax=AAx=x=x  =1 ó 0)
rg(A)= traza(A). En efecto, rg(A)=nº  's positivos =traza(), pues los  's son 0's y 1´s,
pero traza()=traza(Pt P)=traza(PPt )=traza(A) ; recuerda que traza(AB)=traza(BA)

viii) Subespacio vectorial generado por las columnas de A (todas sus c.l. posibles):
ImA= [A]={Ax; xRp} (pues para cada x, Ax es una c.l. de las columnas de A)
ix) Proyección ortogonal del punto x sobre conjunto S, en particular, el subespacio [A]: proy[A]x

Es el punto de [A] más próximo a x.


Su forma es P[A]x, siendo P[A]=A(AtA)-1At la matriz de proyección sobre [A].
P[A] es idempotente y simétrica (de hecho todas las matrices de proyección y sólo ellas lo son)
Todo vector se descompone en dos ortogonales: x= P[A]x + P[A]x
distmultiv.doc 05/03/2015 vgaribay@eio.uva.es 3

4.- Esperanza Condicionada


Sea X un vector aleatorio y sea H una función que transforma X.
E(H(X)/Y=y) es el valor esperado de H(X) utilizando la ley de X condicionada por Y=y.
E(H(X)/Y) es una v.a. función de Y, que toma el valor E(H(X)/Y=y) cuando Y=y.
Propiedades:
i) Si C es constante, E(C/Y)=C Esperanza de constante
ii) E(aX+b/Y)= a E(X/Y)+ b Linealidad
iii) E(E(X/Y))= EX Esperanza iterada
iv) E(X/Y)=C  Cov(X,Y)=0 Si no depende de Y
v) Var(X/Y)= E(X2/Y) - E2(X/Y) Varianza condicionada
vi) Var(X)= Var(E(X/Y)) + E(Var(X/Y))
Regresión Teórica:
i) Se define la función de regresión teórica de Y sobre X como la función H(X) que más se parece
a Y con el criterio LSE, es decir, hace mínimo el error cuadrático medio esperado, E(Y-H(X))2. Esta
función resulta ser H(X)=E(Y/X) siempre.
Si X es un vector aleatorio p-dim, la superficie H(X1, ..., Xn-1) que mejor aproxima la v.a. Xn en
el sentido LSE es pues la esperanza condicionada H(X1, ..., Xn-1)= E(Xn /X1, ..., Xn-1 ).
ii) Se define la función de regresión LINEAL teórica de Y sobre X, como la función LINEAL de
X, H(X), que minimiza E(Y-H(X))2.
Nota: Cuando la curva de regresión teórica E(Xn /X1, ..., Xn-1 ) resulta ser lineal en X1, ..., Xn-1,
directamente ésta será también la regresión lineal.

5.- Distribución Normal


5.1 Normal Univariante X~ N (, 2)
1 x-μ 2
1 - ( )
Densidad: fX(x)= e 2 σ para xR. Media E(X)= Varianza Var(X)=2.
2πσ
i) Transformaciones lineales: aX+b ~ N (a+b, a22)
1 2 
ii) Función característica: X(t)=exp ( i t - t )
2
iii) Reproductividad:
X~ N(X,X2), Y~ N(Y,Y2) independientes  X+Y~ N (XY,X2+Y2)
Recíprocamente: [X, Y independientes, X+Y ~ N]  [X~ N e Y~ N]
En definitiva, para X e Y v.a. independientes: X+Y ~ N  X~ N e Y~ N
… y lo mismo para n variables independientes: X1+ ... +Xn ~ N  X1~ N ... y Xn~ N
iv) Cuadradados:
X ~ N(,)  X2 ~ 21
X1... Xn v.a.i.i.d. N(,)  X12+ ... +Xn2 ~ 2n (n grados de libertad)
X1... Xn v.a.i. N (i,)  X12+ ... +Xn2 ~ 2n() con = 12+ ... +n2 (descentralidad)
distmultiv.doc 05/03/2015 vgaribay@eio.uva.es 4

v) Momentos muestrales en el muestreo de la N1: Si X1... Xn v.a.i.i.d. N1(,2), tenemos que


1 1 n 1
X ~ N (, 2); σ2 =  i=1 (X i -X) 2 , independiente de X ; 2 
n
(X i -X) 2 ~ 2n-1
n n σ i=1

X
vi) Distribución tn : [ X ~ N (,), Y ~ 2n , independientes]  ~ tn (n g.de l.)
Y/n
X/n
vii) Distribución Fn,m : [ X ~ 2n , Y ~ 2m, independientes ]  ~ Fn,m (n,m g.de l.)
Y/m
X/n
viii) Distribución F descentrada: [ X ~ 2n() , Y ~ 2m, independientes ]  ~ Fn,m()
Y/m

5.2 Normal Multivariante Np


X ~ Np (, ); dimensión p, media  , dispersión  .
Definición 1)
El v.a. X= (X1, ..., Xp) tiene distribución Np(, ) si su densidad es de la forma
1  1 
f ( x)  exp    x     -1  x     ; x  R p
t

 2    2 
p

siendo  un vector cualquira de Rp y  cualquier matriz simétrica definida positiva.


para p=1 tenemos la normal univariante ya estudiada.
Definición 2) más general
El v.a. X= (X1, ..., Xp) tiene distribución Normal multivariante (Np) si aRp, at X ~ N1
(es decir, si toda combinación lineal de sus componentes es normal univariante)
Esta segunda definición de Np es más general que la primera e incluye tanto las normales no
singulares ( >0) -con densidad según la Def.1-, como las degeneradas (≥ ), sin densidad.
Propiedades de la Np:
i) Momentos: Si X ~ Np , existen E(X)=  y Cov(X)= 
ii) Regiones de equidensidad de un vector X ~ Np (, ) con  >0
fX(x)=c   x-μ  Σ -1  x-μ  =c*
t

El corte de la densidad fX(x) a una altura c es un elipsoide (elipse si p=2).  determina la forma
del elipsoide y c su tamaño. Está centrado en  . Los autovectores de determinan las direcciones de
los ejes principales del elipsoide y los autovalores, su longitud. Para p=2 podemos visualizar la
función de densidad en forma de campana. Las elipses de equidensidad aparecen al cortar f (x,y) por
planos paralelos a la base. Al crecer c disminuye su tamaño manteniendo la forma (son elipses
homotéticas).
distmultiv.doc 05/03/2015 vgaribay@eio.uva.es 5

1
iii) Función característica: X(t)= exp ( i t' -
t'  t)
2
iv) Toda transformación lineal (de cualquier dimensión!!) de un vector Normal es Normal.
X ~ Np , Y= AX+B  Y ~ Nq ( A+B, A At )
En consecuencia, aR aX ~ Np ( a, a2 ), puesto que aX ≡ AX con A= a Ip
aRp atX ~ N1 ( at, at a), puesto que atX ≡ AX con A= at
v) Las marginales de cualquier dimensión de un vector normal son normales:
Troceamos el vector X ~ Np (, ) en dos subvectores X(1) y X(2) de dimensiones k y p-k
respectivamente. Se parte y de forma congruente:
 X (1)   μ (1)  Σ Σ 
X=   ; μ=   ; Σ=  11 12 
 X (2)   μ (2)   Σ 21 Σ 22 
   
Entonces, X(1)= B1X para B1=(Ik | 0) kxp
y aplicando iv), X(1) ~ Nk (B1 B1  B1t ) ≡ Nk ( 11 )
Análogamente, X(2)= B2X para B2=( 0 | Ip-k) (p-k)xp, luego X(2) ~ Nk ( 22 ).
En particular, cada componente Xi de un vector normal es N1, pues Xi =(0 …1…0) X
vi) El recíproco de v) no es cierto:
Desafortunadamente, aunque las componentes de un vector sean normales, no se tiene
garantizado que la distribución conjunta sea normal. Por ejemplo: X~N1(0,1) Y=X si |X|>1 Y=-X si
|X|<1. Y es tb N1(0,1) pero: 0<p(X+Y=0)=(1)- (-1)<1  X+Y no es N1  (X,Y) NO es N2
La normalidad conjunta será rechazada si se detecta falta de normalidad en una componente
(tests de ajuste de Kolmogoroff, Liliefords, 2, Shapiro-Wilks, ...).
Por contra, aunque una por una todas las componentes superen la prueba, la normalidad
multivariante del vector no está garantizada. Por ello resulta necesario desarrollar tests específicos
basados en propiedades multivariantes para contrastar la normalidad conjunta. Los estudiaremos más
adelante.
vii) Bajo normalidad conjunta, independencia e incorrelación coinciden. (f.c.)
Si X(1) y X(2) son dos vectores aleatorios con ley conjunta Normal (X(1), X(2)) ~ Np , entonces
X(1), X(2) independientes  Cov(X(1), X(2))= 0
Nota: NO es suficiente que X(1) y X(2) sean normales por separado. Es necesaria la normalidad
conjunta.
viii) Reproductividad: La suma de Np independientes es Np (f.c.)
X1 , X2 v.a.i. Xi ~ Np (i ,  i)  X1+ X2 ~ N p (μ1 +μ 2 ,Σ1 +Σ 2 )
Sean X1 ... Xn v.a.i. Xi ~ Np (i ,  i) y sean a1 ... an constantes reales.
n n n
entonces Y=  a i X i ~ N p ( a iμ i , a i2 Σ i )
i=1 i=1 i=1
Si además, las Xi son igualmente distribuidas,
n
entonces Y=  a i Xi ~ N p ((a1 +...+a n )μ, (a 12 +...+a 2n )Σ)
i=1

1
En particular, la media muestral X n de una m.a.s. Np (, ) es Np (, )
n
distmultiv.doc 05/03/2015 vgaribay@eio.uva.es 6

ix) Recíprocamente, la suma de vectores independientes es Np sólo si cada sumando es Np


x) Condicionadas:
X
Si   ~ N2 , las funciones de regresión de Y sobre X y de X sobre Y son rectas.
Y
La versión multivariante también se verifica (seguimos la notación de v para x,  y ):
 X (1) 
Para X=  ~ Np (, ) las leyes condicionales son éstas:
 X (2) 
 
X(2)/ X(1)= x1 ~ Np-k ((2) + 21 11-1 (x1 - (1)), 22 - 2111-112)
X(1)/ X(2)= x2 ~ Nk ((1) + 1222-1 (x2 - (2)), 11 - 1222-121)
Así, la esperanza condicionada (2) + 21 11-1 (x1 - (1)) resulta lineal en x1, luego es también la
regresión lineal de X(2) sobre X(1).
La matriz de dispersión de la ley condicional, 22 - 2111-112, sorprendentemente, no depende
del valor x1 observado. Se nota como 22.1 y es la matriz de covarianzas de X(2) tras eliminar el
efecto de X(1).
Las correlaciones calculadas a partir de esta matriz de covarianzas 22.1 se denominan
correlaciones parciales de X(2) conocido X(1).

xi) Teorema de representación


La distribución Np(, ) se obtiene transformando linealmente p Normales(0,1) independientes.
En efecto: Diagonalizamos : Pt P=  ; = P Pt ; tomamos B=P 1/2, de forma que B Bt =.
Sean ahora X1 ... Xn v.a.i.i.d. N1 (,); el vector X= (X1 , ... , Xn)t será Np (0,In), puesto que toda
c.l. de sus componentes será N1 (por la reproductividad de la N1); entonces, Y=B X+  ~ Np (, )
Nota: Este resultado es muy importante. Permite simular observaciones Np a partir de N1(0,1)
independientes, transformándolas mediante B=P 1/2.
Corolario: Existe la Np (, )  y  de dispersión (una matriz es de dispersión si y sólo si es
simétrica y semidefinida positiva; además, cuando es definida positiva, la distribución admite
densidad)

x) Siempre es posible transformar linealmente un vector para obtener componentes incorreladas


(bajo normalidad conjunta, incorrelación equivale a independencia).
Por ejemplo, si p=2, esta transformación consigue normales centradas e incorreladas:
 cos α sen α  2 σ12
Y=A(X-) con A=   siendo tg2α= ;
 -sen α cos α  σ11 - σ 22
la transformación A es ortogonal (giro de ejes de magnitud  en el plano)
Ya en general, se obtiene el mismo resultado transformando por la matriz de paso
P=[u1|...|up]. Las columnas ui son vectores propio unitarios ortogonales de . En efecto, el vector
Y=Pt X resulta de componentes independientes, pues Pt P= = diag(1, ... ,p) , autovalores de .
La transformación P es ortogonal, así que corresponde a un giro de ejes en Rp, y este giro hace
coincidir los ejes de coordenadas con los ejes principales del elipsoide de equidensidad.
Premultiplicando Y por -1/2 =diag(1-1/2, ... , p-1/2) se obtienen componentes incorreladas y de
varianza 1: Si Z= -1/2 Y= -1/2 Pt X, entonces Z = -1/2 Pt P -1/2 -1/2  -1/2 =I
distmultiv.doc 05/03/2015 vgaribay@eio.uva.es 7

5.3 Teorema Central del Límite Multivariante


5.3.1 Resultados previos
i) La distribución de un vector aleatorio queda determinada por la distribución de todas las
combinaciones lineales de sus componentes, puesto que X(t)= E (ei t' X )= t' X (1)
ii) Convergencia en Ley de vectores aleatorios
Diremos que la sucesión de vectores aleatorios p-dimensionales X1 ... Xn ... converge en ley al
vector aleatorio Y (o a la distribución FY) si las funciones de distribución FXn convergen a FY.
X n n=1 

Definición: L
Y si lim FXn (x)  FY (x) x de continuidad de FY
n 

α X 

X n n=1 

iii) Teorema de Cramer y Wold: L
Y  Rp , t
n n=1 
L
 αt Y
La convergencia en ley de vectores aleatorios p-dimensionales equivale a la convergencia en
ley en R de todas las posibles combinaciones lineales (v.a. unidimensionales). Esto permite trabajar
con convergencias de funciones de distribución en R (más manejables) en lugar de trabajar en Rp.
Esta idea se aplica con frecuencia en análisis multivariante y ayuda a resolver muchos
problemas: Consiste en hacer que un problema multivariante sea equivalente a una colección de
problemas univariantes que sabemos resolver.

5.3.2 TCL para vectores aleatorios i.i.d.


Univariante: X1, X2, ... Xn ... v.a.i.i.d. 1(2)  n (X n - μ ) / σ 
L
 N1 (0,1) [1]
Multivariante: Sea X1, X2, ... Xn ... una sucesión de vectores aleatorios p-dimensionales
independientes igualmente distribuidos, de media  y dispersión .
1 n
La sucesión de medias muestrales X n =  X i verifica: n (X n - μ )   N p (0, )
L

n i=1
En efecto,
1
Rp , t X1 ... t Xn ... son v.a.i.i.d. 1(t t ); luego t X n ~ 1(t  t )
n
t t
α Xn - α μ
y aplicando [1] a la sucesión t X n se tiene que L
 N(0,1),
t
αΣα/n
o sea, n (α t X n - α t μ) 
L
 N(0, α t Σ α) es decir, α t n (X n - μ) L
 N(0, α t Σ α)
y por el Th. de Cramer-Wald se tiene el resultado: n (X n - μ ) 
L
 N p (0, ) 

5.3.3 Delta-Método
Si n (X n - μ ) 
L
 N p (0, ) y g: Rp → Rp es diferenciable,

  δ(g(t))   δ(g(t))  
t

Entonces, n  g(X n ) - g(μ)  


L
 N p 0,      
  δ(t)  t=μ  δ(t)  t=μ 

Permite calcular de forma simple la ley asintótica de transformaciones de la media muestral.


distmultiv.doc 05/03/2015 vgaribay@eio.uva.es 8

5.4 Distribución de formas cuadráticas en un vector normal


i) x = (x1,…, xp )t ~ Np (, Ip) ≡ x1 … xp v.a.i.i.d. N1(0,1)

p
 xt x = i=1
x i2 ~ 2p

i*) x = (x1,…, xp )t ~ Np (,2Ip) ≡ x1 … xp v.a.i.i.d. N1(0, 2)


 xt x / 2 ~ 2 p
ii) x = (x1,…, xp )t ~ Np (, Ip) ≡ x1 … xp v.a.i.i.d. N(,1)
 xt x ~ 2p (t )
ii*) x ~ Np (, 2Ip)  xt x / 2 ~ 2p (t )
iii) x ~ Np (, ) con  > 0  (x- t  (x-  ~ 2p
 xt  x ~ 2p (t )
vi) x ~ Np (, ) con  > 0; A y B matrices de constantes. Entonces:
xt x ~ 2rg(A) (tA)  A es idempotente
xt x independiente de x  BA= 0
xt x independiente de xt x  AB= 0
vii) T. Cochran: x ~ Np (, ) con  > 0;
Ai simetrica de rango ki (i=1…p) ; A=A1+…+Ap, de rango k .
k= k1+…+kp ^ A es idempotente  las f.c. xtAix son 2ki (t Ai) independientes

Ejemplo: Desviaciones a la media (xi- x )


x1 … xn v.a.i.i.d. N(,2)  x= (x1,…, xn )t ~ Nn (,In)x ~ Nn (,2In)
1 1
x n=  i=1 x i = 1t x;
n
media
n n
1
desviación i-ésima xi - x n = xi - 1t x ;
n
1
vector de desviaciones e = x- 1 x = x- 1 1t x = x- P1 x= (I- P1) x =P1┴ x
n
2
 i=1 (x i - x n ) = ║ e ║2 = e t e = xt P1┴ x
n
suma cuadrados
Sumas de cuadrados en el modelo lineal
valores observados y = X+u ~ Nn (X, 2 Ip)
^
valores estimados ŷ = Xβ =X(XtX)-1Xt y = PX y~ Nn (X, 2 PX)
residuos e= y - ŷ = PX┴ y
media y = P1 y
observaciones centradas y - y = P1┴ y
SST suma de cuadrados total ║y ║2 = yt y
SSm efecto de media general ║1 y ║2 = n y 2= yt P1 y
SSTm s.c. total corregida ║ y -1 y ║2 = yt (I-P1)y =yt P1┴ y
SSE s.c. residual ║ y - ŷ ║2 = et e= yt PX┴ y
SSR s.c. explicada modelo ║ ŷ ║2 = yt PX y
SSRm s.c. explicada regresores ║ ŷ -1 y ║2 = ║ PX y - P1 y ║2 =(y- y )t P1┴ (y- y )
distmultiv.doc 05/03/2015 vgaribay@eio.uva.es 9

6.- Distribución de Wishart Wp(n , )


En el muestro de la N1 la distribución 2 aparece como suma de cuadrados de N1(0,1)
 x1  n
 
independientes: 2
x1, x2, ... xn v.a.i.i.d. N1(0,  ); x=   ; xt x =  x i2 ~ 2 2n
x  i=1
 n
Análogamente, la distribución de Wishart aparece en el muestreo de la Np:
 x i1   x1t 
   
x1, x2, ... xn v.a.i.i.d. Np(0, ); individuo i xi =    ; matriz de datos X =   
 x ip   t 
   xn 
n
C = Xt X =* x x
i=1
i
t
i = (cij) ~ Wp (n ,  ) (nota: x i x it generaliza xi2 )

La ley conjunta de todos los elementos de C se denomina distribución de Wishart basada en n


Normales p-dimensionales de dispersión .
Se nota como Wp (n ,  ); p es la "dimensión" y n, los "grados de libertad", como en la 2.
La distribución de Wishart es el análogo multivariante de la 2n: En el muestreo de la N1 se
introduce la  2como la ley de la varianza muestral. En el muestro de la Np se introduce la Wp(k,)
como la ley de la matriz de covarianzas muestrales, S.
La función de densidad de la Wishart es una expresión matemática compleja y de poco interés .
Propiedades
i) Generaliza la 2:
W1 ( k , 2 ) ≡ 2 2k
ii) Reproductividad:
C1 ~ Wp ( k1 ,  ) , C2 ~ Wp ( k2 ,  ), C1, C2 indeps.  C1 + C2~ Wp ( k1 + k2,  )
iii) Transformaciones:
C ~ Wp ( k ,  ) , B cualquier matriz qxp de constantes  B C Bt ~ Wq ( k , B t )
En particular, para B= bt= (b1 ... bp) se tiene que
bt C b ~ W1 ( k , bt b ) ≡ 2b 2k, siendo 2b = bt b
Nota: así, las f.c. (formas cuadráticas) en matrices Wishart son 2.
anteriormente veíamos la condición para que una f.c. x'Ax en un vector x~Np fuera 2.
Los elementos diagonales de C~W son 2, pues tomando bt=(0...1...0), cii= bt C b ~ ii 2k
1 1+ rij  1 1+ij 1 c σ ij
iv) C ~ Wp ( k ,  )  ln ~ N( ln , ), siendo rij = ij y ij =
2 1- rij 2 1- ij k-2 cii c jj σ ii σ jj
k- 1
v) C ~ Wp ( k ,  ), ij = 0  rij ~ tk-1 (ley asint. y exacta del coef. de correlación muestral)
1- rij2
Formas cuadráticas generalizadas XtAX. x1, x2, ... xn m.a.s. Np(0, ):
XtAX~ Wp (r ,  )  A es i.p. de rango r ; independiente de XtBX~ Wp (s ,  )  AB=0
independiente de Xtb  Ab =0
Consecuencia: para x1, x2, ... xn m.a.s.. Np(, ) se obtiene que Q= (n-1) S ~ Wp (n-1 ,  )
independiente de X n
distmultiv.doc 05/03/2015 vgaribay@eio.uva.es 10

7.- Distribuciones esféricas y elípticas


http://fedc.wiwi.hu-berlin.de/xplore/tutorials/mvahtmlnode42.html
http://artax.karlin.mff.cuni.cz/~branm1am/download/Elliptical%20Distributions24.ppsx
Definición de distribución esférica
Se dice que un vector aleatorio X p-dimensional es esférico (o simétricamente esférico) cuando
su distribución no cambia bajo rotaciones del sistema de coordenadas., es decir, si la distribución de
BX es la misma que la de X para toda matriz ortogonal B.
Una definición equivalente cuando X admite función de densidad fX :
n
fX(x) depende de x sólo a través de x
i=1
2
i = xt x

las curvas de equidensidad de un v.a. esférico, son esferas de Rp centradas en O.


Ejemplos de distribuciones esféricas:
1  1 
i) f X (x)= exp  - 2 x t x  para x  R p , o sea X ~ Np( 0, 2 Ip)
 2π   σ 2   2σ 
p p

2
ii) fX(x1, x2)= [1- (x12+ x22)] para x12+ x22 < 1 en R2

iii) fX(x)= C para xt x < 1 , o sea X ~U(E1) siendo E1 la esfera unidad de Rp
1
iv) fX(x1, x2)= exp[- (x12+ x22)1/2] en todo R2
2
1
v) Distribución de Cauchy bidimensional: fX(x)= exp[1+ (xt x)-3/2] en todo R2
2
vi) Normal contaminada:
Sea Z una v.a. discreta que toma dos valores z1 y z2 con probabilidades p1 y p2 respectivamente.
Sea X un vector aleatorio k-dimensional cuyas leyes condicionadas por Z=zi son N(0, i2 Ik).
Entonces fX(x)= p1 fX/Z=z1(x)+ p2 fX/Z=z2(x); se dice que X sigue distribución Normal contaminada.
Propiedades
i) Si X tiene distribución esférica bidimensional y p(X=0)=0, entonces T=X1/X2 ~ Cauchy
ii) Si X tiene distribución esférica p-dimensional y p(X=0)=0, entonces
Z1
T= ~ tp-1
Z2 +...+Z2p
2

p-1
Definición de distribución elíptica
Sea Z un vector aleatorio p-dimensional con distribución esférica, mRp y AMpxp constantes.
El vector transformado X=AZ+m se dice que tiene distribución elíptica
Propiedades
i) EX= m; Cov(X)= cAAt .
ii) fX(x)= fZ(A-1(x-m)) |det(A-1)|, aplicando teorema del Jacobiano de cambio de variable.
iii) Las curvas de equidensidad sos elipsoides centrados en m: {x / (x-m)t M-1(x-m)= cte}
Ejemplos de distribuciones elípticas:
i) Np (, )
ii) fX(x)= p det(V)-1/2 en (x-m)t V-1 (x-m) < 1;
por ejemplo, X= m+AZ, con Z uniforme en la esfera unidad y V=AAt.
distmultiv.doc 05/03/2015 vgaribay@eio.uva.es 11

8.- Distribución T2 de Hotelling


Es una distribución univariante. La distribución T2 de Hotelling es en realidad una F multiplicada
por una constante. Aparece en el muestreo de la Np y permite construir contrastes sobre la media
desconociendo . Juega un papel paralelo al de la distribución t en el muestreo de la N1, que permite
construir intervalos de confianza y contrastes sobre  en ambiente de 2 desconocida.
Definición de distribución T2
k- p+1 kp
Se dice que X ~ T2p, k cuando X ~ Fp, k-p+1 T2p, k ≡ Fp, k-p+1
kp k- p+1

Análogamente, se define la T2 descentrada a partir de la F descentrada:


k- p+1 kp
X ~ T2p, k () cuando X ~ Fp, k-p+1(); T2p, k () ≡ Fp, k-p+1()
kp k- p+1
Resultado importante
W ~ Wp(k, ) , x ~ Np (, ), independientes 
i) versión centrada
k (x- )t W-1 (x- ) ~ T2p, k

ii) versión general k xt W-1 x ~ T2p, k () con  = t

Simbólicamente: k Np (, )t [Wp(k, )]-1 Np (, ) ≡ T2p, k (... que no depende de  !!!) [1]

N(0,1)
es la versión multivariante de la ya conocida relación: tk ≡ con N y 2 independientes,
2
χ /k k

cuyos cuadrados dan una versión equivalente, con aspecto similar a la multivariante [1]:
k N(0,1) ( χ 2k )-1 N(0,1) ≡ F1, k
Aplicaremos más adelante este importante resultado a la media muestral (~Np) y la matriz de
covarianzas empíricas (~Wp) en el muestreo de la Np.
Con éste, completamos tres resultados importantes sobre distribución de formas cuadráticas:
1) xt  x ~ 2rg(A) (A)  A es idempotente
2) bt W b ~ W1 ( k , bt b ) ≡ 2b 2k, siendo 2b = bt b
kp
3) k xt W-1 x ~ T2p, k()≡ Fp, k-p+1() con  = t
k- p+1

9.- Distribución Beta Multivariante


9.1 Beta univariante
H H T
Sean H ~ 2 2mH ^ E ~ 2 2mE independientes; sean T= y V=  .
E E+H 1+T
Se dice que:
mH m
V tiene una distribución Beta invertida de tipo I con y E g. de l. : V ~ β mH mE
2 2 2
,
2
m m mE
T tiene una distribución Beta invertida de tipo II con H y E g.de l.; T ~ FmH ,mE
2 2 mH
distmultiv.doc 05/03/2015 vgaribay@eio.uva.es 12

Las funciones de densidad de T y V son:


mH
-1
1 t 2
Γ(a) Γ(b)
f T (t)= ; 0  t   donde β (a,b) =
mH mE m E +m H
Γ(a+b)
β( , ) (1+t) 2
2 2
mH mE
1 -1 -1
f V (v)= v 2 (1-v) 2 ; 0  v  1
m m
β( H , E )
2 2
9.2 Beta multivariante
Sean ahora H ~ Wp (mH, ) y E ~ Wp (mE, ) independientes;
La generalización multivariante natural de 9.1 llevaría a definir las matrices aleatorias
T= H E-1 y V= H (E+H) -1
estudiando la distribución de sus autovalores , determinante y traza (producto y suma de los ).
En su lugar se utilizan estas otras dos matrices T y V :
T= E-1/2 H E-1/2 (Beta II o invertida multivariante)
-1/2 -1/2
V= (E+H) H (E+H) (Beta I multivariante)
que tienen los mismos autovalores [pues ABu= u  BA(Bu)= (Bu)]
y por tanto los mismos determinantes (i) y trazas (i)
pero presentan la ventaja de ser siempre simétricas y por tanto diagonalizables,
Los resultados más interesantes sobre distribuciones de estas matrices, sus valores propios
(máximo, mínimo, determinante, traza...) son éstos:
|E|
1)  de Wilks ó U-distribución: U= | I- V | = ~ Up, mH, mE
|E+H|
Aparece en el TRV para los contrastes de linealidad en el Modelo Lineal Multivariante.
Se conocen aproximaciones asintóticas F y 2.
2) Traza de Pillay: V(s)= traza (V) = tr [ H(E+H) -1], con s= min(p, mH)
Se conoce su distribución exacta, aproximaciones y ley asintótica 2p.mH.
3) Traza de Lawley-Hotelling: T2g = mE traza( T ) = mE tr [ HE -1]
Su distribución asintótica es 2p.mH.
4) Mayor raíz de Roy: maxi ( i ) , siendo  p los autovalores de HE-1 .

En la práctica, estos cuatro estadísticos suelen transformarse en estadísticos F y se utilizan para


contrastar una misma hipótesis multivariante, por ejemplo, hipótesisis de no efecto en modelos
lineales de respuesta multivariante. En unos casos, el F estadístico es exacto y en otros casos es una
aproximación asintótica.
En muchos problemas los cuatro estadísticos dan lugar al mismo valor F y a los mismos p-
valores, pero no siempre es así.
La mayor raíz de Roy es una cota superior para los cuatro y da una cota inferior para el p-valor;
por eso suele ignorarse cuando es el único significativo de los cuatro.
distmultiv.doc 05/03/2015 vgaribay@eio.uva.es 13

10.- Apéndice: Transformaciones de vectores aleatorios


9.1 Distribuciones discretas (ya visto en Primer Curso)
9.2 Distribuciones continuas (Teorema del Jacobiano, de cambio de variable)

* Transformación T y su inversa S:

x1  S1 (y1 , , y k )   y1  T1 (x1 , , x k )
  transf. inversa transf. directa  
   
 S T 
x k  Sk (y1 , , y k )   k Tk (x1 ,  , x k )
y 

* Det. Jacobiano:  x1  x k  de la transf. de la transf.  y1  y k


J 1   J Nota: J1 = 1 / J
 y1  y k  inversa, S directa, T   x1  x k

* Teorema del Jacobiano:


 f(x) dx
A
=  T(A)
f (S(y)) | J1 | dy
(f:  →  integrable; A k)
k

* Aplicación del Teorema para funciones de densidad:


Aplicando el teorema del jacobiano a la integral de una densidad fX, aparece un resultado general de gran
utilidad práctica. Obtenemos la densidad fY de un vector Y que es función T de otro vector X, a partir de la densidad fX
Enunciado: Sea X un vector aleatorio continuo con densidad fX .
Sea Y= T (X), donde T es un difeomorfismo; sea S su transformación inversa.
Entonces Y es continua y

f Y (y) = f X (S(y)) | J1 |

Demostración: B k
pY (B) =  f (y) dy por ser fY la densidad de Y ;
B Y

p Y (B) = p X (S(B)) , por ser S(B) la contraimagen de B por T,


y pX (S(B)) =  f (x) dx = (aplicando el Th. del Jacobiano) =  f X (S(y)) | J1 | dy ,
S(B) X B
k
B
luego  f (y) dy =
B Y  f (S(y)) | J1 | dy
B X

y por tanto, fY (y) = fX (S(y)) | J1 | c.s. c.q.d.

* Conclusión:
Tenemos un procedimiento para calcular directamente la densidad de una nueva v.a. Y=T(X) a partir de la de X:

f Y (y1  y k ) = f X (x 1 ,  , x k ) J
  1
nueva densidad vieja densidad con las x i S
como función de las y: J1 
x 1 S1 (y1  y k ) y
... módulo del
x k S k (y1  y k ) Jacobiano de la
transf. inversa
distmultiv.doc 05/03/2015 vgaribay@eio.uva.es 14

* Un resultado más general:

Sea X un vector aleatorio continuo k-dimensional con densidad fX .


Sea Y= T(X), donde T:k → k NO es un difeomorfismo porque no es una aplicación 1-1 de SX a SY .

pero… SX se descompone en r regiones A1 … Ar


cada punto imagen y tiene hasta r antecedentes, x1  A1 , …, xr  Ar
y en cada región Ai , T: Ai→ k SÍ es un difeomorfismo, con inversa Si.

Ejemplo:
Sea T(x,y)= ( |x|, |y|)
T no es difeomorfismo, pues no es 1-1:
u > 0, v > 0  T-1 (u,v) = { (u,v), (-u,v), (u,-v), (-u,-v) }
… Pero en cada cuadrante Ci de 2 la aplicación T SÍ que es 1-1 y difeomorfismo.

En C1 T(x,y)= (x,y); transf. inversa: S1(u,v)= (u,v) con jacobiano J11


En C2 T(x,y)= (-x,y); “ : S2(u,v)= (-u,v) “ J12
En C3 T(x,y)= (-x,-y); “ : S3(u,v)= (-u,-v) “ J13
En C4 T(x,y)= (x,-y); “ : S4(u,v)= (u,-v) “ J14

La contraimagen por T de cualquier Borel B será entonces la unión de r conjuntos disjuntos Bi  Si(B):
T-1(B) = B1 + … + Br.

r r

  f
r

 
(1)
Así: pY (B) = pX (B1 + … + Br) = pX (Bi) = i
Y (y) dy = f i Y (y) dy
B B
i 1 i 1 i 1

 i, T:A i  T(A i ) es difeomorfismo, con inversa Si y Jacobiano J1i ;



(1)  p X (Bi ) 

 f (x) dx  (T. Jacobiano)   f X (Si (y)) J1i dy
Bi X B   
 f Yi (y)

Por tanto la densidad de Y es:


r
f Y (y) = i 1
f iY (y) con f iY (y) = fX (Si (y)) | J1i | i=1…r

Nota: A veces todas las f iY (y) coinciden y eso agiliza mucho los cálculos, pues en ese caso:
fY(y) = r f 1 Y (y) = r fX (S1 (y)) | J11 |

También podría gustarte