Está en la página 1de 16

Captulo 5

Distribucion de los estimadores de


maxima verosimilitud del vector media
y la matriz de covarianzas

5.1. Introduccion
Una vez conocidos los estimadores maximo verosmiles de y y, por tanto, los de cualquier funcion de
dichos parametros va el teorema de Zehna, nos planteamos la distribucion en el muestreo de dichos estimadores.
El principal motivo para conocer las distribuciones de los estimadores esta en poder abordar la segunda
parte de la inferencia acerca de la poblacion: el contraste de hipotesis. Estos contrastes pueden ser de muy
diversos tipos:
  
H0 : = 0 H0 : (1) = 0 H0 : C = 0
Sobre el vector media: , ,
H1 : 6= 0 H1 : (1) 6= 0 H1 : C 6= 0
 
H0 : = 0 H0 : = I p
Sobre la matriz de covarianzas: ,
H1 : 6= 0 H1 : 6= Ip
)
 2
H0 : ij = 0 H0 : Ri|1,...q =0
Sobre coeficientes de correlacion: , 2
H1 : ij 6= 0 H1 : Ri|1,...q 6= 0

asociados a los cuales aparecen unos estadsticos de contraste que vienen expresados en terminos de los esti-
madores anteriores.
En este tema seguiremos los siguientes pasos:
Obtencion de la distribucion exacta de
b = X en el caso normal.
Obtencion de la distribucion asintotica de X en una poblacion cualquiera.
Obtencion de la distribucion asintotica de la matriz S en una poblacion cualquiera.
Obtencion de la distribucion exacta de
b = S en el caso normal (ley de Wishart).

Independencia de X y S en el caso normal (Teorema de Fisher).

5.2. Distribucion exacta del estimador maximo verosmil del vector


de medias en el caso de una distribucion normal multivariante
Sea X ; Np [; ] con > 0 y sea X1 , . . . , XN una muestra aleatoria simple extrada de dicha poblacion.
La distribucion de X es una consecuencia inmediata del siguiente resultado:

47
48 Francisco de Ass Torres Ruiz

Lema 5.2.1. Sean X1 , . . . , XN vectores aleatorios p-dimensionales independientes tales que Xj ; Np [j ; j ],


j = 1, . . . , N . Si 1 , . . . , N son escalares, entonces

N
X XN N
X
V= j Xj ; Np j j ; 2
j j
j=1 j=1 j=1

Demostracion. Calculemos la funcion caracterstica de V.



h 0 i N
X XN N
Y
V (t) = E eit V = E exp it0 j Xj = E exp it0 j Xj = 0
E [exp (it j Xj )]
j=1 j=1 j=1

N N   N N
Y Y 1 X 1 X
= Xj (j t) = exp it0 j j j2 t0 t = exp it0 j j t0 j2 j t
j=1 j=1
2 j=1
2 j=1

de donde se obtiene el resultado. 

Teorema 5.2.1. Sea X ; Np [; ] y sea X1 , . . . , XN una muestra aleatoria simple extrada de dicha poblacion.
Entonces se verifica
 
1
X ; Np ; o, equivalentemente, N 2 X ; Np [0; ]

N
N N
1 X X Xj
Demostracion. La demostracion es inmediata ya que X = Xj = , por lo que estamos en condi-
N j=1 j=1
N
1
ciones de aplicar el lema anterior tomando i = , j = y j = , j = 1, . . . , N . 
N

5.3. Distribucion asintotica del vector de medias en el caso de una


distribucion multivariante cualquiera
A continuacion vamos a prescindir de la hipotesis de normalidad considerada en el apartado anterior.
No obstante, ese hecho hace que solo podamos obtener la distribucion aproximada, concretamente asintotica,
para X. En la demostracion del resultado que vamos a obtener va a ser fundamental el uso del Teorema de
Continuidad de Funciones Caractersticas. Por ello pasamos a recordarlo, junto con unas definiciones previas:

Definicion 5.3.1. Sea {Fn } una sucesion de funciones de distribucion. Entonces


d
{Fn } converge debilmente a la funcion de distribucion acotada F , y notaremos Fn F si lm Fn (x) =
n
F (x) para todo punto de continuidad de F .
c
{Fn } converge completamente a la funcion de distribucion acotada F , y notaremos Fn F si lo hace
debilmente y ademas lm Fn () = F ().
n

Teorema 5.3.1. (de continuidad de funciones caractersticas). Sea {Fn } una sucesion de funciones de distri-
bucion y n las correspondientes funciones caractersticas. Entonces
c
Fn F lm n (t) = (t), t R
n

con (t) continua en t = 0. Ademas, (t) es la funcion caracterstica de F .

A continuacion exponemos el resultado que proporciona la distribucion planteada, resultado que no es mas
que un caso concreto del Teorema Central del Lmite para vectores aleatorios independientes e identicamente
distribuidos.

Analisis Multivariante. Licenciado en C.C. y T.T. Estadsticas. 2o curso.


Francisco de Ass Torres Ruiz 49

Teorema 5.3.2. Sea {X }1 una sucesion de vectores aleatorios p-dimensionales independientes e identi-
N
1 X
camente distribuidos con media y matriz de covarianzas . Para cada N 1 fijo sea XN = X , y
N =1
consideremos la sucesion {XN }, N 1. Entonces se verifica
N
1 X d
N (XN ) = (X ) ; Np [0; ]
N =1 N

( N
)
X
21
Demostracion. Consideremos la sucesion de variables YN = N (X ) y la de sus correspon-
=1 N 1
dientes funciones caractersticas {N }N 1 .
La idea de la demostracion es comprobar que la sucesion de funciones caractersticas {N } converge a
la funcion caracterstica de la ley normal Np [0; ] y por tanto, en virtud del teorema de continuidad de
funciones caractersticas, se obtendra el resultado.
La tecnica que vamos a usar sera la de pasar el problema al caso unidimensional.
Sea t Rp y consideremos la sucesion de variables aleatorias unidimensionales {t0 YN }N 1 y la de sus funciones
caractersticas {gN }N 1 . Ahora bien
" N
!#
h i
i(t0 YN ) 12
X
0 0
gN (, t) = E e = E exp iN (t X t ) , R, t Rp
=1

Observemos que las variables t0 X t0 son independientes e identicamente distribuidas con media cero y
varianza t0 t.
Aplicando el Teorema Central del Lmite para el caso unidimensional1 , la sucesion t0 YN converge a una
normal N1 [0; t0 t] y as
 
1
gN (, t) exp 2 t0 t , R, t Rp
N 2

en particular, para = 1,
 
h 0 i 1
gN (1, t) = E eit YN = N (t) exp t0 t ,
N 2

que era lo que se pretenda. 

5.4. Distribucion asintotica del estimador maximo verosmil de la


matriz de covarianzas en una poblacion cualquiera
Sea {X }1 una sucesion de vectores aleatorios p-dimensionales independientes e identicamente dis-
N
1 X
tribuidos con media y matriz de covarianzas . Para N fijo consideremos XN = X y AN =
N =1

N
X
1
Si {XN }N 1 es una sucesion de variables aleatorias i.i.d. con varianza finita, y notamos por SN = Xi , entonces
i=1

SN E[SN ]
p N1 [0, 1]
V ar[SN ] n

Analisis Multivariante. Licenciado en C.C. y T.T. Estadsticas. 2o curso.


50 Francisco de Ass Torres Ruiz

N
X N
X
(X XN )(X XN )0 = (X )(X )0 N (XN )(XN )0 . Nuestro interes radica aho-
=1 =1
ra en saber el comportamiento de la sucesion {AN }N 1 , que es una sucesion de matrices aleatorias. Por lo
tanto se hace indispensable el empleo de la operacion Vec.
Llamemos Z = (X )(X )0 , que adopta la forma

(X,1 1 )2

(X,1 1 )(X,2 2 ) (X,1 1 )(X,p p )
(X,1 1 )(X,2 2 ) (X,2 2 )2 (X,2 2 )(X,p p )
Z = .

. .
. . . ..
. . . .
(X,1 1 )(X,p p ) (X,2 2 )(X,p p ) (X,p p )2 pp

y por tanto
(X,1 1 )2

(X,1 1 )(X,2 2 )
..



.

(X,1 1 )(X,p p )

..
Vec [Z ] =
.



(X,1 1 )(X,p p )

(X,2 2 )(X,p p )

..
.
(X,p p )2 p2 1

verificandose E [Vec [Z ]] = Vec[].


Ademas, si llamamos V = Cov[Vec [Z ]], esa matriz, de dimensiones p2 p2 contiene los momentos de
cuarto orden de las variables X ya que
 0
V = E (Vec [Z ] Vec[]) (Vec [Z ] Vec[])

Notemos que, como en Vec [Z ] hay muchos elementos repetidos, ello conduce a que la matriz V tenga filas
iguales, por lo que no puede ser definida positiva sino semidefinida.
Para terminar con esta descripcion, en lo que sigue supondremos que todos los momentos de orden cuatro
son finitos.
Recordemos ahora algunos resultados previos que se van a utilizar con posterioridad:

Resultado 5.4.1. Dada {X }1 una sucesion de vectores aleatorios independientes e identicamente distri-
buidos con E[X ] = y Cov[X ] = , entonces
N
1 X d
(X ) ; Np [0; ]
N =1 N

Resultado 5.4.2. Si una sucesion de variables aleatorias independientes e identicamente distribuidas {YN }N 1
converge en distribucion a Y y si otra sucesion de variables independientes e identicamente distribuidas
{ZN }N 1 converge en probabilidad a cero, entonces
d
{YN ZN } Y
N

Resultado 5.4.3. Si una sucesion de variables aleatorias independientes e identicamente distribuidas {XN }N 1
converge en distribucion a X y si otra sucesion de variables independientes e identicamente distribuidas
d P
{YN }N 1 converge en probabilidad a c, entonces XN YN Xc si c 6= 0 y XN YN 0 si c = 0
N N

Estamos ya en condiciones de enunciar el resultado que proporciona el comportamiento de la sucesion


{AN }N 1 .

Analisis Multivariante. Licenciado en C.C. y T.T. Estadsticas. 2o curso.


Francisco de Ass Torres Ruiz 51

Teorema 5.4.1. Sean {X }1 vectores aleatorios independientes e identicamente distribuidos con E[X ] =
N
1 X
y Cov[X ] = y con momentos de cuarto orden finitos. Sean, para cada N fijo, XN = X y AN =
N =1
N
X
(X XN )(X XN )0 . Entonces
=1
1 d
N 2 [AN N ] ; Np2 [0; V]
N

en el sentido de que
1 d
N 2 [Vec[AN ] N Vec[]] ; Np2 [0; V]
N
con V = Cov [Vec[(X )(X )0 ]], o sea, la matriz de momentos de cuarto orden de las variables X .
Demostracion. Llamando Z = (X )(X )0 y BN = (XN )(XN )0 , podemos escribir
N
X
AN = Z N BN
=1

N
X
Vectorizando la ultima expresion se tiene Vec[AN ] = Vec[Z ] N Vec[BN ] Sea ahora
=1
" N
#
1 1 X 1
[Vec[AN ] N Vec[]] = [Vec[Z ] Vec[]] N 2 Vec[BN ]
N N =1

Observemos que pretendemos conocer el comportamiento asintotico de {AN }N 1 y lo hemos transformado en


conocer el comportamiento de la expresion anterior. Estudiemos cada sumando por separado:
1. Los vectores Vec[Z ] constituyen una sucesion de vectores aleatorios i.i.d. con media Vec[] y matriz de
covarianzas V. Entonces, por el resultado pimero se tiene
" N #
1 X d
[Vec[Z ] Vec[]] ; Np2 1 [0; V]
N =1 N

ley normal cuya matriz de covarianzas es semidefinida positiva.


2. Antes de ver el segundo sumando, recordemos que se dice que una sucesion de matrices aleatorias converge
en probabilidad a un matriz si las sucesiones de elementos de las matrices convergen a cada elemento del
mismo lugar de la matriz lmite, esto es, la convergencia es en probabilidad componente a componente.
Ahora bien:
1 d
N 2 (XN ) = ; Np [0; ]
N
1
N (XN )
2
P
de donde, aplicando el resultado tercero se tiene 1 0p1 y con ello
N4 N
" 1 1
#
1  1
0
 N 2 (X N ) N 2 (X N )0 P
N Vec[B(N )] = N Vec (XN )(XN ) = Vec
2 2
1 1 0p2 1
N4 N4 N

por lo que, aplicando el resultado segundo, se concluye el teorema. 


Como consecuencia tenemos el siguiente resultado
1 d
Corolario 5.4.1. Si tomamos SN = (N 1)AN , entonces (N 1) 2 (SN N ) Np2 [0; V]
N

Por ultimo, podemos comentar que, en general, el calculo de V es bastante complicado. No obstante la
cuestion se simplifica bastante en el caso de las distribuciones elpticas y, en particular, en el caso de la ley normal
ya que en ese caso se sabe que los momentos de cuarto orden vienen dados por la expresion ik jl + il jk ,
i, j, k, l = 1, . . . , p.

Analisis Multivariante. Licenciado en C.C. y T.T. Estadsticas. 2o curso.


52 Francisco de Ass Torres Ruiz

5.5. Distribucion exacta y caracter definido positivo del estimador


maximo verosmil de la matriz de covarianzas en el caso de una
distribucion normal multivariante.
A continuacion vamos a obtener la distribucion exacta de ,
b mas concretamente, la de la matriz de disper-
siones A = N S pero bajo la hipotesis de normalidad.
El resultado clave que nos proporcionara la distribucion buscada es el Teorema de Fisher. No obstante,
este teorema es importante no solo por dicho resultado sino porque en el encontramos:

La distribucion exacta del vector media muestral en el caso normal.

La distribucion exacta de la matriz de dispersiones (si bien solo en cuanto a como lo hace, sin proporcionar
la densidad).

La independencia entre X y A.

Ademas, conocer la forma en que se distribuye la matriz de dispersiones (aunque no se sepa la densidad de
forma explcita) es fundamental para poder abordar el caracter definido positivo de la misma, hecho que fue
fundamental para obtener la estimacion maximo verosmil de la matriz de covarianzas .
Dicho caracter definido positivo, y las condiciones bajo las cuales se verifica, estan recogidos en el Teorema
de Dykstra. Necesitamos una serie de resultados previos.

Lema 5.5.1. Sean X1 , . . . , XN vectores aleatorios independientes distribuidos segun normales Np [ ; ], =


1, . . . , N . Sea CN N una matriz ortogonal. Entonces

N
X
Y = c X Np [v ; ]
=1

N
X
con v = c , siendo las variables Y independientes.
=1

Demostracion. Por un lado



N
X N
Y
Y (t ) = E [exp (it 0 Y )] = E exp it 0 c X = E exp (it 0 c X )
=1 =1
N N  
Y Y
0 1 2 0
= X (c t ) = exp it c c t t
2
=1 =1

N N  
X 1 X 1
= exp it 0 c t 0 t c2 = exp it 0 v t 0 t
2 2
=1 =1

N
X
puesto que al ser C ortogonal se tiene que c2 = 1, = 1, , N . Por lo tanto Y Np [v ; ].
=1
Por otro lado, calculemos la funcion caracterstica de la distribucion conjunta de (Y1 , . . . , YN ). Sea t =

Analisis Multivariante. Licenciado en C.C. y T.T. Estadsticas. 2o curso.


Francisco de Ass Torres Ruiz 53

(t01 , . . . , t0N )0 con t Rp , = 1, . . . , N . Entonces


" !#
XN N
X N
X
Y1 ,...,YN (t) = E exp i t0 Y = E exp i t0 c X
=1 =1 =1
! !
N
X N
X N
Y N
X
= E exp i t0 c X = X t c
=1 =1 =1 =1

N

N N
!0 N
!
Y X 1 X X
= exp i t0 c t c t c
=1
2 =1 =1
=1
! !
N X N N N N
X 1 X X X
= exp i t0 c t0 c t c
2
=1 =1 =1 =1 =1

N N N X N X N
X X 1 X
= exp i t0 c c c t0 t
=1
2
=1 =1 =1 =1

N N X N N
X 1 X X
= exp i t0 v t0 t c c
=1
2 =1 =1 =1
N N N
!
X
0 1 XX 0
= exp i t v t t
=1
2 =1 =1
N N
! N
X
0 1X 0 Y
= exp i t v t t = Y (t )
=1
2 =1 =1

con lo cual Y1 , . . . , YN son independientes. 


N
X N
X N
X
Lema 5.5.2. Si C es ortogonal y si Y = c X , = 1, , N , entonces X X0 = Y Y0
=1 =1 =1

Demostracion
N N

N
"
N
#0 N X
N X
N
X X X X X
0
Y Y = c X c X = c c X X0
=1 =1 =1 =1 =1 =1 =1
N X
X N X
N N X
X N N
X
= c c X X0 = X X0 = X X0
=1 =1 =1 =1 =1 =1

Con estos resultados previos estamos ya en condiciones de demostrar el teorema de Fisher.


Teorema 5.5.1. (de Fisher Multivariante). La media muestral X asociada
  a una muestra aleatoria X1 , . . . , XN

de una Np [; ] se distribuye segun una normal p-dimensional Np ; . Ademas, la matriz de dispersiones
N
NX1
muestrales, A, se distribuye como lo haga Z Z0 , siendo Z variables independientes e identicamente
=1
distribuidas segun una normal de media cero y matriz de varianzas-covarianzas , siendo ambas distribuciones
independientes.
1 1
Demostracion. Sea BN N una matriz ortogonal con la ultima fila ( , . . . , ) (o sea, una rotacion a lo
N N
N
X
largo del eje (1, . . . , 1)0 ) y sea Z = b X , = 1, , N . Con ello:
=1

Analisis Multivariante. Licenciado en C.C. y T.T. Estadsticas. 2o curso.


54 Francisco de Ass Torres Ruiz

N
X 1 1
1. ZN Np [VN ; ] con VN = = N 2 .
=1
N

N
X
2. Para = 1, , N 1, Z Np [V ; ] con V = b = 0 ya que B es ortogonal y la ultima fila
=1
suya es proporcional al vector (1, . . . , 1)0 .

Ademas
N  
X 1 1 1 1
1. ZN = X = N X = N 2 X, por lo que X = N 2 ZN y con ello se verifica X Np ; .
N N N
=1

N N N N 1
X X 0 X X
2. A = (X X)(X X)0 = X X0 N XX = Z Z0 ZN Z0N = Z Z0 .
=1 =1 =1 =1

3. Como las variables Z son independientes (por el lema 5.4.2), X lo ha de ser de A y de esta forma la
N
X 1
matriz de dispersiones muestrales se distribuye como lo haga Z Z0 
=1

Veamos a continuacion el ya citado Teorema de Dykstra (1970) que proporciona una condicion bajo la cual la
matriz de dispersiones muestral A (y por tanto la de covarianzas muestral S) es definida positiva.

Teorema 5.5.2. (de Dykstra). La matriz de dispersiones muestral respecto de la media, A, obtenida a partir de
una muestra de tamano N procedente de una poblacion Np [; ], ( > 0) es definida positiva con probabilidad
uno si y solo s N > p (n = N 1 p)

Demostracion. En primer lugar, recordemos que el teorema de Fisher multivariante nos asegura que A = Z0 Z
donde Z0 = [Z1 , , ZN 1 ]p(N 1) siendo las variables Zi independientes e identicamente distribuidas segun
una normal Np [0; ].
Tengamos en cuenta dos cuestiones importantes:

Puesto que A = Z0 Z es, al menos, semidefinida positiva, es suficiente probar que Z0 Z es no singular con
probabilidad uno s y solo s N > p.

Como rg(Z) = rg(Z0 ) = rg(Z0 Z) bastara con probar que rg(Z0 ) (o rg(Z)) es p con probabilidad uno s y
solo s N > p.

Vayamos con la demostracion en s:

1. Si A es definida positiva entonces N > p. En efecto, si N p entonces N 1 < p y por lo tanto rg(Z0 )
sera como mucho N 1. Con ello rg(A) = rg(Z0 ) < p y A no podra ser definida positiva.

2. Recprocamente bastara con probarlo para N = p + 1 ya que al aumentar el numero de columnas de Z0


no puede decrecer su rango. As, sea < a1 , . . . , ap1 > el espacio generado por p 1 vectores cualesquiera
en Rp . Si > 0, como es el caso que estamos tratando, entonces

P[Zi < a1 , . . . , ai1 , ai+1 , . . . , ap >] = 0

para cualquier conjunto de vectores p-dimensionales ai , lo cual se deduce de la caracterizacion de la ley


d
normal como X = + BU con rg(B) = p ya que X es generado de forma unica por p vectores (las
columnas de B) y no por p 1.

Analisis Multivariante. Licenciado en C.C. y T.T. Estadsticas. 2o curso.


Francisco de Ass Torres Ruiz 55

Con ello, y si F es la distribucion conjunta de Z1 , . . . , Zp , se tiene:


p
X
0
P[rg(Z ) < p] = P[Z1 , . . . , Zp sean L.D.] P[Zi < Z1 , . . . , Zi1 , Zi+1 , . . . , Zp >]
i=1
= p P[Z1 < Z2 , . . . , Zp >] = p E [P [Z1 < Z2 , . . . , Zp >| Z2 , . . . , Zp ]]
Z
=p P [Z1 < z2 , . . . , zp >| Z2 = z2 , . . . , Zp = zp ] dF (Z2 , . . . , Zp )
p(p1)
ZR
=p P [Z1 < z2 , . . . , zp >] dF = 0
Rp(p1)

por lo que P[rg(Z0 ) = p] = 1 

Comentario 5.5.1. En este teorema ha sido fundamental el hecho de la normalidad. No obstante, Eaton y
Perlman (1973) generalizaron este resultado en el siguiente sentido:
La matriz de covarianzas muestral formada a partir de N vectores independientes e identicamente distri-
buidas (no necesariamente normales) con N > p es definida positiva con probabilidad uno s y solo s P[Xi
Fs ] = 0, Fs , 0 s < p, donde Fs = {x} + Fs(o) , o sea, la traslacion de un subespacio s-dimensional, cuestion
que la normal con definida positiva asegura.

5.6. Complementos
5.6.1. Operacion Vec y producto Kronecker de matrices
Operacion Vec
El tratamiento sobre matrices aleatorias debe ser visto como una extension del que se realiza para vectores. Por
ello lo habitual es vectorizar dicha matriz, o sea, tratarla como un vector sin mas que tener en cuenta que los
espacios Mnq (espacio vectorial de las matrices de dimension n q) y Rnq son isomorfos. Evidentemente esta
es una solucion comoda que sera util si somos capaces de conocer bien los mecanismos que ligan las expresiones
matriciales y vectorizadas.

Definicion 5.6.1. Sea Xnq . Se define Vec(X) como el vector de dimension nq 1 formado al apilar las
columnas de X una tras otra, o sea, si notamos por columnas X = [x1 , x2 . . . , xq ],

x1
x2
Vec(X) = .

..
.
xq

Teorema 5.6.1. Vec : Mnq Rnq es un isomorfismo de espacios vectoriales.

Demostracion. Sean a, b R y X, Y Mnq . Entonces Vec(aX + bY) = a Vec(X) + b Vec(Y), por lo que la
aplicacion es lineal.
Llamemos {ei : i = 1, . . . , nq} y {Jij : i = 1, . . . , n; j = 1, . . . , q} a las bases canonicas respectivas de Rnq y
Mnq .
La aplicacion Vec aplica la base de Mnq en la de Rnq en la forma Vec(Jij ) = e(j1)n+i . En cuanto a su
inversa, dado zh Rnq se verifica

h = kn con k N. En este caso Vec1 (eh ) = Jn,k .

h = kn + r con 0 < r < n. En tal caso Vec1 (eh ) = Jr,k+1 

Veamos un ejemplo de aplicacion:

Analisis Multivariante. Licenciado en C.C. y T.T. Estadsticas. 2o curso.


56 Francisco de Ass Torres Ruiz

Ejemplo 5.6.1. Sean X1 , . . . , XN vectores aleatorios p-dimensionales con igual media . Consideremos la
0
matriz aleatoria XN p = [X1 , . . . , XN ] y sea el vector

X1
X2
Vec(X0 ) = . .

..
XN

Entonces, si notamos 1N al vector N dimensional cuyas componentes son todas iguales a uno, se verifica



0 0
E [Vec(X )] = .. = Vec ([, , . . . , ]) = Vec(1N ) .

.

Comentario 5.6.1. En ocasiones estaremos interesados en calcular la esperanza matematica de una cierta
matriz aleatoria. Sin embargo habra situaciones en las que dicho calculo sera mas facil realizarlo si calculamos
la esperanza de su vectorizacion y despues, en virtud del isomorfismo anterior, deshacemos dicho proceso.

Producto Kronecker de matrices

Ejemplo 5.6.2. Continuando con el ejemplo 1, supongamos que X1 , . . . , XN son independientes y con igual
matriz de covarianzas . Entonces,
h i
0
Cov [Vec(X0 )] = E [Vec(X0 ) E [Vec(X0 )]] [Vec(X0 ) E [Vec(X0 )]]

X1 0 0
X2 0 0
0 0 
= E (X ) , . . . , (X ) = .

.. 1 N .. .. ..
. . . . 0
XN 0 0

Este ejemplo motiva la definicion de producto kronecker de matrices.

Definicion 5.6.2. Sean Amn y Bpq dos matrices. Se define el producto Kronecker de ellas como la matriz,
de dimensiones mp nq,

a11 B a12 B . . . a1n B
a21 B a22 B . . . a2n B 
i = 1, . . . , m
AB= = (aij B)ij ;

.. .. .. .. j = 1, . . . , n
. . . .
am1 B am2 B . . . amn B

A la vista de la definicion, es inmediato que en el ejemplo 2 se tiene Cov [Vec(X0 )] = IN .

Comentario 5.6.2. Evidentemente el ejemplo anterior no es suficiente justificacion para la introduccion de


esta operacion ya que se puede comentar que no deja de ser una forma de abreviar la notacion. Otra, de las
multiples razones que se pueden argumentar, es la siguiente.
Sea el producto A B, con Ann y B33 y sea el sistema de ecuaciones x = (A B)y. Si A B
es no singular, para resolver dicho sistema habra que invertir una matriz 3n 3n. Sin embargo, se verifica
(A B)1 = A1 B1 , por lo que sera suficiente con invertir dos matrices de orden inferior, con el
consiguiente ahorro de calculo y, seguramente, con una ganancia en lo que se refiere a la precision de la
solucion.

Propiedades del producto Kronecker

1. Dados , R, Amn y Bpq , (A) (B) = (A B) = A B = A ()B .


2. Dadas Amn , Bmn , Cpq y Dpq , entonces

Analisis Multivariante. Licenciado en C.C. y T.T. Estadsticas. 2o curso.


Francisco de Ass Torres Ruiz 57

a) (A C) + (B C) = (A + B) C, (A C) + (A D) = A (C + D).
b) (A + B) (C + D) = (A C) + (A D) + (B C) + (B D).
3. Dadas Amn , Bpq , Crs , (A B) C = A (B C).
4. Dadas Amn , Bnp , Cqr y Drs , (A C)(B D) = AB CD.
5. Si Amm y Bnn son no singulares, (A B)1 = A1 B1 .
6. Dadas Amn y Bpq , (A B)0 = A0 B0 .
7. Si Amm y Bnn son ortogonales, A B es ortogonal.
8. Si Amm y Bnn son matrices triangulares superiores (inferiores), entonces A B es triangular superior
(inferior).
9. Si Amm y Bnn son definidas positivas, entonces A B es definida positiva.
10. Dadas Amn = [A1 , . . . , Ak ] y Bpq , entonces A B = [A1 B, . . . , Ak B]. En particular, si am1
y bp1 son dos vectores se tiene a b0 = ab0 = b0 a.
11. Dadas Amm y Bnn , entonces tr[A B] = tr[A] tr[B].
   
A11 A12 A11 B A12 B
12. Dadas Amn = y Bpq , entonces A B = .
A21 A22 A21 B A22 B
13. Sean Amm y Bnn matrices reales con autovalores reales respectivos 1 , . . . , m y 1 , . . . , n . Entonces
A B tiene como autovalores i j , i = 1, . . . , m; j = 1, . . . , n. Como consecuencia rg(A B) =
rg(A) rg(B) y | A B |=| A |n | B |m .
Como extension del producto Kronecker tenemos
Definicion 5.6.3. (Doble producto Kronecker, Rao y Mitra (1971)). Sean Amn y Bpq dos matrices parti-
cionadas en vr y gk submatrices, Aij de dimensiones mi nj y Bst de dimensiones ps qt , respectivamente.
Se define el doble producto Kronecker como la matriz mp nq

(A B)11 . . . (A B)1k
A B=
.. .. ..
. . .
(A B)g1 ... (A B)gk
donde (A B)s,t viene dada por la matriz de orden mps nqt

A11 Bst ... A1r Bst
(A B)s,t = [Aij Bst ] = .. .. ..
.

. . .
Av1 Bst ... Avr Bst
Algunas propiedades son las siguientes:
1. (A B)0 = A0 B0 .
2. A (B C) = (A B) C.
3. A (B + C) = A B + A C.
4. (A B)(C D) = AC BD.
Relaciones entre las operaciones Vec y el producto Kronecker
Sabemos que dados X1 , . . . , XN vectores aleatorios p-dimensionales con igual media y dada la matriz
0
aleatoria XN p = [x1 , . . . , xN ] , entonces
0 0
E [Vec(X )] = Vec ([, , . . . , ]) = Vec(1N )
y, a la vista de la definicion de producto Kronecker, es inmediato comprobar que esa expresion no es mas que
1N , lo cual es una primera (y evidente) muestra de que ambas operaciones pueden conducir a resultados
relacionados entre ellas.
A continuacion vamos a exponer algunas propiedades que ponen en relacion las dos operaciones introduci-
das.

Analisis Multivariante. Licenciado en C.C. y T.T. Estadsticas. 2o curso.


58 Francisco de Ass Torres Ruiz

Teorema 5.6.2. Se verifican las siguientes afirmaciones:


1. Si an1 y bq1 son dos vectores, entonces Vec(ab0 ) = b a.
n
X
2. Sea {ei : i = 1, . . . , n} la base canonica de Rn . Entonces Vec(In ) = (ei ei ).
i=1

3. Sea {Jij : i = 1, . . . , n; j = 1, . . . , q} la base canonica del espacio Mnq . Entonces


q
n X
X
(Jij Jij ) = Vec(In ) Vec0 (Iq ) .
i=1 j=1

4. Sean Anq , Bqp y Cpr . Entonces Vec(ABC) = (C0 A) Vec(B).


5. Dadas Anq y Bqn , entonces tr[AB] = Vec0 (A0 ) Vec(B) = Vec0 (B0 ) Vec(A) .

Demostracion
1. Sea {Jij : i = 1, . . . , n; j = 1, . . . , q} la base canonica de Mnq y {ek : k = 1, . . . , nq} la de Rnq . Por un
lado tenemos
Xn X q
b a = (bj a)j = bj ai e(j1)n+i
i=1 j=1

y por otro lado


a1
..
. n X q
X
ab0 =

a i
(b1 , . . . , bj , . . . , bq ) =
ai bj Jij
. i=1 j=1
..
an
por lo que
X q
n X q
n X
X
Vec(ab0 ) = ai bj Vec(Jij ) = ai bj e(j1)n+i = b a .
i=1 j=1 i=1 j=1

2. Es inmediato ya que
n
X n
X n
X
Vec(In ) = Vec(Jii ) = Vec(ei e0i ) = (ei ei ) .
i=1 i=1 i=1

3. Sean ei , i = 1, . . . , n y vj , j = 1, . . . , q los vectores basicos de Rn y Rq respectivamente. Entonces

Jij Jij = ei vj0 ei vj0 = (ei ei )(vj vj )0 ,

de donde se concluye sin mas que sumar en i y en j y aplicar el apartado anterior. Con ello

X q
n X n
X q
X
(Jij Jij ) = (ei ei ) (vj vj )0 = Vec(In ) Vec0 (Iq ) .
i=1 j=1 i=1 j=1

4. Consideremos la siguientes bases: {Jij : i = 1, . . . , n; j = 1, . . . , q} la base canonica del espacio de matrices


Mnq , {Kst : s = 1, . . . , q; t = 1, . . . , p} la de Mqp y {Luv : u = 1, . . . , p; v = 1, . . . , r} la de Mpr . Por
otro lado sean {es : s = 1, . . . , q} y {nt : t = 1, . . . , p} las bases canonicas de Rn y Rp respectivamente.
Con esta notacion se tiene
X q
n X p
n X
X p X
X r
A= aij Jij , bst Kst , cuv Luv
i=1 j=1 s=1 t=1 u=1 v=1

Analisis Multivariante. Licenciado en C.C. y T.T. Estadsticas. 2o curso.


Francisco de Ass Torres Ruiz 59

y con ello, como Kst = es n0t , entonces


q X
n X
X p X
n X p X
r
ABC = aij bst cuv Jij es n0t Luv
i=1 j=1 s=1 t=1 u=1 v=1
0
por lo que, aplicando que Vec(ab ) = b a (resultado 1),
q X
n X
X p X
n X p X
r
Vec(ABC) = aij bst cuv Vec(Jij es n0t Luv )
i=1 j=1 s=1 t=1 u=1 v=1
q X
n X
X p X
n X p X
r
= aij bst cuv (L0uv nt Jij es )
i=1 j=1 s=1 t=1 u=1 v=1
q X
n X
X p X
n X p X
r
= aij bst cuv (L0uv Jij )(nt es )
i=1 j=1 s=1 t=1 u=1 v=1
Xn X q X n X p X p X r
= aij bst cuv (L0uv Jij ) Vec(es n0t )
i=1 j=1 s=1 t=1 u=1 v=1
Xn X q X n X p X p X r
= aij bst cuv (L0uv Jij ) Vec(Kst )
i=1 j=1 s=1 t=1 u=1 v=1
m X
X p X
n X q p
n X
X
= (cuv L0uv aij Jij ) Vec(bst Kst )
i=1 j=1 u=1 v=1 s=1 t=1

= (C0 A) Vec(B) .

5. Sea C = AB. Notemos por a0i y bi a las i-esima fila e i-esima columna de A y B respectivamente.
Entonces cii = a0i bi . Con ello se tiene
n
X n
X
tr[AB] = cii = a0i bi .
i=1 i=1

Por otro lado


a01

..
.
0
0
ai A = [a1 , . . . , ai , . . . , an ]
A=
.
..
a0n
de donde Vec0 (A0 ) = (a01 , . . . , a0i , . . . , a0n ).
Notando B = [b1 , . . . , bi , . . . , bn ], entonces se tiene
n
X
Vec0 (A0 ) Vec(B) = a0i bi = tr[AB] .
i=1

Finalmente, como tr[AB] = tr[BA] se tiene la otra igualdad. 


Para finalizar, veamos un ejemplo que muestra las posibilidades de este tipo de calculo.
Ejemplo 5.6.3. Sean X1 , . . . , XN vectores aleatorios p-dimensionales independientes con igual media e igual
0
matriz de covarianzas . Consideremos XN p = [X1 , . . . , XN ] y sea Yrs = Brp X0 CN s . Entonces
E[Vec(Y)] = C0 1N B. En efecto,
0 0 0
E[Vec(Y)] = E[Vec(BX C)] = E[(C B) Vec(X )]
= (C0 B) E[Vec(X0 )] = (C0 B)(1N )
= (C0 1N B) = Vec(B10N C)

Analisis Multivariante. Licenciado en C.C. y T.T. Estadsticas. 2o curso.


60 Francisco de Ass Torres Ruiz

Cov [Vec(Y)] = C0 C BB0 . En efecto,

Cov [Vec(Y)] = Cov Vec(BX0 C) = Cov [(C0 B) Vec(X0 )]


 

= (C0 B) Cov [Vec(X0 )] (C B0 )


= (C0 B)(IN )(C B0 ) = C0 C BB0

5.6.2. La distribucion normal matricial. Aplicacion al caso de un muestra aleato-


ria simple de una poblacion normal multivariante
Sea Yrs una matriz aleatoria. En general, entenderemos por distribucion de dicha matriz a la correspon-
diente a Vec[Y0 ]. En particular tenemos la siguiente definicion:

Definicion 5.6.4. Sea Yrs una matriz aleatoria. Sean Mrs , Crr y Dss con C y D definidas positivas.
Se dice que Y ; Nrs [M; C D] si y = Vec(Y0 ) ; Nrs1 [m; C D], siendo m = Vec(M0 ).

A partir de esa caracterizacion se tiene el siguiente resultado

Teorema 5.6.3. Sea Yrs una matriz aleatoria normal Nrs [M; C D]. Entonces su densidad es
 
rs 2s r2 1  1 1 0

f (Y) = (2) 2 |C| |D| exp tr C (Y M)D (Y M)
2

Demostracion. La demostracion se limita a operar en la densidad de y = Vec[Y0 ].


 
rs 21 1 0 1
(2) 2 |CD| exp (y m) (C D) (y m)
2
 
rs
2 2 s
2r 1 0 0 1 1
 0
=(2) |C| |D| exp (Vec[(Y M) ]) C D Vec[(Y M) ]
2
 
rs 2s r2 1 0 0 1
 1
 0
=(2) 2 |C| |D| exp (Vec[(Y M) ]) C Is Ir D Vec[(Y M) ]
2
 
rs 2s r2 1 1
 0 0
 1
 0

=(2) 2 |C| |D| exp C Is Vec[(Y M) ] Ir D Vec[(Y M) ]
2
 
rs s r 1
=(2) 2 | C | 2 | D | 2 exp Vec0 [(Y M)0 C1 ] Vec[D1 (Y M)0 ]
2
 
rs 2s r2 1 0 1
0 1 0
=(2) 2 |C| |D| exp Vec [ C (Y M) ] Vec[D (Y M) ]
2
 
rs 2s r2 1  1 1 0

=(2) 2 |C| |D| exp tr C (Y M)D (Y M)
2
 
rs 2s r2 1 1 1 0
=(2) 2 |C| |D| etr C (Y M)D (Y M)
2

Como aplicacion de la distribucion normal matricial, vamos a calcular la distribucion conjunta de una muestra
aleatoria simple procedente de una normal multivariante.
Sea, por tanto, X1 , . . . , XN una muestra aleatoria simple procedente de una poblacion Np [; ], con > 0.
0
Consideremos XN p = [X1 , . . . , XN ] y x = Vec[X0 ]. En primer lugar,

[X1 , . . . , XN ] = X0 10N = [X 1N 0 ]0 = [X 1N 0 ]0

con lo que

(X1 )0

N
X
(Xi )(Xi )0 = [X1 , . . . , XN ] .. 0 0 0
= [X 1N ] [X 1N ]

.
i=1 (XN )0

Analisis Multivariante. Licenciado en C.C. y T.T. Estadsticas. 2o curso.


Francisco de Ass Torres Ruiz 61

por lo que
N N  
Y Y
p 21 1 1 0
f (X) = f (x) = f (Xi ) = (2) 2 || exp (Xi ) (Xi )
i=1 i=1
2
N
!
pN N 1X
= (2) 2 | | 2 etr (Xi )1 (Xi )0
2 i=1
N
!
pN N 1 1 X 0
= (2) 2 || 2 etr (Xi )(Xi )
2 i=1
 
pN N 1 0
= (2) 2 | | 2 etr 1 [X 1N 0 ] [X 1N 0 ]
2
 
pN N 1 0
= (2) 2 | | 2 etr [X 1N 0 ] 1 [X 1N 0 ]
2

y as X ; NN p [1N 0 ; IN ].

5.6.3. Rehaciendo el Teorema de Fisher


La introduccion de la distribucion normal matricial permite abordar ciertos desarrollos de forma mas rapida
y agil. En particular, el Teorema de Fisher que volvemos a reproducir y para lo cual vamos a proceder por
partes de la siguiente forma:
0
En primer lugar, dada XN p = [X1 , . . . , XN ] una muestra aleatoria simple de una normal Np [; ], con
> 0, sabemos que X ; NN p [1N ; IN ], o sea,
0

Vec [X0 ] ; NN p [Vec[10N ]; IN ]

1 1
Sea ahora BN N ortogonal con la ultima fila ( , . . . , ) y consideremos YN p = BX, con lo que Vec[Y0 ] =
N N
(B Ip ) Vec[X0 ]. Por tanto
Vec[Y0 ] ; NN p [m; ]
donde (teniendo en cuenta que Vec[ab0 ] = b a, y con ello Vec[10N ] = 1N )
" 0 #
0(N
1)p
m = (B Ip )(1N ) = (B1N ) = Vec[10N B0 ] 0 0
= Vec[(B1N ) ] = Vec .
N 0

= (B Ip )(IN )(B0 Ip ) = IN .
por lo que   
0(N
1)p
Y ; NN p ; IN
N 0
Si expresamos Y0 = [Y1 , . . . , YN ], se tiene
Las columnas de Y0 son independientes. En particular, si llamamos Z0 = [Y1 , . . . , YN 1 ], Z es indepen-
diente de YN .
Z ; N(N 1)p 0(N 1)p ; IN 1 , o sea, los vectores Z1 , . . . , ZN 1 son independientes e identica-
 

mente distribuidos segun normales de media cero y varianza .



YN ; Np [ N ; ].
Por ultimo,
1 1
YN = X0 1N = [X1 , . . . , XN ] 1N = N X.
N N
0
Y0 = X0 B0 = [Z0 | YN ], por lo que Y0 Y = X0 B0 BX = X0 X = Z0 Z + YN YN
0
= Z0 Z + N XX

Analisis Multivariante. Licenciado en C.C. y T.T. Estadsticas. 2o curso.


62 Francisco de Ass Torres Ruiz

N
X 0 0
A= X X0 N XX = X0 X N XX = Z0 Z
=1

Al ser Z independiente de YN , entonces A lo es de X


Todas estas conclusiones conforman el Teorema de Fisher Multivariante.

Analisis Multivariante. Licenciado en C.C. y T.T. Estadsticas. 2o curso.

También podría gustarte