Está en la página 1de 10

Revista de Matem atica:´

cimpa – ucr – ccss

Teor´ıa y Aplicaciones 1994 1(1) : 31–40

issn: 1409-2433

algunas consideraciones sobre el modelo lineal multivariado

Jorge Poltronieri Vargas *

Asdr ubal´

Duarte Esquivel **

Resumen Se trata el modelo lineal general y las pruebas de hip´otesis cl´asicas. En particular se considera el an´alisis de varianza a dos factores, d´andose explicitamente las formas de las matrices asociadas, as´ı como la estad´ıstica del cociente de verosimilitud para las hip´otesis nulas. Tambi´en se obtienen en forma expl´ıcita las distribuciones de los estimadores, bajo la hip´otesis de normalidad.

Abstract We consider the general linear model with the classical hypothesis. In particular we consider the variance analysis in two factors and we give explicitly the forms of the asocited matrixes as well as the statistics of the likelihood ratio test for the null hypothesis. We obtain in a explicit form the distributions of the estimator under hypo- thesis of normality.

1. Introducci´on

Los resultados te´oricos desarrollados en [4] y en [5], se aplican aqu´ı al modelo lineal

general multidimensional. Se tratan los resultados cl´asicos de pruebas de hip´otesis, y en particular el an´alisis de varianza a dos factores.

Consideremos X 1 ,

,X

N vectores aleatorios independientes tales que :

α = 1 ,

X

α N (µ α , Σ)

,N.

Denotaremos X = (X 1 ,

si X α N ( µ, Σ), se tiene que Γ = (µ,

,X

N ) N , I Σ), donde Γ = (µ 1 ,

, µ). Adem´as:

1

I N J , con

J = 1 1 ,

1 = (1 ,

,

1),

N ). Observemos que

* Escuela de Matem´atica, Universidad de Costa Rica, 2060 San Jos´e, Costa Rica. E-Mail: jpvar- gas@racsa.co.cr ** Escuela de Matem´atica, Universidad de Costa Rica, 2060 San Jos´e, Costa Rica. E-Mail: ad- uarte@carari.ucr.ac.cr

31

32

j. poltronieri – a. duarte

es una matriz sim´etrica idempotente; por lo tanto:

X ( I N J ) N (0 , ( I N J ) Σ),

1

1

pues ( I N J )Γ = 0, y dado que rang (I N J ) = N 1,

1

1

1

X ( I N J ) X =

N

α=1

( X α X )(X α X ) W , N 1) ,

donde W , N 1) designa la distribusi´on Wishart de matriz de varianzas Σ y N 1 grados de libertad.

, son independientes, con m α un

Por otro lado, si X α N m α , Σ),

α = 1 ,

,N

vector r -dimensional y H = MM =

N

m α m α no singular, se tiene que I M H 1 M es

α=1

idempotente. Se sabe que :

X N M, I Σ),

X (I M H 1 M ) N (0 , (I M H 1 M ) Σ),

puesto que Λ M ( I M H 1 M ) = 0 y la forma

cuadr´atica:

X ( I M H 1 M )X

W , N r ) ,

donde r = rangH .

2. El modelo lineal

Consideremos X 1 ,

,X

N variables aleatorias independientes, tales que:

X α N ( βZ α , Σ) ,

α = 1 ,

,N,

con Z α vector q -dimensional, β matriz p × q y Σ matriz de covarianza. Las matrices β y Σ son desconocidas. As´ı el modelo se escribe:

X N (βZ, I Σ),

donde Z = ( Z 1 ,

,Z

N ). Los estimadores de m´axima verosimilitud son:

ˆ

β

= XZ A 1

ˆ

N Σ =

N

α=1

(

x α βZ α )(x α βZ α ) =

ˆ

ˆ

N

α=1

X

α X

α

βA β ,

ˆ

ˆ

donde A = ZZ , i.e. β N ( β,A 1 Σ),

Denotaremos un estimador con sub´ındice Ω cuando se trate del estimador de m´axima verosimilitud de la muestra, y con sub´ındice ω cuando se trate del estimador de m´axima verosimilitud bajo la hip´otesis H 0 .

ˆ

ˆ

N Σ W , N q ).

algunas consideraciones sobre el modelo lineal multivariado

33

Consideremos Q = XZ A 1 Z N ( βZ, Z A 1 Z Σ), pues Z A 1 Z es idempotente. Suponemos que β = ( β 1 , β 2 ) tales que β 1 tiene q 1 columnas y β 2 tiene q 2 columnas. Si deseamos considerar la hip´otesis H 0 : β 1 = β , donde β es una matriz dada, se tiene que:

1

1

ˆ

β

1 N (β 1 , A 11· 2 Σ),

con

A =

A 11

A 21

A 12

A 22 , A 11· 2 = A 11 A 12 A

1

22

A 21 .

As´ı: β N ( β,A 1 Σ) , ( β 1 β

ˆ

ˆ

1

)

A 11· 2 (

ˆ

β

1 β ) W , q 1 ), con q 1 = rang(A 11· 2 ).

1

Sea Y = X β Z 1 N ( β 2 Z 2 , I Σ), entonces:

1

ˆ

β 2 ω = Y ( Z

2

A

1

22

)=( XZ 2 β A 12 ) A

1

1

22 ,

donde:

Z = Z 2 , A 11 = Z 1 Z 1 , A 22 = Z 2 Z 2 , A 12 = Z 1 Z

Z

1

2

Bajo la hip´otesis H 0 se tiene:

ˆ

β

2 ω N (β 2 , A

1

22

Σ),

.

ˆ

N Σ ω =

N

α=1

α Y α

Y

ˆ

β

2 ω A 22

ˆ

β 2 ω = Y (I Z 2 A

1

22

Z 2 ) Y W , N q 2 ) ,

pues I Z 2 A

1

22

Z 2 es idempotente de rango N q 2 ( q = q 1 + q 2 ).

Para probar la hip´otesis H 0 : β 1 = β se utiliza la estad´ıstica:

1

U = | N

ˆ

Σ

|

ˆ

| N Σ ω | ,

ˆ

y se compara con U p,q 1 ,N q ( α ), donde α es el nivel. La cantidad | N Σ | denota el determi-

 

ˆ

nante de N

Σ

.

3. Prueba de igualdad de medias

, observaciones de q

poblaciones de igual matriz de covarianza. Sea H 0 la hip´otesis de igualdad de medias para

las q poblaciones, i.e. H 0 : µ (1) = ··· = µ (q ) . Se define X N 1 + ···+ N i1 + k = Y

(i

Consideremos Y

α

)

N ( µ (i ) , Σ)

α = 1 ,

,N i ,

i

= 1 ,

,q

(i +1)

k

y tenemos:

por lo que:

Γ=( µ (1)

(1)

X = (Y

1

,

,

(1) ,

(1)

,Y N 1 ,

X N , I Σ),

(q ) ,

(q

,Y

1

)

,

N =

(q ) ) ,

(q

,Y

N

q

)

q

i =1

N

i .

)

,

34

j. poltronieri – a. duarte

Se utiliza el modelo lineal, introduciendo las variables Z α , α = 1 ,

0

0

1

1

1

0

.

.

.

0

1

1

0

.

0

1

0

0

.

.

.

1

1

Z

= ( Z 1 ,

,Z

N ) =

.

.

.

.

.

.

.

,

,N , de la forma:

y se define β = ( β 1 , β 2 ) por:

β 1 = ( µ (1) µ (q ) ,

(q 1) µ (q ) ) ,

β 2 = µ (q ) .

As´ı se obtiene que: X α N ( βZ α , Σ) α = 1 , A = Z Z es:

. ··· N q 1 ··· N q 1

N 1

N 1

.

.

.

0

0

.

.

.

,N

. La hip´otesis H 0 es: β 1 = 0. La matriz

N 1

.

N q 1

N

 

,

y

(1)

C = X Z = ( C 1 , C 2 )=( Y

α

α

,

,

α

(q

Y

α

1)

(i

, Y

α

α i

)

) ,

A 22 = N,

ˆ

β 2 ω = C 2 A

22 =

1

1

N

α i

(i

C 2 = Y

α

α i

)

,

(i

Y

α

)

= Y N ( β 2 , N Σ),

1

N Σ ω = Y

α

ˆ

(i

α i

)

(i

Y

α

)

(i

β 2 ω A 22 β 2 ω = ( Y

α

α i

)

Y )(Y

α

(i

)

Y )

1

= Y ( I N J ) Y W , N 1) ,

1

pues bajo la hip´otesis H 0 se tiene Γ( I N J ) = 0.

ˆ

El estimador β = C A 1 =

(Y (1) Y (q ) ,

,

Y (q 1) Y (q ) , Y (q ) ), donde

Y (i ) =

1

N i

N i

(i

Y

α

)

. Adem´as:

α=1

CA 1 C =

q

i =1

i Y (i ) Y (i ) ,

N

(i

N Σ = ( Y

ˆ

α

α i

Sea H la matriz definida por:

H =  

)

Y (i ) )(Y

(i

α

)

J 1

0

···

.

.

0

.

.

.

. . ··· J q

Y (i ) ) .

algunas consideraciones sobre el modelo lineal multivariado

con J i = 1

N i 1 N i 1

N i . As´ı definida H es idempotente, de rango q y adem´as :

Y H = ( Y (1) ,

,

Y

(1) ,

,

Y

(q ) ,

,

Y (q ) ) N , H Σ),

pues Γ H = Γ. Por otro lado :

N Σ = ( Y

α

ˆ

(i

α i

)

Y (i ) )(Y

(i

α

)

Y (i ) ) W , N q ) .

ˆ

ˆ

35

Si H 0 es la verdadera hip´otesis, la estad´ıstica: U = | N Σ | / | N Σ ω | se distribuye como una

U p, q 1, N q .

Observemos que :

ˆ

ˆ

N Σ ω − N Σ Ω = Y ( H − N J ) Y Σ ω N Σ = Y ( H N J ) Y W , q 1).

1

ˆ

N Σ ω / ( N − q ) es un estimador sin sesgo de Σ, Σ ω / ( N q ) es un estimador sin sesgo de Σ, si H 0 es verdadera.

4. An´alisis de varianza

El caso analizado anteriormente puede ser considerado como un an´alisis de varianza a

un factor. Vamos a desarrollar aqu´ı el caso de dos factores con una observaci´on por celda.

Sea Y ij i = 1 ,

,r

;

j = 1 ,

,c

, una variable aleatoria p -dimensional tal que:

Y ij = µ + λ i + ν j + E ij ,

donde los E ij N (0 , Σ) son independientes; µ, λ i , ν j son vectores tales que:

El modelo se escribe :

donde:

y

r

i

=1

λ i = 0 ,

c

j

=1

j = 0 .

ν

Y = βZ + E,

Y = ( Y 11 ,

,Y

1c ,

β

= ( µ, λ 1 ,

E = (E 11 ,

,E

1c ,

,Y

r 1 ,

r , ν 1 ,

,E

r 1 ,

Z

1

1

.

.

.

= 0

1

.

.

.

0

.

.

.

.

.

.

1

1

.

0

0

.

1

.

.

.

.

.

.

1

0

.

1

1

.

0

.

.

,Y rc ) ,

c ) ,

,E rc ) ,

.

.

.

.

1

1

.

1

0

.

1

.

36

j. poltronieri – a. duarte

Sea Y ·· =

1

rc

i j

ij , Y i · = 1

Y

c Y ij , Y · j = 1 r

j

i

Y ij , entonces:

i j

( Y ij Y ·· )( Y ij Y ·· ) = ( Y ij Y i · Y · j + Y ·· )(Y ij Y i · Y · j + Y ·· )

i

j

+ c ( Y i · Y ·· )( Y i · Y ·· ) + r ( Y · j Y ·· )(Y · j Y ·· ) .

i

j

Vamos a determinar las matrices asociadas a cada una de las formas cuadr´aticas. Sean las matrices:

H 1 = 1

c

J

.

.

.

0

···

.

.

.

··· J

0

.

,

con J = 1 c 1 c , i.e. H 1 tiene r matrices J en la diagonal;

L =

1

rc 1 rc 1

rc ,

H 2 = 1

r

P 1

. .

.

. .

.

P 1

P c

.

P c

con

P i =

0

.

.

.

1

.

.

.

0

.

.

.

.

.

.

0

.

1

.

0

,

, Las matrices H 1 , L, H 2 son idempotentes de rangos respectivos r, 1 , c . As´ı tenemos:

donde el vector (1,

1) est´a situado en la posici´on i. La matriz P i es r × r y P i P j = P i .

Y L

= (Y ·· ,

Y

H 1 = ( Y 1· ,

Y

H 2 = ( Y · 1 ,

Y

, ,

·· ,

,

,

Y

1· ,

Y · c ,

,

Y ·· ,

,

Y r · ,

Y · 1 ,

,

Y ·· )

,

,

Y r · )

Y · c ) .

Sabemos que H 1 L es idempotente de rango r 1, y

Y ( H 1 L ) N (Γ(H 1 L) , ( H 1 L) Σ),

donde Γ(H 1 L )=( λ 1 ,

1 ,

La forma cuadr´atica:

B 1 = Y ( H 1 L ) Y =

r ,

c

r

i =1

r ).

( Y i · Y ·· )(Y i · Y ·· ) W , r 1 , τ ),

donde el par´ametro de decentraje τ = Γ( H 1 L = c

r

i =1

λ i λ

i .

La matriz H 2 L es idempotente de rango c 1, y

B 2 = Y ( H 2 L ) Y = r

c

j =1

( Y · j Y ·· )(Y · j Y ·· ) W , c 1 , τ ) ,

algunas consideraciones sobre el modelo lineal multivariado

donde el par´ametro de decentraje τ = Γ( H 2 L = r

c

j =1

ν j ν j .

37

La matriz I H 1 H 2 + L es idempotente de rango ( r 1)(c 1):

Y ( I

H 1 H 2 + L) N (0, (I H 1 H 2 + L) Σ),

pues Γ( I H 1 H 2 + L ) =

0, por lo que:

A = Y (I H 1 H 2 + L) Y =

ij

( Y ij Y i · Y · j

+ Y ·· )(Y ij Y i · Y · j + Y ·· ) W , (r 1)(c 1)) .

Notemos que las formas cuadr´aticas A, B 1 , B 2 son independientes, pues el producto de las matrices asociadas es cero ( H 1 H 2 = H 1 L = H 2 L = LL = L ), y que B 1 y B 2 son distribuciones Wishart decentradas.

, es decir, el efecto del primer factor

es nulo, se tiene que Γ( H 1 L ) = 0 . Bajo la hip´otesis H 0 , la estad´ıstica:

Si se considera la hip´otesis H 0 : λ i = 0 , i = 1 ,

,r

B 1 = Y (H 1 L) Y W , r 1) .

De esta manera la estad´ıstica:

U =

| A |

| A +

B 1 | U p, r 1, (r 1)(c1) .

Si se considera la hip´otesis H 0 : ν j = 0 , j = 1 ,

,c

, es decir, el efecto del segundo

factor es nulo, se tiene que Γ( H 2 L) = 0, y la estad´ıstica:

B 2 = Y (H 2 L) Y W , c 1).

As´ı la estad´ıstica:

U =

| A|

|

A +

B 2 | U p,c 1 , (r 1)(c1) .

En los dos casos se rechaza la hip´otesis H 0 si :

U U p,m, (r 1)(c1) ( α )

para m = r 1, o

m = c 1.

Este resultado se generaliza f´acilmente en el caso de n observaciones por celda, n > 1.

5. Aplicaciones

En est´a secci´on vamos a considerar algunos ejemplos., lo cuales nos ayudar´an a com- prender, la utilidad de la teor´ıa desarrollada en este trabajo. 1. Primeramente consideraremos un estudio realizado por Bernard (1935) (ver [1]), en el cual realiza 4(= p ) medidas sobre cr´aneos egipcios, correspondiendo a 4(= p ) poblaciones:

38

j. poltronieri – a. duarte

Predin´astica ( i = 1), sexta a und´esima dinast´ıa (i = 2), duod´ecima y decimotercera dinast´ıa

( i = 3), y la dinast´ıa Ptolom´eica (i = 4) . El n´umero de observaciones por poblaciones N 1 = 91, N 2 = 162, N 3 = 70, N 4 = 75. La hip´otesis H 0 que consideramos es que las cuatro poblaciones son iguales, es decir, las medias de las poblaciones son id´enticas µ (1) = µ (2) = µ (3) = µ (4) . Los datos sumarizados son:

(

¯

Y

(1) , Y (2) , Y (3) ,

¯

¯

¯

Y

(4) ) =

133 , 582

98

50

, 307

, 835

133 , 000

134 , 265

96,

462

51 , 148 134 , 882

134 , 371 135 , 306

95,

50 , 100

857

95 , 040 52 , 093

133 , 642 131 , 466

N Σ =

De los datos tenemos:

ˆ

N Σ ω =

9661 , 997 445 , 573

445 , 573 9073 , 115

, 623 1239 , 211 , 584 2255, 812

1130

2148

11130 , 623 214 , 584

1239 , 211 2255 , 812

3938 , 320 1271 , 054 1271 , 054 8741 , 508

 

.

9785

, 178

1217 , 929 2019 , 820

9559 , 460 1131 , 716 2381 , 126

473

242

214 , 197

214 , 197

2117

2019

, 929 1131 , 716 4088 , 731 , 820 2381 , 126 1133 , 473

1133,

9382,

 

.

La estad´ıstica est´a dada por:

U = | N

ˆ

Σ

|

| N Σ ω |

= 0 , 8214344 ,

N = 398, n = 394, p = 4, q = 4. Como n es grande, aproximamos m log U 4, 3, 394 con χ 2 cuando la hip´otesis H 0 es cierta. As´ı mlog U = 77 , 30 y como χ 12 2 (0 , 01) = 26 , 2, se rechaza la hip´otesis H 0 , es decir, hay diferencias significativas entre las poblaciones. Para el an´alisis de varianza utilizamos un ejemplo discutido por Anderson(1958). En este ejemplo, se considera como primera componente del vector de observaciones el rendimiento de un campo de cebada; la segunda componente son las mismas medidas hechas al a˜no siguiente ( p = 2). Los datos aparecen en la tabla siguiente. Los ´ındices columna indican las variedades de cebada y las filas indican las localidades. Se considera el modelo a dos factores, donde el primer factor es la variedad con r = 5 niveles, y el segundo factor es la localidad con c = 6 niveles. La hip´otesis H 0 que se considera, es que el efecto debido a la variedad es nulo, es decir, dentro del modelo:

12 ,

Y ij = µ + λ i + ν j + E ij

los λ i = 0 , i = 1,

un valor general µ y el efecto debido a la localidad µ j , j = 1 , As´ı

,r

= 5. En otras palabras, las observaciones se explican por medio de

,c = 6.

i,j

ij = 380944

315381

ij Y

Y

315381

277625 ,

algunas consideraciones sobre el modelo lineal multivariado

39

Variedades Localidad MSVTP UF 81 105 120 110 98 81 82 80 87 84 W
Variedades
Localidad MSVTP
UF
81
105
120
110
98
81
82
80
87
84
W
147
142
151
192
146
100
116
112
148
108
M
82
77
78
131
90
103
105
117
140
130
C
120
121
124
141
125
99
62
96
126
76
GR
99
89
69
89
104
66
50
97
62
80
D
87
77
79
102
96
68
67
67
92
94

Cuadro 1: Variedades de cebada por cada localidad

j

i

¯ ¯

(6 Y i · )(6

Y ·

j ) = 2157924

1844346

¯

(5 Y i · )(5

Y i · ) = 1874386

1560145

¯

1844346

1579583 ,

1560145

1353727 ,

¯

(30 Y ·· )(30

Y ·· ) = 10705984 9145240

9145240 7812025

¯

.

La suma de los cuadrados de los errores:

5 (

i

¯

Y

i ·

A

=

3279

802

4017 ,

802

¯

Y

·· )(

¯

Y

i ·

Y ·· ) = 18011

¯

7188

B

= 2788

2550

2550 2863

.

10345 ,

7188

La estad´ıstica para la hip´otesis H 0 es:

| A |

U = | A + B | = 0 , 4107 .

40

j. poltronieri – a. duarte

Este resultado se compara con U 2, 4, 20 (0 , 05), o bien se compara con el valor:

1 0 , 4017 · 19

0 , 4017

4

= 2 , 66

con un F 8, 38 (0 , 05) = 2 , 18 lo que indica que hay diferencias entre variedades , con un error del 5 %.

Referencias

[1] T.W. Anderson (1958) An introduction to multivariate statistical analysis . J. Wiley, N.Y.

[2] J.R. Barra (1971) Notions fondamentales de statistique math´ematique . Dunod, Paris.

[3] H. Muirhead (1982) Aspects of multivariate statistical theory . J. Wiley, N.Y.

[4] J. Poltronieri (1988) Estudio de formas cuadr´aticas en el caso multivariado. In: IV Sim- posio de M´etodos Matem´aticos Aplicados a las Ciencias Ed. U.C.R.

[5] J. Poltronieri (1988) Formas cuadr´aticas y formas lineales en estad´ıstica multivariada . In: IV Simposio de M´etodos Matem´aticos Aplicados a las Ciencias Ed. U.C.R.

[6] K. Takeuchi, H. Yanai, B.N. Mukherjee (1984) The foundations of multivariate analysis . Wiley Eastern Limited.

[7] M. Tenenhaus, F. Young (1987) An analysis and synthesis of multiple correspondance analysis, optimal scaling, dual scaling, homogenity analysis and other methods for quan- tifying categorical multivariate data , Psychometrica 50(1), pp. 91-119.