Documentos de Académico
Documentos de Profesional
Documentos de Cultura
DE
ANÁLISIS MULTIVARIANTE
Carles M. Cuadras
£0fi9
£
§c C. M. Cuadras
CMC Editions
Agramunt, fi6
080£3 Barcelona, Spain
ímdice gemeral
1. DATOS MULTIVAÆIANTES 13
fi.fi. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . fi3
fi.£. Matrices de datos . . . . . . . . . . . . . . . . . . . . . . . . . fi3
fi.3. Matriz de centrado . . . . . . . . . . . . . . . . . . . . . . . . fi†
fi.4. Medias, covarianzas y correlaciones . . . . . . . . . . . . . . . fi†
fi.†. Variables compuestas . . . . . . . . . . . . . . . . . . . . . . . fi6
fi.6. Transformaciones lineales . . . . . . . . . . . . . . . . . . . . . fi6
fi.F. Teorema de la dimensión . . . . . . . . . . . . . . . . . . . . . fiF
fi.8. Medidas globales de variabilidad y
dependencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . fi8
fi.9. Distancias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . fi9
fi.fi0. Algunos aspectos del cálculo matricial . . . . . . . . . . . . . . £fi
fi.fi0.fi. Descomposición singular . . . . . . . . . . . . . . . . . £fi
fi.fi0.£. Inversa generalizada . . . . . . . . . . . . . . . . . . . £fi
fi.fi0.3. Aproximación matricial de rango inferior . . . . . . . . ££
fi.fi0.4. Transformación procrustes . . . . . . . . . . . . . . . . £3
fi.fifi. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . £†
fi.fi£. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . £8
2. NOÆMALIDAD MULTIVAÆIANTE 29
£.fi. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . £9
£.£. Distribución normal multivariante . . . . . . . . . . . . . . . . 30
£.£.fi. Definición . . . . . . . . . . . . . . . . . . . . . . . . . 30
£.£.£. Propiedades . . . . . . . . . . . . . . . . . . . . . . . . 3fi
£.£.3. Caso bivariante . . . . . . . . . . . . . . . . . . . . . . 3£
£.3. Distribución de Wishart . . . . . . . . . . . . . . . . . . . . . 33
£.4. Distribución de Hotelling . . . . . . . . . . . . . . . . . . . . . 34
£.†. Distribución de Wilks . . . . . . . . . . . . . . . . . . . . . . . 3†
3
4 ÝNDICE GENEÆAL
3. INFEÆENCIA MULTIVAÆIANTE 43
3.fi. Conceptos básicos . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.£. Estimación de medias y covarianzas . . . . . . . . . . . . . . . 44
3.3. Contraste de hipótesis multivariantes . . . . . . . . . . . . . . 4†
3.3.fi. Test sobre la media: una población . . . . . . . . . . . 4†
3.3.£. Test sobre la media: dos poblaciones . . . . . . . . . . 46
3.3.3. Comparación de varias medias . . . . . . . . . . . . . . 46
3.4. Teorema de Cochran . . . . . . . . . . . . . . . . . . . . . . . 4F
3.†. Construcción de contrastes de hipótesis . . . . . . . . . . . . . †fi
3.†.fi. Razón de verosimilitud . . . . . . . . . . . . . . . . . . †fi
3.†.£. Principio de unión-intersección . . . . . . . . . . . . . . †3
3.6. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . †4
3.F. Análisis de perfiles . . . . . . . . . . . . . . . . . . . . . . . . †9
3.8. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 6fi
6. ANÁLISIS FACTOÆIAL 9Y
6.fi. Introducción.................................................................................9F
6.£. El modelo unifactorial.................................................................98
6.3. El modelo multifactorial........................................................fi00
6.3.fi. El modelo.......................................................................fi00
6.3. £. La matriz factorial.............................................fi0fi
6.3.3. Las comunalidades.........................................................fi0fi
6.3.4. Número máximo de factores comunes...........................fi0£
6.3. †. El caso de Heywood............................................fi03
6.3.6. Un ejemplo.....................................................................fi03
6.4. Teoremas fundamentales...........................................................fi0†
6.†. Método del factor principal.......................................................fi0F
6.6. Método de la máxima verosimilitud...........................................fi09
6.6.fi. Estimación de la matriz factorial................................fi09
6.6.£. Hipótesis sobre el número de factores...........................fifi0
6.F. Rotaciones de factores..............................................................fifi0
6.F.fi. Rotaciones ortogonales..................................................fififi
6.F.£. Factores oblicuos...........................................................fififi
6.F.3. Rotación oblicua.............................................................fifi£
6.F.4. Factores de segundo orden............................................fifi4
6.8. Medición de factores.................................................................fifi†
6.9. Análisis factorial confirmatorio..............................................fifi6
6.fi0. Complementos..........................................................................fifi9
www.ub.edu/stat/cuadras/cuad.html
fifi
fi£ ÝNDICE GENEÆAL
DATOS MULTIVAÆIANTES
1.1. Imtroduccióm
fi3
fi4 CAPÝTULO fi. DATOS MULTIVAÆIANTES
H = F— nfi J.
Propiedades:
fi. Simétrica: HJ = H.
£. Idempotente: HX = H.
X= X — fixJ = HX.
fi6 CAPÝTULO fi. DATOS MULTIVAÆIANTES
3. Matriz de covarianzas:
J
S = fi X X = fi
XJ HX.
n n
4. Matriz de correlaciones:
Æ = D—fiSD—fi, S = DÆD, (fi.fi)
variables.
Propiedades:
fi. ¢J = xJ T, donde ¢ es el vector (columna) de medias de V.
£. SY = TJ ST, donde SY es la matriz de covarianzas de V.
Demost.:
¢J = fi fiJ V = fi
fiJ XT = xJ T. SY = fi
VJ HV = fi
TJ XJ HXT = TJ ST.
n n n n
Entonces
var(E Σ
j Σv a E ) = ‹ Σvs,st=fi a a t t — X v a ‹
— s=fi s s jj ‡ ‹ s s ss s=fis js
Σv
s=fi js Σ s
a ‹ Σ— X
t
s =fi s ss
Σ vs=fis as ‹js ‡ Σv vs=fis=fis jss=fi
v s a ‹
j Σ v
a‹‡ a( s=fit s sjs
=
Σv ‹ t )—X
a a‹
=
= 0.
fi8 CAPÝTULO fi. DATOS MULTIVAÆIANTES
Por lo tanto v v
Ej — Σ asEs = s =→ Ej = s ‡ Σ asEs
s=fi s=fi
donde s es una constante. Q
a) Varianza generalizada:
|S| =Zfi × · · · × Zp.
b) Variación total:
tr(S) =Zfi ‡ · · · ‡ Zp.
yX = fi — |Æ|,
que verifica:
fi. 0 ≤ yX ≤ fi.
Demost.:
fi.9. DISTANCIAS fi9
1.9. Distamcias
Algunos métodos de AM están basados en criterios geométricos y en
la noción de distancia entre individuos y entre poblaciones. Si
,
. xJfi
X = ,, . .
. ,
xJn
es una matriz de datos, con matriz de covarianzas S, las tres definiciones
más importantes de distancia entre las filas xJs = (ısfi , . . . , ısp ), xJj = (ıjfi , .
. . , ıjp ) de X son:
fi. Distancia euclídea:
‚. p
dE(s, j) =, X
Σh=fi (ısh — ıjh ) . (fi.£)
£. Distancia de K. p
‚ .Σ
Pearson
dP (s, j) de
donde ‹hh es la covarianza = la variable
(ısh — ıEjhh).X /‹hh ,
,
3. Distancia de Mahalanobis:
h=fi
Observaciomes
Un cambio de escala de una variable Ej es una transformación Yj =
αEj , donde α es una constante. Comparando las tres distancias, se
concluye que dM es muy adecuada en AM debido a que verifica:
X :
Entonces
D—s = diag(‹—fi fi , . . . , ‹—v fi , 0, . .
y la matriz p × . , 0).
n
A— = VD—s UJ
es una g-inversa de A. En efecto,
s=fi j=fi
entonces
, ,
0,35 —0,ŒX 0,5X , , , ,
. . fi0,fiŒ 0 0 —0,50 —0,59 —0,6X
—
—
, ,
0,fi6 0,6fi 0,Œfi
A = . 0,86 0,fi9 0,38 . 0
0 X,X95
0 0 ,
fi,388 0,86
0,06 —0,Œ0 —0,3fi
0,t0 —0,tfi ,
,,0,33 0,63 0,63
,
y la aproximación de rango £
es ,. ,
. 0,9Œ5 X,Œ80 X,53Œ
× X,0fi5 0,39t 0,58t
A = . 3,98Œ 5,3X0 5,6X8 . ,
,
, X,936 fi,386 fi,65X
siendo (redondeando a dos decimales)
0,35 —0,ŒX 0,5X , ,, ,
,. ,. fi0,fiŒ 0 0 —0,50 —0,59 —0,6X
× 0,fi6 0,6fi —0,Œfi 0 X,X9 0 , 0,86 —0,Œ0 —0,3fi ,
A = . 0,86 —0,fi9 0,38 . ,
,,0,33 0,63 0,63 , 0 0
0 .
El valor mínimo es fi,388X = fi,9X6, el cuadrado del valor singular
eliminado. En particular, si B es matriz simétrica semidefinida positiva
de rango v y
B = TDZ TJ es la descomposición espectral (con los valores propios
ordenados de mayor a menor), entonces la mejor aproximación de
rango h c v es la matriz
B× = TD×Z TJ , (fi.6)
donde D×Z contiene los h primeros valores propios de B.
V× = bXT ‡ fis,
¢j× = bTJ xj ‡ sj fi
N E S W N E S W
F£ 66 F6 FF 9fi F9 fi00 F†
60 †3 66 63 †6 68 4F †0
†6 †F 64 †8 F9 6† F0 6fi
4fi £9 36 38 8fi 80 68 †8
3£ 3£ 3† 36 F8 †† 6F 60
30 3† 34 £6 46 38 3F 38
39 39 3fi £F 39 3† 34 3F
4£ 43 3fi £† 3£ 30 30 3£
3F 40 3fi £† 60 †0 6F †4
33 £9 £F 36 3† 3F 48 39
3£ 30 34 £8 39 36 39 3fi
63 4† F4 63 †0 34 3F 40
†4 46 60 †£ 43 3F 39 †0
4F †fi †£ 43 48 †4 †F 43
1.11. Ejemplos
Ejemplo 1.11.1 Ávbo1es.
Variables compuestas
Las siguientes variables compuestas explican diferentes aspectos de la
variabilidad de los datos:
Media Varianza
Contraste eje N-S con eje E-W: Yfi = N ‡S—E—W 8,85t fiXŒ,fi
Contraste N-S: YX = N —S 0,85t 6fi,Xt
Contraste E-W: Y3 = E—W fi,000 99,5
Diremos que una variable compuesta está normalizada si la suma de
cuadrados de sus coeficientes es fi. La normalización evita que la
varianza tome un valor arbitrario. La normalización de Yfi, YX, Y3 da:
Media Varianza
Zfi = (N ‡ S —,E — W )/X Œ,ŒX8 3fi,03
ZX = (N — S)/ ,X 0,606 30,63
Z3 = (E — W )/ X 0,t0t Œ9,t5
La normalización de las variables consigue que éstas tengan varianzas
más homogéneas. La media de Zfi sugiere que la principal dirección de
variabilidad se pone de manifiesto al comparar el eje N-S con el eje E-W.
fi.fifi. EJEMPLOS £F
Visualizacióm de datos
En los capítulos siguientes veremos métodos y técnicas de visualización
de datos multivariantes. Como norma general es conveniente, antes de
realizar el análisis, examinar y revisar los datos. La Figura fi.fi contiene un
gráfico que permite visualizar la distribución de las 4 variables de la Tabla
fi.fi y las relaciones lineales, o regresión lineal, entre cada par de
variables.
Yfi YX
Yfi YX×
×
fit9 fiŒ5 fi85,6 fi5X,3
X0fi fi5X fi88,8 fiŒ8,X
fi85 fiŒ9 fit8,9 fiŒ6,8
fi88 fiŒ9 fi80,0 fi50,Œ
1.12. Complememtos
La descomposición en valores singulares de una matriz es una idea
senci- lla pero muy útil en Análisis Multivariante. Generaliza los vectores y
valores propios de una matriz, permite calcular inversas generalizadas y
es fundamen- tal en Análisis de Correlación Canónica y en Análisis de
Correspondencias. Véase Golub y Reinsch (fi9F0).
La aproximación de una matriz por otra de rango inferior se debe a
Eckart y Young (fi936), y es la versión matricial de la reducción de la
dimensión, uno de los objetivos típicos del Análisis Multivariante.
La transformación procrustes fue estudiada independientemente por
N. Cliff y P. H. Schonemann en fi966. Permite transformar una matriz en
otra y estudiar el grado de coincidencia entre dos matrices de datos,
mediante una generalización multivariante de la ecuación de regresión.
Véase Gower (fi9Ffib), Mardia et a1. (fi9F9) y Seber (fi984).
Capítulo 2
NOÆMALIDAD
MULTIVAÆIANTE
2.1. Imtroduccióm
Los datos en AM suelen provenir de una población caracterizada
por una distribución multivariante. Sea X =(Efi, . . . , Ep) un vector
aleatorio con distribución absolutamente continua y función de densidad
ƒ (ıfi , . . . , ıp ). Es decir, ƒ verifica:
£9
30 CAPÝTULO £. NOÆMALIDAD MULTIVAÆIANTE
(Es — µs)(Ej — µj) y que cov(Es, Ej) = E(Es — µs)(Ej — µj), la matriz de
covarianzas X = (osj) es
ƒ (ı¡ µ, o ) = , e— 2 — = , e 2 o2 . (£.fi)
o Xv Xv
Evidentemente se verifica:
|X|—fiƒX fi t —fi
ƒ(x¡ µ, X) = , — 2 (x—µ) (x—µ)
, (£.3)
p
e
E
( Xv)
siendo x = (ıfi , . . . , ıp )J , µ = (µfi , . . . , µp )J y X = (o sj ) una matriz
definida positiva, que como veremos, es la matriz de covarianzas. Por
otra parte, (£.£) sugiere definir la distribución X = (Efi , . . . , Ep )J ~ Np (µ,
X) como una combinación lineal de p variables Yfi , . . . , Yp independientes
con distribución N (0, fi)
Efi = µfi ‡ afifiYfi ‡ · · · ‡ afipYp,
.. . (£.4)
.
Ep = µp ‡ apfiYfi ‡ · · · ‡ appYp,
£.£. DISTÆIBUCIÓN NOÆMAL MULTIVAÆIANTE 3fi
X = µ ‡ AV (£.†)
ƒ (ı , . . . , ı ) = (4 (ı), . . . , 4 (ı))6¢
. .,
ƒ
p . 6x .
E fi p Y fi
siendo 4s = 4s (ıfi , . . . , ıp ), s = fi, . . . , p, el cambio y J = 6ı . 64 . el jacobiano del
cambio. De (£.†) tenemos
6¢
¢ = A—fi(x — µ) →.. ..= |A—fi|
y como las p variables Ys son N(0, fi) independientes: 6x
,
ƒE (ıfi , . . . , pı ) = (fi/ Xv)p e—2 fi s=fi 4s2 |A—fi|. (£.6)
Σp
2.2.2. Propiedades
fi. De (£.†) es inmediato que E(X) = µ y que la matriz de covarianzas es
Defimicióm
Si las filas de la matriz Xnvp son independientes Np (0, X) entonces
di- remos que la matriz Ø = XJ X es Wishart Wp (X, n), con parámetros X
y n grados de libertad.
Cuando X es definida positiva y n ≤ p, la densidad de Ø es
(n—p—fi)
Σ
ƒ(Ø) =s|Ø| expΣ —fiX tr(X—fiØ) ,
siendo
Q fi
p
—fi p(p—fi)ƒ4 |X| nƒX F[ X (n ‡ fi — s)].
s = v
s=fi
XnpƒX
34 CAPÝTULO £. NOÆMALIDAD MULTIVAÆIANTE
Propiedades:
Defimicióm
Si ¢ es Np(0, F), independiente de Ø que es Wishart Wp(F, m), entonces
f X = m¢J Ø—fi ¢
X
sigue la distribución f de Hotelling, que se indica por f X(p, m).
Propiedades:
X
£. f está directamente relacionada con
mp la distribución F de Fisher-Snedecor
X p
f (p, m) ÷ 5 .
m — p ‡ fi m—p‡fi
3. Si x, S son el vector de medias y la matriz de covarianzas de la matriz
Xnvp con filas independientes Np(µ, X), entonces
(n — fi)(x—µ)J S—fi (x—µ) ~ f X (p, n — fi),
y por lo
tanto n—p
(x—µ)J S—fi (x—µ) ~ 5 n—p
p
.
p
4. Si x, Sfi,¢, SX son el vector de medias y la matriz de covarianzas de
las matrices Xnfivp, Vn2vp, respectivamente, con filas independientes
Np(µ, X), y consideramos la estimación conjunta centrada (o
insesgada) de X
S^ = (nfi Sfi ‡ nX SX )/(nfi ‡ nX — X),
entonces
nfi nX
fX= (x—¢)J S^ —fi (x — ¢) ~ f X (p,fin X — X)
n ‡
‡n n
fi X
y por lo
tanto nf i ‡ nX — f i — p X p
(nfi ‡ nX — X)p f ~ 5n ‡n —fi—p .
fi 2
2.5. Distribucióm de
Wilks
La distribución F con m y n grados de libertad surge considerando el
cociente
A/m
5 = ,
B/n
donde A, B son ji-cuadrados estocásticamente independientes con m y n
gra- dos de libertad. Si consideramos la distribución
A
h= ,
A ‡ B
la relación entre h y 5 m, así como la inversa 5 n , es
n m
n
m
5 = h n m fi — h
n , 5m = .
m fi — h n h
La distribución de Wilks generaliza esta relación.
36 CAPÝTULO £. NOÆMALIDAD MULTIVAÆIANTE
Defimicióm
Si las matrices A, B de orden p×p son independientes Wishart Wp(X,
m), Wp(X, n), respectivamente, con ≤ m p, la distribución del cociente de
deter- minantes
|A|
h = |A ‡ B|
es, por definición, la distribución lambda de Wilks, que indicaremos por
h(p, m, n).
Propiedades:
f i — h(fi, m, n) m n
~ m5 . (£.fi0)
h(fi, m, n
n)
B. Recordemos que ¢ es un vector columna y por lo tanto ¢¢J es una
× p p. Probemos la relación entre las distribuciones f X y 5. Tenemos
matriz
f X = m¢JØ—fi¢, donde Ø es Wp(F,m), y ¢¢J es Wp(F,fi). Se cumple
que implica
fi‡¢J Ø—fi ¢ = |Ø ‡ ¢¢J |/|Ø| = fi/h,
donde h = |Ø|/|Ø ‡ ¢¢J | ~ h(p, m, fi) ~ h(fi, m‡fi—p, p). Además ¢J Ø—fi ¢ =
fi/h — fi = (fi — h)/h. De (£.fi0) tenemos que ¢J Ø—fi ¢(m ‡ fi — p)/p ~ 5 p
m‡fi—p
y por lo mp
tanto f X = m¢J Ø—fi ¢ ~ 5p .
m‡fi—p
m ‡ fi — p
38 CAPÝTULO £. NOÆMALIDAD MULTIVAÆIANTE
pfi ‡ · · · ‡ ph = fi.
ƒfi ‡ · · · ‡ ƒh = n. (£.fifi)
fi h
ƒ!···ƒ!
C— = fi
diag(p—fi fi , . . . , p—fi ). (£.fi£)
n h
— fi
C— = fi
ndiag(p fi , . . . , hp—fi )(F — fifiJ ).
£.8. DISTÆIBUCIONES CON MAÆGINALES DADAS 39
H(ı, 4) = P (E ≤ ı, Y ≤ 4).
H O (ı, 4) = 5 (ı)G(4).
y demostró la desigualdad
5 (E) = G(Y ),
y demostrado la
desigualdad
p— ≤ p ≤ p‡,
fi. Farlie-Gumbel-Morgenstern:
£. Clayton-Oakes:
Σ Σ—fiƒ8
H8 = ma´x(5 —8 ‡ G—8 — fi, 0 , —fi ≤ 8 c œ.
3. Ali-Mikhail-Haq:
4. Gumbel-Barnett
†. Cuadras-Augé:
6. Familia de correlación:
2.9. Complememtos
La distribución normal multivariante es, con diferencia, la más utilizada
en análisis multivariante. Textos como Anderson (fi9†6), Rao (fi9F3),
Rencher (fi99†, fi998), se basan, casi exclusivamente, en la suposición de
normalidad. Más recientemente se han estudiado generalizaciones, como las
distribuciones elípticas, cuya densidad es de la forma
Σ Σ
ƒ (x) = |X|—fiƒX g (x — µ)J X—fi (x — µ) ,
4£ CAPÝTULO £. NOÆMALIDAD MULTIVAÆIANTE
INFEÆENCIA
MULTIVAÆIANTE
43
44 CAPÝTULO S. INFEÆENCIA MULTIVAÆIANTE
Sea ds = xs — x. Se s=fi
verifica
Σn Σn
—fi
s=fi (xs — µ) X (xs — µ) =
J
s=fi
ds J X—fi ds ‡ n(x — µ)J X—fi (x — µ)
Σn
s=fi
= tr [X—fi ds ds J ] ‡ n(x — µ)J X—fi (x — µ).
Por lo tanto el logaritmo de J se puede expresar como
log J(X, µ, X) = — Xn log det(XvX) — Xn tr(X—fi S)—Xn (x — µ)J X—fi (x — µ).
Derivando matricialmente respecto de µ y de X—fi tenemos
6
6µ log J = nX—fi(x — µ) = 0,
6 n
6E — log J = X [X — S — (x — µ)(x — µ)J ] = 0.
fi
S.S. CONTÆASTE DE HIPÓTESIS MULTIVAÆIANTES 4†
HO : µfi = µX.
X)p nX
^
siendo S = (nfi Sfi ‡nX SX )/(nfi ‡nX X) la estimación centrada (es
decir, insesgada) de X.
—
HO : µfi = µX = · · · = µg.
T = B ‡ W.
|W|
h = |W ‡ B| ~ h(p, n — g, g — fi).
Lema 3.4.1 Sea X(n × p) una matvss de datos Np (µ, X) 4 u, v dos seGtoves
n × fi ta1es que uJ u = vJ v =fi, uJ v =0.
W. ¢J = uJ X es sndependsente de xJ = vJ X.
48 CAPÝTULO S. INFEÆENCIA MULTIVAÆIANTE
s,j=fi s=fi s
n
= ΣuX
X = X.
s
s=fi
E[(¢—E(¢))(x—E(x))J ] = n
Σ
us vj E[(xs — µ)(xj — µ)J ]
s=fi
= n
Σ
us vs E[(xs — µ)(xj — µ)J ] = uJ vX = 0,
s=fi
Teorema 3.4.1 Sea X(n × p) una matvss de datos Np(0, X) 4 sea C(n n)
una matvss ssmétvsGa.
Demost.: Sea
n
Σ
C= Zs us uJs
s=fi
Demost.:
n
Σ
Cfi = Zs (fi)us uJs , XJ Cfi X = Zs (fi)¢s ¢sJ ,
s=fi
Σ
n
Σ
CX = Zj (X)vj vjJ , XJ CX X = Zj (X)xj xJj ,
j=fi
Σ
siendo ¢s = uJs X, xJj = vjJ X. Por otra parte
J
n n
Cfi CX = Σ Σ Zs (fi)Zj (X)us uJs vj vjJ
s=fi s=fi = 0 → Zs (fi)Zj (X)uJs vj = 0, 6s, j.
Teorema 3.4.3 Sea X(n × p) una matvss de datos Np (µ, X). EntonGes:
es otro (
Σvector propio, ¢s, ¢j son independientes (Lema 3.4.fi). Tenemos que
n—fi
nS = s=fi ¢s ¢J s, donde los ¢s ¢J s son Wp (X, fi) independientes. Q
Teorema 3.4.4 Sean Xs , matvsGes de datos sndependsentes de ovden ns × p
Σg
GOn dsstvsbuGsón Np (µs , X), s = fi, . . . g, n s=fi ns . Ss 1a hspótesss
nu1a
HO : µfi = µX = · · · = µg
es Gsevta, entonGes B, W son sndependsentes GOn dsstvsbuGsones Wsshavt:
B ~Wp(X, g — fi), W ~Wp(X, n — g).
Demost.: Escribimos las matrices de datos como una única matriz
,. .
Xfi
X=
, .. ,
Xg
.
Sean ,
fifi =Σ
(fi, . . . , fi, 0, . . . , 0), . . . , fig = (0, . . . 0, fi, . . . fi),
fi =gs=fi fis = (fi, . . . , fi, . . . , fi, . . . , fi),
donde fifi tiene nfi unos y el resto ceros, etc. Sean también
Σg
Fs = diag(fi—fi s), F = s=fi Fs,
Hs = Fs — n fis fiJs
Σ s Σg —fi
n —fi fifiJ
J
Cfi = gs=fi Hs, CX = s=fi ns fisfis —
.
Entonces X
= C , C X
= C , C
Cfi fi X fiCX = 0,
X
rango(Cfi) = n — g, rango(CX) = g fi,
W = X Cfi X,
J
B = XJ CX X.
El resultado es consecuencia de los Teoremas 3.4.fi y 3.4.£. Q
S.†. CONSTÆUCCIÓN DE CONTÆASTES DE HIPÓTESIS †fi
HO : 8 c © O vs Hfi : 8 c © — ©O.
J(xfi, . . . , xn¡ 8 ^ )
O
ZR = J(xfi , . . . , xn ¡ 8^),
Test de imdepemdemcia
ZR = hnƒX,
t (a) = (n — fi)
X
aJ Sa
Sea A = (x — µO )(x — µO )J matriz de orden p × p y rango fi. Si vfi
satisface Avfi = Zfi Svfi entonces Zfi = ma´x(vJ Av/vJ Sv). De (x — µO )(x
— µO )J vfi = Zfi Svfi resulta que S—fi (x — µO )(x — µO )J vfi = Zfi vfi y de la
identidad
S—fi (x — µO )(x — µO )J (S—fi (x — µO )) = (x — µO )J S—fi (x — µO )(S—fi (x — µO ))
vemos que Zfi = (x — µO )J S—fi (x — µO ), vfi = S—fi (x — µO ). Por lo tanto
f X = ma´x tX (a) = (n — fi)(x — µO )J S—fi (x — µO ). Q
a
†4 CAPÝTULO S. INFEÆENCIA MULTIVAÆIANTE
3.6. Ejemplos
Ejemplo 3.6.1 MosGas.
X
Estadístico f
6×9
: f X
= DX = 55,8t
6‡9
9‡6—fi—X
Estadístico 5 : f X = X5,t8 ~ 5
X
fiX
X(9 ‡ 6 — X)
Decisión: rechazamos la hipótesis de que las dos especies son iguales
(nivel de significación = 0,00fi).
Lambda de Wilks:
|W|
h= = 0,0X3Œ~ h(Œ, fiŒt, X).
|W ‡ B|
Transformación a una 5 aplicando (£.9) con p = Œ, t — q = fiŒt, q = X:
8
h ‹ 5 = fi99,fiŒ ~ 5X88 .
Decisión: las diferencias entre las tres especies son muy significativas.
Medias E Y
Matriz covarianzas
nfi = Xt Œ60,Œ 335,fi . Σ
56fi, t 3tŒ,X
nX = X0 ŒŒŒ,3 3X3,X S^
3tŒ,X 33fi,XŒ
=
Diferencia fi6,fi fifi,9 Correlación: v = 0,86t
Desv. típicas X3,t fi8,X
Suponiendo normalidad, los contrastes t de comparación de medias
para cada variable por separado son:
nn . Σ—fi
nfifi ‡X dJ 56fi, t 3tŒ,
d≤
nX X 3tŒ, X 33fi, 3,X,
XŒ
donde 3.£ es el punto crítico para una F con £ y 44 g. l. Así pues no hay
significación si ı, 4 verifican la inecuación
Pues bien, el test con ı y el test con 4 por separado, son contrastes t
dsstsntos del test f X empleado con (ı, 4), equivalente a una F. Tales
con- trastes no tienen por qué dar resultados compatibles. Las
probabilidades de las regiones de rechazo son distintas. Además, la
potencia del test con (ı, 4) es superior, puesto que la probabilidad de la
región F es mayor que las pro- babilidades sumadas de las regiones A y
B.
Para más ejemplos de comparación de medias, consúltese Baillo y
Grané (£008).
HO : µfi = · · · = µp.
. 0 fi —fi ·. · · 0 .
C = , .. .. .. . . .. ,
0. 0 0 · · · —fi
La hipótesis es equivalente a
HO : Cµ = 0.
Aceptar HO es lo mismo que decir que las medias de las p — fi
variables
— Efi — EX , EX E3 , . . . , Ep—fi Ep son iguales a cero. Por lo
—
tanto (véase la Sección 3.3.fi) aplicaremos el test de la f X de Hotelling a la
matriz de datos V = XCJ . Bajo la hipótesis nula
f X = (n— fi)(Cx)J (CSCJ )—fi (Cx) = n(Cx)J (CS^ CJ )—fi (Cx) ~ f X (p— fi, n— fi),
3.8. Complememtos
C. Stein probó que la estimación ^ µ = x de µ de la distribución N p(µ, X)
puede ser inadmisible si p ≤ 3, en el sentido de que no minimiza
Σp
(µs — µs)X,
^
s=fi
ANÁLISIS DE
COÆÆELACIÓN CANÓNICA
4.1. Imtroduccióm
En este capítulo estudiamos la relación multivariante entre vectores
aleato- rios. Introducimos y estudiamos las correlaciones canónicas, que
son gene- ralizaciones de las correlaciones simple y múltiple.
Tenemos tres posibilidades para relacionar dos variables:
Y^ = ØfiEfi ‡ · · · ‡ ØpEp
63
64 CAPÝTULO Œ. ANÁLISIS DE COÆÆELACIÓN CANÓNICA
Ø^ = X—fi 6. (4.fi)
Demost.:
$(Ø) = E(Y — Y ^)X
= E(Y )X ‡ E(Y^ )X — XE(Y Y )
= var(Y ) ‡ Ø J XØ — XØ J 6
^
Derivando vectorialmente respecto de Ø e igualando a 0
6
$(Ø) = XXØ — X6 = 0. Q
6Ø
Y = Y^ ‡ Y˜ ,
h. RX =sav(Y^ )/sav(Y ).
Demost.:
^ = 6. En efecto,
fi. Es consecuencia de XØ
cov(Y^ , Y˜ ) = E(Y
^ Y˜ ) = E(ØjX
^ (Y — ^
J
ØjX)) = ^
Øj6 — ^
ØjXØ = 0.
^
£. Es consecuencia inmediata de fi).
3. De
. p
Σ p
j j
cov(Y, ^Y ) = Y, Σ Ø^ = Σ Ø^ 6 s = Ø^ 6 = Ø^ XØ^ = var(Y^ ),
s s
cov s=fi E
s
s=fi
obtenemos
RX = covX(Y, Y ) var(Y
) ^ . Q (4.£)
var(Y )^ =
var(Y
var(Y^ ) )
$(a, b) = aJ SfiX b—Xfi ZfiƒX (aJ Sfifi a—fi) — Xfi µfiƒX (bJ SXX b—fi),
donde Z, µ son multiplicadores de Lagrange. Entonces de 6$/6a =6$/6b = 0
obtenemos las dos ecuaciones:
SfiXb—ZfiƒXSfifia = 0, SXfia—µfiƒXSXXb = 0. (4.4)
Multiplicando la primera por aJ y la segunda por bJ , tenemos
—fi
Demost.: Tenemos de (4.4) que a =αS fifi SfiX b, donde α es una constante
—fiƒX
que vamos a comprobar que es Z . Partimos de que aJ Sfifi a =fi y para α =
Z—fiƒX resulta que:
aJ Sfifi a = Z—fiƒX aJ Sfifi S—fi
fifi SfiX b
—fiƒX J
=Z a SfiX b
= Z—fiƒX Z—fiƒX aJ SfiX S—fi
XX SXfi a
= Z—fi ZaJ Sfifi a
= fi.
La correlación es vfi = aJ SfiX b y acabamos de ver que fi = Z—fiƒX aJ SfiX b. Luego
,
vfiX = Zfi , es decir, vfi = Zfi . Q
De hecho, las ecuaciones en valores y vectores propios tienen otras solu-
ciones. Concretamente hay m = m´ın(p, q} parejas de vectores canónicos
afi, bfi, . . . , am, bm, que proporcionan las variables y correlaciones canónicas
$. sov(Us , Vj ) = 0 ss s ƒ= j.
Demost.:
—fiƒX —fiƒX —fiƒX —fiƒX
ØØJ = S SfiX S S SXfi S = UDs X UJ
fifi XX XX fifi
y por lo
tanto —fiƒX —fiƒX
S SfiXS—fiSXfiS us = ‹Xus
Σ Σ
JO = Σ
— n — fi — fi (p ‡ q ‡ log (fi — s .
fi) vX)
Σ m
Y
X
s=fi
|S| |Æ|
h = |Sfifi||SXX| = |Æfifi||ÆXX|,
p(U, V ) = ,
aXa X, fiX b
J
fifi a b XXX b
J .
4.Y. Ejemplos
Ejemplo 4.Y.1 Fams1sas.
La matriz de covarianzas
es: ,., .
S=, ,.
98,tX0 5t,X3X 6t,5fiX 50,5t6
5t,X3X Œ9,t85 ŒX,Œ8fi 38,596
6t,5fiX ŒX,Œ8fi 9Œ,05t Œ9,6ŒŒ
Entonces: 50,5t6 38,596 Œ9,6ŒŒ ŒŒ,390
. .
Sfifi = 98,tX0 5t,X3X 6t,5fiX 50,5t6
Σ 5t,X3X Œ9,t85 , S fiX = Σ ŒX,Œ8fi 38,596 ,
. .
SXfi = 6t,5fiX ŒX,Œ8fi 9Œ,05t Œ9,6ŒŒ
Σ 50,5t6 38,596 , S XX = Σ Œ9,6ŒŒ ŒŒ,390 .
Las raíces de la ecuación cuadrática:
|SfiXS—fi
XX SXfi — ZSfifi| = 0
son: Zfi = 0,t03X, ZX = 0,fi060, y por tanto las correlaciones canónicas son:
Los vectores canónicos normalizados según aJ Sfifi a =fi y bJ SXX b =fi, son:
La dependencia entre (Efi, EX) y (Yfi, YX) viene dada principalmente por la
relación entre (Ufi, Vfi) con correlación 0,838 6, más alta que cualquier cor-
relación entre una variable Es y una variable Yj . Podemos interpretar
las primeras variables canónicas como un factor de ”tamano™ de la cabeza
y las segundas como un factor de ”forma™. Habría entonces una notable
relación en el tamano y una escasa relación en la forma de la cabeza.
El test de independencia entre (Efi, EX) y (Yfi, YX) da
|S|
h= = 0,X653 ~ h(X, XX, X)
|Sfifi||SXX|
nos indican que las regiones más catalanas, en el sentido de que los
nombres castellanos Juan y Juana no predominan tanto sobre los
catalanes Joan y Joana, tienden a votar más a CU y ERC, que son
partidos nacionalistas. Las regiones con predominio de voto al PSC o al
PP, que son partidos centra- listas, están en general, más castellanizadas.
Las segundas variables canónicas tienen una interpretación más difícil.
4.8. Complememtos
El análisis de correlación canónica (ACC) fue introducido por Hotelling
(fi936), que buscaba la relación entre test mentales y medidas
biométricas, a fin de estudiar el número y la naturaleza de las relaciones
entre mente y
Œ.8. COMPLEMENTOS F†
Sin embargo AH suele dar valores bajos. También es una medida de aso-
ciación global
. s ΣX
X
PEY = Σ vs /‹X, (4.†)
s=fi
donde α(E), Ø(Y ) son funciones con varianza finita. Entonces pfi = 0 si E,
Y son variables independientes. Podemos ver a pfi como la primera
correlación canónica, αfi(E), Øfi(Y ) como las primeras variables canónicas
y definir las sucesivas correlaciones canónicas. Sin embargo el cálculo de
pfi puede ser complicado (Cuadras, £00£a). Lancaster (fi969) estudia
estas correlaciones y demuestra que ƒ(ı, 4) se puede desarrollar en serie
a partir de las correla- ciones y funciones canónicas. Diversos autores han
estudiado la estimación de las primeras funciones canónicas, como una
forma de predecir una variable en función de la otra (Hastie y Tibshirani,
fi990). Finalmente cabe destacar que las correlaciones canónicas pueden
constituir un conjunto continuo no numerable (Cuadras, £00†a, £0fi4).
Capítulo 5
ANÁLISIS DE
COMPONENTES
PÆINCIPALES
ta1es que:
FF
F8 CAPÝTULO †. ANÁLISIS DE COMPONENTES PÆINCIPALES
× p
Si T = [tfi , tX , . . . , tp ] es la matriz p cuyas columnas son los
vectores que definen las componentes principales, entonces la
transformación lineal X ‹ V
V = XT (†.fi)
se llama transformación por componentes principales.
EntonGes:
cov(Ys , Yj ) = 0, s ƒ= j = fi, . . . , p.
var(Ys ) = Zs tJs ts = Zs .
Σp Σp
Sea ahora Y = asEs = αsYs una variable compuesta tal que
es
p
Σ
6 sjX = (xs — xj ) (xs — xj ) =
J
(ısh — ıjh )X .
h=fi
fi n
V 6(X) = Σ 6 . Xsj
XnX
s,j=fi
sj h=fi
fi Σn X
Xn X (ıs — ıj ) = ‹ . (†.3)
s,j=fi
En efecto, si ı es la media
n n
fi X fi Σ
n2
Σ(ı — ı ) =s j
n2 (ıs — ı — (ıj — ı))X
s,j=fi s,j=fi
n n
fi Σ
= Σ(ı — ı) ‡Xs fi
(ıj — ı)X
n2 n2
s,j=fi s,j=fi
Σn
5.4. Imferemcia
Hemos planteado el ACP sobre la matriz S, pero lo podemos también
plantear sobre la matriz de covarianzas poblacionales X. Las
componentes principales obtenidas sobre S son, en realidad,
estimaciones de las compo- nentes principales sobre X.
Sea X matriz de datos n × p donde las filas son independientes con
dis- tribución Np(µ, X). Recordemos que:
los vectores propios y valores propios de X. Por otra parte, sea S = GLGJ
la diagonalización de S. Indiquemos:
Z^s = 1s , ç^ s = gs , s = fi, . . . , p.
^ = (1p—h‡fi ‡ · · · ‡ 1p )/h.
Z
W. gs es Np (ç s , Vs /n) donde
Σ Zs
V = Zs s çç
sJs
s
(Z — Zj )X
j s
h. A es sndependsente de
G.
siendo aX = X/(n — fi) y P (|Z| > xαƒX ) = α/X, donde Z es N (0, fi).
Se obtiene otro intervalo de confianza como consecuencia de que log 1 s es
N(log Zs , X/(n — fi))
1s e—axaƒ2 c Zs c 1s e‡axaƒ2 .
El máximo no restringido es
entonces, asintóticamente
Figura †.fi: Representación de los valores propios, que indicaría tomar las
m = 3 primeras componentes principales.
H(m)
O : Zfi > · · · > Zm > Zm‡fi = · · · = Zp
fi p—j f i
E(Jj) = fi00 × Σ .
p s=fi j ‡
s
Las m primeras componentes son significativas si el porcentaje de
varianza explicada supera claramente el valor ·de· E(Jfi) ‡ ‡ E(Jm). Por
ejemplo, si p = Œ, los valores son: ·
5.6. Biplot
Un bsp1ot es una representación, en un mismo gráfico, de las filas
(indi- viduos) y las columnas (variables) de una matriz de datos
× X(n
p).
Suponiendo X matriz centrada, el biplot clásico (debido a K. R. Gabriel),
se lleva a cabo mediante la descomposición singular
X = U2VJ ,
5.Y. Ejemplos
Ejemplo 5.Y.1 Estudsantes.
Sobre una muestra de n = fi00 mujeres estudiantes de Bioestadística,
se midieron las variables
Efi = peso, EX = talla, E3 = ancho hombros, E4 = ancho caderas,
(peso en kg. y medidas en cms.), con los siguientes resultados:
fi. Medias: ıfi = 5Œ,X5¡ ıX = fi6fi,t3¡ ı3 = 36,53¡ ı4 = 30,fi.
£. Matriz de covarianzas:
,. ,
. ŒŒ,t0 fit,t9 5,99 9,fi9
fit,t9 X6,fi5 Œ,5X Œ,ŒŒ .
S = ., .
5,99 Œ,5X 3,33 fi,3Œ ,
9,fi9 Œ,ŒŒ fi,3Œ Œ,56
90 CAPÝTULO †. ANÁLISIS DE COMPONENTES PÆINCIPALES
4. Número de componentes:
†. Componentes principales:
Yfi = 0,83X8Efi ‡ 0,50X9EX ‡ 0,fi36XE3 ‡
0,fi86tE4, YX = 0,5095Efi — 0,855XEX — 0,05
88E3 ‡ 0,0t38E4.
5.8. Complememtos
El Análisis de Componentes Principales (ACP) fué iniciado por K. Pear-
son en fi90fi y desarrollado por H. Hotelling en fi933. Es un método
referente a una población, pero W. Krzanowski y B. Flury han investigado
las compo- nentes principales comunes a varias poblaciones.
El ACP tiene muchas aplicaciones. Una aplicación clásica es el estudio
de P. Jolicoeur y J. E. Mosimann sobre tamano y forma de animales
(como los caparazones de tortugas machos y hembras), en términos de la
primera,
†.8. COMPLEMENTOS 93
s=fi
Ys. Vemos pues que se verifica (†.8) si Y está muy correlacionada con
una componente Ys tal que Zs c fi (por ejemplo, la última componente
principal). Cuadras (fi99†) y Waller (£0fifi) analizan las condiciones bajo
las cuales la desigualdad (†.8) es más acusada.
La regresión ortogonal es una variante interesante. Supongamos que
se quieren relacionar las variables Efi, . . . , Ep (todas con media 0), en el
sentido
de encontrar los coeficientes Øfi, . . . , Øp tales que ØfiEfi ‡ · · · ‡ ØpEp ~= 0. Se
puede plantear el problema como var(ØfiEfi ‡ · · · ‡ Ø pEp) =mínima, condi-
cionado a ØX‡· · ·‡ØX = fi. Es fácil ver que la solución es la última componente
fi p
principal Yp.
Se pueden también definir las componentes principales de un proceso
estocástico y de una variable aleatoria. Cuadras y Fortiana (fi99†),
Cuadras y Lahlou (£000), y Cuadras et a1. (£006), han estudiado los
desarrollos orto- gonales del tipo
Σ
E = œ bnEn,
n=fi
E= Σ
œ Œ
n=fi
[fi — cox(Xn — fi)vE].
vX(Xn — fi)X
Estos desarrollos guardan relación con algunos contrastes de bondad de
ajuste, como los de Anderson-Darling y de Cramér-von Mises, que
admiten expansiones en componentes principales. Véase Cuadras y
Cuadras (£00£), Cuadras (£00†b, £0fi4).
96 CAPÝTULO †. ANÁLISIS DE COMPONENTES PÆINCIPALES
Capítulo 6
ANÁLISIS FACTOÆIAL
6.1. Imtroduccióm
El Análisis Factorial (AF) es un método multivariante que pretende
ex- presar p variables observables como una combinación lineal de m
variables hipotéticas o latentes, denominadas faGtoves. Tiene una
formulación pare- cida al Análisis de Componentes Principales, pero el
modelo que relaciona variables y factores es diferente en AF. Si la matriz
de correlaciones existe, las componentes principales también existen,
mientras que el modelo factorial podría ser aceptado o no mediante un test
estadístico.
Ejemplos en los que la variabilidad de las variables observables se
puede resumir mediante unas variables latentes, que el AF identifica como
”fac- tores™, son:
9F
98 CAPÝTULO 6. ANÁLISIS FACTOÆIAL
Es = a s 5 ‡ d s U s , s = fi, . . . , p. (6.fi)
común
5 y de un factor único Us. El modelo factorial supone que:
a) Variables y factores están estandarizados (media 0 y varianza fi).
b) Los p ‡ fi factores están incorrelacionados.
De este modo 5 contiene la parte de la variabilidad común a
todas las variables, y cada Es está además influida por un factor único
Us , que apor- ta la parte de la variabilidad que no podemos explicar a
partir del factor común. El coeficiente as es la satuvaGsón de la variable
Es en el factor 5. La estandarización es una condición teórica que se
supone al modelo para su estudio, pero que no debe imponerse al
conjunto de datos observados.
De (6.fi) deducimos inmediatamente que
aX ‡ dX = fi,
s s
cor(Es, 5 ) = as,
cor(Es , Ej ) = as aj , s j.
Por lo tanto la saturación as es el coeficiente de correlación entre Es y el
factor común. Por otras parte aX , cantidad que recibe el nombre de
GOmuna1sdad, indicada
s por hX , es la proporción de variabilidad que se
explica por 5 y la correlación entre Es , Ej sólo depende de las
saturaciones as , aj .
Una caracterización del modelo unifactorial es
vsj vsjt as
= , (6.£)
vstj = vstjt ast
6.£. EL MODELO UNIFACTOÆIAL 99
p.
3. Tanto los factores comunes como los factores únicos son variables
re- ducidas (media 0 y varianza fi).
, .. . . . .. ,
apfi · · · apm
var(Es) = aX ‡ · · · ‡ ‡ dX,
sfi
aX sm s
Æ×= X
. vXfi h · · · vXp . .
X
. p .
, .. . . . . . .X. ,
vpfi vpX · · · h
Evidentemente se
verifica Æ = Æ× ‡ DX. (6.9)
6.3.6. Um ejemplo
Ejemplo 6.3.1 Assgnatuvas.
C L
CNa 0,8 0,X
Mat 0,9 0,fi
(6.fifi)
Fra 0,fi 0,9
Lat 0,3 0,8
Lit 0,X 0,8
fi04 CAPÝTULO 6. ANÁLISIS FACTOÆIAL
Asignaturas Factores
Alumno CNa Mat Fra Lat Lit Ciencias Letras
fi t t 5 5 6 t 5
X 5 5 6 6 5 5 6
3 5 6 5 t 5 6 5
Œ 6 8 5 6 6 t 5
5 t 6 6 t 6 6 6
6 Œ Œ 6 t 6 Œ 6
t 5 5 5 5 6 5 6
8 5 6 5 5 5 6 5
9 6 5 t 6 6 5 6
fi0 6 5 6 6 6 5 6
fifi 6 t 5 6 5 t 5
fiX 5 5 Œ 5 Œ 6 Œ
fi3 6 6 6 6 5 6 6
fiŒ 8 t 8 8 8 t 8
fi5 6 t 5 6 6 6 5
fi6 Œ 3 Œ Œ Œ 3 Œ
fit 6 Œ t 8 t 5 t
fi8 6 6 t t t 6 t
fi9 6 5 Œ Œ Œ 5 Œ
X0 t t 6 t 6 t 6
Tabla 6.fi: Calificaciones en † asignaturas y puntuaciones en £ factores
comunes de £0 alumnos.
Las dos primeras asignaturas están más influidas por el factor C, y las
tres últimas por el factor L. Por ejemplo, Matemáticas tiene una
correlación de 0,9 con Ciencias y sólo 0,fi con Letras.
La calificación del primer alumno en CNa es F, debida a F puntos en
Ciencias y † puntos en Letras. Según el modelo factorial:
Teorema 6.4.1 Bajo 1as hspótesss de1 mode1o faGtovsa1 1snea1 se sevsflGa:
Σm
vΣsj = h=fi ash ajh , s ƒ= j = fi, . . . , p,
fi h=fi ash
m
X
‡ dsX, s = fi, . . . , p.
En notaGsón matvsGsa1
= Æ = AAJ ‡ DX . (6.fi£)
fi06 CAPÝTULO 6. ANÁLISIS FACTOÆIAL
Æ× = AAJ . (6.fi3)
Una solución factorial viene dada por cualquier matriz A que cumpla la
relación (6.fi3). Así pues, si m > fi, existen infinitas soluciones, pues si A
es solución, también lo es AT, siendo T una matriz × m m ortogonal. Por
otro lado, (6.fi£) o (6.fi3) tampoco resuelven completamente el problema,
ya que desconocemos las comunalidades. La obtención de las
comunalidades está muy ligada al número de factores comunes.
X = AAJ ‡ DX . (6.fi4)
Vj = aX ‡ · · · ‡ aX .
fij pj
Vfi ‡ Σ Σ
qjj t (vjj t — ajh aj t h ),
t=fi
j,j h=fi
VX = aX ‡ · · · ‡ apXX ,
fiX
fi08 CAPÝTULO 6. ANÁLISIS FACTOÆIAL
Paso 0 ,Æ = U2U
J
(p vectores propios de Æ)
(fi) fiƒX
. ÆA =U
fifi =diag(A
m (2AJfi )) ‡ Æ
fim F (m primeros
(matriz vectores reducida)
correlaciones propios)
Paso —
fi
, (fi) (fi)
Æfi = UfiƒX
(s)(s) 2 U(fi)J (p vectores propios de Æfi )
. ,As = U
(2 m ) m J
Paso Æ =diag(A A)‡Æ F (repetir iterativamente)
s , s i i
Æs =U(s) 2(s) U —(s)J
65p
6V = diag(X—fi(X — S)X—fi).
Por tanto, las ecuaciones a resolver para obtener estimaciones de A y V son
X—fi(X — S)X—fiA = 0, diag(X—fi(X S)X—fi) = 0,
(6.fi6)
X = AAJ ‡ V, AJ V—fi A es diagonal.
P =(psj)
Ø = P0,
Æ = P0PJ ‡ DX .
P = Ø, 0 = Fm.
H=Σ Σ qX Σ ,
Σ p Σ ç Σ
qXX — qX
m Σ q p p
h=fi hƒ=j=fi sj sh p sj sh
s=fi s=fi s=fi
P = AL, 0 = TJ T, Ø = AT.
0 = BBJ ‡ EX ,
u = D—fi(x — Af)
uJ u = uXfi ‡ · · · ‡ upX ,
fifi6 CAPÝTULO 6. ANÁLISIS FACTOÆIAL
f = B—fi AJ D—X x,
C L
CNa fi 0
Mat fi 0
Fra 0 fi
Lat 0 fi
Lit 0 fi
interpretando que las dos primeras sólo dependen del factor Ciencias y
las otras tres del factor Letras. Entonces podemos realizar una
transformación de la matriz factorial inicial para ajustarnos a la matriz
anterior.
Si la solución inicial es A, postulamos una estructura B y deseamos
en- contrar T ortogonal tal que AT se aproxime a B en el sentido de los
mínimos cuadrados
tr[(B — AT)J (B — AT)] = mínimo,
fi £ 3 4 † 6 F 8 9
fi fi 0,3fi8 0,Œ68 0,335 0,30Œ 0,3X6 0,fifi6 0,3fiŒ 0,Œ89
£ fi 0,X30 0,X3Œ 0,fi5t 0,fi95 0,05t 0,fiŒ5 0,fi39
3 fi 0,3Xt 0,335 0,3X5 0,099 0,fi60 0,3Xt
4 fi 0,tXX 0,tfiŒ 0,X03 0,095 0,309
† fi 0,685 0,XŒ6 0,fi8fi 0,3Œ5
6 fi 0,fit0 0,fifi3 0,X80
F fi 0,585 0,Œ08
8 fi 0,5fiX
9 fi
P 0 Comun.
0,tfi 0,00 0,00 0,50
0,5Œ —0,03 0,08 0,X6
0,6t 0,0Œ —0,09 0,Œ6
X
0,00 0,8t 0,00 fi 0,t6 zfiX = 9,tt
—0,03 0,8fi 0,fi3 0,5Œ fi 0,t0 p = 0,6Œ
0,0fi 0,8X —0,0fi 0,XŒ 0,X8 fi 0,68
0,00 0,00 0,t8 0,6fi
0,ŒX —0,30 0,t3 0,68
0,56 —0,06 0,Œfi 0,5Œ
P 0 Comun.
0,68 0,00 0,00 0,Œ6
0,5X 0,00 0,00 0,Xt
0,69 0,00 0,00 0,Œ8
0,00 0,8t 0,00 fi 0,tt zXX4 = 5fi,fi9
0,00 0,83 0,00 0,5Œ fi 0,69 p = 0,00fi
0,00 0,83 0,00 0,5X 0,3Œ fi 0,69
0,00 0,00 0,66 0,Œ3
0,00 0,00 0,80 0,63
0,00 0,00 0,t0 0,Œ9
P 0 Comun.
0,38 0,58 0,00 0,00 0,Œ8
0,XŒ 0,Œfi 0,35 0,00 0,3t
0,38 0,53 0,30 — 0,03 fi 0,5X
0,8t 0,00 0,03 0,00 0,0 fi 0,t5 zX6 = X,t5
0,83 0,0fi — 0,fi3 0,06 0,0 0,0 fi 0,tX p = 0,8Œ
0,83 0,0fi 0,0Œ —0,0X 0,0 0,0 0,0 fi 0,68
0,XŒ 0,0X 0,00 0,95 0,95
0,fi5 0,Œ3 —0,fi3 0,5t 0,56
0,36 0,59 —0,XX 0,3Œ 0,6Œ
6.10. Complememtos
Constituyen dos precedentes del Análisis Factorial el concepto de fac-
tor latente de F. Galton y de eje principal de K. Pearson. El primer trabajo,
publicado en fi904, por Ch. Spearman (Spearman, fi904) desarrolla una
teoría de la inteligencia alrededor de un factor común, el factor ”g™.
Esta teoría,
fi£0 CAPÝTULO 6. ANÁLISIS FACTOÆIAL
ANÁLISIS CANÓNICO
DE POBLACIONES
Y.1. Imtroduccióm
Con el Análisis de Componentes Principales podemos representar los
indi- viduos de una población, es decir, representar una única matriz de
datos. Pero si tenemos varias matrices de datos, como resultado de
observar las variables sobre varias poblaciones, y lo que queremos es
representar las poblaciones, entonces la técnica adecuada es el Análisis
Canónico de Poblaciones (CANP).
Supongamos que de la observación de p variables cuantitativas Efi, . . . , Ep
sobre g poblaciones obtenemos g matrices de datos
, ,
Xfi nfi × p
XX nX × p
X=. .
, .. ..
,
Xg ng × p
X= .
, xJg — xJ ,
fi£3
fi£4 CAPÝTULO F. ANÁLISIS CANÓNICO DE POBLACIONES
Avs = ZsSsvs,
novma1ssados según
vsJ Ss vs = fi.
Gos seGtoves vfi , . . . , vp son 1os seGtoves GanónsGOS 4 1as savsab1es
GanónsGas son 1as savsab1es GOmpuestas
Ys = Xvs.
F.£. VAÆIABLES CANÓNICAS fi£†
Restando (Zj — Zs )tJs Stj = 0 → tJs Stj = 0 → covA (Ys , Yj ) = Zj tsJ Stj =
covA (Ys , Yj ) = 0, si s j. Además, de tJs Sts = fi:
Σp varA (YsΣ
) = Zs tJs Sts = Zs .
p
Sea ahora Y = asEs = αsYs una variable compuesta tal que
ΣS p s=fi
X
αs =
s=fi fi. Entonces varA(Y )
va
r (Y ) = Σp es:
s=fi
s=fi . Σ
αsX varXS(YsX)
varA . p α X Σ
= = α
sY sΣ α s Zs ≤ p
vap
p
= Zfi
s s
s=fi r ( s varA(
Σ Σs=fi YAs = Yfi), α
)= fi
Σs=
fi
fi£6 CAPÝTULO F. ANÁLISIS CANÓNICO DE POBLACIONES
s=X
Σs=XØ =
s
fi.
Entonces varA(Y )
es: Σ
. p ØsYsΣ Σs= Σs= .
Xp Xp p
varA Σ = X
Øs varA(Ys) = X
Øs Zs Σ Ø Xs ZX = varA(YX),
s=X ≤ s=X
V =XV.
¢s ¢jJ J
= xs S—fi xJj →→ XS—fi X = VVJ . (F.£)
J
Sea 2 =diag(Zfi , . . . , Zp ) la matriz diagonal con los valores propios de A =X X
respecto de S. Entonces
AV = SV2 con VJ SV = Fp ,
sj h=fi
V (V) fi
6 fi
sj
Σ 6X (m) = gΣ Z , s
m= s,j=fi s=fi
donde ‹X Σ
j
= gs=fi 4sjX )/g representa la varianza ordinaria de la columna Yj
de V. Esta( suma de varianzas es
J
tr( fi VJ V) = fi tr(VJ X XV) = fi tr(VJ AV) = fi tr(2)
g g g g
h = m´ın(p, g — fi}.
(x — µ )J S—fi (x
(n — g)p p
s s s — µ ) ~ n (n — g — p ‡ 5 n—g—p‡fi.
s
ns
que define una región confidencial hiperelíptica para µs con coeficiente de
confianza fi — α. Pero la transformación canónica ¢Js = xJs V convierte a
(xs — µs )J S—fi (xs — µs ) en (¢s — µ×s )J (¢s — µ×s ) y por lo tanto
Σ X
Σ
P (¢s — µ× )J (¢s — µ× ) ≤ R α = fi — α.
s s
ns
Esta transformación convierte además hiperelipses en hiperesferas
(elipses en círculos si la dimensión es £), ya que las variables canónicas
están incor- relacionadas, lo que también es válido si reducimos la
dimensión (tomamos las m primeras coordenadas canónicas). Q
Por ejemplo, si elegimos fi — α = 0,95 y una representación en dimensión
reducida £, cada población vendrá representada por un círculo de centro ¢s
,
y radio RO,O† / ns , de manera que el vector de medias proyectado pertenece
al círculo con coeficiente de confianza 0,95. La separación entre los
centros indicará diferencias, mientras que si dos círculos se solapan, será
un indicio de que las dos poblaciones son posiblemente iguales.
Y.6. Ejemplos
Ejemplo Y.6.1 Go1eóptevos.
Y.Y. Complememtos
El Análisis Canónico de Poblaciones (CANP) fue planteado por M. S.
Bartlett en términos de correlación canónica entre las poblaciones y las
va- riables observables. C. R. Rao lo relacionó con la distancia de
Mahalanobis y lo estudió como una técnica para representar poblaciones.
Su difusión es debida a Seal (fi964).
Existen diferentes criterios para obtener la región confidencial para las
medias de las poblaciones. Aquí hemos seguido un criterio propuesto por
Cuadras (fi9F4). Una formulación que no supone normalidad es debida a
Krzanowski y Radley (fi989). A menudo los datos no cumplen la condición
de igualdad de las matrices de covarianzas, aunque el CANP es válido si
las matrices muestrales son relativamente semejantes.
En el CANP, y más adelante en el Análisis Discriminante, interviene
la descomposición T = B ‡ W, es decir:
Si los datos provienen de g poblaciones con densidades ƒ s(x), medias y
fi36 CAPÝTULO F. ANÁLISIS CANÓNICO DE POBLACIONES
µ =pfiµfi‡ · · · ‡pgµg,
y la matriz de covarianzas es
g g
X = Σ ps (µs — µ)(µs — µ)J ‡ Σ ps Xs .
s=fi s=fi
(µfi —µX )J X—fi (µfi —µX ) > (µfi —µX )J [diag(X)]—fi (µfi —µX ),
ESCALADO
MULTIDIMENSIONAL
(MDS)
8.1. Imtroduccióm
Representar un conjunto finito cuando disponemos de una distancia
entre los elementos del conjunto, consiste en encontrar unos puntos en un
espacio de dimensión reducida, cuyas distancias euclídeas se aproximen
lo mejor posible a las distancias originales.
Sea K = w ( fi, wX, . . . , wn}un conjunto finito con n elementos diferentes,
que abreviadamente indicaremos
K = (fi, X, ..., n}.
Sea 6sj = 6(s, j) una distancia o disimilaridad entre los elementos s, j de
K.
Se habla de dsstanGsa (métrica) cuando se cumplen las tres
fi3F
fi38 CAPÝTULO 8. ESCALADO MULTIDIMENSIONAL (MDS)
ta1es
que p
Σ
6Xsj = (ısα — ıjα )X = (xs — xj )J (xs — xj ) (8.fi)
α=fi
Indicaremos las coordenadas de los puntos xfi, . . . , xn, que representan los
elementos fi, . . . , n de K, en forma de matriz
G = XXJ .
8. £. ¿CUÁNDO
UNA DISTANCIA ES EUCLÝDEA? fi39
y por lo
tanto X
6 sj = bss ‡ bjj — Xbsj = ass ‡ ajj — Xasj . (8.3)
Supongamos que O es euclídea. Entonces G = XXJ . De (8.£) resulta que
Propiedades:
Efi = · · · = Ep = 0
B = XXJ = XXJ .
La matriz de covarianzas de X es
fi
S = XJ X = TDT J,
n
donde D es diagonal y T es la matriz ortogonal de la transformación
en componentes principales. Entonces:
XJ X = nTDTJ ,
XXJ X = nXTDT,J
BXT = XTnD,
fi4£ CAPÝTULO 8. ESCALADO MULTIDIMENSIONAL (MDS)
V (X) fi fi sh
fi
6 m=
sj
Σ 6X (m) = XnX Σ Σ — ıjh )X = n Σ Z h
XnX s,j=fi (ı
s,j=fi h=fi h=fi
es máximo.
Demost.: Sea ıfi, ..., ın una muestra con media ı = 0 y varianza ‹X. Se
verifica entonces que ‹X es:
n n n
fi . n
fi
Σ ıXs ‡ ıX — X sΣ,j ıs ıj Σ
j
XnX (ı X
s — ıj ) =
sΣ,j XnX s,j=fi sΣ,j
n
=fi n =fi =fi
= fi Σnj Σns=
=fi fi Σn
XnX X
ıs ‡ n X
ı —X ıs ıjΣ .
. Σs=fi j
sj=fi
Σp
Luego V 6(X) = h=fi
‹Xh.
Hemos demostrado que para cualquier matriz X tal que B = XXJ ,
la suma de las varianzas de las columnas de X es igual a la
variabilidad geométrica. Si en particular tenemos las coordenadas
principales, esta suma de varianzas es la suma de los valores
propios dividida por n, y puesto que las columnas son componentes
principales, sus varianzas son respectivamente máximas.
El porcentaje de variabilidad explicada por los m primeros ejes
principales es la proporción de variabilidad geométrica
V 6(X)m Σm
Σ h=fi Zh
Pm = fi00 (X)= fi00 p .
V6 h=fi Zh
8.Œ. SIMILAÆIDADES fi43
8.4. Similaridades
En ciertas aplicaciones, especialmente en Biología y Psicología, en
lugar de una distancia, lo que se mide es el grado de similaridad entre
cada par de individuos.
Una similaridad ‹ sobre un conjunto finito K es una aplicación de
×K K
en R tal que:
‹(s, s) ≤ ‹(s, j) = ‹(j, s) ≤ 0.
fi44 CAPÝTULO 8. ESCALADO MULTIDIMENSIONAL (MDS)
donde Sf tiene todas sus filas iguales, y como HSf = SJf H = 0, resulta que
B = HAH = HSH.
Por lo tanto:
fi. Si S es matriz (semi)definida positiva, la distancia d sj es euclídea.
£. rango(HSH) = rango(S) — fi.
3. Las coordenadas principales se obtienen diagonalizando HSH.
8.†. NOCIONES DE MDS NO MNTÆICO fi4†
6 sfi jfi ≤ 6 s2 j2 ≤ · · · ≤ 6 sm jm .
decir,
podemos escribir
donde
(s, j) ≤ (sJ , j J ) si 6 sj ≤ 6 st j t .
Se trata de representar K en un espacio que conserve la preordenación.
Por ejemplo, si consideramos las tres matrices de distancias sobre
{A,B,C,D}:
A B C D A B C D A B C D
A 0 fi £ 3 0 fi fi fi 0 fi fi fi
B 0 fi £ 0 fi fi 0 fi fi
C 0 fi 0 0 0 fi
D 0 0 0
^6 = . X
sj — Xa ss s ƒ= j
sj
X
6 0 ss s = j
donde a c 0 es una GOnstante. Ga tvansfovmaGsón adstssa se deflne GOmo
.
^6 sj 6sj ‡ s ss s = j
= 0 ss s = j
ƒ
donde s > 0 es una GOnstante.
Es evidente que las dos transformaciones aditiva y q-aditiva conservan
la preordenación de la distancia. Probemos ahora que la primera puede
dar lugar a una distancia euclídea.
Teorema 8.5.1 Sea O una matvss de dsstanGsas no euG1sdeas 4 sea Zpt c 0
e1 menov sa1ov pvopso de B. EntonGes 1a tvansfovmaGsón q−adstssa
pvopovGsona una dsstanGsa euG1sdea pava todo a ta1 que a ≤ Zpt .
£. Distancia
euclídea:
‚. p
dX(x, ¢) = , (ıs — 4s )X
Σs=fi
3. Distancia ”dominante™:
d(|(x,—¢) =
|}œma´x ıs 4s
fi≤s≤p
fi p |ıs — 4s |
dC (x, ¢) = Σ.
s=fi
ı p
s ‡ s
4
dG y dC son invariantes por cambios de escala.
Supongamos ahora dos poblaciones Kfi, KX con vectores de medias
µfi, µX y matrices de covarianzas Xfi, XX. Cuando Xfi = XX = X, la distancia
de Mahalanobis entre poblaciones es
fi. Entre individuos. Si dos individuos s, j tienen las categorías Ah, Aht ,
respectivamente, una distancia (al cuadrado) entre s, j es:
.
X 0 si h = hJ ,
d (s, j) = si h ƒ= hJ .
h h t
p—fi ‡ p —fi
Teniendo en cuenta la g-inversa C p =diag(p—fi fih, . . . , p—fi ) de la
—
Modelo de Thurstome
Supongamos que queremos ordenar n estímulos w fi, . . . , wn (por ejemplo,
n productos comerciales)
wsfi ≤ · · · ≤ wsn
según una escala de preferencias 8sfi ≤ · · · ≤ 8sn , donde los 8s son
parámetros. Sea psj la proporción de individuos de la población que
prefieren w j sobre ws . Un modelo es∫
fi 8 —8
2
j s
Distamcia de Æao
Sea S8 = (ƒ(x, 8), 8 c ©} un modelo estadístico y x(8) = 686 log ƒ(x, 8)
un vector columna. La matriz de información de Fisher 5 (8) es la matriz
de covarianzas de x. Sean 8a, 8b dos valores de los parámetros. Una
distancia tipo Mahalanobis sería el valor esperado de
8.Y. Ejemplos
Ejemplo 8.Y.1 Hevvamsentas pvehsstóvsGas.
Dro Dal Gro Fon Vie Zur HueBar For For Etn Fru The Sil Tra Cha Ora Aga Las
D4oBA 0
DALKE .30F 0
s4oNx .fi†£.£F6 0
roNTA .£Ffi.££†.fi†0 0
vxENA .£60.3F0.fi8F.fi9† 0
xw4xr .£3†.300.fifi£.fi£0.fi£8 0
mwELVA .F8£.6†F.69†.†80.†40.6£3 0
BA4rE .6fi†.46†.†£9.4fi£.469.44†.£†9 0
ro4Nx .F80.6†F.693.60F.606.609.3F3.309 0
ro4Es .8F9.F90.80fi.F64.F60.F6fi.396.490.4†£ 0
ETNA .94fi.846.8F3.8fi3.8fi8.8fiF.4fi4.†£4.4†fi.fiFF 0
r4wsK .†60.†0†.4F0.44£.34£.39fi.†FF.460.†0fi.68fi.696 0
TmEss .668.†4†.†9£.†fi4.434.†00.†0£.39£.363.†90.630.3fi† 0
sxLxr .F63.643.680.†84.†8fi.6fi0.4fi4.3†F.4fi3.646.66F.†44.340 0
T4ABx .F†fi.6fi9.6F†.†8£.†fi9.†8F.4fi8.34£.399.†8F.648.439.£69.£86 0
rmALw .F09.489.636.†48.†3fi.†49.†9†.489.†fi4.63†.649.444.408.†F4.438 0
o4ANsE .94F.86F.864.F8£.83F.F9†.†F3.†F4.†68.†fi9.†3†.F8£.F33.696.698.F60 0
AsADx .9£F.834.844.803.F89.F9£.4£8.498.48†.3£9.303.666.66fi.64£.63fi.Ffi0.3£fi 0
LAsME .93fi.699.846.F49.80£.F9£.404.48†.4£9.380.£†3.6†9.†66.604.††fi.460.6fi†.430 0
Inmenso,
Voluminoso, Alto, Delgado, Elevado, Fino, Largo, Ancho, Angosto,
Estrecho, Grande, Grueso, Profundo, Hueco, Denso, Pesado,
Ligero.
Figura 8.6: Relación entre las distancias originales y las disparidades, indi-
cando que se conserva bien la preordenación de las distancias.
8.8. Complememtos
En un plano teórico, el MDS comienza con el teorema de I. J.
Schoenberg acerca de la posibilidad de construir las coordenadas de un
conjunto de puntos dadas sus distancias. A nivel aplicado, es de destacar
a W. S. Torgerson, que en fi9†F aplica el MDS a la psicología, y Gower
(fi966), que prueba su relación con el Análisis de Componentes
Principales y el Canónico de Poblaciones, abriendo un fructífero campo
de aplicación en la biología.
El MDS no métrico es debido a R. N. Shepard, que en fi96£ introdujo
el concepto de preordenación, y J. B. Kruskal, que en fi964 propuso
algoritmos efectivos que permitían encontrar soluciones. La
transformación q-aditiva fue estudiada por J. C. Lingoes y K. V. Mardia.
Diversos autores estudiaron la transformación aditiva, hasta que Cailliez
(fi983) encontró la solución defi-
fi60 CAPÝTULO 8. ESCALADO MULTIDIMENSIONAL (MDS)
ANÁLISIS DE
COÆÆESPONDENCIAS
9.1. Imtroduccióm
El Análisis de Correspondencias (AC) es una técnica multivariante que
permite representar las categorías de las filas y columnas de una tabla de
contingencia.
Supongamos que tenemos dos variables categóricas A y B con I y J
cate- gorías respectivamente, y que hanΣ sido observadas cruzando las I
categorías A con las J categorías B, obteniendo n = sj ƒsj observaciones,
donde ƒsj es el número de veces en que aparece la intersección As fiBj ,
dando lugar a la tabla de contingencia I × J :
Bfi BX ··· BJ
Afi
ƒfifi ƒXfi ƒfiX ƒXX ··· ƒfiJ ƒXJ ƒfi·
AX ƒX·
.. .. ··· .. (9.fi)
.. ... ..
ƒIfi ƒIX ƒIJ
AI ··· ƒI·
ƒ·fi ƒ·X ··· n
ƒ·J
Σ Σ
donde ƒs· = j ƒsj es la frecuencia marginal de As , ƒ·j = s ƒsj es la
fre- cuencia marginal de Bj. Debemos tener en cuenta que, en realidad, la
tabla
fi6fi
fi6£ CAPÝTULO 9. ANÁLISIS DE COÆÆESPONDENCIAS
Afi AX · · · AI Bfi BX · · · BJ
fi fi 0 ··· 0 fi 0 ··· 0
. . . .. . . . . .. . .
s 0 0 · · · fi 0 fi ··· 0
.. . .. .
. . . ··· . . . ··· .
n 0 0 fi 0 0 fi
en la que damos el valor fi cuando se presenta una característica y 0
cuando no se presenta. Así, el individuo ”fi“ presentaría las
características Afi y Bfi, el individuo ”s“ presentaría las características AI y
BX , y el individuo ”n“ las características AI y BJ . La matriz de datos n
× (I ‡ J) es pues
X = [X, V].
P = fin N,
r = PfiJ , s = PJ fiI .
Tenemos entonces
que fi fi
r= XJ fin , s= VJ fin ,
n n
Dv = diag(r), Dc = diag(s),
XJ X = nDv , VJ V = nDc , XJ V = nP = N.
9. £.
CUANTIFICACIÓN DE LAS VAÆIABLES CATEGÓÆICAS fi63
Puesto que la suma de las variables es igual a fi, las matrices Sfifi y SXX
son singulares.
U = Xa, V = Vb.
En efecto,
(D —rrJ )D—fi (D —rrJ ) = (D —rrJ )(F — firJ )
v v v
v = Dv —Dv firJ —rrJ ‡rrJ firJ
= Dv —rrJ —rrJ ‡rrJ
= Dv —rrJ .
fi64 CAPÝTULO 9. ANÁLISIS DE COÆÆESPONDENCIAS
donde S—fiƒX
fifi
— fiƒX
= D v , S XX
— = D—c fiƒX . Es decir, el primer valor singular
fiƒX
es la máxima correlación entre las variables U y V. Pero pueden haber más
vectores y correlaciones canónicas, y por lo tanto la solución general es
pues el producto por una constante (en este caso un valor singular), no
altera las correlaciones.
Ø = D—v fi P.
9.S. ÆEPÆESENTACIÓN DE FILAS Y COLUMNAS fi6†
G = ØDc—fi ØJ ,
y de
deducimos que
Filas Columnas
Afi (afifi, afiX) Bfi (bfifi, bfiX)
AX (aXfi, aXX) BX (bXfi, bXX)
.. .. .. ..
AI (aIfi , aIX ) BJ (bJ fi , bJ X )
luego
Dv—fi (P — rsJ )BD—fi
Z
= A.
9.Œ. ÆEPÆESENTACIÓN CONJUNTA fi6F
D—fi —fi
c (P —sr )AD Z = B.
J J
Conviene notar que Dv—fi P son los perfiles de las filas, y D—c fi PJ son los
perfiles de las columnas. Así pues tenemos que, salvo el factor dilatadorZ D
—fi
, (pues
los elementos diagonales de DZ son menores que fi), se verifica:
fi. Las coordenadas de las filas son las medias, ponderadas por los
perfiles de las filas, de las coordenadas de las columnas.
Edad
Producto Joven Mediana Mayor Total
A F0 0 0 F0
B 4† 4† 0 90
C 30 30 30 90
D 0 80 £0 fi00
E 3† † fi0 †0
Total fi80 fi60 60 400
Tabla 9.fi: Clasificación de 400 clientes según edades y productos
adquiridos en un supermercado.
. 0,XX5 . 0,fi5
P=. , 0,0t5 0,0t5 0,0t5 . , r = 0,XX5 , s = , 0,Œ0 ,.
. . . .
0,000 0,X00 0,050 , , 0,X50 ,
0,08t5
La matriz de 0,0fiX5
perfiles 0,0X5
de las 0,fiX5 principales son:
filas y las coordenadas
,. , , ,
. fi,00 0,00 0,00 fi,fi0 —0,fiX .
. 0,50 0,50 0,00 . , ,
. 0,05 —0,ŒX . 0,t5 —0,0Œ
0,00 0,80 0,X0, , 0,9X 0,fiX, —0,Œ5 0,t6
0,t0 0,fi0 0,X0 0,5Œ 0,30
— —
Ø = ., 0,33 0,33 0,33 . , A = . —0,fi8 0,Œ8 . , B = , —0,68 —0,XŒ , .
Los valores singulares son: Zfi = 0,68Œt, ZX = 0,33fifi. La primera
coor- denada principal de las filas Afi, . . . ,A† verifica:
fi,fi0 = 0, 68Œt—fi(0, t5 × fi ‡ 0 ‡ 0)
0,05 = 0, 68Œt—fi(0, t5 × 0, 5 — 0, 68 × 0, 5 ‡ 0)
—0,fi8 = 0, 68Œt—fi(0, t5 × 0, 33 — 0, 68 × 0, 33 — 0, Œ5 × 0, 33)
—0,9X = 0, 68Œt—fi(0 — 0, 68 × 0, 8 — 0, Œ5X × 0, X)
0,5Œ = 0, 68Œt—fi(0, t5X × 0, t — 0, 68 × 0, fi — 0, Œ5 × 0, X)
Las coordenadas de las marcas A, B, C, D, E son medias de las
coordenadas de las tres edades, ponderadas por la incidencia del
producto en la edad.
9. †. SOLUCIONES
SIMNTÆICA Y ASIMNTÆICA fi69
P — rsJ = Dv ABJO Dc ,
Color cabellos
Color ojos Rubio Rojo Castano Oscuro Negro Total
rLA4o 688 fifi6 †84 fi88 4 fi,†80
AxwL 3£6 38 £4fi fifi0 3 Ffi8
rAsTAño 343 84 909 4fi£ £6 fi,FF4
osrw4o 98 48 403 68fi 8fi fi,3fifi
Total fi,4†† £86 £,fi3F fi,39fi fifi4 †,383
Tabla 9.£: Clasificación de †383 individuos según el color de los ojos y del
cabello.
Z ,
siendo K = m´ın(I, J} h=fi
y
I J X
Σ Σ (ƒsj — ƒs· ƒ·j /n)
X
z =n ƒs· ƒ·j
s=fi j=fi
el estadístico ji-cuadrado con (I— fi)(J fi) g.l. que permite decidir si hay
independencia entre filas y columnas de N. Es decir, la ji-cuadrado es n
veces la suma de los valores propios del AC.
9.6. VAÆIABILIDAD GEOMNTÆICA (INEÆCIA) fiFfi
Σ Σ psj —fi.
X
$ = vs s j
s=fi j=fi
Demost.:
Σ
J (p /v — p t /v t ) X
sj s sj s ΣJ psj ps t j X
X
6sst = = ( — ) sj
j=fi vs sj vst sj
j
j=fi s
fiF£ CAPÝTULO 9. ANÁLISIS DE COÆÆESPONDENCIAS
Por lo tanto
I I J
ΣΣ
fi Σ 6 psj ps t j X
X v s( ) s j vs t
s=fi V
st=fi=
j=fi vs sj — vst sj
Si desarrollamos por un lado
ΣI ΣI ΣJ 2 ΣI ΣI ΣJ 2
sj sj
p p
p
st=fi j=fi vs v2 c2 sj vst =Σ Σst=fi vt
j=fi vs cj s
s=fi s=fi
2
sj
I J
ΣI =
j=fi vs cj ,
sj
y por otro lado, dado que s=fi
s=fi
psj = sj ,
psj pst j ΣJ psj pst j
j
ΣI ΣI ΣJ =
st=fi v s vt
j=fi s vs c2 vst j s
= ΣI ΣI
t j=fi
ΣsJ =fi sjcj
cj
cj =
p fi,
s=fi s=fi
Σ
s=fi j=fi
p2
I
Σ
X)/X, siendo α =
h=fi h
ΣV (m) =
Z .6
6 —
ΣK
Proposicióm 9.6.2 $X =
ZX.
X
Demost.: Sea
W = Dv—fiƒX (P — rsJ )D—c fiƒX = UDZ V J.
Entonces
9.F. ANÁLISIS DE COÆÆESPONDENCIAS MÚLTIPLES fiF3
Pero
rJ a = tr(DfiƒX AAJ DfiƒX ) = tr(UDX UJ ) = tr(DX ).
v v Z Z
Q
Así pues, en la representación por AC de las filas y columnas de N en
dimensión m, el porcentaje de variabilidad geométrica o inercia viene dado
por Σm
ZhX
P = fi00 × h=fi
K X
. (9.6)
Σm h=fi Zh
a) X. b) Bu.
9.8. EJEMPLOS fiF†
9.8. Ejemplos
Ejemplo 9.8.1 VotaGsones.
Hombres Mujeres
Edad Derecha Izquierda Derecha Izquierda
Clase alta
>F3 4 0 fi0 0
†fi-F3 £F 8 £6 9
4fi-†0 £F 4 £† 9
£6-40 fiF fi£ £8 9
c£6 F 6 F 3
Clase media
>F3 8 4 9 £
†fi-F3 £fi fi3 33 8
4fi-†0 £F fi£ £9 4
£6-40 fi4 fi† fiF fi3
c£6 9 9 fi3 F
Clase obrera
>F3 8 fi† fiF 4
†fi-F3 3† 6£ †£ †3
4fi-†0 £9 F† 3£ F0
£6-40 3£ 66 36 6F
c£6 fi4 34 fi8 33
, ,
8fi 0 0 0 0 †6 £† fi4 £3 44 39 4£
. 0 34F 0 0 0 fi94 fi†3 F0 F† £0£ fi66 fi8fi .
. 0 0 343 0 0 fi69 fiF4 6† F£ £06 fiF4 fi69 .
0 0 0 3£6 0 fi44 fi8£ 66 †9 £0fi fi†6 fiF0
. 0 0 0 0 fi60 68 9£ £3 38 99 F9 8fi .
†6 fi94 fi69 fi44 68 63fi 0 fiF8 fi80 £F3 £F9 3†£
. £† fi†3 fiF4 fi8£ 9£ 0 6£6 60 8F 4F9 33† £9fi .
fi4 F0 6† 66 £3 fiF8 60 £38 0 0 fifi£ fi£6
. £3 F† F£ †9 38 fi80 8F 0 £6F 0 fi3£ fi3† .
. 44 £0£ £06 £0fi 99 £F3 4F9 0 0 F†£ 3F0 38£ .
, 39 fi66 fiF4 fi†6 F9 £F9 33† fifi£ fi3£ 3F0 6fi4 0 ,
4£ fi8fi fi69 fiF0 8fi 3†£ £9fi fi£6 fi3† 38£ 0 643
ssendo
fi
DfiƒX (X) fiƒX X
m (F g—fiw )(— X Ag )(F g —wfi )D m = U2 U ,
J J J
(9.F)
una desGOmpossGsón espeGtva1, donde 2X = dsag(ZX , . . . , ZX ) GOntsene 1os sa−
1oves pvopsos 4 O(X) = (6 X ). fi p
g sj
V 6 = fi gΣ us 6 X uj = fi
wJ O(X) w.
X sj X g
s,j=fi
Propiedades:
Demost.:
Σ Si la media de ıfi , . . . , ıg es 0, la varianza ponderada es
u ıXs , es
decir,s ‹X = DfiƒX E J Eh DfiƒX = (U J Zh )(Zh Uh ) = ZX ,
h m h m h h
fi g
w= (nfi , Xn , . . .g , n ), n = Σ n ,s
n s=fi
9.9. MDS PONDEÆADO fi8fi
On = MOg MJ , (9.9)
Se
verifica
(Fn — fin fifiJ )M = M(Fg — fig wJ ).
Por lo tanto, de (9.8) tenemos
fi
Tomando n suficientemente grande, podemos aproximarlo tanto como queramos.
fi8£ CAPÝTULO 9. ANÁLISIS DE COÆÆESPONDENCIAS
ı3fi ı3X
9.10. Complememtos
El Análisis de Correspondencias (AC) tiene una larga historia que se
inicia en fi93† (H.O. Hirschfeld, R.A. Fisher, L. Guttman). Ha sido
extensamente estudiado por Benzécri (fi9F3) Oy Greenacre (fi984).
Utilizando coordenadas estándar AO = (a ), BO = (bO ), podemos expre-
sh jh
sar la matriz de correspondencias P = (psj) como
P = rsJ ‡ Dv AO DZ BJO Dc .
Indicando r = (pfi· , . . . , pI· )J , s = (p·fi , . . . , p·J )J los vectores marginales de
filas y columnas de P, la expresión escalar es
KO O
psj = ps· × p·j .fi ‡ Σ Zh a b Σ .
sh jh
h=fi
Si el término entre paréntesis α = ZhaO bO , es suficientemente pequeno
ΣK
h=fi sh jh
para que log(fi ‡ α) = α, entonces
K
CLASIFICACIÓN
10.1. Imtroduccióm
Clasificar los elementos de un conjunto finito consiste en realizar una
par- tición del conjunto en subconjuntos homogéneos, siguiendo un
determinado criterio de clasificación. Cada elemento pertenece a un único
subconjunto, que a menudo tiene un nombre que lo caracteriza. Así
clasificamos:
Las personas en hombres y mujeres.
Los trabajadores en actividades profesionales: servicios, industria,
agri- cultura.
Los animales en especies, géneros, familias y órdenes.
Los libros de una biblioteca en arte, literatura, ciencia, informática
y viajes.
Sea K = w
( fi, wX, . . . , wn}un conjunto finito con n elementos diferentes,
que abreviadamente indicaremos
K = (fi, X, ..., n}.
Clasificar es también definir una relación de equivalencia
Y sobre K. Esta
relación define una partición sobre K en m clases de equivalencia:
K = sfi ‡ sX ‡ · · · ‡ sm,
donde ‡ significa reunión disjunta. A la partición la llamaremos G1ustevsng
y a las clases de equivalencia G1ustevs (conglomerados).
fi8F
fi88 CAPÝTULO fiO. CLASIFICACIÓN
6s c K, (s} c C.
K c C.
Comemtarios:
fi. El primer axioma significa que si tenemos dos clusters, uno está
incluido en el otro o ambos son disjuntos, escdecir, s c sJ , ó sJfi s, ó s
Ø
sJ = . Se trata de evitar que un elemento de K pertenezca a dos
clusters excluyentes a la vez, ya que entonces estaría mal clasificado.
£. El segundo axioma significa que cada cluster es reunión de los
clusters que contiene. Es decir, reuniendo clusters obtenemos
clusters más am- plios. Por ejemplo, en el reino animal, un género
es reunión de especies, una familia es reunión de géneros, etc.
fiO.£. JEÆAÆØUÝA INDEXADA fi89
→ ssj .ƒ Ø
fi sjh = a) ssj c sjh → s, h c sjh, → sY h. Q
b) sjh c ssj → s, h c ssj, ı
→
La relación (fi0.fi) define, para cada ı≤0, una partición de K en clases
de equivalencia. La partición se llama clustering al nivel ı.
., Arag ,
Huexca
´on . Teruel
.
. Catalun˜a Xaragoza
. ..Barcelona
,
Kxpan˜a
, L´erida
. Tarragona
Gerona
,.
Madrid Madrid
Pvopsedad u1tvamétvsGa:
.. .. .. sj js ss
. .. ,
unfi unX · · · unn
Demost.:
u(s, j) ≤ xup(u(s, h), u(j, h)} ≤ u(s, h) ‡ u(j, h). Q
Demost.: Sea (s, j, h un triángulo. Sea u(s, j) es el lado más pequeno, en-
tonces: }
K = sfi ‡ sX ‡ · · · ‡ sm
K = sfi ‡ · · · ‡ ss U sj ‡ · · · ‡ sm .
uJ (sa , sb ) = u(sa , sb )
≤ xup(u(sa , ss ), u(sb , ss )} = xup(uJ (sa , ss U sj ), uJ (sb , ss U sj )},
uJ (sa , ss U sj ) = u(sa , ss )
≤ xup(u(sa , sb ), u(sb , ss )} = xup(uJ (sa , sb ), uJ (sb , ss U sj )}. Q
£. Sean s, j los dos elementos más próximos: u(s, j) = mínimo. Los unimos
(s} U (j} = (s, j}
y definimos la nueva distancia ultramétrica uJ
uJ (h, (s, j}) = u(s, h) = u(j, h), h ƒ= s, j,
(ver Teorema fi0.3.4).
3. Consideremos la nueva partición:
K = (fi} ‡ · · · ‡ (s, j} ‡ · · · ‡ (n}
y repitamos el paso £ hasta llegar a K. En este proceso, cada
vez que unimos ss con sj tal que u(ss , sj ) = mínimo, definimos el
índice
α(ss U sj ) = u(ss , sj ).
Teorema 10.5.1 Sea (C, α) una jevavqusa sndexada tota1 sobve un GOnjunto
K. EntonGes podemos deflnsv una dsstanGsa u1tvamétvsGa u sobve K.
ÆeGspvoGa− mente, todo espaGso u1tvamétvsGO (K, u) deflne una jevavqusa
sndexada (C, α).
u(s, j) = α(ssj),
ssh fi sjh ƒ= Ø
K = (fi} ‡ · · · ‡ (n}.
£. Sean s, j los dos elementos más próximos: 6(s, j) = mínimo. Los unimos
(fi0.F) En otras
se transforme en ultramétrico
a b s d e
(a, b) s d e
a 0 fi 3 Œ t (a, b) (s, d) e
(a, b) 0 3 Œ t
O= b 0 Œ Œ 8‹
s 0 X 8‹
(a, b) 0 3 t
‹
s 0 X 8 (s, d) 0 t
d 0 t
d 0 t e 0
e 0
e 0
(a, b, s, d) e
(a, b, s, d) 0 t ‹ C = ((a}O , . . . , (e}O , (a, b}fi , (s, d}X , (a, b, s, d}3 , KF }
e
a b s d e
a 0 fi 3 3 t
b 0 3 3 t
(C, α) ›‹ U =
s 0 X t
d 0 t
e 0
se convierta en ultramétrico
Comemtarios:
Teorema 10.6.3 Gos métodos de1 msnsmo 4 de1 máxsmo son snsavsantes
pov tvansfovmaGsones monótonas de 1a dsstanGsa 6 :
6 J = Q(6) → uJ = Q(u)
EntonGe
s 6s c B(sO, v) vevsƒ ssa B(s, v) = B(sO, v).
fiO.F. MÁS PÆOPIEDADES DEL MNTODO DEL MÝNIMO £0fi
Demost.: [s, j]X = (s, j} es una cadena que une s, j y por lo tanto
Sea [s, j, h] una cadena que une s, j pero que contiene h. El conjunto
de las cadenas [s, j, h] está contenido en el conjunto de las cadenas [s,
j]. Por lo tanto:
´ınf xup[s, j]m ≤ ´ınf xup[s, h, j]mt (fi0.9)
m m
t
£0£ CAPÝTULO fiO. CLASIFICACIÓN
Por otra parte, dadas las cadenas [s, j], [j, h] podemos construir
de modo
que xup[s, h, j] = xup(xup[s, j], xup[j, h]}
Teniendo en cuenta (fi0.9) deducimos que
Por lo
tanto u(s, j) ≤ ´ınf xup[s, j]m = u(s, j). Q
m
10.8. Ejemplos
Ejemplo 10.8.1 Pvofesoves.
Are Cor Cua For Mar Nua Oli Oll Rov San Sar
Arenas 0
Corcuera fi 0
Cuadras 0,50 fi 0
Fortiana 0,83 fi 0,06 0
Marquez fi fi fi fi 0
Nualart fi fi fi fi fi 0
Oliva fi fi 0,33 0,33 fi fi 0
Oller fi 0,t5 fi fi fi fi fi 0
Rovira fi fi fi fi fi fi fi fi 0
Sanz fi fi fi fi 0,33 0,93 fi fi 0,fifi 0
Sarra fi fi fi fi 0,t5 fi fi fi fi 0,X5 0
Aplicando un análisis cluster, método del mínimo (single linkage), a
esta matriz de disimilaridades, obtenemos el dendograma de la Figura
fi0.£. Este gráfico pone de manifiesto que hay tres grupos principales con
4, £ y † pro- fesores, que trabajan en análisis multivariante (AM),
estadística matemática (EM) y análisis estocástico (AE), respectivamente.
£04 CAPÝTULO fiO. CLASIFICACIÓN
Ale Ing Vas Cat Cas Dan Fin Fra Gal Hol Hun Ita Nor Pol
Alemán 0
Inglés £9 0
Vasco 4† 44 0
Catalán 34 £8 4† 0
Castellano 3£ £9 46 fiF 0
Danés 30 £6 43 £F 3fi 0
Finés †8 †† †9 †F †† †9 0
Francés 33 3£ 46 fi3 £4 33 †9 0
Gallego 3£ £F 44 fi3 F £6 †† £3 0
Holandés fi9 £† 43 43 3£ £9 †6 33 33 0
Húngaro 4£ 38 4† 40 4£ 36 †6 38 40 3F 0
Italiano 3F 3† 46 ££ fiF 3£ 60 £4 fi† 36 4† 0
Noruego £9 £F 43 £9 3£ 3 †8 33 £F £8 36 33 0
Polaco 4† 44 †3 44 36 44 †6 4† 38 4£ †£ 4£ 44 0
disminuye a cada
paso.
Pero s1fi y s1X no están definidos para h = fi. Un tercer criterio propone el
estadístico
W(h)
H(h) = . fiΣ—
/(n h — fi),
W(h ‡ fi)
empieza con h = fi y aumenta h si H(h) — crece significativamente de
acuerdo con una aproximación a la distribución F.
Tibshirani et a1. (£00fi) proponen un método que contempla también
el caso h = fi. Partiendo del resultado de cualquier clasificación, jerárquica
o no, comparan el cambio de log | W(h)| respecto al cambio esperado para
una distribución apropiada de referencia, es decir,
10.11. Complememtos
La historia de la clasificación comienza con la sistemática de Carl von
Lin- né, que permitía clasificar animales y plantas según género y
especie. La clasi- ficación moderna (denominada taxonomía numérica) se
inicia en fi9†F con la necesidad de proponer criterios objetivos de
clasificación (Sokal, Sneath, Michener). Posteriormente, diversos autores
relacionaron las clasificaciones jerárquicas con los espacios ultramétricos
(Benzecri, Jardine, Sibson, John- son), dado que la propiedad ultramétrica
ya era conocida en otros campos de la matemática. Hartigan (fi96F) y
Johnson (fi96F) son dos referencias im- portantes para representar
matrices de similaridades (o disimilaridades) me- diante dendogramas y
relacionarlos con las clasificaciones jerárquicas. Véase Gordon (fi999).
Una crítica que se ha hecho al análisis cluster es el excesivo repertorio
de distancias y métodos de clasificación. Incluso se han realizado
clasifica- ciones de las propias maneras de clasificar, y clasificaciones
jerárquicas de las distancias. También se ha argumentado (Flury, fi99F)
que el planteamiento correcto del análisis cluster consiste en encontrar
mixturas
Criterio de agrupación αs αj Ø ç
Mínimo (single linkage) fi/X fi/X 0 —fi/X
Máximo (complete linkage) fi/X fi/X 0 ‡fi/X
Media (weighted average fi/X fi/X 0 0
link)
wPsMA (group average link) ns /(ns ‡ nj ) nj /(ns ‡ nj ) 0 0
ANÁLISIS DISCÆIMINANTE
11.1. Imtroduccióm
Sean Kfi, KX dos poblaciones, Efi, ...,Ep variables observables.
Indiquemos x = (ıfi , ..., ıp ) las observaciones de las variables sobre un
individuo w. Se trata de asignar w a una de las dos poblaciones. Este
problema aparece en muchas situaciones: decidir si se puede conceder
un crédito¡ determinar si un tumor es benigno o maligno¡ identificar la
especie a que pertenece una planta, etc.
Una veg1a dssGvsmsnante es un criterio que permite asignar w
conocido (ıfi , ..., ıp ), y que a menudo es planteado mediante una función
discriminante D (ıfi , ..., ıp ). Entonces la regla de clasificación es
£fifi
£fi£ CAPÝTULO fifi. ANÁLISIS DISCÆIMINANTE
= (qfiƒfi(x)—qXƒX(x))dx‡qX.
R
× 2
Indiquemos x = qfi ƒfi (x)—qX ƒX (x). Esta última integral es mínima si RX× in-
cluye todas las x tales que xc0 y excluye todas las x tal que x>0. Por tanto
pse× es mínima si RX× = RX , siendo RX = (x|B(x) c0}. Q
£fi4 CAPÝTULO fifi. ANÁLISIS DISCÆIMINANTE
11.4. Ejemplo
Ejemplo 11.4.1 Gopépodos.
Discrimimador limeal
La estimación de la matriz de covarianzas común es:
. Σ
S = (nfiSfi ‡ nXSX )/(n fi 30fi,Œ 3fi,0X
‡ nX ) = 3fi,0X XXX,6 .
Estadio asignado
fi £
Estadio fi 6fi fi†
original £ £fi F0
Discrimimador de Bayes
Una larva, desde que eclosiona está 4 horas en el estadio fi y 8 horas
en el estadio £. Al cabo de fi£ horas, la larva pasa a un estadio fácilmente
identificable. Por tanto, una larva tiene, a priori, una probabilidad Œ/fiX =
fi/3 de pertenecer al estadio fi y una probabilidad 8/fiX = X/3 de
pertenecer al estadio £. Así qfi = fi/3, qX = X/3, y el discriminador de Bayes
es
B(long, anch) = V (long, anch) ‡ log(fi/X) = —0,069 long — 0,03Œ anch ‡ X0,XŒ
£fi8 CAPÝTULO fifi. ANÁLISIS DISCÆIMINANTE
Discrimimador cuadrático
El test de homogeneidad de covarianzas nos da:
fi3 )Σ (fi835,Œ — 88X,5 — 9X6, 3X) = X6,XX
zX = Σfi — ( fi fi
fi ‡ —
fi8 t5 90
fi65
con 3 g.l. Las diferencias entre las matrices de covarianzas son significati-
vas. Por tanto, el discriminador cuadrático puede resultar más apropiado.
Efectuando cálculos se obtiene:
Ø(long, anch) = 0,00fiŒ longX ‡ 0,00X anchX — 0,00X long × anch
—0,ŒŒ5 long — 0,fiŒfi anch ‡ tX,36
a Ks .
(fifi.†)
Introduciendo las funciones discriminantes lineales
. ΣJ . ΣJ . Σ
Jsj (x) = µs — µj X—fi x— fiX µs — µj X—fi µs ‡ µj
11.Y. Complememtos
El Análisis Discriminante se inicia en fi936 con el trabajo de R.A.
Fisher sobre clasificación de flores del género Iris. A. Wald y T.W.
Anderson estu- diaron las propiedades del discriminador lineal. L. Cavalli y
C. A. B. Smith introdujeron el discriminador cuadrático.
J. A. Anderson, en diversos trabajos, estudió el modelo de
discriminación logístico. Si definimos
la regla de clasificación es
DISCÆIMINACIÓN
LOGíSTICA V OTÆAS
4 = fi si A se presenta, 4 = 0 si A no se presenta.
J = p4(fi — p)fi—4,
pues J = p si 4 = fi, J = fi — p si 4 = 0.
Si realizamos n pruebas independientes y observamos 4fi, . . . , 4n, la
verosimi- litud es
Yn
J= p4s (fi — p)fi—4s = ph(fi — p)n—h
s=fi
££3
££4 CAPÝTULO fi£. DISCÆIMINACIÓN LOGÝSTICA Y OTÆAS
Σ
siendo h = 4s la frecuencia absoluta de A en las n pruebas. Para estimar
p resolvemos la ecuación de verosimilitud
6
ln J = 0
6p
cuya solución es^p = h/n, la frecuencia relativa del suceso A. La
distribución asintótica
^ de p es normal N(p, p(fi p)/n).
Muy distinta es la estimación cuando esta probabilidad depende de
— La probabilidad de A debe entonces modelarse
otras variables.
adecuadamente.
Tomando logaritmos
n
Σ
ln J = 4s ln p(xs)(fi — p(x))fi—4s
s=fi
££6 CAPÝTULO fi£. DISCÆIMINACIÓN LOGÝSTICA Y OTÆAS
6Ø0 s t
fi‡eØ0‡Ø xs
= fi — p(x )
s
6 t
eØ0‡Ø x
6Øj ln p(xs) = ısj —ısj t
= ısj (fi — p(xs))
fi‡eØ0‡Ø xs
x =^Ø s /.var(Ø s ),
Se(t) = P (p(x) > t|4 = fi) = fi — E‹(t) = P (p(x) > t|4 = 0).
http://www.umass.edu/statdata/statdata/
£30 CAPÝTULO fi£. DISCÆIMINACIÓN LOGÝSTICA Y OTÆAS
Σj
$X6 (x) es la media de las distancias de x, que es fija, a t, que varía aleato-
riamente, menos la variabilidad geométrica.
fi£.£. ANÁLISIS DISCÆIMINANTE BASADO EN DISTANCIAS £3†
y el discriminador lineal es
Σ Σ
fi
J (x) = X$XX(x) — $Xfi (x) .
V^fi = fi Σ
n fi
fi
n2
X
(fi) V = Σ 6 (X).
X
sj
6
sj
XnX
XnX , ^X
fi s,j=fi X s,j=fi
6s (X) — ^
X
fi
n Vfis=fi
, n X
VXs=fi
.
La regla DB en el caso de muestras es
X X
^ (x) ≤ $ (¢) asignamos w a Kfi,
Si $ fi X
en caso contrario asignamos w a KX.
^
Esta regla solamente depende de distancias entre observaciones y es
preciso insistir en que el conocimiento de x, ¢, no es necesario. La regla
DB clasifica w a la población más próxima:
Q
Ejemplo 12.2.1 Dsagnosss.
Krzanowski (fi9F†) ilustra el llamado ”location model™ para llevar a
cabo análisis discriminante con variables mixtas (cuantitativas, binarias,
categóri- cas). Los datos describen un grupo de fi3F mujeres, F8 con
tumor benigno y †9 con tumor maligno, con respecto a F variables
cuantitativas, £ binarias y £ categóricas (con tres estados cada una).
Véase Krzanowski (fi980) para una descripción de los datos.
Tomando los fi3F casos, se calcula el número de individuos mal
clasifica- dos utilizando el discriminador lineal LDF (fifi.£), el discriminador
euclídeo (fi£.4), el ”location model™ LM (que consiste en ajustar un
discriminador lineal para cada combinación de las variables categóricas) y
el discriminador basado en distancias DB, utilizando el coeficiente de
similaridad de Gower (8.fi£) para variables mixtas y transformándolo en
distancia mediante (8.8). Los resultados están contenidos en la siguiente
tabla. Con el método DB se clasifican equivocadamente sólo 39 mujeres.
Tumor Benigno Maligno Total
Casos F8 †9 fi3F
LDF 3fi £F †8
EDF £9 3F †6
LM £fi £4 4†
DB fi8 £fi 39
fi£.S. COMPLEMENTOS £39
Para otros ejemplos con datos categóricos o mixtos, véase Cuadras (fi99£b).
12.3. Complememtos
Albert y Anderson (fi984) probaron que en el modelo logístico, los esti-
madores máximo verosímiles de los parámetros no existen si hay
completa separación de las muestras de las dos poblaciones. Además, si las
muestras es- tán muy diferenciadas, las estimaciones de los parámetros
no funcionan. Por ejemplo, en el caso de los datos de flores del género
Ivss, (véase Tabla 3.£), las estimaciones resultan demasiado grandes y no
son correctas. Longford (fi994) estudió la función de verosimilitud en el
modelo de regresión logística con coeficientes de regresión aleatorios.
Existen otros métodos de análisis discriminante, algunos no-
paramétricos, otros para variables mixtas, como el método del núcleo, del
vecino más pró- ximo, el basado en el ”location model™ de Krzanowski
(fi9F†), etc. Consúltese McLachlan (fi99£).
Los métodos de análisis discriminante basados en distancias pueden
abor- dar todo tipo de datos y han sido estudiados por Cuadras (fi989,
fi99£b,
£008), Cuadras et a1. (fi99F), Cuadras y Salvo (£0fi8a). Estos métodos
per- miten mejorar la ordenación y formación de clusters, véase Anderson
y Willis (£003) y De Cáceres et a1. (£006).
Dadas dos poblaciones Np (µfi , X) y Np (µX , X), el problema de la
tsps− Ga1sdad consiste en decidir si una observación x proviene de la
mixtura Np (αµ —fi ‡ (fi α)µ≤X , X),
≤ 0 α fi, o de una tercera población
Np (µ3 , X). Por ejemplo, en una prospección arqueológica puede
interesar averiguar si un cráneo pertenece a un mismo grupo humano
(en el que hay hombres y mujeres), o bien a otro grupo distinto. Este
problema ha sido estudiado por
Rao (fi9F3) y Bar-Hen y Daudin (fi99F) para datos normales. Para datos
en general se puede abordar también mediante distancias, véase
Cuadras y For- tiana (£000). El caso de varias poblaciones ha sido
estudiado por Bar-Hen (£00fi) e Irigoien y Arenas (£008). En Jauregui et
a1. (£0fifi) se lleva a cabo una interesante aplicación a la robótica.
£40 CAPÝTULO fi£. DISCÆIMINACIÓN LOGÝSTICA Y OTÆAS
Capítulo 13
EL MODELO LINEAL
¢ = (4fi , 4X , . . . , 4n )J .
£. El vector de parámetros:
Ø = (Ø fi , Ø X , . . . , Ø m )J .
£4fi
£4£ CAPÝTULO fiS. EL MODELO LINEAL
3. La matriz de
diseno: , ,
ıfifi ıfiX · · · ıfim
. .
. ı Xfi ıXX ·
. · · ıXm . .
X =, . ,
.
ınfi ınX · · · ınm
sea mínimo.
Teorema 13.3.1 foda estsmaGsón GS de Ø es so1uGsón de 1as eGuaGsones
XJ XØ = XJ ¢ (fi3.3)
denomsnadas eGuaGsones novma1es de1 mode1o.
Demost.:
eJ e =(¢ — XØ)J (¢ — XØ) = ¢J ¢—XØ J XJ ¢ ‡ Ø J XJ XØ.
Derivando vectorialmente respecto de Ø e igualando a cero
6
eJ e = —XXJ ¢‡XXJ XØ = 0
6Ø
obtenemos (fi3.3). Q
Distinguiremos dos casos según el rango del diseno.
a) v = m. Entonces la estimación de Ø es única:
^ = (XJ X)—fi XJ ¢.
Ø (fi3.4)
b) v c m. Cuando el diseno no es de rango máximo una solución es
^ = (XJ X)— XJ ¢,
Ø
donde (XJ X)— es una inversa generalizada de XJ X.
La suma de cuadrados residual de la estimación de Ø es
RX = (¢ — XØ^ )J (¢ — XØ^ ) = Σ(4s —
n
O 4^s )X ,
s=fi
siendo
4^s = ısfi Ø^ fi ‡ · · · ‡ ısm Ø^ m .
£44 CAPÝTULO fiS. EL MODELO LINEAL
13.3.2. Variamza
La varianza común de los términos de error, o X =var(es ), es el otro
parámetro que debemos estimar en función de las observaciones ¢ = (4fi , . . . ,
4n )J y de X. En esta estimación interviene de manera destacada la suma
de cuadrados residual.
^ = XJ ¢ — XJ XØ = 0.
XJ e^ = XJ (¢ — XØ) Q
^
Teorema 13.3.2 Sea ¢ = XØ ‡ e e1 mode1o 1snea1 donde e satssfaGe 1as su−
possGsones bássGas de1 mode1o (SeGGsón fh.W). EntonGes e1 estadsstsGO
E(xs ) = tJs XØ = ys si s ≤ v,
= 0 si s > v,
^ ^
^ anterior) y las n — v componentes
cero (por el lema de TJ XØ son también
T ^e Por tanto
cero.
es J
TJ ^
e = (0, . . . , 0, xv‡fi , . . . , xn )J
y en n
consecuencia
s
ROX = ^e ^e = ^e TT
J
xX.
^e = JJ
s=Σv
‡fi
fiS.Œ. ALGUNOS MODELOS LINEALES £4†
y por
tanto s=Σv
n
E(RoX) ‡fi E(xXs ) = (n — v)oX. Q
=
Bajo el modelo lineal normal, la estimación de Ø es estocásticamente
independiente de la estimación de oX, que sigue la distribución ji-cuadrado.
†. ROX/oX ~ zXn—m .
En general, si v =rango(X) ≤ m, se cumple que ROX/oX sigue la distribu-
ción zX . Véase el Teorema fi3.†.fi.
n—v
, fi ıfifi · · · ıfim
. fi ıXfi · · · ıXm
X =. ,. .
, .. .. . . . .. ,
fi ınfi · · · ınm
αfi ‡ · · · ‡αh = 0,
y por tanto cabe considerar solamente los parámetros µ, αfi, . . . ,αh—fi. Por
ejemplo, si h = 3, nfi = nX = X, n3 = 3, las matrices de diseno inicial X (de
rango v = 3 c m = Œ) y restringida (de rango máximo), son:
X˜
HO : HØ = 0. (fi3.9)
H = AX.
Observaciomes:
a) Suponemos que la matriz H es de rango t.
b) Solamente podremos construir un test (el test F) para decidir si
podemos aceptar o no una hipótesis lineal si esta hipótesis es
”demostrable™.
c) Es evidente que si el modelo es de rango máximo, v = rango(X) = m,
cualquier hipótesis lineal es demostrable.
Cuando una hipótesis (fi3.9) es cierta, los parámetros Ø se convierten en
8 y la matriz de diseno X en X.˜ Así el modelo lineal, bajo H O, es
˜ ‡ e.
¢ =X8 (fi3.fi0)
X˜ = XC.
La estimación LS de 8
es
^ ˜J —fi
X˜ ¢
˜8= (X
y la suma de cuadrados residual es
X)
X J
) (¢ — XØ )H
El siguiente teorema es conocido como Teorema Fundamental del
H
Análisis de la Varianza.
f. RXO/oX ~ zXn—v .
W. Ss HO es Gsevta
fiX X Rf X
—i RX X
R ~ zn— ~ zt ,
X
oX
vt , o
ssendo vJ = v — t.
h.X Ss HO es Gsevta, 1os estadsstsGOS (RX — RX ) 4 son estoGástsGamente
R
fi O O
sndependsentes.
tal que
Cvt (XC) = [tfi, . . . , tvt ] c Cv(X) = [tfi, . . . , tv].
Siguiendo los mismos argumentos del Teorema fi3.3.£, tenemos que
Σ
n
RfiX= xsX
s=vt‡fi
y RX/oX sigue la distribución zX t . Por otro lado
fi n—v
Σ
v
xX
X X
R fi — RO =
s=v ‡fis
t
^
Si HO es cierta, solamente interviene el parámetro Ø O, evidentemente ØOH = 4
(media muestral) y las sumas de cuadrados residuales son
n n
X X
RO = Σ(4s — 4^s ) , Rfi = Σ(4s — 4)X ,
X
s=fi s=fi
13.Y. Complememtos
Hemos visto los aspectos fundamentales del modelo lineal. Un estudio
más completo incluiría:
a) análisis gráfico de los residuos, b) efectos de la colinealidad, c) mí-
nimos cuadrados ponderados, d) errores correlacionados, e) selección de
las variables, etc. Véase Scheffé (fi9†9), Pena (fi989), Chatterjee y Price
(fi99fi), Carmona (£00†).
Para tratar variables explicativas mixtas, podemos construir un modelo
lineal considerando las dimensiones principales obtenidas aplicando
análisis de coordenadas principales sobre una matriz de distancias entre
las observa- ciones. Consultar Cuadras y Arenas (fi990), Cuadras et a1.
(fi996).
£†£ CAPÝTULO fiS. EL MODELO LINEAL
Capítulo 14
ANÁLISIS DE LA
VAÆIANEA (ANOVA)
£†3
£†4 CAPÝTULO fiŒ. ANÁLISIS DE LA VAÆIANXA (ANOVA)
Indiquemos también:
ØT = ØE ‡ ØD.
HO : µfi = · · · = µh.
Por tanto, como una consecuencia del Teorema fi3.†.fi, tenemos que:
Bfi BX ··· Bb
4fi· 4X· Afi 4fifi 4fiX ··· 4fib
AX 4Xfi 4XX ··· 4Xb ..
.
.. . .. .. .. 4a·
.
Aa 4afi 4aX ··· 4ab 4··
4·fi 4·X ··· 4·b
siendo a b
4s· = fi Σ
b fi Σ
a fi
4 , 4·j = 4 , 4·· = 4 = Σ Σ sj
sj sj ab 4 ,
b j=fi a s=fi s=fi j=fi
las medias por filas, por columnas y general. Supongamos que los datos
se ajustan al modelo (fi3.F) con las restricciones (fi3.8), donde µ es la
media general, αs es el efecto del nivel As del factor fila, Ø j es el efecto del
nivel Bj del factor columna. El rango del diseno y los g.l. del residuo son
s=fi j=fi
£†6 CAPÝTULO fiŒ. ANÁLISIS DE LA VAÆIANXA (ANOVA)
ØT = ØA ‡ ØB ‡ ØR.
RX = Σ Σ(4sj — 4s· )X .
fi
s=fi j=fi
Ahora bien, desarrollando (4sj — 4s· )X = ((4·j — 4)‡(4sj — 4s· — 4·j ‡4))X resulta
que RfiX = ØB ‡ ØR.
Análogamente, si HA es cierta, obtendríamos RX = ØA ‡ ØR. Por el Teorema
O fi
fi3.†.fi se verifica:
fi)
siendo
b,c a,c
4s·· fi Σ fi Σ
= sjh , 4·j· = sjh,
4 4
bs as
j,h=fi s,h=fi
ØT = ØA ‡ ØB ‡ ØAB ‡ ØR.
siendo:
µ = media general,
αA, αB, αC = efectos principales de A,B,C,
s j h
AB
αBC , αAC , = interacciones entre A y B, A y C, B y C,
αsj sh jh
αABC
sjh = interacción entre A,B y C,
esjhh = desviación aleatoria N(0, oX).
Son hipótesis de interés: HA : αA = 0 (el efecto principal de A no es signi-
O s
ficativo), HAB : αAB = 0 (la interacción entre A y B no es significativa), etc.
O s
Los contrastes para aceptar o no estas hipótesis se obtienen descomponiendo
la variabilidad total en sumas de cuadrados
Σ
(4shjh — 4)X = A ‡ B ‡ C ‡ AB ‡ AC ‡ BC ‡ ABC ‡ R,
s,j,h,h
g. l., AB tiene (a— fi)(b fi) g. l. Si interpretamos las réplicas como un factor
D, el residuo es
con
Bfi BX ··· Bb
Afi
ƒfifi ƒXfi ƒfiX ƒXX ··· ƒfib ƒXb ƒfi·
AX ƒX·
.. .. ··· ..
.. ... ..
ƒafi ƒaX ƒab
Aa ··· ƒa·
ƒ·fi ƒ·X ··· n
Σ Σ ƒ·b
la condición de independencia es
siendo Σa Σb
Z =( ln 5sj )/ab,
Σ
= (s=fi j=fi
A b ln 5sj)/b — Z,
s j=fi ln 5sj)/a — Z.
a
ZBj Σ= ( s=fi
El modelo (fi4.£) es un ejemplo de mode1o 1og−1snea1.
En general no se puede aceptar la independencia estocástica. Por tanto,
hemos de anadir un término ZsjAB a (fi4.£) y escribir
ln 5sj = Z ‡ ZA ‡ ZB ‡ ZAB,
s j sj
£6£ CAPÝTULO fiŒ. ANÁLISIS DE LA VAÆIANXA (ANOVA)
Clase
Género Edad Supervivencia fi £ 3 T
Hombre Adulto NO fifi8 fi†4 38F 6F0
Mujer 4 fi3 89 3
Hombre Nino 0 0 3† 0
Mujer 0 0 fiF 0
Hombre Adulto SÍ †F fi4 F† fi9£
Mujer fi40 80 F6 £0
Hombre Nino † fifi fi3 0
Mujer fi fi3 fi4 0
Tabla fi4.fi: Tabla de frecuencias combinando género, edad, supervivencia
y clase, de los datos del "Titanic".
Ejemplo 14.5.1
Analicemos los datos de supervivencia del "Titanic"(véase el Ejemplo
9.8.£), Tabla fi4.fi.
Indicamos por $ la parte del modelo que contiene los efectos
principales y las interacciones de orden inferior a la máxima propuesta.
Por ejemplo, en el caso del modelo [GESC], tendríamos
$ = Z ‡ ZG ‡ ZE ‡ ZS ‡ ZC ‡ ZGE ‡ ZGS ‡ ZGC ‡ ZES ‡ ZEC ‡ ZSC
s j h 1 sj sh s1 jh j1 h1
14.6. Complememtos
El Análisis de la Varianza fue introducido por R. A. Fisher en fi938,
para resolver problemas de diseno experimental en agricultura. Hemos
visto que es una aplicación del modelo lineal. Existen muchos disenos
diferentes, cuyo estudio dejamos para otro momento.
Los primeros estudios y aplicaciones consideraban factores de efectos
fi- jos. En fi94F, C. Eisenhart consideró que algunos efectos podían ser
aleato- rios. Ciertamente, los efectos que actúan sobre los modelos
pueden ser fijos, aleatorios o mixtos, y cuando hay interacciones el
cálculo de los cocientes F es diferente. Véase Cuadras (£000), Huitson
(fi966), Pena (fi989).
En ANOVA de un factor hemos supuesto datos independientes e
igualdad de varianzas, es decir, X = oXF. Pero S. Wilks probó que el test
F, véase (fi4.fi), sigue siendo válido si las variables son
equicorrelacionadas,
si es decir,
, ,
fi p ··· p
. .
X .
p fi · · · p .
X = o , .. .. . . . .. ,
.
p p · · · fi
En el caso general de una X cualquiera, debe aplicarse Análisis de
Perfiles, dando lugar también a un test F, véase (3.3).
Capítulo 15
ANÁL. MULTIV. DE LA
VAÆIANEA (MANOVA)
15.1. Modelo
El análisis multivariante de la varianza (MANOVA) es una
generalización a p > fi variables del análisis de la varianza (ANOVA).
Supongamos que tenemos n observaciones independientes de p variables
observables Yfi, . . . , Yp, obtenidas en diversas condiciones
experimentales, co- mo en el caso univariante. La matriz de datos es
V = XB ‡ E (fi†.fi)
£6†
£66 CAPÝTULO fi†. ANÁL. MULTIV. DE LA VAÆIANXA (MANOVA)
siendo X la matriz de
diseno
ıfifi ıfiX · · · ıfim ,. ,
X = ,. ıXfi ıXX · · · ıXm
, .. .. . . . .. ,
ınfi ınX · · · ınm
B la matriz de parámetros de regresión
Ø Ø ··· Øfip
B = ,. Øfifi ØfiX · · · ØXp ,. ,
Xfi XX
, .
. .. . . . ..
,
Ømfi ØmX · · · Ømp
y E la matriz de desviaciones aleatorias
efifi efiX · · · efip
E = ,. eXfi eXX · · · eXp ,. .
, .. .. . . . .. ,
enfi enX · · · enp
Las matrices V y X son conocidas. Suponemos que las filas de E son inde-
pendientes Np(0, X).
B^ = (XJ X)— XJ V
Guando v c m. E1 estsmadov B ^ msnsmssa 1a tvasa tv(E
^ J^E) ass GOmo e1
detev− msnante det(E^ J E^ ). Además B^ es un estsmadov snsesgado de B.
Demost.: Sea BO otro estimador de B. Entonces:
J J
(V — XB0) (V — XB0) = (V — XB^‡ XB^— XB0) (V — XB^ ‡ XB — XB0)
^ J
= ÆO ‡ (XB^ — XB0 ) (XB^ —
XB‡(V
0)
— XB^ ) (XB^ — XB0 )‡(XB^ — XB0 ) (V — XB^ )
J J
^ ^= Æ ‡ J(XB — XB
J ) (XB — XB ),O J 0
pues (V — XB^ ) (XB^ — XB0 ) 0=(V — XB^ ) X(B^ — B0 ) = 0 por verificar B^
las ecuaciones normales (fi†.£). Luego (V — XB0 )J (V — XB0 ) = ÆO ‡
M, siendo M una matriz p × p definida positiva. Entonces la traza y el
determi- nante de (V — XB0 )J (V — XB0 ) alcanzan el valor mínimo
cuando M = 0, es decir, para B0 = B^ . Por otra parte
E(B^ ) = (XJ X)—fi XJ E(V) =(XJ X)—fi (XJ X)B = B. Q
£68 CAPÝTULO fi†. ANÁL. MULTIV. DE LA VAÆIANXA (MANOVA)
Teorema 15.2.2 Bajo 1as mssmas GOndsGsones de1 teovema antevsov, GOn v =
vango(X), podemos expvesav 1a matvss de vessduos GOmo
X^ = ÆO /(n — v).
Demost.:
Sea ahora T = [tfi, . . . , tv, tv‡fi, . . . , tn] una matriz ortogonal tal que
sus columnas formen una base ortonormal de Rn, de manera que las v
primeras generen el mismo subespacio Cv(X) generado por las columnas
de X. Por lo tanto las otras n — v columnas serán ortogonales a Cv(X). Es
decir,
tJs X = m si s ≤ v,
tJs X = 0 si s > v,
donde m indica un valor posiblemente no nulo.
Sea X = TJ V.Entonces
Σ y Σ
E(X) = TJ XB = v primeras filas
0 n — v últimas filas
Indiquemos XJn—v = [xfi , . . . , xn—v ] donde xJfi , . . . , xJn—v son las filas
(inde- pendientes) de Xn—v . Entonces cada xs es un vector de media cero y
matriz de covarianzas X. Luego E(xs xJs ) = X y XJn—v Xn—v =· ·xfi xJfi ‡ ‡
xn—v x n—v . Por lo tanto
J ·
HO : HB = 0
f. ÆO ~ Wp(X, n — v).
tal que [ufi, . . . , ut] generen H, y [ufi, . . . , ut, ut‡fi, . . . , uv] generen X.
Consideremos la matriz C de orden m×(v—t) generada por [ut‡fi, . . . , uv].
Entonces HC = 0 y el modelo V = XB ‡ E se convierte en V =X˜ © ‡
siendo
E, X˜ = XC, y C© = B, pues HB = HC© = 0. Así la matriz de diseno
X se transforma en = XC, donde las columnas de XC son combinación
X˜
lineal de las columnas de X.
Podemos construir una matriz
ortogonal
T = [tfi, . . . , tvt , tvt‡fi, . . . , tv, tv‡fi, . . . , tn]
˜ ^ J (V—X©)
Æfi = (V—X©) ˜ = XJn—vt Xn—
^ vt
TJ (V—X˜ ©^ Σ Σ
, ,, ,
)= 0
0 , X=
Xn—vt
t Xn—v
Æfi — ÆO = XJt Xt ,
g. l. MANOVA
matriz de
Wishart
un factorlambda de Wilks
Entre grupos h — fi B h = |W|/|T|
Dentro grupos n — h W ~ h(p, n — h, h —
fi)
Total n — fi T
que verifican
T = A ‡ B ‡ AB ‡ ÆO.
(AB no es un producto matricial). Indicando q = — (a fi)(b
— fi), v = ab(s
— columna o las
fi), para contrastar las hipótesis de que los factores fila,
interac- ciones no influyen, en ninguna de las variables, obtenemos la
tabla:
£F4 CAPÝTULO fi†. ANÁL. MULTIV. DE LA VAÆIANXA (MANOVA)
15.Y. Ejemplos
Machos Hembras
Temp Yfi YX Y3 Yfi YX Y3
4 fi8,fi5 fi6,5 fi 0,XŒ fi9,fi5 fi9,Œ9
0,fi6
fi8,68 fi9. 50 0,3X fi8,35 fi9,8fi 0,fit
fi9,5Œ fi9,8Œ 0,X0 X0,58 fi9,ŒŒ 0,XX
£0 Xfi,Xt X3,30 0,33 fi8,8t XX,00 0,X5
fi9,5t XX,3 0 0,Œ5 X0,66 Xfi ,08 0,X0
X0,fi5 fi8,95 0,35 Xfi,56 X0,3Œ 0,X0
34 X0,tŒ fi6,69 0. 3fi X0,XX fi9,00
0,fi8
X0,0X fi9,X6 0,Œfi fi8,38 fit,9X 0,30
fit,X0 fi5,90 0,X8 X0,85 fi9,90 0,fit
g. l. fi8,t6
matriz dispersión
,, Œ,93X
, 9,t05 0,X888 ,,, lambda F g. l.
Total fiF 65,00
, —0,06X0
T £ XŒ,86 3X,58 0,3t69 , , 0,X588 3,Xfi9 6 y £0
0,X8Œt
, 0,0fi96
, 0,6050 0,fiX50 ,
fi,X33 —0,fi906
,. ,
L×S=. 96,Œt0 8fi,53X 63,559 9X,035 X0,55Œ
. 9t,X05 85,55Œ fi5t,X8 fi0X,3fi
h = 0,t69X
86,Œ05 fiXt,66 fi08,X5 . 3†
, 5 X3†3 = Œ,3X9
ŒX8,9t X36,53,
,. X8X,30,
. fi5Œ6,t fiŒ8t,8 fi3Œ6,Œ XŒ5X,6 fi9XŒ,0
3Œ98,5 30t8,Œ ŒX06,6 3Œfi5,6
RO=. 308X,9 3888,X 3fi59,Œ .
, 9fit8,6 6038,0
,
5950,3
15.9. Complememtos
El Análisis Multivariante de la Varianza es muy similar al Análisis de
la Varianza, salvo que interviene más de una variable cuantitativa obser-
vable. Esta extensión multivariante se inicia en fi930 con los trabajos de
H. Hotelling, J. Wishart y S. S. Wilks. Posteriormente S. N. Roy propuso
un planteamiento basado en el principio de unión-intersección.
Los cuatro criterios que hemos visto son equivalentes para p = fi, y
dife- rentes para p > fi. No está claro cuál es el mejor criterio, depende de
la hipótesis alternativa. Por ejemplo, en el diseno de un factor, si los
vectores de medias están prácticamente alineados, entonces el criterio de
Roy es el más potente. Véase Rencher (fi998).
Tales criterios miden el tamano de H = Æ —fi ÆO respecto de E = ÆO,
ma- trices que se pueden visualizar mediante elipsoides de concentración.
Friendly (£00F) propone representar ambos elipsoides en el llamado HE
plot (Figura fi†.£).
Se puede plantear un análisis tipo ANOVA para datos categóricos,
dando lugar al método llamado CATANOVA (Light y Margolin, fi9Ffi). Para
datos mixtos o no normales, se puede plantear MANOVA utilizando
distancias entre las observaciones, calculando coordenadas principales
mediante MDS, y a continuación aplicando el modelo de regresión
multivariante. Véase Cuadras (£008), Cuadras y Cuadras (£0fifi).
Capítulo 16
FUNCIONES ESTIMABLES
MULTIVAÆIANTES
£F9
£80 CAPÝTULO fi6. FUNCIONES ESTIMABLES MULTIVAÆIANTES
ƒ J = pfi Ø fi ‡ · · · ‡ pm Ø m = pJ B,
^ es
Sólo hay que sustituir B por B, ^ decir, por su estimación LS.
donde ¢fi , . . . , ¢
^n son las filas de la matriz de datos V. El vector g = (gfi , . . . ,
gn ) es único, y podemos definir la dispersión ^de ƒ, que es mínima, como la
J
can- tidad
6{X = gfiX ‡ · · · ‡ g X
n . (fi6.fi)
La versión del Teorema fi†.3.fi para fpem es:
es también 5 p
n—v—p‡fi ,donde es la dispersión mínima (fi6.fi).
{
6X
fi Σs
$ = sj , j = fi, . . . , ‹,
^
$
y la matriz j
‹ s=fi
, ^
$^ fifi — $fi · · $ — fip p ,.
. . . $
U =, . · .
. . . .. ,.
$^ sfi — $ fi · · · $^ sp — $ p
^ X,
Sea V = [vfi , . . . , vp ] la matriz de vectores propios de UJ U respecto de
con la normalización vjJ^Xvj = fi, es decir,
^
UJ UV =XVDZ, VJ XV = F,
donde DZ =diag(Zfi, . . . , Zp) es ^la matriz diagonal con los valores propios. Las
coordenadas canónicas de ^ ƒ fi , . . . ,ƒ s son las filas wfiJ , . . . , de la matriz
wsJ
^
W = UV.
16.5. Ejemplos
Ejemplo 16.5.1 FávmaGOS.
Se quiere hacer una comparación de dos fármacos ansiolíticos (Diazepan
y Clobazan) con un placebo, que indicaremos D, C, P. Las variables
observables son efectos secundarios en la conducción de automóviles: Yfi
=tiempo de reacción (segundos) a la puesta en rojo de un semáforo, YX
=distancia mínima (cm.) entre dos puntos que el conductor necesitaba
para poder pasar por el medio. Los datos sobre 8 individuos (media de
varias pruebas) eran:
fi6.†. EJEMPLOS £8†
¢sj = µ ‡ As ‡Ø j ‡esj .
ƒ fi = µ ‡ Afi , ƒ X = µ ‡ AX , ƒ 3 = µ ‡ A3 .
16.6. Complememtos
El teorema de Gauss-Markov se puede generalizar de diversas
maneras al caso multivariante. Ver Mardia et a1. (fi9F9), Rencher (fi998).
La representación canónica de funciones paramétricas estimables
multi- variantes fue propuesta por Cuadras (fi9F4). Ver Cuadras et a1. (fi99†)
y otras generalizaciones en Lejeune y Calinski (£000), Arenas y Cuadras
(£004).
Turbón et a1. (£0fiF) obtienen una representación canónica de
cráneos humanos de Tierra del Fuego, combinando grupos y sexos,
eliminando el dimorfismo sexual y la interacción. Es decir, representando
grupos sin la influencia de otros factores.
Bibliografía
£89
£90 BIBLIOGÆAFÝA
[Ffi] Cuadras, C. M., Valero, S., Cuadras, D., Salembier, P., Chanussot,
J. (£0fi£) Distance-based measures of association with applications
in relating hyperspectral images. Gomm. Stat., fheov.− Meth., 41,
£34£–
£3††.
[86] Gabriel, K. R. (fi9Ffi) The biplot graphic display of matrices with ap-
plication to principal component analysis. Bsometvsha, 58, 4†3-46F.
BIBLIOGÆAFÝA £9F
Undevstandsng Bsp1ots.
Wiley, N. York.
[fififi] Irigoien, I., Arenas, C. (£008) INCA: New statistic for estimating
the number of clusters and identifying atypical units. StatsstsGS sn
MedsGsne, 2Y, £948-£9F3.
[fifi£] Jauregui, E., Irigoien, I., Sierra, B., Lazkano, E., Arenas, C.
(£0fifi) Loop-closing: A typicality approach. ÆobotsGS and
Autonomous S4s− tems 59, £fi8-££F.
[fi3†] Oliva, F., Bolance, C., Diaz, L. (fi993) Aplicació de l‘anàlisi multivari-
ante a un estudi sobre les llengües europees. Øüestssó, 1Y, fi39-
fi6fi.
[fi†6] Turbón, D., Arenas, C., Cuadras, C. M. (£0fiF) Fueguin crania and
the circum-Pacific rim variation. Am. J. Ph4s. Anthvopo1og4, 163
(£),
£9†-3fi6.
[fi†8] Vera, J. F., Macías, R., Heiser, W. J. (£009) A dual latent class
unfold- ing model for two-way two-mode preference rating data.
Gomputatsona1 Statsstsss and Data Ana14sss, 53, 3£3fi-3£44.
303
304 ÝNDICE ALFABNTICO
de esfericidad, 8F
de razón de verosimilitud, †fi
de Wald, ££F
independencia, †£, 69, 8†
sobre la covarianza, 84
sobre la media, 4†
tipicalidad, £39
transformación
canónica, fi£6
componentes principales, F8, 8fi
lineal, fi6
procrustes, £4, fifiF
unicidad, fi0fi