Metodos

NUEVOS MÉTODOS
DE
ANÁLISIS MULTIVARIANTE
Carles M. Cuadras
Revisado £fi de Junio de
£0fi9
£
Es propiedad del autor.
§c C. M. Cuadras
CMC Editions
Agramunt, fi6
080£3 Barcelona, Spain
ímdice gemeral
1. DATOS MULTIVAÆIANTES 13
fi.fi. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . fi3
fi.£. Matrices de datos . . . . . . . . . . . . . . . . . . . . . . . . . fi3
fi.3. Matriz de centrado . . . . . . . . . . . . . . . . . . . . . . . . fi†
fi.4. Medias, covarianzas y correlaciones . . . . . . . . . . . . . . . fi†
fi.†. Variables compuestas . . . . . . . . . . . . . . . . . . . . . . . fi6
fi.6. Transformaciones lineales . . . . . . . . . . . . . . . . . . . . . fi6
fi.F. Teorema de la dimensión . . . . . . . . . . . . . . . . . . . . . fiF
fi.8. Medidas globales de variabilidad y
dependencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . fi8
fi.9. Distancias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . fi9
fi.fi0. Algunos aspectos del cálculo matricial . . . . . . . . . . . . . . £fi
fi.fi0.fi. Descomposición singular . . . . . . . . . . . . . . . . . £fi
fi.fi0.£. Inversa generalizada . . . . . . . . . . . . . . . . . . . £fi
fi.fi0.3. Aproximación matricial de rango inferior . . . . . . . . ££
fi.fi0.4. Transformación procrustes . . . . . . . . . . . . . . . . £3
fi.fifi. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . £†
fi.fi£. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . £8
2. NOÆMALIDAD MULTIVAÆIANTE 29
£.fi. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . £9
£.£. Distribución normal multivariante . . . . . . . . . . . . . . . . 30
£.£.fi. Definición . . . . . . . . . . . . . . . . . . . . . . . . . 30
£.£.£. Propiedades . . . . . . . . . . . . . . . . . . . . . . . . 3fi
£.£.3. Caso bivariante . . . . . . . . . . . . . . . . . . . . . . 3£
£.3. Distribución de Wishart . . . . . . . . . . . . . . . . . . . . . 33
£.4. Distribución de Hotelling . . . . . . . . . . . . . . . . . . . . . 34
£.†. Distribución de Wilks . . . . . . . . . . . . . . . . . . . . . . . 3†
3
4 ÝNDICE GENEÆAL
£.6. Relaciones entre Wilks, Hotelling y F . . . . . . . . . . . . . . 3F

£.F. Distribución multinomial . . . . . . . . . . . . . . . . . . . . . 38
£.8. Distribuciones con marginales dadas . . . . . . . . . . . . . . . 39
£.9. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 4fi
3. INFEÆENCIA MULTIVAÆIANTE 43
3.fi. Conceptos básicos . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.£. Estimación de medias y covarianzas . . . . . . . . . . . . . . . 44
3.3. Contraste de hipótesis multivariantes . . . . . . . . . . . . . . 4†
3.3.fi. Test sobre la media: una población . . . . . . . . . . . 4†
3.3.£. Test sobre la media: dos poblaciones . . . . . . . . . . 46
3.3.3. Comparación de varias medias . . . . . . . . . . . . . . 46
3.4. Teorema de Cochran . . . . . . . . . . . . . . . . . . . . . . . 4F
3.†. Construcción de contrastes de hipótesis . . . . . . . . . . . . . †fi
3.†.fi. Razón de verosimilitud . . . . . . . . . . . . . . . . . . †fi
3.†.£. Principio de unión-intersección . . . . . . . . . . . . . . †3
3.6. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . †4
3.F. Análisis de perfiles . . . . . . . . . . . . . . . . . . . . . . . . †9
3.8. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 6fi
4. ANÁLISIS DE COÆÆELACIÓN CANÓNICA 63

4.fi. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.£. Correlación múltiple . . . . . . . . . . . . . . . . . . . . . . . 63
4.3. Correlación canónica . . . . . . . . . . . . . . . . . . . . . . . 6†
4.4. Correlación canónica y descomposición singular . . . . . . . . 68
4.†. Significación de las correlaciones canónicas . . . . . . . . . . . 69
4.6. Contraste de hipótesis de independencia . . . . . . . . . . . . 69
4.6.fi. Razón de verosimilitud . . . . . . . . . . . . . . . . . . F0
4.6.£. Principio de unión–intersección . . . . . . . . . . . . . F0
4.F. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ffi
4.8. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . F4
5. ANÁLISIS DE COMPONENTES PÆINCIPALES YY

†.fi. Obtención de las componentes principales . . . . . . . . . . . FF
†.£. Variabilidad explicada por las componentes . . . . . . . . . . . F9
†.3. Representación de una matriz de datos . . . . . . . . . . . . . 80
†.4. Inferencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8£
†.4.fi. Estimación y distribución asintótica . . . . . . . . . . . 83
ÝNDICE GENEÆAL †
†.4.£. Contraste de hipótesis.....................................................84

†.†. Número de componentes principales...........................................86
†.†.fi. Criterio del porcentaje......................................................86
†.†.£. Criterio de Kaiser.............................................................86
†.†.3. Test de esfericidad...........................................................8F
†.†.4. Criterio del bastón roto................................................88
†.6. Biplot...........................................................................................88
†.F. Ejemplos......................................................................................89
†.8. Complementos.............................................................................9£
6. ANÁLISIS FACTOÆIAL 9Y
6.fi. Introducción.................................................................................9F
6.£. El modelo unifactorial.................................................................98
6.3. El modelo multifactorial........................................................fi00
6.3.fi. El modelo.......................................................................fi00
6.3. £. La matriz factorial.............................................fi0fi
6.3.3. Las comunalidades.........................................................fi0fi
6.3.4. Número máximo de factores comunes...........................fi0£
6.3. †. El caso de Heywood............................................fi03
6.3.6. Un ejemplo.....................................................................fi03
6.4. Teoremas fundamentales...........................................................fi0†
6.†. Método del factor principal.......................................................fi0F
6.6. Método de la máxima verosimilitud...........................................fi09
6.6.fi. Estimación de la matriz factorial................................fi09
6.6.£. Hipótesis sobre el número de factores...........................fifi0
6.F. Rotaciones de factores..............................................................fifi0
6.F.fi. Rotaciones ortogonales..................................................fififi
6.F.£. Factores oblicuos...........................................................fififi
6.F.3. Rotación oblicua.............................................................fifi£
6.F.4. Factores de segundo orden............................................fifi4
6.8. Medición de factores.................................................................fifi†
6.9. Análisis factorial confirmatorio..............................................fifi6
6.fi0. Complementos..........................................................................fifi9
Y. ANÁLISIS CANÓNICO DE POBLACIONES 123

F.fi. Introducción...............................................................................fi£3
F.£. Variables canónicas...................................................................fi£4
F.3. Distancia de Mahalanobis y transformación canónica...............fi£6
6 ÝNDICE GENEÆAL
F.4. Representación canónica..........................................................fi£F

F.†. Aspectos inferenciales...............................................................fi£9
F.†.fi. Comparación de medias................................................fi£9
F.†.£. Comparación de covarianzas.........................................fi£9
F.†.3. Test de dimensionalidad.................................................fi30
F.†.4. Regiones confidenciales....................................................fi3fi
F.6. Ejemplos....................................................................................fi3£
F.F. Complementos...........................................................................fi3†
8. ESCALADO MULTIDIMENSIONAL (MDS) 13Y

8.fi. Introducción...............................................................................fi3F
8.£. ¿Cuándo una distancia es euclídea?..........................................fi38
8.3. El análisis de coordenadas principales......................................fi40
8.4. Similaridades.............................................................................fi43
8. †. Nociones de MDS no métrico...............................fi4†
8.6. Distancias estadísticas...............................................................fi48
8.6.fi. Variables cuantitativas....................................................fi48
8.6.£. Variables binarias...........................................................fi49
8.6.3. Variables categóricas.....................................................fi†0
8.6.4. Variables mixtas fi†fi
8.6.†. Otras distancias..............................................................fi†fi
8.F. Ejemplos....................................................................................fi†3
8.8. Complementos...........................................................................fi†9
9. ANÁLISIS DE COÆÆESPONDENCIAS 161

9.fi. Introducción...............................................................................fi6fi
9.£. Cuantificación de las variables categóricas................................fi63
9.3. Representación de filas y columnas..........................................fi64
9.4. Representación conjunta...........................................................fi66
9.†. Soluciones simétrica y asimétrica..............................................fi69
9.6. Variabilidad geométrica (inercia)...............................................fiF0
9.F. Análisis de Correspondencias Múltiples....................................fiF3
9.8. Ejemplos....................................................................................fiF†
9.9. MDS ponderado........................................................................fiF8
9.........................................................................................................fi0.
Complementos................................................................................fi8£
ÝNDICE GENEÆAL F
10. CLASIFICACIÓN 18Y

fi0.fi. Introducción...............................................................................fi8F
fi0.£. Jerarquía indexada...................................................................fi88
fi0.3. Geometría ultramétrica.............................................................fi90
fi0.4. Algoritmo fundamental de clasificación.....................................fi94
fi0.†. Equivalencia entre jerarquía indexada y ultramétrica................fi9†
fi0.6. Algoritmos de clasificación jerárquica.......................................fi96
fi0.6.fi. Método del mínimo........................................................fi9F
fi0.6.£. Método del máximo.......................................................fi99
fi0.F. Más propiedades del método del mínimo.................................£00
fi0.8. Ejemplos...................................................................................£0£
fi0.9. Clasificación no jerárquica........................................................£06
fi0.fi0.Número de clusters..................................................................£0F
fi0.fifi.Complementos.............................................................................£08
11. ANÁLISIS DISCÆIMINANTE 211

fifi.fi. Introducción...............................................................................£fifi
fifi.£. Clasificación en dos poblaciones..............................................£fi£
fifi.£.fi. Discriminador lineal...................................................£fi£
fifi.£.£. Regla de la máxima verosimilitud..................................£fi£
fifi.£.3. Regla de Bayes..............................................................£fi3
fifi.3. Clasificación en poblaciones normales.....................................£fi4
fifi.3.fi. Discriminador lineal...................................................£fi4
fifi.3.£. Regla de Bayes..............................................................£fi4
fifi.3.3. Probabilidad de clasificación errónea.............................£fi†
fifi.3.4. Discriminador cuadrático................................................£fi†
fifi.3.†. Clasificación cuando los parámetros son estimados.....£fi†
fifi.4. Ejemplo.....................................................................................£fi6
fifi.†. Discriminación en el caso de h poblaciones.............................£fi8
fifi.†.fi. Discriminadores lineales................................................£fi9
fifi.†.£. Regla de la máxima verosimilitud..................................£fi9
fifi.†.3. Regla de Bayes..............................................................££0
fifi.6. Un ejemplo clásico....................................................................££0
fifi.F. Complementos..........................................................................£££
12. DISCÆIMINACIÓN LOGíSTICA V OTÆAS 223

fi£.fi. Análisis discriminante logístico............................................££3
fi£.fi.fi. Introducción...................................................................££3
8 ÝNDICE GENEÆAL
fi£.fi.£. Modelo de regresión logística........................................££4

fi£.fi.3. Estimación de los parámetros........................................££†
fi£.fi.4. Distribución asintótica y test de Wald........................££6
fi£.fi.†. Ajuste del modelo..........................................................££F
fi£.fi.6. Curva ROC....................................................................££8
fi£.fi.F. Comparación entre discriminador lineal y logístico........£3£
fi£.£. Análisis discriminante basado en distancias.............................£33
fi£.£.fi. La función de proximidad...............................................£34
fi£.£.£. La regla discriminante DB.........................................£3†
fi£.£.3. La regla DB comparada con otras.................................£36
fi£.£.4. La regla DB en el caso de muestras.............................£36
fi£.3. Complementos..........................................................................£39
13. EL MODELO LINEAL 241

fi3.fi. El modelo lineal........................................................................£4fi
fi3.£. Suposiciones básicas del modelo.................................................£4£
fi3.3. Estimación de parámetros........................................................£43
fi3.3.fi. Parámetros de regresión................................................£43
fi3.3.£. Varianza.........................................................................£44
fi3.4. Algunos modelos lineales.........................................................£4†
fi3.4.fi. Regresión múltiple.........................................................£4†
fi3.4.£. Diseno de un factor.......................................................£46
fi3.4.3. Diseno de dos factores..................................................£46
fi3.†. Hipótesis lineales......................................................................£4F
fi3.6. Inferencia en regresión múltiple................................................£†0
fi3.F. Complementos..........................................................................£†fi
14. ANÁLISIS DE LA VAÆIANEA (ANOVA) 253

fi4.fi. Diseno de un factor...................................................................£†3
fi4.£. Diseno de dos factores.............................................................£††
fi4.3. Diseno de dos factores con interacción....................................£†F
fi4.4. Disenos multifactoriales............................................................£†9
fi4.†. Modelos log-lineales.................................................................£60
fi4.6. Complementos..........................................................................£64
15. ANÁL. MULTIV. DE LA VAÆIANEA (MANOVA) 265

fi†.fi. Modelo......................................................................................£6†
fi†.£. Estimación de parámetros........................................................£66
ÝNDICE GENEÆAL 9
fi†.3. Contraste de hipótesis lineales.................................................£69

fi†.4. Manova de un factor.................................................................£Ffi
fi†.†. Manova de dos factores............................................................£F£
fi†.6. Manova de dos factores con interacción...................................£F3
fi†.F. Ejemplos...................................................................................£F4
fi†.8. Otros criterios............................................................................£F6
fi†.9. Complementos..........................................................................£F8
16. FUNCIONES ESTIMABLES MULTIVAÆIANTES 2Y9

fi6.fi. Funciones estimables................................................................£F9
fi6.£. Teorema de Gauss-Markov.......................................................£80
fi6.3. Funciones estimables multivariantes.........................................£8fi
fi6.4. Análisis canónico de funciones estimables...............................£8£
fi6.4.fi. Distancia de Mahalanobis..............................................£8£
fi6.4.£. Coordenadas canónicas....................................................£83
fi6.4.3. Regiones confidenciales....................................................£84
fi6.†. Ejemplos...................................................................................£84
fi6.6. Complementos..........................................................................£88
fi0 ÝNDICE GENEÆAL
Prólogo
El Análisis Multivariante es un conjunto de métodos estadísticos y

mate- máticos, destinados a describir e interpretar los datos que provienen
de la observación de varias variables estadísticas, estudiadas
conjuntamente.
Este libro es una presentación convencional de los principales
modelos y métodos del Análisis Multivariante, con referencias a algunas
contribuciones recientes.
La exposición mantiene un cierto rigor matemático, compensado con
una clara orientación aplicada. Todos los métodos se ilustran con
ejemplos, que justifican su aplicabilidad. Para examinar algunos datos y
ver más ejemplos consúltese otras publicaciones relacionadas en la
página web
www.ub.edu/stat/cuadras/cuad.html
Esta obra tiene como precedentes la monografía ”Métodos de Análisis

Factorial™ (Pub. no. F, Laboratorio de Cálculo, Universidad de
Barcelona, fi9F4), y el libro ”Métodos de Análisis Multivariante™
(EUNIBAR, fi98fi¡ PPU, fi99fi¡ EUB, fi996, Barcelona).
El autor se reserva el derecho de ampliar el texto e introducir mejoras.
La primera versión apareció en £00F. La segunda versión (£0fi0) contiene
correcciones, ampliaciones y un índice alfabético. La tercera versión
(£0fifi) contiene algunas correcciones y nuevas referencias bibliográficas.
Después de una profunda revisión, la cuarta (£0fi£) y quinta versión
(£0fi4), incorporan más secciones y ejemplos. En esta versión de £0fi4 se
han realizado (mayo de £0fi6, enero de £0fi8, marzo de £0fi9), ciertas
mejoras y se han anadido referencias bibliográficas publicadas en £0fi†,
£0fiF y £0fi8. Además se ha anadido una portada.
Mi agradecimiento a todos aquellos que me han hecho comentarios,
en especial a Jorge Ollero por su detallada revisión de las dos últimas
versiones.
fifi
fi£ ÝNDICE GENEÆAL
Cómo citar este libro:

C. M. Cuadras
Nuesos Métodos de Aná1ssss Mu1tssavsante
CMC Editions
Barcelona, £0fi9
Capítulo 1
DATOS MULTIVAÆIANTES
1.1. Imtroduccióm
El análisis multivariante (AM) es la parte de la estadística y del análisis

de datos que estudia, analiza, representa e interpreta los datos que
resultan de observar más de una variable estadística sobre una muestra
de individuos. Las variables observables son homogéneas y correlacionadas,
sin que alguna predomine sobre las demás. La información estadística en
AM es de carác- ter multidimensional, por lo tanto la geometría, el cálculo
matricial y las distribuciones multivariantes juegan un papel fundamental.
La información multivariante es una matriz de datos, pero a menudo,
en AM la información de entrada consiste en matrices de distancias o
similaridades, que miden el grado de discrepancia entre los individuos.
Comenzare- mos con las técnicas que se basan en matrices× de datos n p,
siendo n el número de individuos y p el de variables.
1.2. Matrices de datos
Supongamos que sobre los individuos wfi, . . . , wn se han observado

las variables Efi , . . . , Ep . Sea ısj = Ej (ws ) la observación de la variable Ej
sobre
fi3
fi4 CAPÝTULO fi. DATOS MULTIVAÆIANTES
el individuo ws. La matriz de datos multivariantes es

, ,
ıfifi · · · ıfij · · · ıfip
. . .
. .. . .. .
. . .
X= ı · · · ısj · · · ısp . .
. sfi . . .
, .. . . .. . . .. ,
ınfi · · · ınj · · · ınp
Las filas de X se identifican con los individuos y las columnas de X con las
variables. Indicaremos:
fi. xs la fila s-ésima de X, que operaremos como un vector columna.
£. Ej la columna j-ésima de X.
3. x = (ıfi , . . . , ıj , . . . , ıp )J el vector columna de las medias de las
variables, siendo
Σnfi
ıj = ısj .
n
s=fi
4. La matriz simétrica p × p de covarianzas muestrales

,
. ‹fifi ‹fiX · · · ‹fip
‹Xfi ‹XX · · · ‹Xp ,. ,
S=.
,
, .. .. . . . ..
‹pfi ‹pX · · · ‹pp
siendo n
fi Σ
‹jjt = (ısj — ıj)(ısjt — ıjt
n s=fi )
la covarianza muestral entre las variables Ej , Ejt . La varianza
muestral de la variable Ej esj ‹jj = ‹X. Naturalmente, x y S son
medidas descriptivas multivariantes de tendencia central y
dispersión, respectivamente.
†. La matriz simétrica p × p,de correlaciones ,
muestrales
fi vfiX · · · vfip
. .
,
. vXfi fi · · · vXp .
Æ = , vpfi vpX · · · fi ,
..
.. .. . ..
fi.S. MATÆIX DE CENTÆADO fi†
siendo vjjt = cor(Ej, Ejt ) el coeficiente de correlación (muestral) entre

las variables Ej, Ejt . Este coeficiente viene dado por
‹jjt
vjj t = ,
‹ j‹ jt
donde ‹j, ‹jt son las desviaciones típicas.
1.3. Matriz de cemtrado

Si fi = (fi, . . . , fi)J es el vector columna de unos de orden×n fi, y J =
fifi es la matriz
J
× n n de unos, ciertas características multivariantes se
expresan mejor a partir de la matriz de centrado H, definida como
H = F— nfi J.
Propiedades:
fi. Simétrica: HJ = H.
£. Idempotente: HX = H.
3. Los valores propios de H son cero o uno: Hv = Zv implica Z = 0 ó fi.
4. fi es vector propio de valor propio cero: Hfi = 0, fiJH = 0J.
†. El rango de H es n — fi, es decir, rango(H) = n — fi.
1.4. Medias, covariamzas y correlaciomes

Sea X = (ısj) la matriz de datos. La matriz de datos centrados se ob-
tiene restando a cada variable su media: X = (ı—sj ıj ). Esta matriz,
así como el vector de medias, las matrices de covarianzas y correlaciones,
tienen expresiones matriciales simples.
fi
fi. xJ = n
fiJ X.
£. Matriz de datos centrados:
X= X — fixJ = HX.
3. Matriz de covarianzas:
J
S = fi X X = fi
XJ HX.
n n
4. Matriz de correlaciones:
Æ = D—fiSD—fi, S = DÆD, (fi.fi)
siendo D la matriz diagonal con las desviaciones típicas de las
variables.
1.5. Variables compuestas

Algunos métodos de AM consisten en obtener e interpretar
combinaciones lineales adecuadas de las variables observables. Una
variable compuesta Y es una combinación lineal de las variables
observables con coeficientes a = (afi , . . . , ap )J
Y = afiEfi ‡ · · · ‡ apEp.
Si X =[Efi, . . . , Ep] es la matriz de datos, también podemos escribir
Y = Xa.
Si Z = bfi Efi ‡ · · · ‡ bp Ep = Xb es otra variable compuesta, se
verifica: fi. Y = xJ a, Z = xJ b.
£. var(Y ) = aJ Sa, var(Z) = bJ Sb.
3. cov(Y, Z) = aJ Sb.
Ciertas variables compuestas reciben diferentes nombres según la téc-
nica multivariante: componentes principales, variables canónicas,
funciones discriminantes, etc. Uno de los objetivos del Análisis
Multivariante es encontrar variables compuestas adecuadas que expliquen
aspectos relevantes de los datos.
1.6. Tramsformaciomes limeales

Sea T una matriz p × q. Una transformación lineal de la matriz de datos
es
V = XT.
Las columnas Yfi, . . . , Yq de V son las variables transformadas.
fi.F. TEOÆEMA DE LA DIMENSIÓN fiF
Propiedades:
fi. ¢J = xJ T, donde ¢ es el vector (columna) de medias de V.
£. SY = TJ ST, donde SY es la matriz de covarianzas de V.
Demost.:
¢J = fi fiJ V = fi
fiJ XT = xJ T. SY = fi
VJ HV = fi
TJ XJ HXT = TJ ST.
n n n n
1.Y. Teorema de la dimemsióm

La matriz de covarianzas S es (semi)definida positiva, puesto que:
fi fi
aJ Sa = aJ XJ HXa = aJ XJ HHXa = bJ b ≤0,
n n
—fiƒX
siendo b = n HXa.
El rango v = rango(S) determina la dimensión del espacio vectorial
generado por las variables observables, es decir, el número de variables
linealmente independientes es igual al rango de S.
Teorema 1.Y.1 Ss v = vango(S) ≤ p ha4 v savsab1es 1snea1mente
sndepen− dsentes 4 1as otvas p — v son GOmbsnaGsón 1snea1 de estas v
savsab1es.
Demost.: Podemos ordenar las p variables de manera que la matriz de
covarianzas Sv de Efi, . . . , E,v sea no singular
,
‹fifi· · · ‹fiv
.
Sv = , . . .. .. ,..
.
‹vfi · · · ‹vv
Sea Ej , j > v. La fila (‹jfi, . . . , ‹jv ) será combinación lineal de las filas de Sv .
Luego las covarianzas ‹jfi , . . . , ‹jv entre Ej y Efi , . . . , Ev verifican:
v v
‹jj = Σ as ‹js , ‹js = Σ ast ‹sst .

s=fi st=fi
Entonces
var(E Σ
j Σv a E ) = ‹ Σvs,st=fi a a t t — X v a ‹
— s=fi s s jj ‡ ‹ s s ss s=fis js
Σv
s=fi js Σ s
a ‹ Σ— X
t
s =fi s ss
Σ vs=fis as ‹js ‡ Σv vs=fis=fis jss=fi
v s a ‹
j Σ v
a‹‡ a( s=fit s sjs
=
Σv ‹ t )—X
a a‹
=
= 0.
Por lo tanto v v
Ej — Σ asEs = s =→ Ej = s ‡ Σ asEs
s=fi s=fi
donde s es una constante. Q
Corolario 1.Y.1 Ss todas 1as savsab1es tsenen savsansa posstssa (es

deGsv, nsnguna se veduGe a una GOnstante) 4 v = vango(Æ)
≤ p, ha4 v
savsab1es 1snea1mente sndependsentes 4 —
1as otvas p v son GOmbsnaGsón
1snea1 de estas v savsab1es.
Demost.: De (fi.fi) deducimos que v = rango(Æ) = rango(S). Q
1.8. Medidas globales de variabilidad y

depemdemcia
Una medida de la variabilidad global de las p variables debe ser
función de la matriz de covarianzas S. Sean Zfi, . . . , Zp los valores
propios de S. Las siguientes medidas (determinante y traza) tienen
especial interés en AM.
a) Varianza generalizada:
|S| =Zfi × · · · × Zp.
b) Variación total:
tr(S) =Zfi ‡ · · · ‡ Zp.
Una medida de dependencia global debe ser función de la matriz de co-

rrelaciones Æ. Un coeficiente de dependencia es
yX = fi — |Æ|,
que verifica:
fi. 0 ≤ yX ≤ fi.
£. yX = 0 si y sólo si las p variables están incorrelacionadas.
3. yX = fi si y sólo si hay relaciones lineales entre las variables.
Demost.:
fi.9. DISTANCIAS fi9
fi. Sean Zfi, . . . , Zp los valores propios de Æ. Si g y a son las medias

ge- ométrica y aritmética de p números positivos, se verifica≤g a. En-
tonces, de tr(Æ) = p,
fiƒp
fiƒp
|Æ| = (Zfi × · · · × ≤ (Zfi ‡ · · · ‡ Zp)/p = fi,
Zp)
y por lo tanto 0 ≤ |Æ| ≤ fi.
£. Æ = F (matriz identidad) si y sólo si las p variables están incorrela-
cionadas, luego fi — |F| =0.
3. Si yX = fi, es decir, Æ| =| 0, entonces rango(Æ) c p y por lo tanto
existen relaciones lineales entre las variables (Teorema fi.F.fi).
1.9. Distamcias
Algunos métodos de AM están basados en criterios geométricos y en
la noción de distancia entre individuos y entre poblaciones. Si
,
. xJfi
X = ,, . .
. ,
xJn
es una matriz de datos, con matriz de covarianzas S, las tres definiciones
más importantes de distancia entre las filas xJs = (ısfi , . . . , ısp ), xJj = (ıjfi , .
. . , ıjp ) de X son:
fi. Distancia euclídea:
‚. p
dE(s, j) =, X
Σh=fi (ısh — ıjh ) . (fi.£)
£. Distancia de K. p
‚ .Σ
Pearson
dP (s, j) de
donde ‹hh es la covarianza = la variable
(ısh — ıEjhh).X /‹hh ,
,
3. Distancia de Mahalanobis:
h=fi
dM (s, j) = .(xs — xj )J S—fi (xs — xj ). (fi.4)

£0 CAPÝTULO fi. DATOS MULTIVAÆIANTES
Observaciomes
Un cambio de escala de una variable Ej es una transformación Yj =
αEj , donde α es una constante. Comparando las tres distancias, se
concluye que dM es muy adecuada en AM debido a que verifica:
a) dE supone implícitamente que las variables están incorrelacionadas

y no es invariante por cambios de escala.
b) dP también supone que las variables están incorrelacionadas pero

es invariante por cambios de escala.
c) dM tiene en cuenta las correlaciones entre las variables y es

invariante por transformaciones lineales no singulares de las
variables, en particular cambios de escala.
Las distancias dE y dP son casos particulares de dM cuando la matriz

de covarianzas es la identidad Fp y diag(S), respectivamente. En efecto:
dE (s, j)X = (xs — xj )J (xs — xj ),

dP (s, j)X = (xs — xj )J [diag(S)]— fi(xs — xj ).
La distancia de Mahalanobis (al cuadrado) puede tener otras
versiones: fi. Distancia de una observación xs al vector de medias x de
X :
(xs — x)J S—fi (xs — x).
£. Distancia entre dos poblaciones representadas por dos matrices de datos

Xnfivp, Vn2vp :
(x — ¢)J S—fi (x — ¢),
donde x, ¢ son los vectores de medias y
S = (nfi Sfi ‡ nX SX )/(nfi ‡ nX )
es la media ponderada de las correspondientes matrices de covarianzas.

fi.fiO. ALGUNOS ASPECTOS DEL CÁLCULO MATÆICIAL £fi
1.10. Algumos aspectos del cálculo matricial

1.10.1. Descomposicióm simgular
Sea A un matriz de orden n × p con n ≤ p. Se llama descomposición
en valores singulares de A a
A = UDs VJ
donde U es matriz n × p cuyas columnas son vectores ortonormales, Ds es
una matriz diagonal p × p con los valores singulares
‹fi ≤ · · · ≤ ‹v ≤ ‹v‡fi = · · · = ‹p = 0, (si v c p),
y V es una matriz p × p ortogonal. Se verifica:
fi. El rango de A es el número v de valores singulares positivos.

£. U contiene los vectores propios (unitarios) de AAJ , siendo UJ U = Fp .
3. V contiene los vectores propios (unitarios) de AJA, siendo VJV =
VVJ = Fp .
4. Si n = p y A es simétrica, entonces U = V y A = UD sUJ es la
descomposición espectral de A. Los valores singulares son los
valores propios de A.
1.10.2. Imversa gemeralizada

Si A es una matriz cuadrada de orden×p p no singular, es decir, rango(A) =
p, existe la matriz inversa A—fi tal que
AA—fi = A—fiA = Fp.
Si el rango es rango(A) = v c p, o A no es matriz cuadrada, la inversa
no existe, pero existe la inversa generalizada o g-inversa A —.
Sea A un matriz de orden n× p con n ≤ p. Se llama inversa
generalizada de A o g-inversa, a una matriz A— que verifica:
AA—A = A.
La g-inversa no es única, pero si A— verifica además:
A— AA— = A— , (AA— )J = AA— (A— A)J = A— A,
££ CAPÝTULO fi. DATOS MULTIVAÆIANTES
entonces la g-inversa A— es única.

Sea rango(A) = v y A = UDs VJ la descomposición singular de A, con
Ds = diag(‹fi, . . . , ‹v, 0, . . . , 0).
Entonces
D—s = diag(‹—fi fi , . . . , ‹—v fi , 0, . .
y la matriz p × . , 0).
n
A— = VD—s UJ
es una g-inversa de A. En efecto,
AA— A = UDs VJ VD—s UJ UDs VJ = A.
1.10.3. Aproximacióm matricial de ramgo imferior

Sea A = (asj) una matriz de orden n×p con n ≤ p y rango v.
Supongamos que deseamos aproximar A por otra matriz A× = (a×sj ), ×
del
mismo orden n p pero de rango h c v, de modo que
n p
tr [(A — A× )J (A — A× )] = Σ Σ(asj — a×sj )X = mínimo.
s=fi j=fi
Si A = UDs VJ es la descomposición en valores singulares de A, entonces

la solución viene dada por
A× = UD×s VJ , (fi.†)
donde D×s es diagonal con los h primeros valores singulares de A, siendo
nulos los restantes valores, es decir:
D×s = diag(‹fi , . . . , ‹h , 0, . . . , 0).
El mínimo es la suma de los cuadrados de los valores singulares

eliminados, es decir,
— tr[(Ds D×s )X ]. Esta es la llamada aproximación de
Eckart -Young.
Por ejemplo, si ,. ,
. fi 3 X
X 0 fi
A=. .
,Œ 5 6
, 3 X fi
fi.fiO. ALGUNOS ASPECTOS DEL CÁLCULO MATÆICIAL £3
entonces
, ,
0,35 —0,ŒX 0,5X , , , ,
. . fi0,fiŒ 0 0 —0,50 —0,59 —0,6X
—
—
, ,
0,fi6 0,6fi 0,Œfi
A = . 0,86 0,fi9 0,38 . 0
0 X,X95
0 0 ,
fi,388 0,86
0,06 —0,Œ0 —0,3fi
0,t0 —0,tfi ,
,,0,33 0,63 0,63
,
y la aproximación de rango £
es ,. ,
. 0,9Œ5 X,Œ80 X,53Œ
× X,0fi5 0,39t 0,58t
A = . 3,98Œ 5,3X0 5,6X8 . ,
,
, X,936 fi,386 fi,65X
siendo (redondeando a dos decimales)
0,35 —0,ŒX 0,5X , ,, ,
,. ,. fi0,fiŒ 0 0 —0,50 —0,59 —0,6X
× 0,fi6 0,6fi —0,Œfi 0 X,X9 0 , 0,86 —0,Œ0 —0,3fi ,
A = . 0,86 —0,fi9 0,38 . ,
,,0,33 0,63 0,63 , 0 0
0 .
El valor mínimo es fi,388X = fi,9X6, el cuadrado del valor singular
eliminado. En particular, si B es matriz simétrica semidefinida positiva
de rango v y
B = TDZ TJ es la descomposición espectral (con los valores propios
ordenados de mayor a menor), entonces la mejor aproximación de
rango h c v es la matriz
B× = TD×Z TJ , (fi.6)
donde D×Z contiene los h primeros valores propios de B.
1.10.4. Tramsformacióm procrustes

Sea A una matriz de orden ×
n p con≤ n p. Sea B otra matriz del
mismo orden y escala (misma media y varianza para las columnas).
Supongamos que queremos transformar A en AT,siendo
× T matriz p p
ortogonal, de modo que AT sea lo más próxima posible— a B, es decir
tr[(AT B)J (AT B)] = mínimo. Si obtenemos la descomposición en
valores singulares
AJ B = UDs VJ ,
entonces la solución
es T = UVJ . (fi.F)
Se conoce AT como la transformación procrustes.

En el caso general, sean X, V dos matrices×n p, con n≤p, y vectores
(filas) de medias x, ¢. Deseamos aproximar X a V mediante contracción,
traslación y rotación. Consideremos la transformación
V× = bXT ‡ fis,
donde b es una constante escalar, T es matriz×p p ortogonal, fi es el

vector
× n fi de unos y s es un vector (fila) fi p de constantes. Se trata de
encontrar b, T, s, de modo que V× sea lo más próximo posible a V en
el sentido de que tr[(V — V× )J (V — V× )] = mínimo. Es decir, para cada
par de columnas xj , ¢j se desea hallar el vector
¢j× = bTJ xj ‡ sj fi
lo más próximo posible a ¢j.

Si X,V son las matrices centradas, obtenemos primero la
descomposición singular J
X V = UDs VJ .
Indicando MfiƒX = F2fiƒX FJ , siendo M = F2FJ la descomposición espectral
J J
de la matriz simétrica M = X V V X, la solución es
J J J
b = tr(X V V X)fiƒX /tr(X X), T = UVJ , s = ¢ — bxT.
Una medida del grado de relación lineal entre X e V, llamada coeficiente

procrustes, y que toma valores entre 0 y fi, es
X J J J J
= Σtr(X V V X)fiƒX ΣX /tr(X X)tr(V V). (fi.8)
PEY
Este coeficiente se puede expresar también en términos de matrices de
covarianzas, pero no es invariante por transformaciones lineales
aplicadas por separado a X y a V.
Si p = fi el análisis procrustes equivale a la regresión lineal 4 × = bı ‡
4 — bı, siendo b = ı y PEY = ‹ı4 /(‹ı ‹4 ) los coeficientes de regresión y
X
‹ı4/‹
correlación ordinarios.
fi.fifi. EJEMPLOS £†
N E S W N E S W
F£ 66 F6 FF 9fi F9 fi00 F†
60 †3 66 63 †6 68 4F †0
†6 †F 64 †8 F9 6† F0 6fi
4fi £9 36 38 8fi 80 68 †8
3£ 3£ 3† 36 F8 †† 6F 60
30 3† 34 £6 46 38 3F 38
39 39 3fi £F 39 3† 34 3F
4£ 43 3fi £† 3£ 30 30 3£
3F 40 3fi £† 60 †0 6F †4
33 £9 £F 36 3† 3F 48 39
3£ 30 34 £8 39 36 39 3fi
63 4† F4 63 †0 34 3F 40
†4 46 60 †£ 43 3F 39 †0
4F †fi †£ 43 48 †4 †F 43
Tabla fi.fi: Depósitos de corcho (centigramos) de £8 alcornoques en las

cuatro direcciones cardinales.
1.11. Ejemplos
Ejemplo 1.11.1 Ávbo1es.
La Tabla fi.fi contiene los datos de n = X8 alcornoques y p = Œ

variables, que miden los depósitos de corcho (en centigramos) en cada
uno de los cuatro puntos cardinales: N, E, S, W.
Medias, covariamzas y correlaciomes

Vector de medias: xJ = (50,536¡ Œ6,fit9¡ Œ9,6t9¡ Œ5,fit9).
Matriz de covarianzas y de correlaciones muestrales:
,
,. ,.
, X80,0 Xfi5,t Xt8,fi Xfi8,X fi 0,885 0,905 0,883
. XfiX,fi XX0,9 fi65,X fi 0,8X6 0,t69
. 33t,5 fi 0,9X3
.
S= Xfit,9 , , Æ =
X50,3 fi . .
. . ,
, ,
Figura fi.fi: Distribución de las variables N, E, S, W y relaciones entre cada

par de variables de la Tabla fi.fi.
Variables compuestas
Las siguientes variables compuestas explican diferentes aspectos de la
variabilidad de los datos:
Media Varianza
Contraste eje N-S con eje E-W: Yfi = N ‡S—E—W 8,85t fiXŒ,fi
Contraste N-S: YX = N —S 0,85t 6fi,Xt
Contraste E-W: Y3 = E—W fi,000 99,5
Diremos que una variable compuesta está normalizada si la suma de
cuadrados de sus coeficientes es fi. La normalización evita que la
varianza tome un valor arbitrario. La normalización de Yfi, YX, Y3 da:
Media Varianza
Zfi = (N ‡ S —,E — W )/X Œ,ŒX8 3fi,03
ZX = (N — S)/ ,X 0,606 30,63
Z3 = (E — W )/ X 0,t0t Œ9,t5
La normalización de las variables consigue que éstas tengan varianzas
más homogéneas. La media de Zfi sugiere que la principal dirección de
variabilidad se pone de manifiesto al comparar el eje N-S con el eje E-W.
fi.fifi. EJEMPLOS £F
Visualizacióm de datos
En los capítulos siguientes veremos métodos y técnicas de visualización
de datos multivariantes. Como norma general es conveniente, antes de
realizar el análisis, examinar y revisar los datos. La Figura fi.fi contiene un
gráfico que permite visualizar la distribución de las 4 variables de la Tabla
fi.fi y las relaciones lineales, o regresión lineal, entre cada par de
variables.
Ejemplo 1.11.2 Fams1sas.
Se consideran n = X5 familias y se miden las variables (véase la Tabla

fi.£):
Efi = long. cabeza primer hijo, EX = anchura cabeza primer hijo,

Yfi = long. cabeza segundo hijo, YX = anchura cabeza segundo hijo.
Efectuando un análisis procrustes para estudiar el grado de

coincidencia de la matriz E (dos primeras columnas) con la matriz Y
(tercera y cuarta columna), se obtienen los vectores de medias
x = (fi8t,Œ, fi5fi,fiX), ¢ = (fi83,3X, fiŒ9,36),
los valores b = 0,tfi66, s = (5t,65, 3fi,fit) y la matriz de rotación

.
0,99tfi 0,0t6fi
T = Σ —0,0t6fi 0,99tfi .
Los primeros 4 valores de las matrices V y la transformación procrustes

V× = bXT ‡ fis, son:
Yfi YX
Yfi YX×
×
fit9 fiŒ5 fi85,6 fi5X,3
X0fi fi5X fi88,8 fiŒ8,X
fi85 fiŒ9 fit8,9 fiŒ6,8
fi88 fiŒ9 fi80,0 fi50,Œ
El coeficiente procrustes es P = 0,5508.

X EY
Efi EX Yfi YX Efi EX Yfi YX

fi9fi fi55 fit9 fiŒ5 X0X fi60 fi90 fi59
fi95 fiŒ9 X0fi fi5X fi9Œ fi5Œ fi88 fi5fi
fi8fi fiŒ8 fi85 fiŒ9 fi63 fi3t fi6fi fi30
fi83 fi53 fi88 fiŒ9 fi95 fi55 fi83 fi58
fit6 fiŒŒ fitfi fiŒX fi86 fi53 fit3 fiŒ8
X08 fi5t fi9X fi5X fi8fi fiŒ5 fi8X fiŒ6
fi89 fi50 fi90 fiŒ9 fit5 fiŒ0 fi65 fi3t
fi9t fi59 fi89 fi5X fi9X fi5Œ fi85 fi5X
fi88 fi5X fi9t fi59 fitŒ fiŒ3 fit8 fiŒt
fi9X fi50 fi8t fi5fi fit6 fi39 fit6 fiŒ3
fi86 fi6fi fit9 fi58 fi9t fi6t X00 fi58
fit9 fiŒt fi83 fiŒt fi90 fi53 fi8t fi50
fi95 fi53 fitŒ fi50
Tabla fi.£: Longitud y anchura del primer y segundo hijo en £† familias.
1.12. Complememtos
La descomposición en valores singulares de una matriz es una idea
senci- lla pero muy útil en Análisis Multivariante. Generaliza los vectores y
valores propios de una matriz, permite calcular inversas generalizadas y
es fundamental en Análisis de Correlación Canónica y en Análisis de
Correspondencias. Véase Golub y Reinsch (fi9F0).
La aproximación de una matriz por otra de rango inferior se debe a
Eckart y Young (fi936), y es la versión matricial de la reducción de la
dimensión, uno de los objetivos típicos del Análisis Multivariante.
La transformación procrustes fue estudiada independientemente por
N. Cliff y P. H. Schonemann en fi966. Permite transformar una matriz en
otra y estudiar el grado de coincidencia entre dos matrices de datos,
mediante una generalización multivariante de la ecuación de regresión.
Véase Gower (fi9Ffib), Mardia et a1. (fi9F9) y Seber (fi984).
Capítulo 2
NOÆMALIDAD
MULTIVAÆIANTE
2.1. Imtroduccióm
Los datos en AM suelen provenir de una población caracterizada
por una distribución multivariante. Sea X =(Efi, . . . , Ep) un vector
aleatorio con distribución absolutamente continua y función de densidad
ƒ (ıfi , . . . , ıp ). Es decir, ƒ verifica:
fi) ƒ (ıfi , . . . , ıp ) ≤ 0, para todo (ıfi , . . . , ıp ) c Rp .

∫
£) Rp ƒ (ıfi , . . . , ıp )dıfi · · · dıp = fi.
Conocida ƒ (ıfi , . . . , ıp ) podemos encontrar la función de densidad de

cada variable marginal Ej mediante la integral
ƒj (ıj ) = ∫ ƒ (ıfi , . . . , ıj , . . . , ıp )dıfi · · · dıj—fi dıj‡fi · · · dıp .
Como en el caso de una matriz de datos, es importante el vector de medias
µ = (E(Efi ), . . . , E(Ep ))J ,
donde E(Ej ) es la esperanza de la variable marginal Ej , y la matriz

de covarianzas X = (o sj ), siendo o sj =cov(Es , Ej ), o ss =var(Es ).
Teniendo en cuenta que los elementos de la matriz (X — µ)(X — µ)J , de
orden p × p, son
£9
30 CAPÝTULO £. NOÆMALIDAD MULTIVAÆIANTE
(Es — µs)(Ej — µj) y que cov(Es, Ej) = E(Es — µs)(Ej — µj), la matriz de
covarianzas X = (osj) es
X = E[(X — µ)(X — µ)J ].
En este capítulo introducimos y estudiamos la distribución normal

multivariante y tres distribuciones relacionadas con las muestras
multivariantes: Wishart, Hotelling y Wilks.
2.2. Distribucióm mormal multivariamte

2.2.1. Defimicióm
Sea E una variable aleatoria con distribución N(µ, o X), es decir, con media
µ y varianza oX. La función de densidad de E es:
X fi fi
(oX)—fiƒX — fi (ı—µ) (ı—µ)
2 2
(ı µ) ƒo fi
ƒ (ı¡ µ, o ) = , e— 2 — = , e 2 o2 . (£.fi)
o Xv Xv
Evidentemente se verifica:
E = µ ‡ oY xiendo Y ~ N(0, fi), (£.£)
donde el símbolo ~ significa ”distribuido como™.

Vamos a introducir la distribución normal multivariante Np (µ, X)
como una generalización de la normal univariante. Por una parte, (£.fi)
sugiere definir la densidad de X = (Efi , . . . , Ep )J ~ Np (µ, X) según:
|X|—fiƒX fi t —fi
ƒ(x¡ µ, X) = , — 2 (x—µ) (x—µ)
, (£.3)
p
e
E
( Xv)
siendo x = (ıfi , . . . , ıp )J , µ = (µfi , . . . , µp )J y X = (o sj ) una matriz
definida positiva, que como veremos, es la matriz de covarianzas. Por
otra parte, (£.£) sugiere definir la distribución X = (Efi , . . . , Ep )J ~ Np (µ,
X) como una combinación lineal de p variables Yfi , . . . , Yp independientes
con distribución N (0, fi)
Efi = µfi ‡ afifiYfi ‡ · · · ‡ afipYp,
.. . (£.4)
.
Ep = µp ‡ apfiYfi ‡ · · · ‡ appYp,
£.£. DISTÆIBUCIÓN NOÆMAL MULTIVAÆIANTE 3fi
que podemos escribir como
X = µ ‡ AV (£.†)
siendo V =(Yfi , . . . , Yp )J y A = (asj ) una matriz p × p que verifica AAJ = X.
Proposicióm 2.2.1 Gas dos deflnsGsones (W.h) 4 (W.$) son equssa1entes.
Demost.: Según la fórmula del cambio de variable
ƒ (ı , . . . , ı ) = (4 (ı), . . . , 4 (ı))6¢
. .,
ƒ
p . 6x .
E fi p Y fi
siendo 4s = 4s (ıfi , . . . , ıp ), s = fi, . . . , p, el cambio y J = 6ı . 64 . el jacobiano del
cambio. De (£.†) tenemos
6¢
¢ = A—fi(x — µ) →.. ..= |A—fi|
y como las p variables Ys son N(0, fi) independientes: 6x
,
ƒE (ıfi , . . . , pı ) = (fi/ Xv)p e—2 fi s=fi 4s2 |A—fi|. (£.6)
Σp
Pero X—fi = (A—fi )J (A—fi ) y por lo tanto
¢J ¢ = (x — µ)J (A—fi )J (A—fi )(x — µ) = (x — µ)J X—fi (x — µ).
(£.F) Substituyendo (£.F) en (£.6) y de |A|—fi = |X|—fiƒX obtenemos (£.3).
2.2.2. Propiedades
fi. De (£.†) es inmediato que E(X) = µ y que la matriz de covarianzas es
E[(X — µ)(X — µ)J ]=E(AVVJ AJ ) = AFp AJ = X.
£. La distribución de cada variable marginal Es es normal univariante:
Es ~ N(µs, oss), s = fi, . . . , p.
Es consecuencia de la definición (£.4).

3£ CAPÝTULO £. NOÆMALIDAD MULTIVAÆIANTE
3. Toda combinación lineal de las variables Efi, . . . , Ep

Z = bO ‡ bfiEfi ‡ · · · ‡ bpEp
es también normal univariante. En efecto, de (£.4) resulta que Z es
combinación lineal de N(0, fi) independientes.
4. Si X =diag(o fifi , . . . , o pp ) es matriz diagonal, es decir, o sj = 0, s =ƒ
j, entonces las variables (Efi, . . . , Ep) son estocásticamente
independientes. En efecto, la función de densidad conjunta resulta
igual al producto de las funciones de densidad marginales:
ƒ (ıfi , . . . , ıp ¡ µ, X) = ƒ (ıfi ¡ µfi , o fifi ) × · · · × ƒ (ıp ¡ µp , o pp )
†. La distribución de la forma cuadrática

U = (x — µ)J X—fi (x — µ)
es
Σpji-cuadrado con p grados de libertad. En efecto, de (£.†) U = VJ V =
X
s=fi Ys es suma de los cuadrados de p variables N(0, fi) indepen-
dientes.
2.2.3. Caso bivariamte

Cuando p = X, la función de densidad de la normal bivariante se puede
expresar en función de las medias y varianzas µfi, fioX, µX,XoX y del coeficiente
de correlación p =cor(Efi, EX) :
fi,
ƒ (ı , ıX ) =
fi Xvo fi o2 fi—p2
(ıfi —µfi )2 (ıfi —µfi ) (ı2 —µ2 ) (ı —µ )2
× exp [—Xf2fi—i f i
o(2fi —Xp
o
fi o2 ‡o22 2 2 }],
p
siendo —fi c p c ‡fi (Figura £.fi). Se verifica:
fi. Hay independencia estocástica si y sólo si p = 0.

£. La distribución de la variable marginal E s es N(µs, oXs ), s = fi, X.
3. La función de densidad de EX condicionada a Efi = ıfi es
Σ Σ
√ f i exp [(ıX — µX — p(o X /o fi )(ıfi — µfi )]X
— ,
ƒ (ıX |ıfi ) = X Xv(fi — pX ) XoXX(fi —
o pX)
densidad de la distribución normal N (µX ‡p(o X /o fi )(ıfi —µfi ), oXX (fi—pX )).
£.S. DISTÆIBUCIÓN DE VISHAÆT 33
Figura £.fi: Función de densidad de una distribución normal bivariante de

medias fi y fi, desviaciones típicas £ y £, coeficiente de correlación 0.8.
4. La regresión es de tipo lineal, es decir, las curvas de regresión de la

media
ıX = E(EX |Efi = ıfi ), ıfi = E(Efi |EX = ıX ),
son las rectas de regresión.
2.3. Distribucióm de Wishart

La distribución de Wishart es la que sigue una matriz aleatoria
simétrica definida positiva, generaliza la distribución ji-cuadrado y juega un
papel importante en inferencia multivariante. Un ejemplo destacado lo
constituye la distribución de la matriz de covarianzas S, calculada a partir
de una matriz de datos donde las filas son observaciones normales
multivariantes.
Defimicióm
Si las filas de la matriz Xnvp son independientes Np (0, X) entonces
diremos que la matriz Ø = XJ X es Wishart Wp (X, n), con parámetros X
y n grados de libertad.
Cuando X es definida positiva y n ≤ p, la densidad de Ø es
(n—p—fi)
Σ
ƒ(Ø) =s|Ø| expΣ —fiX tr(X—fiØ) ,
siendo
Q fi
p
—fi p(p—fi)ƒ4 |X| nƒX F[ X (n ‡ fi — s)].
s = v
s=fi
XnpƒX
Propiedades:
fi. Si Øfi, ØX son independientes Wishart Wp(X, m), Wp(X, n),

entonces la suma Øfi ‡ ØX es también Wishart Wp(X, m ‡ n).
£. Si Ø es Wp(X, n), y separamos las p variables en dos conjuntos de pfi y
pX variables, y consideramos las particiones correspondientes de X y Ø
. Xfifi XfiX Σ . Σ
X= Ø Ø
XXfi XXX , Ø = Ø fifi Ø fiX , Xfi XX
entonces Øfifi es Wpfi (Xfifi, n) y ØXX es Wp2 (XXX, n).

3. Si Ø es Wp (X, n) y T es una matriz p ×q de constantes, entonces TJ ØT
es Wq (TJ XT, n). En particular, si t es un vector, entonces
tJ Øt X
(Recordemos que ~ significa ”distribuido como™).
2.4. Distribucióm de Hotellimg

Indiquemos por 5 la distribución F de Fisher-Snedecor, con m y n
m n
grados de libertad en el numerador y denominador, respectivamente.

La distribución de Hotelling es una generalización multivariante de la
distribución t de Student.
Defimicióm
Si ¢ es Np(0, F), independiente de Ø que es Wishart Wp(F, m), entonces
f X = m¢J Ø—fi ¢
X
sigue la distribución f de Hotelling, que se indica por f X(p, m).
Propiedades:
fi. Si x es Np(µ, X) independiente de M que es Wp(X, m), entonces
f X = m(x — µ)J M—fi (x — µ) ~ f X (p, m).

£.†. DISTÆIBUCIÓN DE VILKS 3†
X
£. f está directamente relacionada con
mp la distribución F de Fisher-Snedecor
X p
f (p, m) ÷ 5 .
m — p ‡ fi m—p‡fi
3. Si x, S son el vector de medias y la matriz de covarianzas de la matriz
Xnvp con filas independientes Np(µ, X), entonces
(n — fi)(x—µ)J S—fi (x—µ) ~ f X (p, n — fi),
y por lo
tanto n—p
(x—µ)J S—fi (x—µ) ~ 5 n—p
p
.
p
4. Si x, Sfi,¢, SX son el vector de medias y la matriz de covarianzas de
las matrices Xnfivp, Vn2vp, respectivamente, con filas independientes
Np(µ, X), y consideramos la estimación conjunta centrada (o
insesgada) de X
S^ = (nfi Sfi ‡ nX SX )/(nfi ‡ nX — X),
entonces
nfi nX
fX= (x—¢)J S^ —fi (x — ¢) ~ f X (p,fin X — X)
n ‡
‡n n
fi X
y por lo
tanto nf i ‡ nX — f i — p X p
(nfi ‡ nX — X)p f ~ 5n ‡n —fi—p .
fi 2
2.5. Distribucióm de
Wilks
La distribución F con m y n grados de libertad surge considerando el
cociente
A/m
5 = ,
B/n
donde A, B son ji-cuadrados estocásticamente independientes con m y n
grados de libertad. Si consideramos la distribución
A
h= ,
A ‡ B
la relación entre h y 5 m, así como la inversa 5 n , es
n m
n
m
5 = h n m fi — h
n , 5m = .
m fi — h n h
La distribución de Wilks generaliza esta relación.
Defimicióm
Si las matrices A, B de orden p×p son independientes Wishart Wp(X,
m), Wp(X, n), respectivamente, con ≤ m p, la distribución del cociente de
determinantes
|A|
h = |A ‡ B|
es, por definición, la distribución lambda de Wilks, que indicaremos por
h(p, m, n).
Propiedades:
fi. 0 ≤ h ≤ fi y además h no depende de X. Por lo tanto,

podemos estudiarla suponiendo X = F.
£. Su distribución es equivalente a la del producto de n variables beta
independientes:
Qn
h(p, m, n) ~ U s,
s=fi
fi fi
donde Us es beta B( (m ‡ s — p), p). (Obsérvese que debe ser m ≤ p).
X X
3. Los parámetros se pueden permutar manteniendo la misma distribu-
ción. Concretamente: h(p, m, n) ~ h(n, m ‡ n — p, p).
4. Para valores fi y £ de p y n, la distribución de h equivale a la
distribución F, según las fórmulas:
fi—h m n
h n
~ 5m (p = fi)
fi—h m—p‡fi
~ 5p (n = fi)
h¸ p m—p‡fi
fi— h m—fi Xn (£.8)
¸¸ ~ 5X(m—fi)
Xp (p = X)
fi— hh m—p‡fi
n
¸
h p
~ 5X(m—p‡fi) (n = X)
†. En general, una transformación de h equivale, exacta o
asintóticamente, a la distribución
— F. Si h(p, t q, q) es Wilks con t
relativamente grande, consideremos
fi — hfiƒs m‹ — XZ (£.9)
5 =
hfiƒs pq
√ X qX
con m = t— (p‡q‡fi)/X, Z = (pq — X)/Œ, ‹ = (p— Œ)/(pX ‡ q X
5). Entonces 5 sigue asintóticamente
— la distribución F con pq y—(m‹
XZ) grados de libertad (g. l.), (Rao, fi9F3, p.††6).
£.6. ÆELACIONES ENTÆE VILKS, HOTELLING Y F 3F
Figura £.£: Un ejemplo de función de densidad lambda de Wilks.
2.6. Æelaciomes emtre Wilks, Hotellimg y F

A. Probemos la relación entre h y 5 cuando p = fi. Sean A ~ zmX , B ~ znX
independientes. Entonces h = A/(A ‡ B) ~ h(fi, m, n) y 5 = (n/m)A/B
m
= (n/m)5 ~ 5
n . Tenemos que h = (A/B)/(A/B ‡ fi) = 5 /(fi ‡ 5 ),
luego
5 = h/(fi—h) → (n/m)h/(fi—h) ~ 5 m . Mas si 5 ~ 5 m entonces fi/5 ~ 5 n .
n n m
Hemos demostrado que:
f i — h(fi, m, n) m n
~ m5 . (£.fi0)
h(fi, m, n
n)
B. Recordemos que ¢ es un vector columna y por lo tanto ¢¢J es una
× p p. Probemos la relación entre las distribuciones f X y 5. Tenemos
matriz
f X = m¢JØ—fi¢, donde Ø es Wp(F,m), y ¢¢J es Wp(F,fi). Se cumple
|Ø ‡ ¢¢J | = |Ø||fi‡¢J Ø—fi ¢|,
que implica
fi‡¢J Ø—fi ¢ = |Ø ‡ ¢¢J |/|Ø| = fi/h,
donde h = |Ø|/|Ø ‡ ¢¢J | ~ h(p, m, fi) ~ h(fi, m‡fi—p, p). Además ¢J Ø—fi ¢ =
fi/h — fi = (fi — h)/h. De (£.fi0) tenemos que ¢J Ø—fi ¢(m ‡ fi — p)/p ~ 5 p
m‡fi—p
y por lo mp
tanto f X = m¢J Ø—fi ¢ ~ 5p .
m‡fi—p
m ‡ fi — p
2.Y. Distribucióm multimomial

Supongamos que la población K es la reunión disjunta de h sucesos
excluyentes Afi, . . . , Ah,
K = Afi ‡ · · · ‡ Ah,
con probabilidades positivas P (A fi) = pfi, . . . , P (Ah) = ph, verificando
pfi ‡ · · · ‡ ph = fi.
Consideremos n observaciones independientes y sea (ƒfi, . . . , ƒh) el

vector con las frecuencias observadas de Afi, . . . , Ah, siendo
ƒfi ‡ · · · ‡ ƒh = n. (£.fifi)
La distribución multinomial es la distribución de f = (ƒfi, . . . , ƒh) con función

de densidad discreta
n!
ƒ(ƒ , . . . , ƒ ) = pffi · · · pfhfi. h
fi h
fi h
ƒ!···ƒ!
En el caso h = X tenemos la distribución binomial.

Indiquemos p = (pfi , . . . , ph )J .
fi. El vector de medias de f es µ = np.
£. La matriz de covarianzas de f es C = n[diag(p) — ppJ ]. Es decir:
sss = nps(fi — ps),

ssj = —nps pj si s ƒ= j.
Puesto que Cfi = 0, la matriz C es singular. La singularidad se debe a

que se verifica (£.fifi). Una g-inversa de C es (véase Sección fi.fi0):
C— = fi
diag(p—fi fi , . . . , p—fi ). (£.fi£)
n h
Puesto que C(F — fifiJ ) = C, es fácil ver que otra g-inversa es
— fi
C— = fi
ndiag(p fi , . . . , hp—fi )(F — fifiJ ).
£.8. DISTÆIBUCIONES CON MAÆGINALES DADAS 39
2.8. Distribuciomes com margimales dadas

Sea H(ı, 4) la función de distribución bivariante de dos variables aleato-
rias (E, Y ). La función H es
H(ı, 4) = P (E ≤ ı, Y ≤ 4).
Consideremos las distribuciones marginales, es decir, las distribuciones

univariantes de E, Y :
5 (ı) = P (E ≤ ı) = H(ı, œ),

G(4) = P (Y ≤ 4) = H(œ, 4).
Un procedimiento para la obtención de modelos de distribuciones

bivariantes consiste en encontrar H a partir de 5, G y posiblemente algún
parámetro.
Si suponemos E, Y independientes, una primera distribución es
H O (ı, 4) = 5 (ı)G(4).
M. Fréchet introdujo las distribuciones bivariantes
H — (ı, 4) = ma´x(5 (ı) ‡ G(4) — fi, 0},

H ‡ (ı, 4) = m´ın(5 (ı), G(4)},
y demostró la desigualdad
H—(ı, 4) ≤ H(ı, 4) ≤ H‡(ı, 4).
Cuando la distribución es H—, entonces se cumple la relación funcional entre

E, Y
5 (E) ‡ G(Y ) = fi,
y la correlación entre E, Y (si existe) p— es mínima. Cuando la distribución
es H ‡ , entonces se cumple la relación funcional entre E, Y
5 (E) = G(Y ),
y la correlación entre E, Y (si existe) p‡ es máxima. Previamente W. Ho-

effding había probado la siguiente fórmula para la covarianza
cov(E, Y ) = ∫R2 [H(ı, 4) — 5 (ı)G(4)]dıd4,
Figura £.3: Cinco familias de distribuciones con marginales dadas,

representadas mediante las correlaciones entre dos pares de funciones
ortogonales, el primer par es lineal (abcisas) y el segundo es cuadrático
(ordenadas). To- das las curvas pasan por el origen, que indica
independencia estocástica. La curva para la familia Clayton-Oakes
alcanza las cotas inferior y superior de Fréchet. la curva para la familia
FGM sólo tiene componente lineal.
y demostrado la
desigualdad
p— ≤ p ≤ p‡,
donde p—, p y p‡ son las correlaciones entre E, Y cuando la distribución

bivariante es H—, H y H‡, respectivamente.
Posteriormente, diversos autores han propuesto distribuciones
bivariantes paramétricas a partir de las marginales 5, G, que contienen
H O , y en algunos casos, H — y H ‡ . Escribiendo 5, G, H para indicar 5
(ı), G(4), H(ı, 4), algunas familias paramétricas son:
fi. Farlie-Gumbel-Morgenstern:
H8 = 5 G[fi ‡ 8(fi — 5 )(fi — G)], —fi ≤ 8 ≤ fi.

£.9. COMPLEMENTOS 4fi
£. Clayton-Oakes:
Σ Σ—fiƒ8
H8 = ma´x(5 —8 ‡ G—8 — fi, 0 , —fi ≤ 8 c œ.
3. Ali-Mikhail-Haq:
H8 = 5 G/[fi — 8(fi — 5 )(fi — G)], —fi ≤ 8 ≤ fi.
4. Gumbel-Barnett
H8 = 5 G exp(—8 ln 5 ln G), 0 ≤ 8 ≤ fi.
†. Cuadras-Augé:
H8 = (m´ın(5, G})8 (5 G)fi—8 , 0 ≤ 8 ≤ fi.
6. Familia de correlación:
H8 (ı, 4) = 85 (m´ın(ı, 4}) ‡ (fi — 8)5 (ı)J(4), 0 ≤ 8 ≤ fi,
siendo J(4) = [G(4) — 85 (4)]/(fi 8) una función de distribución

univariante.
La Figura £.3 proporciona una representación de cinco familias de dis-

tribuciones con marginales dadas. El gráfico representa, para cada familia,
las correlaciones (vfi, vX) en función del parámetro 8, entre un par de
funciones lineales (vfi) y un par de funciones cuadráticas (vX).de las
variables E, Y .
2.9. Complememtos
La distribución normal multivariante es, con diferencia, la más utilizada
en análisis multivariante. Textos como Anderson (fi9†6), Rao (fi9F3),
Rencher (fi99†, fi998), se basan, casi exclusivamente, en la suposición de
normalidad. Más recientemente se han estudiado generalizaciones, como las
distribuciones elípticas, cuya densidad es de la forma
Σ Σ
ƒ (x) = |X|—fiƒX g (x — µ)J X—fi (x — µ) ,
4£ CAPÝTULO £. NOÆMALIDAD MULTIVAÆIANTE
donde g es una función positiva creciente. Otras distribuciones

importantes son la multinomial y la Dirichlet.
Cuando se estudiaron muestras normales multivariantes, pronto se
planteó la necesidad de encontrar la distribución de la matriz de
covarianzas, y de algunos estadísticos apropiados para realizar contrastes
de hipótesis multivariantes. Así fue como J. Wishart, H. Hotelling y S. S.
Wilks propusieron las distribuciones que llevan sus nombres, en los anos
fi9£8, fi93fi y fi93£, respectivamente.
El estudio de las distribuciones con marginales dadas proporciona un
método de construcción de distribuciones bivariantes y multivariantes.
Algunas referencias son: Hutchinson y Lai (fi990), Joe (fi99F), Nelsen
(£006), Cuadras y Augé (fi98fi), Cuadras (fi99£a, £006, £009, £0fi†). La
fór- mula de Hoeffding admite la siguiente generalización (Cuadras, £00£,
£0fi0,
£0fi4):
cov(α(E), Ø(Y )) = ∫R2 [H(ı, 4) — 5 (ı)G(4)]dα(ı)dØ(4).
Véase también Øuesada-Molina (fi99£), Cuadras (£0fi†), Díaz y Cuadras
(£0fiF) y Cuadras et a1. (£0fi9).
Capítulo 3
INFEÆENCIA
MULTIVAÆIANTE
3.1. Comceptos básicos

Sea ƒ (x,8) un modelo estadístico. La función ”score™ se define como
6
x(x,8) = log ƒ(x,8).
68
Una muestra multivariante está formada por las n filas xJfi , . . . , xJn
independientes de una matriz de datos Xnvp . La función de verosimilitud
es
Yn
J(X, 8) = ƒ(xs,8).
s=fi
La función ”score™ de la muestra es

Σ n
x(X,8) = 6
s=fi log ƒ(xs,8).
68
La matriz de información de Fisher 5 (8) es la matriz de covarianzas de
x(X,8). Cuando un modelo estadístico es regular se verifica:
a) E [x(X,8)] = 0, b) 5 (8) =E[x(X,8)x(X,8)J ].
Un estimador t(X) de 8 es insesgado si E[t(X)] = 8. La desigualdad

de Cramér-Rao dice que si cov(t(X)) es la matriz de covarianzas de
t(X), entonces
cov(t(X)) ≤5 (8)—fi,
43
44 CAPÝTULO S. INFEÆENCIA MULTIVAÆIANTE
en el sentido de que la diferencia cov(t(X)) 5—(8) —fi es una matriz semi-

definida positiva.
Un estimador ^8 del parámetro desconocido 8 es máximo verosímil si
maximiza la función J(X,8). En condiciones de regularidad, podemos
^
obtener
8 resolviendo la ecuación
n
Σ 6
68 log ƒ(xs,8) = 0.
s=fi
Entonces el estimador máximo verosímil^ 8n obtenido a partir de una

muestra de tamano n satisface:
a) Es asintóticamente normal con vector de medias 8 y matriz de cova-
rianzas (n5fi(8))—fi, donde 5fi(8) es la matriz de información de Fisher
para una sola observación.
b) Si t(X) es estimador insesgado de 8 tal que cov(t(X)) = (n5fi(8))—fi,
entonces 8^n =
8^n converge en probabilidad a 8.
c) t(X).
3.2. Estimacióm de medias y covariamzas

Si las n filas xJfi , . . . , xJn de Xnvp son independientes Np (µ, X) la
función de verosimilitud es
. Σ
n
J(X, µ, X) = det(XvX) —nƒX
— fiX (xs — µ)J X—fi (xs — µ) .
exp Σ
Sea ds = xs — x. Se s=fi
verifica
Σn Σn
—fi
s=fi (xs — µ) X (xs — µ) =
J
s=fi
ds J X—fi ds ‡ n(x — µ)J X—fi (x — µ)
Σn
s=fi
= tr [X—fi ds ds J ] ‡ n(x — µ)J X—fi (x — µ).
Por lo tanto el logaritmo de J se puede expresar como
log J(X, µ, X) = — Xn log det(XvX) — Xn tr(X—fi S)—Xn (x — µ)J X—fi (x — µ).
Derivando matricialmente respecto de µ y de X—fi tenemos
6
6µ log J = nX—fi(x — µ) = 0,
6 n
6E — log J = X [X — S — (x — µ)(x — µ)J ] = 0.
fi
S.S. CONTÆASTE DE HIPÓTESIS MULTIVAÆIANTES 4†
Las estimaciones máximo-verosímiles de µ, X son pues

µ^ = x, X^ = S.
Sin embargo S no es estimador insesgado de X. La estimación centrada es
^ = XJ HX/(n fi).
S
Si sólo µ es desconocido, la matriz de información de Fisher es
— Σ
5 (µ) = E nX—fi (x — µ)nX—fi (x — µ)J = nX—fi ,
Σ
y como cov(x) = X/n, tenemos que x alcanza la cota de Cramér-Rao.
Probaremos más adelante que:
fi. x es Np(µ, X/n).
£. x y S son estocásticamente independientes.
3. nS sigue la distribución de Wishart.
3.3. Comtraste de hipótesis multivariamtes

Un primer método para construir contrastes sobre los parámetros de
una población normal, se basa en las propiedades anteriores, que dan
lugar a estadísticos con distribución conocida (ji-cuadrado, F).
3.3.1. Test sobre la media: uma poblacióm

Supongamos que las filas de Xnvp son independientes Np(µ, X). Sea µO
un vector de medias conocido. Øueremos realizar un test sobre la hipótesis
HO : µ = µ O
fi. Si X es conocida, como x es Np(µ, X/n), el estadístico de contraste es
n(x—µO )J X—fi (x—µO ) ~ zXp.
£. Si X es desconocida, como (n —fi)(x—µ)J S—fi (x —µ) ~ f X (p, n fi), el

estadístico de contraste es —
n—p
(x—µO )J S—fi (x—µ O ) ~ 5n—p . (3.fi)
p p
En ambos casos se rechaza HO para valores grandes significativos del

es- tadístico.
3.3.2. Test sobre la media: dos poblaciomes

Supongamos ahora que tenemos dos matrices de datos
independientes Xnfivp, Vn2vp que provienen de distribuciones Np(µfi, X),
Np(µX, X). Øuere- mos construir un test sobre la hipótesis
HO : µfi = µX.
fi. Si X es conocida, como (x— ¢) es Np(µfi µX, (fi/nfi ‡ fi/nX)X) el es-

tadístico de contraste es
nfi nX
(x—¢)J X—fi (x — ¢) ~ zX .
p
nfi ‡ nX
£. Si X es desconocida, el estadístico de contraste es

nf i ‡ nX — f i — p nfi nX
(x—¢)J S^ —fi (x — ¢) ~n ‡n
5 p—fi—p .
(nfi ‡ nX — nfi ‡ fi 2
X)p nX
^
siendo S = (nfi Sfi ‡nX SX )/(nfi ‡nX X) la estimación centrada (es
decir, insesgada) de X.
—
3.3.3. Comparacióm de varias medias

Supongamos que las filas de g matrices de datos son independientes,
y que provienen de la observación de g poblaciones normales
multivariantes:
matriz orden media covarianza dixtribuci

ón Xfi nfi × p xfi Sfi Np(µfi, X)
XX nX × p xX SX Np(µX, X)
(3.£)
.. .. .. .. ..
Xg ng × p xg Sg Np(µg, X)
El vector de medias generales y la estimación centrada (o insesgada)

de la matriz de covarianzas común X son
fi g
g f i
x= Σnx,
S^ = ΣnS,
n s=fi s s s s
n— s=fi
g
Σg
—fi
siendo Ss = n s X sHXs y n = s=fi ns.
J
S.Œ. TEOÆEMA DE COCHÆAN 4F
Deseamos construir un test para decidir si podemos aceptar la

hipótesis de igualdad de medias
HO : µfi = µX = · · · = µg.
Introducimos las siguientes matrices:

Σg
B = ns (xs — x)(xs — x)J (dixperxioń entre grupox)
Σg Σn s
— sα — s
J
W = s=fig n s
(xsα s J
s=fi α=fi sα sα
— x )(x— x ) (dixperxioń dentro grupox)
Σs=fi Σα=fi x)(x x) (dixperxioń total)
Se verifica ^ y la relación:
T = que W = (n(x — g)S
T = B ‡ W.
Si la hipótesis nula es cierta, se verifica además
B ~Wp(X, g — fi), W ~Wp(X, n — g), T ~Wp(X, n — fi),

B, W xon extoca´xticamente independientex.
Por lo tanto, si HO es cierta
|W|
h = |W ‡ B| ~ h(p, n — g, g — fi).
Rechazaremos HO si h es un valor pequeno y significativo, o si la transfor-

mación a una 5 es grande y significativa.
3.4. Teorema de Cochram

Algunos resultados de la sección anterior son una consecuencia del
Teo- rema 3.4.fi, conocido como teorema de Cochran.
Lema 3.4.1 Sea X(n × p) una matvss de datos Np (µ, X) 4 u, v dos seGtoves
n × fi ta1es que uJ u = vJ v =fi, uJ v =0.
f. Ss µ = 0 entonGes ¢J = uJ X es Np (0, X).
W. ¢J = uJ X es sndependsente de xJ = vJ X.
Demost.: Sean xJfi , . . . , xJn las filas (independientes) de X. Si u = (ufi , . . . , un )J

Σn
entonces ¢J = uJ X = s=fi us xs es normal multivariante con µ = 0 y matriz
de covarianzas
n n n
E(¢¢J ) = E(Σ us xs )(Σ us xs )J = E( Σ us uj xs xJj )
s=fi s=fi s,j=fi
n n
X
= Σ us uj E(xs x j ) = Σ u E(xs xJs )
J
s,j=fi s=fi s
n
= ΣuX
X = X.
s
s=fi
Análogamente, si v = (vfi , . . . , vn )J , xJ = vJ X es también normal.

Σn
Las esperanzas de ¢, x son: E(¢) =s=fi( us)µ, E(x)s=fi vs)µ. Las
Σn
= (
covarianzas entre ¢ y x son:
E[(¢—E(¢))(x—E(x))J ] = n
Σ
us vj E[(xs — µ)(xj — µ)J ]
s=fi
= n
Σ
us vs E[(xs — µ)(xj — µ)J ] = uJ vX = 0,
s=fi
lo que prueba la independencia estocástica entre ¢ y x. Q
Teorema 3.4.1 Sea X(n × p) una matvss de datos Np(0, X) 4 sea C(n n)
una matvss ssmétvsGa.
f. XJ CX tsene 1a mssma dsstvsbuGsón que una suma pondevada de matvsGes

Wp (X, fi), donde 1os pesos son sa1oves pvopsos de C.
W. XJ CX es Wsshavt Wp (X, v) ss 4 só1o ss C es sdempotente 4 vango(C) =

v.
Demost.: Sea
n
Σ
C= Zs us uJs
s=fi
la descomposición espectral de C, es decir, Cus = Zsus. Entonces

XJ CX = Σ Zs ¢sJ ¢s .
S.Œ. TEOÆEMA DE COCHÆAN 49
Por el Lema 3.4.fi anterior, las filas ¢sJ de la matriz

, fi , , fi ,
.¢ J uJ X
V = , . ., = , . . , ,
.
¢J u J
n
n
X
son también independientes Np (0, X) y cada ¢s ¢sJ es Wp (X, fi).
Si CX = C entonces Cus = Zsus siendo Zs = 0 ó fi. Por lo tanto v =tr(C)
y
Σv
X CX =
J
¢s ¢sJ ~ Wp (X, v). Q
s=fi
El siguiente resultado se conoce como teorema de Craig, y junto con el

teorema de Cochran, permite construir contrastes sobre vectores de medias.
Teorema 3.4.2 Sea X(n×p) una matvss de datos Np (µ, X) 4 sean

Cfi (n×n), CX (n × n) matvsGes ssmétvsGas. EntonGes XJ Cfi X es
sndependsente de XJ CX X ss Cfi CX = 0.
Demost.:
n
Σ
Cfi = Zs (fi)us uJs , XJ Cfi X = Zs (fi)¢s ¢sJ ,
s=fi
Σ
n
Σ
CX = Zj (X)vj vjJ , XJ CX X = Zj (X)xj xJj ,
j=fi
Σ
siendo ¢s = uJs X, xJj = vjJ X. Por otra parte
J
n n
Cfi CX = Σ Σ Zs (fi)Zj (X)us uJs vj vjJ
s=fi s=fi = 0 → Zs (fi)Zj (X)uJs vj = 0, 6s, j.
ƒ j (X) = 0, entonces por el Lema 3.4.fi,

Si Zs (fi)Z × ¢sJ (fi p) = usJ X es
indepen- ×diente de x j (fi
J
p) = vjJ X. Así
XJ Cfi X es independiente de XJ CX X. Q Una primera
consecuencia del teorema anterior es la independencia entre
vectores de medias y matrices de covarianzas muestrales. En el caso
univariante p = fi es el llamado teorema de Fisher.
Teorema 3.4.3 Sea X(n × p) una matvss de datos Np (µ, X). EntonGes:
f. Ga medsa x es Np(µ, X/n).

†0 CAPÝTULO S. INFEÆENCIA MULTIVAÆIANTE
W. Ga matvss de GOsavsansas S = XJ HX/n sevsflGa nS ~ Wp (X, n — fi).

h. x 4 S son estoGástsGamente sndependsentes.
Demost.: Consideremos Cfi = n—fi fifiJ . Tenemos rango(Cfi ) = fi, XJ Cfi X
= xxJ . Consideremos también CX = H. Como Cfi CX = 0 deducimos que
x es independiente de S.
Por otra parte, Hfi = 0 y H tiene el valor propio fi con multiplicidad
n — fi. Así us , vector propio de valo r propio fi, es ortogonal a fi, resultando
Σn
que ¢sJ = uJs X verifica E(¢sJ ) = α=fi usα )µ = (u s fi)µ =0µ = 0. Si uj
J
es otro (
Σvector propio, ¢s, ¢j son independientes (Lema 3.4.fi). Tenemos que
n—fi
nS = s=fi ¢s ¢J s, donde los ¢s ¢J s son Wp (X, fi) independientes. Q
Teorema 3.4.4 Sean Xs , matvsGes de datos sndependsentes de ovden ns × p
Σg
GOn dsstvsbuGsón Np (µs , X), s = fi, . . . g, n s=fi ns . Ss 1a hspótesss
nu1a
HO : µfi = µX = · · · = µg
es Gsevta, entonGes B, W son sndependsentes GOn dsstvsbuGsones Wsshavt:
B ~Wp(X, g — fi), W ~Wp(X, n — g).
Demost.: Escribimos las matrices de datos como una única matriz
,. .
Xfi
X=
, .. ,
Xg
.
Sean ,
fifi =Σ
(fi, . . . , fi, 0, . . . , 0), . . . , fig = (0, . . . 0, fi, . . . fi),
fi =gs=fi fis = (fi, . . . , fi, . . . , fi, . . . , fi),
donde fifi tiene nfi unos y el resto ceros, etc. Sean también
Σg
Fs = diag(fi—fi s), F = s=fi Fs,
Hs = Fs — n fis fiJs
Σ s Σg —fi
n —fi fifiJ
J
Cfi = gs=fi Hs, CX = s=fi ns fisfis —
.
Entonces X
= C , C X
= C , C
Cfi fi X fiCX = 0,
X
rango(Cfi) = n — g, rango(CX) = g fi,
W = X Cfi X,
J
B = XJ CX X.
El resultado es consecuencia de los Teoremas 3.4.fi y 3.4.£. Q
S.†. CONSTÆUCCIÓN DE CONTÆASTES DE HIPÓTESIS †fi
3.5. Comstruccióm de comtrastes de hipótesis

3.5.1. Æazóm de verosimilitud
Supongamos que la función de densidad de (Efi, . . . , Ep) es ƒ(x,8), donde
x cRp y 8 c ©, siendo © una región paramétrica de dimensión geométrica
v. Sea ©O c © una subregión paramétrica de dimensión ‹, y planteamos el
test de hipótesis
HO : 8 c © O vs Hfi : 8 c © — ©O.
Sea xfi, . . . , xn una muestra de valores independientes de X,

consideremos la función de verosimilitud
n
Y
J(xfi, . . . , xn¡ 8) = ƒ(x s,8)
s=fi
y sea el estimador máximo verosímil de 8 c ©. Consideremos análoga-

8^ ^
mente 8O, el estimador de máxima verosimilitud de 8 c ©O. Tenemos que
^
8 maximiza J sin restricciones^y 8O maximiza J cuando se impone la
condición de que pertenezca a ©O. La razón de verosimilitud es el
estadístico
J(xfi, . . . , xn¡ 8 ^ )
O
ZR = J(xfi , . . . , xn ¡ 8^),
que satisface 0 ≤ ZR ≤ fi. Aceptamos la hipótesis HO si ZR es próxima a fi

y aceptamos la alternativa Hfi si ZR es significativamente próximo a 0.
El test basado en ZR tiene muchas aplicaciones en AM, pero en la
mayoría de los casos su distribución es desconocida. Existe un
importante resultado (atribuido a Wilks), que dice que la distribución de —
X veces el logaritmo de ZR es ji-cuadrado con v — ‹ g.l. cuando el tamano
de la muestra n es grande.
Teorema 3.5.1 Bajo Gsevtas GOndsGsones de vegu1avsdad, se sevsflGa:
—X log ZR es assntótsGamente zXv—s ,
donde ‹ = dim(©O) c v = dim(©).
Entonces rechazamos la hipótesis HO cuando

— X log ZR sea grande y
significativo. Veamos dos ejemplos.
†£ CAPÝTULO S. INFEÆENCIA MULTIVAÆIANTE
Test de imdepemdemcia
Si (Efi, . . . , Ep) es Np(µ, X), y queremos hacer un test sobre la

independencia estocástica de las variables, entonces
©O = ((µ, XO )}, ‹ = Xp,

© = ((µ, X)}, v = p ‡ p(p ‡ fi)/X,
donde XO es diagonal. ©O contiene las p medias de las variables y las p

varianzas. X es cualquier matriz definida positiva. Se demuestra (Sección
†.4.£) que
—X log ZR = —n log |Æ|,
donde Æ es la matriz de correlaciones. El estadístico—n log|Æ| es asintóti-

camente ji-cuadrado con
q = p ‡ p(p ‡ fi)/X — Xp = p(p — fi)/X g. l.
Si las variables son independientes, tendremos que Æ = F, —n log |Æ|

=0, y es probableqque zX = —n log |Æ| no sea significativo.
Test de comparacióm de medias
Consideremos el test de comparación de medias planteado en la Sección

3.3.3. Ahora
©O = ((µ, X)}, ‹ = p ‡ p(p ‡ fi)/X,

© = ((µfi , . . . , µg ), X)}, v = gp ‡ p(p ‡ fi)/X,
donde X es matriz definida positiva y µ (vector) es la media común

cuando HO es cierta. Hay gp ‡ p(p ‡ fi)/X parámetros bajo Hfi , y p ‡ p(p ‡
fi)/X bajo HO. Se demuestra la relación
ZR = hnƒX,
donde h = |W|/|T| es la lambda de Wilks y n = nfi ‡ · · · ‡ ng. Por lo tanto

—n log h es asintóticamente ji-cuadrado con v — ‹ = (g — fi)p g.l. cuando
la hipótesis HO es cierta.
S.†. CONSTÆUCCIÓN DE CONTÆASTES DE HIPÓTESIS †3
3.5.2. Primcipio de umióm-imterseccióm

Es un principio general que permite construir contrastes multivariantes
a partir de contrastes univariantes y se aplica a diversas situaciones. Co-
mo ejemplo, planteemos la hipótesis nula multivariante HO : µ = µO co-
mo un test univariante. Sea Ea = Xa una variable compuesta con media
µ(a) = µJ a. El test univariante HO (a) : µ(a) =µO (a) contra la alternativa
Hfi(a) : µ(a) ƒ=µO(a) se resuelve mediante la t de Student
, ı(a) — µO (a) n—fi
t(a) = n — fi ‹(a) ~t ,
donde ı(a) = xJ a es la media muestral de Ea y ‹X (a) = aJ Sa es la
varianza. Aceptaremos HO : µ = µO si aceptamos todas las hipótesis
univariantes HO (a), y nos decidiremos por la alternativa Hfi : µ ƒ= µO si
aceptamos una sola de las alternativas Hfi (a), es decir, formalmente
(principio de unión- intersección):
HO = fi HO (a), Hfi = U Hfi (a).
a a
Así rechazaremos HO si la máxima t(a) resulta significativa. Pues bien, la f
X
de Hotelling (Sección 3.3.fi) es precisamente el cuadrado de esta
máxima t de Student, que al ser tomada sobre todas las combinaciones
lineales, ya no sigue la distribución t de Student si p > fi.
Teorema 3.5.2 En e1 test sobve e1 seGtov de medsas, 1a f X de Hote11sng 4 1a
t de Student están ve1aGsonadas pov
f X = ma´x tX (a).
a
Demost.: (x — µO) es un vector columna y podemos escribir t X(a) como

a (x — µO )(x — µO ) a
J J
t (a) = (n — fi)
X
aJ Sa
Sea A = (x — µO )(x — µO )J matriz de orden p × p y rango fi. Si vfi
satisface Avfi = Zfi Svfi entonces Zfi = ma´x(vJ Av/vJ Sv). De (x — µO )(x
— µO )J vfi = Zfi Svfi resulta que S—fi (x — µO )(x — µO )J vfi = Zfi vfi y de la
identidad
S—fi (x — µO )(x — µO )J (S—fi (x — µO )) = (x — µO )J S—fi (x — µO )(S—fi (x — µO ))
vemos que Zfi = (x — µO )J S—fi (x — µO ), vfi = S—fi (x — µO ). Por lo tanto
f X = ma´x tX (a) = (n — fi)(x — µO )J S—fi (x — µO ). Q
a
Amevohe1ea fasGsnata A. pseudofasGsnata

nfi = 9 nX = 6
Efi EX Efi EX
fi,38 fi,6Œ fi,fiŒ fi,t8
fi,Œ0 fi,t0 fi,X0 fi,86
fi,XŒ fi,tX fi,fi8 fi,96
fi,36 fi,tŒ fi,30 fi,96
fi,38 fi,8X fi,X6 X,00
fi,Œ8 fi,8X fi,X8 X,00
fi,5Œ fi,8X
fi,38 fi,90
fi,56 X,08
Tabla 3.fi: Efi = long. antena, EX = long. ala (en mm), para dos
muestras de tamano nfi = 9 y nX = 6.
3.6. Ejemplos
Ejemplo 3.6.1 MosGas.
Se desean comparar dos especies de moscas de agua: Amevohe1ea

fasGs− nata, Amevohe1ea pseudofasGsnata. En relación a las variables Efi
= long. antena, EX = long. ala (en mm), para dos muestras de
tamanos nfi = 9 y nX = 6, se han obtenido las matrices de datos de la
Tabla 3.fi.
Vectores de medias (valores multiplicados por fi00):
x = (fiŒfi,33, fi80,ŒŒ)J , ¢ = (fiXX,6t, fi9X,6t)J .
Matrices (no centradas) de covarianzas:
. Σ .
8t,fifi tfi,85
Sfi = tfi,85 fi50,03 3X,88 36,XX
SX
= Σ 36,XX 6Œ,89 .
Estimación centrada de la matriz de covarianzas común:

fi . Σ
S
^ = fi3 (9S fi X t5,Œ9 66,Œ6
‡ 6S ) = 66,Œ6 fi33,8fi .
Distancia de Mahalanobis entre las dos muestras:
DX = (x — ¢)J S^ —fi (x — ¢) = fi5,5X.

S.6. EJEMPLOS ††
X
Estadístico f
6×9
: f X
= DX = 55,8t
6‡9
9‡6—fi—X
Estadístico 5 : f X = X5,t8 ~ 5
X
fiX
X(9 ‡ 6 — X)
Decisión: rechazamos la hipótesis de que las dos especies son iguales
(nivel de significación = 0,00fi).
Ejemplo 3.6.2 F1oves.
Comparación de las especies ssvgsnsGa, sevssGO1ov, setosa de flores

del género Ivss (datos de R. A. Fisher, Tabla 3.£), respecto a las
variables que miden longitud y anchura de sépalos y pétalos:
Efi = longitud de sépalo, EX = anchura de sépalo,

E3 = longitud de pétalo, E4 = anchura de pétalo.
Vectores de medias y tamanos muestrales:
I. setosa (5,006, 3,ŒX8, fi,Œ6X, nfi = 50

0,XŒ6)
I. sevssGO1ov (5,936, X,tt0, Œ,X60, fi,3X6) nX = 50
I. ssvgsnsGa (6,588, X,9tŒ, 5,550, X,0X6) n3 = 50
Matriz dispersión entre grupos:

, ,
63,XfiX —fi9,953 fi65,fit tfi,Xt8
fifi,3Œ5 — 5t,X3 — XX,93X .
B= . ,
. Œ36,t3 .fi86,69
, 80,Œfi3
Matriz dispersión dentro grupos:

W = ,., 38,956 fi3,630 XŒ,t03 5,6Œ5,.,
fi6,96X 8,fiŒ8 Œ,808
Xt,3XX 6,X8Œ
6,fi56
Efi E2 E3 E4 Efi E2 E3 E4 Efi E2 E3 E4

†,fi 3,† fi,4 O,X F,O 3,X 4,F fi,4 6,3 3,3 6,O X,†
4,9 3,O fi,4 O,X 6,4 3,X 4,† fi,† †,8 X,F †,fi fi,9
4,F 3,X fi,3 O,X 6,9 3,fi 4,9 fi,† F,fi 3,O †,9 X,fi
4,6 3,fi fi,† O,X †,† X,3 4,O fi,3 6,3 X,9 †,6 fi,8
†,O 3,6 fi,4 O,X 6,† X,8 4,6 fi,† 6,† 3,O †,8 X,X
†,4 3,9 fi,F O,4 †,F X,8 4,† fi,3 F,6 3,O 6,6 X,fi
4,6 3,4 fi,4 O,3 6,3 3,3 4,F fi,6 4,9 X,† 4,† fi,F
†,O 3,4 fi,† O,X 4,9 X,4 3,3 fi,O F,3 X,9 6,3 fi,8
4,4 X,9 fi,4 O,X 6,6 X,9 4,6 fi,3 6,F X,† †,8 fi,8
4,9 3,fi fi,† O,fi †,X X,F 3,9 fi,4 F,X 3,6 6,fi X,†
†,4 3,F fi,† O,X †,O X,O 3,† fi,O 6,† 3,X †,fi X,O
4,8 3,4 fi,6 O,X †,9 3,O 4,X fi,† 6,4 X,F †,3 fi,9
4,8 3,O fi,4 O,fi 6,O X,X 4,O fi,O 6,8 3,O †,† X,fi
4,3 3,O fi,fi O,fi 6,fi X,9 4,F fi,4 †,F X,† †,O X,O
†,8 4,O fi,X O,X †,6 X,9 3,6 fi,3 †,8 X,8 †,fi X,4
†,F 4,4 fi,† O,4 6,F 3,fi 4,4 fi,4 6,4 3,X †,3 X,3
†,4 3,9 fi,3 O,4 †,6 3,O 4,† fi,† 6,† 3,O †,† fi,8
†,fi 3,† fi,4 O,3 †,8 X,F 4,fi fi,O F,F 3,8 6,F X,X
†,F 3,8 fi,F O,3 6,X X,X 4,† fi,† F,F X,6 6,9 X,3
†,fi 3,8 fi,† O,3 †,6 X,† 3,9 fi,fi 6,O X,X †,O fi,†
†,4 3,4 fi,F O,X †,9 3,X 4,8 fi,8 6,9 3,X †,F X,3
†,fi 3,F fi,† O,4 6,fi X,8 4,O fi,3 †,6 X,8 4,9 X,O
4,6 3,6 fi,O O,X 6,3 X,† 4,9 fi,† F,F X,8 6,F X,O
†,fi 3,3 fi,F O,† 6,fi X,8 4,F fi,X 6,3 X,F 4,9 fi,8
4,8 3,4 fi,9 O,X 6,4 X,9 4,3 fi,3 6,F 3,3 †,F X,fi
†,O 3,O fi,6 O,X 6,6 3,O 4,4 fi,4 F,X 3,X 6,O fi,8
†,O 3,4 fi,6 O,4 6,8 X,8 4,8 fi,4 6,X X,8 4,8 fi,8
†,X 3,† fi,† O,X 6,F 3,O †,O fi,F 6,fi 3,O 4,9 fi,8
†,X 3,4 fi,4 O,X 6,O X,9 4,† fi,† 6,4 X,8 †,6 X,fi
4,F 3,X fi,6 O,X †,F X,6 3,† fi,O F,X 3,O †,8 fi,6
4,8 3,fi fi,6 O,X †,† X,4 3,8 fi,fi F,4 X,8 6,fi fi,9
†,4 3,4 fi,† O,4 †,† X,4 3,F fi,O F,9 3,8 6,4 X,O
†,X 4,fi fi,† O,fi †,8 X,F 3,9 fi,X 6,4 X,8 †,6 X,X
†,† 4,X fi,4 O,X 6,O X,F †,fi fi,6 6,3 X,8 †,fi fi,†
4,9 3,fi fi,† O,X †,4 3,O 4,† fi,† 6,fi X,6 †,6 fi,4
†,O 3,X fi,X O,X 6,O 3,4 4,† fi,6 F,F 3,O 6,fi X,3
†,† 3,† fi,3 O,X 6,F 3,fi 4,F fi,† 6,3 3,4 †,6 X,4
4,9 3,6 fi,4 O,fi 6,3 X,3 4,4 fi,3 6,4 3,fi †,† fi,8
4,4 3,O fi,3 O,X †,6 3,O 4,fi fi,3 6,O 3,O 4,8 fi,8
†,fi 3,4 fi,† O,X †,† X,† 4,O fi,3 6,9 3,fi †,4 X,fi
†,O 3,† fi,3 O,3 †,† X,6 4,4 fi,X 6,F 3,fi †,6 X,4
4,† X,3 fi,3 O,3 6,fi 3,O 4,6 fi,4 6,9 3,fi †,fi X,3
4,4 3,X fi,3 O,X †,8 X,6 4,O fi,X †,8 X,F †,fi fi,9
†,O 3,† fi,6 O,6 †,O X,3 3,3 fi,O 6,8 3,X †,9 X,3
†,fi 3,8 fi,9 O,4 †,6 X,F 4,X fi,3 6,F 3,3 †,F X,†
4,8 3,O fi,4 O,3 †,F 3,O 4,X fi,X 6,F 3,O †,X X,3
†,fi 3,8 fi,6 O,X †,F X,9 4,X fi,3 6,3 X,† †,O fi,9
4,6 3,X fi,4 O,X 6,X X,9 4,3 fi,3 6,† 3,O †,X X,O
†,3 3,F fi,† O,X †,fi X,† 3,O fi,fi 6,X 3,4 †,4 X,3
†,O 3,3 fi,4 O,X †,F X,8 4,fi fi,3 †,9 3,O †,fi fi,8
Tabla 3.£: Longitud y anchura de sépalos y pétalos de 3 especies del

género Iris: Setosa, Versicolor, Virginica.
S.6. EJEMPLOS †F
Lambda de Wilks:
|W|
h= = 0,0X3Œ~ h(Œ, fiŒt, X).
|W ‡ B|
Transformación a una 5 aplicando (£.9) con p = Œ, t — q = fiŒt, q = X:
8
h ‹ 5 = fi99,fiŒ ~ 5X88 .
Decisión: las diferencias entre las tres especies son muy significativas.
Ejemplo 3.6.3 Pavadoja de Æao.
Consideremos los siguientes datos (tamanos muestrales, medias,

desviaciones típicas, matrices de covarianzas) de p = X variables E
(longitud del fémur), Y (longitud del húmero), obtenidas sobre dos
poblaciones (Anglo- indios, Indios).
Medias E Y
Matriz covarianzas
nfi = Xt Œ60,Œ 335,fi . Σ
56fi, t 3tŒ,X
nX = X0 ŒŒŒ,3 3X3,X S^
3tŒ,X 33fi,XŒ
=
Diferencia fi6,fi fifi,9 Correlación: v = 0,86t
Desv. típicas X3,t fi8,X
Suponiendo normalidad, los contrastes t de comparación de medias
para cada variable por separado son:
Variable E t = X,30X (Œ5 g.l.) (p = 0,0X59),

Variable Y t = X,Xfi5 (Œ5 g.l.) (p = 0,03fi8).
A un nivel de significación del 0,05 se concluye que hay diferencias

significativas para cada variable por separado.
Utilicemos ahora las dos variables conjuntamente. La distancia de
Maha- lanobis entre las dos poblaciones ^ es dJ S—fi d =0,Œttt, siendo d =(fi6,fi
X
,fifi,9). La f de Hotelling es
Xt × X0
fX= 0,Œttt = 5,Œ88
Xt ‡ X0
que convertida en una F da:
Xt ‡ X0 — f i — X
5 = 5,Œ88 = X,685 (X y ŒŒ g.l.) (p = 0,0t9).
(Xt ‡ X0 — X)X
Esta F no es significativa al nivel 0,05. Por lo tanto ambos contrastes uni-

variantes resultan significativos, pero el test bivariante no, contradiciendo
la creencia de que un test multivariante debería proporcionar mayor
signifi- cación que un test univariante.
Interpretemos geométricamente esta paradoja (conocida como
paradoja de Rao). Con nivel de significación 0,05, y aplicando el test f X de
Hotelling, aceptaremos la hipótesis nula bivariante si el vector
diferencia d = (ı 4)J pertenece a la elipse
nn . Σ—fi
nfifi ‡X dJ 56fi, t 3tŒ,
d≤
nX X 3tŒ, X 33fi, 3,X,
XŒ
donde 3.£ es el punto crítico para una F con £ y 44 g. l. Así pues no hay
significación si ı, 4 verifican la inecuación
0, 0Œ 036 9ıX — 0, 09fiX fiı4 ‡ 0, 068Œ5 64 X ≤ 3,X.
Análogamente, en el test univariante y para la primera variable ı, la

diferència d = ıfi — ıX debe verificar
. . Σ
n fi nX d .
.. nfi ‡ nX
‹fi . ≤ X,
siendo £ el valor crítico para una t con 4† g. l. Procederíamos de forma

similar para la segunda variable 4. Obtenemos así las cuatro rectas
Variable ı : 0, fiŒ3ı = TX, Variable 4 : 0, fi86X4 = TX.
En la Figura 3.fi podemos visualizar la paradoja. Los valores de la

diferencia que están a la derecha de la recta vertical rı son significativos
para la variable ı. Análogamente los que están por encima de la recta
horizontal r4 lo son para la 4. Por otra parte, todos los valores que están
fuera de la elipse (región F) son significativos para las dos variables. Hay
casos en que ı, 4 por separado no son significativos, pero conjuntamente
sí. No obstante, existe una pequena región por encima de r4 y a la
derecha de rı que cae dentro de la elipse. Para los datos del ejemplo, se
obtiene el punto senalado con el signo ‡, para el cual ı e 4 son
significativas pero no (ı, 4). Así ı e 4 son significativas si el punto se
encuentra en el cuadrante A. (Una simetría con respecto al origen nos
permitiría considerar otras dos rectas y la región B).
S.F. ANÁLISIS DE PEÆFILES †9
Figura 3.fi: Un test de comparación de poblaciones bivariante puede

resultar menos significativo que dos test univariantes con las variables
marginales.
Pues bien, el test con ı y el test con 4 por separado, son contrastes t
dsstsntos del test f X empleado con (ı, 4), equivalente a una F. Tales
contrastes no tienen por qué dar resultados compatibles. Las
probabilidades de las regiones de rechazo son distintas. Además, la
potencia del test con (ı, 4) es superior, puesto que la probabilidad de la
región F es mayor que las probabilidades sumadas de las regiones A y
B.
Para más ejemplos de comparación de medias, consúltese Baillo y
Grané (£008).
3.Y. Amálisis de perfiles

Supongamos que las filas de una matriz de datos X(n × p) provienen
de una distribución Np (µ, X). Estamos interesados en establecer una
hipótesis lineal sobre µ = (µfi , . . . , µp )J . Por ejemplo, la hipótesis de
que las medias univariantes son iguales:
HO : µfi = · · · = µp.
Esta hipótesis sólo tiene sentido si las variables observables son

comparables.
Consideremos la matriz de orden (p — fi) × p

,. ,
. fi —fi 0 ··· 0
. 0 fi —fi ·. · · 0 .
C = , .. .. .. . . .. ,
0. 0 0 · · · —fi
La hipótesis es equivalente a
HO : Cµ = 0.
Aceptar HO es lo mismo que decir que las medias de las p — fi
variables
— Efi — EX , EX E3 , . . . , Ep—fi Ep son iguales a cero. Por lo
—
tanto (véase la Sección 3.3.fi) aplicaremos el test de la f X de Hotelling a la
matriz de datos V = XCJ . Bajo la hipótesis nula
f X = (n— fi)(Cx)J (CSCJ )—fi (Cx) = n(Cx)J (CS^ CJ )—fi (Cx) ~ f X (p— fi, n— fi),
siendo S^ la matriz de covarianzas con corrección de sesgo. Aplicando (3.fi)

con p — fi variables y teniendo en cuenta la relación entre la f X de
Hotelling
y la F de Fisher-Snedecor,
n — p ‡ fi
(Cx)J (CS^ CJ )—fi (Cx) ~ 5 p . (3.3)
—fi
n—p‡fi
p—
fi
Rechazaremos la hipótesis nula si el valor F resulta
significativo.
Ejemplo 3.Y.1 Ávbo1es.
Consideremos los datos del ejemplo fi.fifi.fi. Øueremos estudiar si las

medias poblacionales de N, E, S, W son iguales. En este caso
, ,
fi —fi 0 0
, ,0
fi0 —fi0 0C =
fi —fi
X
y la f de Hotelling es:
^ J )—fi Cx = X0,tŒ
f X = n(Cx)J (CSC
Bajo la hipótesis nula, sigue una f X(3, Xt). Convertida en una F se
obtiene 5 (3, X5) =×[X5/(Xt 3)]f X = 6,Œ0. El valor crítico al nivel 0,05 es
X,99. Hay diferencias significativas a lo largo de las cuatro direcciones
cardinales.
S.8. COMPLEMENTOS 6fi
3.8. Complememtos
C. Stein probó que la estimación ^ µ = x de µ de la distribución N p(µ, X)
puede ser inadmisible si p ≤ 3, en el sentido de que no minimiza
Σp
(µs — µs)X,
^
s=fi
y propuso una mejora de aquel estimador. B. Efron y C. Morris explicaron

esta peculiaridad desde una perspectiva bayesiana. S. M. Stigler dió una
interesante explicación en términos de regresión, justificando por qué ≤
p3
(consultar Cuadras, fi99fi).
El principio de unión-intersección es debido a S. N. Roy, pero no
siempre es aplicable. El test de máxima-verosimilitud es atribuido a S.
Wilks y es más general. Es interesante
— notar que X log h se puede
interpretar como una distancia de Mahalanobis. Otros contrastes
semejantes fueron propuestos por
C. R. Rao y A. Wald. Véase Cuadras y Fortiana (fi993b), Rao (fi9F3).
En general, es necesario corregir los estadísticos de contraste
multiplicando por una constante a fin de conseguir contrastes
insesgados (la potencia del test será siempre más grande que el nivel de
significación). Por ejemplo, es necesario hacer la modificación de G. E. P.
Box sobre el test de Bartlett para comparar matrices de covarianzas
(Sección F.†.£).
Para datos de tipo mixto o no normales, se puede plantear la
comparación de dos poblaciones utilizando distancias entre las
observaciones, calculando coordenadas principales mediante MDS, y a
continuación aplicando el modelo de regresión multivariante. Véase
Cuadras y Fortiana (£004), Cuadras (£008).
6£ CAPÝTULO S. INFEÆENCIA MULTIVAÆIANTE
Capítulo 4
ANÁLISIS DE
COÆÆELACIÓN CANÓNICA
4.1. Imtroduccióm
En este capítulo estudiamos la relación multivariante entre vectores
aleatorios. Introducimos y estudiamos las correlaciones canónicas, que
son generalizaciones de las correlaciones simple y múltiple.
Tenemos tres posibilidades para relacionar dos variables:
La correlación simple si E, Y son dos v.a.
La correlación múltiple si Y es una v.a. y X = (Efi, . . . , Ep) es un

vector aleatorio.
La correlación canónica si X = (Efi, . . . , Ep) e V = (Yfi, . . . , Yq) son

dos vectores aleatorios.
4.2. Correlacióm múltiple

Øueremos relacionar una variable respuesta Y con p variables
cuantitativas explicativas Efi, . . . , Ep, que suponemos centradas. El
modelo de regresión múltiple consiste en encontrar la combinación lineal
Y^ = ØfiEfi ‡ · · · ‡ ØpEp
63
64 CAPÝTULO Œ. ANÁLISIS DE COÆÆELACIÓN CANÓNICA
que mejor se ajuste a la variable Y. Sea X la matriz de covarianzas

de X y 6 = (6 fi , . . . , 6 p )J el vector columna con las covarianzas 6 j
=cov(Y, Ej ), j = fi, . . . , p. El criterio de ajuste es el de los mínimos
cuadrados.
Teorema 4.2.1 Gos GOeflGsentes^Ø = ^

(Ø , . . . , Ø p ) que msnsmssan 1a Gantsdad
^ X ^ fi
E(Y — Y ) sevsflGan 1a eGuaGsón
Ø^ = X—fi 6. (4.fi)
Demost.:
$(Ø) = E(Y — Y ^)X
= E(Y )X ‡ E(Y^ )X — XE(Y Y )
= var(Y ) ‡ Ø J XØ — XØ J 6
^
Derivando vectorialmente respecto de Ø e igualando a 0
6
$(Ø) = XXØ — X6 = 0. Q
6Ø
La variable predicción es Y^ = XØ^ = Ø^fi Efi ‡ · · · ‡ Ø^ p Ep . Si ponemos
Y = Y^ ‡ Y˜ ,
entonces Y˜ es la variable residual.

La correlación múltiple entre Y y Efi, . . . , Ep es, por definición, la corre-
lación simple entre Y y la mejor predicción Y^ = XØ.
Se indica por R = cor(Y, Y^ ). Se verifica:
^
fi. 0 ≤ R ≤ fi.
£. R = fi si Y es combinación lineal de Efi, . . . , Ep.
3. R = 0 si Y está incorrelacionada con cada una de las variables E s.
Teorema 4.2.2 Ga savsab1e pvedsGGsón^Y , ˜ 4 1a GOvve1aGsón mú1ts−

vessdua1 Y p1e R Gump1en:
f. Y^ e Y˜ son savsab1es snGOvve1aGsonadas.
W. sav(Y ) =sav(Y^ )‡sav(Y˜ ).

Œ.S. COÆÆELACIÓN CANÓNICA 6†
h. RX =sav(Y^ )/sav(Y ).
Demost.:
^ = 6. En efecto,
fi. Es consecuencia de XØ
cov(Y^ , Y˜ ) = E(Y
^ Y˜ ) = E(ØjX
^ (Y — ^
J
ØjX)) = ^
Øj6 — ^
ØjXØ = 0.
^
£. Es consecuencia inmediata de fi).
3. De
. p
Σ p
j j
cov(Y, ^Y ) = Y, Σ Ø^ = Σ Ø^ 6 s = Ø^ 6 = Ø^ XØ^ = var(Y^ ),
s s
cov s=fi E
s
s=fi
obtenemos
RX = covX(Y, Y ) var(Y
) ^ . Q (4.£)
var(Y )^ =
var(Y
var(Y^ ) )
4.3. Correlacióm camómica

Mediante el Análisis de Correlación Canónica (ACC) se relacionan dos
conjuntos de variables. ACC tiene aplicaciones en Ecología (relacionar es-
pecies con condiciones ambientales), en Psicometría (test mentales con
ca- racterísticas físicas) y en Economía (importaciones con
exportaciones).
Sean X = (Efi, . . . , Ep), V = (Yfi, . . . , Yq) dos vectores aleatorios de di-
mensiones p y q. Planteemos el problema de encontrar dos variables
compuestas
U = Xa = afiEfi ‡ · · · ‡ apEp, V = Vb = bfiYfi ‡ · · · ‡ bqYq ,
siendo a = (afi , . . . , ap )J , b = (bfi , . . . , bq )J tales que la correlación cor(U, V )

entre ambas sea máxima.
Indiquemos por Sfifi, SXX las matrices de covarianzas (muestrales) del
primer y segundo conjunto, es decir. de las variables X, V,
respectivamente, × y sea SfiX la matriz p q con las covarianzas de las
variables X con las variables
V. Es decir:
X V
X Sfifi SXfiSfiX SXX
V
donde SXfi = SJfiX .

Podemos suponer
var(U ) = aJ Sfifi a =fi, var(V ) = bJ SXX b =fi.
Entonces la correlación entre U y V es aJ SfiX b. Así el problema se reduce a:
maximizar aJ SfiX b rextringido a aJ Sfifi a = fi, bJ SXX b =fi.
Los vectores de coeficientes a, b que cumplen esta condición son los
primeros vectores canónicos. La máxima correlación entre U, V es la
primera correlación canónica vfi.
Teorema 4.3.1 Gos pvsmevos seGtoves GanónsGOS SatssfaGen 1as eGuaGsones
SfiXS—fiSXfia = ZSfifia,
XX
(4.3)
SXfiSfifi—fiSfiXb = ZSXXb.
Demost.: Consideremos la función
$(a, b) = aJ SfiX b—Xfi ZfiƒX (aJ Sfifi a—fi) — Xfi µfiƒX (bJ SXX b—fi),
donde Z, µ son multiplicadores de Lagrange. Entonces de 6$/6a =6$/6b = 0
obtenemos las dos ecuaciones:
SfiXb—ZfiƒXSfifia = 0, SXfia—µfiƒXSXXb = 0. (4.4)
Multiplicando la primera por aJ y la segunda por bJ , tenemos
aJ SfiX b =ZfiƒX aJ Sfifi a, bJ SXfi a =µfiƒX bJ SXX b,

que implican Z = µ. De la segunda ecuación en (4.4) resulta b =ZXX—fiƒXS—
fi
SXfia, y substituyendo en la primera ecuación obtenemos
XX —SfiXS—fiSXfia
ZSfifia = 0. Operando análogamente con la otra ecuación, completamos la
demostración de (4.3). Q
Teorema 4.3.2 Gos seGtoves GanónsGOS novma1ssados a aJ Sfifi a = fi 4 bJ SXX b

= fi, están ve1aGsonados pov
a = Z—fiƒXSfifi
—fi
SfiXb,
—fiƒX —fi
b=Z S XX SXfia.
,
Además 1a pvsmeva GOvve1aGsón GanónsGa es vfi = Zfi , donde Zfi es e1
pvsmev sa1ov pvopso
fifi
de SXX—fi SfiX S—fi SXfi .
Œ.S. COÆÆELACIÓN CANÓNICA 6F
—fi
Demost.: Tenemos de (4.4) que a =αS fifi SfiX b, donde α es una constante
—fiƒX
que vamos a comprobar que es Z . Partimos de que aJ Sfifi a =fi y para α =
Z—fiƒX resulta que:
aJ Sfifi a = Z—fiƒX aJ Sfifi S—fi
fifi SfiX b
—fiƒX J
=Z a SfiX b
= Z—fiƒX Z—fiƒX aJ SfiX S—fi
XX SXfi a
= Z—fi ZaJ Sfifi a
= fi.
La correlación es vfi = aJ SfiX b y acabamos de ver que fi = Z—fiƒX aJ SfiX b. Luego
,
vfiX = Zfi , es decir, vfi = Zfi . Q
De hecho, las ecuaciones en valores y vectores propios tienen otras solu-
ciones. Concretamente hay m = m´ın(p, q} parejas de vectores canónicos
afi, bfi, . . . , am, bm, que proporcionan las variables y correlaciones canónicas
Ufi = Xafi, Vfi = Vbfi, vfi = cor(Ufi,

Vfi), UX = XaX, VX = VbX, vX
= cor(UX, VX),
.. .. ..
Um = Xam, Vm = Vbm, vm = cor(Um, Vm).
Teorema 4.3.3 Supongamos vfi > vX > · · · > vm . EntonGes:
f. fanto 1as savsab1es GanónsGas Ufi , . . . , Um GOmo 1as savsab1es GanónsGas

Vfi , . . . , Vm están snGOvve1aGsonadas.
W. Ga pvsmeva GOvve1aGsón GanónsGa vfi = sov(Ufi , Vfi ) es 1a máxsma

GO− vve1aGsón entve una GOmbsnaGsón 1snea1 de X 4 una GOmbsnaGsón
1snea1 de V.
h. Ga segunda GOvve1aGsón GanónsGa vX = sov(UX , VX ) es 1a máxsma

GO− vve1aGsón entve 1as GOmbsnaGsones 1snea1es de X
snGOvve1aGsonadas GOn Ufi 4 1as GOmbsnaGsones 1snea1es de V
snGOvve1aGsonadas GOn Vfi .
$. sov(Us , Vj ) = 0 ss s ƒ= j.
Demost.: Sea s ƒ= j. Expresando (4.3) para ah , Zh , h = s, j, y

multiplicando por aJj y por aJs tenemos que
aJ SfiX S—fi SXfi as = Zs aJ Sfifi as ,
j XX j
aJ SfiX S—fi SXfi aj = Zj aJ Sfifi aj .
s XX s
Restando: (Zs —Zj )aJs Sfifi aj = 0 → aJs Sfifi aj = 0 →cor(Us , Uj ) = 0.

Por otra parte, expresando (4.3) como
S—fi SfiX S—fi SXfi as = Zs as , S—fi SXfi S—fi SfiX bj = Zj bj ,
fifi XX XX fifi
y multiplicando por b j SXfi y por a s SfiX llegamos a

J J
bJ SXfi S—fi SfiX S—fi SXfi as = Zs bJ SXfi as ,

j fifi XX j
aJ SfiX S—fi SXfi S—fi SfiX bj = Zj aJ SfiX bj .
s XX fifi s
J
Restando: (Zs — Zj )a s SfiX bj = 0 → as SfiX bj = 0 →cor(Us , Vj ) = 0.
J
Q
4.4. Correlacióm camómica y

descomposicióm simgular
Podemos formular una expresión conjunta para los vectores canónicos
utilizando la descomposición singular de una matriz. Supongamos p ≤ q,
consideremos la matriz p × q
—fiƒX —fiƒX
Ø=S fifi SfiXSXX
y hallemos Ø = UDs VJ , la descomposición singular de Ø, donde U es

una matriz p × q con columnas ortonormales, V es una matriz q × q
ortogonal, y Ds es una matriz diagonal con los valores singulares de Ø.
Es decir, UJ U = Fq , VJ V = VVJ = Fq , Ds = diag(‹fi , . . . , ‹q ).
Teorema 4.4.1 Gos seGtoves GanónsGOS 4 GOvve1aGsones GanónsGas son
—fiƒX —fiƒX
as = S us, bs = S vs, vs = ‹s.
fifi XX
Demost.:
—fiƒX —fiƒX —fiƒX —fiƒX
ØØJ = S SfiX S S SXfi S = UDs X UJ
fifi XX XX fifi
y por lo
tanto —fiƒX —fiƒX
S SfiXS—fiSXfiS us = ‹Xus
Multiplicando por S—fiƒX fifi XX fifi s

—fiƒX —fiƒX
S—fi
fifi SfiXS—fiSXfi(S us) = ‹X(S us)
fifi XX fifi s fifi
y comparando con resultados anteriores, queda probado el teorema. Q

Se puede probar que las correlaciones canónicas son invariantes por trans-
formaciones lineales. En consecuencia pueden calcularse a partir de las
ma-
trices de correlaciones.
Œ.†. SIGNIFICACIÓN DE LAS COÆÆELACIONES CANÓNICAS 69
4.5. Sigmificacióm de las correlaciomes

camómi- cas
Hemos encontrado las variables y correlaciones canónicas a partir de
las matrices de covarianzas y correlaciones muestrales, es decir, a partir
de muestras de tamano n. Naturalmente, todo lo que hemos dicho vale
si sustituimos Sfifi, SfiX, SXX por las versiones poblacionales Xfifi, XfiX, XXX.
Sean
pfi ≤ pX ≤· · ·≤ pm
las m = m´ın(p, q correlaciones canónicas obtenidas a partir de Xfifi, XfiX, XXX,
}
soluciones de:
. —fi X .X
XX
Si queremos decidir cuálesX sonXsignificativas,

—pX =supongamos
0.fiX normalidad
multivariante, indiquemos pO = fiXfiy planteemos
fifi
el test
H hO : ph > ph‡fi = · · · = pm = 0, (h = 0, fi, . . . , m),
que equivale a rango(XXX—fiXXfi) = h. El test de Bartlett-Lawley demuestra
que Osi H h es cierta, entonces
h v
—XΣ Σ m (fi — vX)Σ
Σ
Jh = — Σn — fi — h — fi (p ‡ q ‡ fi)
X log Y
s s
s=fi s=h‡fi
‡
es asintóticamente ji-cuadrado con (p — h)(q — h) g.l. Este test se aplica
secuencialmente: si Jj es significativo para j = 0, fi, . . . , h — fi, pero Jh
no es Σh
significativo, entonces se acepta H h . Si h = 0, se omite v—X en el cálculo
O s=fi s
de Jh. Es decir,
Σ Σ
JO = Σ
— n — fi — fi (p ‡ q ‡ log (fi — s .
fi) vX)
Σ m
Y
X
s=fi
4.6. Comtraste de hipótesis de imdepemdemcia

Suponiendo normalidad, afirmar que X es independiente de V consiste
en plantear
HO : XfiX = 0, Hfi : XfiX ƒ= 0.
Podemos resolver este test de hipótesis de dos maneras.
F0 CAPÝTULO Œ. ANÁLISIS DE COÆÆELACIÓN CANÓNICA
4.6.1. Æazóm de verosimilitud

Si la hipótesis es cierta, entonces el test de razón de verosimilitud
(Sección 3.†.fi) se reduce al estadístico
|S| |Æ|
h = |Sfifi||SXX| = |Æfifi||ÆXX|,
que sigue la distribución lambda de Wilks h(p, n — fi — q, q), equivalente

a h(q, — n fi p, p). Rechazaremos HO si h es pequena y significativa (Mardia
et a1. fi9F9, Rencher, fi998).
Es fácil probar que h es función de las correlaciones canónicas
h = |F — S—fiSXfiS—fiSfiX| = Y(fi
m — vX).
XX fifi s
s=fi
4.6.2. Primcipio de umióm—imterseccióm

Consideremos las variables U = afiEfi ·‡· ·‡ apEp,V = bfiYfi ‡ · · ‡ bpYq.
La correlación entre U, V es ·
p(U, V ) = ,
aXa X, fiX b
J
fifi a b XXX b
J .
HO equivale a p(U, V ) = 0 para todo U, V. La correlación muestral es

aJ SfiX b
, .
v(U, V ) = , J fifi a bJ SXX b
aS
Aplicando el principio de unión intersección (Sección 3.†.£), aceptaremos
HO si v(U, V ) no es significativa para todo U, V, y aceptaremos Hfi si v(U,
V ) es significativa para algún par U, V. Este criterio nos lleva a estudiar la
signifi- cación de
vfi = ma´x v(U, V ),
U,V
esto es, de la primera correlación canónica. Por tanto, el test es:
HO : pfi = 0, Hfi : pfi > 0.
Existen tablas especiales para decidir si vfi es significativa (Morrison,

fi9F6), pero también se puede aplicar el estadístico JO de Bartlett-Lawley.
Œ.F. EJEMPLOS Ffi
4.Y. Ejemplos
Ejemplo 4.Y.1 Fams1sas.
Se consideran los datos de n = X5 familias para las variables (véase la

Tabla fi.£):
Efi = long. cabeza primer hijo, EX = anchura cabeza primer hijo,

Yfi = long. cabeza segundo hijo, YX = anchura cabeza segundo hijo,
La matriz de covarianzas
es: ,., .
S=, ,.
98,tX0 5t,X3X 6t,5fiX 50,5t6
5t,X3X Œ9,t85 ŒX,Œ8fi 38,596
6t,5fiX ŒX,Œ8fi 9Œ,05t Œ9,6ŒŒ
Entonces: 50,5t6 38,596 Œ9,6ŒŒ ŒŒ,390
. .
Sfifi = 98,tX0 5t,X3X 6t,5fiX 50,5t6
Σ 5t,X3X Œ9,t85 , S fiX = Σ ŒX,Œ8fi 38,596 ,
. .
SXfi = 6t,5fiX ŒX,Œ8fi 9Œ,05t Œ9,6ŒŒ
Σ 50,5t6 38,596 , S XX = Σ Œ9,6ŒŒ ŒŒ,390 .
Las raíces de la ecuación cuadrática:
|SfiXS—fi
XX SXfi — ZSfifi| = 0
son: Zfi = 0,t03X, ZX = 0,fi060, y por tanto las correlaciones canónicas son:
vfi = 0,838 6, vX = 0,3X56.
Los vectores canónicos normalizados según aJ Sfifi a =fi y bJ SXX b =fi, son:
afi = (0,03t6, 0,09X3)J , aX = (0,fi666, —0,XXX0)J ,

bfi = (0,0fi08, 0,fi3Œt)J , bX = (0,fi5t5, —0,fi86fi)J .
Las variables canónicas con varianza fi son:

Ufi = 0,03t6Efi ‡ 0,09X3EX, Vfi = 0,0fi08Yfi ‡ 0,fi3ŒtYX, (vfi =
0,8386), UX = 0,fi666Efi — 0,XXX0EX, VX = 0,fi5t5Yfi — 0,fi86fiYX, (vX =
0,3X56).
F£ CAPÝTULO Œ. ANÁLISIS DE COÆÆELACIÓN CANÓNICA
La dependencia entre (Efi, EX) y (Yfi, YX) viene dada principalmente por la
relación entre (Ufi, Vfi) con correlación 0,838 6, más alta que cualquier cor-
relación entre una variable Es y una variable Yj . Podemos interpretar
las primeras variables canónicas como un factor de ”tamano™ de la cabeza
y las segundas como un factor de ”forma™. Habría entonces una notable
relación en el tamano y una escasa relación en la forma de la cabeza.
El test de independencia entre (Efi, EX) y (Yfi, YX) da
|S|
h= = 0,X653 ~ h(X, XX, X)
|Sfifi||SXX|
Mediante (£.8), transformamos h a una F, obteniendo 9,88 con 4 y 4£ g.l.

Rechazamos la hipótesis de independencia.
La prueba de significación de las correlaciones canónicas da:
H OO : pO = fi > pfi = pX = 0, JO = X8,5X (4 g.l.),

HfiO : pfi > pX = 0, Jfi = X,Œ5 (fi g.l.).
Podemos rechazar HO y aceptar Hfi. Solamente la primera correlación canóni-
O O
ca es significativa.
Ejemplo 4.Y.2 E1eGGsones.
La Tabla 4.fi contiene los datos de un estudio sobre comportamiento

elec- toral en Catalunya. Se consideran los resultados de unas elecciones
(Elec- ciones al Parlamento de Catalunya, fi999), celebradas en las 4fi
comarcas catalanas, y para cada comarca se tabulan los valores de las
siguientes variables :
Efi = log(porcentaje de votos a CU), EX = log(porcentaje de votos a
PSC), E3 = log(porcentaje de votos a PP), E4 = log(porcentaje de votos
a ERC), Yfi = log(cociente Juan/Joan), YX = log(cociente Juana/Joana),
siendo CU (Convergència i Unió), PP (Partido Popular), PSC (Partido So-

cialista de Cataluna), ERC (Esquerra Republicana). El ”cociente
Juan/Joan™ significa el resultado de dividir el número de hombres que se
llaman Juan por el número de hombres que se llaman Joan. Valores
positivos de las variables Yfi, YX en una comarca indican predominio de
los nombres en castellano sobre los nombres en catalán.
Œ.F. EJEMPLOS F3
Comarca CU PSC PP ERC Juan Joan Juana Joanna

0 fi . A . C am p. 44 ,6 £ 9 ,6 6 ,£ fi 6 ,fi 684 60 † fi 43 38
0 £. A . E m p or. 4 F,3 30 ,F F,9 fi 0 ,8 fi 6 £ 8 fi £ 64 3†8 fi 0 fi
03 . A . Pened. 4 F,4 3 fi ,8 †,6 fi 0 ,F fi † 0 £ fi 3 F 0 £ 8 fi 90
04 . A . U rgell 49 ,† £ 4 ,F 6 ,4 fi F,3 3F0 346 †6 39
0 †. A . R ibag. 4 £,fi 4 fi ,fi †,9 8 ,9 £9 30 9 4
06 . A noia 44 ,8 33 ,9 6 ,6 8 ,F fi F† 9 9 F† 433 fi fi †
0 F. B ages 4 F,9 30 ,0 4 ,9 fi £,£ £ F 66 fi 9 F 0 †† 9 fi 4 †
08 . B . C am p 40 ,8 33 ,3 fi 0 fi £ £ 0 £† fi 08 fi 600 fi 38
09 . B . E bre 44 ,£ 3 fi ,3 fi £,fi 9 ,† fi 634 484 3£9 fi 38
fi 0 . B . E m p or. 48 ,£ 3 £,4 †,fi fi fi fi † 6 £ fi 4 £ 3 334 fi † 3
fi fi . B . Llob. 48 ,fi £ F,6 9 ,4 †,6 fi 0 398 £ 68 F 3 fi 03 3 £†
fi £. B . Pene. 39 ,F 40 ,† 9 ,fi F,9 9†F † FF £ 36 33
fi 3 . B arce. 3 £,0 4 fi ,£ fi £,£ F,fi £ F 84 fi fi 0 fi 98 9£8F fi † 98
fi 4 . B ergue. † fi ,£ £†,8 4 ,4 fi 4 ,F 830 † 90 fi 08 33
fi †. C erda. † fi ,fi £†,9 †,† fi 3 ,9 fi 90 ££ 8 †0 fi £
fi 6 . C onca B ar. 49 ,9 £ 0 ,9 †,9 fi F,9 £4F 49 £ 49 4†
fi F. G arraf 3 F,9 39 ,0 8 ,† F,8 fi 4 F 4 4 FF 6 fi 8 fi † 4
fi 8 . G arrig. † 0 ,0 £ 4 .fi 6 .4 fi F.† fi 9 fi £ 69 £ fi 33
fi 9 . G arrot. † 6 ,fi £ 3 ,4 4 ,3 fi 3 ,3 9†0 fi fi 68 fi 00 9 fi
£ 0 . G iron. 4 £,8 3 fi ,F 6 ,6 fi 4 ,F fi 9 F 8 fi 86 fi 430 fi 9 fi
£ fi . M ares. 43 ,0 3 £.9 8 .9 9 .£ †£ 34 30 † 3 fi † 0 F £ 80
££. M onts. 49 ,4 3 fi ,† 8 ,fi 8 90 F 3 fi 4 ££ 9 8£
£ 3 . N ogue. † 3 ,F £ 4 ,3 F fi £,£ †† F 48 F 9£ 3F
£ 4 . O sona † 6 .F fi 8 .† 3 .9 fi 6 fi F 94 £† 48 £££ fi 00
£†. P. Jussa † 0 ,0 30 ,† 4 ,9 fi £,4 fi † 4 fi fi † £F fi 4
£ 6 . P. Sobira † fi ,fi 30 ,8 4 ,8 fi 0 ,9 6 fi fi £ fi 9 fi †
£ F. P. U rg. †£,4 £†,8 6 ,6 fi £,6 393 £ 99 †8 £0
£ 8 . P la E st. † F,fi fi †,F 4 ,† £0 fi † 9 869 3£ †£
£ 9 . P rior. 4 †,9 £ F,F 6 ,£ fi 6 ,9 fi F 3 fi 49 3F fi 6
30 . R . E bre 48 ,9 3 fi ,3 6 ,8 fi 0 ,4 40 F fi 8 † 98 £9
3 fi . R ip oll. ††,4 £†,8 3 ,3 fi £,8 603 4†F F† fi F
3 £. Segar. † 3 ,6 F £ fi ,fi 6 6 ,8 F fi †,† 8 £££ 3£0 £F fi †
33 . Segria 4 £,FF 3 †,33 9 ,66 8 ,9 fi £ 049 9 † fi 6 £† £0£
34 . Selva 49 ,£ £ 9 ,0 6 ,£ fi fi ,4 fi F† 0 fi 680 340 fi †£
3 †. Solso. † F,8 fi F,† †,8 fi †,9 9† 40 fi £0 fi £
36 . Tarra. 34 ,† 3 38 ,F 6 fi 3 ,89 8 ,8 fi £† 46 940 8 †£ fi fi F
3 F. Ter. A . 49 ,0 £†,fi fi 4 ,£ 9 ,3 fi 64 fi £† †† £0
38 . U rgell † 4 ,fi 8 ££,† 6 ,9 fi 3 ,86 fi 44 6†6 4† †6
39 . Val. A . 44 ,49 38 ,3 fi £,† 9 £,6 F 9F fi 9 3F £
40 . Vall. O c. 33 ,68 4 £,6 £ 8 ,4 £ F,fi fi fi 80 fi 448 £ 3 fi fi 0 4 fi 6
4 fi . Vall. O r. 40 ,F£ 3 F,96 F,† fi F,63 49 † 6 £ 636 fi ££ F £ 33
Tabla 4.fi: Porcentaje de votos a 4 partidos políticos y frecuencia de dos

nombres en catalán y castellano, registrados en 4fi comarcas catalanas.
La matriz de correlaciones es:

Efi EX E3 E4 Yfi YX
Efi fi —0,85X0 —0,6536 —0,5Œt8 —0,6Œ0Œ 0,590t
EX fi 0,5fiXt —0,tfi0fi 0,t555 0,6393
E3 fi —,6X65 0,59fiX 0,5fiŒ6
E4 fi —0,t5X8 —0,tŒŒ8
Yfi fi 0,80Xt
YX fi
Sólo hay £ correlaciones canónicas:
vfi = 0,83tt, vX = 0,ŒfiX5.
Las variables canónicas son:

Ufi = 0,083Efi — 0,3tXEX — 0,fifi30E3 ‡ 0,555E4 , (vfi = 0,83tt),
Vfi = 0,t06Yfi ‡ 0,339YX,
UX = fi,9X8Efi ‡ X,Œ03fiEX ‡ fi,fiXtE3 ‡ fi,5Œ6E4 , (vX = 0,ŒfiX5).
VX = fi,5XfiYfi — fi,6ŒXYX,
Las primeras variables canónicas Ufi, Vfi, que podemos escribir

conven- cionalmente como
Ufi = 0,083CU — 0,3tXPSC — 0,fifi30PP ‡ 0,555ERC,
Vfi = 0,t06(Juan/Joan) ‡ 0,339(Juana/Joana),
nos indican que las regiones más catalanas, en el sentido de que los
nombres castellanos Juan y Juana no predominan tanto sobre los
catalanes Joan y Joana, tienden a votar más a CU y ERC, que son
partidos nacionalistas. Las regiones con predominio de voto al PSC o al
PP, que son partidos centra- listas, están en general, más castellanizadas.
Las segundas variables canónicas tienen una interpretación más difícil.
4.8. Complememtos
El análisis de correlación canónica (ACC) fue introducido por Hotelling
(fi936), que buscaba la relación entre test mentales y medidas
biométricas, a fin de estudiar el número y la naturaleza de las relaciones
entre mente y
Œ.8. COMPLEMENTOS F†
cuerpo, que con un análisis de todas las correlaciones sería difícil de

interpretar. Es un método de aplicación limitada, pero de gran interés
teórico puesto que diversos métodos de AM se derivan del ACC.
Aplicaciones a la psicología se pueden encontrar en Cooley y Lohnes
(fi9Ffi), Cuadras y Sánchez (fi9F†). En ecología se ha aplicado como un
modelo para estudiar la relación entre presencia de especies y variables
ambientales (Gittings, fi98†).
La distribución de las correlaciones canónicas es bastante complicada.
Solamente se conocen resultados asintóticos (Muirhead, fi98£).
En ciertas aplicaciones tiene interés considerar medidas globales de
aso- ciación entre dos matrices de datos X, V, de × órdenes n p y n q
respectivamente, observadas sobre el mismo conjunto de n individuos.
Una medida interesante resulta de considerar la razón de verosimilitud de
Wilks. Viene dada por
—fi
AV = fi — |F — SXX SXfiS—fi SfiX| = fi
fifi
Qs(fi — vXs
— s=fi),
siendo ‹ = m´ın(p, q) el número de correlaciones canónicas. Otra medida,
propuesta por Escoufier (fi9F3), es la correlación vectorial
RV = tr(SfiX SXfi )/.tr(SX )tr(SX ).
fifi XX
Utilizando determinantes, otra medida similar, propuesta por Hotelling (fi936),
es
Q
s
AH = det(SfiX SXfi )/[det(Sfifi ) det(SXX )] = vsX.
s=fi
Sin embargo AH suele dar valores bajos. También es una medida de aso-
ciación global
. s ΣX
X
PEY = Σ vs /‹X, (4.†)
s=fi
que coincide con el coeficiente procrustes (fi.8) cuando las variables E

están incorrelacionadas y tienen varianza fi (y análogamente las Y ).
Véase Cramer y Nicewander (fi9F9) y Cuadras (£0fifi). En Cuadras et a1.
(£0fi£) se propone una generalización a la comparación (mediante
distancias) de dos conjuntos de datos en general, con una aplicación a
la comparación de imágenes hiperespectrales.
Si ƒ(ı, 4) es la densidad de dos v.a. E, Y , tiene interés en estadística

el concepto de máxima correlación (propuesto por H. Gabelein) que se
define como
pfi = xup cor(α(E), Ø(Y )),
α,Ø
donde α(E), Ø(Y ) son funciones con varianza finita. Entonces pfi = 0 si E,
Y son variables independientes. Podemos ver a pfi como la primera
correlación canónica, αfi(E), Øfi(Y ) como las primeras variables canónicas
y definir las sucesivas correlaciones canónicas. Sin embargo el cálculo de
pfi puede ser complicado (Cuadras, £00£a). Lancaster (fi969) estudia
estas correlaciones y demuestra que ƒ(ı, 4) se puede desarrollar en serie
a partir de las correlaciones y funciones canónicas. Diversos autores han
estudiado la estimación de las primeras funciones canónicas, como una
forma de predecir una variable en función de la otra (Hastie y Tibshirani,
fi990). Finalmente cabe destacar que las correlaciones canónicas pueden
constituir un conjunto continuo no numerable (Cuadras, £00†a, £0fi4).
Capítulo 5
ANÁLISIS DE
COMPONENTES
PÆINCIPALES
5.1. Obtemcióm de las compomemtes primcipales

Sea X =[Efi, . . . , Ep] una matriz de datos multivariantes. La teoría que
sigue (definición y propiedades) también vale si X es un vector formado
por p variables aleatoria observables.
Las componentes principales son variables compuestas incorrelacionadas
tales que unas pocas explican la mayor parte de la variabilidad de X.
Defimicióm 5.1.1 Gas GOmponentes pvsnGspa1es son 1as savsab1es GOmpuestas
Yfi = Xtfi, YX = XtX, . . . , Yp = Xtp
ta1es que:
f. sav(Yfi ) es máxsma GOndsGsonado a tJfi tfi = fi.

W. Entve todas 1as savsab1es GOmpuestas Y ta1es que GOs(Yfi , Y ) = 0,
1a savsab1e YX es ta1 que sav(YX ) es máxsma GOndsGsonado a tJX tX = fi.
h. Ss p ≤ 3, 1a GOmponente Y3 es una savsab1e snGOvve1aGsonada GOn Yfi , YX
GOn savsansa máxsma.
$. Aná1ogamente se deflnen 1as demás GOmponentes pvsnGspa1es ss p > 3.
FF
F8 CAPÝTULO †. ANÁLISIS DE COMPONENTES PÆINCIPALES
× p
Si T = [tfi , tX , . . . , tp ] es la matriz p cuyas columnas son los
vectores que definen las componentes principales, entonces la
transformación lineal X ‹ V
V = XT (†.fi)
se llama transformación por componentes principales.
Teorema 5.1.1 Sean tfi , tX , . . . , tp 1os p seGtoves pvopsos novma1ssados de

1a matvss de GOsavsansas S,
Sts = Zs ts , tJs ts = fi, s = fi, . . . , p.
EntonGes:
f. Gas savsab1es GOmpuestas Ys = Xts , s = fi, . . . , p, son 1as GOmponentes

pvsnGspa1es.
W. Gas savsansas son 1os sa1oves pvopsos de S
var(Ys) = Zs, s = fi, . . . , p.
h. Gas GOmponentes pvsnGspa1es son savsab1es snGOvve1aGsonadas:
cov(Ys , Yj ) = 0, s ƒ= j = fi, . . . , p.
Demost.: Supongamos Zfi>· · >Zp>0. Probemos que las variables Ys = Xts,

·
s = fi, . . . , p, están incorrelacionadas:
cov(Ys , Yj ) = tJs Stj = tJs Zj tj = Zj tJs tj ,

cov(Yj , Ys ) = tJj Sts = tJj Zj ts = Zs tJj ts ,
→ (Zj — Zs )tJs tj = 0, → tJs tj = 0, → cov(Ys , Yj ) = Zj tJs tj = 0, si s ƒ= j.

Además, para s = j, la varianza de Ys es:
var(Ys ) = Zs tJs ts = Zs .
Σp Σp
Sea ahora Y = asEs = αsYs una variable compuesta tal que
s=fi αs = fi. Entonces:

Σp X
s=fi s=fi . Σ
p p
. p p
var(Y ) = α s Ys Σ αX s αX X
Σ αs
s
var Σs=fi = va fi Zs s=fi
r( ≤ Zfi
Σs=fi Ys =
)= va
r(Y
Σs= fi),
†.£. VAÆIABILIDAD EXPLICADA POÆ LAS COMPONENTES F9
que prueba que Yfi tiene varianza máxima.

Consideremos ahora las variables Y incorrelacionadas con Yfi. Las podemos
expresar como:
p p p
Y = Σ bsEs = Σ ØsYs condicionado a Σ Ø X = fi.
s=fi s=X s=X s
Entonces: Σs= Σs=

X X
. ØsYsΣ
p p p
. p
Σ
var(Y ) = Σ = ØsXvar(Ys) = ØsXZs ≤ Σ Ø Xs ZX = var(YX),
var s=X s=X
y por lo tanto YX está incorrelacionada con Yfi y tiene varianza máxima.

Si p ≤ 3, la demostración de que Y3, . . . , Yp son también
componentes principales es análoga. Q
5.2. Variabilidad explicada por las compomemtes

La varianza de la componente principal Ys es var(Ys) = Zs y la variación
Σp
total es tr(S) = s=fi Zs. Por lo tanto:
fi. Ys contribuye con la cantidad Zs a la variación total tr(S).

Σm
£. Si m c p, Yfi, . . . , Ym contribuyen con la cantidads=fi Zs a la variación
total tr(S).
3. El porcentaje de variabilidad explicada por las m primeras

componentes principales es
Z f i ‡ · · · ‡ Zm
P = fi00 . (†.£)
m
Zfi ‡ · · · ‡ Zp
En las aplicaciones cabe esperar que las primeras componentes

expliquen un elevado porcentaje de la variabilidad total. Por ejemplo, si m
= X c p, y PX = 90 %, las dos primeras componentes explican una gran
parte de la variabilidad de las variables. Entonces podremos sustituir
Efi, EX, . . . , Ep por las componentes principales Yfi, YX. En muchas
aplicaciones, tales componentes tienen interpretación experimental.
80 CAPÝTULO †. ANÁLISIS DE COMPONENTES PÆINCIPALES
5.3. Æepresemtacióm de uma matriz de datos

Sea X =[Efi , . . . , Ep ] una matriz × n p de datos multivariantes.
Øueremos representar, en un espacio de dimensión reducida m (por ejemplo,
m = X), las filas xJfi , xJX , . . . , xJn de X. Necesitamos introducir una
distancia (ver Sección fi.9).
Defimicióm 5.3.1 Ga dsstanGsa euG1sdea (a1 Guadvado) entve dos fl1as de
X xJs = (ısfi , . . . , ısp ), xJj = (ıjfi , . . . , ıjp ),
es
p
Σ
6 sjX = (xs — xj ) (xs — xj ) =
J
(ısh — ıjh )X .
h=fi
Ga matvss O = (6 sj ) es 1a matvss n × n de dsstanGsas entve 1as fl1as.
Podemos representar las n filas de X como n puntos en el espacio Rp

distanciados de acuerdo con la métrica 6sj. Pero si p es grande, esta
repre- sentación no se puede visualizar. Necesitamos reducir la
dimensión.
Defimicióm 5.3.2 Ga savsabs1sdad geométvsGa de 1a matvss de dsstanGsas O

es e1 pvomedso de sus e1ementos a1 Guadvado
fi n
V 6(X) = Σ 6 . Xsj
XnX
s,j=fi
Ss V = XT es una tvansfovmaGsón 1snea1 de X, donde T es una matvss p× m

de GOnstantes,
6 X (m) = (¢s — ¢j )J (¢s — ¢j ) = Σ(4

m
sh — 4jh )
X
sj h=fi
es 1a dsstanGsa euG1sdea entve dos fl1as de V. Ga savsabs1sdad geométvsGa en

dsmenssón m ≤ p es
V 6(V)m fi Σn6 (m).

= X
sj
XnX
s,j=fi
†.S. ÆEPÆESENTACIÓN DE UNA MATÆIX DE DATOS 8fi
Teorema 5.3.1 Ga savsabs1sdad geométvsGa de 1a dsstanGsa euG1sdea es

1a tvasa de 1a matvss de GOsavsansas
p
Σ
V 6(X) = tv(S) = Zh.
h=fi
Demost.: Si ıfi , . . . , ın es una muestra univariante con varianza ‹X , entonces
fi Σn X
Xn X (ıs — ıj ) = ‹ . (†.3)
s,j=fi
En efecto, si ı es la media
n n
fi X fi Σ
n2
Σ(ı — ı ) =s j
n2 (ıs — ı — (ıj — ı))X
s,j=fi s,j=fi
n n
fi Σ
= Σ(ı — ı) ‡Xs fi
(ıj — ı)X
n2 n2
s,j=fi s,j=fi
Σn
‡ nX2 (ıs — ı)(ıj — ı)

s,j=fi
fi
= n‹X ‡ fi n‹X ‡ 0 = X‹X.
n n
Aplicando (†.3) a cada columna de X y sumando obtenemos

p
Σ
V 6(X) = ‹jj = tr(S). Q
j=fi
Una buena representación en dimensión reducida m (por ejemplo, m =

X) será aquella que tenga máxima variabilidad geométrica, a fin de que los
puntos estén lo más separados posible.
Teorema 5.3.2 Ga tvansfovmaGsón 1snea1 T que maxsmssa 1a

savsabs1sdad geométvsGa en dsmenssón m es 1a tvansfovmaGsón pov
GOmponentes pvsnGspa1es V = XT, es deGsv, T = [tfi , . . . , tm ] GOntsene 1os
m pvsmevos seGtoves pvopsos novma1ssados de S.
8£ CAPÝTULO †. ANÁLISIS DE COMPONENTES PÆINCIPALES
Demost.: Utilizando (†.3), la variabilidad geométrica de X = XV, donde

V = [vfi, . . . , vm] es p × m cualquiera, es
m m
V 6(X)m = Σ ‹X (Zj ) = Σ vjJ Svj ,

j=fi j=fi
siendo ‹X (Zj ) = vjJ Svj la varianza de la variable compuesta Zj .

Alcanzamos la máxima varianza cuando Zj es una componente ≤
X
principal: ‹ (Zj ) Zj . Así:
Σ
m
ma´x V 6 (V)m = Zj . Q
j=fi
El porcentaje de variabilidad geométrica explicada por V es

V6
P = fi00 Zf i ‡ · · · ‡ Zm
(V)
mm = fi00 .
V 6(X)p Zfi ‡ · · · ‡ Zp
Supongamos ahora m = X. Si aplicamos la transformación (†.fi), la

matriz de datos X se reduce a , ,
4fifi 4fiX
. .
. .
V 4sfi 4sX .
= . .
, .. .. ,
4nfi 4nX
Entonces, representando los puntos de coordenadas (4 sfi, 4sX), s = fi, . . . , n,
obtenemos una representación óptima en dimensión £ de las filas de X.
5.4. Imferemcia
Hemos planteado el ACP sobre la matriz S, pero lo podemos también
plantear sobre la matriz de covarianzas poblacionales X. Las
componentes principales obtenidas sobre S son, en realidad,
estimaciones de las componentes principales sobre X.
Sea X matriz de datos n × p donde las filas son independientes con
dis- tribución Np(µ, X). Recordemos que:
fi. x es Np(µ, X/n).

†.Œ. INFEÆENCIA 83
£. U = nS es Wishart Wp(X, n — fi).
3. x y S son estocásticamente independientes.
Sea X = K2KJ la diagonalización de X. Indiquemos
K = [çfi, . . . , çp], Z = [Zfi, . . . , Zp], 2 = diag(Zfi,....., Zp),
los vectores propios y valores propios de X. Por otra parte, sea S = GLGJ
la diagonalización de S. Indiquemos:
G = [gfi , . . . , gp ], A = [1fi , . . . , 1p ], L = diag(1fi , ....., 1p )
los vectores propios y valores propios de S. A partir de ahora supondremos
Zfi ≤····≤ Zp.
5.4.1. Estimacióm y distribucióm asimtótica

Teorema 5.4.1 Se sevsflGa:
f. Ss 1os sa1oves pvopsos son dsfeventes, 1os sa1oves 4 seGtoves

pvopsos obtensdos a pavtsv de S son estsmadoves
máxsmo−sevossms1es de 1os obtensdos a pavtsv de X
Z^s = 1s , ç^ s = gs , s = fi, . . . , p.
W. Guando h > fi sa1oves pvopsos son sgua1es a Z
Zfi > · · · > Zp—h = Zp—h‡fi = · · · = Zp = Z,
e1 estsmadov máxsmo sevossms1 de Z es 1a medsa de 1os

GOvvespondsentes sa1oves pvopsos de S
^ = (1p—h‡fi ‡ · · · ‡ 1p )/h.
Z
Demost.: Los valores y vectores propios están biunívocamente

relacionados con X y por lo tanto fi) es consecuencia de la propiedad de
invariancia de la estimación máximo verosímil. La demostración de £) se
encuentra en Ander- son (fi9†8). Q
Teorema 5.4.2 Gos seGtoves pvopsos G =[gfi , . . . , gp ] 4 sa1oves pvopsos A

= [1fi , . . . , 1p ] sevsflGan assntótsGamente:
f. A es Np (Z, X2X /n). En pavtsGu1av:
1s ex N (Zs , XZXs/n), GOs(1s , 1j ) = 0, s ƒ= j,
es deGsv, 1s , 1j son novma1es e sndependsentes.
W. gs es Np (ç s , Vs /n) donde
Σ Zs
V = Zs s çç
sJs
s
(Z — Zj )X
j s
h. A es sndependsente de
G.
Demost.: Anderson (fi9†8), Mardia, Kent y Bibby (fi9F9). Q

Como consecuencia de que 1s es N(Zs, XZsX/n), obtenemos el intervalo de
confianza asintótico con coeficiente de confianza fi — α
1s
cZ 1s
c
(fi ‡ axαƒX )fiƒX (fi — )fiƒX
axαƒX
siendo aX = X/(n — fi) y P (|Z| > xαƒX ) = α/X, donde Z es N (0, fi).
Se obtiene otro intervalo de confianza como consecuencia de que log 1 s es
N(log Zs , X/(n — fi))
1s e—axaƒ2 c Zs c 1s e‡axaƒ2 .
5.4.2. Comtraste de hipótesis

Determinados contrastes de hipótesis relativos a las componentes
principales son casos particulares de un test sobre la estructura de la
matriz X.
A. Supongamos que queremos decidir si la matriz X es igual a una matriz
determinada XO. Sea X un matriz n×p con filas independientes Np(µ, X).
El test es:
HO : X = XO (µ desconocida)
Si J es la verosimilitud de la muestra, el máximo de log J bajo HO es
log JO = — nX log |XvXO | — nX tr(X—O fi S).

†.Œ. INFEÆENCIA 8†
El máximo no restringido es
log J = —X n log |XvS| —

X
n
p.
El estadístico basado en la razón de verosimilitud Z R es
—X log ZR = X(log J — log JO)

= ntr(X—O fi S)—n log |X—O fi S| — (†.4)
np.
Si Jfi , . . . , Jp son los valores propios de X—O fi S y a, g son las medias

aritmética y geométrica
a = (Jfi ‡ · · · ‡ Jp)/p, g = (Jfi × · · · × Jp)fiƒp, (†.†)
entonces, asintóticamente
—X log ZR = np(a — log g — fi) ~X zq, (†.6)
siendo q = p(p ‡ fi)/X—par(XO) el número de parámetros libres de X menos

el número de parámetros libres de XO.
B. Test de independencia completa.
Si la hipótesis nula afirma que las p variables son estocásticamente
independientes, el test se formula como
HO : X = Xd = diag(ofifi, . . . , opp) (µ desconocida).
Bajo HO la estimación de Xd es Sd =diag(‹fifi, . . . , ‹pp) y S—fiƒXSS—fiƒ2 = Æ es

d d
—fi
la matriz de correlaciones. Como d S S y Æ tienen la misma traza y
determinante, de (†.4) y de log |XvSd| — log |XvS| = log |Æ|, tr(Æ) =p,
obtenemos
—X log ZR = —n log |Æ| ~ zX q,
siendo q = p(p ‡fi)/X— p = p(p— fi)/X. Si el estadístico

— n| log
| Æ no es
significativo, entonces podemos aceptar que las variables están
incorrelacionadas y por lo tanto, como hay normalidad multivariante,
independientes. Entonces las propias variables serían componentes
principales. Véase la Sección 3.†.fi.
C. Test de igualdad de valores propios.
Es éste un test importante en ACP. La hipótesis nula es
HO : Zfi > · · · > Zp—h = Zp—h‡fi = · · · = Zp = Z.

Indicamos los valores propios de S y de SO (estimación de X si HO es cierta)
S ~ (1fi , . . . , 1h , 1h‡fi , . . . , 1p ), SO ~ (1fi , . . . , 1h , aO , . . . , aO ),
donde aO = (1h‡fi ‡ · · · ‡ 1p )/(p — h) (Teorema †.4.fi). Entonces
S—O fi S ~ (fi, . . . , fi, 1h‡fi /aO , . . . , 1p /aO ),
las medias (†.†) son a = fi y g = (1h‡fi × · · · × 1p )fiƒp a(h—p)ƒp

O y aplicando (†.6)
. p log 1sΣ
—X log ZR = n(p—h) log(1h‡fi ‡· · ·‡1p )/(p—h)— Σ ~ zqX, (†.F)
n s=h‡fi
donde q = (p — h)(p — h ‡ fi)/X fi. Para una versión más general de

— et a1. (fi9F9).
este test, véase Mardia
5.5. Número de compomemtes primcipales

En esta sección presentamos algunos criterios para determinar el número
m c p de componentes principales.
5.5.1. Criterio del porcemtaje

El número m de componentes principales se toma de modo que Pm
sea próximo a un valor especificado por el usuario, por ejemplo el 80 %.
Por otra parte, si la representación de Pfi, PX, . . . , Ph, . . . con respecto
de h práctica- mente se estabiliza a partir de un cierto m, entonces
aumentar la dimensión apenas aporta más variabilidad explicada. Véase
la Figura †.fi.
5.5.2. Criterio de Kaiser

Obtener las componentes principales a partir de la matriz de
correlaciones Æ equivale a suponer que las variables observables tengan
varianza fi. Por lo tanto una componente principal con varianza inferior a fi
explica menos variabilidad que una variable observable. El criterio,
llamado de Kaiser, es entonces:
Retenemos las m primeras componentes tales que Zm ≤ fi, donde Zfi ≤
· · · ≤ Zp son los valores propios de Æ, que también son las varianzas de las
†.†. NÚMEÆO DE COMPONENTES PÆINCIPALES 8F
Figura †.fi: Representación de los valores propios, que indicaría tomar las
m = 3 primeras componentes principales.
componentes. Estudios de Montecarlo prueban que es más correcto el

punto de corte Z× = 0,t, que es más pequeno que fi.
Este criterio se puede extender a la matriz de covarianzas. Por
ejemplo, m podría ser tal que Zm ≤ v, donde v =tr(S)/p es la media de las
varianzas. También es aconsejable considerar el punto de corte 0,t × v.
5.5.3. Test de esfericidad

Supongamos que la matriz de datos proviene de una población normal
multivariante Np(µ, X). Si la hipótesis
H(m)
O : Zfi > · · · > Zm > Zm‡fi = · · · = Zp
es cierta, no tiene sentido considerar más de m componentes principales.

En efecto, no hay direcciones de máxima variabilidad a partir de m, es
decir, la distribución de los datos es esférica. El test para decidirO sobre
H(m) está basado en el estadístico ji-cuadrado (†.F) y se aplica
secuencialmente:
O Si aceptamos H(O) es decir, m = 0, todos los valores
propios son iguales y no hay direccionesO principales. Si rechazamos H(O),
entonces repetimos el test con
H(fi). Si aceptamos H(fi) entonces m = fi, pero si rechazamos H(fi) repetimos
O O O
el test con HO(X) , y así sucesivamente. Por ejemplo, si p = Œ, tendríamos que
m = X si rechazamos H(O), H(fi) y aceptamos H(X) : Zfi > ZX > Z3 = Z4.
O O O
5.5.4. Criterio del bastóm roto

La suma de los valores propios es Vt =tr(S), que es la variabilidad
total. Imaginemos un bastón de longitud Vt, que rompemos en p trozos al
azar (asignando p — fi puntos uniformemente sobre el intervalo (0, Vt)) y
que los trozos ordenados son los valores propios 1fi > 1X > · · · > 1p. Si
normalizamos a Vt = fi00, entonces el valor esperado de 1j es
fi p—j f i
E(Jj) = fi00 × Σ .
p s=fi j ‡
s
Las m primeras componentes son significativas si el porcentaje de
varianza explicada supera claramente el valor ·de· E(Jfi) ‡ ‡ E(Jm). Por
ejemplo, si p = Œ, los valores son: ·
Porcentaje E(Jfi) E(JX) E(J3) E(J4)

Kxperado 5X,08 Xt,08 fiŒ,58 6,X5
Acumulado 5X,08 t9,fi6 93,tŒ fi00
Si VX = 93,9X pero V3 = 9t,fi5, entonces tomaremos sólo dos componentes.
5.6. Biplot
Un bsp1ot es una representación, en un mismo gráfico, de las filas
(individuos) y las columnas (variables) de una matriz de datos
× X(n
p).
Suponiendo X matriz centrada, el biplot clásico (debido a K. R. Gabriel),
se lleva a cabo mediante la descomposición singular
X = U2VJ ,
donde U es una matriz n × p con columnas ortonormales, V es una

matriz
× p p ortogonal, y 2 es una matriz diagonal con los valores
singulares de X ordenados de mayor a menor. Es decir, UJ U = Fn , VJ V
= VVJ = Fp , 2 =diag(Zfi , . . . , Zp ). Como XJ X = UJ 2X U vemos que XV =
U2 es la trans- formación en componentes principales (†.fi), luego las
coordenadas para representar las n filas están contenidas en U2. Las
coordenadas de las p columnas son las filas de la matriz V. Filas y
columnas se pueden representar (tomando las dos primeras coordenadas)
sobre el mismo gráfico, como en la Figura †.£.
†.F. EJEMPLOS 89
En general, la solución biplot consiste en representar simultáneamente

las matrices A = U2α y B = V2fi—α , para un α tal ≤ que 0≤ α fi.
Entonces AB = X y el gráfico reproduce las filas y columnas de X.
J
La calidad en la representación depende del valor asignado al

parámetro α. Si α = fi se representan las filas con máxima resolución,
si α = 0 la mejor resolución corresponde a las columnas. Se puede tomar
el valor intermedio α = fi/X.
Podemos plantear el biplot de una manera alternativa (propuesta por J.
C. Gower). La transformación por componentes principales V = XT
permite representar las filas. Para representar también las columnas,
podemos entender una variable Ej como el conjunto de puntos de
coordenadas
xj (α j ) = (0, . . . , αj , . . . , 0)mj ≤ αj ≤ Mj ,
donde αj es un parámetro que varía entre el mínimo valor mj y el máximo
valor Mj de Ej. Entonces la representación de Ej es simplemente el eje
cuyos puntos son xj(αj)T, con αj varíando entre mj y Mj.
Siguiendo este procedimiento, es fácil ver que mediante la
transforma- ción V = XT, la representación de las variables se
identifica con el haz de segmentos αfi tfi , αX tX . . . , αp tp , donde tfi , tX , , tp
son las filas de T. Es decir,
αjtj variando el parámetro α j, proporciona un segmento que representa Ej.
Véase Greenacre (£0fi0) para una moderna versión práctica de esta
interesante técnica.
5.Y. Ejemplos
Ejemplo 5.Y.1 Estudsantes.
Sobre una muestra de n = fi00 mujeres estudiantes de Bioestadística,
se midieron las variables
Efi = peso, EX = talla, E3 = ancho hombros, E4 = ancho caderas,
(peso en kg. y medidas en cms.), con los siguientes resultados:
fi. Medias: ıfi = 5Œ,X5¡ ıX = fi6fi,t3¡ ı3 = 36,53¡ ı4 = 30,fi.
£. Matriz de covarianzas:
,. ,
. ŒŒ,t0 fit,t9 5,99 9,fi9
fit,t9 X6,fi5 Œ,5X Œ,ŒŒ .
S = ., .
5,99 Œ,5X 3,33 fi,3Œ ,
9,fi9 Œ,ŒŒ fi,3Œ Œ,56
3. Vectores y valores propios (columnas):

tfi tX t3 t4
0,83X8 0,5095 0,fi88X 0,fi063
0,50X9 —0,855X 0,0X0X 0,fiX3X
0,fi36X —0,05 88 0,fififiŒ —0,98X6
0,fi86t 0,0t38 —0,9t55 —0,089X
Val. prop. Z 58,Œ9 fi5,Œt X,5Œ X,XŒ
Porc. acum. tŒ,Xt 93,9X 9t,fi5 fi00
4. Número de componentes:
a. Criterio de Kaiser: la media de las varianzas es v =tr(S)/p =

fi9,68. Los dos primeros valores propios son 58,Œ9 y fi5,Œt,
que son ma- yores que 0,t × v. Aceptamos m = X.
b. Test de esfericidad.
m zX g.l.
0 333,9 9
fi fiX3,8 †
£ 0,39 £
Rechazamos m = 0. m = fi y aceptamos m = X.
c. Test del bastón roto: Puesto que PX = 93,9X supera claramente
el valor esperado t9,fi6 y que no ocurre lo mismo con P3,
aceptamos m = X.
†. Componentes principales:
Yfi = 0,83X8Efi ‡ 0,50X9EX ‡ 0,fi36XE3 ‡
0,fi86tE4, YX = 0,5095Efi — 0,855XEX — 0,05
88E3 ‡ 0,0t38E4.
6. Interpretación: la primera componente es la variable con máxima va-

rianza y tiene todos sus coeficientes positivos. La interpretamos
como una componente de tamauo. La segunda componente tiene
coeficientes positivos en la primera y cuarta variable y negativos en
las otras dos. La interpretamos como una componente de fovma. La
primera componente ordena las estudiantes según su tamano, de
la más pequena a la más grande, y la segunda según la forma, el
tipo pícnico en contraste con el tipo atlético. Las dimensiones de
tamano y forma están incorrelacionadas.
†.F. EJEMPLOS 9fi
corredor km 4 km 8 km fi£ km fi6

fi fi0 fi0 fi3 fi£
£ fi£ fi£ fi4 fi†
3 fifi fi0 fi4 fi3
4 9 9 fifi fifi
† 8 8 9 8
6 8 9 fi0 9
F fi0 fi0 8 9
8 fifi fi£ fi0 9
9 fi4 fi3 fifi fifi
fi0 fi£ fi£ fi£ fi0
fifi fi3 fi3 fifi fifi
fi£ fi4 fi† fi4 fi3
Tabla †.fi: Tiempos parciales (en minutos) de fi£ corredores.
Ejemplo 5.Y.2 Govvedoves.

Mediante ACP podemos representar una matriz de datos en dimensión
reducida (Teorema †.3.£). La Tabla †.fi contiene los tiempos parciales en
minutos que fi£ corredores tardan en recorrer fi6 kilómetros. El corredor
más rápido es el †, el más lento es el fi£.
fi. Matrices de covarianzas y correlaciones:
,. , ,. ,
. .
S= Œ,36Œ Œ,09fi X,09fi X,Xt3 fi 0,9Œ83 0,Œ953 0,5X68 fi
. Œ,X65 fi,8tfi fi,9fit
, Æ 0,ŒŒ8Œ 0,ŒŒ9Œ .
Œ,083 3,t65 ., . fi 0,90XX
= ,
, fi
Œ,X65
£. Vectores y valores propios de S :
tfi tX t3 t4
0,5Xt5 0,Œ538 —0,X0fi8 —0,6893
0,5000 0,5fit6 0,X093 0,66Xfi
0,Œt69 —0,5fiŒt 0,6905 —0,fit60
0,Œ9Œ3 —0,5fifiX —0,66XŒ 0,X35t
Val. prop. Z fiX,X6 Œ,098 0,ŒXt3 0,fi9fi0
% tX,XX XŒ,fi3 X,5X fi,fi5
Porc. acum. tX,XX 96,35 98,85 fi00
9£ CAPÝTULO †. ANÁLISIS DE COMPONENTES PÆINCIPALES
3. Componentes principales primera y segunda:
Yfi = 0,5XtEfi ‡ 0,500EX ‡ 0,ŒttE3 ‡ 0,Œ9ŒE4 var(Yfi ) = fiX,X6

YX = 0,Œ53Efi ‡ 0,5fitEX — 0,5fiŒE3 — 0,5fifiE4 var(YX ) = Œ,098
4. La transformación por componentes principales es V = XT, siendo X

la matriz de datos, T la matriz con los vectores propios de S. La ma-
triz V contiene los valores de las componentes principales sobre los
fi£ individuos (coordenadas principales), Figura †.£.
†. Interpretación:
a. La primera componente principal es casi proporcional a la suma

de los tiempos parciales. Por tanto, podemos interpretar Yfi
como el tsempo que tardan en hacer el recorrido. O incluso—
mejor, Yfi indicaría la vapsdes en efectuar la carrera.
b. La segunda componente principal tiene coeficientes positivos en
Efi, EX y coeficientes negativos en E3, E4. Un corredor con
valores altos en YX significa que ha sido lento al principio y más
rápido al final de la carrera. Un corredor con valores bajos en
YX significa que ha sido rápido al principio y más lento al final.
Podemos interpretar esta componente como la fovma de
correr.
c. La vapsdes y la fovma de correr, son independientes, en el
sentido de que la correlación es cero.
Para más ejemplos con datos reales, consúltese Aluja y Morineau

(fi999), Baillo y Grané (£008), Greenacre (£0fi0).
5.8. Complememtos
El Análisis de Componentes Principales (ACP) fué iniciado por K. Pear-
son en fi90fi y desarrollado por H. Hotelling en fi933. Es un método
referente a una población, pero W. Krzanowski y B. Flury han investigado
las componentes principales comunes a varias poblaciones.
El ACP tiene muchas aplicaciones. Una aplicación clásica es el estudio
de P. Jolicoeur y J. E. Mosimann sobre tamano y forma de animales
(como los caparazones de tortugas machos y hembras), en términos de la
primera,
†.8. COMPLEMENTOS 93
Figura †.£: Representación por análisis de componentes principales y me-

diante biplot de los tiempos parciales de fi£ corredores. El eje horizontal
se interpreta como el tiempo que tardan y el vertical como la forma de
correr.
segunda y siguientes componentes principales. La primera componente

permite ordenar los animales de más pequenos a más grandes, y la
segunda permite estudiar su variabilidad en cuanto a la forma. Nótese que
”tamano™ y ”forma™ son conceptos ”independientes™ en sentido lineal.
El ACP se aplica partiendo de la matriz de covarianzas. Sin embargo,
como no es invariante por cambios de escala, se recomienda realizar el
ACP sobre la matriz de correlaciones Æ si las variables son de distinta
naturaleza.
El llamado ACP Común (Common Principal Component Analysis)
es el estudio de las componentes principales comunes en varios
conjuntos de datos. Supongamos que unas mismas variables observables
tienen matrices de covarianzas Xfi , . . . , Xh en h poblaciones distintas y que
las descomposiciones espectrales son Xs = T2s TJ , s = fi, . . . , h, para una
misma matriz T. Es decir, los vectores propios (columnas de T) son los
mismos, pero los valores propios son distintos. Entonces las componentes
principales son las mismas, aunque las varianzas pueden ser distintas. Por
ejemplo, los caparazones de tortugas machos y hembras, aunque de
distinta magnitud, pueden tener la misma estructura de tamano y
forma. Véase Krzanowski (fi988) y Flury (fi99F).
El AFM (Análisis Factorial Múltiple) permite visualizar varios conjuntos
de datos observados con distintas variables, a fin de encontrar una

estructura común. El AFM se realiza en dos pasos. Primero se aplica un
ACP a cada matriz (centrada) de datos, que se normaliza dividiendo por la
raíz cuadrada del primer valor propio. Las matrices transformadas se
juntan en una sola, a la que se aplica un ACP global. Véase Escofier y
Pagès (fi990). Véase una alternativa en Cuadras (fi998) y Cuadras y
Fortiana (fi998),
El bsp1ot, técnica introducida por Gabriel (fi9Ffi), permite la
representación en un mismo gráfico de las filas y columnas de una matriz
de datos X (Figura
†.£) mediante la descomposición singular X = U2VJ y tomando las
matrices A = U2α y B = V2fi—α . Véase Gower y Hand (fi996), Cárdenas y
Galindo- Villardón (£009), Greenacre (£0fi0) y Gower et a1. (£0fifi). Una
variante propuesta por Galindo-Villardón (fi986), es el HJ-biplot, que
toma A = U2 y B = V2, para la representación simultánea de filas y
columnas.
El ACP puede servir para estudiar la capacidad de un cráneo o de un
caparazón. Supongamos que el caparazón de una tortuga tiene longitud
J, anchura A, y altura H. La capacidad sería C = J αA Ø H ç , donde α, Ø, ç
son parámetros. Aplicando logaritmos, obtenemos
log C = log(JαAØHç) = α log J ‡ Ø log A ‡ ç log H,
que podemos interpretar como la primera componente principal Yfi de las

variables log J, log A, log H, y por tanto α, Ø, ç serían los coeficientes de
Yfi. Por medio del ACP es posible efectuar una regresión múltiple de Y
sobre Efi, . . . , Ep, considerando las primeras componentes principales Yfi,
YX, . . . como variables explicativas, y realizar regresión de Y sobre Yfi,
YX, . . . , evitando así efectos de colinealidad. Sin embargo las últimas
componentes principales también pueden influir en Y. Tal anomalía se
presenta cuando se cumple la
desigualdad (llamada vea1Ge en regresión múltiple),
RX > vfiX ‡ · · · ‡ pvX, (†.8)
donde R es la correlación múltiple de Y sobre Efi, . . . , Ep, y vs la

correlación simple de Y con Es, s = fi, . . . , p. Cuadras (fi993) prueba que
(†.8) equivale a
p
Σ v (fi
X — Z ) > 0,
Y s
s
s=fi
siendo Zs, s = fi, . . . , p, los valores propios de la matriz de correlaciones Æ

de las variables Es y vYs las correlaciones simples entre Y y las componentes
†.8. COMPLEMENTOS 9†
Ys. Vemos pues que se verifica (†.8) si Y está muy correlacionada con
una componente Ys tal que Zs c fi (por ejemplo, la última componente
principal). Cuadras (fi99†) y Waller (£0fifi) analizan las condiciones bajo
las cuales la desigualdad (†.8) es más acusada.
La regresión ortogonal es una variante interesante. Supongamos que
se quieren relacionar las variables Efi, . . . , Ep (todas con media 0), en el
sentido
de encontrar los coeficientes Øfi, . . . , Øp tales que ØfiEfi ‡ · · · ‡ ØpEp ~= 0. Se
puede plantear el problema como var(ØfiEfi ‡ · · · ‡ Ø pEp) =mínima, condi-
cionado a ØX‡· · ·‡ØX = fi. Es fácil ver que la solución es la última componente
fi p
principal Yp.
Se pueden también definir las componentes principales de un proceso
estocástico y de una variable aleatoria. Cuadras y Fortiana (fi99†),
Cuadras y Lahlou (£000), y Cuadras et a1. (£006), han estudiado los
desarrollos ortogonales del tipo
Σ
E = œ bnEn,
n=fi
donde En son componentes principales. Se han encontrado las

componentes y los desarrollos ortogonales para las variables con
distribución uniforme, exponencial, logística y Pareto. Por ejemplo, en el
caso de E uniforme en el intervalo (0, fi) se tiene
E= Σ
œ Œ
n=fi
[fi — cox(Xn — fi)vE].
vX(Xn — fi)X
Estos desarrollos guardan relación con algunos contrastes de bondad de
ajuste, como los de Anderson-Darling y de Cramér-von Mises, que
admiten expansiones en componentes principales. Véase Cuadras y
Cuadras (£00£), Cuadras (£00†b, £0fi4).
Capítulo 6
ANÁLISIS FACTOÆIAL
6.1. Imtroduccióm
El Análisis Factorial (AF) es un método multivariante que pretende
expresar p variables observables como una combinación lineal de m
variables hipotéticas o latentes, denominadas faGtoves. Tiene una
formulación parecida al Análisis de Componentes Principales, pero el
modelo que relaciona variables y factores es diferente en AF. Si la matriz
de correlaciones existe, las componentes principales también existen,
mientras que el modelo factorial podría ser aceptado o no mediante un test
estadístico.
Ejemplos en los que la variabilidad de las variables observables se
puede resumir mediante unas variables latentes, que el AF identifica como
”factores™, son:
fi. La teoría clásica de la inteligencia suponía que los test de inteligen-

cia estaban relacionados por un factor general, llamado factor ”g™ de
Spearman.
£. La estructura de la personalidad, también medida a partir de test

y escalas, está dominada por dos dimensiones: el factor
neuroticismo- estabilidad y el factor introversión-extroversión.
3. Las diferentes características políticas de ciertos países están

influidas por dos dimensiones: izquierda-derecha y centralismo-
nacionalismo.
El AF obtiene e interpreta los factores comunes a partir de la matriz de
9F
98 CAPÝTULO 6. ANÁLISIS FACTOÆIAL
correlaciones entre las variables:

, ,
fi vfiX · · · vfip
. .
v.Xfi .
. .fi. .· .·.· v..Xp .
Æ =, .
vpfi vpX · · · fi
,
6.2. El modelo umifactorial

Consideremos Efi, . . . , Ep variables observables sobre una misma
población. El modelo más simple de AF sólo contempla un factor común 5,
que recoge la covariabilidad de todas las variables, y p factores únicos Ufi, .
. . , Up, uno para cada variable. El modelo factorial es
Es = a s 5 ‡ d s U s , s = fi, . . . , p. (6.fi)
De acuerdo con este modelo, cada variable Es depende del factor
común
5 y de un factor único Us. El modelo factorial supone que:
a) Variables y factores están estandarizados (media 0 y varianza fi).
b) Los p ‡ fi factores están incorrelacionados.
De este modo 5 contiene la parte de la variabilidad común a
todas las variables, y cada Es está además influida por un factor único
Us , que aporta la parte de la variabilidad que no podemos explicar a
partir del factor común. El coeficiente as es la satuvaGsón de la variable
Es en el factor 5. La estandarización es una condición teórica que se
supone al modelo para su estudio, pero que no debe imponerse al
conjunto de datos observados.
De (6.fi) deducimos inmediatamente que
aX ‡ dX = fi,
s s
cor(Es, 5 ) = as,
cor(Es , Ej ) = as aj , s j.
Por lo tanto la saturación as es el coeficiente de correlación entre Es y el
factor común. Por otras parte aX , cantidad que recibe el nombre de
GOmuna1sdad, indicada
s por hX , es la proporción de variabilidad que se
explica por 5 y la correlación entre Es , Ej sólo depende de las
saturaciones as , aj .
Una caracterización del modelo unifactorial es
vsj vsjt as
= , (6.£)
vstj = vstjt ast
6.£. EL MODELO UNIFACTOÆIAL 99
es decir, los cocientes entre elementos de la misma columna no diagonal

de dos filas de la matriz de correlaciones Æ es constante. Esto es
equivalente a decir que el determinante de todo menor de orden dos de
Æ, que no contenga elementos de la diagonal, es nulo:
vsj vsjt
. vst j vstjt = vsj vst j t — vsj t vst j t = as aj ast aj t — as aj t ast aj t = 0. (6.3)
.
Estas son las llamadas relaciones tetrádicas, que necesariamente se
deben cumplir para que sea válido el modelo unifactorial.
La matriz de correlaciones reducida Æ× es la que resulta de substituir
los unos de la diagonal de Æ por las comunalidades s hX (véase (6.F)). Es
×
inmediato probar que Æ tiene rango fi, que todos los menores de orden
dos se anulan y que las comunalidades se obtienen a partir de las
correlaciones. Por ejemplo, la primera comunalidad es
X vfip—fivfip
v
hfiX vfi3
= v v = · · · = . (6.4)
=fiX fi4
fi
vX3 vX4 vpp—fi
En las aplicaciones reales, tanto estas relaciones como las tetrádicas,
sólo se verifican aproximadamente. Así, la estimación de la primera
comunalidad podría consistir en tomar la media de los cocientes (6.4).
Por ejemplo, la siguiente matriz de correlaciones
C 5 I M D Mu
C fi,00 0,83 0,t8 0,t0 0,66 0,63
5 0,83 fi,00 0,6t 0,6t 0,65 0,5t
I 0,t8 0,6t fi,00 0,6Œ 0,5Œ 0,5fi
M 0,t0 0,6t 0,6Œ fi,00 0,Œ5 0,5fi
D 0,66 0,65 0,5Œ 0,Œ5 fi,00 0,Œ0
Mu 0,63 0,5t 0,5fi 0,5fi 0,Œ0 fi,00
relaciona las calificaciones en C (clásicas), F (francés), I (inglés), M
(matemáti- cas), D (discriminación de tonos) y Mu (música) obtenidas por
los alumnos de una escuela. Esta matriz verifica, aproximadamente, las
relaciones (6.£). Si consideramos la primera y la tercera fila, tenemos que:
0,83 0,t0 0,66 0,63
= = = = fi,X .
0,6t ~ 0,6Œ ~ 0,5Œ ~ 0,5fi ~
De acuerdo con el modelo unifactorial, estas calificaciones dependen esencial-
mente de un factor común.
fi00 CAPÝTULO 6. ANÁLISIS FACTOÆIAL
6.3. El modelo multifactorial

6.3.1. El modelo
El modelo del análisis factorial de m factores comunes considera que
las p variables observables Efi, . . . , Ep dependen de m variables latentes
5fi, . . . , 5m, llamadas factores comunes, y p factores únicos Ufi, . . . , Up,
de acuerdo con el modelo lineal:
Efi = afifi5fi ‡ · · · ‡ afim5m ‡dfiUfi

EX = aXfi5fi ‡ · · · ‡ aXm5m ‡dXUX
(6.†)
··· ··· ···
Ep = apfi5fi ‡ · · · ‡ apm5m ‡dpUp.
Las hipótesis del modelo son:
fi. Los factores comunes y los factores únicos están incorrelacionados

dos a dos
cor(5s, 5j) = 0, s ƒ= j = fi, . . . , m,
cor(Us , Uj ) = 0, s ƒ= j = fi, . . . , p.
£. Los factores comunes están incorrelacionados con los factores
únicos cor(5s , Uj ) = 0, s = fi, . . . , m, j = fi, . . . ,
p.
3. Tanto los factores comunes como los factores únicos son variables
reducidas (media 0 y varianza fi).
En el modelo factorial (6.†) se admite que las variables, en conjunto,

dependen de los factores comunes, salvo una parte de su variabilidad,
sólo explicada por el correspondiente factor específico. Los factores
comunes representan dimensiones independientes en el sentido lineal, y
dado que tanto los factores comunes como los únicos son variables
convencionales, podemos suponer que tienen media 0 y varianza fi. Es
sólo una suposición teórica, en general los datos observados no están
reducidos.
6.S. EL MODELO MULTIFACTOÆIAL fi0fi
6.3.2. La matriz factorial

Los coeficientes asj son las satuvaGsones entre cada variable Es y el factor
5j. La matriz p × m que contiene estos coeficientes es la matriz factorial
,
. afifi · · · afim
aXfi · · · aXm
A =. ,. .
, .. . . . .. ,
apfi · · · apm
Si indicamos por X = (Efi , . . . , Ep )J el vector columna de las

variables, y análogamente F = (5fi , . . . , 5m )J , U =(Ufi , . . . , Up )J , el modelo
factorial en expresión matricial es
X = AF ‡ DU, (6.6)
donde D =diag(dfi, . . . , dp) es la matriz diagonal con las saturaciones
entre variables y factores únicos. El AF tiene como principal objetivo
encontrar e interpretar la matriz factorial A.
6.3.3. Las comumalidades

De las condiciones del modelo del AF se verifica
var(Es) = aX ‡ · · · ‡ ‡ dX,
sfi
aX sm s
y por lo tanto asjX es la parte de la variabilidad de la variable E s que es debida

al factor común 5j, mientras que dXs es la parte de la variabilidad explicada
exclusivamente por el factor único Us.
La cantidad
hsX = aXsfi ‡ · · · ‡ (6.F)
X
a
sm
se llama GOmuna1sdad de la variable Es . La cantidad dX es la unsGsdad. Luego,
s
para cada variable tenemos que:
variabilidad = comunalidad ‡ unicidad.
La comunalidad es la parte de la variabilidad de las variables sólo

explicada por los factores comunes.
Si suponemos que las variables observables son también reducidas,
entonces tenemos que
fi = hX ‡ dX. (6.8)
s s
fi0£ CAPÝTULO 6. ANÁLISIS FACTOÆIAL
La matriz de correlaciones reducida se obtiene a partir de Æ

substituyendo los unos de la diagonal por las comunalidades
, ,
h fi vfiX · · · vfip
X
Æ×= X
. vXfi h · · · vXp . .
X
. p .
, .. . . . . . .X. ,
vpfi vpX · · · h
Evidentemente se
verifica Æ = Æ× ‡ DX. (6.9)
6.3.4. Número máximo de factores comumes

El número m de factores comunes está limitado por un valor máximo
ma , que podemos determinar teniendo en cuenta que— hay p(p fi)/X
correlaciones·diferentes y p m saturaciones. Pero si A es una matriz factorial
con factores F, también lo es AT, con factores F¯ = TJ F, donde T es
matriz ortogonal. Como TTJ =—F, introduciremos m(m fi)/X restricciones y
el número de parámetros
· — libres de A será p m m(m fi)/X. El número
de correlaciones menos—el número de parámetros libres es
Σ
d = p(p — fi)/X — [p · m — m(m — fi)/X] = Xfi (p — m)X — p — m . (6.fi0)
Σ
Si igualamos d a 0 obtenemos una ecuación de segundo grado que un
vez resuelta nos prueba que
√
m ≤ ma = fi .Xp ‡ fi — 8p ‡ fiΣ .
X
Un modelo factorial es sobredeterminado si m > m a, pues hay más satu-

raciones libres que correlaciones. Si m = m a el modelo es determinado y
podemos encontrar A algebraicamente a partir de Æ.
Desde un punto de vista estadístico, el caso más interesante es m c
ma, ya que entonces podemos plantear la estimación estadística de A,
donde d > 0 juega el papel de número de grados de libertad del modelo.
El número máximo m× de factores comunes en función de p es:
p X 3 Œ 5 6 t 8 9 fi0 X0 30 Œ0
m× 0 fi fi X 3 3 Œ 5 6 fiŒ XX 3fi
Asignamos a m× el valor entero por defecto cuando ma tiene parte
fracciona- ria.
6.S. EL MODELO MULTIFACTOÆIAL fi03
6.3.5. El caso de Heywood

Una limitación del modelo factorial es que alguna comunalidad puede
al- canzar (algebraicamente) un valor superior a fi, contradiciendo (6.8).
Cuan- do esto ocurre, la solución se ha de interpretar con precaución. En
algunos métodos, como el de la máxima verosimilitud, se resuelve este
inconveniente (primeramente observado por H.B. Heywood) imponiendos la
condición hX ≤
fi en la estimación de las comunalidades.
6.3.6. Um ejemplo
Ejemplo 6.3.1 Assgnatuvas.
Las asignaturas clásicas de la ensenanza media, se dividen, en líneas

generales, en asignaturas de Ciencias y de Letras, las primeras con
contenido más racional y empírico, las segundas con contenido más
humanístico y artís- tico. Consideremos las siguientes † asignaturas:
Ciencias Naturales (CNa), Matemáticas (Mat),

Francés (Fra), Latín (Lat), Literatura (Lit).
Supongamos que están influidas por dos factores comunes o variables

latentes: Ciencias (C) y Letras (L). En otras palabras, suponemos que C y
L son dos variables no observables, que de manera latente influyen sobre
las cinco asignaturas. Las calificaciones de n = X0 alumnos en las
asignaturas y en los factores se encuentran en la Tabla 6.fi. Téngase en
cuenta que las variables no están estandarizadas, condición de índole
teórica para desarrollar el modelo factorial.
Vamos a suponer que la matriz factorial es
C L
CNa 0,8 0,X
Mat 0,9 0,fi
(6.fifi)
Fra 0,fi 0,9
Lat 0,3 0,8
Lit 0,X 0,8
Asignaturas Factores
Alumno CNa Mat Fra Lat Lit Ciencias Letras
fi t t 5 5 6 t 5
X 5 5 6 6 5 5 6
3 5 6 5 t 5 6 5
Œ 6 8 5 6 6 t 5
5 t 6 6 t 6 6 6
6 Œ Œ 6 t 6 Œ 6
t 5 5 5 5 6 5 6
8 5 6 5 5 5 6 5
9 6 5 t 6 6 5 6
fi0 6 5 6 6 6 5 6
fifi 6 t 5 6 5 t 5
fiX 5 5 Œ 5 Œ 6 Œ
fi3 6 6 6 6 5 6 6
fiŒ 8 t 8 8 8 t 8
fi5 6 t 5 6 6 6 5
fi6 Œ 3 Œ Œ Œ 3 Œ
fit 6 Œ t 8 t 5 t
fi8 6 6 t t t 6 t
fi9 6 5 Œ Œ Œ 5 Œ
X0 t t 6 t 6 t 6
Tabla 6.fi: Calificaciones en † asignaturas y puntuaciones en £ factores
comunes de £0 alumnos.
CNa Mat Fra Lat Lit

CNa fi 0,656 0,Œ9t 0,ŒX0 0,58Œ
Mat fi 0,099 0,X30 0,3fit
Fra fi 0,8fi3 0,8Œfi
Lat fi 0,t66
Lit fi
Tabla 6.£: Matriz de correlaciones para las calificaciones en † asignaturas.
6.Œ. TEOÆEMAS FUNDAMENTALES fi0†
Las dos primeras asignaturas están más influidas por el factor C, y las
tres últimas por el factor L. Por ejemplo, Matemáticas tiene una
correlación de 0,9 con Ciencias y sólo 0,fi con Letras.
La calificación del primer alumno en CNa es F, debida a F puntos en
Ciencias y † puntos en Letras. Según el modelo factorial:
t = 0,8 × t ‡ 0,X × 5 ‡ 0,Œ = 5,6 ‡ fi ‡ 0,Œ.
De los F puntos, †.6 se explican por el factor común C, fi punto por el

factor común L y 0.4 puntos por el factor único. Este factor único
representa la variabilidad propia de las CNa, independente de los
conceptos C y L.
Las comunalidades son:
hX = 0,68, hX = 0,8X, hX = 0,8X, hX = 0,t3, hX = 0,68.
fi X 3 4 †
Los porcentajes de la variabilidad explicada por los factores comunes y las

comunalidades son:
Factor C Factor L Comunalidades
C. Naturales 6Œ Œ 68
Matemáticas 8fi fi 8X
Francés fi 8fi 8X
Latín 9 6Œ t3
Literatura Œ 6Œ 68
6.4. Teoremas fumdamemtales

El primer teorema, conocido como teorema de Thurstone, permite
relacionar la matriz factorial con la matriz de correlaciones, o más
exactamente, con la matriz de correlaciones reducida. El segundo
teorema permite determinar, teóricamente, el número de factores
comunes y los valores de las comunalidades.
Teorema 6.4.1 Bajo 1as hspótesss de1 mode1o faGtovsa1 1snea1 se sevsflGa:
Σm
vΣsj = h=fi ash ajh , s ƒ= j = fi, . . . , p,
fi h=fi ash
m
X
‡ dsX, s = fi, . . . , p.
En notaGsón matvsGsa1
= Æ = AAJ ‡ DX . (6.fi£)
Demost.: Al ser las variables reducidas, Æ =E(XXJ ) y de (6.6)

Σ
Æ = E (AF ‡ DU)(AF ‡ DU)J
Σ
= AE(FF J
)AJ ‡DE(UUJ )DJ ‡ XAE(FUJ )D.
Por las condiciones de incorrelación entre factores tenemos que E(FFJ ) =

Fm , E(UUJ ) = Fp , E(FUJ ) = 0, lo que prueba (6.fi£). Q
De (6.9) vemos inmediatamente que
Æ× = AAJ . (6.fi3)
Una solución factorial viene dada por cualquier matriz A que cumpla la
relación (6.fi3). Así pues, si m > fi, existen infinitas soluciones, pues si A
es solución, también lo es AT, siendo T una matriz × m m ortogonal. Por
otro lado, (6.fi£) o (6.fi3) tampoco resuelven completamente el problema,
ya que desconocemos las comunalidades. La obtención de las
comunalidades está muy ligada al número de factores comunes.
Teorema 6.4.2 Se sevsflGa:
f. E1 mode1o faGtovsa1 exsste ss Æ es 1a suma de una matvss

semsdeflnsda posstssa 4 una matvss dsagona1 GOn e1ementos no
negatssos.
W. E1 númevo m de faGtoves GOmunes es e1 vango de 1a matvss Æ× .

Pov 1o tanto m es e1 ovden de1 más gvande menov de Æ que no
GOntsene e1ementos de 1a dsagona1.
h. Gas GOmuna1sdades son aque11os sa1oves 0 ≤ shX ≤ fi ta1es que Æ× es

matvss sems−deflnsda posstssa (tsene m sa1oves pvopsos posstssos).
Demost.: Es una consecuencia de la relación (6.fi3) entre Æ× y A. El

mayor menor de Æ quiere decir la submatriz cuadrada con determinante
no negativo, que no contenga elementos de la diagonal. Q
Hemos visto que a partir de Æ podemos encontrar m, pero la solución no
es única. El pvsnGspso de pavssmonsa en AF dice que entre varias
soluciones admisibles, escogeremos la que sea más simple. El modelo
factorial será pues aquel que implique un número mínimo m de factores
comunes. Fijado m, las comunalidades se pueden encontrar,
algebraicamente, a partir de la matriz de correlaciones Æ. En la
práctica, las comunalidades se hallan aplicando métodos estadísticos.
6.†. MNTODO DEL FACTOÆ PÆINCIPAL fi0F
Finalmente, podemos probar de manera análoga, que si el análisis

factorial lo planteamos a partir de la matriz de covarianzas X, sin
suponer las variables reducidas, aunque sí los factores, entonces
obtenemos la estructura
X = AAJ ‡ DX . (6.fi4)
6.5. Método del factor primcipal

Es un método de obtención de la matriz factorial con la propiedad de
que los factores expliquen máxima varianza y sean incorrelacionados.
La variabilidad total de las variables, que suponemos reducidas, es
X
igual a p. La variabilidad de la variable Es explicada por el factor 5j es
sj a .
La
suma de variabilidades explicadas por 5j es
Vj = aX ‡ · · · ‡ aX .
fij pj
El primer factor principal 5fi es tal que Vfi es máximo. Consideremos

pues el problema de maximizar Vfi con la restricción Æ× = AAJ .
Utilizando el método de los multiplicadores de Lagrange debemos
considerar la función
p m
Vfi ‡ Σ Σ
qjj t (vjj t — ajh aj t h ),
t=fi
j,j h=fi
donde qjj t = qj t j son los multiplicadores. Igualando las derivadas a

cero se obtiene que las saturaciones afi = (afifi , . . . , apfi )J del primer factor
principal verifican
Æ×afi = Zfiafi,
es decir, afi es el primer vector propio de Æ× y Zfi es el primer valor propio.
El valor máximo de Vfi es precisamente Zfi.
Si ahora restamos del modelo factorial el primer factor
EsJ = Es — asfi 5fi = asX 5X ‡ · · · ‡ asm 5m ‡ ds Us ,
el modelo resultante contiene m — fi factores. Aplicando de nuevo el

criterio del factor principal al modelo vemos que las saturaciones aX = (afiX ,
. . . , apX )J tales que la variabilidad explicada por el segundo factor
VX = aX ‡ · · · ‡ apXX ,
fiX
sea máxima, corresponde al segundo vector propio de Æ× con valor propio

ZX, que es precisamente el valor máximo de VX.
En general, si Æ× = U2UJ es la descomposición espectral de Æ× ,
entonces la solución del factor principal es
A = U2fiƒX.
Fijado un valor compatible de m, un algoritmo iterativo de obtención de
la matriz factorial y de las comunalidades es:
Paso 0 ,Æ = U2U
J
(p vectores propios de Æ)
(fi) fiƒX
. ÆA =U
fifi =diag(A
m (2AJfi )) ‡ Æ
fim F (m primeros
(matriz vectores reducida)
correlaciones propios)
Paso —
fi
, (fi) (fi)
Æfi = UfiƒX
(s)(s) 2 U(fi)J (p vectores propios de Æfi )
. ,As = U
(2 m ) m J
Paso Æ =diag(A A)‡Æ F (repetir iterativamente)
s , s i i
Æs =U(s) 2(s) U —(s)J
La matriz As converge a la matriz factorial A. Como criterio de

conver- gencia podemos considerar la estabilidad de las comunalidades.
Pararemos si pasando de s a s ‡ fi los valores de las comunalidades, es
decir, los valores en diag(As AJs ), prácticamente no varían. Esta
refactorización podría fallar si se presenta el caso de Heywood ó Æ no
satisface el modelo factorial (6.fi£).
Volviendo al ejemplo de las asignaturas y suponiendo la matriz

factorial (6.fifi), las correlaciones y la solución por el método del factor
principal (que detecta dos factores comunes explicando el F4.6 % de la
varianza), son:
CNa Mat Fra Lat Lit Ffi FX

CNa fi 0,tŒ 0,X6 0,Œ0 0,3X CNa 0,6Xfi —0,5Œ3
Mat fi 0,fi8 0,35 0,X6 Mat 0,596 —0,68X
Fra fi 0,t5 0,tŒ Fr 0,t96 0,Œ3X
Lat fi 0,t0 a 0,8X8 0,Xfi0
Lit fi Lat 0,ttfi 0,X9X
Lit
Valor propio X,65Œ fi,0t6
Porcentaje 53,08 Xfi,5X
6.6. MNTODO DE LA MÁXIMA VEÆOSIMILITUD fi09
6.6. Método de la máxima verosimilitud

6.6.1. Estimacióm de la matriz factorial
Podemos plantear la obtención de la matriz factorial como un problema
de estimación de la matriz de covarianzas X, con la restricción que X se
descompone en la forma
X = AAJ ‡ V,
donde V = DX es una matriz diagonal (véase (6.fi4)). Si suponemos que las
n observaciones de las p variables provienen de una distribución normal con
µ = 0, el logaritmo de la función de verosimilitud es
log J(X, µ, X) = — Xn (log |XvX| — tr(X—fiS)}.
Cambiando de signo y modificando algunas constantes, se trata de estimar

A y V de manera que
5p(A, V) = log |X| ‡ tr(X—fiS)— log |S|—p (6.fi†)
sea mínimo, siendo S la matriz de covarianzas muestrales. Las derivadas

respecto de A y V son
65p
6A = XX—fi(X — S)X—fiA,
65p
6V = diag(X—fi(X — S)X—fi).
Por tanto, las ecuaciones a resolver para obtener estimaciones de A y V son
X—fi(X — S)X—fiA = 0, diag(X—fi(X S)X—fi) = 0,
(6.fi6)
X = AAJ ‡ V, AJ V—fi A es diagonal.
La última condición es sólo una restricción para concretar una

solución, puesto que si A es solución, también lo es AT, siendo T
matriz ortogonal. Debe tenerse en cuenta que se trata de encontrar el
espacio de los factores comunes. La solución final será, en la práctica,
una rotación de la solución que verifique ciertos criterios de simplicidad.
Las ecuaciones (6.fi6) no proporcionan una solución explícita, pero es
posible encontrar una solución utilizando un método numérico iterativo.
fifi0 CAPÝTULO 6. ANÁLISIS FACTOÆIAL
6.6.2. Hipótesis sobre el múmero de factores

Una ventaja del método de la máxima verosimilitud es que permite for-
mular un test de hipótesis sobre la estructura factorial de X y el número m
de factores comunes.
Planteemos el test
HO : X = AAJ ‡ V vs Hfi : X es definida positiva,
donde A es de rango m.
Si X^ = A^ A^ J ‡ V^ , siendo A^ y V^ las estimaciones, los máximos del logar-
itmo de la razón de verosimilitud son (Sección †.4.£)
^ ^
n— fi
X H : — (log |X|
‡ : — nS)),
Hfitr(X X
(logO |S| ‡ p).
Aplicando el Teorema 3.†.fi tenemos que el estadístico
Σ Σ
^ —fi
Ch = n log |X| — log |S| ‡ tr(X S)—p ^ = n5p(A,V)
^
^
sigue asintóticamente la distribución ji-cuadrado con
Σ
h = p(p — fi)/X — [p · m — m(m — fi)/X] = Xfi (p — m)X — p — m
Σ
grados de libertad. Podemos observar que Ch es n veces el valor mínimo
de la función (6.fi†) y que h coincide con (6.fi0).
6.Y. Æotaciomes de factores

La obtención de la matriz factorial, por aplicación de los dos métodos
que hemos expuesto, no es más que el primer paso del AF. Normalmente
la matriz obtenida no define unos factores interpretables. En el ejemplo de
las asignaturas, la solución por el método del factor principal es en
principio válida, pero define dos factores comunes 5fi, 5X que no son
fácilmente identi- ficables. Se hace necesario ”rotar™ estos dos factores hacia
unos factores más fáciles de interpretar.
Se han propuesto diferentes versiones sobre cómo transformar la
matriz factorial a fin de obtener una estructura simple de los factores.
Esencialmente se trata de conseguir que unas saturaciones sean altas a
costa de otras, que serán bajas, para así destacar la influencia de los
factores comunes sobre las variables observables.
6.F. ÆOTACIONES DE FACTOÆES fififi
6.Y.1. Æotaciomes ortogomales

Dada una matriz factorial A, queremos encontrar una matriz
ortogonal T tal que la nueva matriz factorial B = AT defina unos
factores que tengan una estructura más simple. Un criterio analítico
considera la función
Σ aX
G=Σ Σ
m Σm p Σ ç p
Σ p , (6.fiF)
Σ aXX — aX
asj sh p sj sh
h=fi h j=fi s=fi s=fi s=fi
donde ç es un parámetro tal que 0≤ ç ≤ fi. Hay dos criterios

especialmente interesantes.
Øuavtsmax: Si ç = 0 minimizar G equivale a maximizar la varianza de
X
los cuadrados de los p · m coeficientes de saturación.
X X
Si cada saturación
sj a se
divide por la comunalidad, es decir, se considera a /h , la rotación se llama
sj s
quartimax normalizada.
Vavsmax : Si ç = fi minimizar G equivale a maximizar la suma de las
varianzas de los cuadrados de los coeficientes de saturación de cada
columna de A. Análogamente si consideramos aX /hX, la rotación se llama
varimax sj s
normalizada.
6.Y.2. Factores oblicuos

Los factores comunes pueden estar también correlacionados, y
entonces se habla del modelo factorial oblicuo. Este modelo postula que
las variables
observables dependen de unos factores correlacionados 5fiJ , . . . , y de p
5mJ
factores únicos. Así para cada variable Es
Es = psfi 5fiJ ‡ · · · ‡ ‡ d sU s , s = fi, . . . , p. (6.fi8)

psm 5mJ
La solución factorial oblicua consistirá en hallar las siguientes matrices:
fi. Matriz del modelo factorial oblicuo
P =(psj)
siendo psj la saturación de la variable Es en el factor 5jJ .

£. Matriz de correlaciones entre factores oblicuos
0 = (Qsj ) siendo Qsj = cor(5sJ , 5jJ ).

fifi£ CAPÝTULO 6. ANÁLISIS FACTOÆIAL
3. Estructura factorial oblicua (estructura de referencia)
Ø =(qsj ) siendo qsj = cor(Es , 5jJ ).
Si indicamos FO = (5fiJ , . . . , 5mJ )J y escribimos el modelo (6.fi8) en forma

matricial
X = PFO ‡ DU,
fácilmente probamos la relación entre las tres matrices P, 0 y Ø
Ø = P0,
y la versión del teorema de Thurstone para factores correlacionados
Æ = P0PJ ‡ DX .
Si los factores son ortogonales, el modelo factorial coincide con la

estructura factorial y tenemos que
P = Ø, 0 = Fm.
6.Y.3. Æotacióm oblicua

Ya se ha dicho que hallar una matriz factorial A constituye el primer
paso de la factorización. Øueremos encontrar una matriz L tal que la
nueva matriz factorial P = AL defina unos factores oblicuos que tengan
una estructura más simple. Un criterio analítico sobre la matriz de
estructura factorial Ø considera la función
H=Σ Σ qX Σ ,
Σ p Σ ç Σ
qXX — qX
m Σ q p p
h=fi hƒ=j=fi sj sh p sj sh
s=fi s=fi s=fi
donde ç es un parámetro tal que 0≤ ç ≤fi. Hay tres criterios especial-

mente interesantes, que tienen una interpretación parecida al caso
ortogonal y que también se pueden formular, más adecuadamente,
dividiendo por las comunalidades.
Øuavtsmsn: Si ç = 0 hay máxima oblicuidad entre los factores comunes.
Bs−quavtsmsn: Si ç = fi/X el criterio es intermedio entre quartimin y co-
varimin.
Gosavsmsn: Si ç = fi hay mínima oblicuidad entre los factores comunes.
6.F. ÆOTACIONES DE FACTOÆES fifi3
Conviene tener en cuenta que las rotaciones ortogonales y oblicuas in-

tentan simplificar la estructura factorial A y la estructura de referencia Ø,
respectivamente.
Un criterio directo de rotación oblicua es el pvomax. Sea A la matriz
factorial obtenida por el método varimax. Øueremos destacar unas
saturaciones sobre otras, por tanto definimos P× = (p×sj ) tal que
p×sj = |asjh‡fi |/asj , h > fi,
siendo h un número entero.

Cada elemento de A queda elevado a una potencia h conservando el
signo. Seguidamente ajustamos P× a AL en el sentido de los mínimos
cuadrados (véase (fi3.4)):
L = (AJ A)—fi AJ P× .
Es necesario normalizar la matriz L de manera que los vectores columna de
T = (LJ )—fi tengan módulo unidad. Obtenemos entonces
P = AL, 0 = TJ T, Ø = AT.
El grado de oblicuidad de los factores comunes aumenta con h. Se suele tomar

h = Œ.
Ejemplo 6.Y.1 Assgnatuvas.
Siguiendo con el ejemplo de las † asignaturas, Tabla 6.fi, la estimación

máximo verosímil y la matriz factorial rotada son:
Máxim veros. Varimax Comun.

Ffi FX C L
CNa 0,659 0,Œ3X 0,636 0,Œ6Œ 0,6X
Mat 0,999 0,005 0,999 0,0Œ6 0,99
Fra 0,fi0Œ 0,9tŒ 0,055 0,9t8 0,96
Lat 0,X3Œ 0,809 0,fi93 0,8X0 0,tfi
Lit 0,3Xt 0,83fi 0,X80 0,8Œt 0,t9
X
El test d e hipótesis de que hay m = X factores comunes da z fi = fi,XX,
no significativo. Podemos aceptar m = X. La rotación varimax pone de ma-
nifiesto la existencia de dos factores C, J, que podemos interpretar como
dimensiones latentes de Ciencias y Letras.
Figura 6.fi: Proyección de las variables sobre los factores comunes

ortogonales, y factores rotados (rotación promax), interpretados como
factores de Ciencias y Letras.
La rotación oblicua promax con h = Œ da las matrices P, Ø, 0 siguientes:
Modelo factorial Estruct. factorial Correlaciones factores

C L C L
CNa 0,5t0 0,3t5 0,t06 0,58fi .
Mat fi,0Œ0 —0,fi35 0,99X 0,XŒX fi 0,36X
Fra —0,fi50 fi,0XŒ 0,XXfi 0,9t0 Σ 0,36X fi
Lat 0,0X8 0,83fi 0,330 0,8ŒX
Lit 0,fifiŒ 0,8ŒŒ 0,ŒX0 0,885
La Figura 6.fi representa los factores ortogonales iniciales Ffi y FX,

dibu- jados como vectores unitarios, y los factores oblicuos G y G. Las
variables tienen una longitud proporcional a la raíz cuadrada de sus
comunalidades.
6.Y.4. Factores de segumdo ordem

Un vez hemos obtenido los factores oblicuos con matriz de correlaciones
0, podemos suponer que estos m factores primarios dependen de mJ factores
6.8. MEDICIÓN DE FACTOÆES fifi†
secundarios de acuerdo con una matriz factorial B que verifica
0 = BBJ ‡ EX ,
siendo E la matriz m × m diagonal.

Si los factores secundarios son también oblicuos, el proceso de facto-
rización puede continuar hasta llegar a un único factor común de orden
superior.
Un ejemplo de aplicación nos lo proporciona la teoría clásica de la
estructura factorial de la inteligencia. Los test de aptitud dependen de un
conjunto elevado de factores primarios, que dependen de un conjunto de
F factores secundarios (verbal, numérico, espacial, razonamiento, memoria,
percepción, psicomotores), que a su vez dependen de un factor general ”g™
(el factor ”g™ de Spearman), que sintetiza el hecho de que todas las
aptitudes mentales están correlacionadas.
6.8. Medicióm de factores

Sea x = (ıfi , . . . , ıp )J los valores de las p variables observables
obtenidos sobre un individuo w. Nos planteamos ahora ”medir los
factores™, es decir, encontrar los valores f = (ƒfi , . . . , ƒm )J de los
factores comunes sobre w. Se verifica
x = Af ‡ Du, (6.fi9)
siendo u = (ufi . . . , up )J los valores de las unicidades.
Si interpretamos (6.fi9) como un modelo lineal, donde x es el vector de
observaciones, A es la matriz de diseno, f es el vector de parámetros y e
= Du es el término de error, el criterio de los mínimos cuadrados (véase
(fi3.4)) nos da
f = (AJ A)—fi AJ x.
Un método más elaborado (propuesto por M. S. Bartlett) considera que
f es función lineal de x y que los valores de los factores únicos
u = D—fi(x — Af)
son términos de error. Si queremos minimizar
uJ u = uXfi ‡ · · · ‡ upX ,
expresando (6.fi9) como D—fix = D—fiAf ‡ u, es fácil ver que
f = (AJ D—X A)—fi AJ D—X x.
Una modificación de este método (propuesta por T. W. Anderson y H.

Rubin) consiste en anadir la condición de que los factores comunes
estimados estén incorrelacionados. La solución que resulta es
f = B—fi AJ D—X x,
siendo BX = AJ D—X ÆD—X A.
Continuando con el ejemplo de las † asignaturas, Tabla 6.fi, las

calificaciones en las asignaturas de los 4 primeros alumnos (Tabla 6.fi) y
las puntuaciones (Anderson-Rubin) en los factores C y J, obtenidos con
la rotación varimax, son:
Alumno CNa Mat Fra Lat Lit C L

fi t t 5 5 6 fi,060 —0,559
£ 5 5 6 6 5 —0,568 0,XŒX
3 5 6 5 t 5 0,X59 —0,505
4 6 8 5 6 6 fi,850 —0,6fiŒ
Teniendo en cuenta que los factores comunes son variables

estandarizadas, el primer alumno tiene una nota relativamente alta en
Ciencias y una nota algo por debajo de la media en Letras.
6.9. Amálisis factorial comfirmatorio

Los métodos del factor principal y de la máxima verosimilitud son
méto- dos exploratorios, en el sentido de que exploran las dimensiones
latentes de las variables. El AF también se puede plantear en sentido
confirmatorio, es decir, estableciendo una estructura factorial de acuerdo
con el problema objeto de estudio, y seguidamente aceptando o
rechazando esta estructura mediante un test de hipótesis. Por ejemplo,
podemos considerar que la matriz factorial
6.9. ANÁLISIS FACTOÆIAL CONFIÆMATOÆIO fifiF
en el ejemplo de las † asignaturas es
C L
CNa fi 0
Mat fi 0
Fra 0 fi
Lat 0 fi
Lit 0 fi
interpretando que las dos primeras sólo dependen del factor Ciencias y
las otras tres del factor Letras. Entonces podemos realizar una
transformación de la matriz factorial inicial para ajustarnos a la matriz
anterior.
Si la solución inicial es A, postulamos una estructura B y deseamos
encontrar T ortogonal tal que AT se aproxime a B en el sentido de los
mínimos cuadrados
tr[(B — AT)J (B — AT)] = mínimo,
entonces la solución es T = UVJ , siendo AJ B = UDs VJ la

descomposición singular de AJ B. Es decir AT es la transformación
procrustes de A. Véase (fi.F).
Si T no es ortogonal y por lo tanto se admite una estructura oblicua,
entonces T se obtiene siguiendo un procedimiento parecido a la rotación
promax
T = (AJ A)—fi AJ B,
pero normalizando a módulo fi los vectores columna de T.

Más generalmente, en AF confirmatorio se especifica el número de
factores comunes, el tipo ortogonal u oblicuo de la solución, y los valores
libres o fijos de las saturaciones.
Ejemplo 6.9.1 fest de GapaGsdad.
Un AF confirmatorio sobre 9 test (estudiado por K. Joreskog) obtiene

siete soluciones confirmatorias. De los 9 test considerados, los test fi,£,3
miden relaciones espaciales, los test 4,†,6 inteligencia verbal y los test F,8,9
velocidad
de percepción. La matriz de correlaciones es:
fi £ 3 4 † 6 F 8 9
fi fi 0,3fi8 0,Œ68 0,335 0,30Œ 0,3X6 0,fifi6 0,3fiŒ 0,Œ89
£ fi 0,X30 0,X3Œ 0,fi5t 0,fi95 0,05t 0,fiŒ5 0,fi39
3 fi 0,3Xt 0,335 0,3X5 0,099 0,fi60 0,3Xt
4 fi 0,tXX 0,tfiŒ 0,X03 0,095 0,309
† fi 0,685 0,XŒ6 0,fi8fi 0,3Œ5
6 fi 0,fit0 0,fifi3 0,X80
F fi 0,585 0,Œ08
8 fi 0,5fiX
9 fi
Sólo comentaremos tres soluciones. La primera solución es oblicua no

restringida, y se puede aceptar, puesto que la ji-cuadrado del ajuste no es
significativa.
P 0 Comun.
0,tfi 0,00 0,00 0,50
0,5Œ —0,03 0,08 0,X6
0,6t 0,0Œ —0,09 0,Œ6
X
0,00 0,8t 0,00 fi 0,t6 zfiX = 9,tt
—0,03 0,8fi 0,fi3 0,5Œ fi 0,t0 p = 0,6Œ
0,0fi 0,8X —0,0fi 0,XŒ 0,X8 fi 0,68
0,00 0,00 0,t8 0,6fi
0,ŒX —0,30 0,t3 0,68
0,56 —0,06 0,Œfi 0,5Œ
La segunda solución es oblicua restringida. Se impone la condición de

que los tres primeros test correlacionen sólo con el primer factor, los tres
siguientes sólo con el segundo y los tres últimos sólo con el tercero. No
obstante, el valor ji-cuadrado es significativo y esta solución no debería
aceptarse.
6.fiO. COMPLEMENTOS fifi9
P 0 Comun.
0,68 0,00 0,00 0,Œ6
0,5X 0,00 0,00 0,Xt
0,69 0,00 0,00 0,Œ8
0,00 0,8t 0,00 fi 0,tt zXX4 = 5fi,fi9
0,00 0,83 0,00 0,5Œ fi 0,69 p = 0,00fi
0,00 0,83 0,00 0,5X 0,3Œ fi 0,69
0,00 0,00 0,66 0,Œ3
0,00 0,00 0,80 0,63
0,00 0,00 0,t0 0,Œ9
La tercera solución es ortogonal no restringida, con un factor general y

tres factores específicos, en el sentido que el primero no correlaciona con
la variable 4, el segundo no correlaciona con las variables fi y F y el
tercero no correlaciona con fi, £ y 4. El valor ji-cuadrado indica que esta
solución es aceptable.
P 0 Comun.
0,38 0,58 0,00 0,00 0,Œ8
0,XŒ 0,Œfi 0,35 0,00 0,3t
0,38 0,53 0,30 — 0,03 fi 0,5X
0,8t 0,00 0,03 0,00 0,0 fi 0,t5 zX6 = X,t5
0,83 0,0fi — 0,fi3 0,06 0,0 0,0 fi 0,tX p = 0,8Œ
0,83 0,0fi 0,0Œ —0,0X 0,0 0,0 0,0 fi 0,68
0,XŒ 0,0X 0,00 0,95 0,95
0,fi5 0,Œ3 —0,fi3 0,5t 0,56
0,36 0,59 —0,XX 0,3Œ 0,6Œ
6.10. Complememtos
Constituyen dos precedentes del Análisis Factorial el concepto de fac-
tor latente de F. Galton y de eje principal de K. Pearson. El primer trabajo,
publicado en fi904, por Ch. Spearman (Spearman, fi904) desarrolla una
teoría de la inteligencia alrededor de un factor común, el factor ”g™.
Esta teoría,
fi£0 CAPÝTULO 6. ANÁLISIS FACTOÆIAL
que ordenaba la inteligencia de los individuos a lo largo de una sola

dimen- sión, fue defendida por C. Burt, con consecuencias sociológicas
importantes, pues proporcionó una base científica para financiar las
escuelas privadas en detrimento de otras.
El Análisis Factorial moderno se inicia con la obra ”Multiple Factor
Analysis™ de L.L. Thurstone, que postulaba más de un factor común,
intro- ducía la estructura simple y las rotaciones de factores. A partir de
Thurstone la medida de la inteligencia era más ”democrática™, ya que
poseía varias dimensiones latentes, quedando sin sentido una ordenación
clasista de los individuos, pues si en una dimensión sería posible
ordenarlos, en varias dimensiones es imposible. Hubo una polémica
similar sobre la personalidad. La teoría psicoanalítica defendía una
continuidad entre la personalidad neurótica y la psicótica, mientras que el
AF revela que neurosis y psicosis son dimensiones independientes.
Los modelos y métodos de Spearman, Burt, Thurstone y otros
(Holzinger, Harman y Horst), son ya historia. Los métodos actuales para
obtener la matriz factorial son: factor principal, análisis factorial canónico
(C.R. Rao), método Alfa (H.F. Kaiser, J. Caffrey) y el método de la
máxima verosimilitud (D. N. Lawley, K. G. Joreskog). Véase Joreskog
(fi96F).
El método varimax de rotación ortogonal de Kaiser es uno de los más
recomendados. J.B. Carroll introdujo la rotación oblicua quartimin y A. E.
Hendrickson y P. O. White la promax. Anderson y Rubin (fi9†6) publicaron
un excelente trabajo sobre AF, tratando todo los aspectos algebraicos y
es- tadísticos del tema. Véase Harman (fi9F6), Torrens-Ibern (fi9F£).
El estudio de las dimensiones latentes es un tema presente en la
ciencia y siempre ha despertado interés. C. R. Rao demostró que si
conocemos la distribución de h combinaciones lineales de p variables
independientes,
— ≤siendo h(h fi)/X c p h(h ‡ fi)/X, entonces la
distribución de cada una de las p variables queda determinada (salvo la
media o parámetro de localización). Por ejemplo, si tenemos p = Xfi0
variables independientes bastaría conocer la distribución de h = X0
combinaciones lineales adecuadas para determinar la distribución de las
£fi0 variables. Este resultado proporciona una cierta justificación teórica
acerca del hecho que la información multivariante posee una
dimensionalidad latente mucho más pequena.
La etapa inicial del AF (hasta fi966), era exploratoria, como una her-
ramienta para explorar la dimensionalidad latente de las variables. Más
tarde, el análisis factorial se ha entendido en sentido confirmatorio
(Joreskog, Law- ley, Maxwell, Mulaik), estableciendo una estructura
factorial de acuerdo con
6. fiO.
COMPLEMENTOS fi£fi
el problema, y seguidamente aceptando o rechazando esta estructura me-

diante un test de hipótesis (Joreskog, fi969, fi9F0). Consúltese Cuadras (fi98fi).
Se han llevado a cabo muchas aplicaciones del AF. Citaremos tres, las
dos primeras sobre AF exploratorio y la tercera sobre AF confirmatorio.
Rummel (fi963) estudia ££ medidas de los conflictos de FF naciones y
encuentra tres dimensiones latentes, que identifica como: agitación,
revolución y subversión, y ordena las naciones según las puntuaciones en
los factores comunes.
Sánchez-Turet y Cuadras (fi9F£) adaptan el cuestionario E.P.I. de
personalidad (Eysenck Personality Inventory) y sobre un test de 69 ítems
(algunos ítems detectan mentiras) encuentran tres factores: Introversión-
Extroversión, Estabilidad-Inestabilidad, Escala de mentiras.
Joreskog (fi969) explica un ejemplo de AF confirmatorio sobre 9 test,
previamente estudiado por Anderson y Rubin. Véase la Sección 6.9.
Finalmente, el Análisis de Estructuras Covariantes es una
generalización del AF, que unifica este método con otras técnicas
multivariantes (MANOVA, análisis de componentes de la varianza, análisis
de caminos, modelos simplex y circumplexos, etc.). Se supone que la
estructura general para la matriz de covarianzas es
X = B(P0PJ ‡ DX )BJ ‡ ©X .
Otra generalización es el llamado modelo LISREL (Linear Structural
Re- lationship), que permite relacionar un grupo de variables
dependientes V con un grupo de variables independientes X, que
dependen de unas variables latentes a través de un modelo de medida.
Las variables latentes están relacionadas por un modelo de ecuaciones
estructurales. LISREL (Joreskog y Sorbom, fi999) es muy flexible y tiene
muchas aplicaciones (sociología, psi- cología, economía). Véase Satorra
(fi989), Batista y Coenders (£000).
No se debe confundir el análisis de componentes principales (ACP)
con el análisis factorial (AF). El modelo ACP existe siempre y se
escribe X = AF, conteniendo tantas componentes (interpretadas como
factores comunes) como variables originales. El modelo AF es más
restrictivo, se escribe X = AF ‡ DU y contiene m factores comunes y p
factores únicos. El modelo AF no siempre es válido, hay que realizar
un test para decidir si puede aceptarse. El AF se adecúa mejor a las
aplicaciones en Psicología, pues explora dimensiones latentes (factores
comunes) y expresa las variables separando la parte debida a estos
factores y la debida a los factores únicos, que no tienen relación con las
dimensiones latentes.
fi££ CAPÝTULO 6. ANÁLISIS FACTOÆIAL
Capítulo Y
ANÁLISIS CANÓNICO
DE POBLACIONES
Y.1. Imtroduccióm
Con el Análisis de Componentes Principales podemos representar los
individuos de una población, es decir, representar una única matriz de
datos. Pero si tenemos varias matrices de datos, como resultado de
observar las variables sobre varias poblaciones, y lo que queremos es
representar las poblaciones, entonces la técnica adecuada es el Análisis
Canónico de Poblaciones (CANP).
Supongamos que de la observación de p variables cuantitativas Efi, . . . , Ep
sobre g poblaciones obtenemos g matrices de datos
, ,
Xfi nfi × p
XX nX × p
X=. .
, .. ..
,
Xg ng × p
donde Xs es la matriz ns × p de la población s. Sean xJfi ,xJX , . . . los vectores

,xJg
(fila) de las medias de cada población. X es de orden n × p, siendo
ahoraΣ
n = gs=fi n . Indiquemos
s
, ,
xJfi — xJ
. x X .— x.
J J
X= .
, xJg — xJ ,
fi£3
fi£4 CAPÝTULO F. ANÁLISIS CANÓNICO DE POBLACIONES
la matriz g × p con las medias de las g poblaciones. Tenemos dos

maneras de cuantificar matricialmente la dispersión entre las poblaciones:
La matriz de dispersión no ponderada entre grupos

g
J Σ
A =X X = (xs — x)(xs — x)J .
s=fi
La matriz de dispersión ponderada entre grupos

g
Σ
B= ns (xs — x)(xs — x)J .
s=fi
La matriz A es proporcional a una matriz de covarianzas tomando

como datos sólo las medias de las poblaciones. La matriz B participa,
juntamente con W (matriz de dispersión dentro de grupos) en el test de
comparación de medias de g poblaciones. Aquí trabajaremos con la
matriz A, si bien los resultados serían parecidos si utilizáramos la matriz
B. También haremos uso de la matriz de covarianzas (véase (3.£)):
f i g
S= Σ n Ss .s
n — s=fi
g
J
Entonces A =X X juega el papel de matriz de covarianzas ”entre™ las pobla-
ciones, S juega el papel de matriz de covarianzas ”dentro™ de las poblaciones.
Y.2. Variables camómicas

J
Defimicióm Y.2.1 Sean V = [vfi , . . . , vp ] 1os seGtoves pvopsos de A =X X
vespeGto de S GOn sa1oves pvopsos Zfi > · · · > Zp , es deGsv,
Avs = ZsSsvs,
novma1ssados según
vsJ Ss vs = fi.
Gos seGtoves vfi , . . . , vp son 1os seGtoves GanónsGOS 4 1as savsab1es
GanónsGas son 1as savsab1es GOmpuestas
Ys = Xvs.
F.£. VAÆIABLES CANÓNICAS fi£†
Si vs = (vfis , . . . , vps )J y X = [Efi , . . . , Ep ], la variable canónica Ys es

la variable compuesta
Ys = Xvs = vfisEfi ‡ · · · ‡ vpsEp
que tiene S-varianza fi y A—varianza Zs, es decir:
varA (Ys ) = vsJ Avs = Zs , varS (Ys ) = vsJ Ss vs = fi.
Trabajaremos con p variables canónicas, pero de hecho el número efectivo es
h = m´ın(p, g — fi}, ver Sección F.†.3.
Teorema Y.2.1 Gas savsab1es GanónsGas sevsflGan:
f. Son snGOvve1aGsonadas dos a dos vespeGto a A 4 tambsén vespeGto a S
GOsA (Ys , Yj ) = GOsS (Ys , Yj ) = 0 ‹s s ƒ= j.
W. Gas A−savsansas son vespeGtssamente máxsmas:

savA(Yfi) = Zfi > · · · > savA(Yp) = Zp,
en e1 sentsdo de que Yfi es 1a savsab1e GOn máxsma savsansa entve
gvupos, GOndsGsonada a savsansa f dentvo gvupos, YX es 1a savsab1e
GOn máxsma savsansa entve gvupos, GOndsGsonada a estav
snGOvve1aGsonada GOn Yfi 4 tenev savsansa f dentvo gvupos, etG.
Demost.: Supongamos Zfi > · · · > Zp > 0. Probemos que las variables com-
puestas Ys = Xts, s = fi, . . . , p, están incorrelacionadas:
covA (Ys , Yj ) = tJs Atj = tJs SZj tj = Zj tJs Stj ,
covA (Yj , Ys ) = tJj Ats = tJj SZj ts = Zs tJj Sts ,
Restando (Zj — Zs )tJs Stj = 0 → tJs Stj = 0 → covA (Ys , Yj ) = Zj tsJ Stj =
covA (Ys , Yj ) = 0, si s j. Además, de tJs Sts = fi:
Σp varA (YsΣ
) = Zs tJs Sts = Zs .
p
Sea ahora Y = asEs = αsYs una variable compuesta tal que
ΣS p s=fi
X
αs =
s=fi fi. Entonces varA(Y )
va
r (Y ) = Σp es:
s=fi
s=fi . Σ
αsX varXS(YsX)
varA . p α X Σ
= = α
sY sΣ α s Zs ≤ p
vap
p
= Zfi
s s
s=fi r ( s varA(
Σ Σs=fi YAs = Yfi), α
)= fi
Σs=
fi
que prueba que Yfi tiene máxima varianza entre grupos.

Consideremos a continuación las variables Y incorrelacionadas con Y fi,
que podemos expresar como:
Y = Σp ØsYs condicionado a p X
s=X
Σs=XØ =
s
fi.
Entonces varA(Y )
es: Σ
. p ØsYsΣ Σs= Σs= .
Xp Xp p
varA Σ = X
Øs varA(Ys) = X
Øs Zs Σ Ø Xs ZX = varA(YX),
s=X ≤ s=X
y por lo tanto YX está incorrelacionada con Yfi y tiene varianza máxima. La

demostración para Y3, . . . , Yp es análoga. Q
Y.3. Distamcia de Mahalamobis y

tramsforma- cióm camómica
La distancia de Mahalanobis entre dos poblaciones es una medida
natural de la diferencia entre las medias de las poblaciones, pero
teniendo en cuenta las covarianzas. En la Sección fi.9 hemos introducido
la distancia entre los individuos de una misma población. Ahora definimos
la distancia entre dos poblaciones cuando hay más de dos poblaciones.
Defimicióm Y.3.1 Gonssdevemos muestvas mu1tssavsantes de g

pob1aGsones GOn seGtoves de medsas xfi ,xX , . . . ,xg 4 matvss de GOsavsansas
(GOmún) S. Ga dsstanGsa (a1 Guadvado) de Maha1anobss entve 1as
pob1aGsones s, j es
M X (s, j) = (xs — xj )J S—fi (xs — xj ).
Si X es la matriz centrada con los vectores de medias y V = [v fi, . . . , vp]

J
es la matriz con los vectores canónicos (vectores propios de A =X X
respecto de S), la transformación canónica es
V =XV.
La matriz V de orden g × p contiene las coordenadas canónicas de las g

poblaciones.
F.Œ. ÆEPÆESENTACIÓN CANÓNICA fi£F
Teorema Y.3.1 Ga dsstanGsa de Maha1anobss entve Gada pav de

pob1aGsones s, j GOsnGsde GOn 1a dsstanGsa euG1sdea entve 1as fl1as s, j
de 1a matvss de GOOvdenadas GanónsGas V. Ss ¢s = xs V entonGes
dXE(s, j) = (¢s — ¢j )J (¢s — ¢j ) = (xs — xj )J S—fi (xs — xj ).
(F.fi) Demost.: Basta probar que los productos escalares coinciden
¢s ¢jJ J
= xs S—fi xJj →→ XS—fi X = VVJ . (F.£)
J
Sea 2 =diag(Zfi , . . . , Zp ) la matriz diagonal con los valores propios de A =X X
respecto de S. Entonces
AV = SV2 con VJ SV = Fp ,
y la transformación canónica es V =XV.

J J
AV = SV2 es X XV = SV2, luego S—fi X XV = V2 y premultiplican-
J
do por X tenemos XS—fi X XV = XV2, es decir,
J
XS—fi X V = V2.
J
Con lo cual V contiene los vectores propios de XS—fi X , luego cumple
la descomposición espectral
J
XS—fi X = V2VJ
suponiendo V ortogonal. Tomando V2fiƒX que indicamos también por V,

J
obtenemos finalmente XS—fi X = VVJ . Q
Y.4. Æepresemtacióm camómica

La representación de las g poblaciones mediante las filas de X con la
métrica de Mahalanobis es bastante complicada: la dimensión puede ser
grande y los ejes son oblicuos. En cambio, la representación mediante las
coordenadas canónicas V con la métrica euclídea se realiza a lo largo de
ejes ortogonales. Si además, tomamos las m primeras coordenadas
canónicas (usualmente m = X), la representación es totalmente factible y
es óptima en dimensión reducida, en el sentido de que maximiza la
variabilidad geométrica.
Teorema Y.4.1 Ga savsabs1sdad geométvsGa de 1as dsstanGsas de

Maha1anobss entve 1as pob1aGsones es pvopovGsona1 a 1a suma de 1os sa1oves
pvopsos:
g p
fi fi
VM(X) = Σ M (s, j)X = ΣZ. s (F.3)
XgX g
s,j=fi s=fi
Ss V =XV, donde V, de ovden p× m es 1a matvss de 1a

tvansfovmaGsón GanónsGa en dsmenssón m 4
6 X (m) = (¢s — ¢j )(¢s — ¢j )J = Σ(4
m
sh — 4jh )
X
sj h=fi
es 1a dsstanGsa euG1sdea (a1 Guadvado) entve dos fl1as de V, 1a savsabs1sdad

geométvsGa en dsmenssón m ≤ p es
g m
V (V) fi
6 fi
sj
Σ 6X (m) = gΣ Z , s
m= s,j=fi s=fi
4 esta Gantsdad es máxsma entve todas 1as tvansfovmaGsones 1snea1es

possb1es en dsmenssón m.
Demost.: De (†.3) y (F.fi)
g g p
fi fi
VM(X) = Σ M (s, j)X = ΣΣ sh — 4j )X = ‹Xfi‡ · · · ‡ ‹Xp
XgX XgX (4
s,j=fi h=fi h
s,j=fi
donde ‹X Σ
j
= gs=fi 4sjX )/g representa la varianza ordinaria de la columna Yj
de V. Esta( suma de varianzas es
J
tr( fi VJ V) = fi tr(VJ X XV) = fi tr(VJ AV) = fi tr(2)
g g g g
lo que prueba (F.3).

Sea ahora V˜ =XT otra transformación de X tal que TJ ST = F.
[tfi , . . . , tp ], la A-varianza de la primera columna Y˜fi de V˜ es tJfi Atfi ≤
T =Indicando
˜ fi ) = g —fi Y˜ J Yfi = g —fi tJ XJ Xtfi
vfiJ Avfi = Zfi . Es decir, la varianza ordinaria ‹X (Y fi fi
es máxima para Yfi = Xvfi, primera columna de˜V. Análogamente se demues-
tra para las demás columnas (segunda, tercera, etc., coordenadas canónicas).
Tenemos pues:
m m m
V (V˜ )m = Σ ‹X (Y˜ h) = fi Σ var (Y

A˜ h
) ≤ V 6(V) m
fi
= g Σ Z .h Q
6 g
h=fi h=fi h=fi
F.†. ASPECTOS INFEÆENCIALES fi£9
El porcentaje de variabilidad geométrica explicada por las m primeras

coordenadas canónicas es
V
P
(V)m= fi00 Zf i ‡ · · · ‡ Zm
= fi00 .
m
VM (X) Zfi ‡ · · · ‡ Zp
Y.5. Aspectos imferemciales

Supongamos ahora que las matrices de datos Xfi, . . . , Xg provienen
de g poblaciones normales Np(µfi, Xfi), . . . , Np(µg, Xg). Para poder aplicar
correctamente un análisis canónico de poblaciones conviene que los
vectores de medias sean diferentes y que las matrices de covarianzas
sean iguales.
Y.5.1. Comparacióm de medias

El test
HO : µfi = µX = · · · = µg (F.4)
ha sido estudiado en la Sección 3.3.3 y se decide calculando el
estadístico
| | | h = |W / B ‡ W con distribución lambda de Wilks. Si
aceptamos HO las medias de las poblaciones son teóricamente iguales y
el análisis canónico, técnica destinada a representar las medias de las
poblaciones a lo largo de ejes canónicos, no tiene razón de ser. Por lo
tanto, conviene rechazar HO.
Y.5.2. Comparacióm de covariamzas

El test
HOJ : Xfi = XX = · · · = Xg
se resuelve mediante el test de razón de verosimilitud
nfiƒX ngƒX
|Sfi| × · · · × |Sg|
ZR = |S|nƒX ,
donde Ss es la matriz de covarianzas de las datos de la población s,

estimación máximo verosímil de Xs y
S = (nfiSfi ‡ · · · ‡ ngSg)/n = W/n

fi30 CAPÝTULO F. ANÁLISIS CANÓNICO DE POBLACIONES
es la estimación máximo verosímil de X, matriz de covarianzas común bajo

HOJ . Rechazaremos si el estadístico
HOJ
—X log ZR = n log |S| — (nfi log |Sfi| ‡ · · · ‡ ng log |Sg|) ~ Xzq
es significativo, donde q = gp(p ‡ fi)/X— p(p ‡ fi)/X = (g — fi)p(p ‡ fi)/X son

los grados de libertad de la ji-cuadrado. Si rechazamos HOJ , entonces
resulta que no disponemos de unos ejes comunes para representar todas las
poblaciones (la orientación de los ejes viene determinada por la matriz de
covarianzas), y el análisis canónico es teóricamente incorrecto. Conviene
pues aceptar HOJ . Este es el llamado test de Bartlett.
Debido a que el test anterior puede ser sesgado, conviene aplicar la
cor- rección de Box,
s · Σ(n — g) log |S| — (nfi — fi) log |Sfi| — · · · — (ng — fi) log |Sg|)Σ ,
^ ^
^
donde S^ s = [ns/(ns fi)] Ss, ^S es la estimación insesgada de X (común) y la
— s es
constante
. Σ.
XpX ‡ 3p f i f i Σ
s = fi — fi g
.
— 6(p ‡ fi)(g — Σ h=fi n —
fi) g — fi n—
g
Y.5.3. Test de dimemsiomalidad
J
Como el rango de A = X X no puede superar ni la dimensión p ni g — fi,
es obvio que el número efectivo de valores propios es
h = m´ın(p, g — fi}.
Si los vectores de medias poblacionales están en un espacio Rm de

dimen- sión m c h, entonces el espacio canónico tiene dimensión m y por
lo tanto debemos aceptar la hipótesis
HO(m) : Zfi > · · · > Zm > Zm‡fi = · · · = Zh,

J
donde Zfi >· · > Zm son los valores propios de M M (la versión
·
poblacional de A) respecto de X. Si
1fi > · · · > 1h
F.†. ASPECTOS INFEÆENCIALES fi3fi
son los valores propios de B respecto de W (ver Sección 3.3.3), es decir,

soluciones de
|B—1W| = 0,
entonces un test para decidir HO(m) está basado en el estadístico
Σ s=Σm
bm = n — fi — fi (p ‡ ‡fi h log(fi ‡ 1s ) ~ zX ,
Σ X
q
g)
donde q = (p— m)(g — m— fi). Este test asintótico, propuesto por
Bartlett, se aplica secuencialmente: si bO es significativo, estudiaremos bfi¡
si bfi es también significativo, estudiaremos bX, etc. Si bO, . . . , bm—fi son
significativos pero bm no, aceptaremos que la dimensión es m. Obsérvese
que aceptar H(O) equivale a la hipótesis nula de igualdad de Ovectores de
medias (que entonces coincidirían en un punto), es decir, equivale a
aceptar (F.4).
Otros autores utilizan este test independientemente para cada dimensión.
Así, el test HO : Zj = 0 está basado en el estadístico
Σ Σ
sj = n — fi — fi (p ‡ g) log(fi ‡ 1j ) ~ zvX ,
X
donde v = p ‡ g — Xj son los grados de libertad. Rechazaremos HO si sj es

significativo.
Y.5.4. Æegiomes comfidemciales

Sean ¢Js = xJs V,s = fi, . . . , g las proyecciones canónicas de los vectores
de medias muestrales de las poblaciones. Podemos entender ¢s como una
esti- mación de µ×s = µs V, la proyección canónica del vector de medias
poblacional
µs . Øueremos encontrar regiones confidenciales para µ×s , s = fi, . . . , g.
Teorema Y.5.1 Sea fi — α e1 GOeflGsente de GOnflansa, 5α e1 sa1ov ta1
que P (5 > 5α ) = α, donde 5 ssgue 1a dsstvsbuGsón F GOn p —
4 (n g p ‡
fi) g.1. 4 GOnssdevemos:
RX = 5 (n — g)p
α α .
(n — g — p ‡ fi)
EntonGes 1as pvo4eGGsones GanónsGas µ×s de 1os seGtoves de medsas
pob1a− Gsona1es pevteneGen a vegsones GOnfldenGsa1es que son hspevesfevas
(esfevas en dsmenssón h, GsvGu1os en dsmenssón W) de Gentvos 4 vadsos
,
(¢s , Rα / ns ),
donde ns es e1 tamauo muestva1 de 1a pob1aGsón s.
fi3£ CAPÝTULO F. ANÁLISIS CANÓNICO DE POBLACIONES
Demost.: xs —µs es Np(0, X/ns) independiente de W que sigue la distribución

Wp(X, n — g). Por lo tanto
(n — g)ns (xs — µs )J W—fi (xs — µs ) = ns (xs — µs )S—fi (xs — µs )J ~ f X (p, n — g),
y como la distribución de Hotelling equivale a una 5 , tenemos que
(x — µ )J S—fi (x
(n — g)p p
s s s — µ ) ~ n (n — g — p ‡ 5 n—g—p‡fi.
s
Así pues fi)

Σ
Σ Xα
P (xs — µs ) S (xs — µs ) ≤ R = fi — α,
J —fi
ns
que define una región confidencial hiperelíptica para µs con coeficiente de
confianza fi — α. Pero la transformación canónica ¢Js = xJs V convierte a
(xs — µs )J S—fi (xs — µs ) en (¢s — µ×s )J (¢s — µ×s ) y por lo tanto
Σ X
Σ
P (¢s — µ× )J (¢s — µ× ) ≤ R α = fi — α.
s s
ns
Esta transformación convierte además hiperelipses en hiperesferas
(elipses en círculos si la dimensión es £), ya que las variables canónicas
están incorrelacionadas, lo que también es válido si reducimos la
dimensión (tomamos las m primeras coordenadas canónicas). Q
Por ejemplo, si elegimos fi — α = 0,95 y una representación en dimensión
reducida £, cada población vendrá representada por un círculo de centro ¢s
,
y radio RO,O† / ns , de manera que el vector de medias proyectado pertenece
al círculo con coeficiente de confianza 0,95. La separación entre los
centros indicará diferencias, mientras que si dos círculos se solapan, será
un indicio de que las dos poblaciones son posiblemente iguales.
Y.6. Ejemplos
Ejemplo Y.6.1 Go1eóptevos.
Se tienen medidas de † variables biométricas sobre 6 especies de

coleópteros del género fsmavGha encontradas en 8 localidades distintas. Los
datos están disponibles en
http://www.ub.edu/stat/personal/cuadras/escarab.txt
F.6. EJEMPLOS fi33
Figura F.fi: Proyección canónica de cinco poblaciones.
fi. f. ssnustoGO11ss (Campellas, Pirineos) nfi = Œ0.

£. f. ssnustoGO11ss (Planollas, Pirineos) nX = Œ0.
3. f. sndet (vall de Llauset, Pirineos, Osca) n3 = X0.
4. f. monsevvatensss (Collformic, Barcelona) n4 = Œ0.
†. f. monsevvatensss (Collfsuspina, Barcelona) n† = Œ0.
6. f. Gata1aunensss (La Garriga, Barcelona) n6 = Œ0.
F. f. ba1eavsGa (Mahón, Baleares) nF = fi5
8. f. psme1sodes (Palermo, Sicilia) n8 = Œ0
Las medidas (en mm.) son:
Efi= long. prognoto, EX=diam. máximo prognoto, E3= base prognoto,

E4= long. élitros, E† = diam. máximo élitros.
Se quiere estudiar si existen diferencias entre las 8 poblaciones

(localidades) y representarlas mediante la distancia de Mahalanobis. Los
resultados del análisis canónico son:
Matriz de covarianzas común:

S = ,. ,.
, 3,Xtt 3,XŒ9 X,86t 5,55fi Œ,X8fi ,
t,fitŒ 6,X8X 9,Xfi0 t,380
. 6,Xfi0 8,X8X 6,685 .
X0,30 fi3,3Œ
fi3,Xt
Test de Bartlett para homogeneidad de la matriz de covarianzas.

Ji- cuadrado = ££9.£84, con fi0† g.l. Significativo al † %.
Matriz de dispersión entre grupos:
B=
,. 6X68 fifi386 8039 XX9XŒ fitŒfi9
XfiXŒ9 fi53t0 ŒXt95 3X50X ,. ~ W4 (X, t)
fifi5X8 3fi009 X3Œt5 , .
,
Matriz de dispersión dentro de 866X9 656X6
grupos: Œ9890
8tŒ,8 86t,5 t65,Œ fiŒ8X fifiŒX
fi9fi5 fi6tt XŒ59 fi9t0
W = ,. ,. ~ W† (X, X6t)
. fi658 XXfifi fit8Œ .
, 5Œfi9 356X ,
35Œfi
Matriz de dispersión
total: ,. ,
.
tfiŒ3 fiXX53 880Œ XŒŒ0t fi856X
X3fi6Œ fit0Œt Œ5X5Œ 3ŒŒtX
T= . fi3fi86 33XX0 X5X60 .
, 9X0Œ9 69fi89
,
53Œ3X
Test de comparación de medias:
h = |W| / |B ‡ W| = 0,0fi0X ~ h(5, X6t, t) ‹ 5 = 6X,5 (35 y fifi08 g.l.)
Existen diferencias muy significativas.
Transformación canónica, valores propios y porcentaje acumulado:
vf i vX
— 0,0X9X 0,X896
0,5553 0,t0Œ0
—0,6ŒX8 0,93X6
0,fiX59 —0,fi3X6
0,fifiX5 0,0059
Z fi58,6Œ XŒ,53
% 85,03 98,fi8
F.F. COMPLEMENTOS fi3†
Figura F.£: Representación canónica de 8 poblaciones conteniendo datos

bio- métricos de 6 especies de coleópteros, encontrados en 8 localidades
distintas.
De acuerdo con la Figura F.£, las poblaciones fi y £ pertenecen

claramente a la misma especie, así como la 4 y †. Las poblaciones 3 y 6
son especies próximas, mientras que las F y 8 se diferencian mucho de
las otras especies.
Y.Y. Complememtos
El Análisis Canónico de Poblaciones (CANP) fue planteado por M. S.
Bartlett en términos de correlación canónica entre las poblaciones y las
variables observables. C. R. Rao lo relacionó con la distancia de
Mahalanobis y lo estudió como una técnica para representar poblaciones.
Su difusión es debida a Seal (fi964).
Existen diferentes criterios para obtener la región confidencial para las
medias de las poblaciones. Aquí hemos seguido un criterio propuesto por
Cuadras (fi9F4). Una formulación que no supone normalidad es debida a
Krzanowski y Radley (fi989). A menudo los datos no cumplen la condición
de igualdad de las matrices de covarianzas, aunque el CANP es válido si
las matrices muestrales son relativamente semejantes.
En el CANP, y más adelante en el Análisis Discriminante, interviene
la descomposición T = B ‡ W, es decir:
Si los datos provienen de g poblaciones con densidades ƒ s(x), medias y
matrices de covarianzas (µs, Xs) y probabilidades ps, s = fi, . . . , g, es

decir, con densidad
ƒ(x) =pfiƒfi(x) ‡ · · · ‡pgƒg(x),
entonces el vector de medias correspondiente a ƒ es
µ =pfiµfi‡ · · · ‡pgµg,
y la matriz de covarianzas es
g g
X = Σ ps (µs — µ)(µs — µ)J ‡ Σ ps Xs .
s=fi s=fi
Esta descomposición de X es la versión poblacional de T = B ‡ W, y

la versión multivariante de
var(Y ) = E[var[Y |E]] ‡ var[E[Y |E]],
donde Y| E representa la distribución de una variable Y dada E. Véase

Flury (fi99F). Para una versión más general de partición de la variabilidad
en presencia de mixturas, véase Cuadras y Cuadras (£0fifi) y Cuadras y
Salvo (£0fi8b).
Se llama fa1aGsa eGO1ógsGa a las conclusiones equivocadas (sobre
todo al correlacionar dos variables) que resultan de agregar
indebidamente varias poblaciones. Los resultados para las poblaciones
agregadas (por ejemplo, varios países), son distintos de los resultados
para cada población por separado (individuos de un mismo país).
Dadas dos poblaciones Np (µfi , X)
y Np(µX, X), Cuadras y Fortiana (£00fi) prueban que se produce la falacia
ecológica si la dirección principal de los datos es distinta de la dirección del
segmento que une µfi y µX. Se verifica entonces:
(µfi —µX )J X—fi (µfi —µX ) > (µfi —µX )J [diag(X)]—fi (µfi —µX ),
es decir, si la distancia de Mahalanobis es mayor que la distancia de

Pearson. La desigualdad anterior refleja la influencia de las componentes
principales de menor varianza y es parecida a la desigualdad (†.8).
Capítulo 8
ESCALADO
MULTIDIMENSIONAL
(MDS)
8.1. Imtroduccióm
Representar un conjunto finito cuando disponemos de una distancia
entre los elementos del conjunto, consiste en encontrar unos puntos en un
espacio de dimensión reducida, cuyas distancias euclídeas se aproximen
lo mejor posible a las distancias originales.
Sea K = w ( fi, wX, . . . , wn}un conjunto finito con n elementos diferentes,
que abreviadamente indicaremos
K = (fi, X, ..., n}.
Sea 6sj = 6(s, j) una distancia o disimilaridad entre los elementos s, j de
K.
Se habla de dsstanGsa (métrica) cuando se cumplen las tres
condiciones: fi. 6(s, s) = 0 para todo s.

£. 6(s, j) = 6(j, s) ≤ 0 para todo s, j.
3. 6(s, j) ≤ 6(s, h) ‡ 6(j, h) para todo s, j, h (desigualdad triangular).
Si sólo se cumplen las dos primeras condiciones, diremos que 6(s, j)
es
una dsssms1avsdad.
fi3F
fi38 CAPÝTULO 8. ESCALADO MULTIDIMENSIONAL (MDS)
Consideremos entonces la matriz de distancias (o disimilaridades)

,
O = ,. 6fifi 6fiX · · · 6fin
6Xfi 6XX · · · 6Xn . 6
6 = =
6 6(s, j) ≤ = 0.
, . .. .. sj js ss
. . .. ,
6nfi 6nX · · · 6nn
Defimicióm 8.1.1 Dsvemos que O = (6 sj ) es una matvss de dsstanGsas

eu− G1sdeas ss exssten n puntos xfi , . . . , xn c Rp , ssendo
xJs = (ısfi , . . . , ısp ), s = fi, . . . , n,
ta1es
que p
Σ
6Xsj = (ısα — ıjα )X = (xs — xj )J (xs — xj ) (8.fi)
α=fi
Indicaremos las coordenadas de los puntos xfi, . . . , xn, que representan los
elementos fi, . . . , n de K, en forma de matriz
ıfifi ıfiX · · · ıfip

X = ,. .
ıXfi ıXX · · · ıXn ,.
, .. .. . . . .. ,
ınfi ınX · · · ınp
El objetivo del esGa1ado mu1tsdsmenssona1 es encontrar la X más adecuada

a partir de la matriz de distancias O.
8.2. ¿Cuámdo uma distamcia es euclídea?

Sea O(X) = (6Xsj ) la matriz de cuadrados de las distancias. Si la distancia
es euclídea entonces de (8.fi)
6 Xsj = xJs xs ‡ xjJ xj — XxsJ xj .
La matriz de productos internos asociada a O es
G = XXJ .
8. £. ¿CUÁNDO
UNA DISTANCIA ES EUCLÝDEA? fi39
Los elementos de G = (gsj ) son gsj = xJ xj . Relacionando O(X) = (6 X ) con G

s sj
vemos que
O(X) = figJ ‡ gfiJ — XG, (8.£)
donde g =(gfifi , . . . , gnn )J contiene los elementos de la diagonal de G. Sea H
la matriz de centrado (Capítulo fi) y consideremos las matrices A = — fi
O(X) =
fi X X
— X (6sj) y B = HAH.
Teorema 8.2.1 Ga matvss de dsstanGsas O = (6 sj ) es euG1sdea ss 4 só1o ss

B ≤0, es deGsv, 1os sa1oves pvopsos de B son no negatssos.
Demost.: La relación entre B = (bsj) y A = (asj) es
bsj = asj — as· — a·j ‡ a·· ,
donde as. es la media de la columna s de A, a.j es la media de la fila j y a..

es la media de los nX elementos de A. Entonces
bss = —as· — a·s ‡ a·· , bjj = —aj· — a·j ‡ a·· ,
y por lo
tanto X
6 sj = bss ‡ bjj — Xbsj = ass ‡ ajj — Xasj . (8.3)
Supongamos que O es euclídea. Entonces G = XXJ . De (8.£) resulta que
A = —(figJ ‡ gfiJ )/X ‡ G.
Multiplicando ambos lados de A por H, dado que Hfi = 0 y fiJ H = 0J ,

tenemos que
J
B = HAH = HGH = HXXJ H = X X ≤ 0,
lo que prueba que B es semidefinida positiva.
Supongamos ahora que B ≤0. Entonces B = VVJ para alguna matriz
V de orden× n p, es decir, bsj = ¢sJ ¢j , donde ¢sJ es la fila s- ésima de V.
Aplicando (8.3) tenemos
6 Xsj = ¢Js¢s ‡ ¢Jj ¢j — X¢Js¢j = (¢s — ¢j )J (¢s — ¢j ),
que demuestra que O es matriz de distancias euclídeas. Q

8.3. El amálisis de coordemadas primcipales

Hemos visto que si B ≤0, cualquier matriz V tal que B = VVJ
proporciona unas coordenadas cartesianas compatibles con la matriz de
distancias
O. Sea
B = U2UJ
la descomposición espectral de B, donde U es una matriz n×p de vectores
propios ortonormales de B y h es matriz diagonal que contiene los valores
propios ordenados
Zfi ≤ · · · ≤ Zp > Zp‡fi = 0 (8.4)
Obsérvese que Bfi = 0, y por lo tanto Zp‡fi = 0 es también valor propio de
B de vector propio el vector fi de unos. Entonces es evidente que la matriz
n×p
X = U2fiƒX (8.†)
también verifica B = XXJ .
Defimicióm 8.3.1 Ga so1uGsón pov GOOvdenadas pvsnGspa1es es 1a matvss de

GO− ovdenadas (8.†), ta1 que sus GO1umnas Efi , . . . , Ep , que sntevpvetavemos
GOmo savsab1es, son seGtoves pvopsos de B de sa1oves pvopsos (8.$). Gas
GOOvdenadas de1 e1emento s c K son
xJs = (ısfi , . . . , ısp ),
donde xs es 1a fl1a s−éssma de X. ÆeGsben e1 nombve de GOOvdenadas
pvsnGspa1es 4 Gump1en (8.f).
La solución por coordenadas principales goza de importantes propiedades.

En las aplicaciones prácticas, se toman las m c p primeras coordenadas
principales a fin de representar K. Por ejemplo, si m = X, las dos primeras
coordenadas de X proporcionan una representación a lo largo de los ejes
Efi y EX :
Efi EX
fi ıfifi ıfiX
X ıXfi ıXX
. . .
n ınfi ınX
8.S. EL ANÁLISIS DE COOÆDENADAS PÆINCIPALES fi4fi
Propiedades:
fi. Las variables Eh (columnas de X) tienen media 0.
Efi = · · · = Ep = 0
Demost.: fi es vector propio de B ortogonal a cada E h, por lo tanto

E h = nfi (fiJ Eh ) = 0.
£. Las varianzas son proporcionales a los valores propios

‹X = fi Zh, h = fi, . . . , p
h n
fi fi
Demost.: La varianza es E hJ E h = Zh .
n n
3. Las variables están incorrelacionadas
cor(Eh , Eht ) = 0, h ƒ= h J = fi, . . . , p.
Demost.: Como las medias son nulas, la covarianza es

fi J
cov(Eh , Eht ) = n Eh Eht = 0,
pues los vectores propios de B son ortogonales.

4. Las variables Eh son componentes principales de cualquier matriz de
datos X tal que las distancias euclídeas entre sus filas concuerden
con O.
Demost.: Supongamos X matriz de datos centrada. Tenemos que
B = XXJ = XXJ .
La matriz de covarianzas de X es
fi
S = XJ X = TDT J,
n
donde D es diagonal y T es la matriz ortogonal de la transformación
en componentes principales. Entonces:
XJ X = nTDTJ ,
XXJ X = nXTDT,J
BXT = XTnD,
fi4£ CAPÝTULO 8. ESCALADO MULTIDIMENSIONAL (MDS)
y por lo tanto XT es matriz de vectores propios de B con valores

propios los elementos diagonales de nD, lo que implica X = XT. En
consecuencia la matriz de coordenadas principales X coincide con la
transformación por componentes principales de la matriz X, véase
(†.fi).
†. La variabilidad geométrica de O es
fi
Σ
n fi Σ
p
V 6(X) = X = Z. (8.6)
XnX sj h
6
s,j=fi n h=fi
6. La variabilidad geométrica en dimensión m es máxima cuando

tomamos las m primeras coordenadas principales. Es decir,
n n m m
V (X) fi fi sh
fi
6 m=
sj
Σ 6X (m) = XnX Σ Σ — ıjh )X = n Σ Z h
XnX s,j=fi (ı
s,j=fi h=fi h=fi
es máximo.
Demost.: Sea ıfi, ..., ın una muestra con media ı = 0 y varianza ‹X. Se
verifica entonces que ‹X es:
n n n
fi . n
fi
Σ ıXs ‡ ıX — X sΣ,j ıs ıj Σ
j
XnX (ı X
s — ıj ) =
sΣ,j XnX s,j=fi sΣ,j
n
=fi n =fi =fi
= fi Σnj Σns=
=fi fi Σn
XnX X
ıs ‡ n X
ı —X ıs ıjΣ .
. Σs=fi j
sj=fi
Σp
Luego V 6(X) = h=fi
‹Xh.
Hemos demostrado que para cualquier matriz X tal que B = XXJ ,
la suma de las varianzas de las columnas de X es igual a la
variabilidad geométrica. Si en particular tenemos las coordenadas
principales, esta suma de varianzas es la suma de los valores
propios dividida por n, y puesto que las columnas son componentes
principales, sus varianzas son respectivamente máximas.
El porcentaje de variabilidad explicada por los m primeros ejes
principales es la proporción de variabilidad geométrica
V 6(X)m Σm
Σ h=fi Zh
Pm = fi00 (X)= fi00 p .
V6 h=fi Zh
8.Œ. SIMILAÆIDADES fi43
La representación es óptima, pues al ser B = XXJ , si tomamos las

m primeras coordenadas principales Xm , entonces estamos aproximando B
por B× = Xm XJm , en el sentido que tr(B — B× ) =mínimo. Véase (fi.6).
Ejemplo. Consideremos K = (fi, X, 3, Œ, 5 y la matriz de distancias (al
cuadrado): }
fi £ 3 4 †
fi 0 ££6 fi04 34 fi0fi
£ 0 £6 fi04 £9
3 0 £6 9
4 0 4fi
† 0
Los valores propios de B son Zfi = fi30, ZX = fi0, Z3 = Z4 = Z† = 0. Por

lo tanto O es matriz de distancias euclídeas y K se puede representar en
un espacio de dimensión £. Las coordenadas principales son las
columnas Efi, EX de:
Efi EX fi
fi —8 —fi fi
£ t 0 fi
3 X fi fi
4 —3 X fi
† X —X fi
Z fi30 fi0 0
ı 0 0 fi
‹ X X6 X 0
8.4. Similaridades
En ciertas aplicaciones, especialmente en Biología y Psicología, en
lugar de una distancia, lo que se mide es el grado de similaridad entre
cada par de individuos.
Una similaridad ‹ sobre un conjunto finito K es una aplicación de
×K K
en R tal que:
‹(s, s) ≤ ‹(s, j) = ‹(j, s) ≤ 0.
La matriz de similaridades entre los elementos de K es

, ,
‹fifi ‹fiX ... ‹fin
. ‹Xfi ‹XX ... ‹Xn .
S= . .
, . . . . . . .. ,
.
‹nfi ‹nX ... ‹nn
donde ‹sj = ‹(s, j).
Supongamos que tenemos p variables binarias Efi, EX, ...Ep, donde
cada Es toma los valores 0 ó fi. Para cada par de individuos (s, j)
consideremos la tabla
j
fi 0
s fi a b
0 s d
donde a, b, s, d las frecuencias de (fi,fi), (fi,0), (0,fi) y (0,0),
respectivamente, con p = a ‡ b ‡ s ‡ d. Un coeficiente de similaridad
debería ser función de a, b, s, d. Son conocidos los coeficientes de
similaridad:
a‡d
‹sj = (Sokal-Michener)
p
(8.F)
a
‹sj = (Jaccard)
a‡b‡s
que verifican: ‹ss = fi ≤ ‹sj = ‹js ≤ 0.
Podemos transformar una similaridad en distancia aplicando la fórmula
X
dsj = ‹ss ‡ ‹jj — X‹sj. (8.8)
Entonces la matriz A = —(dX )/X es
sj
fi
A = — (Sf ‡ — XS),
X Sf
J
donde Sf tiene todas sus filas iguales, y como HSf = SJf H = 0, resulta que
B = HAH = HSH.
Por lo tanto:
fi. Si S es matriz (semi)definida positiva, la distancia d sj es euclídea.
£. rango(HSH) = rango(S) — fi.
3. Las coordenadas principales se obtienen diagonalizando HSH.
8.†. NOCIONES DE MDS NO MNTÆICO fi4†
8.5. Nociomes de MDS mo métrico

Supongamos que la matriz de distancias O es no euclídea. Entonces
la matriz B (Teorema 8.£.fi) tiene valores propios negativos:
Zfi ≤ · · · ≤ Zp > 0 > Zp‡fi ≤ · · · ≤ Zpt .
El fundamento del MDS no métrico es transformar las distancias 6sj

para convertirlas en euclídeas, pero conservando las relaciones de proximidad
entre los elementos del conjunto K.
Defimicióm 8.5.1 Ga pveovdenaGsón asoGsada a 1a matvss de dsstanGsas O

es 1a ovdenaGsón de 1as m = n(n — fi)/X dsstanGsas:
6 sfi jfi ≤ 6 s2 j2 ≤ · · · ≤ 6 sm jm .
(8.9) La preordenación es, de hecho, una propiedad asociada a K, es
decir,
podemos escribir
(sfi , jfi ) ≤ (sX , jX ) ≤ · · · ≤ (sm , jm ), (sh , jh ) c K × K,
donde
(s, j) ≤ (sJ , j J ) si 6 sj ≤ 6 st j t .
Se trata de representar K en un espacio que conserve la preordenación.
Por ejemplo, si consideramos las tres matrices de distancias sobre
{A,B,C,D}:
A B C D A B C D A B C D
A 0 fi £ 3 0 fi fi fi 0 fi fi fi
B 0 fi £ 0 fi fi 0 fi fi
C 0 fi 0 0 0 fi
D 0 0 0
las preordenaciones se pueden representar en fi, £ ó 3 dimensiones

(Figura 8.fi), respectivamente.
Si transformamos la distancia 6 sj en ^6 sj = Q(6 sj ), donde Q es una función

positiva creciente, es evidente que^6 sj tiene la misma preordenación (8.9),
y por lo tanto, individuos próximos (alejados) según 6 sj estarán también
pró-
ximos (alejados) con respecto a ^6 sj . Si además ^6 sj es euclídea, tendremos la
Figura 8.fi: Representación de 4 objetos conservando las preordenaciones

relacionadas a tres matrices de distancias.
posibilidad de representar K, aplicando, por ejemplo, un análisis de

coordenadas principales sobre la distancia transformada, pero
conservando (aproximadamente) la preordenación. En general, la
función Q no es lineal, y se obtiene por regresión monótona. Hay dos
casos especialmente simples.
Defimicióm 8.5.2 Ga tvansfovmaGsón q−adstssa de 6 sj se deflne GOmo
^6 = . X
sj — Xa ss s ƒ= j
sj
X
6 0 ss s = j
donde a c 0 es una GOnstante. Ga tvansfovmaGsón adstssa se deflne GOmo
.
^6 sj 6sj ‡ s ss s = j
= 0 ss s = j
ƒ
donde s > 0 es una GOnstante.
Es evidente que las dos transformaciones aditiva y q-aditiva conservan
la preordenación de la distancia. Probemos ahora que la primera puede
dar lugar a una distancia euclídea.
Teorema 8.5.1 Sea O una matvss de dsstanGsas no euG1sdeas 4 sea Zpt c 0
e1 menov sa1ov pvopso de B. EntonGes 1a tvansfovmaGsón q−adstssa
pvopovGsona una dsstanGsa euG1sdea pava todo a ta1 que a ≤ Zpt .
Demost.: Sea O^ = (^6 sj ) la matriz de distancias transformadas. Las matrices

A, B y A^ ,B^ (ver Teorema 8.£.fi) verifican
A^ = A—a(F — J), B^ = B—aH.

8. †. NOCIONES
DE MDS NO MNTÆICO fi4F
Sea v vector propio de B de valor propio Zƒ = 0. Entonces Hv = v y por

lo tanto
^
Así Bv = (B—aH)v = (Z — a)v.
B^ tiene los mismos vectores propios que B, pero los valores propios son
Zfi — a ≤ · · · ≤ Zp — a > 0 > Zp‡fi — a ≤ · · · ≤ Zpt — a,
que son no negativos si a ≤ Zpt , en cuyo caso B^ es semidefinida positiva. Q

La mejor transformación q-aditiva es la que menos distorsiona la distancia
original. De acuerdo con este criterio, el mejor valor para la constante es
a = Zpt .
Las transformaciones aditiva y no lineal son más complicadas y no las
incluimos en este texto. De hecho, los programas de MDS operan con
transformaciones no lineales, siguiendo criterios de minimización de una
función que mide la discrepancia entre la distancia original y la
transformada. Por ejemplo, el método de Kruskal consiste en:
fi. Fijar una dimensión euclídea p.

^
£. Transformar la distancia 6 sj en la ”disparidad™ 6 sj = Q(6 sj ),
donde Q es una función monótona creciente. Las disparidades
conservan la preordenación de las distancias.
3. Ajustar una distancia euclídea dsj a las disparidades^6sj de manera

que minimice Σ
(dsj — 6sj)X.
s@j
^
4. Asociar a las distancias dsj una configuración euclídea p-
dimensional, y representar los n objetos a partir de las coordenadas
de la configuración.
Para saber si la representación obtenida refleja bien las distancias

entre los objetos, se calcula la cantidad
Σ
‚., s@j (dsj — ^6 sj )X
S= d X,
sj
(8.fi0)
Σs@j
denominada ”stress™, que verifica 0≤ S ≤ fi, pero se expresa en forma
de porcentaje. La representación es considerada buena si S no supera el
† %.
También es conveniente obtener el diagrama de Sheppard, que consiste

en representar los n(n
— fi)/X puntos (6 sj , dsj ). Si los puntos dibujan una
curva creciente, la representación es buena, porque entonces se puede
decir que conserva bien la preordenación (Figura 8.4).
8.6. Distamcias estadísticas

En esta sección discutiremos algunos modelos de distancias estadísticas.
8.6.1. Variables cuamtitativas

Siendo x = (ıfi , ıX , . . . , ıp ), ¢ = (4fi , 4X , . . . , 4p ) dos puntos de Rp . La
distancia de Minkowsky se define como
. p Σfiƒq
dq(x, ¢) = Σ |ıs — 4s| q ,
s=fi
Casos particulares de la distancia dq son:
fi. Distancia ”ciudad™:

p
Σ
dfi (x, ¢) = |ıs — 4s |
s=fi
£. Distancia
euclídea:
‚. p
dX(x, ¢) = , (ıs — 4s )X
Σs=fi
3. Distancia ”dominante™:
d(|(x,—¢) =
|}œma´x ıs 4s
fi≤s≤p
Tienen también interés en las aplicaciones, la distancia normalizada por

el rango Rs de la variable s
fi p |ıs — 4s |
dG (x, ¢) = Σ ,
p s=fi
Rs
8.6. DISTANCIAS ESTADÝSTICAS fi49
y, cuando los valores de las variables son positivos, la métrica de Canberra
fi p |ıs — 4s |
dC (x, ¢) = Σ.
s=fi
ı p
s ‡ s
4
dG y dC son invariantes por cambios de escala.
Supongamos ahora dos poblaciones Kfi, KX con vectores de medias
µfi, µX y matrices de covarianzas Xfi, XX. Cuando Xfi = XX = X, la distancia
de Mahalanobis entre poblaciones es
M X (Kfi , KX ) = (µfi — µX )J X—fi (µfi — µX )
Esta distancia, ya introducida previamente, es invariante por cambios de

escala y tiene en cuenta la correlación entre las variables. Además, si Mp,
Mq y Mp‡q indican las distancias basada en p, q, p‡ q variables,
respectivamente, se verifica:
a) MXp ≤ Mp‡q .
b) M = M X ‡M X si los dos grupos de p y q variables son independientes.
p‡q p q
No resulta fácil dar una definición de distancia cuando X fi =ƒXX. Una
definición de compromiso es
Σ Σ—fi
fi
(µfi — µX )J fi ‡X) — µ ).
X
(X (µ X fi X
8.6.2. Variables bimarias

Cuando todas las variables son binarias (toman solamente los valores
0 y fi), entonces conviene definir un coeficiente de similaridad (Sección
8.4) y aplicar (8.8) para obtener una distancia. Existen muchas maneras
de definir una similaridad ‹sj en función del peso que se quiera dar a los
a, b, s, d.
Por ejemplo:
a
‹sj = (Sokal-Sneath)
a ‡ X(b ‡ s)
Xa (8.fifi)
‹sj = (Dice)
(a ‡ b)(a ‡ s)
Las similaridades definidas en (8.F) y (8.fifi) proporcionan distancias eu-
clídeas.
fi†0 CAPÝTULO 8. ESCALADO MULTIDIMENSIONAL (MDS)
8.6.3. Variables categóricas

Supongamos que las observaciones pueden ser clasificadas en h cate-
gorías
Σh excluyentes Afi, . . . , Ah, con probabilidades p = (pfi, . . . , ph), donde
h=f h = fi. Podemos definir distancias entre individuos y entre pobla-
p
i
ciones.
fi. Entre individuos. Si dos individuos s, j tienen las categorías Ah, Aht ,
respectivamente, una distancia (al cuadrado) entre s, j es:
.
X 0 si h = hJ ,
d (s, j) = si h ƒ= hJ .
h h t
p—fi ‡ p —fi
Teniendo en cuenta la g-inversa C p =diag(p—fi fih, . . . , p—fi ) de la
—
matriz de covarianzas, es fácil ver que dX(s, j) es una distancia tipo

Mahalanobis. Si hay varios conjuntos de variables categóricas, con
un total de K categorías o estados, un coeficiente de similaridad es
α/K (”matching coefficient™), donde α es el número de coincidencias.
£. Entre poblaciones. Si tenemos dos poblaciones representadas por
p = (pfi, . . . , ph), q = (qfi, . . . , qh),
dos distancias entre poblaciones son:

Σh
daX (p, q) = X s=fi (ps — qs )X /(ps ‡ qs ),
Σh ,
s=fi
db (p, q) = arc cox( ps qs ).
La primera es la distancia (al cuadrado) de Bhattachariyya, y se
justifica considerando p y q como los vectores de medias de dos
poblaciones multinomiales con n = fi (Sección £.F). Las g-inversas
(Sección fi.fi0) de las matrices de covarianzas son
C—p = diag(p—fi fi , . . . , p—fi ), C—q = diag(qfi—fi , . . . , q —fi ).
h h
Se obtiene daX(p, q) tomando el promedio de ambas matrices g-inversas y

aplicando la distancia de Mahalanobis. , ,
La distancia db (p, q) se justifica situando los puntos ( pfi , . . . , ph ) y
, ,
( qfi , . . . , qh ) sobre una hiperesfera de radio unidad y hallando la distancia
geodésica. Véase la distancia de Rao.
8.6. DISTANCIAS ESTADÝSTICAS fi†fi
8.6.4. Variables mixtas

En las aplicaciones a menudo los datos provienen de las
observaciones de pfi variables cuantitativas, pX variables dicotómicas (dos
estados: presente, ausente) y p3 variables categóricas o cualitativas (más
de dos estados). Un coeficiente de similaridad (propuesto por Gower,
fi9Ffi) es Σ
pfi
h=fi (fi — |ısh — ıjh|/Rh) ‡ a ‡ α
‹sj = , (8.fi£)
pfi ‡ (pX — d) ‡ p3
donde Rh es el rango de la variable cuantitativa Eh, a y d son el número
de dobles presencias y dobles ausencias de las variables dicotómicas, y α
es el número de coincidencias entre las variables categóricas. Si
solamente hay variables dicotómicas o variables categóricas, ‹sj reduce la
similaridad normalizada por el rango, al coeficiente de Jaccard o al
”matching coefficient™, respectivamente:
fi pfi Σph=fi |ıh — 4h|/Rh

fi
fi
si pX = p3 = 0,
—
a/(a ‡ b ‡ s) si pfi = p3 = 0,
α/p3 si pfi = pX = 0.
Este coeficiente verifica 0≤ ‹sj ≤ fi, y aplicando (8.8) se obtiene una

distancia euclídea que además admite la posibilidad de datos faltantes.
8.6.5. Otras distamcias

Existen muchos procedimientos para definir distancias, en función de
los datos y el problema experimental. Veamos dos.
Modelo de Thurstome
Supongamos que queremos ordenar n estímulos w fi, . . . , wn (por ejemplo,
n productos comerciales)
wsfi ≤ · · · ≤ wsn
según una escala de preferencias 8sfi ≤ · · · ≤ 8sn , donde los 8s son
parámetros. Sea psj la proporción de individuos de la población que
prefieren w j sobre ws . Un modelo es∫
fi 8 —8
2
j s
psj = , e—t ƒXdt.

—œ
Xv
fi†£ CAPÝTULO 8. ESCALADO MULTIDIMENSIONAL (MDS)
Si más de la mitad de los individuos prefieren wj sobre ws , entonces 8s c 8j .

Así:
a) psj c 0,5 implica 8s > 8j ,
b) psj = 0,5 implica 8s = 8j ,
c) psj > 0,5 implica 8s c 8j .
La estimación de los parámetros a partir de las proporciones psj es

complicada. Alternativamente, teniendo en cuenta que psj ‡ pjs = fi
podemos definir la distancia entre estímulos
d(w s , w j ) = |psj — 0,5|
y aplicar un MDS sobre la matriz (d(ws , w j )). La representación de los

estí- mulos a lo largo de la primera dimensión nos proporciona una
solución a la ordenación de los estímulos.
Distamcia de Æao
Sea S8 = (ƒ(x, 8), 8 c ©} un modelo estadístico y x(8) = 686 log ƒ(x, 8)
un vector columna. La matriz de información de Fisher 5 (8) es la matriz
de covarianzas de x. Sean 8a, 8b dos valores de los parámetros. Una
distancia tipo Mahalanobis sería el valor esperado de
(x(8a ) — x(8b ))J 5 (8)—fi (x(8 a ) — x(8 b )).
Pero x depende de x y 8 varía entre 8a, 8b. Consideremos entonces a 5

(8) como un tensor métrico sobre la variedad diferenciable S8. La distancia
de Rao entre 8a, 8b es la distancia geodésica entre los puntos
correspondientes de S8. La distancia de Rao es invariante por
transformaciones de las variables y de los parámetros, generaliza la
distancia de Mahalanobis y tiene aplicaciones en estadística matemática.
Veamos tres ejemplos.
fi. Distribución de Poisson: ƒ (ı, Z) = e—ı Zı /ı!, ı = 0, fi, X, . . . . La

distancia entre dos valores Za, Zb es:
O(Za, Zb) = X .√Za — √Zb. .
8.F. EJEMPLOS fi†3
£. Distribución multinomial. La distancia entre p = (p fi, . . . , ph) y q =

(qfi, . . . , qh) es:
h
Σ,
O(p, q) = arc cox( ps qs ).
s=fi
3. Distribución normal. Si X es fija, la distancia (al cuadrado) entre dos

vectores de medias es:
OX (Kfi , KX ) = (µfi — µX )J X—fi (µfi — µX ).
Finalmente, para un valor fijo de 8, podemos definir la distancia entre

dos observaciones xfi, xX que dan xs(8) =68 log ƒ(xs, 8), s = fi, X, como
6
(xfi (8) — xX (8))J 5 (8)—fi (xfi (8) — xX (8)).
8.Y. Ejemplos
Ejemplo 8.Y.1 Hevvamsentas pvehsstóvsGas.
Un arqueólogo encontró † herramientas cortantes A,B,C,D,E y una vez

examinadas, comprobó que estaban hechas de piedra, bronce y hierro,
con- forme a la siguiente matriz de incidencias:
Piedra Bronce Hierro

A 0 fi 0
B fi fi 0
C 0 fi fi
D 0 0 fi
E fi 0 0
Utilizando la similaridad de Jaccard (8.F), obtenemos la matriz de similari-

dades:
A B C D E
A fi fi/£ fi/£ 0 0
B fi fi/3 0 fi/£
C fi fi/£ 0
D fi 0
E fi
Figura 8.£: Representación mediante análisis de coordenadas principales de

† herramientas prehistóricas. Se aprecia una ordenación temporal.
Los resultados del análisis de coordenadas principales son:

A 0,0000 0,68Œfi —0,3ŒŒ6
B 0,Œ8XX 0,fit8t 0,X968
C —0,Œ8XX 0,fit8t 0,X968
D —0,669fi —0,5X0t —0,fiXŒ5
E 0,669fi —0,5X0t —0,fiXŒ5
valor propio fi,360 fi,0tŒ 0,3X58
porc. acum. ŒŒ,36 t9,39 90,0fi
La representación (Figura 8.£) explica el 80 % de la variabilidad
geométri- ca. Las herramientas quedan ordenadas según su antigüedad:
E es la más antigua (sólo contiene piedra) y D la más moderna (sólo
contiene hierro).
Ejemplo 8.Y.2 Dvosophs1a.
Una distancia genética es una medida que cuantifica las proximidades
entre dos poblaciones a partir de las proporciones génicas. Por ejemplo,
si existen h ordenaciones cromosómicas que se presentan en las
proporciones (pfi, . . . , ph), (qfi, . . . , qh). Si hay v cromosomas, una
distancia adecuada es
h
fi Σ
|ps —qs|.
Xv s=fi
8.F. EJEMPLOS fi††
Dro Dal Gro Fon Vie Zur HueBar For For Etn Fru The Sil Tra Cha Ora Aga Las
D4oBA 0
DALKE .30F 0
s4oNx .fi†£.£F6 0
roNTA .£Ffi.££†.fi†0 0
vxENA .£60.3F0.fi8F.fi9† 0
xw4xr .£3†.300.fifi£.fi£0.fi£8 0
mwELVA .F8£.6†F.69†.†80.†40.6£3 0
BA4rE .6fi†.46†.†£9.4fi£.469.44†.£†9 0
ro4Nx .F80.6†F.693.60F.606.609.3F3.309 0
ro4Es .8F9.F90.80fi.F64.F60.F6fi.396.490.4†£ 0
ETNA .94fi.846.8F3.8fi3.8fi8.8fiF.4fi4.†£4.4†fi.fiFF 0
r4wsK .†60.†0†.4F0.44£.34£.39fi.†FF.460.†0fi.68fi.696 0
TmEss .668.†4†.†9£.†fi4.434.†00.†0£.39£.363.†90.630.3fi† 0
sxLxr .F63.643.680.†84.†8fi.6fi0.4fi4.3†F.4fi3.646.66F.†44.340 0
T4ABx .F†fi.6fi9.6F†.†8£.†fi9.†8F.4fi8.34£.399.†8F.648.439.£69.£86 0
rmALw .F09.489.636.†48.†3fi.†49.†9†.489.†fi4.63†.649.444.408.†F4.438 0
o4ANsE .94F.86F.864.F8£.83F.F9†.†F3.†F4.†68.†fi9.†3†.F8£.F33.696.698.F60 0
AsADx .9£F.834.844.803.F89.F9£.4£8.498.48†.3£9.303.666.66fi.64£.63fi.Ffi0.3£fi 0
LAsME .93fi.699.846.F49.80£.F9£.404.48†.4£9.380.£†3.6†9.†66.604.††fi.460.6fi†.430 0
Tabla 8.fi: Distancias genéticas respecto a las ordenaciones

cromosómicas entre fi9 poblaciones de D. SubosGuva.
Esta distancia genética fue propuesta por A. Prevosti. La Tabla 8.fi

contiene la s distancias entre n = fi9 poblaciones de Dvosophs1a
SubosGuva que provienen de:
Droback, Dalkeith, Groningen, Fontaineblau, Viena, Zurich, Huelva,

Barcelona, Fornia, Foresta, Etna, Fruska-Gora, Thessaloniki, Silifke,
Trabzon, Chalus, Orangerie, Agadir y Las Mercedes.
Aplicando un MDS no métrico, se obtiene la representación de las fi9

poblaciones (Fig. 8.3), con un ”stress™ de £.84, que indica que la
repre- sentación es buena. La Fig. 8.4 representa las distancias versus las
disparidades, indicando una buena preordenación.
Figura 8.3: Representación MDS de fi9 poblaciones de D. SubobsGuva

respecto a las distancias genéticas entre ordenaciones cromosómicas.
Figura 8.4: Representación de las distancias genéticas vs las disparidades.

8.F. EJEMPLOS fi†F
B a j C or D im M en Peq E no Inm Vol A lt D el E le F in Lar A nc A ng E st G ra G ru P ro H ue D en Pes

Lig B a jo 0 £.30 £.3 £ £.3 £ fi .†£ 3 .† 0 3 .43 3 .38 3 .F fi 3 .33 3 .† F 3 .3 fi 3 .3 fi 3 .fi F £.8 F 3 .fi 4 3 .38 £.88 3 .0 F 3 .
4 fi 3 .43 3 .3 † 3 .£ F C orto 60 0 fi .94 £.06 fi .46 3 .† 4 3 .64 3 .46 3 .† 3 £.98 3 .† fi £.8 F 3 .† fi 3 .£ 4 £.8 † £.6 £ 3 .46 3 .£
3 3 .3 F 3 .£ 4 3 .fi 4 3 .£† £.93 D im inuto F 4 F 0 0 fi .fi 0 0 .93 3 .6 F 3 .F£ 3 .† 4 3 .60 £.38 3 .48 fi .86 3 .44 3 .4 fi
£.44 £.fi 3 3 .† 6 3 .† 3 3 .† 0 3 .34 3 .£ 3 3 .† 6 £.34
M enudo £ 9 F 6 4 £ 0 fi .0 fi 3 .F 3 3 .† 6 3 .† 8 3 .3 F fi .83 3 .4 £ fi .F fi 3 .£ 4 3 .40 £.80 £.£ 6 3 .† 0 3 .34 3 .4 F 3 .36 3 .30 3 .£ 4 fi .8 †
Pequenc F 0 6 £ fi 6 39 0 3 .F 4 3 .F£ 3 .† 6 3 .6 fi £.Ffi 3 .3 F £.£ 3 3 .44 3 .£ 6 £.£ 0 £.08 3 .F£ 3 .34 3 .4 fi 3 .36 3
.£ 0 3 .40 £.£†
E norm e 90 90 8 F 89 8 F 0 0 .3 F 0 .9 F fi .9 fi 3 .43 fi .96 3 .4 F fi .9 £ £.4 F 3 .43 3 .4 fi 0 .90 £.F£ £.64 3 .43
£.94 £.3 fi 3 .43
Inm enso 90 90 88 90 88 ££ 0 fi .60 £.0 £ 3 .43 £.fi 0 3 .40 £.£ 8 £.fi 8 3 .† 6 3 .46 fi .fi 4 £.F 0 £.4 fi 3 .£† 3 .0 †
£.6 † 3 .48
Volum inoso 89 89 89 8 F 89 66 63 0 £.F£ 3 .6 fi £.4 † 3 .60 £.94 £.3 † 3 .48 3 .†£ fi .30 fi .8 £ 3 .0 £ 3 .4 £ £.†† £.£
F 3 .4 F
A lto 80 84 88 89 8 F 8 † 83 8 F 0 3 .04 0 .8 £ 3 .fi † £.63 3 .£ 3 3 .36 3 .£ fi fi .83 3 .fi 8 £.96 3 .48 3 .££
£.98 3 .4 fi
D elgado 83 80 80 64 80 90 90 89 83 0 £.9 F fi .fi † £.F 6 3 .48 fi .6 £ fi .38 3 .3 £ 3 .63 3 .3 £ 3 .38 3 .36 3
.† fi £.4 F
E levado 84 8 F 88 89 88 84 84 86 fi F 8 † 0 3 .fi £ £.60 3 .£ 0 3 .36 3 .£† £.00 3 .£ F 3 .fi 3 3 .46 3 .34 3 .£
4 3 .£ F
F ino 84 8 fi F 4 † 3 F† 90 90 89 83 £ fi 86 0 £.83 3 .40 fi .96 £.0 fi 3 .3 † 3 .6 £ 3 .4 fi 3 .38 3 .£ 6 3 .4 † £.0 £
Largo 84 80 89 89 88 8 F 8 † 8 † F 4 F 9 F† 8 F 0 3 .£ 4 3 .04 3 .08 £.46 3 .3 F £.80 3 .4 £ 3 .£ 8 3 .3
£ 3 .4 fi
A ncho 8 † 83 89 89 88 86 84 F 6 8 £ 83 84 8 F F 3 0 3 .48 3 .† 3 fi .03 £.F 6 £.8 £ 3 .£ F £.9 F 3 .fi 8
3 .3 £
A ngosto 8 £ F 4 FF F 8 F 9 90 89 88 8 † † 3 86 † 8 8 £ 84 0 0 .68 3 .33 3 .†† 3 .3 F 3 .34 3 .£ fi 3 .38 £.9 fi
E strecho 8 fi F 4 8 £ 8 fi 84 89 90 89 8 † † 4 8 † 63 8 fi 83 £ 3 0 fi .9 † fi .94 3 .£ 6 3 .44 £.80 £.3 † 3 .3 fi
G rande 8 F 88 84 86 8 £ 3 F 49 6 £ FF 8 F F 8 88 83 80 89 89 0 £.8 † £.8 fi 3 .46 3 .fi fi 3 .fi 0 3
.40
G rueso 8 F 86 89 86 8 F 8 fi 86 64 8 † 8 £ 86 86 84 63 8 F 86 F£ 0 3 .£ 3 3 .36 £.44 £.3 † 3 .4 F
P rofundo 8 £ 86 89 88 89 86 86 83 8 F 88 86 89 8 F 8 † 8 † 86 8 F 8 † 0 £.† F £.FF 3 .£ 3 3 .43
H ueco 8 £ 83 88 89 88 90 90 88 8 F 8 † 84 8 F 8 † 86 84 84 88 8 F 66 0 3 .33 3 .4 fi £.84
D enso 89 89 89 8 F 89 8 F 86 FF 88 8 F 89 88 8 F 8 £ 89 88 8 † F£ F 9 8 F 0 3 .3 † 3 .48
Pesado 90 90 90 89 90 88 88 F† 8 F 89 89 89 88 84 90 90 8 † † 8 89 90 † 6 0 3 .† fi
Ligero 86 8 F 83 69 83 90 90 90 89 F£ 89 F fi 90 90 83 80 90 89 90 8 F 84 8 fi 0
Tabla 8.£: Distancias entre £3 adjetivos del idioma castellano.
Ejemplo 8.Y.3 Adjetssos.
La Tabla 8.£ proporciona las distancias entre £3 adjetivos del
castellano: Bajo, Corto, Diminuto, Menudo, Pequeno, Enorme,
Inmenso,
Voluminoso, Alto, Delgado, Elevado, Fino, Largo, Ancho, Angosto,
Estrecho, Grande, Grueso, Profundo, Hueco, Denso, Pesado,
Ligero.
Las distancias se obtienen de dos maneras:
a) Cada distancia dsj es la media sobre 90 individuos que puntuaron la

disimilaridad entre cada par de adjetivos s, j, desde 0 (muy parecido)
hasta 4 (totalmente diferente). Se indica en la mitad superior
derecha de la tabla.
b) Los 90 individuos agrupaban los adjetivos en grupos. Cada similaridad

‹sj es el número de veces que los adjetivos s, j estaban en el mismo
grupo y la distancia es 90—‹sj. Se indica en la mitad inferior izquierda
de la tabla.
Aplicamos MDS no métrico sobre la matriz de distancias (mitad

superior) con el fin de encontrar las dimensiones semánticas que ordenen
los adjetivos. Los pasos del método son:
Figura 8.†: Representación MDS de £3 adjetivos teniendo en cuenta sus

diferencias semánticas.
fi. La distancia original 6sj se ajusta a una disparidad dsj^por regresión

monótona.
£. Fijada una dimensión, se aproxima ^dsj a una distancia euclídea dsj.
3. Se calcula la medida de ”stress™ (8.fi0).
4. Se representan las n(n ^—fi)/X distancias dsj vs las dsj , para
visualizar las relaciones de monotonía.
La configuración en £ dimensiones (Figura 8.†) es la mejor
aproximación en dimensión £ a las distancias originales (con
transformación monótona), en el sentido de que minimiza el ”stress™. En
este caso el ”stress™ es del fi9 %.
Se aprecian diversos gradientes de valoración de los
adjetivos: fi. Diminuto›‹Enorme.
£. Bajo-Corto›‹Alto-Largo.
3. Delgado›‹Grueso.
4. Ligero›‹Pesado.
†. Hueco (constituye un adjetivo diferenciado).
8.8. COMPLEMENTOS fi†9
Figura 8.6: Relación entre las distancias originales y las disparidades, indi-
cando que se conserva bien la preordenación de las distancias.
La representación en el estudio original (Manzano y Costermans,

fi9F6) considera 6 dimensiones, que se representan separadamente, con un
stress del
† %, pero la interpretación no es diferente. Para esta representación se
obtiene el gráfico de la Figura 8.†. Como indica la Figura 8.6, la
preordenación de las distancias queda bastante bien preservada.
Para otros ejemplos, consúltese Baillo y Grané (£008).
8.8. Complememtos
En un plano teórico, el MDS comienza con el teorema de I. J.
Schoenberg acerca de la posibilidad de construir las coordenadas de un
conjunto de puntos dadas sus distancias. A nivel aplicado, es de destacar
a W. S. Torgerson, que en fi9†F aplica el MDS a la psicología, y Gower
(fi966), que prueba su relación con el Análisis de Componentes
Principales y el Canónico de Poblaciones, abriendo un fructífero campo
de aplicación en la biología.
El MDS no métrico es debido a R. N. Shepard, que en fi96£ introdujo
el concepto de preordenación, y J. B. Kruskal, que en fi964 propuso
algoritmos efectivos que permitían encontrar soluciones. La
transformación q-aditiva fue estudiada por J. C. Lingoes y K. V. Mardia.
Diversos autores estudiaron la transformación aditiva, hasta que Cailliez
(fi983) encontró la solución defi-
nitiva. Véase Cox y Cox (fi994).

Existen diferentes modelos para tratar el problema de la
representación cuando actúan diferentes matrices de distancias. Un
modelo, propuesto por J.
D. Carroll, es el INDSCAL. Un modelo relativamente reciente, propuesto
por Cuadras y Fortiana (fi998) y Cuadras (fi998), es el ”related metric
scaling™. Véase también Albarrán et a1. (£0fi†).
De la misma manera que se hace regresión sobre componentes princi-
pales, se puede hacer también regresión de una variable dependiente Y
sobre las dimensiones principales obtenidas aplicando MDS sobre una
matriz de distancias entre las observaciones. Este modelo de regresión
basado en distancias permite plantear la regresión con variables mixtas
y la reresión no lineal. Consultar Cuadras (fi989), Cuadras y Arenas
(fi990), Cuadras et a1. (fi996), Boj et a1. (£0fi0), Cuadras y Salvo (£0fi8a).
Una versión del MDS, denominada ”continuous scaling™, permite
encontrar las coordenadas principales de una variable aleatoria.
Consultar Cuadras y Fortiana (fi993a,fi99†), Cuadras y Lahlou (£000),
Cuadras (£0fi4).
P. C. Mahalanobis y C. R. Rao propusieron sus distancias en fi936 y
fi94†, respectivamente. Posteriormente Amari, Atkinson, Burbea, Dawid,
Mitchell, Oller y otros estudiaron la distancia de Rao. Consultar Oller
(fi98F), Oller y Cuadras (fi98†), Cuadras (fi988).
Capítulo 9
ANÁLISIS DE
COÆÆESPONDENCIAS
9.1. Imtroduccióm
El Análisis de Correspondencias (AC) es una técnica multivariante que
permite representar las categorías de las filas y columnas de una tabla de
contingencia.
Supongamos que tenemos dos variables categóricas A y B con I y J
cate- gorías respectivamente, y que hanΣ sido observadas cruzando las I
categorías A con las J categorías B, obteniendo n = sj ƒsj observaciones,
donde ƒsj es el número de veces en que aparece la intersección As fiBj ,
dando lugar a la tabla de contingencia I × J :
Bfi BX ··· BJ
Afi
ƒfifi ƒXfi ƒfiX ƒXX ··· ƒfiJ ƒXJ ƒfi·
AX ƒX·
.. .. ··· .. (9.fi)
.. ... ..
ƒIfi ƒIX ƒIJ
AI ··· ƒI·
ƒ·fi ƒ·X ··· n
ƒ·J
Σ Σ
donde ƒs· = j ƒsj es la frecuencia marginal de As , ƒ·j = s ƒsj es la
frecuencia marginal de Bj. Debemos tener en cuenta que, en realidad, la
tabla
fi6fi
fi6£ CAPÝTULO 9. ANÁLISIS DE COÆÆESPONDENCIAS
(9.fi) resume la matriz de datos inicial, que típicamente es de la forma:
Afi AX · · · AI Bfi BX · · · BJ
fi fi 0 ··· 0 fi 0 ··· 0
. . . .. . . . . .. . .
s 0 0 · · · fi 0 fi ··· 0
.. . .. .
. . . ··· . . . ··· .
n 0 0 fi 0 0 fi
en la que damos el valor fi cuando se presenta una característica y 0
cuando no se presenta. Así, el individuo ”fi“ presentaría las
características Afi y Bfi, el individuo ”s“ presentaría las características AI y
BX , y el individuo ”n“ las características AI y BJ . La matriz de datos n
× (I ‡ J) es pues
X = [X, V].
A partir de ahora utilizaremos el nombre de variables filas y variables

columnas a las variables A y B, respectivamente.
Indiquemos por N = (ƒsj) la matriz I × J con las frecuencias de la
tabla de contingencia y por fih el vector de unos de dimensión h. La
matriz
P = fin N,
es la matriz de correspondencias. Indiquemos por r el vector × I fi con los

totales marginales de las filas de P, y por s el vector J×fi con los totales
marginales de las columnas de P :
r = PfiJ , s = PJ fiI .
Tenemos entonces
que fi fi
r= XJ fin , s= VJ fin ,
n n
son los vectores de medias de las matrices de datos X, V. Indiquemos además
Dv = diag(r), Dc = diag(s),
las matrices diagonales que contienen los valores marginales de filas y

columnas de P. Se verifica
XJ X = nDv , VJ V = nDc , XJ V = nP = N.
9. £.
CUANTIFICACIÓN DE LAS VAÆIABLES CATEGÓÆICAS fi63
Por lo tanto, las matrices de covarianzas entre filas, entre columnas y

entre filas y columnas, son
Sfifi = Dv — rrJ , SXX = Dc — ssJ , SfiX = P — rsJ .
Puesto que la suma de las variables es igual a fi, las matrices Sfifi y SXX
son singulares.
9.2. Cuamtificacióm de las variables

categóri- cas
El problema de las variables categóricas, para que puedan ser
manejadas en términos de AM clásico, es que no son cuantitativas. La
cuantificación 0 ó fi anterior es convencional. Asignemos pues a las
categorías Afi, . . . ,AI de la variable fila, los valores numéricos afi, . . . , a I ,
y a las categorías Bfi, . . . ,BJ de la variable columna, los valores
numéricos bfi, . . . , bJ , es decir, indiquemos los vectores
a = (afi , . . . , aI )J , b = (bfi , . . . , bJ )J ,
y consideremos las variables compuestas
U = Xa, V = Vb.
Si en un individuo h se observan las categorías As ,Bj , entonces los valores de

U, V sobre h son
Uh = as , Vh = bj .
Deseamos encontrar a, b tales que las correlaciones entre U y V sean
máximas. Claramente, estamos ante un problema de correlación
canónica, salvo que ahora las matrices Sfifi y SXX son singulares. Una g-
inversa (Sección fi.fi0) de Sfifi es la matriz S—fifi = D—v fi que verifica
Sfifi S—fifi Sfifi = Sfifi .
En efecto,
(D —rrJ )D—fi (D —rrJ ) = (D —rrJ )(F — firJ )
v v v
v = Dv —Dv firJ —rrJ ‡rrJ firJ
= Dv —rrJ —rrJ ‡rrJ
= Dv —rrJ .
fi64 CAPÝTULO 9. ANÁLISIS DE COÆÆESPONDENCIAS
Análogamente S—XX = D—c fi . Aplicando la teoría de la correlación

canónica (Sección 4.3), podemos considerar la descomposición singular
D—v fiƒX (P — rsJ )D—c fiƒX = UDs VJ , (9.£)
donde Ds es la matriz diagonal con los valores singulares en orden decreciente.

Si ufi, vfi son los primeros vectores canónicos, tendremos entonces
a = S—fiƒXufi, b = S—fiƒXvfi, v = ‹fi,
fifi XX
donde S—fiƒX
fifi
— fiƒX
= D v , S XX
— = D—c fiƒX . Es decir, el primer valor singular
fiƒX
es la máxima correlación entre las variables U y V. Pero pueden haber más
vectores y correlaciones canónicas, y por lo tanto la solución general es
as = D—v fiƒX us , bs = D—c fiƒX vs , vs = ‹s , s = fi, . . . , m´ın(I, J}.
En notación matricial, los vectores que cuantifican las categorías de las

filas y de las columnas de N, son las columnas de las matrices
AO = D—v fiƒX U, BO = Dc—fiƒX V.
También obtenemos correlaciones máximas considerando las matrices
A = D—v fiƒX UDs , B = Dc—fiƒX VDs , (9.3)
pues el producto por una constante (en este caso un valor singular), no
altera las correlaciones.
9.3. Æepresemtacióm de filas y colummas

Los perfiles de las filas son
psfi psX psJ
. , ,··· , Σ,
vs vs vs
es decir, las ”probabilidades condicionadas™ P (Bfi /As ), . . . , P (BJ /As ). La
matriz de perfiles de las filas es
Ø = D—v fi P.
9.S. ÆEPÆESENTACIÓN DE FILAS Y COLUMNAS fi6†
Defimicióm 9.3.1 Ga dsstanGsa js−Guadvado entve 1as fl1as s, sJ de N es

Σ
J
(psj /vs — pst/v X
X j )st
6sst = .
j=fi
sj
La matriz de productos escalares asociada a esta distancia es
G = ØDc—fi ØJ ,
y la relación entre A(X) = (6X

ss t ) y G es
A(X) = gfiJ ‡ figJ — XG,
siendo g el vector columna con los I elementos diagonales de G y fi el

vector columna con I unos.
La solución MDS ponderada de las filas de N (Sección 9.9) se obtiene
calculando la diagonalización
DvfiƒX (F — firJ )G(F — rfiJ )DfiƒX X

v = UD ZU ,
J
y seguidamente obteniendo las coordenadas principales
A = D—v fiƒX UDZ . (9.4)
Las distancias euclídeas entre las filas de A coinciden con las

distancias ji- cuadrado.
Relacionemos ahora estas coordenadas con las cuantificaciones anteriores.
De (9.£) tenemos
D—fiƒX (P — rsJ )D—fi (PJ —srJ )D—fiƒX = UDX UJ ,
v c v Z
y de
DfiƒX —fi —fi —fi fiƒX fiƒX —fi

v (D v P — fis )D c (P D v—sfi )D v= D v(Ø — fir Ø)D (Ø
J J J J fiƒX
c —Ø rfi )D , v
J J J
deducimos que
DfiƒX J —fi J J fiƒX X

v (F — fir )ØD c Ø (F — rfi )D v = UD UZ .
J
Esta última expresión demuestra que las matrices A obtenidas en (9.3) y

(9.4) son la misma.
Nótese que la distancia ji-cuadrado ss 6X t es una distancia tipo

Mahalanobis, pues si interpretamos las I filas de Ø = D—v fi P (perfiles
de las filas), como vectores de observaciones de dimensión J que
provienen de una multinomial con vector de probabilidades s, la matriz de
covarianzas es Dc — ssJ y una g- inversa es D—c fi ,véase (£.fi£). Centrando
los perfiles tenemos Ø = (FJ — firJ )Ø,
siendo entonces ØD—c fi Ø la matriz de productos internos en el espacio de
J
Mahalanobis, que convertimos en un espacio euclídeo mediante ØD—c fi Ø =
AAJ . Compárese con (F.£).
Análogamente podemos definir la distancia ji-cuadrado entre columnas
Σ
I
(psj /sj — psj/s
t )jt X
X
6jjt = ,
s=fi
vs
y probar que las distancias euclídeas entre las filas de la matriz B

obtenidas en (9.3), coinciden con esta distancia ji-cuadrado. Es decir, si
centramos los perfiles de las columnas C= (F — fisJ )D—fi PJ , entonces CD—
J c v
fi
C = BBJ .
Así pues, considerando las dos primeras coordenadas principales:
Filas Columnas
Afi (afifi, afiX) Bfi (bfifi, bfiX)
AX (aXfi, aXX) BX (bXfi, bXX)
.. .. .. ..
AI (aIfi , aIX ) BJ (bJ fi , bJ X )
obtenemos una representación de las filas y columnas de la matriz de fre-

cuencias N. Esta representación es óptima en el sentido de que
aproximamos una matriz por otra de rango inferior, véase (fi.†).
9.4. Æepresemtacióm comjumta

Las coordenadas A y las coordenadas B, que representan las filas y
las columnas, están relacionadas. Premultiplicando (9.£) por D—v fiƒX y
postmul- tiplicando por V obtenemos
D—fi (P — rsJ )D—fiƒX V = D—fiƒX UDZ ,
v c v
luego
Dv—fi (P — rsJ )BD—fi
Z
= A.
9.Œ. ÆEPÆESENTACIÓN CONJUNTA fi6F
Análogamente se prueba que
D—fi —fi
c (P —sr )AD Z = B.
J J
Si ahora tenemos en cuenta que rJ D—v fi = fiJ , premultiplicando por rJ
fiJ (P — rsJ )BD—fi

Z = r A.
J
Como además fiJ P = sJ , fiJ r = fi, vemos fácilmente que
(sJ —sJ )BD—fi

Z = r A = 0.
J
Análogamente, sJ B = 0, es decir, las medias ponderadas de las

coordenadas principales son cero. En consecuencia
A = D—fi PBD—fi , B = D—fi PJ AD—fi . (9.†)
v Z c Z
Conviene notar que Dv—fi P son los perfiles de las filas, y D—c fi PJ son los
perfiles de las columnas. Así pues tenemos que, salvo el factor dilatadorZ D
—fi
, (pues
los elementos diagonales de DZ son menores que fi), se verifica:
fi. Las coordenadas de las filas son las medias, ponderadas por los
perfiles de las filas, de las coordenadas de las columnas.
£. Las coordenadas de las columnas son las medias, ponderadas por

los perfiles de las columnas, de las coordenadas de las filas.
Por ejemplo, la primera coordenada principal de las filas verifica:

. psJ
fi b psfi psX Σ , s = fi, . . . , I,
asfi = fifi ‡···‡ s
Zfi vs
‡ Xfi
b Jfi
b v s v
y la primera coordenada principal de las columnas verifica
fi pI j
b = .a pfij pXj Σ , j = fi, . . . , J.
jfi fi ‡ Xfi ‡ · · · ‡ Ifi
Z fifi
s s s j
a
a j
j
Edad
Producto Joven Mediana Mayor Total
A F0 0 0 F0
B 4† 4† 0 90
C 30 30 30 90
D 0 80 £0 fi00
E 3† † fi0 †0
Total fi80 fi60 60 400
Tabla 9.fi: Clasificación de 400 clientes según edades y productos
adquiridos en un supermercado.
La Tabla 9.fi contiene unos datos artificiales, que clasifican 400

clientes según la edad (joven, mediana, mayor) y los productos que
compran en un supermercado. Los cálculos son:
,
0,fit5 0,000 0,000 0,fit5 , ,
,. 0,fifiX5 0,fifiX5 0,000 , , 0,Œ5
. 0,XX5 . 0,fi5
P=. , 0,0t5 0,0t5 0,0t5 . , r = 0,XX5 , s = , 0,Œ0 ,.
. . . .
0,000 0,X00 0,050 , , 0,X50 ,
0,08t5
La matriz de 0,0fiX5
perfiles 0,0X5
de las 0,fiX5 principales son:
filas y las coordenadas
,. , , ,
. fi,00 0,00 0,00 fi,fi0 —0,fiX .
. 0,50 0,50 0,00 . , ,
. 0,05 —0,ŒX . 0,t5 —0,0Œ
0,00 0,80 0,X0, , 0,9X 0,fiX, —0,Œ5 0,t6
0,t0 0,fi0 0,X0 0,5Œ 0,30
— —
Ø = ., 0,33 0,33 0,33 . , A = . —0,fi8 0,Œ8 . , B = , —0,68 —0,XŒ , .
Los valores singulares son: Zfi = 0,68Œt, ZX = 0,33fifi. La primera
coordenada principal de las filas Afi, . . . ,A† verifica:
fi,fi0 = 0, 68Œt—fi(0, t5 × fi ‡ 0 ‡ 0)
0,05 = 0, 68Œt—fi(0, t5 × 0, 5 — 0, 68 × 0, 5 ‡ 0)
—0,fi8 = 0, 68Œt—fi(0, t5 × 0, 33 — 0, 68 × 0, 33 — 0, Œ5 × 0, 33)
—0,9X = 0, 68Œt—fi(0 — 0, 68 × 0, 8 — 0, Œ5X × 0, X)
0,5Œ = 0, 68Œt—fi(0, t5X × 0, t — 0, 68 × 0, fi — 0, Œ5 × 0, X)
Las coordenadas de las marcas A, B, C, D, E son medias de las
coordenadas de las tres edades, ponderadas por la incidencia del
producto en la edad.
9. †. SOLUCIONES
SIMNTÆICA Y ASIMNTÆICA fi69
Figura 9.fi: Representación asimétrica (izquierda, filas en coordenadas

están- dar y columnas en coordenadas principales) y simétrica (derecha)
de las filas (productos) y columnas (edades) de la Tabla 9.fi.
9.5. Soluciomes simétrica y asimétrica

La representación de filas y columnas utilizando las coordenadas
principales A, B es la solución ssmétvsGa. La representación conjunta
es posible gracias a las fórmulas (9.†). La representación utilizando las
matrices
A = D—fiƒXUDZ, BO= D—fiƒXV,
v c
es decir, coordenadas principales para las filas y coordenadas estándar

para las columnas, es la llamada solución assmétvsGa. Esta solución verifica
P — rsJ = Dv ABJO Dc ,
y por lo tanto A, BO reproducen mejor la dependencia entre filas y columnas.
Ejemplo 9.5.1 Go1oves Gabe11o 4 ojos.
La Tabla 9.£ relaciona los colores de los cabellos y de los ojos de

†,383 individuos.
fiF0 CAPÝTULO 9. ANÁLISIS DE COÆÆESPONDENCIAS
Color cabellos
Color ojos Rubio Rojo Castano Oscuro Negro Total
rLA4o 688 fifi6 †84 fi88 4 fi,†80
AxwL 3£6 38 £4fi fifi0 3 Ffi8
rAsTAño 343 84 909 4fi£ £6 fi,FF4
osrw4o 98 48 403 68fi 8fi fi,3fifi
Total fi,4†† £86 £,fi3F fi,39fi fifi4 †,383
Tabla 9.£: Clasificación de †383 individuos según el color de los ojos y del
cabello.
Las coordenadas principales son:

Filas Columnas
,
0,ŒŒ00 —0,08tX 0,5Œ3t —0,fitXX .
A=, , 0,X3XŒ —0,0Œtt
. B=
, , 0,0Œ0X 0,X0t9 .
0,3996 —0,fi6Œt . .
,
. ,
,.
—0,036fi 0,XŒ3t
—0,589fi —0,fi0t0
—0,t00X —0,fi3Œ5
—fi,0t8Œ —0,XtŒ3
Los valores singulares son: Zfi = 0,ŒŒŒ9, ZX = 0,fitXt, Z3 = 0,0X9X.
De acuerdo con (9.6), la variabilidad explicada por las dos primeras
dimensiones principales es PX = 86,8 %. La Figura 9.£ proporciona las
representaciones simétrica y asimétrica.
9.6. Variabilidad geométrica (imercia)

Vamos a probar que
K
Σz
X = n X
h
Z ,
siendo K = m´ın(I, J} h=fi
y
I J X
Σ Σ (ƒsj — ƒs· ƒ·j /n)
X
z =n ƒs· ƒ·j
s=fi j=fi
el estadístico ji-cuadrado con (I— fi)(J fi) g.l. que permite decidir si hay
independencia entre filas y columnas de N. Es decir, la ji-cuadrado es n
veces la suma de los valores propios del AC.
9.6. VAÆIABILIDAD GEOMNTÆICA (INEÆCIA) fiFfi
Figura 9.£: Representación asimétrica (izquierda) y simétrica (derecha) de

los datos de los colores de ojos y cabellos.
El coeficiente $X de Pearson se define como

I J X X
Σ
(psj — vs sj ) z
$ =Σ
X
vs s j = n.
s=fi j=fi
Es fácil probar que también podemos expresar

I J X
Σ Σ psj —fi.
X
$ = vs s j
s=fi j=fi
La variabilidad geométrica ponderada de la distancia ji-cuadrado entre

filas es
I I
V6 = Xfi Σ Σ vs6Xsst vst
s=fi st=fi
.
Proposicióm 9.6.1 V6 = $X.
Demost.:
Σ
J (p /v — p t /v t ) X
sj s sj s ΣJ psj ps t j X
X
6sst = = ( — ) sj
j=fi vs sj vst sj
j
j=fi s
fiF£ CAPÝTULO 9. ANÁLISIS DE COÆÆESPONDENCIAS
Por lo tanto
I I J
ΣΣ
fi Σ 6 psj ps t j X
X v s( ) s j vs t
s=fi V
st=fi=
j=fi vs sj — vst sj
Si desarrollamos por un lado
ΣI ΣI ΣJ 2 ΣI ΣI ΣJ 2
sj sj
p p
p
st=fi j=fi vs v2 c2 sj vst =Σ Σst=fi vt
j=fi vs cj s
s=fi s=fi
2
sj
I J
ΣI =
j=fi vs cj ,
sj
y por otro lado, dado que s=fi
s=fi
psj = sj ,
psj pst j ΣJ psj pst j
j
ΣI ΣI ΣJ =
st=fi v s vt
j=fi s vs c2 vst j s
= ΣI ΣI
t j=fi
ΣsJ =fi sjcj
cj
cj =
p fi,
s=fi s=fi
Σ
s=fi j=fi
p2
I
Σ
X)/X, siendo α =
h=fi h
es decir, vemos que V = (α ‡ α . Q

sj
Z Z
s,j vs cj
ΣV (m) =
Z .6
6 —
ΣK
Proposicióm 9.6.2 $X =
ZX.
X
Demost.: Sea
W = Dv—fiƒX (P — rsJ )D—c fiƒX = UDZ V J.
Entonces
9.F. ANÁLISIS DE COÆÆESPONDENCIAS MÚLTIPLES fiF3
Pero
rJ a = tr(DfiƒX AAJ DfiƒX ) = tr(UDX UJ ) = tr(DX ).
v v Z Z
Lo hemos probado para m = K, pero fácilmente vemos que la fórmula

tam- bién vale para m c K.
Q
Así pues, en la representación por AC de las filas y columnas de N en
dimensión m, el porcentaje de variabilidad geométrica o inercia viene dado
por Σm
ZhX
P = fi00 × h=fi
K X
. (9.6)
Σm h=fi Zh
9.Y. Amálisis de Correspomdemcias Múltiples

El AC combina y representa dos variables categóricas. Pero se puede
adap- tar para estudiar más de dos variables. Presentemos primero el
procedimiento para dos variables, que después generalizaremos.
Escribimos la matriz n × (I ‡ J) de datos binarios como una matriz
n × (Jfi ‡ JX)
X = [Xfi, XX].
Entonces tenemos que
Σ X fi Xfi Σ Dv P Σ
B = XJ X = j =n .
X fiXX PJ Dc
u j Σ
XJ Xfi XJ XX
X X
La matriz de frecuencias, donde F y C contienen las marginales de filas y

columnas, Σ
F N
Bu = NJ C
Σ
es la llamada matriz de Burt. A continuación podemos realizar tres análisis
de correspondencias diferentes sobre las siguientes matrices:
a) N. b) X = [Xfi, XX]. c) Bu.
El análisis a) lo hemos visto en las secciones anteriores. El resultado es

una representación de filas y columnas de N.
El análisis b) es sobre [Xfi, XX], considerada una matriz binaria con n
filas y Jfi ‡ JX columnas. AC nos daría una representación de las Jfi ‡ JX
columnas, que es la interesante, y también de los n individuos, pero esta

segunda representación es innecesaria.
El análisis c) es sobre Bu que es la matriz simétrica de orden (Jfi ‡ JX) ×
(Jfi ‡ JX). Tendremos una representación idéntica por columnas y por
filas. En los tres casos vemos que podemos representar las filas y
columnas de
N. Es posible demostrar que los tres análisis son equivalentes en el
sentido de que proporcionan la misma representación, variando sólo los
valores propios. Todo esto se describe en el cuadro que sigue.
Tabla Dimensión Coordenadas Valor propio

A (filas)
N = XJfi XX Jfi × JX BΣ(columnas) Z
Σ ¸
A fi‡ Z
X = [Xfi, XX] n × (Jfi ‡ JX)
Σ B Σ X
¸
A ( fi‡X Z )X
Bu = XJ X (Jfi ‡ JX) × (Jfi ‡ JX)
B
Consideremos a continuación Ø variables categóricas con Jfi, . . . , JØ

estados, respectivamente, sobre n individuos. Sea J = Jfi ‡ · · · ‡ JØ. La
tabla de datos, de orden n × J es la super-matriz de indicadores
X = [Xfi, . . . , Xj, . . . , XØ],
donde Xj es n × Jj y contiene los datos binarios de la variable j. La tabla

de contingencia que tabula la combinación de las variables s, j es Nsj =
XJs Xj . La matriz de Burt, de orden J × J es
, ,
XJfi Xfi XJfi XX · · ·
XJfiXØ XJX Xfi XJX XX
B = XX =
J
··· XJXXØ ,
u
. .
..
, .. .. . .. ,
J J J
X Ø Xfi X Ø XX · · · X Ø XØ
donde las matrices XJj Xj son diagonales.

El Análisis de Correspondencias Múltiples intenta representar los J
= Jfi ·‡· ‡JØ estados de las Ø variables categóricas. Como en el caso Ø
= X,· lo podemos llevar a cabo aplicando un AC simple sobre las matrices
siguientes:
a) X. b) Bu.
9.8. EJEMPLOS fiF†
En el caso a) representamos las J columnas e ignoramos las n filas

(individuos). En el caso b) tenemos una tabla de frecuencias
× J J
simétrica y podemos representar las filas (=columnas) aplicando AC
simple. Los dos procedimientos son equivalentes, salvo que se cumple la
relación
ZB = (Z7)X
h h
entre los valores propios Z obtenidos a partir de la matriz de Burt y los Z7

B
h h
que surgen del análisis sobre X. Las inercias correspondientes son:
Σ fi [Σ $X (Nsj
X
$ (Bu ) = = ) ‡ (J — Ø)],
hh ZB
ØX
s j
Σ 7
J
$X(X) = Z = — fi,
h h
Ø
siendo $X(Nsj) la inercia para la tabla Nsj, véase Sección 9.6. Así pues
podemos constatar que AC puede servir también para representar más de
dos variables categóricas.
9.8. Ejemplos
Ejemplo 9.8.1 VotaGsones.
La Tabla 9.3 contiene las frecuencias con la clasificación cruzada de

fi£†F individuos según Edad (E), Sexo (S), intención de Voto (V) y Clase
social (C). Tenemos Ø = Œ, J = fiX, Jfi = Œ, JX = X, J3 = 3, J4 = X.
Los datos iniciales (matriz X, solo mostramos † individuos) son de la
forma:
Edad Votación Clase Sexo

>F3 †fi-F3 4fi-†0 £6-40 c£6 Izq Der Alt Med Obr H M
0 fi 0 0 0 fi 0 0 fi 0 fi 0
0 f 0 0 0 0 fi fi 0 0 0 fi
0 i 0 0 fi fi 0 0 0 fi fi 0
fi 0 0 0 0 0 fi fi 0 0 0 fi
0 0 0 0 0 fi 0 0 fi 0 fi 0
fi
. . . . . . . . . . . .
Hombres Mujeres
Edad Derecha Izquierda Derecha Izquierda
Clase alta
>F3 4 0 fi0 0
†fi-F3 £F 8 £6 9
4fi-†0 £F 4 £† 9
£6-40 fiF fi£ £8 9
c£6 F 6 F 3
Clase media
>F3 8 4 9 £
†fi-F3 £fi fi3 33 8
4fi-†0 £F fi£ £9 4
£6-40 fi4 fi† fiF fi3
c£6 9 9 fi3 F
Clase obrera
>F3 8 fi† fiF 4
†fi-F3 3† 6£ †£ †3
4fi-†0 £9 F† 3£ F0
£6-40 3£ 66 36 6F
c£6 fi4 34 fi8 33
, ,
8fi 0 0 0 0 †6 £† fi4 £3 44 39 4£
. 0 34F 0 0 0 fi94 fi†3 F0 F† £0£ fi66 fi8fi .
. 0 0 343 0 0 fi69 fiF4 6† F£ £06 fiF4 fi69 .
0 0 0 3£6 0 fi44 fi8£ 66 †9 £0fi fi†6 fiF0
. 0 0 0 0 fi60 68 9£ £3 38 99 F9 8fi .
†6 fi94 fi69 fi44 68 63fi 0 fiF8 fi80 £F3 £F9 3†£
. £† fi†3 fiF4 fi8£ 9£ 0 6£6 60 8F 4F9 33† £9fi .
fi4 F0 6† 66 £3 fiF8 60 £38 0 0 fifi£ fi£6
. £3 F† F£ †9 38 fi80 8F 0 £6F 0 fi3£ fi3† .
. 44 £0£ £06 £0fi 99 £F3 4F9 0 0 F†£ 3F0 38£ .
, 39 fi66 fiF4 fi†6 F9 £F9 33† fifi£ fi3£ 3F0 6fi4 0 ,
4£ fi8fi fi69 fiF0 8fi 3†£ £9fi fi£6 fi3† 38£ 0 643
Tabla 9.3: Tabla de frecuencias combinando fi£†F individuos según edad,

sexo, clase social y voto (arriba) y la correspondiente tabla de Burt (abajo).
9.8. EJEMPLOS fiFF
Figura 9.3: Representación por análisis de correspondencias múltiples de

los datos de la Tabla 9.3.
La Tabla 9.3 también contiene la tabla de Burt. Obsérvese que es

simétri- ca. El AC simple sobre esta tabla nos permite representar las 4
variables categóricas sobre el mismo gráfico, véase la Figura 9.3.
Ejemplo 9.8.2 fstansG.
La Tabla fi4.fi (Capítulo fi4), contiene las frecuencias de supervivencia

(SÍ, NO), clasificadas por género (G), supervivencia (S), edad (E) y clase
(C, primera fi, segunda £, tercera 3 y tripulación T), del hundimiento del
vapor ”Titanic™. Ahora Ø = Œ, J = fi0, Jfi = X, JX = X, J3 = X, J4 = Œ. La
Figura 9.4 representa esta combinación de datos categóricos. Los
hombres adultos, la tripulación y la tercera clase están más cerca de NO,
mientras que mujeres, ninos y primera clase están más cerca de SÍ.
Véase también el Ejemplo fi4.†.fi.
Figura 9.4: Representación por análisis de correspondencias múltiples de

los datos de supervivencia del "Titanic".
9.9. MDS pomderado

En esta sección introducimos una variante del Análisis de Coordenadas
Principales.
Defimicióm 9.9.1 Sea Og = (6 sj ) una matvss de dsstanGsas g × g, w =

(ufi , . . . , ug )J un seGtov de pesos ta1 que
g
Σ
w fi =
J
us = fi, us ≤ 0,
s=fi
4 GOnssdevemos 1a matvss dsagona1 Dm =dsag(w). Ga so1uGsón MDS

pondevada de Og es 1a matvss
X = D—fiƒX
m U2,
9.9. MDS PONDEÆADO fiF9
ssendo
fi
DfiƒX (X) fiƒX X
m (F g—fiw )(— X Ag )(F g —wfi )D m = U2 U ,
J J J
(9.F)
una desGOmpossGsón espeGtva1, donde 2X = dsag(ZX , . . . , ZX ) GOntsene 1os sa−
1oves pvopsos 4 O(X) = (6 X ). fi p
g sj
Defimicióm 9.9.2 Ga savsabs1sdad geométvsGa pondevada de Og es
V 6 = fi gΣ us 6 X uj = fi
wJ O(X) w.
X sj X g
s,j=fi
Las coordenadas principales son las filas de X. Escribiendo
X = [Efi, EX, . . . , Ep],
podemos interpretar las columnas de X como variables. Observemos que

se verifica
(Fg —fiwJ )(— fi O(X) )(Fg —wfiJ ) = XXJ . (9.8)
X g
Propiedades:
fi. Las variables Eh (columnas de X) tienen medias ponderadas iguales a

cero:
E h = wJ Eh = 0.
Demost.:
wJ (Fg —fiwJ ) = wJ —wJ = 0 → wJ XXJ w = 0 → wJ X = 0.
£. Las varianzas ponderadas de las variables Eh son iguales a los

valores propios:
‹X = ZX, h = fi, . . . , p.
h h
Demost.:
Σ Si la media de ıfi , . . . , ıg es 0, la varianza ponderada es
u ıXs , es
decir,s ‹X = DfiƒX E J Eh DfiƒX = (U J Zh )(Zh Uh ) = ZX ,
h m h m h h
donde ZhX es el valor propio de vector propio unitario U h.

3. Las variables (columnas de X) están incorrelacionadas
cor(Eh , Eht ) = 0, h hJ = fi, . . . , p.
Demost.: Puesto que las medias son nulas la covarianza ponderada
es cov(Eh , Eht ) = mDfiƒXhE J Eht mDfiƒX = hZX hU J Uht = 0,
ya que los vectores propios son ortogonales.
4. La variabilidad geométrica ponderada de Og es

p
ΣV = X
h
h=fi
Z .6
Demost.: Expresemos la matriz de distancias al cuadrado como
Og(X) = fidJ ‡dfiJ — XXXJ ,
siendo d un vector g × fi con los elementos diagonales de XXJ . Por

una parte fi J (X)
w O w = wJ fidJ w — wJ XXJ w = dJ w.
X g
Por otra parte

dJ w =tr(DfiƒX XXJ DfiƒX ) =tr(U2X UJ ) =tr(2X ).
m m
†. Si tomamos las q primeras coordenadas principales de X, la variabilidad

geométrica ponderada es:
q
ΣV (q)= X
h
h=fi
Z .6
Estudiemos ahora la relación entre el Análisis de Coordenadas
Principales ordinario (Capítulo 8) y el ponderado. Supongamos que
podemos expresar el vector de pesos como
fi g
w= (nfi , Xn , . . .g , n ), n = Σ n ,s
n s=fi
9.9. MDS PONDEÆADO fi8fi
donde ns son enteros positivos y el peso us es igual (o muy próximo fi) a

ns/n. Indiquemos por M la matriz n × g que contiene ns filas (0, . . . , fi, . . .
, 0). Por ejemplo, si g = 3 y nfi = X, nX = 3, n3 = fi, entonces
,. ,
. fi 0 0
fi 0 0
0 fi 0
M= .
. 0, fi 0 .
.
, 0 fi 0
.
0 0 fi
Si ahora suponemos que en vez de g objetos tenemos n objetos, pero

el primer objeto está repetido nfi veces, el segundo objeto nX veces, etc.,
entonces la matriz de distancias es
On = MOg MJ , (9.9)
y el análisis no ponderado sobre la matriz On es
(Fn — nfi fifiJ )(—Xfi On(X) )(Fn — nfi fifiJ ) = U˜ DX ˜J

Z U = VV ,
J
(9.fi0)
siendo ˜ la matriz n × p de los vectores propios. La solución no ponderada

U es
V = U˜ DZ .
Teorema 9.9.1 Ga so1uGsón no pondevada V sobve On GOsnGsde GOn 1a

so1u− Gsón pondevada X sobve Og , en e1 sentsdo de que obtenemos V
vepstsendo nfi , . . . , ng seGes 1as fl1as de X.
Demost.: De (9.9) podemos expresar la solución no ponderada (9.fi0) como

(Fn — fi fifiJ )M(— fi O(X) )MJ (Fn — fi fifiJ ) = VVJ .
n X g n
Se
verifica
(Fn — fin fifiJ )M = M(Fg — fig wJ ).
Por lo tanto, de (9.8) tenemos
M(F —fiwJ)(— fi O(X))(F — wfiJ)MJ = MXXJMJ,

g X g g
fi
Tomando n suficientemente grande, podemos aproximarlo tanto como queramos.
fi8£ CAPÝTULO 9. ANÁLISIS DE COÆÆESPONDENCIAS
que demuestra que V = MX. Q

En otras palabras, las coordenadas principales no ponderadas V son el
resultado de repetir nfi, . . . , ng veces las coordenadas X. La relación
entre los valores singulares es
Z˜ h = gZh, h = fi......, p.
Por ejemplo, si g = 3 y nfi = X, nX = 3, n3 = fi, obtenemos
, ,
. ıfifi ıfiX
, ıfifi ıfiX , ı ı
. fifi fiX
ı ı
X , ıXfi ıXX , , V = . Xfi XX . .
= ı3fi ı . ıXfi ıXX .
, ıXfi ıXX ,
3X
ı3fi ı3X
9.10. Complememtos
El Análisis de Correspondencias (AC) tiene una larga historia que se
inicia en fi93† (H.O. Hirschfeld, R.A. Fisher, L. Guttman). Ha sido
extensamente estudiado por Benzécri (fi9F3) Oy Greenacre (fi984).
Utilizando coordenadas estándar AO = (a ), BO = (bO ), podemos expre-
sh jh
sar la matriz de correspondencias P = (psj) como
P = rsJ ‡ Dv AO DZ BJO Dc .
Indicando r = (pfi· , . . . , pI· )J , s = (p·fi , . . . , p·J )J los vectores marginales de
filas y columnas de P, la expresión escalar es
KO O
psj = ps· × p·j .fi ‡ Σ Zh a b Σ .
sh jh
h=fi
Si el término entre paréntesis α = ZhaO bO , es suficientemente pequeno
ΣK
h=fi sh jh
para que log(fi ‡ α) = α, entonces
K
log psj = log ps· ‡ log p·j ‡ Σ Zh aO shbO j ,

h=fi h
que se adapta a un modelo log-lineal (Sección fi4.†), donde α

cuantificaría el término de interacción. El AC sería pues una manera de
visualizar los términos de interacción (van der Heijden y de Leeuw, fi98†).
9.fiO. COMPLEMENTOS fi83
CA verifica el ”principio de equivalencia distribucional™: si dos perfiles de

columnas son idénticos, es decir,
psj = psjt , s = fi, . . . ,
sj I, sj t
entonces las columnas j, j J de N pueden juntarse y ser reemplazadas por
su suma. En efecto, cuando se cumple este principio
psj psj ‡ psj t
=
psjt = sj ‡ sj t
sj st .
j
Luego
psj
[( vs sj )— pst j )]X sj ‡[( psjt )— pst j t )] X sj t = psj ‡ psjt )— pst j ‡ pst j t )] X (sj ‡sj t ),
( vst sj vssjt ( vst sjt [( vs(sj ‡ sjt ) ( vst (sj ‡ sj t )
y la distancia ji-cuadrado queda inalterada si juntamos las columnas j y j J .
Una variante del AC propuesta por Rao (fi99†), se basa en la distancia
de Hellinger
.. .
˜6ssX t = vs —
p ΣXpst j /vst ,
J
sj
Σj=fi /
entre dos filas de N, que tiene la ventaja de no depender de los perfiles
de las columnas. Sin embargo los resultados pueden ser muy similares
(Cuadras et a1, £004), y el método basado en esta distancia resulta
más apropiado cuando las filas se ajustan a poblaciones multinomiales
distintas. Véase una aplicación en Cuadras et a1. (£0fi£).
Una forma alternativa de presentar el AC es el ”reciprocal
averaging™ (RA). Supongamos que queremos encontrar las coordenadas
(afi, . . . , aI ) de las filas como medias ponderadas de las coordenadas de
las columnas y recí- procamente, las coordenadas (bfi, . . . , bJ ) de las
columnas como medias ponderadas de las coordenadas de las filas:
a = JΣ b Σ
psj psj
s j=fi , = a j.
s=fi
I
jb j
s
v s s
Pero estas relaciones no se pueden verificar simultáneamente (por
razones geométricas obvias), así que hemos de introducir un factor
multiplicativo Ø > fi y escribir
a = Ø ΣJ b I psj
psj
s
j=fi
j , j
=ØΣa .j (9.fifi)
v s=fi s
s
b
s
El objetivo del RA es encontrar las coordenadas verificando (9.fifi) tal que

Ø sea mínimo. Entonces es posible probar que Z = (fi/Ø)X es un valor
propio. Esto mismo lo podemos plantear para la segunda y siguientes
coordenadas y probar la equivalencia entre RA y AC. Los cálculos del
RA se efectúan iterativamente, y es útil (especialmente en ecología),
cuando la matriz de frecuencias N tiene dimensión grande y contiene
muchos ceros (Hill, fi9F3). Por otra parte se conoce a (9.fifi)
— como la
mejor representación Ø baricéntrica sobre un eje (Lebart et a1., fi9FF).
Una extensión interesante del AC es el ”Canonical Correspondence
Analy- sis™ (Ter Braak, fi986), que tiene en cuenta, para la
representación, que los ejes sean combinación lineal de variables
externas. Tiene aplicaciones en ecología, dado que permite relacionar las
comunidades biológicas con las variables ambientales. Véase Graffelman
(£00fi).
El análisis de correspondencias múltiples (ACM) presupone sólo inter-
acciones de segundo orden, por lo que podría ser un modelo inadecuado
para expresar las de orden superior. Se pueden también representar
tablas de contingencia múltiples mediante ”mosaicos™, que permiten
visualizar interacciones de orden superior. La Figura 9.† contiene la
representación en ”mosaico™ de los datos del ”Titanic™, Tabla fi4.fi. Véase
el análisis log-lineal del ejemplo fi4.†.fi. Consúltese Friendly (fi994, fi999).
El ACM de tablas concatenadas es una aplicación del ACM, similar al
AFM (véase Sección †.8), que permite visualizar la estructura común de
diversas tablas de datos. Supongamos K tablas con ·J· = Jfi ‡ ‡ JØ
estados de las Ø variables categóricas, para cada una· de las tablas.
Obtenemos los totales marginales de los J estados para cada tabla y
formamos la matriz
× de frecuencias K J. El AC simple sobre esta matriz
permite visualizar los J estados conjuntamente con las K tablas. Véase
Greenacre (£008).
Desde luego hay otros modelos para el tratamiento de datos
categóricos, véase por ejemplo, Vera et a1. (£009). Capítulo aparte merece
el Análisis de Datos Composicionales (ADC), introducido por J. Aitchison.
ADC tiene la propiedad de que las variables suman una cantidad
constante, que puede ser fi (si son proporciones) o fi00 (si son
porcentajes). La visualización de datos en ADC requiere una distancia
con la propiedad sub-composicional, posiblemente incompatible con el
principio de equivalencia distribucional del AC. Véase Greenacre (£0fi8) y
Egozcue y Pawlowsky-Glahn (£0fi8).
Una extensión continua del AC considera una densidad bivariante h(ı, 4)
9.fiO. COMPLEMENTOS fi8†
Figura 9.†: Representación en ”mosaico™ de los datos de supervivencia

del ”Titanic™, Tabla fi4.fi. El ”mosaico™ (izquierda) puede revelar
interacciones de orden superior. A la derecha ”mosaico™ parcial
combinando Género con Supervivencia, suponiendo independencia
(arriba) y con las frecuencias observadas (abajo). El color azul indica
desviación positiva de las frecuencias esperadas y el rojo desviación
negativa. El blanco indica que no hay desviación.
con densidades marginales ƒ (ı), g(4), y la descomposición singular
ƒ (ı)—fiƒX h(ı, 4)g(4)—fiƒX = Σ

œ
h=fi phuh (ı)vh (4), (9.fi£)
donde (ph, h≤fi son

} correlaciones canónicas y( uh, h≤fi }, (vh, h ≤fi } son
sistemas de funciones ortonormales (Lancaster, fi969). Hay una
interesante semejanza entre (9.fi£) y el AC, pues muchas propiedades se
conservan. Véase una comparación sistemática en Cuadras et a1. (£000)
y Cuadras (£00£b,
£0fi4). El AC ha sido también comparado con otros métodos de
representación de tablas de contingencia (Cuadras et a1., £006),
propiciando una versión paramétrica que los engloba a todos (Cuadras y
Cuadras, £006, £0fifi, £0fi†). Para una amplia visión del Análisis de
Correspondencias y sus variantes, véase Greenacre (£008).
Capítulo 10
CLASIFICACIÓN
10.1. Imtroduccióm
Clasificar los elementos de un conjunto finito consiste en realizar una
par- tición del conjunto en subconjuntos homogéneos, siguiendo un
determinado criterio de clasificación. Cada elemento pertenece a un único
subconjunto, que a menudo tiene un nombre que lo caracteriza. Así
clasificamos:
Las personas en hombres y mujeres.
Los trabajadores en actividades profesionales: servicios, industria,
agricultura.
Los animales en especies, géneros, familias y órdenes.
Los libros de una biblioteca en arte, literatura, ciencia, informática
y viajes.
Sea K = w
( fi, wX, . . . , wn}un conjunto finito con n elementos diferentes,
que abreviadamente indicaremos
K = (fi, X, ..., n}.
Clasificar es también definir una relación de equivalencia
Y sobre K. Esta
relación define una partición sobre K en m clases de equivalencia:
K = sfi ‡ sX ‡ · · · ‡ sm,
donde ‡ significa reunión disjunta. A la partición la llamaremos G1ustevsng
y a las clases de equivalencia G1ustevs (conglomerados).
fi8F
fi88 CAPÝTULO fiO. CLASIFICACIÓN
10.2. Jerarquía imdexada

Las clasificaciones pueden ser jerárquicas o no jerárquicas. Una
clasifi- cación jerárquica es una sucesión de clusterings tal que cada
clustering se obtiene agrupando clusters. Por ejemplo, si n = 5, una
clasificación jerárquica es:
K = (fi} ‡ (X} ‡ (3} ‡ (Œ} ‡ (5}
K = (fi, X} ‡ (3, Œ} ‡ (5}
K = (fi, X} ‡ (3, Œ, 5}
K=K
Defimicióm 10.2.1 Una jevavqusa sndexada (C, α) sobve K está fovmada

pov una GO1eGGsón de G1ustevs C c 9(K) 4 un sndsGe α ta1 que:
Axsoma de 1a sntevseGGsón: Ss s, sJ c C entonGes s fi sJ c (s, sJ , Ø}.

Axsoma de 1a veunsón: Ss s c C entonGes s = U(sJ | sJ c C, sJ c s}.
Ga veunsón de todos 1os G1ustevs es e1 GOnjunto tota1: K = U(s | s c C}.
El índice α es una aplicación de C sobre el conjunto de números reales

positivos tal que:
α(s) = 0, 6s c K, α(s) ≤ α(sJ ) si s c sJ .
Diremos que una jerarquía es total si:
6s c K, (s} c C.
K c C.
Comemtarios:
fi. El primer axioma significa que si tenemos dos clusters, uno está
incluido en el otro o ambos son disjuntos, escdecir, s c sJ , ó sJfi s, ó s
Ø
sJ = . Se trata de evitar que un elemento de K pertenezca a dos
clusters excluyentes a la vez, ya que entonces estaría mal clasificado.
£. El segundo axioma significa que cada cluster es reunión de los
clusters que contiene. Es decir, reuniendo clusters obtenemos
clusters más am- plios. Por ejemplo, en el reino animal, un género
es reunión de especies, una familia es reunión de géneros, etc.
fiO.£. JEÆAÆØUÝA INDEXADA fi89
3. El índice α mide el grado de heterogeneidad de cada cluster. Cuanto

más grande es el cluster más heterogéneo es.
Teorema 10.2.1 Pava todo ı≤ 0 1a ve1aGsón bsnavsa ı sobve 1os
e1ementos de K
sYı j ‹s s, j c s, ‹sendo α(s) ≤ ı, (fi0.fi)
es de equssa1enGsa.
Demost.: La relación Yı es:
Reflexiva: sYı s ya que s c (s }, siendo α(( s}) = 0 ≤ ı.
Simétrica: Evidente.
Transitiva: Sea ssj el mínimo cluster que contiene s, j, y análogamente sjh .
Entonces :
sYı j → s, j c ssj, α(ssj ) ≤ ı, jYı h → j, h c sjh, α(sjh ) ≤ ı,
→ ssj .ƒ Ø
fi sjh = a) ssj c sjh → s, h c sjh, → sY h. Q
b) sjh c ssj → s, h c ssj, ı
→
La relación (fi0.fi) define, para cada ı≤0, una partición de K en clases
de equivalencia. La partición se llama clustering al nivel ı.
Ejemplo 10.2.1 Pavtsdos.

Consideremos n = 5 partidos políticos con representación en el Parla-
mento de Cataluna: CU (Convergència i Unió), PP (Partido Popular), PSC
(Partido Socialista de Cataluna), IC (Iniciativa por Cataluna) y ERC (Es-
querra Republicana). Un ejemplo (hipotético) de jerarquía indexada sobre
K = (CU, PP, PSC, IC, ERC} , es:
C ={CUO , PPO , PSCO , ICO , ERCO , {CU, PP}fi ,
{PSC, IC}fi,†,{PSC, IC, ERC}X, K3},
donde el índice α está indicado como un subíndice: α(CU)=0, α(CU,PP)=fi,
etc. Tenemos entonces las siguientes particiones o clusterings:
α Nombre del
cluxtering
( K } =( } ( } ( } ( } CU ‡ PP ‡ PSC ‡
FC ‡ KRC 0 (partidos)
K = (CU, PP} ‡ (PSC, FC} ‡ ( KRC} fi,5 (derecha, izquierda, centro)
K = (CU, PP} ‡ (PSC, FC, KRC} X (coaliciones)
K= K 3 (parlamento)
La representación de esta clasificación se encuentra en la Figura fi0.fi, que

justificamos en la sección siguiente.
10.3. Geometría ultramétrica

Para presentar una clasificación utilizamos llaves. Por ejemplo, la
clasifi- cación divisiva de Nación, Comunidades Autónomas y Provincias
(sólo vamos a considerar 8) es:
Nacióm Automomías Provimcias
., Arag ,
Huexca
ón . Teruel
.
. Catalunã Xaragoza
. ..Barcelona
,
Kxpanã
, Lérida
. Tarragona
Gerona
,.
Madrid Madrid
Una generalización de las llaves es el árbol ultramétrico. Como

veremos más adelante, una jerarquía indexada puede ser visualizada
mediante un gráfico sencillo e intuitivo, llamado dendograma.
Defimicióm 10.3.1 Un espaGso u1tvamétvsGO (K, u) es una estvuGtuva

fovma− da pov un GOnjunto flnsto K 4 una funGsón dsstanGsa×u sobve K K
sevsflGando, pava todo s, j, h de K:
No negatsssdad: u(s, j) ≤ u(s, s) = 0.
Ssmetvsa: u(s, j) = u(j, s).
Pvopsedad u1tvamétvsGa:
u(s, j) ≤ xup(u(s, h), u(j, h)}.

fiO.S. GEOMETÆÝA ULTÆAMNTÆICA fi9fi
La matriz U = (u(s, j)) de orden n × n

,
U = ufifi u fiX · · · ufin
uXfi uXX · · · . u = u = u(s, j), = 0.

, u Xn u
,.
.. .. .. sj js ss
. .. ,
unfi unX · · · unn
es la matriz de distancias ultramétricas.
Proposicióm 10.3.1 Una dsstanGsa u1tvamétvsGa sevsflGa 1a dessgua1dad

tvs− angu1av 4 pov 1o tanto es métvsGa.
Demost.:
u(s, j) ≤ xup(u(s, h), u(j, h)} ≤ u(s, h) ‡ u(j, h). Q
Defimicióm 10.3.2 Un tvsángu1o( s, j, h fovmado pov tves e1ementos

de K es u1tvamétvsGO Ss es ssósGe1es } 4 su base es e1 1ado más pequeuo. Es
deGsv, ss u(s, j) es 1a base, entonGes
u(s, j) ≤ u(s, h) = u(j, h).
Teorema 10.3.1 En un espaGso u1tvamétvsGO todo tvsángu1o es u1tvamétvsGO.
Demost.: Sea (s, j, h un triángulo. Sea u(s, j) es el lado más pequeno, en-
tonces: }
u(s, h) ≤ xup(u(s, j), u(j, h)} = u(j,

h) =→ u(s, h) = u(j, h). Q
u(j, h) ≤ xup(u(s, j), u(s, h)}= u(s,
h)
Defimicióm 10.3.3 Un ávbo1 u1tvamétvsGO (tambsén 11amado dendogvama)

es un gvafo GOnexo, ssn GsG1os GOn un punto 11amado vass 4 n puntos
extvemos equsdsstantes de 1a vass.
Una propiedad importante es que todo espacio ultramétrico (K, u) se

puede ”dibujar™ mediante un dendograma, como muestra la Figura fi0.fi.
Teorema 10.3.2 Sea (K, u) un espaGso u1tvamétvsGO. EntonGes podemos

ve− pvesentav1o medsante un ávbo1 u1tvamétvsGO GOn extvemos 1os
e1ementos de K.
fi9£ CAPÝTULO fiO. CLASIFICACIÓN
Figura fi0.fi: Representación en árbol ultramétrico (dendograma) de cinco

partidos políticos.
Demost.: Supongamos el árbol en posición vertical. Sea u(s, j) la

distancia entre los extremos s, j medida como la mitad de la mínima
longitud de las aristas verticales que unen s con j, es decir, la
distancia vertical hasta el nudo ç que liga s con( j. Consideremos un
( } s, j, h y supongamos que s, j es el} lado más pequeno.
triángulo
Entonces h se relaciona con s, j en un nudo ç J por encima de ç. ≤ Así
u(h, s) = u(h, j) = u(s, j) ‡ Ø, donde Ø 0
es la distancia vertical entre ç y ç J . Esto demuestra que
( s, j, h es un
árbol ultramétrico. } Q
Hay una versión del Teorema fi0.£.fi para distancias ultramétricas.
Teorema 10.3.3 Sea (K, u) un espaGso métvsGO. Ss u es dsstanGsa

u1tvamétvs− Ga, entonGes 1a ve1aGsón bsnavsa Yı sobve 1os e1ementos de K
sYı j ‹s u(s, j) ≤ ı, (fi0.£)
es de equssa1enGsa pava todo ı ≤ 0. ÆeGspvoGamente, ss 1a ve1aGsón (fD.W)

es de equssa1enGsa pava todo ı ≤ 0, entonGes u es dsstanGsa u1tvamétvsGa.
Demost.: Supongamos que u es ultramétrica. Entonces la relaciónYı

es: Reflexiva: u(s, s) ≤=0 ı.
Simétrica: u(s, j) = u(j, ≤s) ı.
Transitiva: Sea (s, j, h}un triángulo ultramétrico con base s,
( j }. entonces
tenemos
u(s, j) ≤ u(j, h) = u(s, h) ≤ ı,
fiO.S. GEOMETÆÝA ULTÆAMNTÆICA fi93
que nos demuestra la transitividad.

Supongamos ahora queYı es de equivalencia y que el triángulo (s, j, h}
verifica:
u(s, j) ≤ u(j, h) ≤ u(s, h).
Sea ı = u(j, h). Entonces u(s, j) ≤ ı, u(j, h) ≤ ı → u(s, h) ≤ ı =
u(j, h) por la transitividad de Yı . Esto demuestra que u(j, h) = u(s,
h) y por lo tanto el triángulo (s, j, h} es ultramétrico. Q
La Figura fi0.fi contiene el dendograma correspondiente a la jerarquía
indexada del ejemplo fi0.£.fi.
Otra propiedad importante es que juntando elementos próximos de K
seguimos manteniendo la propiedad ultramétrica, y esto vale para
cualquier clustering.
Teorema 10.3.4 Supongamos que sobve 1os m G1ustevs de1 G1ustevsng
K = sfi ‡ sX ‡ · · · ‡ sm
ha4 deflnsda una dsstanGsa u1tvamétvsGa u. Sean ss , sj 1os dos G1ustevs

más pvóxsmos: u(ss , sj ) = msnsmo. EntonGes unsendo ss GOn sj , se
puede deflnsv una dsstanGsa u1tvamétvsGa uJ sobve 1os m — fi G1ustevs de1
G1ustevsng
K = sfi ‡ · · · ‡ ss U sj ‡ · · · ‡ sm .
Demost.: Si h ƒ= s, j, por la propiedad ultramétrica tenemos que u(s h, ss) =

u(sh , sj ). Definimos:
uJ (sh , ss U sj ) = u(sh , ss ) = u(sh , sj ), h s, j,

= (fi0.3)
s,
uJ (sa , sb ) = u(sa , sb ), a, j.
b
Consideremos el triángulo (sa , sb , ss U sj }. Entonces:
uJ (sa , sb ) = u(sa , sb )
≤ xup(u(sa , ss ), u(sb , ss )} = xup(uJ (sa , ss U sj ), uJ (sb , ss U sj )},
uJ (sa , ss U sj ) = u(sa , ss )
≤ xup(u(sa , sb ), u(sb , ss )} = xup(uJ (sa , sb ), uJ (sb , ss U sj )}. Q
Finalmente, la propiedad ultramétrica es invariante por transformaciones

monótonas.
Proposicióm 10.3.2 Ss u es dsstanGsa u1tvamétvsGa 4 uJ = Q(u) es una

tvans− fovmaGsón de u donde Q es una funGsón posstssa monótona
(GveGsente o de− GveGsente), entonGes uJ es tambsén dsstanGsa u1tvamétvsGa.
Demost.: Si ( s, j, }h es un triángulo ultramétrico con base
( } s, j y Q es
monó- tona, tendremos que
u(s, j) ≤ u(s, h) = u(j, h) → uJ (s, j) ≤ uJ (s, h) = uJ (j, h). Q
10.4. Algoritmo fumdamemtal de clasificacióm

A partir de un espacio ultramétrico podemos construir una jerarquía in-
dexada. Nos lo permite el siguiente procedimiento.
Algoritmo fumdamemtal de clasificacióm
Sea (K, u) un espacio ultramétrico. El fundamento de este algoritmo
consiste en el hecho de que, en virtud del Teorema fi0.3.4, juntando
elementos o clusters más próximos, conservamos la propiedad
ultramétrica.
fi. Comencemos con la partición:
K = (fi} ‡ · · · ‡ (n}.
£. Sean s, j los dos elementos más próximos: u(s, j) = mínimo. Los unimos
(s} U (j} = (s, j}
y definimos la nueva distancia ultramétrica uJ
uJ (h, (s, j}) = u(s, h) = u(j, h), h ƒ= s, j,
(ver Teorema fi0.3.4).
3. Consideremos la nueva partición:
K = (fi} ‡ · · · ‡ (s, j} ‡ · · · ‡ (n}
y repitamos el paso £ hasta llegar a K. En este proceso, cada
vez que unimos ss con sj tal que u(ss , sj ) = mínimo, definimos el
índice
α(ss U sj ) = u(ss , sj ).
(fi0.4) El resultado de este proceso es una jerarquía indexada (C, α).

fiO.†. EØUIVALENCIA ENTÆE JEÆAÆØUÝA INDEXADA Y ULTÆAMNTÆICAfi9†
10.5. Equivalemcia emtre jerarquía imdexada

y ultramétrica
Una jerarquía indexada es una estructura conjuntista. Un espacio ultra-
métrico es una estructura geométrica. Ambas estructuras son
equivalentes.
Teorema 10.5.1 Sea (C, α) una jevavqusa sndexada tota1 sobve un GOnjunto
K. EntonGes podemos deflnsv una dsstanGsa u1tvamétvsGa u sobve K.
ÆeGspvoGa− mente, todo espaGso u1tvamétvsGO (K, u) deflne una jevavqusa
sndexada (C, α).
Demost.: A partir de (C, α) definimos la siguiente distancia
u(s, j) = α(ssj),
donde ssj es el mínimo cluster (respecto a la relación de inclusión) que

contiene s, j. Sea (s, j, h} un triángulo y sean también ssh , sjh los mínimos
clusters que contienen (s, h}, (j, h} respectivamente. Tenemos que
ssh fi sjh ƒ= Ø
y por tanto (axioma de la intersección) hay dos posibilidades:
a) ssh c sjh → s, j, h c sjh → ssj c sjh → u(s, j) = α(ssj ) ≤ u(j, h) =

α(sjh )
b) sjh c ssh → s, j, h c ssh → ssj c ssh → u(s, j) = α(ssj ) ≤ u(s, h) =

α(ssh)
Tenemos pues que: u(s,≤j) xup ( u(s, h), u(j, h)

} .
La posibilidad de construir una jerarquía indexada a partir de una dis-
tancia ultramétrica es una consecuencia del algoritmo fundamental de
clasi- ficación. El índice de la jerarquía viene dado por (fi0.4). Q
Comemtarios:
fi. Obsérvese la analogía entre el Teorema fi0.3.4 y el algoritmo funda-

mental de clasificación.
£. Obsérvese además que (fi0.3) permite definir de manera inequívoca
una distancia entre un cluster y la unión de los dos clusters más
próximos. Esta propiedad es la que otorga importancia a la distancia
ultramétrica.
10.6. Algoritmos de clasificacióm jerárquica

Supongamos que, en relación a unas variables observables, hemos
obtenido una matriz de distancias O = (6(s, j))×de orden n n entre los
elementos de un conjunto K :
,
O = ,. 6fifi 6fiX · · · 6fin
6Xfi 6XX · · · 6Xn . 6
6 = = 6(s, j), = 0.
, 6
.. . . . . . .. ,
sj js ss
6nfi 6nX · · · 6nn
Si la distancia 6 es ultramétrica, entonces no hay ningún problema

para llevar a cabo una clasificación construyendo una jerarquía indexada.
Basta con aplicar el algoritmo fundamental de clasificación (Sección fi0.4).
Pero en general 6 no cumple la propiedad ultramétrica y por lo tanto
hemos de modificar adecuadamente este algoritmo.
Algoritmo de clasificacióm
Sea (K, 6) un espacio métrico. El algoritmo de clasificación se basa en
el Teorema fi0.3.4, en el sentido de que juntaremos los elementos o
clusters más próximos, y procuraremos obtener triángulos ultramétricos.
fi. Comencemos con la partición:
K = (fi} ‡ · · · ‡ (n}.
£. Sean s, j los dos elementos más próximos: 6(s, j) = mínimo. Los unimos
(s} U (j} = (s, j}
y definimos la distancia de un elemento h al cluster (s, j}
6 J (h, (s, j}) = ƒ (6(s, h), 6(j, h)), h ƒ= s, j, (fi0.†)
donde ƒ es una función adecuada.
3. Consideremos la nueva partición:
K = (fi} ‡ · · · ‡ (s, j} ‡ · · · ‡ (n},

fiO.6. ALGOÆITMOS DE CLASIFICACIÓN JEÆÁÆØUICA fi9F
y repitamos el paso £ hasta llegar a K. En este proceso, cada

vez que unimos ss con sj tal que 6(ss , sj ) = mínimo, definimos el
índice
α(ss U sj ) = 6 J (ss , sj ). (fi0.6)
La función ƒ en (fi0.†) se define adecuadamente a fin de que se

cumpla la propiedad ultramétrica. El resultado de este proceso es una
jerarquía indexada (C, α).
10.6.1. Método del mímimo
Los diferentes métodos de clasificación jerárquica dependen de la

elección de ƒ en (fi0.†). Una primera elección conveniente de ƒ consiste
simplemente en tomar el valor más pequeuo de los dos lados (s, h}, (j, h}
del triángulo (s, j, h} con base (s, j}, es decir:
6 J (h, (s, j}) = m´ın(6(s, h), 6(j, h)}, h ƒ= s, j.
(fi0.F) En otras
palabras, hacemos que el triángulo
6(s, j} ≤ 6(s, h) = a ≤ 6(j, h),
se transforme en ultramétrico
6 J (s, j} ≤ 6 J (s, h) = 6 J (j, h) = a.
Ejemplo. Sea O una matriz de distancias sobre K = a,( b, s, d, e} . El

método del mínimo proporciona una jerarquía indexada (C, α) asociada a
una matriz ultramétrica U :
a b s d e
(a, b) s d e
a 0 fi 3 Œ t (a, b) (s, d) e
(a, b) 0 3 Œ t
O= b 0 Œ Œ 8‹
s 0 X 8‹
(a, b) 0 3 t
‹
s 0 X 8 (s, d) 0 t
d 0 t
d 0 t e 0
e 0
e 0
(a, b, s, d) e
(a, b, s, d) 0 t ‹ C = ((a}O , . . . , (e}O , (a, b}fi , (s, d}X , (a, b, s, d}3 , KF }
e
a b s d e
a 0 fi 3 3 t
b 0 3 3 t
(C, α) ›‹ U =
s 0 X t
d 0 t
e 0
El método del mínimo produce una distancia ultramétrica u que goza

de la siguiente propiedad.
Teorema 10.6.1 Sea
U = (u | u ex ultramétrica, u(s, j) ≤ 6(s, j)}
e1 GOnjunto de dsstanGsas u1tvamétvsGas más pequeuas que 6. EntonGes 1a

dss− tanGsa u1tvamétvsGa u vesu1tante de ap1sGav e1 método de1 msnsmo
es e1 e1e− mento máxsmo de U
u(s, j) ≤ u(s, j), u c U, 6s, j c K.
Demost.: Sean ( s, j} los elementos más próximos. Entonces u(s, j) = 6(s,

j). La columnaƒ h (= s, j) tendrá términos repetidos iguales a una
distancia 6 J construida tomando un mínimo.
≤ Si u 6 es otra distancia
ultramétrica, entonces: a) si es estrictamente más pequena es evidente
que u > u. b) si u(hJ , h JJ ) es más grande que u(h J , hJJ ) pero es igual a
alguna 6, entonces la columna h tendrá elementos repetidos, y al
menos uno será superior a 6 J . Contradicción. El razonamiento es
parecido si consideramos un cluster s y
un elemento h c/ s. Q
fiO.6. ALGOÆITMOS DE CLASIFICACIÓN JEÆÁÆØUICA fi99
Compárese O con U en el ejemplo anterior. Véase también el Teorema

fi0.F.fi.
A la vista de este resultado, podemos decir que u es la mejor
aproximación a 6 por defecto.
10.6.2. Método del máximo

Una segunda elección razonable de ƒ consiste en tomar el valor más gvande
de los dos lados (s, h}, (j, h} del triángulo (s, j, h} con base (s, j}, es decir:
6 J (h, (s, j}) = ma´x(6(s, h), 6(j, h)}, h ƒ= s, j.

(fi0.8) En otras
palabras, hacemos que el triángulo
6(s, j} ≤ 6(s, h) ≤ 6(j, h) = b,
se convierta en ultramétrico
6 J (s, j} ≤ 6 J (s, h) = 6 J (j, h) = b.
El método del máximo produce una distancia ultramétrica u que goza

de la siguiente propiedad.
Teorema 10.6.2 Sea
U = (u | u ex ultramétrica, u(s, j) ≤ 6(s, j)}
e1 GOnjunto de dsstanGsas u1tvamétvsGas más gvandes que 6. EntonGes 1a

dsstan− Gsa u1tvamétvsGa u vesu1tante de ap1sGav e1 método de1 máxsmo es un
e1emento msnsma1 de U
u(s, j) ≤ u(s, j), u c U, 6s, j c K.
Así u es la mejor aproximación a 6 por exceso.
Comemtarios:
fi. Las distancias u, u, y 6 verifican:
u(s, j) ≤ 6(s, j) ≤ u(s, j).
Hay igualdad u = 6 = u si y sólo si 6 es ultramétrica.

£00 CAPÝTULO fiO. CLASIFICACIÓN
£. u es elemento máximo y es único. El método del mínimo sólo tiene una

solución.
3. u es elemento minimal y no es único. El método del máximo puede

tener varias soluciones.
4. Si todos los elementos fuera de la diagonal de la matriz de

distancias O son diferentes, entonces la solución obtenida aplicando
el método del máximo es única y por tanto u es elemento mínimo.
Finalmente, una notable propiedad de los métodos del mínimo

(también conocido como ssng1e 1snhage) y del máximo (GOmp1ete 1snhage)
es que conservan la ordenación de la distancia 6, en el sentido de la
Proposición fi0.3.£.
Teorema 10.6.3 Gos métodos de1 msnsmo 4 de1 máxsmo son snsavsantes
pov tvansfovmaGsones monótonas de 1a dsstanGsa 6 :
6 J = Q(6) → uJ = Q(u)
donde u, uJ son 1as u1tvamétvsGas asoGsadas a 6, 6 J 4 Q es una funGsón

monó− tona posstssa.
Demost.: En el proceso de encontrar la ultramétrica sólo intervienen los

rangos de los valores de 6, que son los mismos que los rangos de los
valores de la transformación 6 J . Q
10.Y. Más propiedades del método del

mími- mo
Una propiedad de la distancia ultramétrica dice que todo elemento de
una bola es también centro de la propia bola.
Proposicióm 10.Y.1 Sea B(sO , v) una bo1a Gevvada de Gentvo sO 4 vadso
v: B(sO , v) = (s c K| u(sO , s) ≤ v}.
EntonGe
s 6s c B(sO, v) vevsƒ ssa B(s, v) = B(sO, v).
fiO.F. MÁS PÆOPIEDADES DEL MNTODO DEL MÝNIMO £0fi
La demostración es inmediata. También se verifica:
Proposicióm 10.Y.2 Sea (sfi , . . . , sm }. Se Gump1e 1a dessgua1dad
u(sfi , sm ) ≤ xup(u(sα , sα‡fi )|α = fi, . . . , m — fi}.
Demost.: Por recurrencia sobre m. Para m = X es la desigualdad

ultramétrica. Supongamos cierto para m — fi. Tenemos:
u(sfi , sm ) ≤ xup(u(sfi , sm—fi ), u(sm—fi , sm )}

≤ xup(xup(u(sα , sα‡fi )|α = fi, . . . , m — X}, u(sm—fi , sm )}
≤ xup(u(sα , sα‡fi )|α = fi, . . . , m — fi}. Q
Sea ahora K = (fi, X, . . . , n} y 6 una distancia sobre K.
Defimicióm 10.Y.1 Una Gadena [s, j]m es e1 GOnjunto (s = sfi , sX , . . . , j = sm }.
Defimicióm 10.Y.2 Indsquemos
xup[s, j]m = xup 6(s α , sα‡fi)

fi≤α≤m
e1 máxsmo sa1to de 1a Gadena [s, j]m . Deflnsmos 1a dsstanGsa sobve K
u(s, j) = ´ınf xup[s, j]m

m
Teorema 10.Y.1 Se sevsflGa:
f. u es una u1tvamétvsGa ta1 que u ≤ 6.
W. Ss u es otva u1tvamétvsGa ta1 que u ≤ 6 entonGes u ≤ u.
h. u es 1a u1tvamétvsGa que se obtsene pov e1 método de1 msnsmo.
Demost.: [s, j]X = (s, j} es una cadena que une s, j y por lo tanto
u(s, j) ≤ xup[s, j]X
Sea [s, j, h] una cadena que une s, j pero que contiene h. El conjunto
de las cadenas [s, j, h] está contenido en el conjunto de las cadenas [s,
j]. Por lo tanto:
´ınf xup[s, j]m ≤ ´ınf xup[s, h, j]mt (fi0.9)
m m
t
£0£ CAPÝTULO fiO. CLASIFICACIÓN
Por otra parte, dadas las cadenas [s, j], [j, h] podemos construir
[s, h, j] = [s, j] U [j, h]
de modo
que xup[s, h, j] = xup(xup[s, j], xup[j, h]}
Teniendo en cuenta (fi0.9) deducimos que
u(s, j) ≤ xup(u(s, h), u(j, h)}
Sea ahora u ≤ 6. Aplicando la Proposición fi0.F.£
u(s, j) ≤ xup u(sα, sα‡fi) ≤ xup[s, j]m

fi≤α≤m
Por lo
tanto u(s, j) ≤ ´ınf xup[s, j]m = u(s, j). Q
m
Conviene comparar este resultado con el Teorema fi0.6.fi
10.8. Ejemplos
Ejemplo 10.8.1 Pvofesoves.
Un grupo de n = fifi profesores de probabilidades y estadística de la

Uni- versidad de Barcelona han publicado, entre fi994 y £000, unos fi†0
artículos internacionales, algunos en colaboración. Con la finalidad de
agrupar los profesores según los artículos que publicaron juntos,
consideramos el coeficiente de similaridad
‹(s, j) = número de artículos que s, j han publicado juntos.
Definimos entonces la disimilaridad
d(s, j) = fi — ‹(s, j)/ m´ın(‹(s, s), ‹(j, j)}.
Calculando d(s, j) para cada par de profesores, obtenemos la

siguiente matriz de distancias:
fiO.8. EJEMPLOS £03
Figura fi0.£: Representación mediante un dendograma que agrupa fifi

profesores según los artículos publicados conjuntamente.
Are Cor Cua For Mar Nua Oli Oll Rov San Sar
Arenas 0
Corcuera fi 0
Cuadras 0,50 fi 0
Fortiana 0,83 fi 0,06 0
Marquez fi fi fi fi 0
Nualart fi fi fi fi fi 0
Oliva fi fi 0,33 0,33 fi fi 0
Oller fi 0,t5 fi fi fi fi fi 0
Rovira fi fi fi fi fi fi fi fi 0
Sanz fi fi fi fi 0,33 0,93 fi fi 0,fifi 0
Sarra fi fi fi fi 0,t5 fi fi fi fi 0,X5 0
Aplicando un análisis cluster, método del mínimo (single linkage), a
esta matriz de disimilaridades, obtenemos el dendograma de la Figura
fi0.£. Este gráfico pone de manifiesto que hay tres grupos principales con
4, £ y † profesores, que trabajan en análisis multivariante (AM),
estadística matemática (EM) y análisis estocástico (AE), respectivamente.
Figura fi0.3: Representación mediante un dendograma (método del

mínimo) de fi4 idiomas europeos. Las disimilaridades iniciales se obtiene
a partir de las diferencias al escribir los números del fi al fi0.
Ejemplo 10.8.2 Idsomas.
Los idiomas tienen semejanzas y diferencias entre sus palabras.

Midien- do objetivamente sus diferencias en relación a las letras que
describen los números fi a fi0, se pretende agrupar jerárquicamente fi4
idiomas europeos:
Alemán, Inglés, Vasco, Catalán, Castellano, Danés, Finés,

Francés, Gallego, Holandés, Húngaro, Italiano, Noruego y
Polaco.
La disimilaridad entre cada par de idiomas se calcula sumando el

número de letras que cambian (por supresión, duplicación, anadido, etc.)
al escribir cada uno de los números fi, £, . . . , fi0.
Por ejemplo, entre Inglés y Noruego hay £F diferencias (sumando las
que hay para cada uno de los números del fi al fi0), y entre Espanol
(Castellano) e Italiano sólo hay fiF.
Véase Oliva et a1. (fi993) para más detalles.
fiO.8. EJEMPLOS £0†
La matriz de disimilaridades es:
Ale Ing Vas Cat Cas Dan Fin Fra Gal Hol Hun Ita Nor Pol
Alemán 0
Inglés £9 0
Vasco 4† 44 0
Catalán 34 £8 4† 0
Castellano 3£ £9 46 fiF 0
Danés 30 £6 43 £F 3fi 0
Finés †8 †† †9 †F †† †9 0
Francés 33 3£ 46 fi3 £4 33 †9 0
Gallego 3£ £F 44 fi3 F £6 †† £3 0
Holandés fi9 £† 43 43 3£ £9 †6 33 33 0
Húngaro 4£ 38 4† 40 4£ 36 †6 38 40 3F 0
Italiano 3F 3† 46 ££ fiF 3£ 60 £4 fi† 36 4† 0
Noruego £9 £F 43 £9 3£ 3 †8 33 £F £8 36 33 0
Polaco 4† 44 †3 44 36 44 †6 4† 38 4£ †£ 4£ 44 0
Sobre esta matriz de disimilaridades se lleva a cabo un análisis cluster

jerárquico, método del mínimo (single linkage). El resultado es el
dendograma de la Figura fi0.3. Claramente se aprecia que los idiomas de
origen latino se agrupan, manteniendo una cierta similaridad con las
lenguas anglosajonas, que también se agrupan. El Polaco y el Húngaro,
aunque son dos idiomas bastante distintos, forman un cluster. El Vasco y
el Finés se mantienen separados de las otras lenguas.
Ejemplo 10.8.3 Adjetssos.
Continuando con el ejemplo 8.F.3, aplicamos ahora un análisis cluster

sobre la matriz de distancias de la Tabla 8.£ (mitad inferior izquierda) por
el método del máximo (complete linkage), véase Figura fi0.4. Los
resultados con el método del mínimo son bastante parecidos, indicando
que hay una buena estructura jerárquica. Se percibe una división
principal, que agrupa los adjetivos de peso y extensión espacial, siguiendo
la dicotomía ”gran cantidad™ vs ”pequena cantidad™.
Figura fi0.4: Representación mediante un dendograma de £3 adjetivos por

el método del máximo.
10.9. Clasificacióm mo jerárquica

Una clasificación no jerárquica de n objetos en relación a una matriz
de datos cuantitativos X, consiste en obtener g grupos homogéneos y
excluyentes (clusters). Si tenemos g clusters, estamos en la misma
situación contemplada en el Cap. F, y podemos considerar la
descomposición de la variabilidad total
T=B‡W
Una partición en g clusters que hace máxima B o mínima W, en relación
a algún criterio, dará una solución al problema, puesto que tendremos una
máxima dispersión entre clusters. Algunos criterios, justificados por el
análisis multivariante de la varianza, son:
a) Minimizar tr(W).
b) Minimizar |W|.
c) Minimizar h = |W|/|T|.
d) Maximizar tr(W—fiB)
fiO.fiO. NÚMEÆO DE CLUSTEÆS £0F
Pero la cantidad de maneras diferentes de agrupar n objetos en g

clusters es del orden de gn/g!, número muy grande incluso para valores
moderados de n y g. Por ejemplo, necesitaríamos formar más de fi0X3
clusters si n = 50 y g = 3. Por tanto, es necesario seguir algún algoritmo
de agrupación.
El método de las medsas móss1es consiste en:
fi. Comenzar con g puntos del espacio Rp y asignar los objetos a g

clusters de acuerdo con la proximidad (distancia euclídea) a los g
puntos iniciales.
£. Calcular los centroides de los g clusters obtenidos y reasignar los
objetos según su proximidad al centroide de cada cluster.
3. Repetir el paso anterior, calculando cada vez la cantidad |W| (o el
criterio de optimización escogido). Parar cuando |W| ya no disminuye.
Es posible probar que la suma de cuadrados de las distancias

euclídeas de los puntos de cada cluster al centroide
g n
Σ
Σ dX(xhs, xh)
h=fi s=fi
disminuye a cada
paso.
10.10. Número de clusters

Diversos autores (Calinski, Harabasz, Hartigan, Krzanowski, Lai) han
propuesto métodos para estimar el número de clusters (conglomerados)
de una clasificación. Es éste un tema abordado desde muchas perspectivas
(véase Hardy, fi996¡ Gordon, fi999).
Normalmente el usuario determina el número h de clusters. Un primer
criterio consiste en tomar el valor h tal que maximice la cantidad
tr(B(h)) tr(W(h))
clfi(h) = / ,
g — fi n—g
donde B(h), W(h) indican las matrices entre-grupos y dentro-grupos para h
grupos. Otro criterio considera
dsƒ(h) = (h — fi)XƒpW(h — fi) — hXƒpW(h)

y elige h tal que maximiza
s1X(h) = dsƒ(h)/dsƒ (h ‡ fi).
Pero s1fi y s1X no están definidos para h = fi. Un tercer criterio propone el
estadístico
W(h)
H(h) = . fiΣ—
/(n h — fi),
W(h ‡ fi)
empieza con h = fi y aumenta h si H(h) — crece significativamente de
acuerdo con una aproximación a la distribución F.
Tibshirani et a1. (£00fi) proponen un método que contempla también
el caso h = fi. Partiendo del resultado de cualquier clasificación, jerárquica
o no, comparan el cambio de log | W(h)| respecto al cambio esperado para
una distribución apropiada de referencia, es decir,
E[log |W(h)|] — log |W(h)|.
10.11. Complememtos
La historia de la clasificación comienza con la sistemática de Carl von
Lin- né, que permitía clasificar animales y plantas según género y
especie. La clasi- ficación moderna (denominada taxonomía numérica) se
inicia en fi9†F con la necesidad de proponer criterios objetivos de
clasificación (Sokal, Sneath, Michener). Posteriormente, diversos autores
relacionaron las clasificaciones jerárquicas con los espacios ultramétricos
(Benzecri, Jardine, Sibson, John- son), dado que la propiedad ultramétrica
ya era conocida en otros campos de la matemática. Hartigan (fi96F) y
Johnson (fi96F) son dos referencias importantes para representar
matrices de similaridades (o disimilaridades) mediante dendogramas y
relacionarlos con las clasificaciones jerárquicas. Véase Gordon (fi999).
Una crítica que se ha hecho al análisis cluster es el excesivo repertorio
de distancias y métodos de clasificación. Incluso se han realizado
clasificaciones de las propias maneras de clasificar, y clasificaciones
jerárquicas de las distancias. También se ha argumentado (Flury, fi99F)
que el planteamiento correcto del análisis cluster consiste en encontrar
mixturas
ƒ(x) =pfiƒfi(x) ‡ · · · ‡pgƒg(x),

fiO.fifi. COMPLEMENTOS £09
donde cada densidad ƒs representaría un cluster y ƒ la densidad de los

datos que hemos observado. Pero si una distancia mide razonablemente
las diferencias entre los objetos, entonces se pueden obtener clasificaciones
objetivas aplicando análisis cluster jerárquico. Por ejemplo, en el ano fi999
se realizó la clasificación jerárquica del reino vegetal a partir de distancias
entre secuen- cias de DNA, obteniendo una concordancia de un 60 %
con la clasificación tradicional basada en la similitud morfológica de las
plantas.
J. C. Gower conjeturó en fi9Ffi que toda distancia ultramétrica era eu-
clídea con dimensión n—fi, un resultado que sería probado por Holman
(fi9F£). Interesó entonces estudiar la relación entre representaciones en
ár- bol y en coordenadas (Bock, Crithcley, Heiser, Kruskal). Critchley y
Heiser (fi988) probaron que, a pesar del resultado de Holman, es posible
representar un espacio ultramétrico con una sola dimensión utilizando una
métrica adecuada. Un estudio de los vectores propios y las dimensiones
principales de una matriz de distancias ultramétricas es debido a Cuadras
y Oller (fi98F). Véase también Cuadras y Carmona (fi983) y Cuadras et a1.
(fi996).
N. Jardine y R. Simpson propusieron el método de clasificación
denomi- nado flexible, que consiste en definir la distancia de un cluster a
la unión de dos clusters en función de unos parámetros, por ejemplo,
inicialmente
6 J (h, (s, j}) = αs 6(s, h) ‡ αj 6(j, h) ‡ Ø6(s, j) ‡ ç|6(s, h) — 6(j, h)|,
y análogamente en los siguientes pasos. Dando valores a los parámetros

se obtienen los métodos siguientes (se incluye denominación estándar):
Criterio de agrupación αs αj Ø ç
Mínimo (single linkage) fi/X fi/X 0 —fi/X
Máximo (complete linkage) fi/X fi/X 0 ‡fi/X
Media (weighted average fi/X fi/X 0 0
link)
wPsMA (group average link) ns /(ns ‡ nj ) nj /(ns ‡ nj ) 0 0
wPsMA (Unweighted pair group method using arithmetic averages) es

un método recomendable porque proporciona una clasificación que se
ajusta bien a la distancia inicial en el sentido de los mínimos cuadrados.
G.H. Ball, D.J. Hall, E. Diday y otros propusieron algoritmos eficientes
de agrupación no jerárquica. Consúltese Everitt (fi993).
£fi0 CAPÝTULO fiO. CLASIFICACIÓN
Capítulo 11
ANÁLISIS DISCÆIMINANTE
11.1. Imtroduccióm
Sean Kfi, KX dos poblaciones, Efi, ...,Ep variables observables.
Indiquemos x = (ıfi , ..., ıp ) las observaciones de las variables sobre un
individuo w. Se trata de asignar w a una de las dos poblaciones. Este
problema aparece en muchas situaciones: decidir si se puede conceder
un crédito¡ determinar si un tumor es benigno o maligno¡ identificar la
especie a que pertenece una planta, etc.
Una veg1a dssGvsmsnante es un criterio que permite asignar w
conocido (ıfi , ..., ıp ), y que a menudo es planteado mediante una función
discriminante D (ıfi , ..., ıp ). Entonces la regla de clasificación es
Si D (ıfi , ..., ıp ) ≤ 0 asignamos w a Kfi ,

en caso contrario asignamos w a KX.
Esta regla divide Rp en dos regiones
Rfi = (x|D(x) > 0}, RX = (x|D(x) c 0}.
En la decisión de identificar w, nos equivocaremos si asignamos w a una

población a la que no pertenece. La probabilidad de clasificación errónea
(pce) es
pse = P (RX /Kfi )P (Kfi ) ‡ P (Rfi /KX )P (KX ). (fifi.fi)
£fifi
£fi£ CAPÝTULO fifi. ANÁLISIS DISCÆIMINANTE
11.2. Clasificacióm em dos poblaciomes

11.2.1. Discrimimador limeal
Sean µfi , µX los vectores de medias de las variables en Kfi , KX ,
respectivamente, y supongamos que la matriz de covarianzas X es común.
Las distancias de Mahalanobis de las observaciones x =(ıfi , . . . , ıp )J de un
individuo w a las poblaciones son
M X (x, µs ) = (x — µs )J X—fi (x — µs ), s = fi, X.
Un primer criterio de clasificación consiste en asignar w a la población más
próxima:
Si M X (x, µfi) c MX (x, µX) asignamos w a Kfi,
(fifi.£)
Expresando esta regla como una función discriminante, tenemos:
M X (x, µX ) — M X (x, µfi ) = xJ X—fi x ‡ µX X—fi µX — XxJ X—fi µX
—xJ X—fi x — µfi X—fi µfi ‡ XxJ X—fi µfi
= (µX — µfi )J X—fi (µX ‡ µfi ) ‡ XxJ X—fi (µfi — µX ).
Definimos la función discriminante
Σ J
J (x) = x—Xfi (µfi ‡ µX ) X—fi (µfi — µX ) . (fifi.3)
Σ
Entonces M X (x, µX ) — M X (x, µfi ) = XJ(x) J((µfi ‡ µX ) /X) y la regla (fifi.
£) es
Si J(x) >0 asignamos w a Kfi,
La función lineal (fifi.3) es el dssGvsmsnadov 1snea1 de Fisher.
11.2.2. Æegla de la máxima verosimilitud

Supongamos que ƒfi (x) , ƒX(x) son las densidades de x en Kfi, KX. Una
regla de clasificación consiste en asignar w a la población donde la
verosimilitud de las observaciones x es más grande:
Si ƒfi(x) >ƒX(x) asignamos w a Kfi,
La función discriminante es
V (x) = log ƒfi (x) — log ƒX (x) .
fifi.£. CLASIFICACIÓN EN DOS POBLACIONES £fi3
11.2.3. Æegla de Bayes

En ciertas situaciones, se conocen las probabilidades a priori de que w
pertenezca a cada una de las poblaciones
qfi = P (Kfi) , qX = P (KX) , qfi ‡ qX = fi.
Una vez que se dispone de las observaciones x =(ıfi , . . . , ıp ), las
probabilidades a posteriori de que w pertenezca a las poblaciones
(teorema de Bayes) son
P (K s/x) = qsƒs(x) , s = fi, X.
q ƒ (x) ‡ q ƒ (x)
fi fi X X
La regla de clasificación de Bayes es
Si P (Kfi /x) >P (KX /x) asignamos w a Kfi ,
El discriminador de Bayes es
B (x) = log ƒfi (x) — log ƒX (x) ‡ log (qfi/qX) .
Cuando qfi = qX = fi/X, entonces B (x) = V (x) . Este discriminador es ópti-
mo.
Teorema 11.2.1 Ga veg1a de Ba4es msnsmssa 1a pvobabs1sdad de
G1assflGaGsón evvónea.
Demost.: Supongamos que se dispone de otra regla que clasifica a Kfi si x

cRfi×,
y a KX si x cRX× , donde Rfi× , RX× son regiones complementarias del espacio
muestral. Indicando dx =dıfi · · · dıp, la probabilidad de clasificación errónea
es
∫ ∫
pse× = qfi ƒfi(x)dx‡qX ƒX(x)dx
∫ R2× ∫— R
× fi
∫
= (qfiƒfi(x) qXƒX(x))dx‡qX( ƒX (x)dx‡ ƒX(x)dx)
∫R
× 2
R 2 R
× fi
= (qfiƒfi(x)—qXƒX(x))dx‡qX.
R
× 2
Indiquemos x = qfi ƒfi (x)—qX ƒX (x). Esta última integral es mínima si RX× in-
cluye todas las x tales que xc0 y excluye todas las x tal que x>0. Por tanto
pse× es mínima si RX× = RX , siendo RX = (x|B(x) c0}. Q
£fi4 CAPÝTULO fifi. ANÁLISIS DISCÆIMINANTE
11.3. Clasificacióm em poblaciomes mormales

Supongamos ahora que la distribución de Efi, ...,Ep en Kfi es Np(µfi, Xfi)
y en KX es Np(µX, XX), es decir,
fiƒX
ƒs (x) = (Xv)—pƒX .X—fi
s
. exp(— fiX (x — µ s)J X—fi
s (x — µ s)}.
11.3.1. Discrimimador limeal

Si suponemos µfi ƒ= µX, Xfi = XX = X, entonces
V (x) = — Xfi (x — µfi )J X—fi (x — µfi ) ‡ Xfi (x — µX )J X—fi (x — µX ) = J(x),
y por tanto los discriminadores máximo verosímil y lineal, el segundo
basado en el criterio de la mínima distancia, coinciden.
Sea α la distancia de Mahalanobis entre las dos poblaciones
α = (µfi —µX )J X—fi (µfi —µX ).
Consideremos U = (x — µfi )J X—fi (µfi —µX ). Si x proviene de Np (µfi , X),

entonces E(U ) = 0, var(U ) = E[(µfi —µX )J X—fi (x — µfi )(x — µfi )J X—fi (µfi —
µX )]
= α, por ser E[(x — µfi )(x — µfi )J ] = X.
Por otra parte, de x—X fi (µfi ‡ µX) = x—µfi‡fi X(µfi — µX) , vemos que J (x)
= U ‡ fiX α. Por lo tanto E(J (x)) = α/X, var(J(x)) = α.
De x — µfi = x — µX ‡ µX — µfi , también U = (x — µX )J X—fi (x — µX ) ‡
α. Entonces, si x proviene de Np (µX , X), vemos que E(U— ) = α, var(U )
fi
= α. Al ser J (x) = XU ‡ α, deducimos que E(J (x)) — = α/X, var(J(x)) =
α.
Hemos encontrado la distribución de la función discriminante J(x):
J(x) es N(‡fi α, α) si x proviene de Np(µfi, X),
X
fi
(fifi.4)
J(x) es N(— X α, α) si x proviene de Np(µX, X).

Si suponemos µfi µX, Xfi = XX = X, y conocemos las probabilidades a
priori qfi = P (Kfi) , qX = P (KX) , entonces es fácil ver que
B(x) = J(x)‡ log(qfi/qX),
y la función discriminante de Bayes es el discriminador lineal más la constante
log(qfi/qX).
fifi.S. CLASIFICACIÓN EN POBLACIONES NOÆMALES £fi†
11.3.3. Probabilidad de clasificacióm errómea

La probabilidad de asignar x a KX cuando proviene de Np(µfi, X) es
, ,
P (J(x) c0|Kfi ) = P ((J(x)— fi α)/ α) = 8(— fi α),
X X
donde 8(x) es la función de distribución N(0, fi). La probabilidad de clasifi-

cación errónea es
,
pse = qfi P (J(x) c0|Kfi ) ‡ qX P (J(x) >0|KX ) = 8(— Xfi α).
Por tanto pse es una función decreciente de la distancia de Mahalanobis α

entre las dos poblaciones.
11.3.4. Discrimimador cuadrático

Supongamos µfi ƒ= µX, Xfi = XX. Entonces el criterio de la máxima
verosimilitud proporciona el discriminador
. Σ . Σ
Ø (x) = fiX xJ X—X fi — X—fi fi x ‡ xJ X—fi fi µfi — X—X fi µX
‡ fi µX JX X—X fi µX — fiX µJfi X—fi fi µfi ‡X fi

log |XX | —X fi log |Xfi | .
Ø(x) es el dssGvsmsnadov GuadvátsGO. Análogamente podemos obtener el
discriminador cuadrático de Bayes
B(x) =Ø(x) ‡ log(qfi/qX).
11.3.5. Clasificacióm cuamdo los parámetros som esti-

mados
En las aplicaciones prácticas, µfi, µX, Xfi, XX son desconocidos y se de-
berán estimar a partir de muestras de tamanos nfi, nX de las dos
poblaciones sustituyendo µfi, µX por los vectores de medias xfi, xX, y Xfi, XX
por las matrices de covarianzas Sfi, SX. Si utilizamos el estimador lineal,
entonces la estimación de X será
S =(nfi Sfi ‡ nX SX )/(nfi ‡ nX )
y la versión muestral del discriminador lineal es
J^ (x) = [x—X fi (xfi ‡ xX )]J S—fi (xfi — xX ) .

La distribución muestral de ^J (x) es bastante complicada, pero la distribución

asintótica es normal:
^ es N(‡ fi α, α) si x proviene de Np(µfi, X),
J(x) X
^
J(x) es N(— Xfi α, α) si x proviene de Np(µX, X),
donde α = (xfi — xX )J S—fi (xfi — xX ) .
11.4. Ejemplo
Ejemplo 11.4.1 Gopépodos.
M4ts1sGO1a sntestsna1ss es un copépodo parásito del mejillón, que en

estado larval presenta diferentes estadios de crecimiento. El primer estadio
(Nauplis) y el segundo estadio (Metanauplius) son difíciles de distinguir.
Sobre una muestra de nfi = t6 y nX = 9fi copépodos que se pudieron
identificar al microscopio como del primero y segundo estadio
respectivamente, se midieron las variables
1 = longitud, a = anchura,
y se obtuvieron las siguientes medias y matrices de covarianzas:
Estadio-fi Estadio-£
xfi = ( Xfi9,5 fi38,fi xX = ( XŒfi,6 fiŒt,8 )
) . .
Œ09,9 —fi,3fi6 Xfi0,9 5t,9t
Sfi = Σ —fi,3fi6 306,X SX = Σ 5t,9t fi5X,8
Discrimimador limeal
La estimación de la matriz de covarianzas común es:
. Σ
S = (nfiSfi ‡ nXSX )/(n fi 30fi,Œ 3fi,0X
‡ nX ) = 3fi,0X XXX,6 .
El discriminador lineal es:

. Σ—fi . Σ
30fi,Œ 3fi,0X —XX,fi
fi X
J(long,
X85,9)] anch) = [(l, a) — (Œ6fi,fi, 3fi,0X XXX,6 —9,t
= —0,069long — 0,03Œanch ‡ X0,9Œ

fifi.Œ. EJEMPLO £fiF
Figura fifi.fi: Discriminadores lineal y cuadrático en la clasificación de

copépo- dos en Estadios fi y £. La línea recta es el conjunto de puntos
tales que J = 0. La parábola es el conjunto de puntos tales que Ø = 0.
La tabla de clasificaciones es:
Estadio asignado
fi £
Estadio fi 6fi fi†
original £ £fi F0
Discrimimador de Bayes
Una larva, desde que eclosiona está 4 horas en el estadio fi y 8 horas
en el estadio £. Al cabo de fi£ horas, la larva pasa a un estadio fácilmente
identificable. Por tanto, una larva tiene, a priori, una probabilidad Œ/fiX =
fi/3 de pertenecer al estadio fi y una probabilidad 8/fiX = X/3 de
pertenecer al estadio £. Así qfi = fi/3, qX = X/3, y el discriminador de Bayes
es
B(long, anch) = V (long, anch) ‡ log(fi/X) = —0,069 long — 0,03Œ anch ‡ X0,XŒ
Probabilidad de clasificacióm errómea

Una estimación de la distancia de Mahalanobis es
. Σ . Σ
. Σ 30fi,Œ 3fi,0X —fi —XX,fi
—XX,fi —9,t =
3fi,0X XXX,6 —9,t fi,8tX.
La probabilidad de asignar una larva al estadio fi cuando corresponde al
estadio £ o al estadio £ cuando corresponde al estadio fi es
√
fi
pse = 8(— X fi,8tX) = 8(—0,68Œ) = 0,XŒt.
Discrimimador cuadrático
El test de homogeneidad de covarianzas nos da:
fi3 )Σ (fi835,Œ — 88X,5 — 9X6, 3X) = X6,XX
zX = Σfi — ( fi fi
fi ‡ —
fi8 t5 90
fi65
con 3 g.l. Las diferencias entre las matrices de covarianzas son significati-
vas. Por tanto, el discriminador cuadrático puede resultar más apropiado.
Efectuando cálculos se obtiene:
Ø(long, anch) = 0,00fiŒ longX ‡ 0,00X anchX — 0,00X long × anch
—0,ŒŒ5 long — 0,fiŒfi anch ‡ tX,36
Con el clasificador cuadrático se han clasificado bien £ individuos más

(Fig. fifi.fi):
Estadio asignado
fi £
Estadio fi †9 fiF
original £ fiF F4
11.5. Discrimimacióm em el caso de h pobla-

ciomes
Supongamos ahora que el individuo w puede provenir de h
poblaciones Kfi , KX , . . . ≤
, Kh , donde h 3. Es necesario establecer una
regla que permita asignar w a una de las h poblaciones sobre la base de las
observaciones x = (ıfi , ıX , . . . , ıp )J de p variables.
fifi.†. DISCÆIMINACIÓN EN EL CASO DE K POBLACIONES £fi9
11.5.1. Discrimimadores limeales

Supongamos que la media de las variables en Ks es µs, y que la
matriz de covarianzas X es común. Si consideramos las distancias de
Mahalanobis de w a las poblaciones
M X (x, µs ) = (x — µs )J X—fi (x — µs ), s = fi, . . . , h,
un criterio de clasificación consiste en asignar w a la población más
próxima: Si MX(x, µs) =( m´ın M X(x, µfi), . . . , MX(x,} µh) , asignamos w
a Ks .
(fifi.†)
Introduciendo las funciones discriminantes lineales
. ΣJ . ΣJ . Σ
Jsj (x) = µs — µj X—fi x— fiX µs — µj X—fi µs ‡ µj
es fácil probar que (fifi.†) equivale a
Si Jsj (x) > 0 para todo j s, asignamos w a Ks.

Además las funciones Jsj (x) verifican:
fi. Jsj (x) = fi X[MX(x, µj ) — MX (x, µs)].
£. Jsj (x) = —Jjs (x) .
3. Jvs (x) = Jss (x) — Jsv (x) .
Es decir, sólo necesitamos conocer h — fi funciones discriminantes.
11.5.2. Æegla de la máxima verosimilitud

Sea ƒs(x) la función de densidad de x en la población Ks. Podemos
obtener una regla de clasificación asignando w a la población donde la
verosimilitud es más grande:
Si ƒs (x) = ma´x(ƒfi (x), . . . , ƒh (x)}, asignamos w a Ks .
Este criterio es más general que el geométrico y está asociado a las

funciones discriminantes
Vsj (x) = log ƒs (x) — log ƒj (x).
££0 CAPÝTULO fifi. ANÁLISIS DISCÆIMINANTE
En el caso de normalidad multivariante y matriz de covarianzas común, se

verifica Vsj(x) = Jsj(x), y los discriminadores máximo verosímiles coinciden
con los lineales. Pero si las matrices de covarianzas son diferentes Xfi, . . .
, Xh, entonces este criterio dará lugar a los discriminadores cuadráticos
. Σ . Σ
Øsj (x) = Xfi xJ Xj—fi — Xs—fi x ‡ xJ Xs—fi µfi — Xj—fi µX
fi
‡ fiX µjJ Xj—fi µj — µJs Xs—fi µs ‡ fiX log |Xj | — fiX log |Xs | .
X

Si además de las funciones de densidad ƒs(x), se conocen las
probabilidades a priori
qfi = P (Kfi) , . . . , qh = P (Kh) ,
la regla de Bayes que asigna w a la población tal que la probabilidad a
posteriori es máxima
Si qs ƒs (x) = ma´x(qfi ƒfi (x), . . . , qh ƒh (x)}, asignamos w a Ks ,
está asociada a las funciones discriminantes
Bsj (x) = log ƒs (x) — log ƒj (x) ‡ log(qs /qj ).
Finalmente, si P (j/s) es la probabilidad de asignar w a Kj cuando en

realidad es de Ks, la probabilidad de clasificación errónea es
. h P (j/s)Σ ,
Σh
pse = qs Σ
s=fi jƒ
=s
y se demuestra que la regla de Bayes minimiza esta pGe.
11.6. Um ejemplo clásico

Continuando con el ejemplo 3.6.£, queremos clasificar a una de las 3
especies una flor cuyas medidas son:
ıfi = 6,8 ıX = X,8 ı3 = Œ,8 ı4 = fi,Œ

fifi.6. UN EJEMPLO CLÁSICO ££fi
La matriz de covarianzas común es

,. ,
. 0,X650 0,09Xt 0,fi6t5 0,038Œ
0,fifi5Œ 0,055XŒ 0,03Xt
. .
S= , 0,fi85fi9 0,0ŒX6
,
0,0Œfi8
Las distancias de Mahalanobis (al cuadrado) entre las 3 poblaciones son:
Setosa Versicolor Virginica
Setosa 0 89,86Œ fit9,38
Versicolor 0 fit,X0fi
Virginica 0
Los discriminadores lineales son:
JfiX (ı) = fiX [M X (ı, ıX ) — M X (ı, ıfi )] ,
Jfi3 (ı) = fiX [M X (ı, ı3 ) — M X (ı, ıfi )] ,
JX3 (ı) = Jfi3 (ı) — JfiX (ı), JXfi (ı) = —JfiX (ı),
J3fi (ı) = —Jfi3 (ı), J3X (ı) = —JX3 (ı).
La regla de decisión consiste en asignar el individuo ı a la población s si
Jsj(ı) > 0 6j ƒ= s.
Se obtiene:
Individuo JfiX Jfi3 JXfi JX3 J3fi J3X Población

ı —5fi,fi0t —ŒŒ,t59 5fi,fi0t 6,3Œ8Œ ŒŒ,t59 —6,3Œ8Œ X
Por lo tanto clasificamos la flor a la especie I. Versicolor.
Para estimar la probabilidad de clasificación errónea pGe podemos
omitir una vez cada individuo, clasificarlo a partir de los demás y
observar si sale bien clasificado (método 1eassng−one−out). El resultado de
este proceso da:
Población asignada
fi £ 3
Población fi †0 0 0
original £ 0 48 £
3 0 fi 49
Sólo hay 3 individuos mal clasificados y la pGe estimada es 3/fi50 = 0,0X.
£££ CAPÝTULO fifi. ANÁLISIS DISCÆIMINANTE
11.Y. Complememtos
El Análisis Discriminante se inicia en fi936 con el trabajo de R.A.
Fisher sobre clasificación de flores del género Iris. A. Wald y T.W.
Anderson estudiaron las propiedades del discriminador lineal. L. Cavalli y
C. A. B. Smith introdujeron el discriminador cuadrático.
J. A. Anderson, en diversos trabajos, estudió el modelo de
discriminación logístico. Si definimos
4(w, x) = P (Kfi /x) = qfi ƒfi (x)/(qfi ƒfi (x) ‡ qX ƒX (x)),
la regla de clasificación es
w es de Kfi si 4(w, x) > fi/X, de KX en caso contrario.
Entonces el modelo logístico (modelo 1ogst) supone

f i
4(w, x) = = 5 (— α Ø J x),
fi ‡ eα‡Ø x
t
donde 5 (x) = fi/(fi‡e—x ) es la llamada función de distribución logística.

Este modelo se estudia en el próximo capítulo. Se pueden obtener otros
modelos cambiando 5. Por ejemplo, si escogemos la función de
distribución normal estándar, entonces obtenemos el llamado modelo
pvobst.
Capítulo 12
DISCÆIMINACIÓN
LOGíSTICA V OTÆAS
12.1. Amálisis discrimimamte logístico

12.1.1. Imtroduccióm
El modelo de regresión logística permite estimar la probabilidad de un
suceso que depende de los valores de ciertas covariables.
Supongamos que un suceso (o evento) de interés A puede
presentarse o no en cada uno de los individuos de una cierta población.
Consideremos una variable binaria 4 que toma los valores:
4 = fi si A se presenta, 4 = 0 si A no se presenta.
Si la probabilidad de A no depende de otras variables, indicando P (A) = p,

la verosimilitud de una única observación 4 es
J = p4(fi — p)fi—4,
pues J = p si 4 = fi, J = fi — p si 4 = 0.
Si realizamos n pruebas independientes y observamos 4fi, . . . , 4n, la
verosimilitud es
Yn
J= p4s (fi — p)fi—4s = ph(fi — p)n—h
s=fi
££3
££4 CAPÝTULO fi£. DISCÆIMINACIÓN LOGÝSTICA Y OTÆAS
Σ
siendo h = 4s la frecuencia absoluta de A en las n pruebas. Para estimar
p resolvemos la ecuación de verosimilitud
6
ln J = 0
6p
cuya solución es^p = h/n, la frecuencia relativa del suceso A. La
distribución asintótica
^ de p es normal N(p, p(fi p)/n).
Muy distinta es la estimación cuando esta probabilidad depende de
— La probabilidad de A debe entonces modelarse
otras variables.
adecuadamente.
12.1.2. Modelo de regresióm logística

Supongamos ahora que la probabilidad p depende de los valores de
ciertas variables Efi , . . . , Ep . Es decir, si x = (ıfi , . . . , ıp )J son las
observaciones de un cierto individuo w sobre las variables, entonces la
probabilidad de acon- tecer| A dado x es p(4 = fi x). Indicaremos esta
probabilidad por p(x). La probabilidad contraria de que A no | suceda dado
x será p(4 = 0 x) = fi p(x). Es fácil darse cuenta que pretender que p(x)
sea una función lineal de x no puede funcionar correctamente, pues p(x)
está comprendido entre 0 y fi.
Por diversas razones, es muy conveniente suponer un modelo lineal
para la llamada transformación logística de la probabilidad
Σ p(x)
ln fi — p(x) = Ø ‡ ıfi ‡ · · · ‡ ıp = ‡ Ø J x, (fi£.fi)
O p
Σ Øfi Ø ØO
siendo Ø = (Ø fi , . . . , Ø p )J parámetros de regresión. El modelo (fi£.fi) equivale

a suponer las siguientes probabilidades para A y su contrario, ambas en
función de x
t
eØ0‡Ø x fi
p(x) = 0 t , fi — p(x) = 0 t .
fi ‡ eØ ‡Ø x fi ‡ eØ ‡Ø x
Hagamos ahora una breve comparación con el modelo lineal. El
modelo de regresión lineal (véase Capítulo fi3) es
4 = Ø O ‡ Ø fi ıfi ‡ · · · ‡ Ø p ıp ‡ e,
donde se supone que 4 es una variable respuesta cuantitativa y que e es
un error con media 0 y varianza oX. Usando la misma terminología,
podemos entender el modelo logístico en el sentido de que
4 = p(x) ‡ e,
fi£.fi. ANÁLISIS DISCÆIMINANTE LOGÝSTICO ££†
donde ahora 4 sólo toma los valores 0 ó fi. Si 4 = fi entonces — e = fi p(x)

con probabilidad p(x). Si 4 = 0 entonces — e = p(x) con probabilidad fi
p(x). De este modo, dado x, el error e tiene media 0 y varianza — p(x)(fi
p(x)).
Dado un individuo w, la regla de discriminación logística (suponiendo
los parámetros conocidos o estimados) simplemente decide que w posee
la característica A si p(x) > 0,5, y no la posee si p(x)≤0,5 Introduciendo la
función discriminante
p(x)
J (x) = ln Σ Σ,
g
fi — p(x)
la regla de decisión logística
es
Si Jg(x) > 0 entonces 4 = fi, si Jg(x) ≤ 0 entonces 4 = 0.
12.1.3. Estimacióm de los parámetros

La verosimilitud de una observación 4 es J = p(x)4(fi — p(x))fi—4. La
obtención de n observaciones independientes
(4s , xs ) = (4s , ısfi , . . . , ısp )
se puede tabular matricialmente como

, fi , , ,
4 fi ıfifi ıfiX · · · ıfip
¢ =. 4 X
. . fi ıXfi ıXX · · · ıXp
, X= , .
.
4 fi ınfi ınX · · · ınp
. . . . ..
, . , , .. . .. . ..
.
Nótese que, para poder tener en cuenta el término constante Ø O en el
modelo, la primera columna de X contiene unos.
La verosimilitud de n observaciones independientes es
n
Y
J= p(xs)4s (fi — p(xs))fi—4s
s=fi
Tomando logaritmos
n
Σ
ln J = 4s ln p(xs)(fi — p(x))fi—4s
s=fi
A fin de hallar los estimadores máximo verosímiles de los parámetros Ø de-

beremos resolver las ecuaciones
6
ln J = 0, j = 0, fi, . . . , p.
6Ø j
Se tiene ln p(xs) = ØO ‡ Øfixs — ln(fi ‡ eØ0‡Øfixs ), luego

6
ln p(x ) = fi — eØ ‡Øtx
0 s
6Ø0 s t
fi‡eØ0‡Ø xs
= fi — p(x )
s
6 t
eØ0‡Ø x
6Øj ln p(xs) = ısj —ısj t
= ısj (fi — p(xs))
fi‡eØ0‡Ø xs
Análogamente derivaríamos ln(fi — p(xs)) = ln(fi ‡ eØ0‡Øfixs ). Se obtienen

entonces las ecuaciones de verosimilitud para estimar los parámetros Ø,
Σn
(4s — p(xs)) = 0,
s=fi
n (fi£.£)
Utilizando el vectorΣ s=fi ¢,
sj la
( s
p(x
matrizs ))
X =
y 0,
el j =
vectorfi,
de . . . , p.
probabilidades v(X)
ı 4ecuaciones
= (p(xfi ) . . . , p(xn ))J , estas — se pueden escribir como
XJ v(X) = XJ ¢,
siendo comparables con las ecuaciones normales (Capítulo fi3) XJ XØ =

XJ V, para estimar los parámetros Ø del modelo lineal ¢ = XØ‡e, salvo
que ahora el modelo XØ es v(X), que depende de Ø. Sin embargo las
ecuaciones (fi£.£) no se pueden resolver explícitamente, debiéndose
recurrir a procedimientos numéricos iterativos. Véase Pena (£00£).
12.1.4. Distribucióm asimtótica y test de Wald

Indiquemos por Ø^ = (ØÔ , Ø^fi , . . . , Ø^ p )J la estimación de los parámetros.
Aplicando la teoría asintótica de los estimadores máximo verosímiles, la ma-
triz de información de Fisher es FØ = XJ VX, siendo
, ,
p(xfi )(fi — p(xfi )) · · · 0
V = ,. . .. .. ,
.
.
.
.
0 · · · p(xn)(fi — p(xn))
La distribución asintótica de ^Ø es normal multivariante Np‡fi(Ø , F

Ø
—fi
). En
^
particular, la distribución asintótica del parámetro Ø es normal s
N(Ø s ,var(Ø^ s )),

fi£.fi. ANÁLISIS DISCÆIMINANTE LOGÝSTICO ££F
^ ) es el correspondiente elemento diagonal de la matriz inversa

donde var(Ø s
—fi
FØ .
El llamado test de Wald para la significación de Ø s utiliza el estadístico
x =^Ø s /.var(Ø s ),
^ o bien xX con distribución ji-cuadrado

con distribución asintótica N(0, fi),
con fi g. l.
Si se desea estudiar la significación de todos los parámetros de regresión,
el test de Wald calcula
^ ûJ =
Ø
Ø F Ø,
con distribución asintótica ji-cuadrado con p ‡ fi g. l. bajo la hipótesis nula
Ø = 0.
12.1.5. Ajuste del modelo

En regresión logística se obtiene el ajuste del modelo calculando la
verosimilitud J del modelo (estimando los parámetros por máxima
verosimilitud) y utilizando el llamado estadístico de desviación:
D = —X ln J(modelo de regresión).
Se puede interpretar D como menos dos veces la razón de
verosimilitudes del modelo ajustado y el modelo saturado
J(modelo de regresión)
D = —X ln .
J(modelo saturado)
El modelo saturado es el que posee tantos parámetros como
observaciones. En nuestro caso
Yn
J(modelo saturado) = 4s4s × (fi — 4s)fi—4s) = fi.
s=fi
Supongamos ahora que deseamos estudiar la significación de una o

varias covariables. En particular, la significación de un coeficiente de
regresión: HO : Øs = 0. Utilizando la desviación D calcularemos
G = D (modelo sin las variables) — D(modelo con las variables)
J(modelo sin las variables)
= —X ln .
J(modelo con las variables)
Figura fi£.fi: Curva ROC que representa las curvas fi-Especificidad y

Sensi- bilidad. La curva £ indicaría que los datos poseen mejor capacidad
de dis- criminación que la curva fi.
Si queremos estudiar la significación de h variables, entonces la

distribución asintótica de G es ji-cuadrado con h g. l. En particular h = fi si
sólo estudiamos la significación de una variable.
12.1.6. Curva ÆOC

Supongamos que la población consiste en individuos que poseen un
tumor, el cual puede ser maligno (suceso A), o benigno (contrario de A).
La regla de discriminación logística
Si p(x) > 0,5 decidimos que 4 = fi
puede resultar insuficiente en este caso, pues bastantes individuos

podrían ser clasificados como tumor benigno siendo maligno.
Se llama senssbs1sdad a la curva
Se(t) = P (p(x) > t | 4 = fi),0 ≤ t ≤ fi.
Variando t, la curva Se va dando la proporción de individuos a los que

se detecta tumor maligno. Para t = 0 todos los individuos resultarían
malignos, y para t = fi todos resultarían benignos.
fi£.fi. ANÁLISIS DISCÆIMINANTE LOGÝSTICO ££9
Se llama espeGsflGsdad a la curva
E‹(t) = P (p(x) c t|4 = 0), 0 ≤ t ≤ fi.
Variando t, la curva E‹ va dando la proporción de individuos a los que

se detecta tumor benigno. Para t = 0 todos los individuos resultarían
benignos, y para t = fi todos resultarían malignos. Es un problema
importante en diagnosis médica determinar el valor de corte t tal que
detecte el mayor número de tumores malignos, sin cometer demasiados
errores (decidir que es maligno cuando en realidad es benigno).
La curva ROC (Receiving Operating Characteristic) resume las dos
curvas de sensibilidad y especificidad. Es la curva que resulta de
representar los puntos
(fi — E‹(t), Se(t)) 0 ≤ t ≤ fi,
es decir, fi-Especificidad en el eje OX, y la Sensibilidad en el eje OY. La
curva ROC está por encima de la diagonal, y cuanto más se aparta de la
diagonal, mejor es la discriminación (Figura fi£.fi).
En el caso de que la curva coincida con la diagonal, se tiene que
Se(t) = P (p(x) > t|4 = fi) = fi — E‹(t) = P (p(x) > t|4 = 0).
Entonces no es posible distinguir entre las dos poblaciones. Es decir, ten-

dríamos que la función discriminante logística Jg(x) = ln[p(x)/(fi— p(x))]
tiene exactamente la misma distribución tanto si 4 = fi como si 4 = 0.
El área bajo la curva ROC es siempre mayor o igual que 0,5. Un valor
a partir de 0,8 se considera como que la discriminación es buena. Un
valor a partir de 0,9 se consideraría como muy bueno. La discriminación
sería perfecta si el área vale fi. Véase Hosmer y Lemeshow (£000).
Ejemplo 12.1.1 Bebés.
En un estudio epidemiológico sobre n = fi89 mujeres que han tenido

un bebé, se intentó estudiar las causas (edad, peso antes embarazo,
fumar, etc.) que provocan el nacimiento de un bebé prematuro. Se
considera que un bebé es prematuro si su peso está por debajo de los
£†00 gramos. Visitando la página web
http://www.umass.edu/statdata/statdata/
£30 CAPÝTULO fi£. DISCÆIMINACIÓN LOGÝSTICA Y OTÆAS
(‹ Data sets, Regression-Logistic) se puede bajar el archivo ”Low Birth-

weight™. Consideramos LOW como variable dependiente (0 si peso
mayor
£†00gr, fi si menor que £†00gr) y las variables predictoras Edad, Peso
(peso de la madre), Raza (fi=blanco, £=negro, 3=otros), Fumadora (0=no
fuma, fi=fuma), Visitas (número de visitas al médico durante el primer
trimestre). En el archivo original las variables se denominan: age, weight,
race, smoke, visits.
Las estimaciones de los parámetros Ø O , Øfi, . . ., sus desviaciones
típicas y el estadístico de Wald se dan en el siguiente cuadro. La variable
Raza (categórica con 3 estados), se desglosa en £ variables binarias.
Variable Ø ST(Ø) Wald g. l. p

Edad —0,0XX 0,035 0,Œfi fi 0,6XX
Peso —0,0fiX 0,006 3,t6 fi 0,05X
Raza t,t9 X 0,0X0
Raza_fi —0,9Œ 0,Œfi 5,0t fi 0,0XŒ
Raza_£ 0,X9 0,5X 0,30 fi 0,583
Fumadora fi,05 0,38 t,6Œ fi 0,006
Visitas —0,008 0, fi6 0,00X fi 0,963
Constante —0,t9 0,fi5 X5,3 fi 0,000
D = —£log(verosim) XfiŒ,5t
Con el modelo considerando el término constante y † variables (Edad,

Peso, Raza, Fumadora, Visitas), obtenemos D = — X ln(modelo) = XfiŒ,5t5.
Considerando el término constante y 3 variables (Peso, Raza, Fumadora),
obtenemos D =— X ln(modelo) = Xfi5,05. La diferencia entre las dos
desviaciones—Xfi5,05 XfiŒ,5t5 = 0,Œt5 es ji-cuadrado con 3 g. l., no
significativo. Luego no hay ventaja en incluir las variables Edad y Número
de visitas.
La regla estándar de decisión en regresión logística es:
Si p(ı) > 0, 5 el bebé tiene el peso bajo, en caso contrario es normal.
El valor de corte 0, 5 se puede alterar para mejorar la Sensibilidad

(detectar un bebé con peso bajo) o la Especificidad (detectar un bebé
con peso normal). En la siguiente tabla vemos que si disminuye el punto
de corte, detectamos
fi£.fi. ANÁLISIS DISCÆIMINANTE LOGÝSTICO £3fi
más bebés de bajo peso, pero menos de peso normal.
Corte % Normales pred. % Peso bajo pred.

0,fi 9,£ fi00
0,3 †0,0 F6,3
0,† 93,8 fi†,3
0,F fi00 fi,F
0,9 fi00 0
La curva ROC es el gráfico conjunto de fi-Especificidad (eje horizontal)

y la Sensibilidad (eje vertical), variando la probabilidad de corte. La
diagonal indicaría empate (no se distingue entre bebé de bajo peso y
bebé normal). El área bajo la curva ROC es 0, 5 en el peor de los casos
(que la curva ROC coincida con la diagonal). En este ejemplo (Figura fi£.
£) el área vale 0, 68Œ, indicando que el modelo posee una capacidad de
predicción moderada.
Figura fi£.£: Curva ROC que representa la Sensibilidad frente a

fi—Especificidad, para los datos de bebés con bajo peso.
£3£ CAPÝTULO fi£. DISCÆIMINACIÓN LOGÝSTICA Y OTÆAS
12.1.Y. Comparacióm emtre discrimimador limeal y

logís- tico
En el modelo logístico conocemos la probabilidad p(x) de 4 = fi dados
los valores x
t
Ø ‡Ø x
p(x) = e 0
fi ‡
Ø
0‡Øtx
e
Bajo normalidad Np(µfi, X), Np(µO, X) con probabilidades a priori qfi
= qO = fi/X, y utilizando el discriminador lineal, la probabilidad de 4 = fi
(es decir, de la población Np(µfi, X)) dado x es
ƒfi(x)
P (4 = fi x) = = fi
(x—µfi)tE—fi(x—µfi)
ƒ (x) ‡ ƒ (x) e—2 .
| fi O
—2 fi (x—µfi)tE—fi(x—µfi) —2 fi (x—µ0)tE—fi(x—µ0)
e ‡e
Multiplicando numerador y denominador por e2 fi (x—µ0 )tE—fi(x—µ0 ) y
teniendo en cuenta que — fi (x — µfi )J X—fi (x — µfi ) ‡ fi (x — µO )J X—fi (x — µO ) =
—J(x), X X
donde
fi
J (x) = Σx— (µ ‡ µ ) X—fi (µ — µ )
O fi
X O fi
Σj
es el discriminador lineal, vemos

que
e—L(x)
P (4 = fi|x) = .
fi ‡ e—L(x)
Puesto que —J(ı) = Ø O ‡ Ø J x siendo
fi
ØO = — (µ fi ‡ µ )J X—fi
X O fi — µO ) , Ø = X—fi (µ fi — µO ) ,
(µ
conseguimos obtener el modelo logístico a partir del discriminador lineal.

Sin embargo, el modelo normal es más eficiente. En realidad el modelo
logístico sirve para la clase de distribuciones pertenecientes a la familia
exponencial, que incluye la normal. Al ser el logístico un modelo más
amplio y robusto, pierde en eficiencia.
Efron (fi9F†) calculó analíticamente la eficiencia relativa (cociente entre
las probabilidades de clasificación errónea) del modelo logístico respecto ,
al lineal normal. La eficiencia relativa asintótica es una función de α
siendo
α la distancia de Mahalanobis entre las dos poblaciones:
α = (µfi —µO )J X—fi (µfi —µO ).

fi£.£. ANÁLISIS DISCÆIMINANTE BASADO EN DISTANCIAS £33
Para qfi = qO = fi/X (el caso más favorable para el discriminante

logístico), la eficiencia es la misma (vale fi), para valores muy pequenos
de α, y decrece hasta 0.343 para α = fi6 (la probabilidad de error en el
caso logístico es tres veces mayor que en el normal si α es grande). Los
,α
0 0,5 fi fi,5 X X,5 3 3,5 Œ
Eficienciafi,000fi,0000,9950,9680,8990,t860,6Œfi0,Œ860,3Œ3
valores son:
Continuando con el ejemplo fifi.4.fi, el discriminador lineal (suponiendo
normalidad e igualdad de matrices de covarianzas) es:
J(long,anch) = —0,069 long — 0,03Œ anch ‡ X0,9Œ
, ,
En este ejemplo α = fi,8tX = fi,368. La eficiencia del discriminador logís-
tico con respecto al lineal normal es del orden de 0,98.
Aplicando el modelo logístico, se obtiene
Variable Ø ST(Ø) Wald g. l. p valor
Amplitud 0,069 0,0fiX 3fi,Xfi fi 0,000
Anchura 0,03fi 0,0fi3 5,859 fi 0,0fi5
Constante —X0,X3 3,Xtt 38,fi5 fi 0,000
D = —£ln(verosim) fi6t,fiX
Las probabilidades de que un copépodo con longitud 1 y anchura a
pertenezca al estadio fi y al estadio £ son, respectivamente:
fi
, e—XO,X3‡O,O691‡O,O3fia
fi ‡ e—XO,X3‡O,O691‡O,O3fia
fi ‡ e—XO,X3‡O,O691‡O,O3fia
Por ejemplo, si 1 = XŒ8, a = fi60, entonces las probabilidades son 0,fi36
y 0,863, y el copépodo sería asignado al estadio £. Los resultados
prácticamente coinciden con el discriminador lineal (Figura fi£.3).
12.2. Amálisis discrimimamte basado em

distamcias
Los métodos que hemos descrito funcionan bien con variables
cuantitativas o cuando se conoce la densidad. Pero a menudo las
variables son binarias, categóricas o mixtas. Aceptando y aplicando el
principio de que siempre es posible definir una distancia entre
observaciones, es posible dar una versión del análisis discriminante
utilizando solamente distancias.
Figura fi£.3: Curvas ROC para el discriminador lineal y el logístico (izquier-

da). Ambas curvas son indistinguibles (derecha), indicando la misma
eficiencia para discriminar entre los dos estadios. El área bajo la curva
ROC es 0,838.
12.2.1. La fumcióm de proximidad

Sea K una población, X un vector aleatorio con valores en 5 c Rp y
densidad ƒ (ıfi , ..., ıp ) . Sea 6 una función de distancia entre las
observaciones de X. Definimos la variabilidad geométrica como la cantidad
V 6 (X) = fi ∫ 6X (x, ¢) ƒ(x)ƒ(¢)dxd¢
T
X
V 6 (X) es el valor esperado de las distancias (al cuadrado) entre
observaciones independientes de X.
Sea w un individuo de K, y x = (ıfi , ..., ıp )J las observaciones de X sobre
w. Definimos la función de proximidad de w a K en relación con X como la
función
Σ Σ
$X (x) = E 6 X (x, X) — V 6 (X) = ∫ 6 X (x, t)ƒ (t)dt—V 6 (X) . (fi£.3)
6
T
$X6 (x) es la media de las distancias de x, que es fija, a t, que varía aleato-
riamente, menos la variabilidad geométrica.
fi£.£. ANÁLISIS DISCÆIMINANTE BASADO EN DISTANCIAS £3†
Teorema 12.2.1 Supongamos que exsste una vepvesentaGsón de (5, 6) en

un espaGso J (EuG1sdeo o de Hs1bevt)
(5, 6) ‹ J
GOn un pvoduGto esGa1av c ., . > 4 una novma ǁxǁX =c x, x >, ta1 que
6X (x, ¢) = ǁ$ (x) — $(¢)ǁX ,
donde $ (x) , $(¢) c J son 1as smágenes de x, ¢. Se sevsflGa:
V 6 (X) = E(ǁ$ (X)ǁ X) — ǁE($ (X))ǁ .
$X6 (x) = ǁ$ (x) — E($ (X))ǁX .
En consecuencia, podemos afirmar que la variabilidad geométrica es
una varianza generalizada, y que la función de proximidad mide la
distancia de un individuo a la población.
12.2.2. La regla discrimimamte DB

Sean Kfi, KX dos poblaciones, 6 una función distancia. 6 es
formalmente la misma en cada población, pero puede tener diferentes
versiones 6fi, 6X , cuando estemos en Kfi, KX, respectivamente. Por
ejemplo, si las poblaciones son normales Np (µs, Xs) , s = fi, X, y
consideramos las distancias de Mahalanobis
6 Xs (x, ¢) = (x — ¢)J Xs—fi (x — ¢) , s = fi, X,
lo único que cambia es la matriz X. Debe quedar claro que 6 depende del
vector aleatorio X, que en general tendrá diferente distribución en Kfi y KX.
Seguidamente, mediante (fi£.3), encontraremos las funciones de proxi-
midad $X,fi $XX, correspondientes a Kfi, KX. Sea w un individuo que queremos
clasificar, con valores x = X (w).
La regla de clasificación basada en distancias (DB, distance-based) es:
Si $fiX (x) ≤ $XX (x) asignamos w a Kfi,
Teniendo en cuenta el Teorema fi£.£.fi, se cumple
X
$sX (x) = ǁ$ (x) — EKs ($ (X))ǁ , s = fi, X,
y por tanto la regla DB asigna w a la población más próxima. La regla DB
solamente depende de las distancias entre individuos.
12.2.3. La regla DB comparada com otras

Los discriminadores lineal y cuadrático son casos particulares de la
regla DB.
fi. Si las poblaciones son Np (µ , Xfi) , Np (µ , XX) y 6X es la distancia de
fi X
Mahalanobis entre observaciones 6 X (x, ¢) = (x— ¢)J X—fi (x ¢) ,
entonces las funciones de proximidad son
$sX (x) = (x — µs )J X—fi (x — µi )
y el discriminador lineal es
Σ Σ
fi
J (x) = X$XX(x) — $Xfi (x) .
£. Si las poblaciones son Np (µ , Xfi) , Np (µ , XX) y 6X es la distancia de

fi X s
Mahalanobis más una constante
6 X (x, ¢) = (x — ¢)J X—fi (x — ¢) ‡ log |Xs | /X x ƒ= ¢,
s s
=0 x = ¢,
entonces el discriminador cuadrático es

Σ Σ
Ø (x) = fi X $XX(x) — $Xfi (x) .
3. Si 6 es la distancia euclídea ordinaria entre observaciones, la regla DB

equivale a utilizar el discriminador
fi
E (x) = [x — X (µfi ‡ µX )]J (µfi — µX ) , (fi£.4)
conocido como dssGvsmsnadov EuG1sdeo. E (x) es útil en

determinadas circunstancias, por ejemplo, cuando la cantidad de
variables es grande en relación al número de individuos, pues tiene
la ventaja sobre J(x) de que no necesita calcular la inversa de X.
12.2.4. La regla DB em el caso de muestras

En las aplicaciones prácticas, no se dispone de las densidades ƒfi(x),
ƒX(x), sino de dos muestras de tamanos nfi, nX de las variables X = (Efi,
..., Ep) en las poblaciones Kfi, KX. Sea Ofi = (6sj(fi)) la matriz nfi × nfi de
distancias
fi£.£. ANÁLISIS DISCÆIMINANTE BASADO EN DISTANCIAS £3F
entre las muestras de la primera población, y OX = (6sj(X)) la matriz n×X nX

de distancias entre las muestras de la segunda población. Indicamos (las
representaciones euclídeas de las muestras) por
xfi, xX, ..., xnfi muestra de Kfi,

¢fi, ¢X, ..., ¢n2 muestra de KX, (fi£.†)
es decir, 6sj(fi) = 6E(xs, xj), 6sj(X) = 6E(¢s, ¢j).

Las estimaciones de las variabilidades geométricas
son:
V^fi = fi Σ
n fi
fi
n2
X
(fi) V = Σ 6 (X).
X
sj
6
sj
XnX
XnX , ^X
fi s,j=fi X s,j=fi
Sea w un individuo, 6s(fi), s = fi, . . . , nfi, las distancias a los nfi

individuos de Kfi y 6s(X), s = fi, . . . , nX, las distancias a los nX individuos
de KX. Si x son las coordenadas (convencionales) de w cuando
suponemos que es de Kfi, y análogamente ¢, las estimaciones de las
funciones de proximidad son
nfi
fi Σ
$
^Xfi (x) = 6Xs (fi) — ^ ^XX (¢) =
$ fi
Σn 2
6s (X) — ^
X
fi
n Vfis=fi
, n X
VXs=fi
.
La regla DB en el caso de muestras es
X X
^ (x) ≤ $ (¢) asignamos w a Kfi,
Si $ fi X
^
Esta regla solamente depende de distancias entre observaciones y es
preciso insistir en que el conocimiento de x, ¢, no es necesario. La regla
DB clasifica w a la población más próxima:
Teorema 12.2.2 Supongamos que podemos vepvesentav w 4 1as dos

muestvas en dos espaGsos euG1sdeos (possb1emente dsfeventes)
x, xfi, xX, ..., xnfi cRp, ¢, ¢fi, ¢X, ..., ¢n cRq,
vespeGtssamente. EntonGes se Gump1e

X X X X
$^fi (x) = dE (x,x) , $^X (¢) = dE (¢,¢) ,
donde x, ¢ son 1os Gentvosdes de 1as vepvesentaGsones euG1sdeas de 1as
mues− tvas.
, x= (
Demost.: Consideremos x, xfi , xX , ..., n Σ xs)/n. Por un lado
n
x
fi
Σ dnX (xs , x) = fi
Σ(xns — x)s=fi
J
(xs — x)
n n
s=fi s=fi
n
fi
= Σ xJs xs ‡ xJ x—XxJ x.
s=fi
n
Por otro lado
n
n
Σ
fi Σ d (x
X , x ) =s fi
(xs — xj )J (xs — xj )
Xn2 Xn2
s,j=fi s,j=fi
j
n
fi
= Σ xJs xs — xJ x.
s=fi
n
Restando
X
$
^ (x) = x x‡x x—Xx x =d XE (x,x) .
J J J
Q
Ejemplo 12.2.1 Dsagnosss.
Krzanowski (fi9F†) ilustra el llamado ”location model™ para llevar a
cabo análisis discriminante con variables mixtas (cuantitativas, binarias,
categóri- cas). Los datos describen un grupo de fi3F mujeres, F8 con
tumor benigno y †9 con tumor maligno, con respecto a F variables
cuantitativas, £ binarias y £ categóricas (con tres estados cada una).
Véase Krzanowski (fi980) para una descripción de los datos.
Tomando los fi3F casos, se calcula el número de individuos mal
clasificados utilizando el discriminador lineal LDF (fifi.£), el discriminador
euclídeo (fi£.4), el ”location model™ LM (que consiste en ajustar un
discriminador lineal para cada combinación de las variables categóricas) y
el discriminador basado en distancias DB, utilizando el coeficiente de
similaridad de Gower (8.fi£) para variables mixtas y transformándolo en
distancia mediante (8.8). Los resultados están contenidos en la siguiente
tabla. Con el método DB se clasifican equivocadamente sólo 39 mujeres.
Tumor Benigno Maligno Total
Casos F8 †9 fi3F
LDF 3fi £F †8
EDF £9 3F †6
LM £fi £4 4†
DB fi8 £fi 39
fi£.S. COMPLEMENTOS £39
Para otros ejemplos con datos categóricos o mixtos, véase Cuadras (fi99£b).
12.3. Complememtos
Albert y Anderson (fi984) probaron que en el modelo logístico, los esti-
madores máximo verosímiles de los parámetros no existen si hay
completa separación de las muestras de las dos poblaciones. Además, si las
muestras es- tán muy diferenciadas, las estimaciones de los parámetros
no funcionan. Por ejemplo, en el caso de los datos de flores del género
Ivss, (véase Tabla 3.£), las estimaciones resultan demasiado grandes y no
son correctas. Longford (fi994) estudió la función de verosimilitud en el
modelo de regresión logística con coeficientes de regresión aleatorios.
Existen otros métodos de análisis discriminante, algunos no-
paramétricos, otros para variables mixtas, como el método del núcleo, del
vecino más pró- ximo, el basado en el ”location model™ de Krzanowski
(fi9F†), etc. Consúltese McLachlan (fi99£).
Los métodos de análisis discriminante basados en distancias pueden
abordar todo tipo de datos y han sido estudiados por Cuadras (fi989,
fi99£b,
£008), Cuadras et a1. (fi99F), Cuadras y Salvo (£0fi8a). Estos métodos
permiten mejorar la ordenación y formación de clusters, véase Anderson
y Willis (£003) y De Cáceres et a1. (£006).
Dadas dos poblaciones Np (µfi , X) y Np (µX , X), el problema de la
tsps− Ga1sdad consiste en decidir si una observación x proviene de la
mixtura Np (αµ —fi ‡ (fi α)µ≤X , X),
≤ 0 α fi, o de una tercera población
Np (µ3 , X). Por ejemplo, en una prospección arqueológica puede
interesar averiguar si un cráneo pertenece a un mismo grupo humano
(en el que hay hombres y mujeres), o bien a otro grupo distinto. Este
problema ha sido estudiado por
Rao (fi9F3) y Bar-Hen y Daudin (fi99F) para datos normales. Para datos
en general se puede abordar también mediante distancias, véase
Cuadras y For- tiana (£000). El caso de varias poblaciones ha sido
estudiado por Bar-Hen (£00fi) e Irigoien y Arenas (£008). En Jauregui et
a1. (£0fifi) se lleva a cabo una interesante aplicación a la robótica.
Capítulo 13
EL MODELO LINEAL
13.1. El modelo limeal

Supongamos que una variable observable Y depende de varias
variables explicativas (caso de la regresión múltiple), o que ha sido
observada en diferentes situaciones experimentales (caso del análisis
de la varianza). Entonces tendremos n observaciones de Y , que en
muchas situaciones aplicadas, se ajustan a un mode1o 1snea1
4s = ısfi Ø fi ‡ ısX Ø X ‡ · · · ‡ ısm Ø m ‡ es , s = fi, . . . , n,
(fi3.fi) que en notación

matricial es
, fi , ,, fi , , fi ,
4 ıfifi ıfiX · · · ıfim Ø e
, eX
4X ıXfi ıXX · · · ıXm . . Ø X
. . . . . .
= ‡ .
4n ınfi ınX ·. ·. · ınm en
. . .. ... . ., .. . . . .
,
. . , .. , . ,
, . , Ø,
m
Los elementos que intervienen en el modelo lineal
son: fi. El vector de observaciones:
¢ = (4fi , 4X , . . . , 4n )J .
£. El vector de parámetros:
Ø = (Ø fi , Ø X , . . . , Ø m )J .
£4fi
£4£ CAPÝTULO fiS. EL MODELO LINEAL
3. La matriz de
diseno: , ,
ıfifi ıfiX · · · ıfim
. .
. ı Xfi ıXX ·
. · · ıXm . .
X =, . ,
.
ınfi ınX · · · ınm
4. El vector de desviaciones aleatorias:

e = (efi , eX , . . . , en )J
La notación matricial compacta del modelo es:

¢ = XØ ‡ e.
Solamente ¢ y X son conocidas. En los modelos de regresión, X
contiene las observaciones de m variables explicativas. En los modelos
de análisis de la varianza, X contiene los
— valores 0, fi ó fi, según el tipo
de diseno experimental que siguen los datos.
13.2. Suposiciomes básicas del modelo

Supongamos que las desviaciones aleatorias o errores es del modelo
lineal se asimilan a n variables aleatorias con media 0, incorrelacionadas y
con varianza común oX, es decir, satisfacen:
fi. E(es) = 0, s = fi, . . . , n.
£. E(es ej ) = 0, s j = fi, . . . , n.
3. var(es) = oX, s = fi, . . . , n.
Estas condiciones equivalen a decir que el vector de medias y la
matriz de covarianzas del vector e = (efi , eX , . . . , en )J son:
E(e) = 0, Xe = o X F n .
Si podemos suponer que los errores son normales y estocásticamente
independientes, entonces estamos ante un mode1o 1snea1 novma1
¢ ~Nn(XØ,oXFn).
El valor v = rango(X) es el rango del diseno. Se verifica v≤ m y cuando
v = m se dice que es un modelo de rango máximo.
fiS.S. ESTIMACIÓN DE PAÆÁMETÆOS £43
13.3. Estimacióm de parámetros

13.3.1. Parámetros de regresióm
La estimación de los parámetros Ø = (Ø fi , . . . , Ø m )J en función de
las observaciones ¢ = (4fi , . . . , 4n )J , se plantea mediante el criterio de los
^ ^ mínimos
^
cuadrados (LS, ”least squares™). Se desea encontrar Ø = (Ø fi , . . . , Ø m )J tal
n
Σ
que
eJ e = (¢ — XØ)J (¢ — XØ) = (4s — ısfi Ø fi — . . . — ısm Ø m )X (fi3.£)
s=fi
sea mínimo.
Teorema 13.3.1 foda estsmaGsón GS de Ø es so1uGsón de 1as eGuaGsones
XJ XØ = XJ ¢ (fi3.3)
denomsnadas eGuaGsones novma1es de1 mode1o.
Demost.:
eJ e =(¢ — XØ)J (¢ — XØ) = ¢J ¢—XØ J XJ ¢ ‡ Ø J XJ XØ.
Derivando vectorialmente respecto de Ø e igualando a cero
6
eJ e = —XXJ ¢‡XXJ XØ = 0
6Ø
obtenemos (fi3.3). Q
Distinguiremos dos casos según el rango del diseno.
a) v = m. Entonces la estimación de Ø es única:
^ = (XJ X)—fi XJ ¢.
Ø (fi3.4)
b) v c m. Cuando el diseno no es de rango máximo una solución es
^ = (XJ X)— XJ ¢,
Ø
donde (XJ X)— es una inversa generalizada de XJ X.
La suma de cuadrados residual de la estimación de Ø es
RX = (¢ — XØ^ )J (¢ — XØ^ ) = Σ(4s —
n
O 4^s )X ,
s=fi
siendo
4^s = ısfi Ø^ fi ‡ · · · ‡ ısm Ø^ m .
£44 CAPÝTULO fiS. EL MODELO LINEAL
13.3.2. Variamza
La varianza común de los términos de error, o X =var(es ), es el otro
parámetro que debemos estimar en función de las observaciones ¢ = (4fi , . . . ,
4n )J y de X. En esta estimación interviene de manera destacada la suma
de cuadrados residual.
Lema 13.3.1 Sea Cv (X) e1 subespaGso de Rn de dsmenssón v genevado

pov 1as GO1umnas de X. EntonGes E(¢) = XØ cC^v (X) 4 e= ¢ — XØ es
ovtogona1 a Cv (X).
^
Demost.: Por las ecuaciones normales
^ = XJ ¢ — XJ XØ = 0.
XJ e^ = XJ (¢ — XØ) Q
^
Teorema 13.3.2 Sea ¢ = XØ ‡ e e1 mode1o 1snea1 donde e satssfaGe 1as su−
possGsones bássGas de1 mode1o (SeGGsón fh.W). EntonGes e1 estadsstsGO
^X = ROX /(n — v),

o
ssendo ROX 1a suma de Guadvados vessdua1 4 v = vango(X) e1 vango de1

mode1o, es un estsmadov snsesgado de o X .
Demost.: Sea T = [tfi , . . . , tv , tv‡fi , . . . , tn ] una matriz ortogonal tal que

sus columnas formen una base ortonormal de Rn , de manera que las v
primeras generen el subespacio Cv (X) y por tanto — las otras n v sean
ortogonales a Cv (X). Definimos x = T ¢. Entonces x =(xfi , . . . , xn ) verifica
J J
E(xs ) = tJs XØ = ys si s ≤ v,
= 0 si s > v,
pues ts es ortogonal a Cv (X) si s > v. Consideremos

^ e= ¢ — XØ.
^ ^
Entonces T e= x — T XØ, donde las v primeras componentes de TJ e son
J J
^ ^
^ anterior) y las n — v componentes
cero (por el lema de TJ XØ son también
T ê Por tanto
cero.
es J
TJ ^
e = (0, . . . , 0, xv‡fi , . . . , xn )J
y en n
consecuencia
s
ROX = ê ê = ê TT
J
xX.
ê = JJ
s=Σv
‡fi
fiS.Œ. ALGUNOS MODELOS LINEALES £4†
La matriz de covarianzas de ¢ es oXFn, y por ser T ortogonal, la de x es

también oXFn. Así
E(xs) = 0, E(xsX) = var(xs) = o X, s > v,
y por
tanto s=Σv
n
E(RoX) ‡fi E(xXs ) = (n — v)oX. Q
=
Bajo el modelo lineal normal, la estimación de Ø es estocásticamente
independiente de la estimación de oX, que sigue la distribución ji-cuadrado.
Teorema 13.3.3 Sea ¢~Nn (XØ,o X Fn ) e1 mode1o 1snea1 novma1 de

vango máxsmo m = vango(X). Se sevsflGa:
f. Ga estsmaGsón GS de Ø es tambsén 1a estsmaGsón máxsmo sevossms1 de

Ø. Esta estsmaGsón es además snsesgada 4 de savsansa msnsma.
W. Ø^ ~ Nm (Ø, o X (XJ X)—fi ).
h. U = (Ø^ — Ø)J XJ X(Ø^ — Ø)/o X ~mzX .
$. Ø^ es estoGástsGamente sndependsente deORX .
†. ROX/oX ~ zXn—m .
En general, si v =rango(X) ≤ m, se cumple que ROX/oX sigue la distribu-
ción zX . Véase el Teorema fi3.†.fi.
n—v
13.4. Algumos modelos limeales

13.4.1. Æegresióm múltiple
El modelo de regresión múltiple de una variable respuesta Y sobre m
variables explicativas Efi, . . . , Em es
4s = Ø O ‡ ısfi Ø fi ‡ · · · ‡ ısm Ø m ‡ es , s = fi, . . . , n, (fi3.†)

donde 4s es la s-ésima observación de Y, y ısfi, . . . , ısm son las s-ésimas obser-

vaciones de las variables explicativas. La matriz de diseno es
, fi ıfifi · · · ıfim
. fi ıXfi · · · ıXm
X =. ,. .
, .. .. . . . .. ,
fi ınfi · · · ınm
13.4.2. Diseño de um factor

Supongamos que una variable observable Y ha sido observada en h
condiciones experimentales diferentes, y que disponemos de ns réplicas
(observaciones independientes de Y ) 4sfi, . . . , 4sns bajo la condición
experimental s. El modelo es
4sh = µ ‡ αs ‡ esh, s = fi, . . . ,h¡ h = fi, . . . ,ns, (fi3.6)
donde µ es la media general y αs es el efecto aditivo de la condición s.
Las desviaciones aleatorias esh se suponen normales independientes. En el
modelo (fi3.6), se supone la restricción lineal
αfi ‡ · · · ‡αh = 0,
y por tanto cabe considerar solamente los parámetros µ, αfi, . . . ,αh—fi. Por
ejemplo, si h = 3, nfi = nX = X, n3 = 3, las matrices de diseno inicial X (de
rango v = 3 c m = Œ) y restringida (de rango máximo), son:
X˜
,. µ αfi αX α3 , , µ αfi αX,

fi fi 0 0. . fi fi 0 .
X = . fi fi 0 0 fi fi 0
fi 0 fi 0 fi 0 fi
.. ˜ = . fi fi . .
, fi 0 fi 0 ,, X 0
fi 0 0 fi . fi —fi —fi
fi 0 0 fi . fi —fi —fi .
,
fi 0 0 fi , fi —fi —fi
13.4.3. Diseño de dos factores

Supongamos que las n = a× b observaciones de una variable observable
Y se obtienen combinando dos factores con a y b niveles, respectivamente,
fiS.†. HIPÓTESIS LINEALES £4F
denominados factor fila y columna (por ejemplo, producción de trigo

obtenida en 9 = 3 × 3 parcelas, 3 fincas y 3 fertilizantes en cada finca). El
modelo es
4sj = µ ‡ αs ‡ Ø j ‡ esj ,
(fi3.F) donde µ es la media general, αs es el efecto aditivo del nivel s del

factor fila, Ø j
es el efecto aditivo del nivel j del factor columna. Las desviaciones aleatorias
esj se suponen normales independientes. En el modelo (fi3.6) se suponen
las restricciones lineales a b
Σ αs = Σ Ø j = 0. (fi3.8)
s=fi j=fi
Por ejemplo, si a = b = 3 las matrices de diseno de (fi3.F) y teniendo en

cuenta (fi3.8), son:
µ αfi αX α3 Øfi Ø X Ø3
,. fi fi 0 0 fi 0 0 , ,. µ αfi αX Øfi Ø X ,
. fi 0 fi 0 fi 0 0 . fi fi 0 fi 0
fi 0 fi fi 0
fi 0 0 fi fi 0 0
. fi fi —fi fi fi 0
fi 0 0 0 fi 0 . . fi .
fi 0 0 fi
X= fi 0 fi 0 0 fi 0
.. , . X˜ fi 0 fi 0 fi .
. = .. fi —fi —fi 0 fi .
fi 0 0 fi 0 fi 0 .
fi fi 0 —fi —fi
fi fi 0 0 0 0 fi . fi 0 .
. fi fi —fi —fi
, 0 fi 0 0 0 fi . ,
, fi —fi —fi —fi —fi
, fi 0 0 fi 0 0 fi
13.5. Hipótesis limeales

Consideremos el modelo lineal normal ¢ = XØ ‡ e. Una hipótesis lineal
es una restricción lineal sobre los parámetros Ø del modelo.
Defimicióm 13.5.1 Una hspótesss 1snea1 de vango t sobve 1os pavámetvos Ø
es una vestvsGGsón 1snea1
hsfiØfi ‡ · · · ‡ hsmØm = 0, s = fi, . . . , t.
IndsGando 1a matvss t × m, GOn
, t c m fl1as 1snea1mente
, sndependsentes,
hfifi· · · hfim
. .
, ,
htfi · · · htm
H= .. ..
. ..
1a notaGsón matvsGsa1 de una hspótesss 1snea1 es
HO : HØ = 0. (fi3.9)
Defimicióm 13.5.2 Una hspótesss 1snea1 es demostvab1e ss 1as fl1as de H

son GOmbsnaGsón 1snea1 de 1as fl1as de X. DsGho de otva maneva, ss
exsste una matvss A de ovden t × n ta1 que
H = AX.
Observaciomes:
a) Suponemos que la matriz H es de rango t.
b) Solamente podremos construir un test (el test F) para decidir si
podemos aceptar o no una hipótesis lineal si esta hipótesis es
”demostrable™.
c) Es evidente que si el modelo es de rango máximo, v = rango(X) = m,
cualquier hipótesis lineal es demostrable.
Cuando una hipótesis (fi3.9) es cierta, los parámetros Ø se convierten en
8 y la matriz de diseno X en X.˜ Así el modelo lineal, bajo H O, es
˜ ‡ e.
¢ =X8 (fi3.fi0)
Para obtener (fi3.fi0), consideramos los subespacios 5 (H),5 (X)

generados por las filas de H y X. Entonces c 5 (H) c 5 (X) Rm . Sea C una
matriz
— m (v c t) tal que 5 (CJ ) 5 (X) × y HC = 0. En otras
palabras, las columnas de C pertenecen a 5 (X) y son ortogonales a 5 (H).
Si definimos los parámetros 8 = (8fi , . . . , 8v—t )J tales que
Ø = C8,
entonces HØ = HC8 = 0 y el modelo ¢ = XØ ‡ e, bajo la restricción HØ =
0,
se transforma en (fi3.fi0), siendo
X˜ = XC.
La estimación LS de 8
es
^ ˜J —fi
X˜ ¢
˜8= (X
y la suma de cuadrados residual es
X)
X J
Rfi = (¢—X˜ 8^) (¢—X˜ 8^).

fiS.†. HIPÓTESIS LINEALES £49
También se puede probar que la estimación LS de los parámetros Ø,

bajo la restricción (fi3.9), es
^ H = Ø—(X
Ø ^ J
X)— HJ (H(XJ X)— HJ )—fi HØ
^
y la suma de cuadrados del modelo lineal es
^ fiX ^R = (¢ — XØ
J
) (¢ — XØ )H
El siguiente teorema es conocido como Teorema Fundamental del
H
Análisis de la Varianza.
Teorema 13.5.1 Sea ¢ ~Nn (XØ,o X Fn ) e1 mode1o 1snea1 novma1 4

p1anteemos 1a hspótesss 1snea1 demostvab1e HO : HØ = 0 de vango t.
Gonssdevemos 1os es− tadsstsGOS
X
RO = (¢ — XØ^ )J (¢ — XØ^ ), fi RX = (¢ — XØ^ H )J (¢
^
Se sevsflG—
a: XØ H ).
f. RXO/oX ~ zXn—v .
W. Ss HO es Gsevta
fiX X Rf X
—i RX X
R ~ zn— ~ zt ,
X
oX
vt , o
ssendo vJ = v — t.
h.X Ss HO es Gsevta, 1os estadsstsGOS (RX — RX ) 4 son estoGástsGamente
R
fi O O
sndependsentes.
Demost.: Observemos primero que bajo el modelo lineal normal, 4fi, . . . ,

4n son normales independientes, y xfi, . . . , xn (véase Teorema fi3.3.£) son
también normales independientes.
fi. Cada xs es N(0, oX) para s > v. Luego O RX/oX es suma

— de (n v)
cuadrados de variables N(0, fi) independientes.
£. Si la hipótesis lineal es cierta, la matriz de diseno X se transforma en
˜ XC, es decir, las columnas de XC son combinación lineal de las
X=
columnas de X. Podemos encontrar una matriz ortogonal
T = [tfi, . . . , tvt , tvt‡fi, . . . , tv, tv‡fi, . . . , tn]

£†0 CAPÝTULO fiS. EL MODELO LINEAL
tal que
Cvt (XC) = [tfi, . . . , tvt ] c Cv(X) = [tfi, . . . , tv].
Siguiendo los mismos argumentos del Teorema fi3.3.£, tenemos que
Σ
n
RfiX= xsX
s=vt‡fi
y RX/oX sigue la distribución zX t . Por otro lado
fi n—v
Σ
v
xX
X X
R fi — RO =
s=v ‡fis
t
y (RX — RX )/oX sigue la distribución zX , donde t = v — vJ .

fi O t
3. Las sumas de cuadrados que intervienen en ORX y en fiRX —O RX no tienen
términos en común, por tanto son independientes. Q
Consecuencia inmediata y muy importante de este resultado es que, si H O
es cierta, entonces el estadístico
(RX — RX)/toX (RX — RX) n — v
fi fi ~ 5 t —. (fi3.fifi)
5 = O = O
t
R
RXO /(n — v)o X X n v
O
Es decir, el cociente 5 sigue la distribución F con t y n— v grados de libertad
y no depende de la varianza (desconocida) del modelo.
13.6. Imferemcia em regresióm múltiple

Consideremos el modelo de regresión múltiple (fi3.†). El rango del
modelo es rango(X) = m ‡ fi. La hipótesis más interesante en las
aplicaciones es
HO : Øfi = · · · = Øm = 0,
que equivale a decir que la variable respuesta Y no depende de las
variables explicativas Efi, . . . , Em. La matriz de la hipótesis lineal es
,. ,
. 0 fi 0 · · · 0
0 0 fi · · · 0
H= . . , rango(H) = m.
. .. .. .
, . . . .. ,
0 0 0 · · · fi
fiS.F. COMPLEMENTOS £†fi
^
Si HO es cierta, solamente interviene el parámetro Ø O, evidentemente ØOH = 4
(media muestral) y las sumas de cuadrados residuales son
n n
X X
RO = Σ(4s — 4^s ) , Rfi = Σ(4s — 4)X ,
X
s=fi s=fi
donde ^ØO^ , Ø , . . . , Øm son los estimadores LS bajo el modelo no restringido y

^ ^ ^fi
4^s = Ø O ‡ ısfi Ø fi ‡ · · · ‡ ısm Ø m . Aplicando (fi3.fifi), bajo HO tenemos que
^
(RX — RX) n — m — fi
m
5 = fi
O
X ~ 5n—m—fi.
R m
O
El test F se suele expresar en términos de la correlación múltiple. Se

demuestra que n n
X
R
O
= Σ(4s — 4^s )X = (fi — RX ) Σ(4s — 4)X ,
s=fi s=fi
donde R es el coeficiente de correlación múltiple muestral entre las

variables Y y Efi, . . . , Em (Teorema 4.£.£). Por tanto, si HO es cierta, es
decir, si la correlación múltiple poblacional es cero, entonces
RX n — m — fi m
~ 5n—m—fi .
5= m
fi —
RX
Rechazaremos HO si 5 es significativa.
13.Y. Complememtos
Hemos visto los aspectos fundamentales del modelo lineal. Un estudio
más completo incluiría:
a) análisis gráfico de los residuos, b) efectos de la colinealidad, c) mí-
nimos cuadrados ponderados, d) errores correlacionados, e) selección de
las variables, etc. Véase Scheffé (fi9†9), Pena (fi989), Chatterjee y Price
(fi99fi), Carmona (£00†).
Para tratar variables explicativas mixtas, podemos construir un modelo
lineal considerando las dimensiones principales obtenidas aplicando
análisis de coordenadas principales sobre una matriz de distancias entre
las observaciones. Consultar Cuadras y Arenas (fi990), Cuadras et a1.
(fi996).
£†£ CAPÝTULO fiS. EL MODELO LINEAL
Capítulo 14
ANÁLISIS DE LA
VAÆIANEA (ANOVA)
El análisis de la varianza comprende un conjunto de técnicas

estadísticas que permiten analizar cómo operan diversos factores,
estudiados simultánea- mente en un diseno factorial, sobre una variable
respuesta.
14.1. Diseño de um factor

Supongamos que las observaciones de una variable Y solamente
dependen de un factor con h niveles:
Nivel fi 4fifi 4fiX · · · 4finfi

Nivel X 4Xfi 4XX · · · 4Xn2
..
.. .. .. . ..
Nivel k 4hfi 4hX · · · 4hnh
Si escribimos µs = µ ‡ αs, en el modelo (fi3.6) tenemos
4sh = µs ‡ esh, s = fi, . . . ,h¡ h = fi, . . . ,ns,
donde µs es la media de la variable en el nivel s.

Indiquemos: Media nivel s : 4s· =
Media Σ
(fi/ns ) general:
4 4 = (fi/n) s h
Σ hΣ sh 4sh
No. total de observaciones: n = nfi ‡ · · · ‡ nh
£†3
£†4 CAPÝTULO fiŒ. ANÁLISIS DE LA VAÆIANXA (ANOVA)
Indiquemos también:
Suma de cuadrados entre grupos: ØE = Σs ns(4s· — 4)X

Suma de cuadrados dentro de grupos: ØD = Σs h (4sh — 4s· )X
Suma de cuadrados total: ØT = Σ Σ (4 — 4)X
s h sh
Se verifica la relación fundamental:
ØT = ØE ‡ ØD.
Las estimaciones LS de las medias µs son
µ^s = 4s·, s = fi, . . . , h,

X
y la suma de cuadrados residual es R O = Ø D.
La hipótesis nula de mayor interés es la que establece que no existen
diferencias entre los niveles de los factores:
HO : µfi = · · · = µh.
Se trata de una hipótesis demostrable de — rango h fi. Bajo HO

solamente existe una media µ y su^ estimación es µ = 4. Entonces la
suma de cuadrados
fi residual es RX = ØT y además se verifica
RXfi — ROX = ØE.
Por tanto, como una consecuencia del Teorema fi3.†.fi, tenemos que:
fi. ØD/(n — h) es un estimador centrado de oX y ØD/oX ~ zXn—h .
£. Si HO es cierta, ØE/(h — fi) es también estimador centrado de oX y

ØT X ØE X
X
~ zn—fi, X
~ zh—fi.
o o
3. Si HO es cierta, los estadísticos ØE y ØD son estocásticamente inde-

pendientes.
Consecuencia inmediata es que, si HO es cierta, entonces el estadístico
ØE/(h — fi) h—fi

5 = ØD/(n — h) ~ 5 n—h . (fi4.fi)
fiŒ.£. DISENO DE DOS FACTOÆES £††
14.2. Diseño de dos factores

Supongamos que las observaciones de una variable Y dependen de dos
factores A, B, denominados factores fila y columna, con a y b niveles Afi,
. . . ,Aa y Bfi, . . . ,Bb, y que disponemos de una observación para cada
combinación de los niveles de los factores:
Bfi BX ··· Bb
4fi· 4X· Afi 4fifi 4fiX ··· 4fib
AX 4Xfi 4XX ··· 4Xb ..
.
.. . .. .. .. 4a·
.
Aa 4afi 4aX ··· 4ab 4··
4·fi 4·X ··· 4·b
siendo a b
4s· = fi Σ
b fi Σ
a fi
4 , 4·j = 4 , 4·· = 4 = Σ Σ sj
sj sj ab 4 ,
b j=fi a s=fi s=fi j=fi
las medias por filas, por columnas y general. Supongamos que los datos
se ajustan al modelo (fi3.F) con las restricciones (fi3.8), donde µ es la
media general, αs es el efecto del nivel As del factor fila, Ø j es el efecto del
nivel Bj del factor columna. El rango del diseno y los g.l. del residuo son
v = fi ‡(a — fi) ‡(b — fi) = a ‡ b — fi, n — v = ab — (a ‡ b — fi) = (a — fi)(b — fi).
Las estimaciones de los parámetros son
µ^ = 4, α^ s = 4s· — 4, Ø^j = 4·j — 4,
y la expresión de la desviación aleatoria es
e^sj = 4sj — µ — αs — Ø j = (4sj — 4s· — 4·j ‡ 4).

^^ ^
La suma de cuadrados residual del modelo es
a b
R = Σ Σ(4sj — 4s· — 4·j ‡ 4)X .

O
X
s=fi j=fi
También consideramos las siguientes cantidades, donde SC significa

”suma de cuadrados™:
SC entre filas: ØA = b s (4s· — 4)XX

SC entre columnas: ØB = a Σj (4·j — 4)
SC residual: ØR = Σs,j (4sj — 4s· — 4·j ‡ 4)X
SC total: ØT = (4sj — 4)X
s,j
Se verifica la siguiente identidad:
ØT = ØA ‡ ØB ‡ ØR.
En el modelo de dos factores, las hipótesis de interés son:
H AO : αfi = · · · = αa = 0 (no hay efecto fila)

H BO : Øfi = · · · = Øb = 0 (no hay efecto columna)
Ambas hipótesis son demostrables. SupongamosO H B cierta. Entonces el

modelo se transforma en 4sj = µ ‡ αs ‡ esj, es decir, actúa solamente un
factor, y por tanto a b
RX = Σ Σ(4sj — 4s· )X .
fi
s=fi j=fi
Ahora bien, desarrollando (4sj — 4s· )X = ((4·j — 4)‡(4sj — 4s· — 4·j ‡4))X resulta
que RfiX = ØB ‡ ØR.
Análogamente, si HA es cierta, obtendríamos RX = ØA ‡ ØR. Por el Teorema
O fi
fi3.†.fi se verifica:
fi. Ø—/(a —fi)(b fi) es un estimador centrado de oX y Ø X X

~R/o z(a—fi)(b—fi) .
R
£. Si HO es cierta, ØA/(a — fi) es también estimador centrado de oX,

A
X
Ø~/oA
zX(a—fi) y los estadísticos ØA y ØR son estocásticamente inde-
pendientes.
3. Si HOB es cierta, ØB /(b — fi) es también estimador centrado de o X ,

X
Ø~/o
B
zX y los estadísticos ØB y ØR son estocásticamente inde-
pendientes.(b
—fi)
fiŒ.S. DISENO DE DOS FACTOÆES CON INTEÆACCIÓN £†F
Por lo tanto tenemos que para decidir HOA utilizaremos el estadístico
ØA (a — fi)(b — fi) a—fi

5 A = ØR (a — ~5
(a—fi)(b—fi),
fi)
y para decidir HOB utilizaremos
ØB (a — fi)(b — fi) b—fi

5 B = ØR (b — ~ 5(a—fi)(b—fi).
fi)
14.3. Diseño de dos factores com imteraccióm

Supongamos que las observaciones de una variable Y dependen de dos
factores A, B, denominados factores fila y columna, con a y b niveles Afi,
.................................................................................................................Aa
y Bfi,.....,Bb, y que disponemos de s observaciones (réplicas) para cada com-
binación de los niveles de los factores:
Bfi BX Bb
Afi 4fi·· 4X··
AX ..
.. 4a··
Aa
4·fi· 4·X· ··· 4·b· 4···
siendo
b,c a,c
4s·· fi Σ fi Σ
= sjh , 4·j· = sjh,
4 4
bs as
j,h=fi s,h=fi
4sj· Σcfi fi a,b,c

Σ
= sjh , 4= ··· = 4sjh.
4 abs s,j,h=fi
4
s
h=fi
El modelo lineal del diseno de dos factores con interacción es

4sjh = µ ‡ αs ‡ Ø j ‡ ç sj ‡ esjh ,
s = fi, . . . , a¡ j = fi, . . . , b¡ h = fi, . . . , s,
siendo µ la media general, αs el efecto del nivel As del factor fila, Ø j

el efecto del nivel Bj del factor columna, çsj la interacción entre los
niveles As ,Bj . El parámetro ç sj mide la desviación del modelo aditivo
E(4sjh ) =
µ ‡ αs ‡ Ø j y solamente es posible estimarlo si hay s > fi réplicas. Se

suponen las restricciones:
a b a b
Σ Σ Σ Σ
αs = Øj = ç sj = ç sj = 0.
s=fi j=fi s=fi j=fi
Así el número de parámetros independientes del modelo es
fi ‡ (a — fi) ‡ (b — fi) ‡ (a — fi)(b — fi) = ab
y los g. l. del residuo son abs— ab = ab(s fi).

Las estimaciones de los parámetros son
µ^ = 4, α^ s = 4s·· — 4, Ø^ j = 4·j· — 4, ç^sj = 4sj· — 4s·· — 4·j· ‡ 4,
y la expresión de la desviación aleatoria es
êsjh = 4sjh — µ — αs — Ø^j^ — ^

ç sj = (4sjh — 4sj· ).
^
La suma de cuadrados residual del modelo es
a,b,c
Σ
RO =X
(4sjh — 4sj·)X.
s,j,h=fi
También debemos considerar las siguientes cantidades, donde SC

significa ”suma de cuadrados™:
SC entre filas: ØA = bs s (4s·· — 4)X

SC entre columnas: ØB = Σ (4 — 4)X
as Σ j ·j·
SC de la interacción: ØAB = s s,j (4sj· — 4s·· — 4·j· ‡ 4)X
X
SC residual: ØR = s,jh(4sjh — 4sj·)
SC total: ØT = Σ (4 — 4)X
s,j sjh
Se verifica la siguiente identidad
ØT = ØA ‡ ØB ‡ ØAB ‡ ØR.
Las hipótesis de interés son:
H AO : αfi = · · · = αa = 0 (no hay efecto fila)

B
HO : Øfi = · · · = Ø b = 0 (no hay efecto columna)
AB
H O : çfifi = · · · = çab = 0 (no hay interacción)
fiŒ.Œ. DISENOS MULTIFACTOÆIALES £†9
Como en los casos anteriores, podemos ver que la aceptación o el

rechazo de cada hipótesis se decide mediante el test F:
ØA ab(s —
fi)
5A = a—fi
~ 5 ab(c—fi)
ØR a — fi
ØB ab(s —
fi)
5B = b—fi
~ 5 ab(c—fi)
ØR b — fi
ØAB ab(s — fi)
5 AB = (a—fi)(b—fi)
~5
Ø
fi)(a — fi)(b —
R ab(c—fi)
14.4. Diseños multifactoriales

Los disenos de dos factores se generalizan a un número mayor de
factores. Cada factor representa una causa de variabilidad que actúa
sobre la variable observable. Si por ejemplo, hay 3 factores A, B, C, las
observaciones son 4sjhh, donde s indica el nivel s-ésimo de A, j indica el
nivel j-ésimo de B, h indica el nivel h-ésimo de C, y h indica la réplica h
para la combinación sjh de los tres factores, que pueden interactuar. Un
modelo típico es
4sjhh = µ ‡ αA ‡ αB ‡ αC ‡ αAB ‡ αAC ‡ αBC ‡ αABC ‡ esjhh,
s j h sj sh jh sjh
siendo:
µ = media general,
αA, αB, αC = efectos principales de A,B,C,
s j h
AB
αBC , αAC , = interacciones entre A y B, A y C, B y C,
αsj sh jh
αABC
sjh = interacción entre A,B y C,
esjhh = desviación aleatoria N(0, oX).
Son hipótesis de interés: HA : αA = 0 (el efecto principal de A no es signi-
O s
ficativo), HAB : αAB = 0 (la interacción entre A y B no es significativa), etc.
O s
Los contrastes para aceptar o no estas hipótesis se obtienen descomponiendo
la variabilidad total en sumas de cuadrados
Σ
(4shjh — 4)X = A ‡ B ‡ C ‡ AB ‡ AC ‡ BC ‡ ABC ‡ R,
s,j,h,h
donde R es el residuo. Si los factores tienen a, b, s niveles,

respectivamente, y hay d réplicas para cada combinación de los niveles,
entonces A tiene (a — fi)
£60 CAPÝTULO fiŒ. ANÁLISIS DE LA VAÆIANXA (ANOVA)
g. l., AB tiene (a— fi)(b fi) g. l. Si interpretamos las réplicas como un factor
D, el residuo es
R = D ‡ AD ‡ BD ‡ CD ‡ ABD ‡ ACD ‡ BCD ‡ ABCD
con
q = (d — fi) ‡ (a — fi)(d — fi) ‡ · · · ‡ (a — fi)(b — fi)(s — fi)(d — fi) = abs(d — fi)
g.l. Entonces calcularemos los cocientes F
A/(a — fi) AB/(a — fi)(b — fi)

5= R/q , 5 = R/q ,
que sirven para aceptar o rechazar HA y HAB , respectivamente.

O O
En determinadas situaciones experimentales puede suceder que algunos
factores no interactúen. Entonces las sumas de cuadrados
correspondientes se suman al residuo. Por ejemplo, si C no interactúa
con A,B, el modelo es
4sjhh = µ ‡ αA ‡ αB ‡ αC ‡ αAB ‡ esjhh
s j h sj
y la descomposición de la suma de cuadrados es

Σ
(4shjh — 4)X = A ‡ B ‡ C ‡ AB ‡ RJ ,
s,j,h,h
donde RJ = AC ‡ BC ‡ ABC ‡ R es el nuevo residuo con g.l.
q J = (a — fi)(s — fi) ‡ (b — fi)(s — fi) ‡ (a — fi)(b — fi)(s — fi) ‡ q.
Los cocientes F para las hipótesis anteriores son ahora
A/(a — fi) AB/(a — fi)(b — fi)

5= RJ /q J , 5 = RJ /q J .
14.5. Modelos log-limeales

Supongamos que tenemos dos variables categóricas A, B con a,Σ b ca-
tegorías respectivamente, y hemos observado las ab categorías n = sj ƒsj
fiŒ.†. MODELOS LOG-LINEALES £6fi
veces, donde ƒsj es el número de veces que se observó la intersección AsfiBj,

es decir, tenemos la tabla de contingencia a × b :
Bfi BX ··· Bb
Afi
ƒfifi ƒXfi ƒfiX ƒXX ··· ƒfib ƒXb ƒfi·
AX ƒX·
.. .. ··· ..
.. ... ..
ƒafi ƒaX ƒab
Aa ··· ƒa·
ƒ·fi ƒ·X ··· n
Σ Σ ƒ·b
donde ƒs· = j ƒsj , ƒ·j = s ƒsj son las frecuencias marginales de

As ,Bj respectivamente. Indiquemos las probabilidades
psj = P (As fi Bj ), ps· = P (As ), p·j = P (Bj ).
Existe independencia estocástica entre As y Bj si psj = ps· p·j , es decir, si
ln psj = ln ps· ‡ ln p·j .
Si introducimos las frecuencias teóricas
5sj = npsj , 5s· = nps· , 5·j = np·j ,
la condición de independencia es
ln 5sj = ln 5s· ‡ ln 5·j — ln n,
que podemos escribir como

ln 5sj = Z ‡ ZA ‡ ZB, (fi4.£)
s j
siendo Σa Σb
Z =( ln 5sj )/ab,
Σ
= (s=fi j=fi
A b ln 5sj)/b — Z,
s j=fi ln 5sj)/a — Z.
a
ZBj Σ= ( s=fi
El modelo (fi4.£) es un ejemplo de mode1o 1og−1snea1.
En general no se puede aceptar la independencia estocástica. Por tanto,
hemos de anadir un término ZsjAB a (fi4.£) y escribir
ln 5sj = Z ‡ ZA ‡ ZB ‡ ZAB,
s j sj
£6£ CAPÝTULO fiŒ. ANÁLISIS DE LA VAÆIANXA (ANOVA)
donde ZsjAB = ln 5sj — Z — ZA s— ZBjes la desviación del modelo lineal. La

similitud con el modelo ANOVA de dos factores es bastante clara.
En las aplicaciones no conocemos las frecuencias esperadas 5sj, sino
las frecuencias observadas ƒsj. Entonces la estimación de los parámetros
es muy semejante al modelo ANOVA, pero los contrastes de hipótesis se
resuelven mediante ji-cuadrados.
La hipótesis de interés es la independencia entre A y B
HO : ZsjAB = 0,
que equivale a decir que los datos se ajustan al modelo (fi4.£). Sean
5^sj = nƒs· × ƒ·j
las estimaciones máximo-verosímiles de las frecuencias esperadas. El
test ji- cuadrado clásico consiste
Σ en calcular
(ƒ — 5^ )X /5
sj sj sj
s,j ^
y el test de la razón de verosimilitud se basa en
Σ
X ƒsj log(ƒsj /5sj ),
s,j
^
que también sigue la distribución ji-cuadrado con (a — fi)(b fi) g. l.
El tratamiento de 3 variables categóricas A, B, C es semejante.
Partiendo de una tabla de contingencia
× a b s, puede interesarnos
saber si:
a) A, B, C son mutuamente independientes, en cuyo caso el modelo es
ln 5sjh = Z ‡ ZA ‡ ZB ‡ ZC,
s j h
b) Hay dependencia entre A y B, entre A y C, entre B y C

ln 5sjh = Z ‡ ZA ‡ ZB ‡ ZC ‡ ZAB ‡ ZAC ‡ ZBC,
s j h sj sh jh
c) Hay además dependencia entre A, B, C

ln 5sjh = Z ‡ ZA ‡ ZB ‡ ZC ‡ ZAB ‡ ZAC ‡ ZBC ‡ ZABC,
s j h sj sh jh sjh
d) A es independiente de B, C, que son dependientes, siendo el modelo

ln 5sjh = Z ‡ ZA ‡ ZB ‡ ZC ‡ ZBC.
s j h jh
En cada caso, el test ji-cuadrado o el de razón de verosimilitud nos

permiten decidir si los datos se ajustan al modelo. Conviene observar que
obtendríamos zX = 0 en el modelo c), ya que los datos se ajustan
perfectamente al modelo.
fiŒ.†. MODELOS LOG-LINEALES £63
Clase
Género Edad Supervivencia fi £ 3 T
Hombre Adulto NO fifi8 fi†4 38F 6F0
Mujer 4 fi3 89 3
Hombre Nino 0 0 3† 0
Mujer 0 0 fiF 0
Hombre Adulto SÍ †F fi4 F† fi9£
Mujer fi40 80 F6 £0
Hombre Nino † fifi fi3 0
Mujer fi fi3 fi4 0
Tabla fi4.fi: Tabla de frecuencias combinando género, edad, supervivencia
y clase, de los datos del "Titanic".
Ejemplo 14.5.1
Analicemos los datos de supervivencia del "Titanic"(véase el Ejemplo
9.8.£), Tabla fi4.fi.
Indicamos por $ la parte del modelo que contiene los efectos
principales y las interacciones de orden inferior a la máxima propuesta.
Por ejemplo, en el caso del modelo [GESC], tendríamos
$ = Z ‡ ZG ‡ ZE ‡ ZS ‡ ZC ‡ ZGE ‡ ZGS ‡ ZGC ‡ ZES ‡ ZEC ‡ ZSC
s j h 1 sj sh s1 jh j1 h1
Entonces los modelos analizados son:
Modelo para ln 5sjh1 Símbolo zX g.l. p

Z ‡ ZG ‡ ZE ‡ ZS ‡ ZC [G][E][S][C] fiXfi6,Œ X5 0,000
s j h 1
$ ‡ ZGE ‡····‡ ZSC [GE][GS][GC][ES][EC][SC] fifiX,33 fi3 0,000
sj h1
$ ‡ ZGES ‡···‡ ZESC [GES][GEC][GSC][ESC] 5,3 3 0,fi5fi
sjh jh1
GEC
$ ‡ Zsj1 ‡ ZhS [GEC][S] 659,3 fi5 0,000
$ ‡ ZGEC ‡ ZGSC ‡ [GEC][GSC][GES] 3X,3 6 0,000
ZGES [GESC] 0 — —
sj1 sh1 sjh
GESC
$ ‡ Zsjh1 [GEC][GSC][ESC] 9,X Œ 0,056
$ ‡ ZGEC ‡ ZGSC
ZESC ‡
sj1 sjh jh1
El modelo [G][E][S][C] debe rechazarse, pues zX es muy significativo.

El modelo [GE][GS][GC][ES][EC][SC] con sólo las interacciones de
segundo orden se ajusta mejor pero también debe rechazarse. El
modelo con todas las
£64 CAPÝTULO fiŒ. ANÁLISIS DE LA VAÆIANXA (ANOVA)
interacciones de tercer orden [GES][GEC][GSC][ESC] puede aceptarse,

indicando que todas las variables interaccionan. El modelo [GEC][S],
significaría suponer (caso de aceptarse) que el combinado de género,
edad y clase es independiente de la supervivencia, pero también debe
rechazarse. El modelo [GESC] es el modelo de dependencia completa,
que incluye todas las interacciones, se ajusta perfectamente a las
frecuencias observadas, pero carece de interés (hay tantos parámetros
como datos).
Un modelo razonable que podría aceptarse es el [GEC][GSC][ESC],
X
z = 9,X con 4 g. l. Se concluye que debemos aceptar que la supervivencia
dependía del género, edad y clase. El salvamento de los pasajeros se
produjo en los términos siguientes: ”mujeres y ninos primero (según la
clase) y después hombres de primera clase™.
14.6. Complememtos
El Análisis de la Varianza fue introducido por R. A. Fisher en fi938,
para resolver problemas de diseno experimental en agricultura. Hemos
visto que es una aplicación del modelo lineal. Existen muchos disenos
diferentes, cuyo estudio dejamos para otro momento.
Los primeros estudios y aplicaciones consideraban factores de efectos
fijos. En fi94F, C. Eisenhart consideró que algunos efectos podían ser
aleatorios. Ciertamente, los efectos que actúan sobre los modelos
pueden ser fijos, aleatorios o mixtos, y cuando hay interacciones el
cálculo de los cocientes F es diferente. Véase Cuadras (£000), Huitson
(fi966), Pena (fi989).
En ANOVA de un factor hemos supuesto datos independientes e
igualdad de varianzas, es decir, X = oXF. Pero S. Wilks probó que el test
F, véase (fi4.fi), sigue siendo válido si las variables son
equicorrelacionadas,
si es decir,
, ,
fi p ··· p
. .
X .
p fi · · · p .
X = o , .. .. . . . .. ,
.
p p · · · fi
En el caso general de una X cualquiera, debe aplicarse Análisis de
Perfiles, dando lugar también a un test F, véase (3.3).
Capítulo 15
ANÁL. MULTIV. DE LA
VAÆIANEA (MANOVA)
15.1. Modelo
El análisis multivariante de la varianza (MANOVA) es una
generalización a p > fi variables del análisis de la varianza (ANOVA).
Supongamos que tenemos n observaciones independientes de p variables
observables Yfi, . . . , Yp, obtenidas en diversas condiciones
experimentales, como en el caso univariante. La matriz de datos es
4fifi 4fiX · · · 4fip 4nfi 4nX · · ·

V = ,. 4np
4Xfi 4XX · · ·
4Xp ,
,
,. = [¢˜ ,¢˜ , . . . ,¢˜ ],
.
.. .. . . ..
J fi X p
donde ¢˜j = (4fij , 4Xj , . . . , 4nj ) son las n observaciones (independientes) de
la variable Yj , que suponemos siguen un modelo lineal ¢˜j =
univariante
XØ j ‡ ej .
El modelo lineal multivariante es
V = XB ‡ E (fi†.fi)
£6†
£66 CAPÝTULO fi†. ANÁL. MULTIV. DE LA VAÆIANXA (MANOVA)
siendo X la matriz de
diseno
ıfifi ıfiX · · · ıfim ,. ,
X = ,. ıXfi ıXX · · · ıXm
, .. .. . . . .. ,
ınfi ınX · · · ınm
B la matriz de parámetros de regresión
Ø Ø ··· Øfip
B = ,. Øfifi ØfiX · · · ØXp ,. ,
Xfi XX
, .
. .. . . . ..
,
Ømfi ØmX · · · Ømp
y E la matriz de desviaciones aleatorias
efifi efiX · · · efip
E = ,. eXfi eXX · · · eXp ,. .
, .. .. . . . .. ,
enfi enX · · · enp
Las matrices V y X son conocidas. Suponemos que las filas de E son inde-
pendientes Np(0, X).
15.2. Estimacióm de parámetros

En el modelo MANOVA debemos estimar los m× p parámetros de
regre- sión contenidos en B, así como la matriz de covarianzas X.
En el modelo univariante ¢ = XØ ‡ e, la estimación LS ^Ø = (XJ X)— XJ ¢
minimiza êJê= (¢ — XØ^ )j(¢ — XØ^ ). En el caso multivariante, el
LS de B es
estimador tal que minimiza la traza
B^
tr(E^ J E^ ) = tr[(V — XB^ )j(V — XB^ )],
siendoÊ = V — XB.
La matriz de residuos es la matriz ÆO = (RO(s, j)) de orden p × p
^
ÆO = E
Ê
J
^ = (V — XB)j(V
^ — XB),
^
donde RO (j, j) es la suma de cuadrados residual del modelo univariante˜¢j =
XØ j ‡ ej .
fi†.£. ESTIMACIÓN DE PAÆÁMETÆOS £6F
Teorema 15.2.1 Gonssdevemos e1 mode1o de vegvessón mu1tssavsante V =

XB ‡ E, ssendo
,. fi ., ,. fi .,
V = ¢ .J , E = e.J ,
, . , , . ,
¢ eJn
J
GOn 1as n
GOndsGsones:
f. E(V) = XB, es deGsv, E(E) = 0.

W. GOs(¢s ) = GOs(es ) = X, donde ¢sJ son fl1as de V, 4 eJs son fl1as de E.
h. GOs(¢s , ¢j ) = GOs(es , ej ) = 0 pava s ƒ= j.
EntonGes 1as estsmaGsones GS de 1os pavámetvos de vegvessón B
sevsflGan 1as eGuaGsones novma1es
XJ XB^ = XjV, (fi†.£)
4 ssenen dados
pov B^ = (XJ X)—fi XJ V,
Guando e1 dsseuo es de vango máxsmo v = vango(X) =m, 4 pov
B^ = (XJ X)— XJ V
Guando v c m. E1 estsmadov B ^ msnsmssa 1a tvasa tv(E
^ JÊ) ass GOmo e1
detev− msnante det(E^ J E^ ). Además B^ es un estsmadov snsesgado de B.
Demost.: Sea BO otro estimador de B. Entonces:
J J
(V — XB0) (V — XB0) = (V — XB^‡ XB^— XB0) (V — XB^ ‡ XB — XB0)
^ J
= ÆO ‡ (XB^ — XB0 ) (XB^ —
XB‡(V
0)
— XB^ ) (XB^ — XB0 )‡(XB^ — XB0 ) (V — XB^ )
J J
^ ^= Æ ‡ J(XB — XB
J ) (XB — XB ),O J 0
pues (V — XB^ ) (XB^ — XB0 ) 0=(V — XB^ ) X(B^ — B0 ) = 0 por verificar B^
las ecuaciones normales (fi†.£). Luego (V — XB0 )J (V — XB0 ) = ÆO ‡
M, siendo M una matriz p × p definida positiva. Entonces la traza y el
determinante de (V — XB0 )J (V — XB0 ) alcanzan el valor mínimo
cuando M = 0, es decir, para B0 = B^ . Por otra parte
E(B^ ) = (XJ X)—fi XJ E(V) =(XJ X)—fi (XJ X)B = B. Q
£68 CAPÝTULO fi†. ANÁL. MULTIV. DE LA VAÆIANXA (MANOVA)
Teorema 15.2.2 Bajo 1as mssmas GOndsGsones de1 teovema antevsov, GOn v =
vango(X), podemos expvesav 1a matvss de vessduos GOmo
ÆO = VJ [F — X(XJ X)— XJ ]V.
Una estsmaGsón Gentvada de 1a matvss de GOsavsansas X es
X^ = ÆO /(n — v).
Demost.:
(V — XB^ )j(V — XB^ ) = VJ V — VJ XB^ — B^ J XjV ‡

B^ J XJ XB^
J J
= VJ V — VJ XB^ (por B^ J X V = B^ XJ XB^ )
= VJ V — VJ X(XJ X)— XJ V
= VJ [F — X(XJ X)— XJ ]V.
Sea ahora T = [tfi, . . . , tv, tv‡fi, . . . , tn] una matriz ortogonal tal que
sus columnas formen una base ortonormal de Rn, de manera que las v
primeras generen el mismo subespacio Cv(X) generado por las columnas
de X. Por lo tanto las otras n — v columnas serán ortogonales a Cv(X). Es
decir,
tJs X = m si s ≤ v,
tJs X = 0 si s > v,
donde m indica un valor posiblemente no nulo.
Sea X = TJ V.Entonces
Σ y Σ
E(X) = TJ XB = v primeras filas
0 n — v últimas filas
Consideremos el residuo ^ E= V — XB.^ De XJ (V — XB) = 0, ver ecuaciones

^
normales (fi†.£), deducimos que E^ es ortogonal a X en el sentido
que ^ 0 Σ
TJ E = v primeras filas
Σ X n—v n — v últimas filas
donde Xn—v es matriz (n — v) × p. Pero

TJ E^ = TJ V — TJ XB^ = X — Σ 0 Σ
m = ,
Σ Σ Xn—v
0
fi†.S. CONTÆASTE DE HIPÓTESIS LINEALES £69
es decir, las últimas n^—v filas de X y de coinciden. Entonces, como

TJE TTJ = F,
Σ J
Σ = X n—
ÆO = E^ J E^ = E^ J TTJ E^ = 0 0
Xn—v.
Σ X v
XJn—v n—v
Indiquemos XJn—v = [xfi , . . . , xn—v ] donde xJfi , . . . , xJn—v son las filas
(independientes) de Xn—v . Entonces cada xs es un vector de media cero y
matriz de covarianzas X. Luego E(xs xJs ) = X y XJn—v Xn—v =· ·xfi xJfi ‡ ‡
xn—v x n—v . Por lo tanto
J ·
E(ÆO ) = E(xfi xJfi ‡ · · · ‡ xn—v xJn—v ) = (n — v)X. Q
Teorema 15.2.3 Sea V = XB ‡ E e1 mode1o 1snea1 novma1

mu1tssavsante donde 1as fl1as de E son Np (0, X) sndependsentes. Sea ÆO 1a
matvss de vess− duos. Se sevsflGa entonGes que 1a dsstvsbuGsón de ÆO es
Wsshavt Wp (X, n — v).
Demost.: Hemos visto en el teorema anterior que E(Xn—v ) = 0. Así las n

— v filas de Xn—v son todas Np (0, X) independientes. Luego ÆO = XJn—v
Xn—v cumple las condiciones de una × matriz p p que sigue la
distribución de Wishart. Q
15.3. Comtraste de hipótesis limeales

Una hipótesis lineal demostrable de rango t y matriz H es
HO : HB = 0
donde cada fila de H es combinación lineal de las filas de X.

Como en el caso univariante (Sección fi3.†), si HO es cierta, el modelo
se transforma en
V =X©˜ ‡ E,
la estimación de los parámetros B restringidos a H O viene dada por
^ H = B—(X
B ^ J
X)— HJ (H(XJ X)— HJ )—fi HB
^
y la matriz residual es
Æfi = (V — XB^ H )J (V — XB^ H ).

£F0 CAPÝTULO fi†. ANÁL. MULTIV. DE LA VAÆIANXA (MANOVA)
Teorema 15.3.1 Sea V = XB ‡ E e1 mode1o 1snea1 mu1tssavsante,

donde 1as fl1as de E son Np (0, X) sndependsentes, ÆO 1a matvss de
vessduos, HO : HB = 0 una hspótesss 1snea1 demostvab1e 4 Æfi 1a matvss de
vessduos bajo HO . Se sevsflGa:
f. ÆO ~ Wp(X, n — v).
W. Ss HO es Gsevta, 1as matvsGes Æfi 4 Æ— fi ÆO ssguen 1a dsstvsbuGsón

de Wsshavt
Æfi ~ Wp (X, n — vJ ), Æfi — ÆO ~ Wp (X, t),
ssendo t = vango(H), vJ = v — t.
h. Ss HO es Gsevta, 1as matvsGes ÆO 4 Æfi — ÆO son estoGástsGamente

snde− pendsentes.
Demost.: Si la hipótesis HO es cierta, el subespacio generado por las filas

de H está contenido en el generado por las filas de X. Podemos construir
una base ortogonal de Rm
[ufi, . . . , ut, ut‡fi, . . . , uv, uv‡fi, . . . , um]
tal que [ufi, . . . , ut] generen H, y [ufi, . . . , ut, ut‡fi, . . . , uv] generen X.
Consideremos la matriz C de orden m×(v—t) generada por [ut‡fi, . . . , uv].
Entonces HC = 0 y el modelo V = XB ‡ E se convierte en V =X˜ © ‡
siendo
E, X˜ = XC, y C© = B, pues HB = HC© = 0. Así la matriz de diseno
X se transforma en = XC, donde las columnas de XC son combinación
X˜
lineal de las columnas de X.
Podemos construir una matriz
ortogonal
T = [tfi, . . . , tvt , tvt‡fi, . . . , tv, tv‡fi, . . . , tn]
tal que las vJ = v —t primeras columnas generen XC y las v primeras generen

X
Cvt (XC) = [tfi, . . . , tvt ] c Cv(X) = [tfi, . . . , tv].
Siguiendo los mismos argumentos del teorema fi†.£.£, tenemos que
^ 0 Σ
TJ E = ,
Σ Xn—vt
fi†.Œ. MANOVA DE UN FACTOÆ £Ffi
donde las n — vJ filas de Xn—vt son Np (0, X) independientes. Por tanto
˜ ^ J (V—X©)
Æfi = (V—X©) ˜ = XJn—vt Xn—
^ vt
es Wishart Wp (X, n — vJ ). Como Xn—vt se puede desglosar en dos, escribimos
TJ (V—X˜ ©^ Σ Σ
, ,, ,
)= 0
0 , X=
Xn—vt
t Xn—v
donde las t = v — vJ filas de Xt son independientes de las n — v filas de Xn—v .

Entonces Æfi = XJt Xt ‡ XJn—v Xn—v , es decir,
Æfi — ÆO = XJt Xt ,
donde Æfi — ÆO es Wishart Wp (X, n — vJ ) e independiente de ÆO . Q

La consecuencia más importante de este teorema es que, si HO es cierta,
entonces ÆO y Æfi — ÆO son Wishart independientes y
|ÆO| |ÆO|
h= = ~ h(p, n — v, t).
|(Æfi — ÆO) ‡ ÆO| |Æfi|
Así 0 ≤ h ≤ fi sigue la distribución de Wilks. Aceptaremos HO si h no es
significativo y rechazaremos HO si h es pequeno y significativo.
Tabla general MANOVA

g. l.matriz Wishartlambda de Wilks Desviación hipótesist
Æfi — ÆO h = |ÆO|/|Æfi|
Residuo n—v ÆO
Criterio decisión: Si h c hα se rechaza HO, donde P (h(p, n — v, t) c hα) = α.
15.4. Mamova de um factor

El modelo del diseno de un único factor o causa de variabilidad es
¢sh = µ ‡ As ‡ esh , s = fi, . . . ,h¡ h = fi, . . . ,ns ,
donde µ es un vector de medias general, As es el efecto del nivel s del

factor, ¢sh es la observación multivariante h en la situación (o
población) s, correspondiendo a la misma situación experimental del
análisis canónico de
£F£ CAPÝTULO fi†. ANÁL. MULTIV. DE LA VAÆIANXA (MANOVA)
poblaciones (Capítulo F), con n = nfi ‡ · · · ‡ nh . La hipótesis nula

consiste en afirmar que las As son iguales a cero. Tenemos pues que
W = Æ O, B = Æfi — ÆO, T = Æfi = B ‡ W,
son las matrices de dispersión ”dentro grupos™, ”entre grupos™ y ”total™,
respectivamente (Sección 3.3.3).
g. l. MANOVA
matriz de
Wishart
un factorlambda de Wilks
Entre grupos h — fi B h = |W|/|T|
Dentro grupos n — h W ~ h(p, n — h, h —
fi)
Total n — fi T
15.5. Mamova de dos factores

Si suponemos que las n = a×b observaciones multivariantes dependen
de dos factores fila y columna, con a y b niveles respectivamente, el
modelo es
¢sj = µ ‡ As ‡ Ø j ‡ esj , s = fi, . . . , a¡ j = fi, . . . , b,
donde µ es la media general, As es el efecto aditivo del nivel s del factor fila,
Ø j es el efecto aditivo del nivel j del factor columna. Como generalización
del caso univariante, intervienen las matrices A = (auv ), B =(buv ), T =
(tuv ), ÆO = (vuv ) con elementos
auv = b s (4s·u — 4 u )(4s·v — 4 v )

buv = a Σj (4·ju — 4 u )(4·jv — 4 v )
vuv = Σsj (4sju — 4s·u — 4·ju ‡ 4 u )(4sjv — 4s·v — 4·jv ‡ 4 v )
tuv = sj(4sju — 4u)(4sjv — 4v), u, v = fi, . . . ,
p,
siendo, para cada variable Yu , 4 u la media general, 4·ju la media
fijando el nivel j del factor columna, etc. Se verifica
T = A ‡ B ‡ ÆO.
Si las α ó las Ø son nulas, entonces Æfi = ÆO ‡ A ó Æfi = ÆO ‡ B,
respectivamente. Así pues, indicando
— q = (a fi)(b fi), para contrastar la
hipótesis de que no influye el factor fila o el factor columna, en ninguna
de las variables, obtenemos la tabla:
fi†.6. MANOVA DE DOS FACTOÆES CON INTEÆACCIÓN £F3
MANOVA de dos factores

matriz lambda
g. l. Wishart de Wilks
Filas a — fi A |ÆO |/|ÆO ‡ A| ~ h(p, q, a —
Columnas b — fi B |ÆO |/|ÆO ‡ B| fi)
Residuo q ÆO ~ h(p, q, b —
fi)
Total ab — fi T
15.6. Mamova de dos factores com imteraccióm

En el diseno de dos factores con interacción suponemos que las ×
n =×a
b s observaciones multivariantes dependen de dos factores fila y
columna, con a y b niveles respectivamente, y que hay s observaciones
(réplicas) para cada una de las a × b combinaciones de los niveles. El
modelo lineal es
¢sjh = µ ‡ As ‡ Ø j ‡ ç sj ‡ esjh , s = fi, . . . , a¡ j = fi, . . . , b¡ h = fi, . . . , s,
donde µ es la media general, As es el efecto aditivo del nivel s del factor

fila, Ø j es el efecto aditivo del nivel j del factor columna, ç sj es la
interacción, parámetro que mide la desviación de la aditividad del efecto
de los factores, e ¢sjh = (4sjhfi , . . . , 4sjhp )J es la réplica multivariante h
de las variables observables. También, como en el caso univariante,
intervienen las matrices A = (auv ), B = (buv ), AB = (suv ), ÆO = (vuv ), T =
(tuv ), donde
auv = bs s (4s··u — 4 u )(4s··v — 4 v )

buv = Σj (4·j·u — 4 u )(4·j·v —
sas Σ 4(4) — 4 — 4 ‡ 4 )(4 — 4 — 4 ‡ 4 )
uv = s s,j v sj·u s··u ·j·v u sj·v s··v ·j·v v
vuv = s,jh(4sjhu — 4sj·u)(4sjhv —
t4uvsj·v) = Σ (4sjhu — 4u)(4sjhv — 4v), u, v = fi, . . . , p,
s,jh
que verifican
T = A ‡ B ‡ AB ‡ ÆO.
(AB no es un producto matricial). Indicando q = — (a fi)(b
— fi), v = ab(s
— columna o las
fi), para contrastar las hipótesis de que los factores fila,
interacciones no influyen, en ninguna de las variables, obtenemos la
tabla:
MANOVA de dos factores con interacción

matriz lambda
g. l. Wishart de Wilks
Filas a — fi A |ÆO |/|ÆO ‡ A| ~ h(p, v, a — fi)
Columnas b — fi B |ÆO |/|ÆO ‡ B| ~ h(p, v, b — fi)
Interacción q AB |ÆO |/|ÆO ‡ AB| ~ h(p, v, q)
Residuo v ÆO
Total abs — fi T
15.Y. Ejemplos
Ejemplo 15.Y.1 Æatas expevsmenta1es.
En un experimento para inhibir un tumor, se quiere investigar el efecto

del sexo (S) y de la temperatura ambiental (T). Se consideran las
variables:
Yfi =peso inicial, YX =peso final, Y3 =peso del tumor.
Machos Hembras
Temp Yfi YX Y3 Yfi YX Y3
4 fi8,fi5 fi6,5 fi 0,XŒ fi9,fi5 fi9,Œ9
0,fi6
fi8,68 fi9. 50 0,3X fi8,35 fi9,8fi 0,fit
fi9,5Œ fi9,8Œ 0,X0 X0,58 fi9,ŒŒ 0,XX
£0 Xfi,Xt X3,30 0,33 fi8,8t XX,00 0,X5
fi9,5t XX,3 0 0,Œ5 X0,66 Xfi ,08 0,X0
X0,fi5 fi8,95 0,35 Xfi,56 X0,3Œ 0,X0
34 X0,tŒ fi6,69 0. 3fi X0,XX fi9,00
0,fi8
X0,0X fi9,X6 0,Œfi fi8,38 fit,9X 0,30
fit,X0 fi5,90 0,X8 X0,85 fi9,90 0,fit
Los resultados MANOVA son:

fi†.F. EJEMPLOS £F†
Figura fi†.fi: Representación canónica de los datos de las ratas hembras

(izquierda) y machos (derecha).
g. l. fi8,t6
matriz dispersión
,, Œ,93X
, 9,t05 0,X888 ,,, lambda F g. l.
Total fiF 65,00
, —0,06X0
T £ XŒ,86 3X,58 0,3t69 , , 0,X588 3,Xfi9 6 y £0
0,X8Œt
, 0,0fi96
, 0,6050 0,fiX50 ,
fi,X33 —0,fi906
S fi , X,5fi6 —0,3888 , 0,33606,5863 y fi0

0,0600
, 0,X5Œ0 0,0359 ,
0,805X
T×S £ , 3,X05 0,088fi , 0,tt3fi 0,Œ586 y £0
, fi9,0t 0,0060 ,
t,0X3 —0,fi9Œ3
Residuofi£ X6,69 0,X08Œ
0,039X
Son significativos los efectos S y T, pero la interacción no es
significativa. Una representación canónica
× de los 3 X = 6 grupos (Figura
fi†.fi) ayuda a visualizar las diferencias. Podemos ver que la pequena
diferencia entre las representaciones de las tres temperaturas de los
machos y de las hembras, indican una cierta interacción, aunque no
significativa.
Ejemplo 15.Y.2 Go1eóptevos.

Continuando con el ejemplo F.6.fi, vamos a estudiar 8 poblaciones (6 es-
pecies en 8 localidades, factor L) de coleópteros del género fsmavGha,
pero ahora teniendo en cuenta el sexo, machos y hembras (factor S), en
relación a † variables biométricas (datos en
http://www.ub.edu/stat/personal/cuadras/ escarab.txt)
Las matrices de dispersión entre especies (6 especies en 8
localidades), entre sexos, debidas a la interacción, residual y los
estadísticos h y 5 son:
,. ,
fiŒ303 XŒ6X8 fitfi3t Œ8Œ8Œ 36308
Œ3t3Œ 3fi396 85980 6Œ5Xfi
L= . X36fi0 6fi5fi9 Œ6Œ05 h = 0,0068
3†
. fi699X0 fiX6980 .
, 5 X3†3 =
, fi5X,8
95395
,. ,
. 6t5,9Œ fi6fi3,0 fi6ŒŒ,5 Œ5X0,0 3Xt0,6
38Œ9,3 39XŒ,Œ fi0t86. t80Œ,9
h = 0,fi9ŒŒ
S=. Œ00fi,0 fi099t. t95t,X . †
, 30XX5. Xfi8tfi., 5††9 =Œ63,X
fi58X5.
,. ,
L×S=. 96,Œt0 8fi,53X 63,559 9X,035 X0,55Œ
. 9t,X05 85,55Œ fi5t,X8 fi0X,3fi
h = 0,t69X
86,Œ05 fiXt,66 fi08,X5 . 3†
, 5 X3†3 = Œ,3X9
ŒX8,9t X36,53,
,. X8X,30,
. fi5Œ6,t fiŒ8t,8 fi3Œ6,Œ XŒ5X,6 fi9XŒ,0
3Œ98,5 30t8,Œ ŒX06,6 3Œfi5,6
RO=. 308X,9 3888,X 3fi59,Œ .
, 9fit8,6 6038,0
,
5950,3
15.8. Otros criterios

Sean Zfi ≤ · · · ≤ Zp los valores propios de ÆO respecto de Æfi, es
decir, las raíces de la ecuación—det(ÆO ZÆfi) = 0. Podemos expresar el
criterio de Wilks como |ÆO|
h= = Zfi × · · · × Zp.
|Æfi|
Este criterio es especialmente interesante, teniendo en cuenta que si Z es
la razón de verosimilitud en el test de hipótesis, entonces Z = hnƒX.
fi†.8. OTÆOS CÆITEÆIOS £FF
Es fácil ver que 0≤Zs fi.≤ Se llaman correlaciones canónicas genera-

lizadas (al cuadrado) a s vX = —
fi Zs, s = fi, . . . , p. Entonces el criterio de
Wilks en términos de correlaciones es
p
Yh = X(fi
s
s=fi
— v ).
Se demuestra que cualquier estadístico que sea invariante por
cambios de origen y de escala de los datos, debe ser necesariamente
función de los valores propios Zfi ≤ · · · ≤ Zp (Anderson, fi9†8). Así, otros
son:
estadísticos propuestos
fi. Traza de p p X
Hotelling: f i — Z vs
—fi s
tr[Æ (Æ —Æ )] = Σ =Σ .
Z s=fi fi — vX
O fi s=fi s s
£. Traza de Pillai: p p
O
— fi
tr[Æ fi (Æfi —ÆO )] = Σ(fi — Zs ) = Σ vX .
s=fi s=fi s
3. Raíz mayor de Roy: 8 = fi — Zp = vfiX.

Este último estadístico está basado en el principio de unión
intersección (véase Sección 3.†.£) y se obtiene maximizando la 5 de
Fisher-Snedecor para todas las combinaciones lineales de las variables:
a (Æfi —ÆO )a n — v n—v
ma´x 5 (a) = ma´x j = ZJ ,
a a a ÆO a
J
t fi
t
siendo Z fi el primer valor propio de (Æfi —ÆO ) respecto de ÆO . Se cumple
J
la relación ZJfi = (fi — Zp )/Zp y se toma como estadístico de contraste

Z fi
8= j
= fi — = vXfi .
fi ‡ ZJfi Z
p
En el ejemplo fi†.F.£, para contrastar las diferencias entre las 6

especies (encontradas en 8 localidades), obtenemos los siguientes
valores de los es- tadísticos de Wilks, Hotelling, Pillai y Roy, y sus
transformaciones a una F:
F g. l.
Wilks 0,0068 fi5X,8 3† y £3†4
Hotelling X8,0X ŒŒ6,X 3† y
£F8F Pillai X,090 5t,t8 3† y £8fi†
Roy XŒ,90 X00X F y †63
Figura fi†.£: Representación HE plot (combinada con la representación

canónica) de los datos de las flores Iris, con los elipsoides de
concentración de las matrices H = Æfi—ÆO (línea gruesa) y E = ÆO (línea
discontinua).
15.9. Complememtos
El Análisis Multivariante de la Varianza es muy similar al Análisis de
la Varianza, salvo que interviene más de una variable cuantitativa obser-
vable. Esta extensión multivariante se inicia en fi930 con los trabajos de
H. Hotelling, J. Wishart y S. S. Wilks. Posteriormente S. N. Roy propuso
un planteamiento basado en el principio de unión-intersección.
Los cuatro criterios que hemos visto son equivalentes para p = fi, y
diferentes para p > fi. No está claro cuál es el mejor criterio, depende de
la hipótesis alternativa. Por ejemplo, en el diseno de un factor, si los
vectores de medias están prácticamente alineados, entonces el criterio de
Roy es el más potente. Véase Rencher (fi998).
Tales criterios miden el tamano de H = Æ —fi ÆO respecto de E = ÆO,
matrices que se pueden visualizar mediante elipsoides de concentración.
Friendly (£00F) propone representar ambos elipsoides en el llamado HE
plot (Figura fi†.£).
Se puede plantear un análisis tipo ANOVA para datos categóricos,
dando lugar al método llamado CATANOVA (Light y Margolin, fi9Ffi). Para
datos mixtos o no normales, se puede plantear MANOVA utilizando
distancias entre las observaciones, calculando coordenadas principales
mediante MDS, y a continuación aplicando el modelo de regresión
multivariante. Véase Cuadras (£008), Cuadras y Cuadras (£0fifi).
Capítulo 16
FUNCIONES ESTIMABLES
MULTIVAÆIANTES
16.1. Fumciomes estimables

En el modelo lineal univariante ¢ = XØ ‡ e, además de la estimación
de los parámetros de regresión Ø, tiene también interés la estimación de
ciertas combinaciones lineales de los parámetros Ø.
Defimicióm 16.1.1 Una funGsón pavamétvsGa $ es una GOmbsnaGsón 1snea1
de 1os pavámetvos Ø = (Ø fi , . . . , Ø m )J
$ = pfi Ø fi ‡ · · · ‡ pm Ø m = pJ Ø,
donde p = (pfi , . . . , pm )J . Una funGsón pavamétvsGa $ es estsmab1e ss
exsste una GOmbsnaGsón ^1snea1 $ de ¢ = (4fi , . . . , 4n )J
^ = afi 4fi ‡ · · · ‡ an 4n = aJ ¢,
$
donde a = (afi , . . . , an )J , ta1 que
^ = $.
E($)
La caracterización de que una función paramétrica $ es estimable se
da a continuación.
Proposicióm 16.1.1 Una funGsón pavamétvsGa $ = pJ Ø es estsmab1e ss
4 só1o ss e1 seGtov fl1a pJ es GOmbsnaGsón 1snea1 de 1as fl1as de 1a matvss
de dsseuo X.
£F9
£80 CAPÝTULO fi6. FUNCIONES ESTIMABLES MULTIVAÆIANTES
^ = E(aJ ¢) = aJ E(¢) = aJ XØ = pJ Ø, que se cumple para toda

Demost.: E($)
Ø. Por lo tanto aJ X = pJ , es decir, pJ es combinación lineal de las filas de
X. Q
16.2. Teorema de Gauss-Markov

La estimación óptima de una función paramétrica estimable $ =
p Ø se obtiene sustituyendo Ø
J ^ por Ø, la estimación LS de Ø. Este
resultado se conoce como teorema de Gauss-Markov.
Teorema 16.2.1 Sea $ = pJ Ø una funGsón pavamétvsGa estsmab1e. Se
se− vsflGa:
f. Ss Ø^ es estsmadov GS de Ø, entonGes $^ = pJ Ø^ es únsGO.

W. $^ = pJ Ø es estsmadov 1snea1 snsesgado de $ 4, dentvo de 1os
estsmadoves 1snea1es snsesgados de $, tsene savsansa msnsma.
^
Demost.: Existe un estimador insesgado ^$ = aJ ¢ de $ = pJ Ø. Sea Cv (X) el
subespacio generado por las columnas de X. Entonces a ˜=a‡b, donde a
c Cv (X) y b es ortogonal a Cv (X). Consideremos al estimador ˜J a ¢.
Tenemos ˜
E($^ ) = E(aJ ¢) =E(ãJ ¢ ‡ bJ ¢) =E(ãJ ¢) ‡ bJ XØ =E(ãJ ¢) =$,

puesto que bJ X = 0. Luego ã J
¢ es estimador centrado. Si J
a ¢ es otro
esti- fi J
mador centrado con afi c Cv(X), entonces ˜E(a ¢)—E(a ¢) = (a J—a )XØ = 0
J J
→a˜ = afi, es decir, aJ ¢ es único.

Por otro lado, ê= ¢ — XØ ^ es ortogonal a ˜Cv (X) y aJ e = aJ ¢ — aJ XØ = 0
→˜ãJ ¢ = ãJ XØ^ = pjØ^ . Así^˜ $^ = ãJ ¢ = pJ Ø^ es único ˜y centrado.
˜
Finalmente, indicando
X X X
ǁaǁ = afi ‡ · · · ‡ an,
tenemos que
X X X X
var(aJ ¢) = ǁaǁ o X = (ǁãǁ ‡ ǁbǁ )o X ≤ ǁãǁ oX = var(ã
J
¢),
que prueba que $^ = pJ Ø tiene varianza mínima. Q

Un criterio para saber si pJ Ø es función paramétrica estimable es
^
pJ (XJ X)— XJ X = pJ .
fi6.S. FUNCIONES ESTIMABLES MULTIVAÆIANTES £8fi
16.3. Fumciomes estimables multivariamtes

En el modelo lineal multivariante (fi†.fi), también tiene interés la esti-
mación de ciertas combinaciones lineales de los parámetros B.
Indiquemos por ¢fi, . . . , ¢n los vectores fila de V, y Øfi, . . . , Øm los
vectores fila de B, es decir:, fi , , fi ,
. . . .
V = , ¢.. , , B =, Ø .. , .
¢n Øm
Defimicióm 16.3.1 Una funGsón pavamétvsGa mu1tssavsante ƒ es una

GOmbs− naGsón 1snea1 de 1as fl1as de B,
ƒ J = pfi Ø fi ‡ · · · ‡ pm Ø m = pJ B,
donde p = (pfi , . . . , pm )J . Una funGsón pavamétvs

J
Ga mu1tssavsante ƒ es es−
^
tsmab1e (fpem) ss exsste una GOmbsnaGsón 1snea1 ƒ de 1as fl1as de V
ƒj
^ = afi ¢fi ‡ · · · ‡ an ¢n = a V,
J
donde a = (afi , . . . , an )J , ta1 que

^ = ƒ.
E(ƒ)
La caracterización de que una función paramétrica $ es estimables es

la siguiente:
Proposicióm 16.3.1 Una funGsón pavamétvsGa ƒ J = pJ B es estsmab1e

ss 4 só1o ss e1 seGtov fl1a pJ es GOmbsnaGsón 1snea1 de 1as fl1as de 1a matvss de
dsseuo X.
La demostración es similar al caso univariante. La estimación óptima

de una fpem ƒ J = pJ B viene dada por
ƒ
^ j = p B.
J
^ es
Sólo hay que sustituir B por B, ^ decir, por su estimación LS.
Teorema 16.3.1 Sea ƒ J = ($ fi , . . . , $ p ) = pJ B una funGsón

pavamétvsGa estsmab1e. Se sevsflGa:
£8£ CAPÝTULO fi6. FUNCIONES ESTIMABLES MULTIVAÆIANTES
f. Ss B^ es estsmadov GS de B, entonGes ƒ^ j = ($^ fi , . . . , $^ p ) = pJ B^ es

únsGO.
W. Gada $^ j es estsmadov 1snea1 snsesgado de $ j 4 de savsansa msnsma

entve 1os estsmadoves 1snea1es snsesgados de $ j .
Observemos que este teorema vale sin necesidad de una hipótesis de
normalidad. El estimador LS de ƒ es
—
ƒj
^ = p B = p (X X) X V =gfi ¢fi ‡ · · · ‡ gn ¢n
J J J J
donde ¢fi , . . . , ¢
^n son las filas de la matriz de datos V. El vector g = (gfi , . . . ,
gn ) es único, y podemos definir la dispersión ^de ƒ, que es mínima, como la
J
cantidad
6{X = gfiX ‡ · · · ‡ g X
n . (fi6.fi)
La versión del Teorema fi†.3.fi para fpem es:
Teorema 16.3.2 En e1 mode1o MANOVA novma1, ^ =

es 1a ests−
ss ƒ maGsón GS de ƒ, entonGes:
pJ B ^
f. Ga dsstvsbuGsón de ƒ^ es 1a de una GOmbsnaGsón 1snea1 de savsab1es nov−

ma1es sndependsentes.
W. Ga dsstvsbuGsón de ÆO es Wp (X, n — v).
h. ƒ^ 4 ÆO son estoGástsGamente sndependsentes.
16.4. Amálisis camómico de fumciomes

estimables
Supongamos que ƒ Jfi = pJfi B, . . . , ƒ Js = pJs B es un sistema de ‹ funciones
paramétricas estimables. Podemos plantear la representación canónica del
sistema como una generalización del análisis canónico de poblaciones.
16.4.1. Distamcia de Mahalamobis

Sean ƒ^ fi , . . . ,ƒ^ s las estimaciones LS de los fpem, X^ = ÆO /(n — v) la
estimación de la matriz de covarianzas. Podemos definir la distancia de Ma-
halanobis (estimada) entre las funciones ƒ s, ƒj como
M (s, j)X = (ƒ^ s — ƒ^ j )J X^ —fi (ƒ^ s — ƒ^ j ).

fi6.Œ. ANÁLISIS CANÓNICO DE FUNCIONES ESTIMABLES £83
Sea 6 sj = ǁgs — gj ǁ . Si ƒ^s j =s gJ V es independiente de jƒ^ j j = gJ V y se verifica

^ ^
la hipótesis HO : ƒs = ƒ j , entonces 6sj—fi(ƒs —^ƒj ) es Np(0, X) y (n — v)X es
Wp(X, n — v), por lo tanto 6sj—fiM(s, j) es Hotelling f X(p, n — v) y
n — v — p ‡ fi —fi
6 M (s, j)X ~ 5 p .
sj n—v—p‡fi
(n — v)p
Análogamente vemos que la distribución de
n — v — p ‡ f i fi
^ — s —ƒ s )J X^ — s
—ƒ s)
(ƒ(n 6 X{
v)p
fi
(ƒ^
es también 5 p
n—v—p‡fi ,donde es la dispersión mínima (fi6.fi).
{
6X
16.4.2. Coordemadas camómicas

Si ƒ^ s = ($^ sfi , . . . , $^ sp )J , s = fi, . . . , ‹, consideremos las medias
fi Σs
$ = sj , j = fi, . . . , ‹,
^
$
y la matriz j
‹ s=fi
, ^
$^ fifi — $fi · · $ — fip p ,.
. . . $
U =, . · .
. . . .. ,.
$^ sfi — $ fi · · · $^ sp — $ p
^ X,
Sea V = [vfi , . . . , vp ] la matriz de vectores propios de UJ U respecto de
con la normalización vjJ^Xvj = fi, es decir,
^
UJ UV =XVDZ, VJ XV = F,
donde DZ =diag(Zfi, . . . , Zp) es ^la matriz diagonal con los valores propios. Las
coordenadas canónicas de ^ ƒ fi , . . . ,ƒ s son las filas wfiJ , . . . , de la matriz
wsJ
^
W = UV.
La distancia euclídea entre las filas coincide con la distancia de

Mahalanobis entre las fpem
(ws — wj )J (ws — wj ) = (ƒ^ s — ƒ^ j )J X^ —fi (ƒ^ s — ƒ^ j ).

De manera análoga podemos definir la variabilidad geométrica de las fun-

ciones estimables, probando que es
s p
fi fi
V
{ = Σ M (s, j)X = ΣZ, s
X‹ ‹
X s,j=fi s=fi
y que es máxima en dimensión reducida m. El porcentaje de variabilidad

explicada por las m primeras coordenadas canónicas es
V
P = fi00 Zf i ‡ · · · ‡ Zm
(V)
mm = fi00 .
V{ Zfi ‡ · · · ‡ Zp
16.4.3. Æegiomes comfidemciales

Sean wsJ = ƒ^ s V, s = fi, . . . , ‹, las proyecciones canónicas de las estima-
J
ciones de las fpem. Podemos entender wsJ como una estimación de ƒ ×s J = ƒ Js V,

la proyección canónica de ƒs. Podemos también encontrar regiones
confidenciales para las ƒ ×s , s = fi, . . . , g.
Sea fi — α el coeficiente de confianza, 5α tal que P (5 > 5α) = α, donde
5 sigue la distribución F con p y (n — g — p ‡ fi) g.l., y consideremos:
RX = 5α (n — v)p
α .
(n — v — p ‡ fi)
Luego las proyecciones canónicas ƒ ×s de las fpem pertenecen a regiones
confidenciales que son hiperesferas (esferas en dimensión 3, círculos en
dimensión
£) de centros y radios
(ws, 6sRα)
donde 6s es la dispersión mínima (fi6.fi) de la estimación LS de ƒ s.
16.5. Ejemplos
Ejemplo 16.5.1 FávmaGOS.
Se quiere hacer una comparación de dos fármacos ansiolíticos (Diazepan
y Clobazan) con un placebo, que indicaremos D, C, P. Las variables
observables son efectos secundarios en la conducción de automóviles: Yfi
=tiempo de reacción (segundos) a la puesta en rojo de un semáforo, YX
=distancia mínima (cm.) entre dos puntos que el conductor necesitaba
para poder pasar por el medio. Los datos sobre 8 individuos (media de
varias pruebas) eran:
fi6.†. EJEMPLOS £8†
Placebo Clobazan Diazepan

Individuo Yfi YX Yfi YX Yfi YX
fi 0,5Œ8 fitt,8 0,5fi9 X03,0 0,63t fi9Œ,8
£ 0,6fi9 fi8Œ,Œ 0,tt6 fi6Œ,8 0,8fi8 fit5,X
3 0,6Œfi XŒt,X 0,6t8 Xfi5,8 0,t0fi X05,8
4 0,6X8 fi63,Œ 0,595 fi53,6 0,68t fi5X,X
† 0,8Œ6 fit3,6 0,858 fitfi,6 0,855 fi89,X
6 0,5fit fi6t,X 0,Œ93 fi66,0 0,6fi8 fi8fi,0
F 0,8t6 fitŒ,0 0,tŒfi fit0,X 0,8Œ9 fi89,0
8 0,60X fi58,6 0,tfi9 fi5t,X 0,t3fi fi8Œ,6
Los datos se ajustan a un diseno de dos factores sin interacción:
¢sj = µ ‡ As ‡Ø j ‡esj .
Interesa estudiar si hay diferencias significativas entre los fármacos, y si

las hay, representarlos y compararlos. Es decir, queremos hacer un test
sobre la hipótesis HO : Afi = AX = A3 y representar las funciones estimables
ƒ fi = µ ‡ Afi , ƒ X = µ ‡ AX , ƒ 3 = µ ‡ A3 .
La tabla MANOVA es:

g. l. matriz dispersión lambda F g. l.
. Σ X,86 4 y £6
Fármacos 0,0Xt5 fi,9t
£ 309
. 0,X58 Σ 0,Œ8X
. 0,03t —fi,X3 Σ 0,0X5 9,8Œ fi4 y £6
IndividuosF
8ŒtŒ
—fi,96
Residuo fi4
XXXfi
Las diferencias entre fármacos y entre individuos son significativas

Las estimaciones LS son:
ƒ^ fi = (,659, fi80,8)J , ƒ^ X = (,6tX, fit5,3)J , ƒ^ 3 = (,t3t, fi8Œ,0)J ,

√
con dispersión (fi6.fi): 6 fi = 6 X = 6 3 = fi/8 = 0,35Œ. Los dos valores propios
de UJ U respecto de X ^ son fi,68Œ y 0,fi08 y explican el fi00 % de la
variabilidad geométrica en dimensión £. Las coordenadas y los radios de la
representación
Figura fi6.fi: Representación canónica de tres fármacos en un diseno de

dos factores.
canónica (izquierda) y las correlaciones entre variables observables Y fi, YX, Y3

y canónicas Wfi, WX (derecha) son:
Fármaco Yfi YX radio Wfi WX
Placebo fi9,t3 8,9fi 0,86 Yfi 0,869 —0,Œ9Œ
Clobazan fi9,t5 8,ŒŒ 0,86 YX 0,X96 0,955
Diazepan Xfi,3X 8,68 0,86
La representación canónica indica que no hay diferencias entre P y C. En
cambio D se diferencia significativamente de P. Puesto que las variables
miden efectos secundarios, resulta que C no los tiene, pero D sí (Figura
fi6.fi).
Ejemplo 16.5.2 Æatas expevsmenta1es.
Continuando con el ejemplo fi†.F.fi, vamos a realizar la representación
canónica de los tres niveles de la temperatura. Los valores propios de UJ U
respecto de X^ son X,5X9 y fi,3t5, que explican el fi00 % de la variabilidad
geométrica (Figura fi6.£). Las coordenadas y los radios de la
representación canónica (izquierda) y las correlaciones entre variables
observables Yfi, YX, Y3 y canónicas Wfi, WX (derecha) son:
temp Wfi WX radio Wfi WX
4 —0,539 —0,8tfi fi,X9 Yfi 0,395 0,Xt8
£0 fi,X90 0,09fi fi,X9 YX 0,96fi —0,Xt6
34 —0,t53 0,tt9 fi,X9 Y3 0,Œ05 0,653
fi6.†. EJEMPLOS £8F
Figura fi6.£: Representación canónica de los efectos principales de las

temperaturas.
Ejemplo 16.5.3 Go1eóptevos.
Continuando con el ejemplo fi†.F.£, podemos hacer la representación

canó- nica de las 6 especies en 8 localidades, eliminando el efecto del
sexo y de la interacción (datos en
www.ub.edu/stat/personal/cuadras/escarab.txt). Los
dos primeros valores propios de UJ U respecto de X^ son X0fi,6ty X8,05Œ,
que explican el 98,X % de la variabilidad geométrica (inercia), véase la
Figura fi6.3. Las coordenadas y los radios de la representación canónica
(izquierda) y las correlaciones entre variables observables y canónicas
(derecha) son:
Especie Wfi WX radio Wfi WX

fi —Œ,56t fi,fi6Œ 0,3ŒX Yfi 0,600 0,fifi5
£ —3,t60 0,5fiX9 0,3ŒX YX 0,66fi 0,Œ50
3 —fi,9ŒŒ fi,03fi 0,Œfi8 Y3 0,Œ53 0,698
4 —X,6fi3 —fi,536 0,3ŒX Y4 0,80Œ 0,5XX
† —X,X99 —fi,t3fi 0,3ŒX Y† 0,tŒ8 0,5XX
6 —fi,t05 —0,638fi 0,3ŒX
F 6,8X8 3,6tfi 0,503
8 fi0,06 —X,Œt5 0,3ŒX
Figura fi6.3: Representación canonica de 8 poblaciones (6 especies de

coleópteros encontradas en 8 localidades distintas), eliminando el efecto
del dimorfismo sexual y de la interacción.
Esta representación permite visualizar las diferencias entre las especies,

sin la influencia del dimorfismo sexual y de la interacción especie×sexo
(Fig. fi6.3).
16.6. Complememtos
El teorema de Gauss-Markov se puede generalizar de diversas
maneras al caso multivariante. Ver Mardia et a1. (fi9F9), Rencher (fi998).
La representación canónica de funciones paramétricas estimables
multivariantes fue propuesta por Cuadras (fi9F4). Ver Cuadras et a1. (fi99†)
y otras generalizaciones en Lejeune y Calinski (£000), Arenas y Cuadras
(£004).
Turbón et a1. (£0fiF) obtienen una representación canónica de
cráneos humanos de Tierra del Fuego, combinando grupos y sexos,
eliminando el dimorfismo sexual y la interacción. Es decir, representando
grupos sin la influencia de otros factores.
Bibliografía
[fi] Albarrán, A., Alonso, P., Grané, A. (£0fi†) Profile identification

via weighted related metric scaling: An application to dependent
Span- ish children. J. of the Æo4a1 StatsstsGa1 SoGset4 Sevses A−
StatsstsGS sn SoGset4, 1Y8, fi-£6.
[£] Albert, A., Anderson, J. A. (fi984) On the existence of maximum like-
lihood estimates in logistic regression models. Bsometvsha, Y1, fi-
fi9.
[3] Aluja, T., Morineau, A. (fi999) Apvendev de 1os datos: e1 aná1ssss
de GOmponentes pvsnGspa1es, una apvoxsmaGsón desde e1 data msnsng.
EUB, Barcelona.
[4] Anderson, M. J., Willis, T. J. (£003) Canonical analysis of principal
coordinates: a useful method of constrained ordination for ecology.
EGO1− og4, 84, †fifi-†£†.
[†] Anderson, T. W. (fi9†8) An IntvoduGtson to Mu1tssavsate Ana14sss.
Wi- ley, N. York.
[6] Anderson, T. W., Rubin, H. (fi9†6) Statistical inference in factor
analysis. PvoG. of the fhsvd Bevhe1e4 S4mpossum on Math. Stat.
and Pvob., 5, fififi-fi†0.
[F] Arenas, C., Cuadras. C. M. (£004) Comparing two methods for joint
representation of multivariate data. Gomm. Stat. Gomp. Ssmu1.,
33, 4fi†-430.
[8] Baillo, A., Grané, A. (£008) fDD Pvob1emas Æesue1tos de
EstadsstsGa Mu1tssavsante. Delta, Madrid.
[9] Bar-Hen, A., Daudin, J.-J. (fi99F) A test of a special case of
typicality in linear discriminant analysis. BsometvsGS, 53, 39-48.
£89
£90 BIBLIOGÆAFÝA
[fi0] Bar-Hen, A. (£00fi) Preliminary tests in linear discriminant analysis.

StatsstsGa, 4, †8†–†93.
[fifi] Batista, J. M., Coenders, G. (£000) Mode1os de EGuaGsones

EstvuG− tuva1es. La Muralla, Madrid.
[fi£] Benzecri, J. P. (fi9F6) G’Ana14se des Données. I. Ga faxsnomse.

II. G’Ana14se des GovvespondanGes. Dunod, Paris.
[fi3] Boj, E., Delicado, P., Fortiana, J. (£0fi0) Distance-based local

linear regression for functional predictors. Gomputatsona1 StatsstsGS
and Data Ana14sss, 54, 4£9-43F.
[fi4] Cailliez, F. (fi983) The analytical solution of the additive constant

prob- lem. Ps4Ghometvsha, 48, 30†-308.
[fi†] Cárdenas C., Galindo Villardón, M. P. (£00fi) Bsp1ot GOn

snfovmaGsón extevna basado en mode1os bs1snea1es geneva1ssados.
Universidad Central de Venezuela, Caracas.
[fi6] Carmona, F. (£00†) Mode1os Gsnea1es. Pub. Univ. de

Barcelona, Barcelona.
[fiF] Cooley, W. W., Lohnes, P. R. (fi9Ffi) Mu1tssavsate Data Ana14sss. Wiley,

N. York.
[fi8] Cox, T. F., Cox, M. A. A. (fi994) Mu1tsdsmenssona1 SGa1sng.

Chapman and Hall, London.
[fi9] Cramer, E. M., Nicewander, W. A. (fi9F9) Some symmetric,

invariant measures of multivariate association. Ps4Ghometvsha, 44,
43-†4.
[£0] Critchley, F., Heiser, W. (fi988) Hierarchical trees can be scaled

per- fectly in one dimension. J. of G1asssflGatson, 5, †-£0.
[£fi] Cuadras, C. M. (fi9F4) Análisis discriminante de funciones

paramétricas estimables. fvab. Esta. Ins. Opev., 25, 3-3fi.
[££] Cuadras, C. M. (fi98fi) Métodos de Aná1ssss Mu1tssavsante.

Eunibar, Barcelona. 3a Ed. EUB, Barcelona, fi996.
BIBLIOGÆAFÝA £9fi
[£3] Cuadras, C. M. (fi988) Distancias estadísticas (con discusión) .

Estadss− tsGa Espauo1a, 30, £9†-3F8.
[£4] Cuadras, C. M. (fi989) Distance analysis in discrimination and

classification using both continuous and categorical variables. In:
Y. Dodge (Ed.), StatsstsGa1 Data Ana14sss and InfevenGe, pp. 4†9–
4F3. Elsevier Science Publishers B. V. (North–Holland), Amsterdam.
[£†] Cuadras, C. M. (fi99fi) Ejemplos y aplicaciones insólitas en

regresión y correlación. Øüestssó, 15, 36F-38£.
[£6] Cuadras, C. M. (fi99£a) Probability distributions with given multivari-

ate marginals and given dependence structure. J. Mu1tssavsate Ana14−
sss, 42, †fi-66.
[£F] Cuadras, C. M (fi99£b) Some examples of distance based

discrimination. BsometvsGa1 Gettevs, 29, 3-£0.
[£8] Cuadras, C. M. (fi993) Interpreting an inequality in multiple regression.

fhe AmevsGan StatsstsGsan, 4Y, £†6-£†8.
[£9] Cuadras, C. M. (fi99†) Increasing the correlations with the

response variable may not increase the coefficient of determination:
a PCA in- terpretation. In: E. Tiit, T. Kollo, H. Niemi (Eds),
Nem fvends sn Pvobabs1st4 and StatsstsGS. Vo1 h. Mu1tssavsate
StatsstsGS and MatvsGes sn StatsstsGS, pp.F†-83, VSP/TEV, The
Netherlands.
[30] Cuadras, C. M. (fi998) Multidimensional dependencies in ordination

and classification. In: K. Fernández, E. Morinneau (Eds.), Ana14−
ses Mu1tsdsmenssonne11es des Données, pp.fi†-£6, CISIA-Ceresta,
Saint Mandé (France).
[3fi] Cuadras, C. M. (£000) Pvob1emas de Pvobabs1sdades 4 EstadsstsGa. Vol.

£. EUB, Barcelona.
[3£] Cuadras, C. M. (£00£a) On the covariance between functions. J. of

Mu1tssavsate Ana14sss, 81, fi9-£F.
[33] Cuadras, C. M. (£00£b) Correspondence analysis and diagonal

expansions in terms of distribution functions. J. of StatsstsGa1
P1annsng and InfevenGe, 103, fi3F-fi†0.
£9£ BIBLIOGÆAFÝA
[34] Cuadras, C. M. (£00†a) Continuous canonical correlation analysis.

Æe− seavGh Gettevs sn Infovmatson and MathematsGa1 SGsenGes, 8,
9F-fi03.
[3†] Cuadras, C. M. (£00†b) First principal component
characterization of a continuous random variable. In: N.
Balakrishnan, I. Bairamov, O. Gebizlioglu,( Eds.). Advances on
Models, Characterizations and Ap- plications, pp. fi89-fi99. Chapman
& Hall/CRC-Press, New York.
[36] Cuadras, C. M. (£006) The importance of being the upper bound in
the bivariate family. SOÆf, 30, ††-84.
[3F] Cuadras, C. M. (£008) Distance-based multisample tests for
multivariate data. In: Arnold, B. C., Balakrishnan, N., Sarabia, J. M.,
Mínguez,
R. (Eds.), AdsanGes sn MathematsGa1 and StatsstsGa1 Mode1sng, pp.
6fi- Ffi. Birkhauser, Boston.
[38] Cuadras, C. M. (£009) Constructing copula functions with weighted
geometric means. J. of StatsstsGa1 P1annsng and InfevenGe, 139,
3F66- 3FF£.
[39] Cuadras, C. M. (£0fi0) On the covariance between functions (correc-
tion). J. of Mu1tssavsate Ana14sss, 101, fi3fiF-fi3fi8.
[40] Cuadras, C. M. (£0fifi) Distance-based approach in multivariate
association. In: S. Ingrassia, R. Rocci, M. Vichi, (Eds.), Nem
PevspeGtsses sn StatsstsGa1 Mode1sng and Data Ana14sss, pp. †3†-
†4£., Springer, Berlin.
[4fi] Cuadras, C. M. (£0fi4) Nonlinear principal and canonical
directions from continuous extensions of multidimensional scaling.
Open Jouvna1 of StatsstsGS, 4, fi3£-fi49.
[4£] Cuadras, C. M. (£0fi†) Conributions to the diagonal expansion of a
bivariate copula with continuous extensions. J. of Mu1tssavsate
Ana14sss, 139, £8-44.
[43] Cuadras, C. M., Arenas, C. (fi990) A distance based regression
model for prediction with mixed data. Gomm. Stat.−fheov. Meth.,
19, ££6fi-
££F9.
[44] Cuadras, C. M., Atkinson, R. A., Fortiana, J. (fi99F) Probability densi-
ties from distances and discriminant analysis. StatsstsGS and
Pvobabs1st4 Gettevs, 33, 40†-4fifi.
BIBLIOGÆAFÝA £93
[4†] Cuadras, C. M., Augé, J. (fi98fi) A continuous general multivariate

distribution and its properties. Gommun. Stat.−fheov. Meth, A10,
339- 3†3.
[46] Cuadras, C. M., Arenas, C., Fortiana, J. (fi996) Some computational

aspects of a distance-based model for prediction. Gomm. Stat.−Ssmu1.
Gomp., 25, †93-609.
[4F] Cuadras, C. M., Carmona, F. (fi983) Euclidean dimensionality of ul-

trametric distances. Øüestsso, Y, 3†3-3†8.
[48] Cuadras, C. M., Cuadras, D. (£00£) Orthogonal expansions and

distinc- tion between logistic and normal. In: C. Huber-Carol, N.
Balakrishnan,
M. S. Nikulin, M. Mesbah, (Eds.), Goodness−of−flt fests and
Va1sdst4 Mode1s, pp.3£†-338, Birkhauser, Boston.
[49] Cuadras. C. M., Cuadras, D. (£006) A parametric approach to corre-

spondence analysis. Gsneav A1gebva and sts App1sGatsons, 41Y, 64-F4.
[†0] Cuadras. C. M., Cuadras, D. (£0fifi) Partitioning the geometric

vari- ability in multivariate analysis and contingency tables. In: B.
Fichet,
D. Piccolo, R. Verde, M. Vichi, (Eds.), G1asssflGatson and
Mu1tssavsate Ana14sss fov Gomp1ex Data StvuGtuves, pp. £3F-£44.
Springer, Berlin.
[†fi] Cuadras, C. M., Cuadras, D. (£0fi†) A unified approach for the

multivariate analysis of contingency tables. Open Jouvna1 of
StatsstsGS, †,
££3-£3£.
[†£] Cuadras, C. M, Cuadras, D., Lahlou, Y. (£006) Principal

directions of the general Pareto distribution with applications. J.
of StatsstsGa1 P1annsng and InfevenGe, 136, £†F£-£†83.
[†3] Cuadras, C. M., Fortiana, J. (fi993a) Continuous metric scaling

and prediction. In: C.M. Cuadras, C.R. Rao (Eds.), Mu1tssavsate
Ana14− sss, Futuve DsveGtsons W, pp. 4F–66. Elsevier Science
Publishers B. V. (North–Holland), Amsterdam.
[†4] Cuadras, C. M., Fortiana, J. (fi993b) Aplicación de las distancias en

estadística. Øüestssó, 1Y, 39-F4.
£94 BIBLIOGÆAFÝA
[††] Cuadras, C. M., Fortiana, J. (fi994) Ascertaining the underlying

distribution of a data set. In: R. Gutierrez, M. J. Valderrama
(Eds.), Se1eGted fopsGS On StoGhastsG Mode11sng, pp. ££3-£30. World-
Scientific, Singapore.
[†6] Cuadras, C. M., Fortiana, J. (fi99†) A continuous metric scaling solu-

tion for a random variable. J. of Mu1tssavsate Ana14sss, 52, fi–fi4.
[†F] Cuadras, C. M., Fortiana, J. (fi996) Weighted continuous metric

scaling. In: Gupta, A. K., V. L. Girko (Eds.), Mu1tsdsmenssona1
StatsstsGa1 Ana14sss and fheov4 of Æandom MatvsGes, pp. £F–40.
VSP, Zeist, The Netherlands.
[†8] Cuadras, C. M., Fortiana, J. (fi998) Visualizing categorical data

with related metric scaling. In: J. Blasius, M. Greenacre, (Eds.),
Vssua1ssa− tson of GategovsGa1 Data, pp. 36†-3F6. Academic Press, N.
York.
[†9] Cuadras, C. M., Fortiana, J. (£000) The Importance of

Geometry in Multivariate Analysis and some Applications. In: C.R.
Rao, G. Szekely, (Eds.), StatsstsGS fov the Wfst Gentuv4, pp. 93-fi08.
Marcel Dekker, N. York.
[60] Cuadras, C. M., Fortiana, J. (£004) Distance-based multivariate

two sample tests. In: M. S. Nikulin, N. Balakrishnan, M.
Mesbah, N. Limnios (Eds.), PavametvsG and SemspavametvsG Mode1s
msth App1sGa− tsons to Æe1sabs1st4, Suvsssa1 Ana14sss, and Øua1st4 of
Gsfe, pp. £F3-£90. Birkhauser, Boston.
[6fi] Cuadras, C. M., Fortiana, J., Greenacre, M. (£000) Continuous

extensions of matrix formulations in correspondence analysis, with
applications to the FGM family of distributions. In: R. D. H.
Heijmans, D. S.
G. Pollock, A. Satorra, (Eds.), Innosatsons sn Mu1tssavsate
StatsstsGa1 Ana14sss, pp. fi0fi-fifi6. Kluwer Ac. Publ., Dordrecht.
[6£] Cuadras, C. M., Cuadras, D., Greenacre, M. (£006) Comparison of

different methods for representing categorical data. Gomm. Stat.
−Ssmu1. and Gomp., 35 (£), 44F-4†9.
[63] Cuadras, C. M., Fortiana, J., Oliva, F. (fi99†) Representation of

statistical structures, classification and prediction using
multidimensional
BIBLIOGÆAFÝA £9†
scaling. In: W. Gaul, D. Pfeifer (Eds.), Fvom Data to Knom1edge, pp.

£0-3fi. Springer, Berlin.
[64] Cuadras, C. M., Diaz, W., Salvo-Garrido, S. (£0fi9) Two generalized

bivariate FGM distributions and rank reduction. GommunsGatsons sn
StatsstsGS−fheov4 and Methods, DOI fi0.fi080/036fi09£6.£0fi9.fi6£0£80
[6†] Cuadras, C. M., Fortiana, J., Oliva, F. (fi99F) The proximity of an

individual to a population with applications in discriminant
analysis.
J. of G1asssflGatson, 14, fifiF-fi36.
[66] Cuadras, C. M., Lahlou, Y. (£000) Some orthogonal expansions for

the logistic distribution. Gomm. Stat.−fheov. Meth., 29, £643-£663.
[6F] Cuadras, C. M., Oller, J. M. (fi98F) Eigenanalysis and metric multidi-

mensional scaling on hierarchical structures. Øüestssó, 11, 3F-†F.
[68] Cuadras, C. M., Salvo-Garrido, S. (£0fi8a) PvedsGGsón

Mu1tssavsante Basada en DsstanGsas Publicacions del Departament
d‘Estadística, no. 6, Universitat de Barcelona, Barcelona.
[69] Cuadras, C. M., Salvo-Garrido, S. (£0fi8b) Some multivariate

measures based on distances and their entropy versions. En: fhe
MathematsGS Of the UnGevtasn, E. Gil et a1., eds. Springer Int. Pub.,
pp. 4F†-484.
[F0] Cuadras, C. M., Sánchez-Turet, M. (fi9F†) Aplicaciones del

análisis multivariante canónico en la investigación psicológica. Æes.
PssGO1. Gen. Ap1sG., 30, 3Ffi-38£.
[Ffi] Cuadras, C. M., Valero, S., Cuadras, D., Salembier, P., Chanussot,
J. (£0fi£) Distance-based measures of association with applications
in relating hyperspectral images. Gomm. Stat., fheov.− Meth., 41,
£34£–
£3††.
[F£] Chatterjee, S., Price, B. (fi99fi) Æegvessson Ana14sss b4 Examp1e. Wiley,

N. York.
[F3] De Cáceres, M., Oliva, F., Font, X. (£006) On relational

possibilistic clustering. Pattevn ÆeGOgnstson, 39, £0fi0-£0£4.
£96 BIBLIOGÆAFÝA
[F4] Diaz, W., Cuadras, C. M. (£0fiF) On a multivariate

generalization of the covariance. GommunsGatsons sn
StatsstsGS−fheov4 and Methods, 46 (9), 4660-4669.
[F†] Eckart, C., Young, G. (fi936) The approximation of one matrix

for another of lower rank. Ps4Ghometvsha, 1, £fifi-£fi8.
[F6] Efron, B. (fi9F†) The efficiency of logistic regression compared to

normal discriminant analysis. J. of the AmevsGan StatsstsGa1
AssoGsatson, Y0, 89£-898.
[FF] Egozcue, J., Pawlowsky-Glahn, V. (£0fi8) Evidence functions: a

com- positional approach to information. SOÆf, 42 (£), fi0fi-fi£4.
[F8] Escofier, B., Pagès, J. (fi990) Ana14ses FaGtovse11es Ssmp1es et Mu1tsp1es.

Dunod, Paris.
[F9] Escoufier, Y. (fi9F3) Le traitement des variables vectorielles.

Bsomet− vsGS, 29, F†fi-F60.
[80] Everitt, B.S. (fi993) G1ustev Ana14sss. Edward Arnold, London.
[8fi] Flury, B. (fi99F) A Fsvst Gouvse sn Mu1tssavsate StatsstsGS. Springer,

N. York.
[8£] Fortiana, J., Cuadras, C. M. (fi99F) A family of matrices, the

discretized Brownian bridge and distance-based regression. Gsneav
A1gebva and sts App1sGatsons, 264, fiF3-fi88.
[83] Friendly, M. (fi994) Mosaic displays for multi-way contingency tables.

J. of the AmevsGan StatsstsGa1 AssoGsatson, 89, fi90–£00.
[84] Friendly, M. (fi999) Extending mosaic displays: Marginal, conditional,

and partial views of categorical data. J. of Gomputatsona1 and
Gvaph− sGa1 StatsstsGS, 8, 3F3–39†.
[8†] Friendly, M. (£00F) HE plots for multivariate linear models. J. of

Gom− putatsona1 and GvaphsGa1 StatsstsGS, 16, 4£fi-444.
[86] Gabriel, K. R. (fi9Ffi) The biplot graphic display of matrices with ap-
plication to principal component analysis. Bsometvsha, 58, 4†3-46F.
BIBLIOGÆAFÝA £9F
[8F] Galindo Villardón, M. P. (fi986) Una alternativa de representación si-

multánea: HJ-Biplot. Øüestssó, 10, fi3-£3.
[88] Gittings, R. (fi98†) GanonsGa1 Ana14sss. A Æessem msth App1sGatsons

sn EGO1og4. Springer-Verlag, Berlin.
[89] Golub, G. H., Reinsch, C. (fi9F0) Singular value decomposition and

least squares solutions. NumevssGhe Mathematsh, 14 (†), 403–4£0.
[90] Gordon, A. D. (fi999) G1asssflGatson. Chapman and Hall, London.
[9fi] Gower, J. C. (fi966) Some distance properties of latent roots and

vector methods in multivariate analysis. Bsometvsha, 53, 3fi†-3£8.
[9£] Gower, J. C. (fi9Ffia) A general coefficient of similarity and

some of its properties. BsometvsGS, 2Y, 8†F-8Ffi.
[93] Gower, J. C. (fi9Ffib) Statistical methods of comparing different mul-

tivariate analyses of the same data. In: F.R. Hodson, D.G. Kendall,
P. Tautu (Eds.), MathematsGS sn the AvGhaeo1ogsGa1 and HsstovsGa1
SGs− enGes, pp. fi38-fi49. Edinburgh University Press, Edinburgh.
[94] Gower, J. C., Hand, D. J. (fi996) Bsp1ots. Chapman and Hall,
London. [9†] Gower, J. C., Lubbe, S., le Roux, N. (£0fifi)
Undevstandsng Bsp1ots.
Wiley, N. York.
[96] Graffelman, J. (£00fi) Øuality statistics in canonical

correspondence analysis. EnssvonmetvsGS, 12, 48†-9F.
[9F] Greenacre, M. J. (fi984) fheov4 and App1sGatsons of

GovvespondenGe Ana14sss. Academic Press, London.
[98] Greenacre, M. J. (£008) Ga PváGtsGa de1 Aná1ssss de GovvespondenGsas.

Fundación BBVA - Rubes Ed., Barcelona.
[99] Greenacre, M. J. (£0fi0) Bsp1ots sn PvaGtsGe. Fundación BBVA -

Rubes Ed., Barcelona.
[fi00] Greenacre, M. (£0fi8) Gomposstsona1 data Ana14sss sn PvaGtsGe. CRC

Press (Chapman & Hall), London.
£98 BIBLIOGÆAFÝA
[fi0fi] Harman, H. H. (fi9F6) Modevn FaGtov Ana14sss. The Univ.

Chicago Press, Chicago, 3a ed.
[fi0£] Hardy, A. (fi996) On the number of clusters. Gomputatsona1

StatsstsGS and Data Ana14sss, 23, 83-96.
[fi03] Hartigan, J. A. (fi96F) Representation of similarity matrices by trees.

J. of the AmevsGan StatsstsGa1 AssoGsatson, 62, fifi40-fifi†8.
[fi04] Hastie, T., Tibshirani, R. J. (fi990) Geneva1ssed Addstsse Mode1s.

Chapman and Hall, London.
[fi0†] Hill, M. O. (fi9F3) Reciprocal averaging: an eigenvector method of

ordination. J. of EGO1og4, 61, £3F-£49.
[fi06] Holman, E. W. (fi9F£) The relation between Hierarchical and

Euclidean models for psychological distances. Ps4Ghometvsha, 3Y,
4fiF-4£3.
[fi0F] Hosmer, D. W., Lemeshow, S. (£000) App1sed GogsstsG Æegvessson,

£nd Edition. Wiley, N. York.
[fi08] Hotelling, H. (fi936) Relations between two sets of variates. Bsometvsha,

28, 3£fi-3FF.
[fi09] Huitson, A. (fi966) fhe Ana14sss of VavsanGe. Charles Griffin, London.
[fifi0] Hutchinson, T. P., Lai, C. D. (fi99fi) fhe Engsneevsng

StatsstsGsan’s Gusde to Gontsnuous Bssavsate Dsstvsbutsons. Rumsby
Scientific Pub., Adelaide.
[fififi] Irigoien, I., Arenas, C. (£008) INCA: New statistic for estimating
the number of clusters and identifying atypical units. StatsstsGS sn
MedsGsne, 2Y, £948-£9F3.
[fifi£] Jauregui, E., Irigoien, I., Sierra, B., Lazkano, E., Arenas, C.
(£0fifi) Loop-closing: A typicality approach. ÆobotsGS and
Autonomous S4s− tems 59, £fi8-££F.
[fifi3] Joe, H. (fi99F) Mu1tssavsate Mode1s and DependenGe GonGepts.

Chap- man and Hall, London.
BIBLIOGÆAFÝA £99
[fifi4] Johnson, S. C. (fi96F) Hierarchical clustering schemes. Ps4Ghometvsha,

32, £4fi-£†4.
[fifi†] Joreskog, K. (fi96F) Some contributions to maximum likelihood

factor analysis. Ps4Ghometvsha, 32, 443-48£.
[fifi6] Joreskog, K. (fi969) A general approach to confirmatory maximum

likelihood factor analysis. Ps4Ghometvsha, 34, fi83-£0£.
[fifiF] Joreskog, K. (fi9F0) A general method for analysis of covariance

structures. Bsometvsha, 5Y, £39-£†fi.
[fifi8] Joreskog, K, Sorbom, D. (fi999) GISÆEG 8: A Gusde to the

Pvogvam and App1sGatsons. Scientific Software International, Inc.,
Chicago.
[fifi9] Krzanowski, W. J. (fi9F†) Discrimination and classification using

both binary and continuous variables. J. of the AmevsGan StatsstsGa1
AssoGs− atson, Y0, F8£-F90.
[fi£0] Krzanowski, W. J. (fi980) Mixtures of continuous and categorical

variables in discriminant analysis. BsometvsGS, 36, 493-499.
[fi£fi] Krzanowski, W. J. (fi988) PvsnGsp1es of Mu1tssavsate Ana14sss: A

usev’s pevspeGtsse. Oxford Clarendon Press, Oxford.
[fi££] Krzanowski, W. J., Radley, D. (fi989) Nonparametric confidence

and tolerance regions in canonical variate analysis. BsometvsGS,
45, fifi63- fifiF3.
[fi£3] Lancaster, H. O. (fi969) fhe Ghs−Squaved Dsstvsbutson. J. Wiley,

N. York.
[fi£4] Lawley, D. N., Maxwell, A. E. (fi9Ffi) FaGtov Ana14sss as a

StatsstsGa1 Method. Butterworth, London.
[fi£†] Lebart, L., Morineau, A., Tabard, N. (fi9FF) feGhnsques de 1a

DesGvsp− tson Statsstsque. Dunod, Paris.
[fi£6] Lejeune, M., Calinski, T. (£000) Canonical analysis applied to multi-

variate analysis of variance. J. of Mu1tssavsate Ana14sss, Y2, fi00-fifi9.
300 BIBLIOGÆAFÝA
[fi£F] Light, R. J., Margolin, B. H. (fi9Ffi) An analysis of variance for

categorical data. J. of the AmevsGan StatsstsGa1 AssoGsatson, 66,
†34-†44.
[fi£8] Longford, N. T. (fi994) Logistic regression with random coefficients.

Gomputatsona1 StatsstsGS and Data Ana14sss, 1Y, fi-fi†.
[fi£9] Manzano, M., Costermans, J. (fi9F6) Dos métodos para el estudio

psi- cológico del léxico: su aplicación a algunos adjetivos de la
lengua espanola. Æesssta GatsnoamevsGana de PssGO1ogsa, 8, fiFfi-
fi9fi.
[fi30] Mardia, K. V., Kent, J. T., Bibby, J. M. (fi9F9) Mu1tssavsate Ana14sss.

Academic Press, London
[fi3fi] McLachlan, G. J. (fi99£) DssGvsmsnant Ana14sss and StatsstsGa1

Pattevn ÆeGOgnstson. Wiley, N. York.
[fi3£] Morrison, D. F. (fi9F6) Mu1tssavsate StatsstsGa1 Methods. SeGOnd Ed.

Mc Graw Hill, N. York.
[fi33] Muirhead, R. J. (fi98£) AspeGts of Mu1tssavsate StatsstsGa1 fheov4.

Wi- ley, N. York.
[fi34] Nelsen, R. B. (£006) An IntvoduGtson to Gopu1as. Springer, N.

York, Second Edition.
[fi3†] Oliva, F., Bolance, C., Diaz, L. (fi993) Aplicació de l‘anàlisi multivari-
ante a un estudi sobre les llengües europees. Øüestssó, 1Y, fi39-
fi6fi.
[fi36] Oller, J. M. (fi98F) Information metric for extreme values and

logistic distributions. Sanhh4a, 49 A, fiF-£3.
[fi3F] Oller, J. M., Cuadras, C. M. (fi98†) Rao‘s distance for negative

multinomial distributions. Sanhh4a, 4Y A, F†-83.
[fi38] Pena, D. (fi989) EstadsstsGa Mode1os 4 Métodos W. Mode1os Gsnea1es

4 Sevses fempova1es. Alianza Universidad Textos, £a Ed., Madrid.
[fi39] Pena, D. (£00£) Aná1ssss de Datos Mu1tssavsantes. McGraw Hill Inter-

americana, Madrid.
[fi40] Øuesada-Molina, J. J. (fi99£) A generalization of an identity of

Hoeffd- ing and some applications. J of the Ita1san Stat. SoGset4, 3,
40†-4fifi.
BIBLIOGÆAFÝA 30fi
[fi4fi] Rao, C. R. (fi9†£) AdsanGed StatsstsGa1 Methods sn BsometvsG ÆeseavGh.

Wiley, N. York.
[fi4£] Rao, C. R. (fi9F3) Gsneav StatsstsGa1 InfevenGe and thesv App1sGatsons.

Wiley, N. York.
[fi43] Rao, C. R. (fi99†) A review of canonical coordinates and an

alternative to correspondence analysis using Hellinger distance.
Øüestssó, 19, £3- 63.
[fi44] Rencher, A. C. (fi99†) Methods of Mu1tssavsate Ana14sss. Wiley,

N. York.
[fi4†] Rencher, A. C. (fi998) Mu1tssavsate StatsstsGa1 InfevenGe and

App1sGa− tsons. Wiley, N. York.
[fi46] Rummel, R. J. (fi963) The dimensions of conflict behavior within and

between nations. Geneva1 S4stems Yeavbooh, 8, fi-†0.
[fi4F] Sánchez-Turet, M., Cuadras, C. M. (fi9F£) Adaptación espanola

del cuestionario E.P.I. de Eysenck. Anuavso de PssGO1ogsa, 6, 3fi-†9.
[fi48] Satorra, A. (fi989) Alternative test criteria in covariance

structure analysis: A unified approach. Ps4Ghometvsha, 54, fi3fi-fi†fi.
[fi49] Scheffé, H. (fi9†9) fhe Ana14sss of VavsanGe. Wiley, N. York.
[fi†0] Seal, H. L. (fi964) Mu1tssavsate StatsstsGa1 Ana14sss fov Bso1ogssts.

Methuen and Co. Ltd., London.
[fi†fi] Seber, G. A. F. (fi9FF) Gsneav Æegvessson Ana14sss. Wiley, N. York.

[fi†£] Seber, G. A. F. (fi984) Mu1tssavsate Obsevsatsons. Wiley, N. York.
[fi†3] Spearman, Ch. (fi904) General intelligence objetively determined and
measured. AmevsGan J. of Ps4Gho1og4, 15, £0fi-£93.
[fi†4] Tibshirani, R., Walther, G., Hastie, T. (£00fi) Estimating the
number of clusters in a data set via the gap statistic. J. Æ. Stat.
SoG. B, 63, 4fifi-4£3.
[fi††] Torrens-Ibern, J. (fi9F£) Modé1es et Méthodes de 1’Ana14se FaGtovse11e.
Dunod, Paris.
30£ BIBLIOGÆAFÝA
[fi†6] Turbón, D., Arenas, C., Cuadras, C. M. (£0fiF) Fueguin crania and
the circum-Pacific rim variation. Am. J. Ph4s. Anthvopo1og4, 163
(£),
£9†-3fi6.
[fi†F] van der Heijden, P. G. M., de Leuw, J. (fi98†) Correspondence

analysis used complementary to loglinear analysis. Ps4Ghometvsha,
50, 4£9-44F.
[fi†8] Vera, J. F., Macías, R., Heiser, W. J. (£009) A dual latent class
unfold- ing model for two-way two-mode preference rating data.
Gomputatsona1 Statsstsss and Data Ana14sss, 53, 3£3fi-3£44.
[fi†9] Waller, N. G. (£0fifi) The geometry of enhancement in multiple

regression. Ps4Ghometvsha, Y6, 634-649.
ímdice alfabético
Análisis factorial curva

múltiple, 93 especificidad, ££9
simple, 9F ROC, ££9
aproximación sensibilidad, ££8
a la distribución F, 36 dendograma, fi9fi
de Eckart-Young, ££ descomposición
espectral, £fi
biplot, 88, 94 singular, £fi
desigualdad
coeficiente de Cramér-Rao,
de Pearson, fiFfi 43 triangular, fi3F,
procrustes, £4, F† fi9fi ultramétrica,
componentes principales fi90
comunes, 93 discriminador
definición, FF Bayes, £fi4
distribución, 83 cuadrático, £fi†
comunalidad, 98, lineal, £fi£
fi0fi coordenadas distancia, fi9
canónicas, fi£F, £83 ciudad, fi48
principales, fi40, fi6† de Bhattachariyya, fi†0
corrección de Box, fi30 de Mahalanobis, fi9, fi£6, fi36, fi66,
correlación £fi†, £8£
canónica, 6F de Pearson, fi9,
canónica generalizada, fi36 de Prevosti,
£FF múltiple, 64 fi††
simple, fi† de Rao, fi†£
vectorial, F† dominante, fi48
correspondencias Euclídea, fi9, 80,
múltiples, fiF3 fi48 ji-cuadrado,
simples, fi66 fi6†
distribución
F de Fisher-Snedecor, 34,
3† de Hotelling, 34, †3
303
304 ÝNDICE ALFABNTICO
de Wilks, 3†, factor

£Ffi de Wishart, único, 98, fi00
33 elíptica, 4fi común, 98, fi00
multinomial, 38 en disenos factoriales, £†3, £††,
normal bivariante, 3£ £†F
normal multivariante, 30 falacia ecológica, fi36
función
ecuaciones de verosimilitud, 43, 44, †fi,
de verosimilitud, fi09 fi09 estimable multivariante,
normales, £43, £66 £8fi estimable univariante, £F9
ejemplos score, 43
adjetivos, fi†F, £0†
árboles, £†, 60 HE plot, £F8
asignaturas, fi03, fi08, fifi3, Heywood, caso de, fi03, fi08
fifi6 bebés, ££9 hipótesis lineal, £4F, £69
coleópteros, fi3£, £F6, £8F
interacción, £†F
colores cabello y ojos,
inversa generalizada, £fi, 38, fi†0,
fi69 copépodos, £fi6
corredores, 9fi fi63 jerarquía indexada, fi88
diagnosis, £38
distancia genética en matriz
Drosophila, fi†4 centrada, fi†
elecciones, F£ de Burt, fiF3, fiF†
estudiantes, 89 de correlaciones, fi6, 98
familias, £F, de covarianzas, fi6
Ffi fármacos, de dispersión dentro grupos, 4F,
£84 flores, ††, £F£
££0 de dispersión entre grupos, 4F,
herramientas prehistóricas, fi†3 £F£ de distancias Euclídeas, fi38
idiomas, £04 de información de Fisher, 44
intención de voto, fiF† medición de factores
moscas, †4 de Anderson-Rubin, fifi6
partidos, fi89 de Bartlett, fifi†
profesores, £0£ por mínimos cuadrados, fifi†
ratas experimentales, £F4, £86
medidas de variabilidad
test de capacidad, fifiF
variación total, fi8, F9
Titanic, fiFF, £63
varianza generalizada, fi8
espacio ultramétrico, fi90
ÝNDICE ALFABNTICO 30†
método basada en distancias, £3†

de las medias móviles, de Bayes, £fi3, ££0
£0F del factor principal, discriminación logística, ££†
fi0F del máximo, fi99 discriminante, £fifi
del mínimo, fi9F máxima verosimilitud, £fi£, £fi9
flexible, £09 relaciones tetrádicas, 99
modelo rotación
de regresión logística, £ biquartimin, fifi£
£4 de regresión múltiple, covarimin, fifi£
£4† lineal, £4fi oblicua, fifi£
log-lineal, £6fi ortogonal, fififi
logístico, ££4 promax, fifi3
multifactorial, fi00 quartimax, fififi
Thurstone, fi†fi quartimin, fifi£
unifactorial, 98 varimax, fififi
mosaicos, fi84
similaridad, coeficiente de
número definición, fi43
de clusters (conglomerados), £0F Dice, fi49
de componentes principales, 86 Gower, fi†fi,
de correlaciones canónicas, 69 £38 Jaccard,
de factores comunes, fifi0 fi44
de variables canónicas, fi30 Sokal y Michener, fi44
paradoja Sokal-Sneath, fi49
de Rao, †F
tablas concatenadas, fi84
de Stein, 6fi
teorema
preordenación, fi4†
de Cochran, 4F
principio
de Craig, 49
de equivalencia distribucional,
de Fisher, 49
fi83 de parsimonia, fi06
de Gauss-Markov, £80
de unión-intersección, †3, 6fi,
F0, de la dimensión, fiF
£F8 de Thurstone, fi0†
de Wilks, †fi
probabilidad de clasificación
errónea, test
£fifi, £fi3, £fi† comparación de dos medias, 46
comparación de medias, †£
razón de verosimilitud, †fi de Bartlett, 6fi, fi30
realce en regresión múltiple, de Bartlett-Lawley, 69
94 regla
306 ÝNDICE ALFABNTICO
de esfericidad, 8F
de razón de verosimilitud, †fi
de Wald, ££F
independencia, †£, 69, 8†
sobre la covarianza, 84
sobre la media, 4†
tipicalidad, £39
transformación
canónica, fi£6
componentes principales, F8, 8fi
lineal, fi6
procrustes, £4, fifiF
unicidad, fi0fi
valores singulares, £fi, 68, 88, fi64

variabilidad geométrica (inercia), 80,
8fi, fi£F, fi4£,
fiFfi variable
canónica, 6F
compuesta, fi6, F8
···
4fififi, . . . , 4fific 4fiXfi, . . . , 4fiXc · · · 4fibfi, . . . , 4fibc
4Xfifi, . . . , 4Xfic 4XXfi, . . . , 4XXc · · · 4Xbfi, . . . , 4Xbc
. . .. .
.
4afifi, . . . , 4afic 4aXX, . . . , 4aXc · · · 4abfi, . . . , 4abc
Z

Metodos

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Metodos

Cargado por

Copyright:

Formatos disponibles

NUEVOS MÉTODOS

Revisado £fi de Junio de

Es propiedad del autor.

£.6. Relaciones entre Wilks, Hotelling y F . . . . . . . . . . . . . . 3F

4. ANÁLISIS DE COÆÆELACIÓN CANÓNICA 63

5. ANÁLISIS DE COMPONENTES PÆINCIPALES YY

†.4.£. Contraste de hipótesis.....................................................84

Y. ANÁLISIS CANÓNICO DE POBLACIONES 123

F.4. Representación canónica..........................................................fi£F

8. ESCALADO MULTIDIMENSIONAL (MDS) 13Y

9. ANÁLISIS DE COÆÆESPONDENCIAS 161

10. CLASIFICACIÓN 18Y

11. ANÁLISIS DISCÆIMINANTE 211

12. DISCÆIMINACIÓN LOGíSTICA V OTÆAS 223

fi£.fi.£. Modelo de regresión logística........................................££4

13. EL MODELO LINEAL 241

14. ANÁLISIS DE LA VAÆIANEA (ANOVA) 253

15. ANÁL. MULTIV. DE LA VAÆIANEA (MANOVA) 265

fi†.3. Contraste de hipótesis lineales.................................................£69

16. FUNCIONES ESTIMABLES MULTIVAÆIANTES 2Y9

El Análisis Multivariante es un conjunto de métodos estadísticos y

Esta obra tiene como precedentes la monografía ”Métodos de Análisis

Cómo citar este libro:

El análisis multivariante (AM) es la parte de la estadística y del análisis

1.2. Matrices de datos

Supongamos que sobre los individuos wfi, . . . , wn se han observado

el individuo ws. La matriz de datos multivariantes es

4. La matriz simétrica p × p de covarianzas muestrales

siendo vjjt = cor(Ej, Ejt ) el coeficiente de correlación (muestral) entre

1.3. Matriz de cemtrado

3. Los valores propios de H son cero o uno: Hv = Zv implica Z = 0 ó fi.

4. fi es vector propio de valor propio cero: Hfi = 0, fiJH = 0J.

†. El rango de H es n — fi, es decir, rango(H) = n — fi.

1.4. Medias, covariamzas y correlaciomes

£. Matriz de datos centrados:

siendo D la matriz diagonal con las desviaciones típicas de las

1.5. Variables compuestas

1.6. Tramsformaciomes limeales

1.Y. Teorema de la dimemsióm

‹jj = Σ as ‹js , ‹js = Σ ast ‹sst .

Corolario 1.Y.1 Ss todas 1as savsab1es tsenen savsansa posstssa (es

Demost.: De (fi.fi) deducimos que v = rango(Æ) = rango(S). Q

1.8. Medidas globales de variabilidad y

Una medida de dependencia global debe ser función de la matriz de co-

£. yX = 0 si y sólo si las p variables están incorrelacionadas.

3. yX = fi si y sólo si hay relaciones lineales entre las variables.

fi. Sean Zfi, . . . , Zp los valores propios de Æ. Si g y a son las medias

dM (s, j) = .(xs — xj )J S—fi (xs — xj ). (fi.4)

a) dE supone implícitamente que las variables están incorrelacionadas

b) dP también supone que las variables están incorrelacionadas pero

c) dM tiene en cuenta las correlaciones entre las variables y es

Las distancias dE y dP son casos particulares de dM cuando la matriz

dE (s, j)X = (xs — xj )J (xs — xj ),

La distancia de Mahalanobis (al cuadrado) puede tener otras

versiones: fi. Distancia de una observación xs al vector de medias x de

(xs — x)J S—fi (xs — x).

£. Distancia entre dos poblaciones representadas por dos matrices de datos

S = (nfi Sfi ‡ nX SX )/(nfi ‡ nX )

es la media ponderada de las correspondientes matrices de covarianzas.

1.10. Algumos aspectos del cálculo matricial

fi. El rango de A es el número v de valores singulares positivos.

1.10.2. Imversa gemeralizada

entonces la g-inversa A— es única.