P. 1
metodos multivariantes

metodos multivariantes

|Views: 1.863|Likes:

More info:

Published by: Saray Felipe García on Apr 11, 2011
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

12/22/2012

pdf

text

original

Sections

  • DATOS MULTIVARIANTES
  • 1.1. Introducción
  • 1.2. Matrices de datos
  • 1.3. La matriz de centrado
  • 1.4. Medias, covarianzas y correlaciones
  • 1.5. Variables compuestas
  • 1.6. Transformaciones lineales
  • 1.7. Teorema de la dimensión
  • 1.8. Medidas globales de variabilidad y de- pendencia
  • 1.9. Distancias
  • 1.10. DOS ASPECTOS DEL CÁLCULO MATRICIAL 19
  • 1.10. Dos aspectos del cálculo matricial
  • 1.10.1. Descomposición singular
  • 1.10.2. Inversa generalizada
  • 1.11. Un ejemplo
  • 2.1. Introducción
  • 2.2. Distribución normal multivariante
  • 2.2.1. De…nición
  • 2.2.2. Propiedades
  • 2.2.3. Caso bivariante
  • 2.3. Distribución de Wishart
  • 2.4. Distribución de Hotelling
  • 2.5. Distribución de Wilks
  • 2.6. Relaciones entre Wilks, Hotelling y F
  • 2.7. Distribución multinomial
  • 2.8. Distribuciones con marginales dadas
  • 2.9. Complementos
  • 3.1. Conceptos básicos
  • 3.2. Estimación de medias y covarianzas
  • 3.3. Tests multivariantes
  • 3.3.1. Test sobre la media: una población
  • 3.3.2. Test sobre la media: dos poblaciones
  • 3.3.3. Comparación de medias
  • 3.4. Teorema de Cochran
  • 3.5. Construcción de tests multivariantes
  • 3.5.1. Razón de verosimilitud
  • 3.5.2. Principio de unión-intersección
  • 3.6. Ejemplos
  • 3.7. Análisis de per…les
  • 3.8. Complementos
  • ANALISIS DE CORRELACION CANONICA
  • 4.1. Introducción
  • 4.2. Correlación múltiple
  • 4.3. Correlación canónica
  • 4.4. Correlación canónica y descomposición singular
  • 4.5. Signi…cación de las correlaciones canóni- cas
  • 4.6. Test de independencia
  • 4.6.1. Razón de verosimilitud
  • 4.6.2. Principio de unión intersección
  • 4.7. Ejemplos
  • 4.8. Complementos
  • 5.3. Representación de una matriz de datos
  • 5.4. Inferencia
  • 5.4.1. Estimación y distribución asintótica
  • 5.4.2. Tests de hipótesis
  • 5.5. Número de componentes principales
  • 5.5.1. Criterio del porcentaje
  • 5.5.2. Criterio de Kaiser
  • 5.5.3. Test de esfericidad
  • 5.5.4. Criterio del bastón roto
  • 5.6. Biplot
  • 5.7. Ejemplos
  • 5.8. Complementos
  • ANÁLISIS FACTORIAL
  • 6.1. Introducción
  • 6.2. El modelo unifactorial
  • 6.3. El modelo multifactorial
  • 6.3.1. El modelo
  • 6.3.2. La matriz factorial
  • 6.3.3. Las comunalidades
  • 6.3.4. Número máximo de factores comunes
  • 6.3.5. El caso de Heywood
  • 6.3.6. Un ejemplo
  • 6.4. Teoremas fundamentales
  • 6.5. Método del factor principal
  • 6.6. Método de la máxima verosimilitud
  • 6.6.1. Estimación de la matriz factorial
  • 6.6.2. Hipótesis sobre el número de factores
  • 6.7. Rotaciones de factores
  • 6.7.1. Rotaciones ortogonales
  • 6.7.2. Factores oblicuos
  • 6.7.3. Rotación oblicua
  • 6.7.4. Factores de segundo orden
  • 6.8. Medición de factores
  • 6.9. Análisis factorial con…rmatorio
  • 6.10. Complementos
  • ANALISIS CANONICO DE POBLACIONES
  • 7.1. Introducción
  • 7.2. Variables canónicas
  • 7.3. Distancia de Mahalanobis y transforma- ción canónica
  • 7.4. Representación canónica
  • 7.5. Aspectos inferenciales
  • 7.5.1. Comparación de medias
  • 7.5.2. Comparación de covarianzas
  • 7.5.3. Test de dimensionalidad
  • 7.5.4. Regiones con…denciales
  • 7.6. Complementos
  • 8.1. Introducción
  • 8.2. Cuando una distancia es euclídea?
  • 8.3. El análisis de coordenadas principales
  • 8.4. Similaridades
  • 8.5. Nociones de MDS no métrico
  • 8.6. Distancias estadísticas
  • 8.6.1. Variables cuantitativas
  • 8.6.2. Variables binarias
  • 8.6.3. Variables categóricas
  • 8.6.4. Variables mixtas
  • 8.6.5. Otras distancias
  • 8.7. Dos ejemplos
  • 8.8. Complementos
  • ANALISIS DE CORRESPONDENCIAS
  • 9.1. Introducción
  • 9.2. Cuanti…cación de las variables categóri- cas
  • 9.3. Representación de …las y columnas
  • 9.4. Relación entre …las y columnas y repre- sentación conjunta
  • 9.5. Soluciones simétrica y asimétrica
  • 9.6. Variabilidad geométrica (inercia)
  • 9.7. ANALISIS DE CORRESPONDENCIAS MÚLTIPLES 159
  • 9.7. Analisis de Correspondencias Múltiples
  • 9.8. Ejemplos
  • 9.9. MDS ponderado
  • 9.10. Complementos
  • 10.1. Introducción
  • 10.2. Jerarquía indexada
  • 10.3. Geometría ultramétrica
  • 10.4. Algoritmo fundamental de clasi…cación
  • Algoritmo fundamental de clasi…cación
  • 10.5. Equivalencia entre jerarquía indexada y ultramétrica
  • 10.6. Algoritmos de clasi…cación jerárquica
  • 10.6.1. Método del mínimo
  • 10.6.2. Método del máximo
  • 10.7. Otras propiedades del método del mín- imo
  • 10.8. Ejemplos
  • 10.9. Clasi…cación no jerárquica
  • 10.10. Número de clusters
  • 10.11. Complementos
  • ANALISIS DISCRIMINANTE
  • 11.1. Introducción
  • 11.2. Clasi…cación en dos poblaciones
  • 11.2.1. Discriminador lineal
  • 11.2.2. Regla de la máxima verosimilitud
  • 11.2.3. Regla de Bayes
  • 11.3. Clasi…cación en poblaciones normales
  • 11.3.1. Discriminador lineal
  • 11.3.2. Regla de Bayes
  • 11.3.3. Probabilidad de clasi…cación errónea
  • 11.3.4. Discriminador cuadrático
  • 11.3.5. Clasi…cación cuando los parámetros son esti- mados
  • 11.3.6. Un ejemplo
  • 11.4. DISCRIMINACIÓN EN EL CASO DE K POBLACIONES 203
  • 11.4. Discriminación en el caso de k pobla- ciones
  • 11.4.1. Discriminadores lineales
  • 11.4.2. Regla de la máxima verosimilitud
  • 11.4.3. Regla de Bayes
  • 11.4.4. Un ejemplo clásico
  • 12.1. Análisis discriminante logístico
  • 12.1.1. Introducción
  • 12.1.2. Modelo de regresión logística
  • 12.1.3. Estimación de los parámetros
  • 12.1.4. Distribución asintótica y test de Wald
  • 12.1.5. Ajuste del modelo
  • 12.1.6. Curva ROC
  • 12.2. ANÁLISIS DISCRIMINANTE BASADO EN DISTANCIAS 217
  • 12.2. Análisis discriminante basado en dis- tancias
  • 12.2.1. La función de proximidad
  • 12.2.2. La regla discriminante DB
  • 12.2.3. La regla DB comparada con otras
  • 12.2.4. La regla DB en el caso de muestras
  • 12.3. Complementos
  • EL MODELO LINEAL
  • 13.1. El modelo lineal
  • 13.2. Suposiciones básicas del modelo
  • 13.3. Estimación de parámetros
  • 13.3.1. Parámetros de regresión
  • 13.3.2. Varianza
  • 13.4. ALGUNOS MODELOS LINEALES 229
  • 13.4. Algunos modelos lineales
  • 13.4.1. Regresión múltiple
  • 13.4.2. Diseño de un factor
  • 13.4.3. Diseño de dos factores
  • 13.5. Hipótesis lineales
  • 13.6. Inferencia en regresión múltiple
  • 13.7. Complementos
  • ANÁLISIS DE LA VARIANZA (ANOVA)
  • 14.1. Diseño de un factor
  • 14.2. Diseño de dos factores
  • 14.3. DISEÑO DE DOS FACTORES CON INTERACCIÓN 241
  • 14.3. Diseño de dos factores con interacción
  • 14.4. DISEÑOS MULTIFACTORIALES 243
  • 14.4. Diseños multifactoriales
  • 14.5. Modelos log-lineales
  • 14.5.1. Ejemplo
  • 14.6. Complementos
  • ANÁLISIS DE LA VARIANZA (MANOVA)
  • 15.1. Modelo
  • 15.2. Estimación de parámetros
  • 15.3. TESTS DE HIPÓTESIS LINEALES 253
  • 15.3. Tests de hipótesis lineales
  • 15.4. Manova de un factor
  • 15.5. Manova de dos factores
  • 15.6. MANOVA DE DOS FACTORES CON INTERACCIÓN 257
  • 15.6. Manova de dos factores con interacción
  • 15.7. Ejemplos
  • 15.8. Otros criterios
  • 15.9. Complementos

NUEVOS MÉTODOS DE ANÁLISIS

MULTIVARIANTE
Carles M. Cuadras
21 de junio de 2010
2
Es propiedad del autor.
c (C. M. Cuadras
CMC Editions
Manacor 30
08023 Barcelona, Spain
Índice general
1. DATOS MULTIVARIANTES 11
1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2. Matrices de datos . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3. La matriz de centrado . . . . . . . . . . . . . . . . . . . . . . 12
1.4. Medias, covarianzas y correlaciones . . . . . . . . . . . . . . . 13
1.5. Variables compuestas . . . . . . . . . . . . . . . . . . . . . . . 14
1.6. Transformaciones lineales . . . . . . . . . . . . . . . . . . . . . 14
1.7. Teorema de la dimensión . . . . . . . . . . . . . . . . . . . . . 15
1.8. Medidas globales de variabilidad y dependencia . . . . . . . . 16
1.9. Distancias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.10. Dos aspectos del cálculo matricial . . . . . . . . . . . . . . . . 19
1.10.1. Descomposición singular . . . . . . . . . . . . . . . . . 19
1.10.2. Inversa generalizada . . . . . . . . . . . . . . . . . . . 19
1.11. Un ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2. NORMALIDAD MULTIVARIANTE 23
2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2. Distribución normal multivariante . . . . . . . . . . . . . . . . 24
2.2.1. De…nición . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.2. Propiedades . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2.3. Caso bivariante . . . . . . . . . . . . . . . . . . . . . . 26
2.3. Distribución de Wishart . . . . . . . . . . . . . . . . . . . . . 27
2.4. Distribución de Hotelling . . . . . . . . . . . . . . . . . . . . . 28
2.5. Distribución de Wilks . . . . . . . . . . . . . . . . . . . . . . . 29
2.6. Relaciones entre Wilks, Hotelling y F . . . . . . . . . . . . . . 31
2.7. Distribución multinomial . . . . . . . . . . . . . . . . . . . . . 32
2.8. Distribuciones con marginales dadas . . . . . . . . . . . . . . . 32
2.9. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3
4 ÍNDICE GENERAL
3. INFERENCIA MULTIVARIANTE 37
3.1. Conceptos básicos . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2. Estimación de medias y covarianzas . . . . . . . . . . . . . . . 38
3.3. Tests multivariantes . . . . . . . . . . . . . . . . . . . . . . . . 39
3.3.1. Test sobre la media: una población . . . . . . . . . . . 39
3.3.2. Test sobre la media: dos poblaciones . . . . . . . . . . 40
3.3.3. Comparación de medias . . . . . . . . . . . . . . . . . 40
3.4. Teorema de Cochran . . . . . . . . . . . . . . . . . . . . . . . 41
3.5. Construcción de tests multivariantes . . . . . . . . . . . . . . 44
3.5.1. Razón de verosimilitud . . . . . . . . . . . . . . . . . . 44
3.5.2. Principio de unión-intersección . . . . . . . . . . . . . . 46
3.6. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.7. Análisis de per…les . . . . . . . . . . . . . . . . . . . . . . . . 53
3.8. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4. ANALISIS DE CORRELACION CANONICA 57
4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.2. Correlación múltiple . . . . . . . . . . . . . . . . . . . . . . . 57
4.3. Correlación canónica . . . . . . . . . . . . . . . . . . . . . . . 59
4.4. Correlación canónica y descomposición singular . . . . . . . . 62
4.5. Signi…cación de las correlaciones canónicas . . . . . . . . . . . 63
4.6. Test de independencia . . . . . . . . . . . . . . . . . . . . . . 63
4.6.1. Razón de verosimilitud . . . . . . . . . . . . . . . . . . 64
4.6.2. Principio de unión intersección . . . . . . . . . . . . . . 64
4.7. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.8. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5. ANALISIS DE COMPONENTES PRINCIPALES 69
5.1. De…nición y obtención de las componentes principales . . . . . 69
5.2. Variabilidad explicada por las componentes principales . . . . 71
5.3. Representación de una matriz de datos . . . . . . . . . . . . . 72
5.4. Inferencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.4.1. Estimación y distribución asintótica . . . . . . . . . . . 75
5.4.2. Tests de hipótesis . . . . . . . . . . . . . . . . . . . . . 76
5.5. Número de componentes principales . . . . . . . . . . . . . . . 78
5.5.1. Criterio del porcentaje . . . . . . . . . . . . . . . . . . 78
5.5.2. Criterio de Kaiser . . . . . . . . . . . . . . . . . . . . . 79
5.5.3. Test de esfericidad . . . . . . . . . . . . . . . . . . . . 79
ÍNDICE GENERAL 5
5.5.4. Criterio del bastón roto . . . . . . . . . . . . . . . . . . 79
5.6. Biplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
5.7. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.8. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
6. ANÁLISIS FACTORIAL 87
6.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
6.2. El modelo unifactorial . . . . . . . . . . . . . . . . . . . . . . 88
6.3. El modelo multifactorial . . . . . . . . . . . . . . . . . . . . . 90
6.3.1. El modelo . . . . . . . . . . . . . . . . . . . . . . . . . 90
6.3.2. La matriz factorial . . . . . . . . . . . . . . . . . . . . 91
6.3.3. Las comunalidades . . . . . . . . . . . . . . . . . . . . 91
6.3.4. Número máximo de factores comunes . . . . . . . . . . 92
6.3.5. El caso de Heywood . . . . . . . . . . . . . . . . . . . 93
6.3.6. Un ejemplo . . . . . . . . . . . . . . . . . . . . . . . . 93
6.4. Teoremas fundamentales . . . . . . . . . . . . . . . . . . . . . 95
6.5. Método del factor principal . . . . . . . . . . . . . . . . . . . 97
6.6. Método de la máxima verosimilitud . . . . . . . . . . . . . . . 98
6.6.1. Estimación de la matriz factorial . . . . . . . . . . . . 98
6.6.2. Hipótesis sobre el número de factores . . . . . . . . . . 99
6.7. Rotaciones de factores . . . . . . . . . . . . . . . . . . . . . . 100
6.7.1. Rotaciones ortogonales . . . . . . . . . . . . . . . . . . 100
6.7.2. Factores oblicuos . . . . . . . . . . . . . . . . . . . . . 101
6.7.3. Rotación oblicua . . . . . . . . . . . . . . . . . . . . . 102
6.7.4. Factores de segundo orden . . . . . . . . . . . . . . . . 104
6.8. Medición de factores . . . . . . . . . . . . . . . . . . . . . . . 105
6.9. Análisis factorial con…rmatorio . . . . . . . . . . . . . . . . . . 106
6.10. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
7. ANALISIS CANONICO DE POBLACIONES 111
7.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
7.2. Variables canónicas . . . . . . . . . . . . . . . . . . . . . . . . 112
7.3. Distancia de Mahalanobis y transformación canónica . . . . . 114
7.4. Representación canónica . . . . . . . . . . . . . . . . . . . . . 115
7.5. Aspectos inferenciales . . . . . . . . . . . . . . . . . . . . . . . 117
7.5.1. Comparación de medias . . . . . . . . . . . . . . . . . 117
7.5.2. Comparación de covarianzas . . . . . . . . . . . . . . . 117
7.5.3. Test de dimensionalidad . . . . . . . . . . . . . . . . . 118
6 ÍNDICE GENERAL
7.5.4. Regiones con…denciales . . . . . . . . . . . . . . . . . . 119
7.6. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
8. ESCALADO MULTIDIMENSIONAL (MDS) 125
8.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
8.2. Cuando una distancia es euclídea? . . . . . . . . . . . . . . . . 126
8.3. El análisis de coordenadas principales . . . . . . . . . . . . . . 128
8.4. Similaridades . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
8.5. Nociones de MDS no métrico . . . . . . . . . . . . . . . . . . 133
8.6. Distancias estadísticas . . . . . . . . . . . . . . . . . . . . . . 136
8.6.1. Variables cuantitativas . . . . . . . . . . . . . . . . . . 136
8.6.2. Variables binarias . . . . . . . . . . . . . . . . . . . . . 137
8.6.3. Variables categóricas . . . . . . . . . . . . . . . . . . . 138
8.6.4. Variables mixtas . . . . . . . . . . . . . . . . . . . . . 138
8.6.5. Otras distancias . . . . . . . . . . . . . . . . . . . . . . 139
8.7. Dos ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
8.8. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
9. ANALISIS DE CORRESPONDENCIAS 147
9.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
9.2. Cuanti…cación de las variables categóricas . . . . . . . . . . . 149
9.3. Representación de …las y columnas . . . . . . . . . . . . . . . 150
9.4. Relación entre …las y columnas y representación conjunta . . . 152
9.5. Soluciones simétrica y asimétrica . . . . . . . . . . . . . . . . 154
9.6. Variabilidad geométrica (inercia) . . . . . . . . . . . . . . . . 156
9.7. Analisis de Correspondencias Múltiples . . . . . . . . . . . . . 159
9.8. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
9.9. MDS ponderado . . . . . . . . . . . . . . . . . . . . . . . . . . 165
9.10. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
10.CLASIFICACION 173
10.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
10.2. Jerarquía indexada . . . . . . . . . . . . . . . . . . . . . . . . 174
10.3. Geometría ultramétrica . . . . . . . . . . . . . . . . . . . . . . 176
10.4. Algoritmo fundamental de clasi…cación . . . . . . . . . . . . . 180
10.5. Equivalencia entre jerarquía indexada y ultramétrica . . . . . 180
10.6. Algoritmos de clasi…cación jerárquica . . . . . . . . . . . . . . 181
10.6.1. Método del mínimo . . . . . . . . . . . . . . . . . . . . 183
ÍNDICE GENERAL 7
10.6.2. Método del máximo . . . . . . . . . . . . . . . . . . . . 184
10.7. Otras propiedades del método del mínimo . . . . . . . . . . . 186
10.8. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
10.9. Clasi…cación no jerárquica . . . . . . . . . . . . . . . . . . . . 191
10.10.Número de clusters . . . . . . . . . . . . . . . . . . . . . . . . 192
10.11.Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
11.ANALISIS DISCRIMINANTE 195
11.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
11.2. Clasi…cación en dos poblaciones . . . . . . . . . . . . . . . . . 196
11.2.1. Discriminador lineal . . . . . . . . . . . . . . . . . . . 196
11.2.2. Regla de la máxima verosimilitud . . . . . . . . . . . . 197
11.2.3. Regla de Bayes . . . . . . . . . . . . . . . . . . . . . . 197
11.3. Clasi…cación en poblaciones normales . . . . . . . . . . . . . . 198
11.3.1. Discriminador lineal . . . . . . . . . . . . . . . . . . . 198
11.3.2. Regla de Bayes . . . . . . . . . . . . . . . . . . . . . . 199
11.3.3. Probabilidad de clasi…cación errónea . . . . . . . . . . 199
11.3.4. Discriminador cuadrático . . . . . . . . . . . . . . . . . 199
11.3.5. Clasi…cación cuando los parámetros son estimados . . . 200
11.3.6. Un ejemplo . . . . . . . . . . . . . . . . . . . . . . . . 200
11.4. Discriminación en el caso de k poblaciones . . . . . . . . . . . 203
11.4.1. Discriminadores lineales . . . . . . . . . . . . . . . . . 203
11.4.2. Regla de la máxima verosimilitud . . . . . . . . . . . . 204
11.4.3. Regla de Bayes . . . . . . . . . . . . . . . . . . . . . . 204
11.4.4. Un ejemplo clásico . . . . . . . . . . . . . . . . . . . . 205
12.DISCRIMINACIONLOGISTICAYBASADAENDISTAN-
CIAS 207
12.1. Análisis discriminante logístico . . . . . . . . . . . . . . . . . . 207
12.1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . 207
12.1.2. Modelo de regresión logística . . . . . . . . . . . . . . . 208
12.1.3. Estimación de los parámetros . . . . . . . . . . . . . . 209
12.1.4. Distribución asintótica y test de Wald . . . . . . . . . 210
12.1.5. Ajuste del modelo . . . . . . . . . . . . . . . . . . . . . 211
12.1.6. Curva ROC . . . . . . . . . . . . . . . . . . . . . . . . 212
12.1.7. Comparación entre discriminador lineal y logístico . . . 214
12.2. Análisis discriminante basado en distancias . . . . . . . . . . . 217
12.2.1. La función de proximidad . . . . . . . . . . . . . . . . 217
8 ÍNDICE GENERAL
12.2.2. La regla discriminante DB . . . . . . . . . . . . . . . . 218
12.2.3. La regla DB comparada con otras . . . . . . . . . . . . 219
12.2.4. La regla DB en el caso de muestras . . . . . . . . . . . 220
12.3. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
13.EL MODELO LINEAL 225
13.1. El modelo lineal . . . . . . . . . . . . . . . . . . . . . . . . . . 225
13.2. Suposiciones básicas del modelo . . . . . . . . . . . . . . . . . 226
13.3. Estimación de parámetros . . . . . . . . . . . . . . . . . . . . 227
13.3.1. Parámetros de regresión . . . . . . . . . . . . . . . . . 227
13.3.2. Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . 228
13.4. Algunos modelos lineales . . . . . . . . . . . . . . . . . . . . . 229
13.4.1. Regresión múltiple . . . . . . . . . . . . . . . . . . . . 229
13.4.2. Diseño de un factor . . . . . . . . . . . . . . . . . . . . 230
13.4.3. Diseño de dos factores . . . . . . . . . . . . . . . . . . 230
13.5. Hipótesis lineales . . . . . . . . . . . . . . . . . . . . . . . . . 231
13.6. Inferencia en regresión múltiple . . . . . . . . . . . . . . . . . 234
13.7. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
14.ANÁLISIS DE LA VARIANZA (ANOVA) 237
14.1. Diseño de un factor . . . . . . . . . . . . . . . . . . . . . . . . 237
14.2. Diseño de dos factores . . . . . . . . . . . . . . . . . . . . . . 239
14.3. Diseño de dos factores con interacción . . . . . . . . . . . . . . 241
14.4. Diseños multifactoriales . . . . . . . . . . . . . . . . . . . . . . 243
14.5. Modelos log-lineales . . . . . . . . . . . . . . . . . . . . . . . . 244
14.5.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 247
14.6. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 248
15.ANÁLISIS DE LA VARIANZA (MANOVA) 249
15.1. Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249
15.2. Estimación de parámetros . . . . . . . . . . . . . . . . . . . . 250
15.3. Tests de hipótesis lineales . . . . . . . . . . . . . . . . . . . . 253
15.4. Manova de un factor . . . . . . . . . . . . . . . . . . . . . . . 255
15.5. Manova de dos factores . . . . . . . . . . . . . . . . . . . . . . 256
15.6. Manova de dos factores con interacción . . . . . . . . . . . . . 257
15.7. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 258
15.8. Otros criterios . . . . . . . . . . . . . . . . . . . . . . . . . . . 261
15.9. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 262
ÍNDICE GENERAL 9
16.FUNCIONES ESTIMABLES MULTIVARIANTES 263
16.1. Funciones estimables . . . . . . . . . . . . . . . . . . . . . . . 263
16.2. Teorema de Gauss-Markov . . . . . . . . . . . . . . . . . . . . 264
16.3. Funciones estimables multivariantes . . . . . . . . . . . . . . . 265
16.4. Análisis canónico de fpem . . . . . . . . . . . . . . . . . . . . 266
16.4.1. Distancia de Mahalanobis . . . . . . . . . . . . . . . . 266
16.4.2. Coordenadas canónicas . . . . . . . . . . . . . . . . . . 267
16.4.3. Regiones con…denciales . . . . . . . . . . . . . . . . . . 268
16.5. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 268
16.6. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 271
10 ÍNDICE GENERAL
11
´
(1(G(
El Análisis Multivariante es un conjunto de métodos estadísticos y matemá-
ticos, destinados a describir e interpretar los datos que provienen de la ob-
servación de varias variables estadísticas, estudiadas conjuntamente.
Este libro es una presentación convencional de los principales modelos y
métodos del Análisis Multivariante, con referencias a algunas contribuciones
recientes.
La exposición mantiene un cierto rigor matemático, compensado con una
clara orientación aplicada. Todos los métodos se ilustran con ejemplos, que
justi…can su aplicabilidad. Para examinar los datos y ver más ejemplos con-
súltese la página web
www.ub.edustatcuadrascuad.html
Esta obra tiene como precedentes la monogra…a “Métodos de Análisis Fac-
torial” (Pub. no. 7, Laboratorio de Cálculo, Universidad de Barcelona, 1974),
y el libro “Métodos de Análisis Multivariante” (EUNIBAR, 1981; PPU, 1991;
EUB, 1996, Barcelona).
El autor se reserva el derecho de ampliar el texto e introducir mejoras.
La primera versión apareció en 2007. La segunda versión (2010) contiene
correcciones, ampliaciones y un índice alfabético.
Cómo citar este libro:
C. M. Cuadras
Nuevos Métodos de Análisis Multivariante
CMC Editions
Barcelona, 2010
Capítulo 1
DATOS MULTIVARIANTES
1.1. Introducción
El análisis multivariante (AM) es la parte de la estadística y del análisis
de datos que estudia, analiza, representa e interpreta los datos que resulten
de observar un número j 1 de variables estadísticas sobre una muestra de :
individuos. Las variables observables son homogéneas y correlacionadas, sin
que alguna predomine sobre las demás. La información estadística en AM es
de carácter multidimensional, por lo tanto la geometría, el cálculo matricial
y las distribuciones multivariantes juegan un papel fundamental.
La información multivariante es una matriz de datos, pero a menudo, en
AM la información de entrada consiste en matrices de distancias o similari-
dades, que miden el grado de discrepancia entre los individuos. Comenzare-
mos con las técnicas que se basan en matrices de datos.
1.2. Matrices de datos
Supongamos : individuos .
1
. . . . . .
a
y j variables A
1
. . . . . A
j
. Sea r
j;
=
A
;
(.
j
) la observación de la variable A
;
sobre el individuo .
j
. La matriz de
11
12 CAPÍTULO 1. DATOS MULTIVARIANTES
datos multivariantes es
X =

¸
¸
¸
¸
¸
¸
r
11
r
1;
r
1j
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
r
j1
r
j;
r
jj
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
r
a1
r
a;
r
aj
¸

Las …las de X se identi…can con los individuos y las columnas de X con las
variables. Indicaremos:
1. x
j
la …la i-ésima de X.
2. A
;
la columna j-ésima de X.
3. x = (r
1
. . . . . r
;
. . . . . r
j
)
t
el vector (…la) de las medias de las variables,
siendo
r
;
=
1
:
a
¸
j=1
r
j;
.
4. La matriz simétrica j j de covarianzas muestrales
S =

¸
¸
¸
:
11
:
12
:
1j
:
21
:
22
:
2j
. . . . . .
:
j1
:
j2
:
jj
¸

.
siendo
:
;;
0 =
1
:
a
¸
j=1
(r
j;
÷r
;
)(r
j;
0 ÷r
;
0 )
la covarianza entre las variables ,. ,
t
. Naturalmente, x y S son medidas
multivariantes de tendencia central y dispersión.
1.3. La matriz de centrado
Si 1 =(1. . . . . 1)
t
es el vector columna de unos de orden : 1, y J = 11
t
es la matriz : : de unos, ciertas características multivariantes se expresan
mejor a partir de la matriz de centrado H. de…nida como
H = I÷
1
:
J
1.4. MEDIAS, COVARIANZAS Y CORRELACIONES 13
Propiedades:
H
t
= H.
H
2
= H.
H1 = 1
t
H = 0.
rang(H) =: ÷1.
Los valores propios de H son 0 ó 1.
X = HX es la matriz de datos centrados (las columnnas de X suman
0).
1.4. Medias, covarianzas y correlaciones
El vector de medias, la matriz de covarianzas, etc., tienen expresiones
matriciales simples.
1. x
t
=
1
a
1
t
X.
2. Matriz de datos centrados:
X= X÷1x
t
= HX.
3. Matriz de covarianzas:
S =
1
:
X
t
X =
1
:
X
t
HX.
4. Matriz de correlaciones:
El coe…ciente de correlación entre las variables ,. ,
t
viene dado por
:
;;
0 =
:
;;
0
:
;
:
;
0
.
siendo :
;
. :
;
0 las desviaciones típicas. Además de la matriz de covarianzas
interesa también la matriz de correlaciones
H =

¸
¸
¸
1 :
12
:
1j
:
21
1 :
2j
. . . . . .
:
j1
:
j2
1
¸

.
14 CAPÍTULO 1. DATOS MULTIVARIANTES
donde :
j;
=cor(A
j
. A
;
) es el coe…ciente de correlación (muestral) entre las
variables A
j
. A
;
. que veri…ca:
H = O
÷1
SO
÷1
. S = OHO. (1.1)
siendo O la matriz diagonal con las desviaciones típicas de las variables.
1.5. Variables compuestas
Algunos métodos de AM consisten en obtener e interpretar combina-
ciones lineales adecuadas de las variables observables. Una variable compues-
ta ) es una combinación lineal de las variables observables con coe…cientes
a = (c
1
. . . . . c
j
)
t
) = c
1
A
1
÷ ÷c
j
A
j
.
Si X =[A
1
. . . . . A
j
| es la matriz de datos, también podemos escribir
) = Xa.
Si 2 = /
1
A
1
÷ ÷/
j
A
j
= XI es otra variable compuesta, se veri…ca:
1. ) = x
t
a. 2=x
t
I.
2. var() ) = a
t
Sa, var(2) = I
t
SI.
3. cov(). 2) = a
t
SI.
Ciertas variables compuestas reciben diferentes nombres según la téc-
nica multivariante: componentes principales, variables canónicas, funciones
discriminantes, etc. Uno de los objetivos del Análisis Multivariante es encon-
trar variables compuestas adecuadas que expliquen aspectos relevantes de los
datos.
1.6. Transformaciones lineales
Sea T una matriz j ¡. Una transformación lineal de la matriz de datos
es
¥ = XT.
Las columnas )
1
. . . . . )
o
de ¥ son las variables transformadas.
Propiedades:
1.7. TEOREMA DE LA DIMENSIÓN 15
1. v
t
=x
t
T. donde v es el vector de medias de ¥.
2. S
Y
= T
t
ST. donde S
Y
es la matriz de covarianzas de ¥.
Demost.:
v
t
=
1
a
1
t
¥ =
1
a
1
t
XT =x
t
T. S
Y
=
1
a
¥
t
H¥ =
1
a
T
t
X
t
HXT = T
t
ST.
1.7. Teorema de la dimensión
La matriz de covarianzas S es (semi)de…nida positiva, puesto que:
a
t
Sa =
1
:
a
t
X
t
HXa =
1
:
a
t
X
t
HHXa = I
t
I _0.
siendo I =:
÷1/2
HXa.
El rango : = rang(S) determina la dimensión del espacio vectorial gener-
ado por las variables observables, es decir, el número de variables linealmente
independientes es igual al rango de S.
Teorema 1.7.1 Si : = rang(S) _j hay : variables linealmente independi-
entes y las otras j ÷: son combinación lineal de estas : variables.
Demost.: Podemos ordenar las j variables de manera que la matriz de covar-
ianzas de A
1
. . . . . A
v
sea no singular

¸
¸
:
11
:
1v
.
.
.
.
.
.
.
.
.
:
v1
:
vv
¸

:
;1
:
;v
Sea A
;
. , :. Las covarianzas entre A
;
y A
1
. . . . . A
v
veri…can:
:
;;
=
v
¸
j=1
c
j
:
;j
. :
;j
=
v
¸
j
0
=1
c
j
0 :
jj
0 .
Entonces
·c:(A
;
÷
¸
v
j=1
c
j
A
j
) = :
;;
÷
¸
v
j.j
0
=1
c
j
c
j
0 :
jj
0 ÷2
¸
v
j=1
c
j
:
;j
=
¸
v
j=1
c
j
:
;j
÷
¸
v
j=1
c
j
(
¸
v
j
0
=1
c
j
0 :
jj
0 ) ÷2
¸
v
j=1
c
j
:
;j
=
¸
v
j=1
c
j
:
;j
÷
¸
v
j=1
c
j
:
;j
÷2
¸
v
j=1
c
j
:
;j
= 0.
16 CAPÍTULO 1. DATOS MULTIVARIANTES
Por lo tanto
A
;
÷
v
¸
j=1
c
j
A
j
= c ==A
;
= c ÷
v
¸
j=1
c
j
A
j
donde c es una constante.
Corolario 1.7.2 Si todas las variables tienen varianza positiva (es decir,
ninguna se reduce a una constante) y : = rang(H) _ j. hay : variables
linealmente independientes y las otras j ÷: son combinación lineal de estas
: variables.
Demost.: De (1.1) deducimos que : = rang(H) = rang(S).
1.8. Medidas globales de variabilidad y de-
pendencia
Una medida de la variabilidad global de las j variables debe ser función
de la matriz de covarianzas S. Sean \
1
. . . . . \
j
los valores propios de S. Las
siguientes medidas tienen especial interés en AM.
a) Varianza generalizada:
[S[ =\
1
\
j
.
b) Variación total:
tr(S) =\
1
÷ ÷\
j
Una medida de dependencia global debe ser función de la matriz de cor-
relaciones H. Un coe…ciente de dependencia es
:
2
= 1 ÷[H[.
que veri…ca:
1. 0 _ :
2
_ 1.
2. :
2
= 0 si y sólo si las j variables estan incorrelacionadas.
3. :
2
= 1 si y sólo si hay relaciones lineales entre las variables.
1.9. DISTANCIAS 17
Demost.:
1. Sean \
1
. . . . . \
j
los valores propios de H. Si o y c son las medias ge-
ométrica y aritmética de j números positivos, se veri…ca o _ c. Entonces, de
tr(H) =j
([H[)
1/j
= (\
1
\
j
)
1/j
_ (\
1
÷ ÷\
j
)j = 1
y por lo tanto 0 _ oci(H) _ 1.
2. H = I (matriz identidad) si y sólo si las j variables están incorrela-
cionadas y entonces 1 ÷[I[ =0.
3. Si :
2
= 1. es decir, [H[ =0. entonces rang(H) <j y por lo tanto hay
combinaciones lineales entre las variables (Teorema 1.7.1).
1.9. Distancias
Algunos métodos de AM están basados en criterios geométricos y en la
noción de distancia entre individuos y entre poblaciones. Si
X =

¸
¸
x
t
1
.
.
.
x
t
a
¸

es una matriz de datos, con matriz de covarianzas S. las tres de…niciones más
importantes de distancia entre las …las x
t
j
= (r
j1
. . . . . r
jj
). x
t
;
= (r
;1
. . . . . r
;j
)
de X son:
1. Distancia Euclídea:
d
1
(i. ,) =

j
¸
I=1
(r
jI
÷r
;I
)
2
. (1.2)
2. Distancia de K. Pearson
d
1
(i. ,) =

j
¸
I=1
(r
jI
÷r
;I
)
2
:
II
. (1.3)
donde :
II
es la covarianza de la variable A
I
.
3. Distancia de Mahalanobis:
d
A
(i. ,) =

(x
j
÷x
;
)
t
S
÷1
(x
j
÷x
;
). (1.4)
18 CAPÍTULO 1. DATOS MULTIVARIANTES
Observaciones
Un cambio de escala de una variable A
;
es una transformación )
;
= cA
;
.
donde c es una constante. La distancia d
A
es muy adecuada en AM debido
a que veri…ca:
a) d
1
supone implícitamente que las variables son incorrelacionadas y no es
invariante por cambios de escala.
b) d
1
también supone que las variables están incorrelacionadas pero es in-
variante por cambios de escala.
c) d
A
tiene en cuenta las correlaciones entre las variables y es invariante por
transformaciones lineales no singulares de las variables, en particular
cambios de escala.
Las distancias d
1
y d
1
son casos particulares de d
A
cuando la matriz de
covarianzas es la identidad I
j
y diag(S), respectivamente. En efecto:
d
1
(i. ,)
2
= (x
j
÷x
;
)
t
(x
j
÷x
;
).
d
1
(i. ,)
2
= (x
j
÷x
;
)
t
[diag(S)|
÷1
(x
j
÷x
;
).
La distancia de Mahalanobis (al cuadrado) puede tener otras versiones:
1. Distancia de una observación x
j
al vector de medias x de X :
(x
j
÷x)
t
S
÷1
(x
j
÷x)
2. Distancia entre dos poblaciones representadas por dos matrices de datos
X
a
1
j
. ¥
a
2
j
:
(x ÷v)
t
S
÷1
(x ÷v).
donde x. v son los vectores de medias y
S = (:
1
S
1
÷:
2
S
2
)(:
1
÷:
2
)
es la media ponderada de las correspondientes matrices de covarianzas.
1.10. DOS ASPECTOS DEL CÁLCULO MATRICIAL 19
1.10. Dos aspectos del cálculo matricial
1.10.1. Descomposición singular
Sea A un matriz de orden :: con : _ :. Se llama descomposición en
valores singulares de A a
A = lO
c
Y
t
donde l es matriz :: cuyas columnas son vectores ortonormales, O
c
es
una matriz diagonal : : con los valores singulares
:
1
_ _ :
v
_ :
v+1
= = :
a
= 0.
y Y es una matriz : : ortogonal. Se veri…ca:
1. El rango de A es el número : de valores singulares positivos.
2. l contiene los vectores propios (unitarios) de AA
t
. siendo l
t
l = I
a
.
3. Y contiene los vectores propios (unitarios) de A
t
A. siendo Y
t
Y =
YY
t
= I
a
.
4. Si : = : y A es simétrica, entonces l = Y y A = lO
c
l
t
es la
desocmposición espectral de A. Los valores singulares son los valores
propios de A.
1.10.2. Inversa generalizada
Si Aes una matriz cuadrada de orden :: no singular, es decir, rang(A) =
:. existe la matriz inversa A
÷1
tal que
AA
÷1
= A
÷1
A = I
a
.
Si el rango es rang(A) = : < :. o A no es matriz cuadrada, la inversa no
existe, pero existe la inversa generalizada o g-inversa A
÷
.
Sea Aun matriz de orden :: con : _ :. Se llama inversa generalizada
de A o g-inversa, a una matriz A
÷
que veri…ca:
AA
÷
A = A.
La g-inveresa no es única, pero si A
÷
veri…ca además:
A
÷
AA
÷
= A
÷
. (AA
÷
)
t
= AA
÷
(A
÷
A)
t
= A
÷
A.
20 CAPÍTULO 1. DATOS MULTIVARIANTES
entonces la g-inversa A
÷
es única.
Sea rang(A) = : y A = lO
c
Y
t
la descomposición singular de A. con
O
c
= diag(:
1
. . . . . :
v
. 0. . . . . 0).
Entonces
O
÷
c
= diag(:
÷1
1
. . . . . :
÷1
v
. 0. . . . . 0).
y la matriz ::
A
÷
= YO
÷
c
l
t
es una g-inversa de A. En efecto,
AA
÷
A = lO
c
Y
t
YO
÷
c
l
t
lO
c
Y
t
= A.
1.11. Un ejemplo
Ejemplo 1.11.1
La Tabla 1.1 contiene los datos de : = 28 alcornoques y j = 4 variables,
que miden los depósitos de corcho (en centigramos) en cada uno de los cuatro
puntos cardinales: N, E, S, W.
Medias, covarianzas y correlaciones
Vector de medias
x
t
=(ò0.ò30. 40.170. 40.070. 4ò.170)
Matriz de covarianzas (dividiendo por :)
S =

¸
¸
¸
280 210 278 218
212 221 10ò
337 2ò0
218
¸

Matriz de correlaciones
H =

¸
¸
¸
1 0.88ò 0.00ò 0.883
1 0.820 0.700
1 0.023
1
¸

1.11. UN EJEMPLO 21
N E S W N E S W
72 66 76 77 91 79 100 75
60 53 66 63 56 68 47 50
56 57 64 58 79 65 70 61
41 29 36 38 81 80 68 58
32 32 35 36 78 55 67 60
30 35 34 26 46 38 37 38
39 39 31 27 39 35 34 37
42 43 31 25 32 30 30 32
37 40 31 25 60 50 67 54
33 29 27 36 35 37 48 39
32 30 34 28 39 36 39 31
63 45 74 63 50 34 37 40
54 46 60 52 43 37 39 50
47 51 52 43 48 54 57 43
Tabla 1.1: Depósitos de corcho (centigramos) de 28 alcornoques en las cuatro
direcciones cardinales.
Variables compuestas
Las siguientes variables compuestas explican diferentes aspectos de la
variabilidad de los datos:
Media Varianza
Contraste eje N-S con eje E-W: )
1
= ` ÷o ÷1 ÷\ 8.857 124.1
Contraste N-S: )
2
= ` ÷o 0.857 61.27
Contraste E-W: )
3
= 1 ÷\ 1.000 99.5
Variables normalizadas
Una variable compuesta está normalizada si la suma de cuadrados de
sus coe…cientes es 1. La normalización evita que la varianza tome un valor
arbitrario. La normalización de )
1
. )
2
. )
3
dará:
Media Varianza:
2
1
= (` ÷o ÷1 ÷\)2 4.428 31.03
2
2
= (` ÷o)

2 0.606 30.63
2
3
= (1 ÷\)

2 0.707 49.75
Interpretación
22 CAPÍTULO 1. DATOS MULTIVARIANTES
Figura 1.1: Distribución de las variables N, E, S, W y relaciones entre cada
par de variables de la Tabla 1.1.
La normalización de las variables consigue que estas tengan varianzas
más homogéneas. La principal dirección de variabilidad aparece al hacer la
comparación del eje N-S con el eje E-W.
Visualización de datos
En los capítulos siguientes veremos métodos y técnicas de visualización de
datos multivariantes. Como norma general es conveniente, antes de realizar
el análisis, examinar y revisar los datos. La Figura 1.1 contiene un grá…co
que permite visualizar la distribución de las 4 variables de la Tabla 1.1 y las
relaciones lineales, o regresión lineal, entre cada par de variables.
Capítulo 2
NORMALIDAD
MULTIVARIANTE
2.1. Introducción
Los datos en AM suelen provenir de una población caracterizada por
una distribución multivariante. Sea X =(A
1
. . . . . A
j
) un vector aleatorio con
distribución absolutamente continua y función de densidad 1(r
1
. . . . . r
j
). Es
decir, 1 veri…ca:
1) 1(r
1
. . . . . r
j
) _ 0. para todo (r
1
. . . . . r
j
) ÷ 1
j
.
2)

1
p
1(r
1
. . . . . r
j
)dr
1
dr
j
= 1.
Conocida 1(r
1
. . . . . r
j
) podemos encontrar la función de densidad de cada
variable marginal A
;
mediante la integral
1
;
(r
;
) =

1(r
1
. . . . . r
;
. . . . . r
j
)dr
1
dr
;÷1
dr
;+1
dr
j
.
Como en el caso de una matriz de datos, es importante el vector de medias
j = (1(A
1
). . . . . 1(A
j
))
t
.
donde 1(A
;
) es la esperanza de la variable marginal A
;
. y la matriz de
covarianzas ¯ = (o
j;
). siendo o
j;
=cov(A
j
. A
;
). o
jj
=var(A
j
). Teniendo en
cuenta que los elementos de la matriz (X÷j)(X÷j)
t
. de orden j j. son
(A
j
÷ j
j
)(A
;
÷ j
;
) y que cov(A
j
. A
;
) = 1(A
j
÷ j
j
)(A
;
÷ j
;
). la matriz de
covarianzas ¯ = (o
j;
) es
¯ = 1((X÷j)(X÷j)
t
).
23
24 CAPÍTULO 2. NORMALIDAD MULTIVARIANTE
En este capítulo introducimos y estudiamos la distribución normal mul-
tivariante y tres distribuciones relacionadas con las muestras multivariantes:
Wishart, Hotelling y Wilks.
2.2. Distribución normal multivariante
2.2.1. De…nición
Sea A una variable aleatoria con distribución `(j. o
2
). es decir, con media
j y varianza o
2
. La función de densidad de A es:
1(r: j. o
2
) =
1
o

2:
c
÷
1
2
(a÷j)
2
/o
2
=
(o
2
)
÷1/2

2:
c
÷
1
2
(a÷j)
1

2
(a÷j)
(2.1)
Evidentemente se veri…ca:
A = j ÷o) oonoc ) ~ `(0. 1). (2.2)
Vamos a introducir la distribución normal mutivariante `
j
(j. ¯) como
una generalización de la normal univariante. Por una parte, (2.1) sugiere
de…nir la densidad de X = (A
1
. . . . . A
j
)
t
~ `
j
(j. ¯) según:
1(x: j. ¯) =
[¯[
÷1/2
(

2:)
j
c
÷
1
2
(x÷j)
0

1
(x÷j)
. (2.3)
siendo x = (r
1
. . . . . r
j
)
t
. j = (j
1
. . . . . j
a
)
t
y ¯ = (o
j;
) una matriz de…nida
positiva, que como veremos, es la matriz de covarianzas. Por otra parte,
(2.2) sugiere de…nir la distribución X = (A
1
. . . . . A
j
)
t
~ `
j
(j. ¯) como una
combinación lineal de j variables )
1
. . . . . )
j
independientes con distribución
`(0. 1).
A
1
= j
1
÷c
11
)
1
÷ ÷c
1j
)
j
.
.
.
.
.
.
A
j
= j
j
÷c
j1
)
1
÷ ÷c
jj
)
j
(2.4)
que podemos escribir como
X =j÷A¥ (2.5)
donde A = (c
j;
) es una matriz j ¡ que veri…ca AA
t
= ¯.
Proposición 2.2.1 Las dos de…niciones (2.3) y (2.4) son equivalentes.
2.2. DISTRIBUCIÓN NORMAL MULTIVARIANTE 25
Demost.: Según la fórmula del cambio de variable
1
A
(r
1
. . . . . r
j
) = 1
Y
(n
1
(r). . . . . n
j
(r))

·v
·x

siendo n
j
= n
j
(r
1
. . . . . r
j
), i = 1. . . . . j, el cambio y J =

0&
0a

el jacobiano del
cambio. De (2.5) tenemos
v = A
÷1
(x ÷j) =

·v
·x

= [A
÷1
[
y como las variables )
j
son `(0. 1) independientes:
1
A
(r
1
. . . . . r
j
) = (1

2:)
j
c
÷
1
2
P
p
i=1
&
2
i
[A
÷1
[. (2.6)
Pero ¯
÷1
= (A
÷1
)
t
(A
÷1
) y por lo tanto
v
t
v = (x ÷j)
t
(A
÷1
)
t
(A
÷1
)(x ÷j) = (x ÷j)
t
¯
÷1
(x ÷j). (2.7)
Substituyendo (2.7) en (2.6) y de [A
÷1
[
2
= [¯[
÷1
obtenemos (2.3).
2.2.2. Propiedades
1. De (2.5) es inmediato que 1(X) =j y que la matriz de covarianzas es
1((X÷j)(X÷j)
t
) =1(A¥¥
t
A
t
) = AI
j
A
t
= ¯.
2. La distribución de cada variable marginal A
j
es normal univariante:
A
j
~ `(j
j
. o
jj
). i = 1. . . . . j.
Es consecuencia de la de…nición (2.4).
3. Toda combinación lineal de las variables A
1
. . . . . A
j
2 = /
0
÷/
1
A
1
÷ ÷/
j
A
j
es también normal univariante. En efecto, de (2.4) resulta que 2 es
combinación lineal de `(0. 1) independientes.
26 CAPÍTULO 2. NORMALIDAD MULTIVARIANTE
4. Si ¯ =diag(o
11
. . . . . o
jj
) es matriz diagonal, es decir, o
j;
= 0. i = ,. en-
tonces las variables (A
1
. . . . . A
j
) son estocásticamente independientes.
En efecto, la función de densidad conjunta resulta igual al producto de
las funciones de densidad marginales:
1(r
1
. . . . . r
j
: j. ¯) = 1(r
1
: j
1
. o
11
) 1(r
j
: j
j
. o
jj
)
5. La distribución de la forma cuadrática
l = (x ÷j)¯
÷1
(x ÷j)
t
es ji-cuadrado con j grados de libertad. En efecto, de (2.5) l = ¥¥
t
=
¸
j
j=1
)
2
j
es suma de los cuadrados de j variables `(0. 1) independi-
entes.
2.2.3. Caso bivariante
Cuando j = 2. la función de densidad de la normal bivariante se puede
expresar en función de las medias y varianzas j
1
. o
2
1
. j
2
. o
2
2
y del coe…ciente
de correlación j =cor(A
1
. A
2
) :
1(r
1
. r
2
) =
1
2¬o
1
o
2

1÷a
2
cxp [÷
1
2
1
1÷a
2
¦
(a
1
÷j
1
)
2
o
2
1
÷2j
(a
1
÷j
1
)
o
1
(a
2
÷j
2
)
o
2
÷
(a
2
÷j
2
)
2
o
2
2
.
siendo ÷1 < j < ÷1. (Figura 2.1). Se veri…ca:
1. Hay independencia estocástica si y sólo si j = 0.
2. La distribución de la variable marginal A
j
es `(j
j
. o
2
j
).
3. La función de densidad de A
2
condicionada a A
1
= r es
1(r
2
r
1
) =
1
o
2

2:(1 ÷j
2
)
cxp[
÷[(r
2
÷j
2
÷j(o
2
o
1
)(r
1
÷j
1
)|
2
2o
2
2
(1 ÷j
2
)
|.
densidad de la distribución normal `(j
2
÷j(o
2
o
1
)(r
1
÷j
1
). o
2
2
(1÷j
2
)).
4. La regresión es de tipo lineal, es decir, las curvas de regresión de la
media
r
2
= 1(A
2
A
1
= r
1
). r
1
= 1(A
1
A
2
= r
2
).
son las rectas de regresión.
2.3. DISTRIBUCIÓN DE WISHART 27
Figura 2.1: Función de densidad de una distribución normal bivariante de
medias 1 y 1, desviaciones típicas 2 y 2, coe…ciente de correlación 0.8.
2.3. Distribución de Wishart
La distribución de Wishart es la que sigue una matriz aleatoria simétrica
de…nida positiva, generaliza la distribución ji-cuadrado y juega un papel im-
portante en inferencia multivariante. Un ejemplo destacado lo constituye la
distribución de la matriz de covarianzas S. calculada a partir de una matriz
de datos donde las …las son observaciones normales multivariantes.
De…nición
Si las …las de la matriz Z
aj
son independientes `
j
(0. ¯) entonces diremos
que la matriz O = Z
t
Z es Wishart \
j
(¯. :). con parámetros ¯ y : grados
de libertad.
Textos avanzados prueban que cuando ¯ es de…nida positiva y : _ j. la
densidad de O es
1(O) =c[O[
(a÷j÷1)
cxp(÷
1
2
tr(¯
÷1
O)).
siendo
c
÷1
= 2
aj/2
:
j(j÷1)/4
[¯[
a/2
j
¸
j=1
I(
1
2
(: ÷ 1 ÷i).
Propiedades:
28 CAPÍTULO 2. NORMALIDAD MULTIVARIANTE
1. Si O
1
. O
2
son independientes Wishart \
j
(¯. :). \
j
(¯. :). entonces la
suma O
1
÷O
2
es también Wishart \
j
(¯. :÷:).
2. Si O es Wishart \
j
(¯. :). y separamos las variables en dos conjuntos
y consideramos las particiones correspondientes de las matrices ¯ y O
¯ =

¯
11
¯
12
¯
21
¯
22

. O =

O
11
O
12
O
21
O
22

.
Entonces O
11
es \
j

11
. :) y O
22
es \
j

22
. :).
3. Si O es Wishart \
j
(¯. :) y T es una matriz j ¡ de constantes, en-
tonces T
t
OT es \
o
(T
t
¯T. :). En particular, si t es un vector, entonces
t
t
Ot
t¯t
cs .
2
a
.
2.4. Distribución de Hotelling
Es una generalización multivariante de la distribución t de Student.
De…nición
Si v es `
j
(0. I). Oes Wishart \
j
(I. :) y además v. Oson independientes,
entonces
1
2
= :v
t
O
÷1
v
sigue la distribución 1
2
de Hotelling, que se indica por 1
2
(j. :).
Propiedades:
1. Si x es `
j
(j.¯) independiente de ^ que es \
j
(¯. :), entonces
1
2
= :(x÷j)
t
^
÷1
(x÷j) ~ 1
2
(j. :).
2. 1
2
está directamente relacionada con la distribución de Fisher-Snedecor
1
2
(j. :) =
:j
:÷j ÷ 1
1
j
n÷j+1
.
2.5. DISTRIBUCIÓN DE WILKS 29
3. Si x. S son el vector de medias y la matriz de covarianzas de la matriz
X
aj
con …las independientes `
j
(j. ¯). entonces
(: ÷1)(x÷j)
t
S
÷1
(x÷j) ~ 1
2
(j. : ÷1).
y por lo tanto
: ÷j
j
(x÷j)
t
S
÷1
(x÷j) ~ 1
j
a÷j
.
4. Si x. S
1
.v. S
2
son el vector de medias y la matriz de covarianzas de
las matrices X
a
1
j
. ¥
a
2
j
. respectivamente, con …las independientes
`
j
(j. ¯). y consideramos la estimación conjunta centrada de ¯
¯
S= (:
1
S
1
÷:
2
S
2
)(:
1
÷:
2
÷2).
entonces
1
2
=
:
1
:
2
:
1
÷:
2
(x÷v)
t
¯
S
÷1
(x ÷v) ~ 1
2
(j. :
1
÷:
2
÷2)
y por lo tanto
:
1
÷:
2
÷1 ÷j
(:
1
÷:
2
÷2)j
1
2
~ 1
j
a
1
+a
2
÷1÷j
.
2.5. Distribución de Wilks
La distribución F con : y : grados de libertad surge considerando el
cociente
1 =
¹:
1:
.
donde ¹. 1 són ji-cuadrados estocásticamente independientes con : y : gra-
dos de libertad. Si consideramos la distribución
A =
¹
¹ ÷1
.
la relación entre A y 1
n
a
. así como la inversa 1
a
n
, es
1
n
a
=
:
:
A
1 ÷A
. 1
a
n
=
:
:
1 ÷A
A
.
La distribución de Wilks generaliza esta relación.
30 CAPÍTULO 2. NORMALIDAD MULTIVARIANTE
De…nición
Si las matrices A. Hde orden jj son independientes Wishart \
j
(¯. :). \
j
(¯. :),
respectivamente, con : _ j. la distribución del cociente de determinantes
A =
[A[
[A÷H[
es, por de…nición, la distribución lambda de Wilks, que indicaremos por
A(j. :. :).
Propiedades:
1. 0 _ A _ 1 y además A no depende de ¯. Por lo tanto, podemos
estudiarla suponiendo ¯ = I.
2. Su distribución es equivalente a la del producto de : variables beta
independientes:
A(j. :. :) ~
a
¸
j=1
l
j
.
donde l
j
es beta 1(
1
2
(:÷i ÷j).
1
2
j). (Obsérvese que debe ser : _ j).
3. Los parámetros se pueden permutar manteniendo la misma distribu-
ción. Concretamente:
A(j. :. :) ~ A(:. :÷: ÷j. j).
4. Para valores 1 y 2 de j y :. la distribución de A equivale a la 1. según
las fórmulas

n
a
~ 1
a
n
(j = 1)

n÷j+1
j
~ 1
j
n÷j+1
(: = 1)

n÷1
a
~ 1
2a
2(n÷1)
(j = 2)

n÷j+1
j
1
2j
2(n÷j+1)
(: = 2)
(2.8)
5. En general, una transformación de A equivale, exacta o asintóticamente,
a la distribución 1. Si A(j. :÷¡. ¡) es Wilks con : relativamente grande,
consideremos
1 =
:: ÷2\

1 ÷A
1/c
A
1/c
(2.9)
con : = :÷(j÷¡÷1)2, \ = (j¡÷2)4. : =

(j
2
¡
2
÷4)(j
2
÷¡
2
÷ò).
Entonces 1 sigue asintóticamente la distribución F con j¡ y (::÷2\)
g. de lib. (Rao, 1973, p.556).
2.6. RELACIONES ENTRE WILKS, HOTELLING Y F 31
0.0 0.2 0.4 0.6 0.8 1.0
0.00
0.05
0.10
0.15
0.20
x
y
Figura 2.2: Un ejemplo de función de densidad lambda de Wilks.
2.6. Relaciones entre Wilks, Hotelling y F
A. Probemos la relación entre A y 1 cuando j = 1. Sean ¹ ~ .
2
n
. 1 ~ .
2
a
independientes. Entonces A = ¹(¹ ÷1) ~ A(1. :. :) y 1 = (::)¹1 =
(::)1 ~ 1
n
a
. Tenemos que A = (¹1)(¹1 ÷ 1) = 1(1 ÷ 1). luego
1 = A(1÷A) =(::)A(1÷A) ~ 1
n
a
. Mas si 1 ~ 1
n
a
entonces 11 ~ 1
a
n
.
Hemos demostrado que:
1 ÷A(1. :. :)
A(1. :. :)
:
:
~ 1
a
n
. (2.10)
B. Recordemos que v es un vector columna y por lo tanto vv
t
es una matriz
j j. Probemos la relación entre las distribuciones 1
2
y 1. Tenemos 1
2
=
:v
t
O
÷1
v. donde O es \
j
(I.:). y vv
t
es \
j
(I.1). Se cumple
[O÷vv
t
[ = [O[[1÷v
t
O
÷1
v[.
que implica
1÷v
t
O
÷1
v = [O÷vv
t
[[O[ = 1A.
donde A = [O[[O÷vv
t
[ ~ A(j. :. 1) ~ A(1. :÷1÷j. j). Además v
t
O
÷1
v =
1A÷1 = (1÷A)A. De (2.10) tenemos que v
t
O
÷1
v(:÷1÷j)j ~ 1
j
n+1÷j
y por lo tanto
1
2
= :v
t
O
÷1
v ~
:j
:÷ 1 ÷j
1
j
n+1÷j
.
32 CAPÍTULO 2. NORMALIDAD MULTIVARIANTE
2.7. Distribución multinomial
Supongamos que la población ! es la reunión disjunta de / sucesos ex-
cluyentes ¹
1
. . . . . ¹
I
.
! = ¹
1
÷ ÷¹
I
.
con probabilidades positivas 1(¹
1
) = j
1
. . . . . 1(¹
I
) = j
I
. veri…cando
j
1
÷ ÷j
I
= 1.
Consideremos : observaciones independientes y sea (1
1
. . . . . 1
I
) el vector con
las frecuencias observadas de ¹
1
. . . . . ¹
I
. siendo
1
1
÷ ÷1
I
= :. (2.11)
La distribución multinomial es la distribución de f = (1
1
. . . . . 1
I
) con función
de densidad discreta
j(1
1
. . . . . 1
I
) =
:!
:
1
! :
I
!
j
;
1
1
j
;
k
I
.
En el caso / = 2 tenemos la distribución binomial.
Indiquemos p = (j
1
. . . . . j
I
)
t
.
1. El vector de medias de f es µ = :p.
2. La matriz de covarianzas de f es C = :[diag(p) ÷pp
t
). Es decir:
c
jj
= :j
j
(1 ÷j
j
).
c
j;
= ÷:j
j
j
;
si i = ,.
Puesto que C1 = 0. la matriz C es singular. La singularidad se debe a
que se veri…ca (2.11). Una g-inversa de C es (véase Sección 1.10):
C
÷
= diag(j
÷1
1
. . . . . j
÷1
I
). (2.12)
2.8. Distribuciones con marginales dadas
Sea H(r. n) la función de distribución bivariante de dos variables aleato-
rias (A. ) ). La función H es
H(r. n) = 1(A _ r. ) _ n).
2.8. DISTRIBUCIONES CON MARGINALES DADAS 33
Consideremos las distribuciones marginales, es decir las distribuciones uni-
variantes de A y de ) :
1(r) = 1(A _ r) = H(r. ·).
G(n) = 1() _ n) = H(·. n).
Un procedimiento para la obtención de modelos de distribuciones bivariantes
consiste en encontrar H a partir de 1. G y posiblemente algún parámetro.
Si suponemos A. ) independientes, una primera distribución es
H
0
(r. n) = 1(r)G(n).
M. Fréchet introdujo las distribuciones bivariantes
H
÷
(r. n) = m´ax¦1(r) ÷G(n) ÷1. 0¦.
H
+
(r. n) = m´in¦1(r). G(n)¦
y demostró la desigualdad
H
÷
(r. n) _ H(r. n) _ H
+
(r. n).
Cuando la distribución es H
÷
. entonces se cumple la relación funcional entre
A. )
1(A) ÷G() ) = 1.
y la correlación (si existe) j
÷
es mínima. Cuando la distribución es H
+
,
entonces se cumple la relación funcional entre A. )
1(A) = G() )
y la correlación (si existe) j
+
es máxima. Previamente W. Hoe¤ding había
probado la siguiente fórmula para la covarianza
cov(A. ) ) =

1
2
(H(r. n) ÷1(r)G(n))drdn
y demostrado la desigualdad
j
÷
_ j _ j
+
.
donde j
÷
. j y j
+
son las correlaciones entre A. ) cuando la distribución
bivariante es H
÷
. H y H
+
. respectivamente.
Posteriormente, diversos autores han propuesto distribuciones bivariantes
paramétricas a partir de las marginales 1. G, que en algunos casos contienen a
H
÷
. H
0
y H
+
. Escribiendo 1. G. H para indicar 1(r). G(n). H(r. n). algunas
familias son:
34 CAPÍTULO 2. NORMALIDAD MULTIVARIANTE
1. Farlie-Gumbel-Morgenstern:
H
0
= 1G[1 ÷o(1 ÷1)(1 ÷G)|. ÷1 _ o _ 1.
2. Clayton-Oakes:
H
c
= [1
÷c
÷G
÷c
÷1|
÷1/c
. ÷1 _ c < ·.
3. Ali-Mikhail-Haq:
H
0
= 1G[1 ÷o(1 ÷1)(1 ÷G)| ÷1 _ o _ 1.
4. Cuadras-Augé:
H
0
= (m´in¦1. G¦)
0
(1G)
1÷0
. 0 _ o _ 1.
5. Familia de correlación:
H
0
(r. n) = o1(m´in¦r. n¦) ÷ (1 ÷o)1(r)J(n). ÷1 _ o _ 1.
siendo J(n) = [G(n) ÷o1(n))(1 ÷o) una función de distribución uni-
variante.
2.9. Complementos
La distribución normal multivariante es, con diferencia, la más utilizada
en análisis multivariante. Textos como Anderson (1956), Rao (1973), Rencher
(1995, 1998), se basan, casi exclusivamente, en la suposición de normalidad.
Más recientemente se han estudiado generalizaciones, como las distribuciones
elípticas, cuya densidad es de la forma
1(x) = [¯[
÷1/2
o((x÷j)
t
¯
÷1
(x÷j)).
donde o es una función positiva creciente. Otras distribuciones importantes
son la multinomial y la Dirichlet.
Cuando se estudiaron muestras normales multivariantes, pronto se planteó
la necesidad de encontrar la distribución de la matriz de covarianzas, y de
2.9. COMPLEMENTOS 35
algunos estadísticos apropiados para realizar tests multivariantes. Así fue co-
mo J. Wishart, H. Hotelling y S. S. Wilks propusieron las distribuciones que
llevan sus nombres, en los años 1928, 1931 y 1932, respectivamente.
El estudio de las distribuciones con marginales dadas proporciona un
método de construcción de distribuciones univariantes y multivariantes. Al-
gunas referencias son: Hutchinson y Lai (1990), Joe (1997), Nelsen (1999),
Cuadras y Augé (1981), Cuadras (1992a, 2006, 2009). La fórmula de Hoe¤d-
ing admite la siguiente generalización (Cuadras, 2002):
cov(c(A). () )) =

1
2
(H(r. n) ÷1(r)G(n))dc(r)d(n).
Véase también Quesada-Molina (1992).
36 CAPÍTULO 2. NORMALIDAD MULTIVARIANTE
Capítulo 3
INFERENCIA
MULTIVARIANTE
3.1. Conceptos básicos
Sea 1(x. 0) un modelo estadístico. La función “score” se de…ne como
.(x. 0) =
·
·0
log 1(x. 0).
Una muestra multivariante está formada por las : …las x
t
1
. . . . . x
t
j
indepen-
dientes de una matriz de datos X
aj
. La función de verosimilitud es
1(X. 0) =
a
¸
j=1
1(x
j
. 0).
La función “score” de la muestra es
.(X. 0) =
a
¸
j=1
·
·0
log 1(x
j
. 0).
La matriz de información de Fisher 1(0) es la matriz de covarianzas de
.(X. 0). Cuando un modelo estadístico es regular se veri…ca:
a) 1(.(X. 0)) = 0.
b) 1(0) =1(.(X. 0).(X. 0)
t
).
Un estimador t(X) de 0 es insesgado si 1(t(X)) = 0. La desigualdad
de Cramér-Rao dice que si cov(t(X)) es la matriz de covarianzas de t(X),
entonces
cov(t(X)) _1(0)
÷1
.
37
38 CAPÍTULO 3. INFERENCIA MULTIVARIANTE
en el sentido de que la diferencia cov(t(X))÷1(0)
÷1
es una matriz semi-
de…nida positiva.
Un estimador
´
0 del parámetro desconocido 0 es máximo verosímil si max-
imiza la función 1(X. 0). En condiciones de regularidad, podemos obtener
´
0
resolviendo la ecuación
a
¸
j=1
·
·0
log 1(x
j
. 0) = 0.
Entonces el estimador máximo verosímil
´
0
a
obtenido a partir de una muestra
de tamaño : satisface:
a) Es asintóticamente normal con vector de medias 0 y matriz de covar-
ianzas (:1
1
(0))
÷1
. donde 1
1
(0) es la matriz de información de Fisher para
una sola observación.
b) Si t(X) es estimador insesgado de 0 tal que cov(t(X)) = (:1
1
(0))
÷1
.
entonces
´
0
a
= t(X).
c)
´
0
a
converge en probabilidad a 0.
3.2. Estimación de medias y covarianzas
Si las : …las x
t
1
. . . . . x
t
a
de X
aj
son independientes `
j
(j. ¯) la función
de verosimilitud es
1(X.j. ¯) = oci(2:¯)
÷a/2
cxp

÷
1
2
a
¸
j=1
(x
j
÷j)¯
÷1
(x
j
÷j)
t
¸
Se veri…ca
¸
a
j=1
(x
j
÷j)
t
¯
÷1
(x
j
÷j) =
¸
a
j=1
(x
j
÷x)
t
¯
÷1
(x
j
÷x) ÷:(x ÷j)
t
¯
÷1
(x ÷j)
= t:¦¯
÷1
¸
a
j=1
(x
j
÷x)(x
j
÷x)
t
¦
÷:(x ÷j)
t
¯
÷1
(x ÷j)
y por lo tanto el logaritmo de 1 se puede expresar como
log 1(X.j. ¯) = ÷
:
2
log oci(2:¯) ÷
:
2
t:(¯
÷1
S)÷
:
2
(x ÷j)
t
¯
÷1
(x ÷j).
Derivando matricialmente respecto de j y de ¯
÷1
tenemos
0
0j
log 1 = :¯
÷1
(x ÷j) = 0.
0
0
1
log 1 =
a
2
[¯ ÷o ÷(x ÷j)(x ÷j)
t
| = 0.
3.3. TESTS MULTIVARIANTES 39
Las estimaciones máximo-verosímiles de j. ¯ son pues
´ j = x.
´
¯ = S.
Si sólo j es desconocido, la matriz de información de Fisher es
1(j) = 1(:¯
÷1
(x ÷j):¯
÷1
(x ÷j)
t
) = :¯
÷1
y como cov(x) = ¯:. tenemos x que alcanza laa cota de Cramér-Rao.
Probaremos más adelante que:
1. x es `
j
(j. ¯:).
2. x y S son estocásticamente independientes.
3. :S sigue la distribución de Wishart.
3.3. Tests multivariantes
Un primer método para construir tests sobre los parámetros de una población
normal, se basa en las propiedades anteriores, que dan lugar a estadísticos
con distribución conocida (ji-cuadrado, F).
3.3.1. Test sobre la media: una población
Supongamos que las …las de X
aj
son independientes `
j
(j. ¯). Sea j
0
un vector de medias conocido. Queremos realizar un test sobre la hipótesis
H
0
: j = j
0
1. Si ¯ es conocida, como x es `
j
(j. ¯:). el estadístico de contraste es
:(x÷j
0
)
t
¯
÷1
(x÷j
0
) ~ .
2
j
.
2. Si ¯ es desconocida, como (: ÷ 1)(x÷j)
t
S
÷1
(x÷j) ~ 1
2
(j. : ÷ 1). el
estadístico de contraste es
: ÷j
j
(x÷j
0
)
t
S
÷1
(x÷j
0
) ~ 1
j
a÷j
. (3.1)
En ambos casos se rechaza H
0
para valores grandes signi…cativos del es-
tadístico.
40 CAPÍTULO 3. INFERENCIA MULTIVARIANTE
3.3.2. Test sobre la media: dos poblaciones
Supongamos ahora que tenemos dos matrices de datos independientes
X
a
1
j
. ¥
a
2
j
que provienen de distribuciones `
j
(j
1
. ¯). `
j
(j
2
. ¯). Quere-
mos construir un test sobre la hipótesis
H
0
: j
1
= j
2
.
1. Si ¯ es conocida, como (x÷v) es `
j
(j
1
÷ j
2
. (1:
1
÷ 1:
2
)¯) el es-
tadístico de contraste es
:
1
:
2
:
1
÷:
2
(x÷v)
t
¯
÷1
(x ÷v) ~ .
2
j
.
2. Si ¯ es desconocida, el estadístico de contraste es
:
1
÷:
2
÷1 ÷j
(:
1
÷:
2
÷2)j
:
1
:
2
:
1
÷:
2
(x÷v)
t
¯
S
÷1
(x ÷v) ~ 1
j
a
1
+a
2
÷1÷j
.
3.3.3. Comparación de medias
Supongamos que las …las de o matrices de datos son independientes, y
que provienen de la observación de o poblaciones normales multivariantes:
mairiz orocn mcoias covarianzas oisiri¦nci´on
X
1
:
1
j x
1
S
1
`
j
(j
1
. ¯)
X
2
:
2
j x
2
S
2
`
j
(j
2
. ¯)
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
X
j
:
j
j x
j
S
j
`
j
(j
j
. ¯)
(3.2)
El vector de medias generales y la estimación centrada de la matriz de
covarianzas común ¯ son
x =
1
:
j
¸
j=1
:
j
x
j
. S =
1
: ÷o
j
¸
j=1
:
j
S
j
.
siendo S
j
= :
÷1
j
X
t
j
HX
j
. : =
¸
j
j=1
:
j
.
Deseamos construir un test para decidir si podemos aceptar la hipótesis
de igualdad de medias
H
0
: j
1
= j
2
= = j
j
.
3.4. TEOREMA DE COCHRAN 41
Introducimos las siguientes matrices , :
H =
¸
j
j=1
:
j
(x
j
÷x)(x
j
÷x)
t
(oispcrsi´on cnirc grnpos)
V =
¸
j
j=1
¸
a
i
c=1
(x
jc
÷x
j
)(x
jc
÷x
j
)
t
(oispcrsi´on ocniro grnpos)
T =
¸
j
j=1
¸
a
i
c=1
(x
jc
÷x)(x
jc
÷x)
t
(oispcrsi´on ioial)
Se veri…ca que V = (: ÷o)S y la relación:
T = H÷V.
Si la hipótesis nula es cierta, se veri…ca además
H ~\
j
(¯. o ÷1). V~\
j
(¯. : ÷o). T ~\
j
(¯. : ÷1).
H. V son csioc´asiicamcnic inocpcnoicnics.
por lo tanto, si H
0
es cierta
A =
[V[
[V÷H[
~ A(j. : ÷o. o ÷1).
Rechazaremos H
0
si A es pequeña y signi…cativa, o si la transformación a
una 1 es grande y signi…cativa.
3.4. Teorema de Cochran
Algunos resultados de la sección anterior son una consecuencia del teore-
ma de Cochran.
Lema 3.4.1 Sea X(: j) una matriz de datos `
j
(j. ¯) y u. v dos vectores
: 1 tales que u
t
u = v
t
v =1. u
t
v =0.
1. Si j = 0 entonces v
t
= u
t
X es `
j
(0. ¯).
2. v
t
= u
t
X es independiente de z
t
= v
t
X.
Demost.: Sean x
t
1
. . . . . x
t
a
las …las (independientes) de X. Si u = (n
1
. . . . . n
a
)
t
entonces v
t
= u
t
X =
¸
a
j=1
n
j
x
j
es normal multivariante con j = 0 y matriz
de covarianzas
1(vv
t
) = 1(
¸
a
j=1
n
j
x
j
)(
¸
a
j=1
n
j
x
j
)
t
= 1(
¸
a
j.;=1
n
j
n
;
x
j
x
t
;
)
=
¸
a
j.;=1
n
j
n
;
1(x
j
x
t
;
) =
¸
a
j=1
n
2
j
1(x
j
x
t
j
)
=
¸
a
j=1
n
2
j
¯ = ¯.
42 CAPÍTULO 3. INFERENCIA MULTIVARIANTE
Análogamente, si v = (·
1
. . . . . ·
a
)
t
. z
t
= v
t
X es también normal.
Las esperanzas de v. z son: 1(v) = (
¸
a
j=1
n
j
)j. 1(z) = (
¸
a
j=1
·
j
)j. Las
covarianzas entre v y z son:
1[(v÷1(v))(z÷1(z))
t
|=
¸
a
j=1
n
j
·
;
1[(x
j
÷j)(x
;
÷j)
t
|
=
¸
a
j=1
n
j
·
j
1[(x
j
÷j)(x
;
÷j)
t
| = u
t
v¯ = 0.
lo que prueba la independencia estocástica entre v y z.
Teorema 3.4.2 Sea X(: j) una matriz de datos `
j
(0. ¯) y sea C(: :)
una matriz simétrica.
1. X
t
CX tiene la misma distribución que una suma ponderada de matrices
\
j
(¯. 1). donde los pesos son valores propios de C.
2. X
t
CX es Wishart \
j
(¯. :) si y sólo si C es idempotente y rang(C) = :.
Demost.: Sea
C =
a
¸
j=1
\
j
u
j
u
t
j
la descomposición espectral de C, es decir, Cu
j
= \
j
u
j
. Entonces
X
t
CX =
¸
\
j
v
t
j
v
j
Por el Lema 3.4.1 anterior, las …las v
t
j
de la matriz
¥ =

¸
¸
v
t
1
.
.
.
v
t
a
¸

=

¸
¸
u
t
1
X
.
.
.
u
t
a
X
¸

.
son también independientes `
j
(0. ¯) y cada v
j
v
t
j
es \
j
(¯. 1).
Si C
2
= C entonces Cu
j
= \
j
u
j
siendo \
j
= 0 ó 1. Por lo tanto : =tr(C)
y
X
t
CX =
v
¸
j=1
v
j
v
t
j
~ \
j
(¯. :).
El siguiente resultado se conoce como teorema de Craig, y junto con el
teorema de Cochran, permite construir tests sobre vectores de medias.
3.4. TEOREMA DE COCHRAN 43
Teorema 3.4.3 Sea X(:j) una matriz de datos `
j
(j. ¯) y sean C
1
(::).
C
2
(::) matrices simétricas. Entonces X
t
C
1
X es independiente de X
t
C
2
X
si C
1
C
2
= 0.
Demost.:
C
1
=
¸
a
j=1
\
j
(1)u
j
u
t
j
. X
t
C
1
X =
¸
\
j
(1)v
j
v
t
j
.
C
2
=
¸
a
;=1
\
;
(2)v
;
v
t
;
. X
t
C
2
X =
¸
\
;
(2)z
;
z
t
;
.
siendo v
t
j
= u
t
j
X. z
t
;
= v
t
;
X. Por otra parte
C
1
C
2
=
¸
\
j
(1)\
;
(2)u
j
u
t
j
v
;
v
t
;
.
C
1
C
2
= 0 =\
j
(1)\
;
(2)u
t
j
v
;
= 0. \i. ,.
Si suponemos \
j
(1)\
;
(2) = 0. entonces por el Lema 3.4.1 v
t
j
(1 j) = u
t
j
X es
independiente de z
t
;
(1j) = v
t
;
X. Así X
t
C
1
X es independiente de X
t
C
2
X.
Una primera consecuencia del teorema anterior es la independencia entre
vectores de medias y matrices de covarianzas muestrales. En el caso univari-
ante j = 1 es el llamado teorema de Fisher.
Teorema 3.4.4 Sea X(: j) una matriz de datos `
j
(j. ¯). Entonces :
1. La media x es `
j
(j. ¯:).
2. La matriz de covarianzas S = X
t
HX: veri…ca :S ~ \
j
(¯. : ÷1).
3. x y S son estocásticamente independientes.
Demost.: Consideremos C
1
= :
÷1
11
t
. Tenemos rang(C
1
) = 1. X
t
C
1
X =xx
t
.
Consideremos también C
2
= H. Como C
1
C
2
= 0 deducimos que x es inde-
pendiente de S.
Por otra parte, como H
2
= H. H1 = 0. rang(H) =:÷1. H tiene el valor
propio 1 con multiplicidad : ÷ 1. Así u
j
. vector propio de valor propio 1.
es ortogonal a 1. resultando que v
t
j
= u
t
j
X veri…ca 1(v
t
j
) = (
¸
a
c=1
n
jc
)j =
(u
t
j
1)j=0j = 0. Si u
;
es otro vector propio, v
j
. v
;
son independientes (Lema
3.4.1). Tenemos que :S =
¸
a÷1
j=1
v
j
v
t
j
. donde los v
j
v
t
j
son \
j
(¯. 1) independientes.
Teorema 3.4.5 Sean X
j
. matrices de datos independientes de orden :
j
j
con distribución `
j
(j
j
. ¯). i = 1. . . . o. : =
¸
j
j=1
:
j
. Si la hipótesis nula
H
0
: j
1
= j
2
= = j
j
es cierta, entonces H. V son independientes con distribuciones Wishart:
H ~\
j
(¯. o ÷1). V~\
j
(¯. : ÷o).
44 CAPÍTULO 3. INFERENCIA MULTIVARIANTE
Demost.: Escribimos las matrices de datos como una única matriz
X =

X
1
.
.
.
X
j
¸
¸
¸
.
Sean
1
1
= (1. . . . . 1. 0. . . . . 0). . . . . 1
j
= (0. . . . 0. 1. . . . 1).
1 =
¸
j
j=1
1
j
= (1. . . . . 1. . . . . 1. . . . . 1).
donde 1
1
tiene :
1
unos y el resto ceros, etc. Sean también
I
j
= diag(1
j
). I =
¸
j
j=1
I
j
.
H
j
= I
j
÷:
÷1
j
1
j
1
t
j
C
1
=
¸
j
j=1
H
j
. C
2
=
¸
j
j=1
:
÷1
j
1
j
1
t
j
÷:
÷1
11
t
.
Entonces
C
2
1
= C
1
. C
2
2
= C
2
. C
1
C
2
= 0.
rang(C
1
) = : ÷/. rang(C
2
) = o ÷1.
V = X
t
C
1
X. H = X
t
C
2
X.
El resultado es consecuencia de los Teoremas 3.4.4 y 3.4.5.
3.5. Construcción de tests multivariantes
3.5.1. Razón de verosimilitud
Supongamos que la función de densidad de (A
1
. . . . . A
j
) es 1(x. 0). donde
x ÷1
j
y o ÷ O. siendo O una región paramétrica de dimensión geométrica
:. Sea O
0
· O una subregión paramétrica de dimensión :, y planteamos el
test de hipótesis
H
0
: 0 ÷ O
0
vs H
1
: 0 ÷ O÷O
0
.
Sea x
1
. . . . . x
a
una muestra de valores independientes de X , consideremos
la función de verosimilitud
1(x
1
. . . . . x
a
: o) =
a
¸
j=1
1(x. 0)
3.5. CONSTRUCCIÓN DE TESTS MULTIVARIANTES 45
y sea
´
0 el estimador máximo verosímil de 0 ÷ O. Consideremos análoga-
mente
´
0
0
, el estimador de máxima verosimilitud de 0 ÷ O
0
. Tenemos que
´
0
maximiza 1 sin restricciones y
´
0
0
maximiza 1 cuando se impone la condición
de que pertenezca a O
0
. La razón de verosimilitud es el estadístico
\
1
=
1(x
1
. . . . . x
a
:
´
0
0
)
1(x
1
. . . . . x
a
:
´
0)
.
que satisface 0 _ \
1
_ 1. Aceptamos la hipótesis H
0
si \
1
es próxima a 1 y
aceptamos la alternativa H
1
si \
1
es signi…cativamente próximo a 0.
El test basado en \
1
tiene muchas aplicaciones en AM, pero en la mayoría
de los casos su distribución es desconocida. Existe un importante resultado
(atribuido a Wilks), que dice que la distribución de -2 veces el logaritmo de
\
1
es ji-cuadrado con : ÷: g.l. cuando el tamaño de la muestra : es grande.
Teorema 3.5.1 Bajo ciertas condiciones de regularidad, se veri…ca:
÷2 log \
1
es asintóticamente .
2
v÷c
.
donde : = oim(O
0
) < : = oim(O).
Entonces rechazamos la hipótesis H
0
cuando ÷2 log \
1
sea grande y sig-
ni…cativo. Veamos dos ejemplos.
Test de independencia
Si (A
1
. . . . . A
j
) es `(j. ¯). y queremos hacer un test sobre la indepen-
dencia estocástica de las variables, entonces
O
0
= ¦(j. ¯
0
)¦. : = 2j.
O = ¦(j. ¯)¦. : = j ÷j(j ÷ 1)2.
donde ¯
0
es diagonal. O
0
contiene las j medias de las variables y las j
varianzas. ¯ es cualquier matriz de…nida positiva. Se demuestra (Sección
5.4.2) que
÷2 log \
1
= ÷:log [H[.
donde H es la matriz de correlaciones. El estadístico ÷:log [H[ es asintóti-
camente ji-cuadrado con
¡ = j ÷j(j ÷ 1)2 ÷2j = j(j ÷1)2 g.l.
Si las variables son independientes, tendremos que H - I. ÷:log [H[ -0. y
es probable que .
2
o
= ÷:log [H[ no sea signi…cativo.
46 CAPÍTULO 3. INFERENCIA MULTIVARIANTE
Test de comparación de medias
Consideremos el test de comparación de medias planteado en la Sección
3.3.3. Ahora
O
0
= ¦(j. ¯)¦. : = j ÷j(j ÷ 1)2.
O = ¦(j
1
. . . . . j
j
). ¯)¦. : = oj ÷j(j ÷ 1)2.
donde ¯ es matriz de…nida positiva y j (vector) es la media común cuando
H
0
es cierta. Hay oj ÷j(j ÷1)2 parámetros bajo H
1
. y j ÷j(j ÷1)2 bajo
H
0
. Se demuestra la relación
\
1
= A
a/2
.
donde A = [V[[T[ es la lambda de Wilks y : = :
1
÷ ÷:
j
. Por lo tanto
÷:log A es asintóticamente ji-cuadrado con : ÷ : = (o ÷ 1)j g.l. cuando la
hipótesis H
0
es cierta.
3.5.2. Principio de unión-intersección
Es un principio general que permite construir tests multivariantes a partir
de tests univariantes y se aplica a muchos tests. Como ejemplo, planteemos
la hipótesis nula multivariante H
0
: j=j
0
como un test univariante. Sea
A
o
= Xa una variable compuesta con media j(c) =ja. El test univariante
H
0
(c) : j(c) =j
0
(c) contra la alternativa H
1
(c) : j(c) =j
0
(c) se resuelve
mediante la t de Student
t(c) =

: ÷1
r(c) ÷j
0
(c)
:(c)
~ t
a÷1
donde r(c) = x
t
c es la media muestral de A
o
y :
2
(c) = a
t
Sa es la varianza.
Aceptaremos H
0
: j=j
0
si aceptamos todas las hipótesis univariantes H
0
(c),
y nos decidiremos por la alternativa H
1
: j = j
0
si aceptamos una sola de las
alternativas H
1
(c), es decir, formalmente (principio de unión-intersección):
H
0
= ¨
o
H
0
(c). H
1
= '
o
H
1
(c).
Así rechazaremos H
0
si la máxima t(c) resulta signi…cativa. Pues bien, la 1
2
de Hotelling (Sección 3.3.1) es precisamente el cuadrado de esta máxima t
de Student.
3.6. EJEMPLOS 47
Teorema 3.5.2 En el test sobre el vector de medias, la 1
2
de Hotelling y la
t de Student están relacionadas por
1
2
= m´ax
o
t
2
(c).
Demost.: (x ÷j
0
) es un vector columna y podemos escribir t
2
(c) como
t
2
(c) = (: ÷1)
a
t
(x ÷j
0
)(x ÷j
0
)
t
a
a
t
Sa
Sea A = (x ÷ j
0
)(x ÷ j
0
)
t
matriz de orden j j y rango 1. Si v
1
satisface
Av
1
= \
1
Sv
1
entonces
\
1
= m´ax
·
v
t
Av
v
t
Sv
.
De (x ÷j
0
)(x ÷j
0
)
t
v
1
= \
1
Sv
1
resulta que S
÷1
(x ÷j
0
)(x ÷j
0
)
t
v
1
= \
1
v
1
y de la identidad
S
÷1
(x ÷j
0
)(x ÷j
0
)
t
(S
÷1
(x ÷j
0
)) = (x ÷j
0
)
t
S
÷1
(x ÷j
0
)(S
÷1
(x ÷j
0
))
vemos que \
1
= (x ÷j
0
)
t
S
÷1
(x ÷j
0
). v
1
= S
÷1
(x ÷j
0
). Por lo tanto
1
2
= m´ax
o
t
2
(c) = (: ÷1)(x ÷j
0
)
t
S
÷1
(x ÷j
0
).
3.6. Ejemplos
Ejemplo 3.6.1
Se desean comparar dos especies de moscas de agua: Amerohelea fasci-
nata, Amerohelea pseudofascinata. En relación a las variables A
1
= long.
antena, A
2
= long. ala (en mm), para dos muestras de tamaños :
1
= 0 y
:
2
= 0. se han obtenido las matrices de datos de la Tabla 3.1.
Vectores de medias (valores multiplicados por 100):
x= (141.33. 180.44). v = (122.07. 102.07).
48 CAPÍTULO 3. INFERENCIA MULTIVARIANTE
Amerohelea fascinata A. pseudofascinata
:
1
= 0 :
2
= 0
A
1
A
2
1.38 1.04
1.40 1.70
1.24 1.72
1.30 1.74
1.38 1.82
1.48 1.82
1.ò4 1.82
1.38 1.00
1.ò0 2.08
A
1
A
2
1.14 1.78
1.20 1.80
1.18 1.00
1.30 1.00
1.20 2.00
1.28 2.00
Tabla 3.1: A
1
= long. antena, A
2
= long. ala (en mm), para dos muestras de
tamaño :
1
= 0 y :
2
= 0..
Matrices de covarianzas:
S
1
=

08.00 80.83
80.83 107.78

S
2
=

30.47 43.47
43.47 77.87

.
Estimación centrada de la matriz de covarianzas común:
´
S=
1
13
(8S
1
÷ òS
2
) =

7ò.40 00.40
00.40 133.81

.
Distancia de Mahalanobis entre las dos muestras:
1
2
= (x ÷v)
´
S
÷1
(x ÷v)
t
= 1ò.ò2.
Estadístico 1
2
:
1
2
=
0 0
0 ÷ 0
1
2
= òò.87
Estadístico 1 :
0 ÷ 0 ÷1 ÷2
2(0 ÷ 0 ÷2)
1
2
= 2ò.78 ~ 1
2
12
Decisión: rechazamos la hipótesis de que las dos especies son iguales (Nivel
de signi…cación=0.001).
Ejemplo 3.6.2
3.6. EJEMPLOS 49
Comparación de las especies virginica, versicolor, setosa de ‡ores del
género Iris (datos de R. A. Fisher, Tabla 3.2), respecto a las variables que
miden longitud y anchura de sépalos y pétalos:
A
1
. A
2
= long.. ancl.(s´cpalos). A
3
. A
4
= long.. ancl.(p´cialos).
Vectores de medias y tamaños mustrales:
I. setosa (ò.000. 3.428. 1.402. 0.240) :
1
= ò0
I. versicolor (ò.030. 2.770. 4.200. 1.320) :
2
= ò0
I. virginica (0.ò88. 2.074. ò.òò0. 2.020) :
3
= ò0
Matriz dispersión entre grupos:
H =

¸
¸
¸
03.212 ÷10.0ò3 10ò.17 71.278
11.34ò ÷ò7.23 ÷22.032
430.73 180.00
80.413
¸

Matriz dispersión dentro grupos:
V =

¸
¸
¸
38.0ò0 12.030 24.703 ò.04ò
10.002 8.148 4.808
27.322 0.284
0.1ò0
¸

Lambda de Wilks:
A =
[V[
[V÷H[
= 0.02344~A(4. 147. 2)
Transformación a una 1 aplicando (2.9):
A ÷1 = 108.0ò ~ 1
8
288
Decisión: las diferencias entre las tres especies son muy signi…cativas.
50 CAPÍTULO 3. INFERENCIA MULTIVARIANTE
A
1
A
2
A
3
A
4
A
1
A
2
A
3
A
4
A
1
A
2
A
3
A
4
5.1 3.5 1.4 0.2 7.0 3.2 4.7 1.4 6.3 3.3 6.0 2.5
4.9 3.0 1.4 0.2 6.4 3.2 4.5 1.5 5.8 2.7 5.1 1.9
4.7 3.2 1.3 0.2 6.9 3.1 4.9 1.5 7.1 3.0 5.9 2.1
4.6 3.1 1.5 0.2 5.5 2.3 4.0 1.3 6.3 2.9 5.6 1.8
5.0 3.6 1.4 0.2 6.5 2.8 4.6 1.5 6.5 3.0 5.8 2.2
5.4 3.9 1.7 0.4 5.7 2.8 4.5 1.3 7.6 3.0 6.6 2.1
4.6 3.4 1.4 0.3 6.3 3.3 4.7 1.6 4.9 2.5 4.5 1.7
5.0 3.4 1.5 0.2 4.9 2.4 3.3 1.0 7.3 2.9 6.3 1.8
4.4 2.9 1.4 0.2 6.6 2.9 4.6 1.3 6.7 2.5 5.8 1.8
4.9 3.1 1.5 0.1 5.2 2.7 3.9 1.4 7.2 3.6 6.1 2.5
5.4 3.7 1.5 0.2 5.0 2.0 3.5 1.0 6.5 3.2 5.1 2.0
4.8 3.4 1.6 0.2 5.9 3.0 4.2 1.5 6.4 2.7 5.3 1.9
4.8 3.0 1.4 0.1 6.0 2.2 4.0 1.0 6.8 3.0 5.5 2.1
4.3 3.0 1.1 0.1 6.1 2.9 4.7 1.4 5.7 2.5 5.0 2.0
5.8 4.0 1.2 0.2 5.6 2.9 3.6 1.3 5.8 2.8 5.1 2.4
5.7 4.4 1.5 0.4 6.7 3.1 4.4 1.4 6.4 3.2 5.3 2.3
5.4 3.9 1.3 0.4 5.6 3.0 4.5 1.5 6.5 3.0 5.5 1.8
5.1 3.5 1.4 0.3 5.8 2.7 4.1 1.0 7.7 3.8 6.7 2.2
5.7 3.8 1.7 0.3 6.2 2.2 4.5 1.5 7.7 2.6 6.9 2.3
5.1 3.8 1.5 0.3 5.6 2.5 3.9 1.1 6.0 2.2 5.0 1.5
5.4 3.4 1.7 0.2 5.9 3.2 4.8 1.8 6.9 3.2 5.7 2.3
5.1 3.7 1.5 0.4 6.1 2.8 4.0 1.3 5.6 2.8 4.9 2.0
4.6 3.6 1.0 0.2 6.3 2.5 4.9 1.5 7.7 2.8 6.7 2.0
5.1 3.3 1.7 0.5 6.1 2.8 4.7 1.2 6.3 2.7 4.9 1.8
4.8 3.4 1.9 0.2 6.4 2.9 4.3 1.3 6.7 3.3 5.7 2.1
5.0 3.0 1.6 0.2 6.6 3.0 4.4 1.4 7.2 3.2 6.0 1.8
5.0 3.4 1.6 0.4 6.8 2.8 4.8 1.4 6.2 2.8 4.8 1.8
5.2 3.5 1.5 0.2 6.7 3.0 5.0 1.7 6.1 3.0 4.9 1.8
5.2 3.4 1.4 0.2 6.0 2.9 4.5 1.5 6.4 2.8 5.6 2.1
4.7 3.2 1.6 0.2 5.7 2.6 3.5 1.0 7.2 3.0 5.8 1.6
4.8 3.1 1.6 0.2 5.5 2.4 3.8 1.1 7.4 2.8 6.1 1.9
5.4 3.4 1.5 0.4 5.5 2.4 3.7 1.0 7.9 3.8 6.4 2.0
5.2 4.1 1.5 0.1 5.8 2.7 3.9 1.2 6.4 2.8 5.6 2.2
5.5 4.2 1.4 0.2 6.0 2.7 5.1 1.6 6.3 2.8 5.1 1.5
4.9 3.1 1.5 0.2 5.4 3.0 4.5 1.5 6.1 2.6 5.6 1.4
5.0 3.2 1.2 0.2 6.0 3.4 4.5 1.6 7.7 3.0 6.1 2.3
5.5 3.5 1.3 0.2 6.7 3.1 4.7 1.5 6.3 3.4 5.6 2.4
4.9 3.6 1.4 0.1 6.3 2.3 4.4 1.3 6.4 3.1 5.5 1.8
4.4 3.0 1.3 0.2 5.6 3.0 4.1 1.3 6.0 3.0 4.8 1.8
5.1 3.4 1.5 0.2 5.5 2.5 4.0 1.3 6.9 3.1 5.4 2.1
5.0 3.5 1.3 0.3 5.5 2.6 4.4 1.2 6.7 3.1 5.6 2.4
4.5 2.3 1.3 0.3 6.1 3.0 4.6 1.4 6.9 3.1 5.1 2.3
4.4 3.2 1.3 0.2 5.8 2.6 4.0 1.2 5.8 2.7 5.1 1.9
5.0 3.5 1.6 0.6 5.0 2.3 3.3 1.0 6.8 3.2 5.9 2.3
5.1 3.8 1.9 0.4 5.6 2.7 4.2 1.3 6.7 3.3 5.7 2.5
4.8 3.0 1.4 0.3 5.7 3.0 4.2 1.2 6.7 3.0 5.2 2.3
5.1 3.8 1.6 0.2 5.7 2.9 4.2 1.3 6.3 2.5 5.0 1.9
4.6 3.2 1.4 0.2 6.2 2.9 4.3 1.3 6.5 3.0 5.2 2.0
5.3 3.7 1.5 0.2 5.1 2.5 3.0 1.1 6.2 3.4 5.4 2.3
5.0 3.3 1.4 0.2 5.7 2.8 4.1 1.3 5.9 3.0 5.1 1.8
Tabla 3.2: Longitud y anchura de sépalos y pétalos de 3 especies del género
Iris: Setosa, Versicolor, Virginica.
3.6. EJEMPLOS 51
Ejemplo 3.6.3
Consideremos los siguientes datos (tamaños muestrales, medias, desvia-
ciones típicas, matrices de covarianzas) de j = 2 variables A (longitud del
fémur), ) (longitud del húmero), obtenidas sobre dos poblaciones (Anglo-
indios, Indios) .
Medias A )
:
1
= 27 460.4 335.1
:
2
= 20 444.3 323.2
Diferencia 16.1 11.9
Desv. típicas 23.7 18.2
Matriz covarianzas
´
S =

ò01.7 374.2
374.2 331.24

Correlación: : = 0.807
Suponiendo normalidad, los tests t de comparación de medias para cada
variable por separado son:
Variable A t = 2.302 (4ò g.l.) (j = 0.02ò0).
Variable ) t = 2.21ò (4ò g.l.) (j = 0.0318).
A un nivel de signi…cación 0. 0ò se concluye que hay diferencias signi…cativas
para cada variable por separado.
Utilicemos ahora las dos variables conjuntamente. La distancia de Maha-
lanobis entre las dos poblaciones es d
t
´
S
÷1
d =0.4777. siendo d =(10. 1. 11.0).
La 1
2
de Hotelling es
1
2
=
27 20
27 ÷ 20
0.4777 = ò.488
que convertida en una F da:
1 =
27 ÷ 20 ÷1 ÷2
(27 ÷ 20 ÷2)2
ò.488 = 2.08ò (2 y 44 g.l.) (j = 0.070).
Esta F no es signi…cativa al nivel 0.05. Por lo tanto ambos tests univariantes
resultan signi…cativos, pero el test bivariante no, contradiciendo la creencia
de que un test multivariante debería proporcionar mayor signi…cación que un
test univariante.
Interpretemos geométricamente esta paradoja (conocida como paradoja
de Rao). Con nivel de signi…cación 0,05, y aplicando el test 1
2
de Hotelling,
52 CAPÍTULO 3. INFERENCIA MULTIVARIANTE
aceptaremos la hipótesis nula bivariante si el vector diferencia d = (r n)
t
pertenece a la elipse
:
1
:
2
:
1
÷:
2
d
t

ò01. 7 374. 2
374. 2 331. 24

÷1
d _ 3.2.
donde 3.2 es el punto crítico para una F con 2 y 44 g. l. Así pues no hay
signi…cación si r. n veri…can la inecuación
0. 04 030 0r
2
÷0. 0012 1rn ÷ 0. 0084ò 0n
2
_ 3.2.
Análogamente, en el test univariante y para la primera variable r, la
diferència d = r
1
÷r
2
debe veri…car
[

:
1
:
2
:
1
÷:
2
(
d
:
1
)[ _ 2.
siendo 2 el valor crítico para una t con 45 g. l. Procederíamos de forma similar
para la segunda variable n. Obtenemos así las cuatro rectas
Variable r : 0. 143r = ±2. Variable n : 0. 1802n = ±2.
En la Figura 3.1 podemos visualizar la paradoja. Los valores de la difer-
encia que están a la derecha de la recta vertical r
a
son signi…cativos para
la variable r. Análogamente los que están por encima de la recta horizontal
r
&
lo son para la n. Por otra parte, todos los valores que están fuera de la
elipse (región F) son signi…cativos para las dos variables. Hay casos en que
r. n por separado no son signi…cativos, pero conjuntamente sí. No obstante,
existe una pequeña región por encima de r
&
y a la derecha de r
a
que cae
dentro de la elipse. Para los datos del ejemplo, se obtiene el punto señalado
con el signo +, para el cual r e n son signi…cativas pero no (r. n). Así r e n
son signi…cativas si el punto se encuentra en el cuadrante A. (Una simetría
con respecto al origen nos permitiría considerar otras dos rectas y la región
B).
Pues bien, el test con r y el test con n por separado, son tests t distintos
del test 1
2
empleado con (r. n). equivalente a una F. Tales tests no tienen
por qué dar resultados compatibles. Las probabilidades de las regiones de
rechazo son distintas. Además, la potencia del test con (r. n) es superior,
puesto que la probabilidad de la región F es mayor que las probabilidades
sumadas de las regiones A y B.
Para ver más ejemplos, consúltese Baillo y Grané (2008).
3.7. ANÁLISIS DE PERFILES 53
Figura 3.1: Un test de comparación de poblaciones bivariante puede resultar
menos signi…cativo que dos tests univariantes con las variables marginales.
3.7. Análisis de per…les
Supongamos que las …las de una matriz de datos X(: j) provienen de
una distribución `
j
(j. ¯). Estamos interesados en establecer una hipótesis
lineal sobre µ = (j
1
. . . . . j
j
)
t
. Por ejemplo, que las medias univariantes son
iguales:
H
0
: j
1
= = j
j
Esta hipótesis sólo tiene sentido si las variables observables son comparables.
Consideremos la matriz de orden (j ÷1) j
C =

¸
¸
¸
1 ÷1 0 0
0 1 ÷1 0
0 0 0 ÷1
¸

La hipótesis es equivalente a
H
0
: Cµ = 0
Aceptar H
0
es lo mismo que decir que las medias de las j ÷ 1 variables
A
1
÷A
2
. A
2
÷A
3
. . . . . A
j÷1
÷A
j
son iguales a cero. Por lo tanto aplicaremos
54 CAPÍTULO 3. INFERENCIA MULTIVARIANTE
el test de la 1
2
de Hotelling a la matriz de datos ¥ = XC. Bajo la hipótesis
nula
1
2
= (:÷1)(Cx)
t
(CSC
t
)
÷1
(Cx) = :(Cx)
t
(C
´
SC
t
)
÷1
(Cx) ~ 1
2
(j÷1. :÷1).
siendo
´
S la matriz de covarianzas con corrección de sesgo. Aplicando (3.1)
con j ÷1 variables
: ÷j ÷ 1
j ÷1
(Cx)
t
(C
´
SC
t
)
÷1
(Cx) ~ 1
j÷1
a÷j+1
Rechazaremos la hipótesis nula si el valor F resulta signi…cativo.
Consideremos los datos del ejemplo 1.11.1. Queremos estudiar si las me-
dias poblacionales de N, E, S, W son iguales. En este caso
C =

¸
1 ÷1 0 0
0 1 ÷1 0
0 0 1 ÷1
¸

y la 1
2
de Hotelling es :
1
2
= :(Cx)
t
(C
´
SC
t
)
÷1
Cx = 20.74
Bajo la hipótesis nula, sigue una 1
2
(3. 23). Convertida en una F se obtiene
1(3. 2ò) = [2ò(27 3)|1
2
= 0.40. El valor crítico al nivel 0.0ò es 2.00. Hay
diferencias signi…cativas a lo largo de las cuatro direcciones cardinales.
3.8. Complementos
C. Stein probó que la estimación ´ j = x de j de la distribución `
j
(j. ¯)
puede ser inadmisible si j _ 3. en el sentido de que no minimiza
j
¸
j=1
(´ j
j
÷j
j
)
2
.
y propuso una mejora de aquel estimador. B. Efron y C. Morris explicaron
esa peculiaridad desde una perspectiva bayesiana. S. M. Stigler dió una in-
teresante explicación en términos de regresión, justi…cando por qué j _ 3
(consultar Cuadras, 1991).
3.8. COMPLEMENTOS 55
El principio es debido a S. N. Roy, pero no siempre es aplicable. El test de
máxima-verosimilitud es atribuido a S. Wilks y es más general. Es interesante
notar que ÷2 log A se puede interpretar como una distancia de Mahalanobis.
Otros tests semejantes fueron propuestos por C. R. Rao y A. Wald. Consultar
Cuadras y Fortiana (1993b), Rao (1973).
En general, es necesario corregir los tests multiplicando por una con-
stante a …n de conseguir tests insesgados (la potencia del test será siempre
más grande que el nivel de signi…cación). Por ejemplo, es necesario hacer la
modi…cación de G. E. P. Box sobre el test de Bartlett para comparar matrices
de covarianzas (Sección 7.5.2).
Para datos de tipo mixto o no normales, se puede plantear la comparación
de dos poblaciones utilizando distancias entre las observaciones, calculando
coordenadas principales mediante MDS, y a continuación aplicando el modelo
de regresión multivariante. Véase Cuadras y Fortiana (2004), Cuadras (2008).
56 CAPÍTULO 3. INFERENCIA MULTIVARIANTE
Capítulo 4
ANALISIS DE
CORRELACION CANONICA
4.1. Introducción
En este capítulo estudiamos la relación multivariante entre vectores aleato-
rios. Introducimos y estudiamos las correlaciones canónicas, que son gener-
alizaciones de las correlaciones simple y múltiple.
Tenemos tres posibilidades para relacionar dos variables:
La correlación simple si A. ) son dos v.a.
La correlación múltiple si ) es una v.a. y X = (A
1
. . . . . A
j
) es un vector
aleatorio.
La correlación canónica si X = (A
1
. . . . . A
j
) e ¥ = ()
1
. . . . . )
o
) son dos
vectores aleatorios.
4.2. Correlación múltiple
Queremos relacionar una variable respuesta ) con j variables cuantitati-
vas explicativas A
1
. . . . . A
j
. que suponemos centradas. El modelo de regresión
múltiple consiste en encontrar la combinación lineal
´
) =
1
A
1
÷ ÷
j
A
j
57
58 CAPÍTULO 4. ANALISIS DE CORRELACION CANONICA
que mejor se ajuste a la variable ). Sea ¯ la matriz de covarianzas de X y
ð = (o
1
. . . . . o
j
)
t
el vector columna con las covarianzas o
;
= co·(). A
;
). , =
1. . . . . j. El criterio de ajuste es el de los mínimos cuadrados.
Teorema 4.2.1 Los coe…cientes
´
d = (
´

1
. . . . .
´

j
) que minimizan la cantidad
1() ÷
´
) )
2
veri…can la ecuación
´
d = ¯
÷1
ð. (4.1)
Demost.:
c(d) = 1() ÷
´
) )
2
= 1() )
2
÷1(
´
) )
2
÷21()
´
) )
= var() ) ÷d
t
¯d ÷2d
t
ð
Derivando vectorialmente respecto de d e igualando a 0
·
·
c(d) = 2¯d ÷2ð = 0.
La variable predicción es
´
) = X
´
d =
´

1
A
1
÷ ÷
´

j
A
j
. Si ponemos
) =
´
) ÷
¯
) .
entonces
¯
) es la variable residual.
La correlación múltiple entre ) y A
1
. . . . . A
j
es, por de…nición, la cor-
relación simple entre ) y la mejor predicción
´
) = X
´
d. Se indica por
1 = cor().
´
) ).
Se veri…ca:
1. 0 _ 1 _ 1.
2. 1 = 1 si ) es combinación lineal de A
1
. . . . . A
j
.
3. 1 = 0 si ) está incorrelacionada con cada una de las variables A
j
.
Teorema 4.2.2 La variable predicción
´
) . residual
¯
) y la correlación múlti-
ple 1 cumplen:
1.
´
) e
¯
) son variables incorrelacionadas.
4.3. CORRELACIÓN CANÓNICA 59
2. var() ) =var(
´
) )÷var(
¯
) ).
3. 1
2
=var(
´
) )var() ).
Demost.: 1) es consecuencia de ¯
´
d = ð. En efecto,
cov(
´
) .
¯
) ) = 1(
´
)
¯
) ) = 1(
´
d
t
X
t
() ÷
´
d
t
X))
=
´
d
t
ð ÷
´
d
t
¯
´
d = 0.
2) es consecuencia inmediata de 1). Finalmente, de
cov().
´
) ) = cov(). ¯
j
j=1
´

j
A
j
) = ¯
j
j=1
´

j
o
j
=
´
d
t
ð =
´
d
t
¯
´
d = var(
´
) ).
obtenemos
1
2
=
cov
2
().
´
) )
var() )var(
´
) )
=
var(
´
) )
var() )
. (4.2)
4.3. Correlación canónica
Sean X = (A
1
. . . . . A
j
). ¥ = ()
1
. . . . . )
o
) dos vectores aleatorios de di-
mensiones j y ¡. Planteemos el problema de encontrar dos variables com-
puestas
l = Xa = c
1
A
1
÷ ÷c
j
A
j
. \ = ¥I = /
1
)
1
÷ ÷/
j
)
o
.
siendo a = (c
1
. . . . . c
j
)
t
. I = (/
1
. . . . . /
j
)
t
tales que la correlación entre ambas
co:(l. \ )
sea máxima. Indicamos por S
11
. S
22
las matrices de covarianzas (muestrales)
de las variables X. ¥. respectivamente, y sea S
12
la matriz j ¡ con las
covarianzas de las variables X con las variables ¥. Es decir:
X ¥
X S
11
S
12
¥ S
21
S
22
donde S
21
= S
t
12
.
Podemos suponer
var(l) = a
t
S
11
a =1. var(\ ) = I
t
S
22
I =1.
60 CAPÍTULO 4. ANALISIS DE CORRELACION CANONICA
Así el problema se reduce a:
maximizar a
t
S
12
I rcsiringioo a a
t
S
11
a = I
t
S
22
I =1.
Los vectores de coe…cientes a. I que cumplen esta condición son los primeros
vectores canónicos. La máxima correlación entre l. \ es la primera cor-
relación canónica :
1
.
Teorema 4.3.1 Los primeros vectores canónicos satisfacen las ecuaciones
S
12
S
÷1
22
S
21
a = \S
11
a.
S
21
S
÷1
11
S
12
I = \S
22
I.
(4.3)
Demost.: Consideremos la función
c(a. I) = a
t
S
12

\
2
(a
t
S
11
a÷1) ÷
j
2
(I
t
S
22
I÷1).
donde \. j son multiplicadores de Lagrange. Entonces de ·c·a =·c·I = 0
obtenemos las dos ecuaciones
S
12
I÷\S
11
a = 0. S
21
a÷jS
22
I = 0. (4.4)
Multiplicando la primera por a
t
y la segunda por I
t
. tenemos
a
t
S
12
I =\a
t
S
11
a. I
t
S
21
a =jI
t
S
22
I.
que implican \ = j. Así pues, de la segunda ecuación en (4.4), I =\
÷1
S
÷1
22
S
21
a.
y substituyendo en la primera obtenemos \
÷1
S
12
S
÷1
22
S
21
a÷\S
11
a = 0. Pre-
scindiendo de \
÷1
. pues es un factor multiplicativo arbitrario, y operando
análogamente con la otra ecuación, obtenemos (4.3).
Teorema 4.3.2 Los vectores canónicos normalizados por a
t
S
11
a = I
t
S
22
I =
1. están relacionados por
a = \
÷1/2
S
÷1
11
S
12
I.
I = \
÷1/2
S
÷1
22
S
21
a.
y la primera correlación canónica es :
1
=

\
1
. donde \
1
es el primer valor
propio de S
÷1
11
S
12
S
÷1
22
S
21
.
4.3. CORRELACIÓN CANÓNICA 61
Demost.: Tenemos de (4.4) que a =cS
÷1
11
S
12
I. donde c es una constante a
determinar. Partimos de que a
t
S
11
a =1 y para c = \
÷1/2
resulta que:
a
t
S
11
a = \
÷1/2
a
t
S
11
S
÷1
11
S
12
I
= \
÷1/2
a
t
S
12
I
= \
÷1/2
\
÷1/2
a
t
S
12
S
÷1
22
S
21
a
= \
÷1
\a
t
S
11
a
= 1
La correlación es :
1
= a
t
S
12
I y como 1 = \
÷1/2
a
t
S
12
I deducimos que :
2
1
= \
1
.
De hecho, las ecuaciones en valores y vectores propios tienen otras solu-
ciones. Concretamente hay : = m´in¦j. ¡¦ parejas de vectores canónicos
a
1
. I
1
. . . . . a
n
. I
n
. que proporcionan las variables y correlaciones canónicas
l
1
= Xa
1
. \
1
= ¥I
1
. :
1
= cor(l
1
. \
1
).
l
2
= Xa
2
. . \
2
= ¥I
2
. :
2
= cor(l
2
. \
2
).
.
.
.
.
.
.
.
.
.
l
n
= Xa
n
. \
n
= ¥I
n
. :
n
= cor(l
n
. \
n
).
Teorema 4.3.3 Supongamos :
1
:
2
:
n
. Entonces:
1. Tanto las variables canónicas l
1
. . . . . l
n
como las variables canónicas
\
1
. . . . . \
n
están incorrelacionadas.
2. La primera correlación canónica :
1
= co:(l
1
. \
1
) es la máxima cor-
relación entre una combinación lineal de X y una combinación lineal
de ¥.
3. La segunda correlación canónica :
2
= co:(l
2
. \
2
) es la máxima cor-
relación entre las combinaciones lineales de X incorrelacionadas con
l
1
y las combinaciones lineales de ¥ incorrelacionadas con \
1
.
4. co:(l
j
. \
;
) = 0 si i = ,.
Demost.: Sea i = ,. Expresando (4.3) para a
I
. \
I
. / = i. ,. y multiplicando
por a
t
;
y por a
t
j
tenemos que
a
t
;
S
12
S
÷1
22
S
21
a
j
= \
j
a
t
;
S
11
a
j
.
a
t
j
S
12
S
÷1
22
S
21
a
;
= \
;
a
t
j
S
11
a
;
.
62 CAPÍTULO 4. ANALISIS DE CORRELACION CANONICA
Restando: (\
j
÷\
;
)a
t
j
S
11
a
;
= 0 =a
t
j
S
11
a
;
= 0 =co:(l
j
. l
;
) = 0.
Por otra parte, expresando (4.3) como
S
÷1
11
S
12
S
÷1
22
S
21
a = \
j
a
j
. S
÷1
22
S
21
S
÷1
11
S
12
I
;
= \
;
I
;
.
y multiplicando por I
t
;
S
21
y por a
t
j
S
12
llegamos a
I
t
;
S
21
S
÷1
11
S
12
S
÷1
22
S
21
a
j
= \
j
I
t
;
S
21
a
j
.
a
t
j
S
12
S
÷1
22
S
21
S
÷1
11
S
12
I
;
= \
;
a
t
j
S
12
I
;
.
Restando: (\
j
÷\
;
)a
t
j
S
12
I
;
= 0 =a
t
j
S
12
I
;
= 0 =co:(l
j
. \
;
) = 0.
4.4. Correlación canónica y descomposición
singular
Podemos formular una expresión conjunta para los vectores canónicos
utilizando la descomposición singular de una matriz. Supongamos j _ ¡.
consideremos la matriz j ¡
O = S
÷1/2
11
S
12
S
÷1/2
22
y hallemos
O = lAY
t
.
la descomposición singular de O, donde l es una matriz j ¡ con columnas
ortonormales, Y es una matriz ¡ ¡ ortogonal, y A es una matriz diago-
nal con los valores singulares de O. Es decir, l
t
l = I
j
. Y
t
Y = Y
t
Y = I
o
.
A =diag(\
1
. . . . . \
j
).
Teorema 4.4.1 Los vectores canónicos y correlaciones canónicas son
a
j
= S
÷1/2
11
u
j
. I
j
= S
÷1/2
22
v
j
. :
j
= \
j
.
Demost.:
OO
t
= S
÷1/2
11
S
12
S
÷1/2
22
S
÷1/2
22
S
21
S
÷1/2
11
= lA
2
l
t
y por lo tanto
S
÷1/2
11
S
12
S
÷1
22
S
21
S
÷1/2
11
u
j
= \
2
j
u
j
Multiplicando por S
÷1/2
11
S
÷1
11
S
12
S
÷1
22
S
21
(S
÷1/2
11
u
j
) = \
2
j
(S
÷1/2
11
u
j
)
y comparando con resultados anteriores, queda probado el teorema.
4.5. SIGNIFICACIÓN DE LAS CORRELACIONES CANÓNICAS 63
4.5. Signi…cación de las correlaciones canóni-
cas
Hemos encontrado las variables y correlaciones canónicas a partir de las
matrices de covarianzas y correlaciones muestrales, es decir, a partir de mues-
tras de tamaño :. Naturalmente, todo lo que hemos dicho vale si sustituimos
S
11
. S
12
. S
22
por las versiones poblacionales ¯
11
. ¯
12
. ¯
22
. Sean
j
1
_ j
2
_ _ j
n
las : = m´in¦j. ¡¦ correlaciones canónicas obtenidas a partir de ¯
11
. ¯
12
. ¯
22
,
soluciones de:

12
¯
÷1
22
¯
21
÷j
2
¯
11
[ = 0.
Si queremos decidir cuáles son signi…cativas, supongamos normalidad multi-
variante, indiquemos j
0
= 1 y planteemos el tests
H
I
0
: j
I
j
I+1
= = j
n
= 0. (/ = 0. 1. . . . . :).
que equivale a rang(¯
÷1
22
¯
21
) = /. El test de Bartlett-Lawley demuestra que
si H
I
0
es cierta, entonces
1
I
= ÷[: ÷1 ÷/ ÷
1
2
(j ÷¡ ÷ 1) ÷
I
¸
j=1
:
÷2
j
| log[
n
¸
j=I+1
(1 ÷:
2
j
)
es asintóticamente ji-cuadrado con (: ÷ /)(j ÷ /) g.l. Este test se aplica
secuencialmente: si 1
j
es signi…cativo para i = 0. 1. . . . . / ÷1. pero 1
I
no es
signi…cativo, entonces se acepta H
I
0
.
4.6. Test de independencia
Suponiendo normalidad, a…rmar que X es independiente de ¥ consiste
en plantear
H
0
: ¯
12
= 0. H
1
: ¯
12
= 0.
Podemos resolver este test de hipótesis de dos maneras.
64 CAPÍTULO 4. ANALISIS DE CORRELACION CANONICA
4.6.1. Razón de verosimilitud
Si la hipótesis es cierta, entonces el test de razón de verosimilitud (Sección
3.5.1) se reduce al estadístico
A =
[S[
[S
11
[[S
22
[
=
[H[
[H
11
[[H
22
[
.
que sigue la distribución lambda de Wilks A(j. : ÷ 1 ÷ ¡. ¡). equivalente a
A(¡. : ÷1 ÷j. ¡). Rechazaremos H
0
si A es pequeña y signi…cativa (Mardia
et al. 1979, Rencher, 1998).
Es fácil probar que A es función de las correlaciones canónicas
A = [I ÷S
÷1
22
S
21
S
÷1
11
S
12
[ =
n
¸
j=1
(1 ÷:
2
j
).
4.6.2. Principio de unión intersección
Consideremos las variables l = c
1
A
1
÷ ÷c
j
A
j
.\ = /
1
)
1
÷ ÷/
j
)
o
.
La correlación entre l. \ es
j(l. \ ) =
a
t
12
¯
12
I


11
a

I
t
¯
22
I
H
0
equivale a j(l. \ ) = 0 para todo l. \. La correlación muestral es
:(l. \ ) =
a
t
S
12
I

a
t
S
11
a

I
t
S
22
I
.
Aplicando el principio de unión intersección (Sección 3.5.2), aceptaremos H
0
si :(l. \ ) no es signi…cativa para todo l. \. y aceptaremos H
1
si :(l. \ ) es
signi…cativa para algún par l. \. Este criterio nos lleva a estudiar la signi…-
cación de
:
1
= m´ax
l.\
:(l. \ )
es decir, de la primera correlación canónica. Por tanto, el test es:
H
0
: j
1
= 0. H
1
: j
1
0.
Existen tablas especiales para decidir si :
1
es signi…cativa (Morrison, 1976),
pero también se puede aplicar el estadístico 1
0
de Bartlett-Lawley.
4.7. EJEMPLOS 65
4.7. Ejemplos
Se consideran : = 2ò familias y las variables:
A
1
= long. cabeza primer hijo, A
2
= ancho cabeza primer hijo,
)
1
= long. cabeza segundo hijo, )
2
= ancho cabeza segundo hijo,
La matriz de correlaciones es:
H =

¸
¸
¸
1.0000 0.7340 0.7108 0.7040
0.7340 1.0000 0.0032 0.8080
0.7108 0.0032 1.0000 0.8302
0.7040 0.8080 0.8302 1.0000
¸

Entonces:
H
11
=

1.0000 0.7340
0.7340 1.0000

. H
12
=

0.7108 0.7040
0.0032 0.8080

.
H
22
=

1.0000 0.8302
0.8302 1.0000

.
Las raíces de la ecuación:
[H
12
H
÷1
22
H
21
÷\H
11
[ = 0.400303\
2
÷0.287ò00\ ÷ 0.000830 = 0
son: \
1
= 0.0218, \
2
= 0.0020. y por tanto las correlaciones canónicas son:
:
1
= 0.788ò. :
2
= 0.0ò30.
Los vectores canónicos normalizados son:
a
1
= (0.0ò00. 0.0707)
t
. a
2
= (0.1400. ÷0.1870)
t
.
I
1
= (0.0ò02. 0.0802)
t
. I
2
= (0.1700. ÷0.2010)
t
.
Las variables canónicas con variaza 1 son:
l
1
= 0.0ò00A
1
÷ 0.0707A
2
. \
1
= 0.0ò02)
1
÷ 0.0802)
2
. (:
1
= 0.788ò).
l
2
= 0.1400A
1
÷0.1870A
2
. \
2
= 0.1700)
1
÷0.2010)
2
. (:
2
= 0.0ò30).
La dependencia entre (A
1
. A
2
) y ()
1
. )
2
) viene dada principalmente por la
relación entre (l
1
. \
1
) con correlación 0.788ò. más alta que cualquier cor-
relación entre una variable A
j
y una variable )
;
. Podemos interpretar las
66 CAPÍTULO 4. ANALISIS DE CORRELACION CANONICA
primeras variables canónicas como un factor de “tamaño” de la cabeza y las
segundas como un factor de “forma”. Habría entonces una notable relación
en el tamaño y una escasa relación en la forma de la cabeza.
El test de independencia entre (A
1
. A
2
) y ()
1
. )
2
) da
A =
[H[
[H
11
[[H
22
[
= 0.3771 ~ A(2. 22. 2)
que, según (2.8), transformamos con una F obteniendo 0.00 con 4 y 42 g.l.
Rechazamos la hipótesis de independencia.
La prueba de signi…cación de las correlaciones canónicas dá:
H
0
0
: j
0
= 1 j
1
= j
2
= 0. 1
0
= 22.1 (4 g.l.),
H
1
0
: j
1
j
2
= 0. 1
1
= 1.22 (2 g.l.).
Podemos rechazar H
0
0
y aceptar H
1
0
. Solamente la primera correlación canóni-
ca es signi…cativa.
Se consideran los resultados de unas elecciones celebradas en las 41 co-
marcas catalanas y para cada comarca se tabulan los valores de las siguientes
variables:
A
1
= log(porcentaje de votos a CU), A
2
= log(porcentaje de votos a PSC),
A
3
= log(porcentaje de votos a PP), A
4
= log(porcentaje de votos a ERC),
)
1
= log(cociente Juan/Joan), )
2
= log(cociente Juana/Joana),
donde “cociente Juan/Joan” signi…ca el resultado de dividir el número de
hombres que se llaman Juan por el número de hombres que se llaman Joan.
Valores positivos de las variables )
1
. )
2
en una comarca indican predominio
de los nombres en castellano sobre los nombres en catalán.
La matriz de correlaciones es:
A
1
A
2
A
3
A
4
A
1
1 ÷.8ò20 ÷.0ò30 ÷.ò478
A
2
1 .ò127 ÷.7101
A
3
1 ÷.020ò
A
4
1
)
1
)
2
÷.0404 ÷.ò007
.7òòò .0303
.ò012 .ò140
÷.7ò28 ÷.7448
)
1
)
2
1 .8027
1
Sólo hay 2 correlaciones canónicas:
:
1
= 0.8377. :
2
= 0.412ò.
4.8. COMPLEMENTOS 67
Las variables canónicas son:
l
1
= ÷0.083A
1
÷0.372A
2
÷0.1130A
3
÷ 0.òòòA
4
. (:
1
= 0.8377).
\
1
= ÷0.700)
1
÷ 0.330)
2
.
l
2
= ÷1.028A
1
÷ 2.4031.ò40A
2
÷ 1.127A
3
÷ 1.ò40A
4
. (:
2
= 0.412ò).
\
2
= ÷1.ò21)
1
÷1.042)
2
.
Las primeras variables canónicas l
1
. \
1
. que podemos escribir conven-
cionalmente como
l
1
= ÷0.083CU÷0.372PSC÷0.1130PP ÷ 0.òòòERC,
\
1
= ÷0.700(Juan/Joan) ÷ 0.330(Juana/Joanna),
nos indican que las regione más catalanas, en el sentido de que los nombres
castellanos Juan y Juana no predominan tanto sobre los catalanes Joan y
Joanna, tienden a votar más a CU y ERC, que son partidos más nacional-
istas. Las regiones que votan más al PSC y al PP, que son partidos más
centralistas, están en general, más castellanizadas. Las segundas variables
canónicas tienen una interpretación más di…cil.
4.8. Complementos
El análisis de correlación canónica (ACC) fué introducido por H. Hotelling
en 1935, que buscaba la relación entre tests mentales y medidas biométricas,
a …n de estudiar el número y la naturaleza de las relaciones entre mente y
cuerpo, que con un análisis de todas las correlaciones sería difícil de interpre-
tar. Es un método de aplicación limitada, pero de gran interés teórico puesto
que diversos métodos de AM se derivan del ACC.
Aplicaciones a la psicología se pueden encontrar en Cooley y Lohnes
(1971), Cuadras y Sánchez (1975). En ecología se ha aplicado como un mode-
lo para estudiar la relación entre presencia de especies y variables ambientales
(Gittings, 1985).
La distribución de las correlaciones canónicas es bastante complicada.
Solamente se conocen resultados asintóticos (Muirhead, 1982).
Si 1(r. n) es la densidad de dos v.a. A. ) , tiene interés en estadística el
concepto de máxima correlación (propuesto por H. Gabelein) que se de…ne
como
j
1
= snp
c.o
co:(c(A). () )).
68 CAPÍTULO 4. ANALISIS DE CORRELACION CANONICA
donde c(A). () ) son funciones con varianza …nita. Entonces j
1
= 0 si A. )
son variables independientes. Podemos ver a j
1
como la primera correlación
canónica, c
1
(A).
1
() ) como las primeras variables canónicas y de…nir las
sucesivas correlaciones canónicas. Sin embargo el cálculo de j
1
puede ser
complicado (Cuadras, 2002a). Lancaster (1969) estudia estas correlaciones y
demuestra que 1(r. n) se puede desarrollar en serie a partir de las correla-
ciones y funciones canónicas. Diversos autores han estudiado la estimación de
las primeras funciones canónicas, como una forma de predecir una variable en
función de la otra (Hastie y Tibshirani, 1990). Finalmente cabe destacar que
las correlaciones canónicas pueden constituir un conjunto contínuo (Cuadras,
2005).
Capítulo 5
ANALISIS DE
COMPONENTES
PRINCIPALES
5.1. De…nición y obtención de las componentes
principales
Sea X =[A
1
. . . . . A
j
| una matriz de datos multivariantes. Lo que sigue
también vale si X es un vector formado por j variables observables.
Las componentes principales son unas variables compuestas incorrela-
cionadas tales que unas pocas explican la mayor parte de la variabilidad
de X.
De…nición 5.1.1 Las componentes principales son las variables compuestas
)
1
= Xt
1
. )
2
= Xt
2
. . . . . )
j
= Xt
j
tales que:
1. var()
1
) es máxima condicionado a t
t
1
t
1
= 1.
2. Entre todas las variables compuestas ) tales que cov()
1
. ) ) = 0. la
variable )
2
es tal que var()
2
) es máxima condicionado a t
t
2
t
2
= 1.
3. )
3
es una variable incorrelacionada con )
1
. )
2
con varianza máxima.
Análogamente de…nimos las demás componentes principales.
69
70 CAPÍTULO 5. ANALISIS DE COMPONENTES PRINCIPALES
Si T = [t
1
. t
2
. . . . . t
j
| es la matriz j j cuyas columnas son los vectores
que de…nen las componentes principales, entonces la transformación lineal
X ÷¥
¥ = XT (5.1)
se llama transformación por componentes principales.
Teorema 5.1.1 Sean t
1
. t
2
. . . . . t
j
los j vectores propios normalizados de la
matriz de covarianzas S. es decir,
St
j
= \
j
t
j
. t
t
j
t
j
= 1. i = 1. . . . . j.
Entonces:
1. Las variables compuestas )
j
= Xt
j
. i = 1. . . . . j. son las componentes
principales.
2. Las varianzas son los valores propios de S
var()
j
) = \
j
. i = 1. . . . . j.
3. Las componentes principales son variables incorrelacionadas:
cov()
j
. )
;
) = 0. i = , = 1. . . . . j.
Demost.: Supongamos \
1
\
j
0. Probemos que las variables )
j
=
Xt
j
. i = 1. . . . . j. son incorrelacionadas:
cov()
j
. )
;
) = t
t
j
St
;
= t
t
j
\
;
t
;
= \
;
t
t
j
t
;
.
cov()
;
. )
j
) = t
t
;
St
j
= t
t
;
\
;
t
j
= \
j
t
t
;
t
j
.
=(\
;
÷\
j
)t
t
j
t
;
= 0. =t
t
j
t
;
= 0. =cov()
j
. )
;
) = \
;
t
t
j
t
;
= 0. si i = ,.
Además:
var()
j
) = \
j
t
t
j
t
;
= \
j
.
Sea ahora ) =
¸
j
j=1
c
j
A
j
=
¸
j
j=1
c
j
)
j
una variable compuesta tal que
¸
j
j=1
c
2
j
= 1. Entonces
var() ) = var(
j
¸
j=1
c
j
)
j
) =
j
¸
j=1
c
2
j
var()
j
) =
j
¸
j=1
c
2
j
\
j
_ (
j
¸
j=1
c
2
j
)\
1
= var()
1
).
5.2. VARIABILIDADEXPLICADAPORLAS COMPONENTES PRINCIPALES71
que prueba que )
1
tiene varianza máxima.
Consideremos ahora las variables ) incorrelacionadas con )
1
. Las podemos
expresar como:
) =
j
¸
j=1
/
j
A
j
=
j
¸
j=2

j
)
j
condicionado a
j
¸
j=2

2
j
= 1.
Entonces:
var() ) = var(
j
¸
j=2

j
)
j
) =
j
¸
j=2

2
j
var()
j
) =
j
¸
j=2

2
j
\
j
_ (
j
¸
j=2

2
j
)\
2
= var()
2
).
y por lo tanto )
2
está incorrelacionada con )
1
y tiene varianza máxima. Si j _
3. la demostración de que )
3
. . . . . )
j
son también componentes principales es
análoga.
5.2. Variabilidad explicada por las componentes
principales
La varianza de la componente principal )
j
es var()
j
) = \
j
y la variación
total es tr(S) =
¸
j
j=1
\
j
. Por lo tanto:
1. )
j
contribuye con la cantidad \
j
a la variación total tr(S).
2. Si ¡ < j. )
1
. . . . . )
o
contribuyen con la cantidad
¸
o
j=1
\
j
a la variación
total tr(S).
3. El porcentaje de variabilidad explicada por las :primeras componentes
principales es
1
n
= 100
\
1
÷ ÷\
n
\
1
÷ ÷\
j
. (5.2)
En las aplicaciones cabe esperar que las primeras componentes expliquen
un elevado porcentaje de la variabilidad total. Por ejemplo, si : = 2 < j. y
1
2
= 00 /. las dos primeras componentes explican una gran parte de la vari-
abilidad de las variables. Entonces podremos sustituir A
1
. A
2
. . . . . A
j
por las
componentes principales )
1
. )
2
. En muchas aplicaciones, tales componentes
tienen interpretación experimental.
72 CAPÍTULO 5. ANALISIS DE COMPONENTES PRINCIPALES
5.3. Representación de una matriz de datos
Sea X =[A
1
. . . . . A
j
| una matriz :j de datos multivariantes. Queremos
representar, en un espacio de dimensión reducida : (por ejemplo, : = 2), las
…las x
t
1
. x
t
2
. . . . . x
t
a
de X. Necesitamos introducir una distancia (ver Sección
1.9).
De…nición 5.3.1 La distancia euclídea (al cuadrado) entre dos …las de X
x
j
= (r
j1
. . . . . r
jj
). x
;
= (r
;1
. . . . . r
;j
).
es
o
2
j;
= (x
j
÷x
;
)
t
(x
j
÷x
;
) =
j
¸
I=1
(r
jI
÷r
;I
)
2
.
La matriz ^ = (o
j;
) es la matriz : : de distancias entre las …las.
Podemos representar las : …las de X como : puntos en el espacio 1
j
distanciados de acuerdo con la métrica o
j;
. Pero si j es grande, esta repre-
sentación no se puede visualizar. Necesitamos reducir la dimensión.
De…nición 5.3.2 La variabilidad geométrica de la matriz de distancias ^
es la media de sus elementos al cuadrado
\
c
(X) =
1
2:
2
a
¸
j.;=1
o
2
j;
.
Si ¥ = XT es una transformación lineal de X, donde T es una matriz j ¡
de constantes,
o
2
j;
(¡) = (v
j
÷v
;
)
t
(v
j
÷v
;
) =
o
¸
I=1
(n
jI
÷n
;I
)
2
es la distancia euclídea entre dos …las de ¥. La variabilidad geométrica en
dimensión ¡ _ j es
\
c
(¥)
o
=
1
2:
2
a
¸
j.;=1
o
2
j;
(¡).
5.3. REPRESENTACIÓN DE UNA MATRIZ DE DATOS 73
Teorema 5.3.1 La variabilidad geométrica de la distancia euclídea es la
traza de la matriz de covarianzas
\
c
(X) =t:(S) =
j
¸
I=1
\
I
.
Demost.: Si r
1
. . . . . r
a
es una muestra univariante con varianza :
2
, entonces
1
2:
2
a
¸
j.;=1
(r
j
÷r
;
)
2
= :
2
. (5.3)
En efecto, si r es la media
1
a
2
¸
a
j.;=1
(r
j
÷r
;
)
2
=
1
a
2
¸
a
j.;=1
(r
j
÷r ÷(r
;
÷r))
2
=
1
a
2
¸
a
j.;=1
(r
j
÷r)
2
÷
1
a
2
¸
a
j.;=1
(r
;
÷r)
2
÷
2
a
2
¸
a
j.;=1
(r
j
÷r)(r
;
÷r))
2
=
1
a
::
2
÷
1
a
::
2
÷ 0 = 2:
2
.
Aplicando (5.3) a cada columna de X y sumando obtenemos
\
c
(X) =
j
¸
;=1
:
;;
= tr(S).
Una buena representación en dimensión reducida ¡ (por ejemplo, ¡ = 2)
será aquella que tenga máxima variabilidad geométrica , a …n de que los
puntos estén lo más separados posible.
Teorema 5.3.2 La transformación lineal T que maximiza la variabilidad
geométrica en dimensión ¡ es la transformación por componentes principales
(5.1), es decir, T = [t
1
. . . . . t
o
| contiene los ¡ primeros vectores propios nor-
malizados de S.
Demost.: Aplicando (5.3), la variabilidad geométrica de ¥ = XT. donde T
es cualquiera, es
\
c
(¥)
o
=
j
¸
;=1
:
2
()
;
) =
j
¸
;=1
t
t
;
St
;
.
74 CAPÍTULO 5. ANALISIS DE COMPONENTES PRINCIPALES
siendo :
2
()
;
) = t
t
;
St
;
la varianza de la variable compuesta )
;
. Alcanzamos la
máxima varianza cuando )
;
es una componente principal: :
2
()
;
) _ \
;
. Así:
m´ax \
c
(¥)
o
=
j
¸
;=1
\
;
.
El porcentaje de variabilidad geométrica explicada por ¥ es
1
o
= 100
\
c
(¥)
o
\
c
(X)
j
= 100
\
1
÷ ÷\
o
\
1
÷ ÷\
j
.
Supongamos ahora ¡ = 2. Si aplicamos la transformación (5.1), la matriz
de datos X se reduce a
¥ =

¸
¸
¸
¸
¸
¸
n
11
n
12
.
.
.
.
.
.
n
j1
n
j2
.
.
.
.
.
.
n
a1
n
a2
¸

.
Entonces, representando los puntos de coordenadas (n
j1
. n
j2
). i = 1. . . . . :.
obtenemos una representación óptima en dimensión 2 de las …las de X.
5.4. Inferencia
Hemos planteado el ACP sobre la matriz S. pero lo podemos también
plantear sobre la matriz de covarianzas poblacionales ¯. Las componentes
principales obtenidas sobre S son, en realidad, estimaciones de las compo-
nentes principales sobre ¯.
Sea X matriz de datos : j donde las …las son independientes con dis-
tribución `
j
(j. ¯). Recordemos que:
1. x es `
j
(j. ¯:).
2. l =:S es Wishart \
j
(¯. : ÷1).
3. x y S son estocásticamente independientes.
5.4. INFERENCIA 75
Sea ¯ = IAI
t
la diagonalización de ¯. Indiquemos
I = [~
1
. . . . . ~
j
|. X = [\
1
. . . . . \
j
|. A = diag(\
1
. . . . . \
j
).
los vectores propios y valores propios de ¯. Por otra parte, sea S = GLG
t
la
diagonalización de S. Indiquemos:
G = [g
1
. . . . . g
j
|. I = [|
1
. . . . . |
j
|. L = diag(|
1
. . . . . |
j
)
los vectores propios y valores propios de S. A partir de ahora supondremos
\
1
_ _ \
j
.
5.4.1. Estimación y distribución asintótica
Teorema 5.4.1 Se veri…ca:
1. Si los valores propios son diferentes, los valores y vectores propios
obtenidos a partir de S son estimadores máximo-verosímiles de los
obtenidos a partir de ¯
´
\
j
= |
j
. ´ ~
j
= g
j
. i = 1. . . . . j.
2. Cuando / 1 valores propios son iguales a \
\
1
\
j÷I
= \
j÷I+1
= = \
j
= \.
el estimador máximo verosímil de \ es la media de los correspondientes
valores propios de S
´
\ = (|
j÷I+1
÷ ÷|
j
)/
Demost.: Los valores y vectores propios están biunívocamente relacionados
con ¯ y por lo tanto 1) es consecuencia de la propiedad de invariancia de la
estimación máximo verosímil. La demostración de 2) se encuentra en Ander-
son (1959).
Teorema 5.4.2 Los vectores propios [g
1
. . . . . g
j
| y valores propios I = [|
1
. . . . . |
j
|
veri…can asintóticamente:
76 CAPÍTULO 5. ANALISIS DE COMPONENTES PRINCIPALES
1. I es `
j
(X. 2A
2
:). En particular:
|
j
cs `(\
j
. 2\
2
j
:). cov(|
j
. |
;
) = 0. i = ,.
es decir, |
j
. |
;
son normales e independientes.
2. g
j
es `
j
(~
j
. Y
j
:) donde
Y
j
= \
j
¸
;,=j
\
j
(\
j
÷\
;
)
2
~
j
~
t
j
3. I es independiente de G.
Demost.: Anderson (1959), Mardia, Kent y Bibby (1979).
Como consecuencia de que |
j
es `(\
j
. 2\
2
j
:). obtenemos el intervalo de
con…anza asintótico con coe…ciente de con…anza 1 ÷c
|
j
(1 ÷c.
c/2
)
1/2
< \
j
<
|
j
(1 ÷c.
c/2
)
1/2
siendo c
2
= 2(: ÷1) y 1([2[ .
c/2
) = c2. donde 2 es `(0. 1).
Se obtiene otro intervalo de con…anza como consecuencia de que log |
j
es
`(log \
j
. 2(: ÷1))
|
j
c
÷o:
=2
< \
j
< |
j
c
+o:
=2
.
5.4.2. Tests de hipótesis
Determinados tests de hipótesis relativos a las componentes principales
son casos particulares de un test sobre la estructura de la matriz ¯.
A. Supongamos que queremos decidir si la matriz ¯ es igual a una matriz
determinada ¯
0
. Sea X un matriz : j con …las independientes `
j
(j. ¯).
El test es:
H
0
: ¯ = ¯
0
(j desconocida)
Si 1 es la verosimilitud de la muestra, el máximo de log 1 bajo H
c
es
log 1
0
= ÷
:
2
log [2:¯
0
[ ÷
:
2
t:(¯
÷1
0
S).
El máximo no restringido es
log 1 = ÷
:
2
log [2:S[ ÷
:
2
j.
5.4. INFERENCIA 77
El estadístico basado en la razón de verosimilitud \
1
es
÷2 log \
1
= 2(log 1 ÷log 1
0
)
= :tra(¯
÷1
0
S)÷:log [¯
÷1
0
S[ ÷:j.
(5.4)
Si 1
1
. . . . . 1
j
son los valores propios de ¯
÷1
0
S y c. o son las medias aritmética
y geométrica
c = (1
1
÷ ÷1
j
)j. o = (1
1
1
j
)
1/j
. (5.5)
entonces, asintóticamente
÷2 log \
1
= :j(c ÷log o ÷1) ~ .
2
o
. (5.6)
siendo ¡ = j(j ÷ 1)2÷par(¯
0
) el número de parámetros libres de ¯ menos
el número de parámetros libres de ¯
0
.
B. Test de independencia completa.
Si la hipótesis nula a…rma que las j variables son estocásticamente inde-
pendientes, el test se formula como
H
0
: ¯ = ¯
o
= diag(o
11
. . o
jj
) (j desconocida).
Bajo H
0
la estimación de ¯
o
es S
o
=diag(:
11
. . :
jj
) y S
÷1
o
S = H es la ma-
triz de correlaciones. De (5.4) y de log [2:S
o
[÷log [2:S[ =log [H[. tra(H) =j.
obtenemos
÷2 log \
1
= ÷:log [H[ ~ .
2
o
siendo ¡ = j(j ÷1)2 ÷j = j(j ÷1)2. Si el estadístico ÷:log [H[ no es sig-
ni…cativo, entonces podemos aceptar que las variables son incorrelacionadas
y por lo tanto, como hay normalidad multivariante, independientes.
C. Test de igualdad de valores propios.
Este es un test importante en ACP. La hipótesis nula es
H
0
: \
1
\
j÷I
= \
j÷I+1
= = \
j
= \.
Indicamos los valores propios de S y de S
0
(estimación de ¯ si H
0
es cierta)
S ~ (|
1
. . . . . |
I
. |
I+1
. . . . . |
j
). S
0
~ (|
1
. . . . . |
I
. c
0
. . . . . c
0
).
donde c
0
= (|
I+1
÷ ÷|
j
)(j ÷/) (Teorema 5.4.1). Entonces
S
÷1
0
S ~ (1. . . . . 1. |
I+1
c
0
. . . . . |
j
c
0
).
78 CAPÍTULO 5. ANALISIS DE COMPONENTES PRINCIPALES
0 1 2 3 4 5 6
0
10
20
30
40
50
60
k
lam
Figura 5.1: Ejemplo de representación de los valores propios, que indicaría 3
componentes principales.
las medias (5.5) son c = 1 y o = (|
I+1
|
j
)
1/j
c
(I÷j)/j
0
y aplicando (5.6)
÷2 log \
1
= :(j ÷/) log(|
I+1
÷ ÷|
j
)(j ÷/) ÷:(
j
¸
j=I+1
log |
j
) ~ .
2
o
. (5.7)
donde ¡ = (j ÷/)(j ÷/ ÷ 1)2 ÷1.
5.5. Número de componentes principales
En esta sección presentamos algunos criterios para determinar el número
: < j de componentes principales.
5.5.1. Criterio del porcentaje
El número : de componentes principales se toma de modo que 1
n
sea
próximo a un valor especi…cado por el usuario, por ejemplo el 80 %. Por otra
parte, si la representación de 1
1
. 1
2
. . . . . 1
I
. . . . con respecto de / práctica-
mente se estabiliza a partir de un cierto :, entonces aumentar la dimensión
apenas aporta más variabilidad explicada.
5.5. NÚMERO DE COMPONENTES PRINCIPALES 79
5.5.2. Criterio de Kaiser
Obtener las componentes principales a partir de la matriz de correlaciones
H equivale a suponer que las variables observables tengan varianza 1. Por
lo tanto una componente principal con varianza inferior a 1 explica menos
variabilidad que una variable observable. El criterio, llamado de Kaiser, es
entonces:
Retenemos las : primeras componentes tales que \
n
_ 1.
donde \
1
_ _ \
j
son los valores propios de H. que también son las
varianzas de las componentes. Estudios de Montecarlo prueban que es más
correcto el punto de corte \
+
= 0.7. que es más pequeño que 1.
Este criterio se puede extender a la matriz de covarianzas. Por ejemplo,
: podría ser tal que \
n
_ ·. donde · =tra(S)j es la media de las varianzas.
También es aconsejable considerar el punto de corte 0.7 ·.
5.5.3. Test de esfericidad
Supongamos que la matriz de datos proviene de una población normal
multivariante `
j
(j. ¯). Si la hipótesis
H
(n)
0
: \
1
\
n
\
n+1
= = \
j
es cierta, no tiene sentido considerar más de : componentes principales. En
efecto, no hay direcciones de máxima variabilidad a partir de :. es decir,
la distribución de los datos es esférica. El test para decidir sobre H
(n)
0
es-
tá basado en el estadístico ji-cuadrado (5.7) y se aplica secuencialmente: Si
aceptamos H
(0)
0
no hay direcciones principales, pero si rechazamos H
(0)
0
. en-
tonces repetimos el test con H
(1)
0
. Si aceptamos H
(1)
0
entonces : = 1. pero si
rechazamos H
(1)
0
repetimos el test con H
(2)
0
. y así sucesivamente. Por ejem-
plo, si j = 4. tendríamos que : = 2 si rechazamos H
(0)
0
. H
(1)
0
y aceptamos
H
(2)
0
: \
1
\
2
\
3
= \
4
.
5.5.4. Criterio del bastón roto
Los valores propios suman \
t
=tr(S). que es la variabilidad total. Imag-
inemos un bastón de longitud \
t
. que rompemos en j trozos al azar (asignando
j ÷1 puntos uniformemente sobre el intervalo (0. \
t
)) y que los trozos orde-
nados son los valores propios |
1
|
2
|
j
. Si normalizamos a \
t
= 100.
80 CAPÍTULO 5. ANALISIS DE COMPONENTES PRINCIPALES
entonces el valor esperado de |
;
es
1(1
;
) = 100
1
j
j÷;
¸
j=1
1
, ÷i
.
Las : primeras componentes son signi…cativas si el porcentaje de varianza
explicada supera claramente el valor de 1(1
1
) ÷ ÷ 1(1
n
). Por ejemplo,
si j = 4. los valores son:
Iorccniajc 1(1
1
) 1(1
2
) 1(1
3
) 1(1
4
)
Lspcraoo ò2.08 27.08 14.ò8 0.2ò
Acnmnlaoo ò2.08 70.10 03.74 100
Si \
2
= 03.02 pero \
3
= 07.1ò. entonces tomaremos sólo dos componentes.
5.6. Biplot
Un biplot es una representación, en un mismo grà…co, de las …las (indi-
viduos) y las columnas (variables) de una matriz de datos X(: j).
Suponiendo X matriz centrada, el biplot clásico se lleva a cabo mediante
la descomposición singular
X = lAY
t
.
donde l es una matriz j ¡ con columnas ortonormales, Y es una ma-
triz ¡ ¡ ortogonal, y A es una matriz diagonal con los valores singulares
de X. Es decir, l
t
l = I
j
. Y
t
Y = Y
t
Y = I
o
. A =diag(\
1
. . . . . \
j
). Entonces
XY = lA es la transformación en componentes principales, luego las coor-
denadas de las …las están contenidas en lA. Las cordenadas de las columnas
son entonces las …las de la matriz Y. Ambos sistemas de coordenadas se
pueden representar sobre el mismo grá…co, como en la Figura 5.2.
Podemos plantear el biplot de una manera alternativa. La transformación
por componentes principales ¥ = XT permite representar las …las. Para rep-
resentar también las columnas, podemos entender una variable A
;
como el
conjunto de puntos de coordenadas
x
;
(c
;
) = (0. . . . . c
;
. . . . . 0) :
;
_ c
;
_ `
;
.
donde c
;
es un parámetro que varía entre el mínimo valor :
;
y el máximo
valor `
;
de A
;.
Entonces la representación de A
;
es simplemente el eje
x
;
(c)T.
5.7. EJEMPLOS 81
Siguiendo este procedimiento, es fácil ver que mediante la transforma-
ción ¥ = XT. la representación de las variables se identi…ca con el haz de
segmentos
(c
1
t
1
. . . . . c
j
t
j
)
donde t
1
. . . . . t
j
son las …las de T.
5.7. Ejemplos
Ejemplo 5.7.1
Sobre una muestra de : = 100 estudiantes mujeres de Bioestadística, se
midieron las variables
A
1
= peso (kg), A
2
=talla (cm.), A
3
=ancho hombros (cm.), A
4
= ancho
caderas (cm.),
con los siguientes resultados:
1. Medias: r
1
= ò4.2ò. r
2
= 101.73. r
3
= 30.ò3. r
4
= 30.1.
2. Matriz de covarianzas:
S =

¸
¸
¸
44.7 17.70 ò.00 0.10
17.70 20.1ò 4.ò2 4.44
ò.00 4.ò2 3.33 1.34
0.10 4.44 1.34 4.ò0
¸

3. Vectores y valores propios (columnas):
t
1
t
2
t
3
t
4
. 8328 . ò00ò . 1882 . 1003
. ò020 ÷. 8òò2 .0 202 . 1232
. 1302 ÷.0ò 88 . 1114 ÷. 0820
.1807 .0738 ÷.07òò ÷.0802
Val. prop. ò8.40 1ò.47 2.ò4 2.24
Porc. acum. 74.27 03.02 07.1ò 100
4. Número de componentes:
82 CAPÍTULO 5. ANALISIS DE COMPONENTES PRINCIPALES
a. Criterio de Kaiser: la media de las varianzas es · =tr(S)j = 10.08.
Los dos primeros valores propios son 58.49 y 15.47, que son may-
ores que 0.7 ·. Aceptamos : = 2.
b. Test de esfericidad.
: .
2
g.l.
0 333.9 9
1 123.8 5
2 0.39 2
Rechazamos : = 0. : = 1 y aceptamos : = 2.
c. Test del bastón roto: Puesto que 1
2
= 03.02 supera claramente el
valor esperado 70.10 y que no ocurre lo mismo con 1
3
, aceptamos
: = 2.
5. Componentes principales:
)
1
= . 8328A
1
÷. ò020A
2
÷. 1302A
3
÷. 1807A
4
.
)
2
= . ò00òA
1
÷. 8òò2A
2
÷.0ò 88A
3
÷.0738A
4
.
6. Interpretación: la primera componente es la variable con máxima var-
ianza y tiene todos sus coe…cientes positivos. La interpretamos como
una componente de tamaño. La segunda componente tiene coe…cientes
positivos en la primera y cuarta variable y negativos en las otras dos.
La interpretamos como una componente de forma. La primera com-
ponente ordena las estudiantes según su tamaño, de la más pequeña
a la más grande, y la segunda según la forma, el tipo pícnico en con-
traste con el tipo atlético. Las dimensiones de tamaño y forma están
incorrelacionadas.
Ejemplo 5.7.2
Mediante ACP podemos representar una matriz de datos en dimensión
reducida (Teorema 5.3.2), realizando los pasos que se ilustran con este ejem-
plo.
La Tabla 5.1 contiene los tiempos parciales en minutos que 12 corredores
tardan en recorrer 16 kilómetros. El corredor más rápido es el 5, el más lento
es el 12.
5.7. EJEMPLOS 83
corredor km 4 km 8 km 12 km16
1 10 10 13 12
2 12 12 14 15
3 11 10 14 13
4 9 9 11 11
5 8 8 9 8
6 8 9 10 9
7 10 10 8 9
8 11 12 10 9
9 14 13 11 11
10 12 12 12 10
11 13 13 11 11
12 14 15 14 13
Tabla 5.1: Tiempos parciales (en minutos) de 12 corredores.
1. Matrices de covarianzas y correlaciones:
S =

¸
¸
¸
4.304 4.001 2.001 2.273
4.20ò 1.871 1.017
4.083 3.70ò
4.20ò
¸

H =

¸
¸
¸
1 .0483 .40ò3 .ò208
1 .4484 .4404
1 .0022
1
¸

2. Vectores y valores propios de S :
t
1
t
2
t
3
t
4
.5275 .4538 -.2018 -.6893
.5000 .5176 .2093 .6621
.4769 -.5147 .6905 -.1760
.4943 -.5112 -.6624 .2357
\ 12.26 4.098 .4273 .1910
% 72.22 24.13 2.52 1.15
acum 72.22 96.35 98.85 100
3. Componentes principales primera y segunda:
)
1
= 0.ò27A
1
÷ 0.ò00A
2
÷ 0.477A
3
÷ 0.404A
4
var()
1
) = 12.20
)
2
= 0.4ò3A
1
÷ 0.ò17A
2
÷0.ò14A
3
÷0.ò11A
4
var()
2
) = 4.008
84 CAPÍTULO 5. ANALISIS DE COMPONENTES PRINCIPALES
Figura 5.2: Representación por análisis de componentes principales y medi-
ante biplot de los tiempos parciales de 12 corredores.
4. La transformación por componentes principales es ¥ = XT. siendo X
la matriz de datos, T la matriz con los vectores propios de S, La ma-
triz ¥ contiene los valores de las componentes principales sobre los 12
individuos (coordenadas principales), Figura 5.2.
5. Interpretación:
a. La primera componente principal es casi proporcional a la suma de
los tiempos parciales. Por tanto, podemos interpretar )
1
como el
tiempo que tardan en hacer el recorrido. O incluso mejor, ÷)
1
como la rapidez en efectuar la carrera.
b. La segunda componente principal tiene coe…cientes positivos en
A
1
. A
2
y coe…cientes negativos en A
3
. A
4
. Un corredor con valores
altos en )
2
signi…ca que ha sido lento al principio y más rápido
al …nal de la carrera. Un corredor con valores bajos en )
2
signi…-
ca que ha sido rápido al principio y más lento al …nal. Podemos
interpretar esta componente como la forma de correr.
c. La rapidez y la forma de correr, son independientes, en el sentido
de que la correlación es cero.
Para más ejemplos con datos reales, consúltese Baillo y Grané (2008).
5.8. COMPLEMENTOS 85
5.8. Complementos
El Análisis de Componentes Principales (ACP) fué iniciado por K. Pear-
son en 1901 y desarrollado por H. Hotelling en 1933. Es un método referente
a una población, pero W. Krzanowski y B. Flury han investigado las compo-
nentes principales comunes a varias poblaciones.
El ACP tiene muchas aplicaciones. Una aplicación clásica es el estudio
de P. Jolicoeur y J. E. Mosimann sobre tamaño y forma de animales, en
términos de la primera, segunda y siguientes componentes principales. La
primera componente permite ordenar los animales de más pequeños a más
grandes, y la segunda permite estudiar su variabilidad en cuanto a la forma.
Nótese que tamaño y forma son conceptos “independientes”.
El biplot, técnica iniciada por Gabriel (1971), permite la representación en
un mismo grá…co de las …las y columnas de una matriz de datos X (Figura
5.2). Véase Gower y Hand (1996), Galindo-Villardón (1986) y Cárdenas y
Galindo-Villardón (2009).
El ACP puede servir para estudiar la capacidad de un cráneo o de una
caparazón. Supongamos que la caparazón de una tortuga tiene longitud 1,
ancho ¹. y alto H. La capacidad sería ( = 1
c
¹
o
H
~
. donde c. . son
parámetros. Aplicando logaritmos, obtenemos
log ( = clog 1 ÷ log ¹ ÷ log H = log(1
c
¹
o
H
~
).
que podemos interpretar como la primera componente principal )
1
de las
variables log 1. log ¹. log H, y por tanto c. . serían los coe…cientes de )
1
.
Por medio del ACP es posible efectuar una regresión múltiple de ) sobre
A
1
. . . . . A
j
, considerando las primeras componentes principales )
1
. )
2
. . . . co-
mo variables explicativas, y realizar regresión de ) sobre )
1
. )
2
. . . . . evitando
así efectos de colinealidad, aunque las últimas componentes principales tam-
bién pueden in‡uir (Cuadras, 1993). La regresión ortogonal es una variante
interesante. Supongamos que se quieren relacionar las variables A
1
. . . . . A
j
(todas con media 0). en el sentido de encontrar los coe…cientes
1
. . . . .
j
tales que
1
A
1
÷ ÷
j
A
j
~
= 0. Se puede plantear el problema como
var(
1
A
1
÷ ÷
j
A
j
) =mínima, condicionado a
2
1
÷ ÷
2
j
= 1. Es
fácil ver que la solución es la última componente principal )
j
.
Se pueden de…nir las componentes principales de un proceso estocástico
y de una variable aleatoria. Cuadras y Fortiana (1995), Cuadras y Lahlou
(2000) han estudiado las componentes principales de las variables uniforme,
exponencial y logística.
86 CAPÍTULO 5. ANALISIS DE COMPONENTES PRINCIPALES
Capítulo 6
ANÁLISIS FACTORIAL
6.1. Introducción
El Análisis Factorial (AF) es un método multivariante que pretende ex-
presar j variables observables como una combinación lineal de : variables
hipotéticas o latentes, denominadas factores. Tiene una formulación parecida
al Análisis de Componentes Principales, pero el modelo que relaciona vari-
ables y factores es diferente en AF. Si la matriz de correlaciones existe, las
componentes principales también existen, mientras que el modelo factorial
podría ser aceptado o no mediante un test estadístico.
Ejemplos en los que la variabilidad de las variables observables se puede
resumir mediante unas variables latentes, que el AF identi…ca como “fac-
tores”, son:
1. La teoria clásica de la inteligencia suponía que los tests de inteligen-
cia estaban relacionados por un factor general, llamado factor “g” de
Spearman.
2. La estructura de la personalidad, también medida a partir de los tests,
está dominada por dos dimensiones: el factor neuroticismo-estabilidad
y el factor introversión-extroversión.
3. Las diferentes características políticas de ciertos países están in‡uidas
por dos dimensiones: izquierda-derecha y centralismo-nacionalismo.
El AF obtiene e interpreta los factores comunes a partir de la matriz de
87
88 CAPÍTULO 6. ANÁLISIS FACTORIAL
correlaciones entre las variables:
H =

¸
¸
¸
1 :
12
:
1j
:
21
1 :
2j

:
j1
:
j2
1
¸

.
6.2. El modelo unifactorial
Consideremos A
1
. . . . . A
j
variables observables sobre una misma población.
El modelo más simple de AF sólo contempla un factor común 1. que recoge
la covariabilidad de todas las variables, y j factores únicos l
1
. . . . . l
j
. uno
para cada variable. El modelo factorial es
A
j
= c
j
1 ÷d
j
l
j
. i = 1. . . . . j. (6.1)
De acuerdo con este modelo, cada variable A
j
depende del factor común1
y de un factor único l
j
. El modelo supone que:
a) las variables y los factores están estandarizados (media 0 y varianza
1).
b) Los j ÷ 1 factores están incorrelacionados.
De este modo 1 contiene la parte de la variabilidad común a todas las
variables, y cada A
j
está además in‡uida por un factor único l
j
. que aporta
la parte de la variabilidad que no podemos explicar a partir del factor común.
El coe…ciente c
j
es la saturación de la variable A
j
en el factor 1.
De (6.1) deducimos inmediatamente que
c
2
j
÷d
2
j
= 1.
cor(A
j
. 1) = c
j
.
cor(A
j
. A
;
) = c
j
c
;
. i = ,.
Por lo tanto la saturación c
j
es el coe…ciente de correlación entre A
j
y el factor
común. Por otra parte c
2
j
. cantidad que recibe el nombre de comunalidad,
indicada por /
2
j
. es la proporción de variabilidad que se explica por 1 y la
correlación entre A
j
. A
;
sólo depende de las saturaciones c
j
. c
;
.
Una caracterización del modelo unifactorial es
:
j;
:
j
0
;
=
:
j;
0
:
j
0
;
0
=
c
j
c
j
0
. (6.2)
6.2. EL MODELO UNIFACTORIAL 89
es decir, los cocientes entre elementos de la misma columna no diagonal de
dos …las de la matriz de correlaciones H es constante. Esto es equivalente a
decir que el determinante de todo menor de orden dos de H. que no contenga
elementos de la diagonal, es cero:

:
j;
:
j;
0
:
j
0
;
:
j
0
;
0

= :
j;
:
j
0
;
0 ÷:
j;
0 :
j
0
;
0 = c
j
c
;
c
j
0 c
;
0 ÷c
j
c
;
0 c
j
0 c
;
0 = 0. (6.3)
Estas son las llamadas relaciones tetrádicas, que necesariamente se deben
cumplir para que sea válido el modelo unifactorial.
La matriz de correlaciones reducida H
+
se obtiene substituyendo la diago-
nal de unos por las comunalidades (véase (6.7)). Es inmediato probar que H
+
tiene rango 1, que todos los menores de orden dos se anulan y que las comu-
nalidades se obtienen a partir de las correlaciones. Por ejemplo, la primera
comunalidad es
/
2
1
=
:
12
:
13
:
23
=
:
12
:
14
:
24
= =
:
1j÷1
:
1j
:
jj÷1
. (6.4)
En las aplicaciones reales, tanto estas relaciones, com las tetrádicas, sólo se
veri…can aproximadamente. Así, la estimación de la primera comunalidad
podría consistir en tomar la media de los cocientes (6.4).
Por ejemplo, la siguiente matriz de correlaciones
( 1 1 ` 1 `n
( 1.00 0.83 0.78 0.70 0.00 0.03
1 0.83 1.00 0.07 0.07 0.0ò 0.ò7
1 0.78 0.07 1.00 0.04 0.ò4 0.ò1
` 0.70 0.07 0.04 1.00 0.4ò 0.ò1
1 0.00 0.0ò 0.ò4 0.4ò 1.00 0.40
`n 0.03 0.ò7 0.ò1 0.ò1 0.40 1.00
relaciona las cali…caciones en C(clásicas), F (francés), I (inglés), M(matemáti-
cas), D (discriminación de tonos) y Mu (música) obtenidas por los alumnos
de una escuela. Esta matriz veri…ca, aproximadamente, las relaciones (6.2).
Si consideramos la primera y la tercera …la, tenemos que:
0.83
0.07
~
=
0.70
0.04
~
=
0.00
0.ò4
~
=
0.03
0.ò1
~
= 1.2 .
De acuerdo con el modelo unifactorial, estas cali…caciones dependen esencial-
mente de un factor común.
90 CAPÍTULO 6. ANÁLISIS FACTORIAL
6.3. El modelo multifactorial
6.3.1. El modelo
El modelo del análisis factorial de : factores comunes considera que
las j variables observables A
1
. . . . . A
j
dependen de : variables latentes
1
1
. . . . . 1
n
, llamadas factores comunes, y j factores únicos l
1
. . . . . l
j
, de
acuerdo con el modelo lineal:
A
1
= c
11
1
1
÷ ÷ c
1n
1
n
÷d
1
l
1
A
2
= c
21
1
1
÷ ÷ c
2n
1
n
÷d
2
l
2

A
j
= c
j1
1
1
÷ ÷ c
jn
1
n
÷d
j
l
j
.
(6.5)
Las hipótesis del modelo son:
1. Los factores comunes y los factores únicos están incorrelacionados dos
a dos
cor(1
j
. 1
;
) = 0. i = , = 1. . . . . :.
cor(l
j
. l
;
) = 0. i = , = 1. . . . . j.
2. Los factores comunes están incorrelacionados con los factores únicos
cor(1
j
. l
;
) = 0. i = 1. . . . . :. , = 1. . . . . j.
3. Tanto los factores comunes como los factores únicos són variables re-
ducidas.
En el modelo factorial (6.5) se admite que las variables, en conjunto,
dependen de los factores comunes, salvo una parte de su variabilidad, sólo
explicada por el correspondiente factor especí…co. Los factores comunes rep-
resentan dimensiones independentes en el sentido lineal, y dado que tanto
los factores comunes como los únicos son variables convencionales, podemos
suponer que tienen media 0 y varianza 1.
6.3. EL MODELO MULTIFACTORIAL 91
6.3.2. La matriz factorial
Los coe…cientes c
j;
son las saturaciones entre cada variable A
j
y el factor
1
;
. La matriz j : que contiene estos coe…cientes es la matriz factorial
A =

¸
¸
¸
c
11
c
1n
c
21
c
2n

c
j1
c
jn
¸

.
Si indicamos por X = (A
1
. . . . . A
j
)
t
el vector columna de las variables,
y análogamente F = (1
1
. . . . . 1
n
)
t
. l =(l
1
. . . . . l
j
)
t
. el modelo factorial en
expresión matricial es
X = AF ÷Ol. (6.6)
donde O =diag(d
1
. . . . . d
j
) es la matriz diagonal con las saturaciones entre
variables y factores únicos. El AF tiene como principal objetivo encontrar e
interpretar la matriz factorial A.
6.3.3. Las comunalidades
De las condiciones del modelo del AF se veri…ca
var(A
j
) = c
2
j1
÷ ÷c
2
jn
÷d
2
j
.
y por lo tanto c
2
j;
es la parte de la variabilidad de la variable A
j
que es debida
al factor común 1
;
. mientras que d
2
j
es la parte de la variabilidad explicada
exclusivamente por el factor único l
j
.
La cantidad
/
2
j
= c
2
j1
÷ ÷c
2
jn
(6.7)
se llama comunalidad de la variable A
j
. La cantidad d
2
j
es la unicidad. Luego,
para cada variable tenemos que:
variabilidad = comunalidad + unicidad.
La comunalidad es la parte de la variabilidad de las variables sólo explicada
por los factores comunes.
Si supoemos que las variables observables son también reducidas, entonces
tenemos que
1 = /
2
j
÷d
2
j
. (6.8)
92 CAPÍTULO 6. ANÁLISIS FACTORIAL
La matriz de correlaciones reducida se obtiene a partir de Hsubstituyendo
los unos de la diagonal por las comunalidades
H
+
=

¸
¸
¸
/
2
1
:
12
:
1j
:
21
/
2
2
:
2j

:
j1
:
j2
/
2
j
¸

.
Evidentmente se veri…ca
H = H
+
÷O
2
. (6.9)
6.3.4. Número máximo de factores comunes
El número : de factores comunes está limitado por un valor máximo :
o
,
que podemos determinar teniendo en cuenta que hay j(j÷1)2 correlaciones
diferentes y j : saturaciones. Pero si A es matriz factorial también lo es
AT. donde T es matriz ortogonal, por tanto introduciremos :(: ÷ 1)2
restricciones y el número de parámetros libres de A será j :÷:(:÷1)2.
El número de correlaciones menos el número de parámetros libres es
d = j(j ÷1)2 ÷(j :÷:(:÷1)2) =
1
2
[(j ÷:)
2
÷j ÷:|. (6.10)
Si igualamos d a 0 obtenemos una ecuación de segundo grado que un vez
resuelta nos prueba que
: _ :
o
=
1
2
(2j ÷ 1 ÷

8j ÷ 1).
Un modelo factorial es sobredeterminado si : :
o
. pues hay más satu-
raciones libres que correlaciones. Si : = :
o
el modelo es determinado y
podemos encontrar A algebraicamente a partir de H.
Desde un punto de vista estadístico, el caso más interesante es : < :
o
.
ya que entonces podemos plantear la estimación estadística de A. donde
d 0 juega el papel de número de grados de libertad del modelo. El número
máximo :
+
de factores comunes en función de j es:
j 2 3 4 ò 0 7 8 0 10 20 30 40
:
+
0 1 1 2 3 3 4 ò 0 14 22 31
Asignamos a :
+
el valor entero por defecto cuando :
o
tiene parte fraccionar-
ia.
6.3. EL MODELO MULTIFACTORIAL 93
6.3.5. El caso de Heywood
Una limitación del modelo factorial es que alguna comunalidad puede al-
canzar (algebraicamente) un valor superior a 1, contradiciendo (6.8). Cuan-
do esto ocurre, la solución se ha de interpretar con precaución. En algunos
métodos, como el de la máxima verosimilitud, se resuelve este inconveniente
(primeramente observado por H.B. Heywood) imponiendo la condición /
2
j
_
1 en la estimación de las comunalidades.
6.3.6. Un ejemplo
Las asignaturas clásicas de la enseñanza media, se dividen, en líneas gen-
erales, en asignaturas de Ciencias o de Letras, las primeras con contenido más
racional y empírico, las segundas con contenido más humanístico y artístico.
Consideremos las siguientes 5 asignaturas:
Ciencias Naturales (CNa), Matemáticas (Mat), Francés (Fra), Latín (Lat),
Literatura (Lit). Supongamos que están in‡uidas por dos factores comunes o
variables latentes: Ciencias (C) y Letras (L). En otras palabras, suponemos
que C y L son dos variables no observables, que de manera latente in‡uyen
sobre las cinco asignaturas. Las cali…caciones de : = 20 alumnos en las asig-
naturas y en los factores se encuentran en la Tabla 6.1.
Vamos a suponer que la matriz factorial es
C L
CNa .8 .2
Mat .9 .1
Fra .1 .9
Lla .3 .8
Lit .2 .8
Las dos primeras asignaturas están más in‡uidas por el factor C, y las
tres últimas por el factor L. Por ejemplo, Matemáticas tiene una correlación
de 0.9 con Ciencias y sólo 0.1 con Letras.
La cali…cación del primer alumno en CNa es 7, debida a 7 puntos en
Ciencias y 5 puntos en Letras. Según el modelo factorial:
7 = 0.8 7 ÷ 0.2 ò ÷ 0.4
94 CAPÍTULO 6. ANÁLISIS FACTORIAL
Asignaturas Factores
Alumno CNa Mat Fra Lat Lit
1 7 7 ò ò 0
2 ò ò 0 0 ò
3 ò 0 ò 7 ò
4 0 8 ò 0 0
ò 7 0 0 7 0
0 4 4 0 7 0
7 ò ò ò ò 0
8 ò 0 ò ò ò
0 0 ò 7 0 0
10 0 ò 0 0 0
11 0 7 ò 0 ò
12 ò ò 4 ò 4
13 0 0 0 0 ò
14 8 7 8 8 8
1ò 0 7 ò 0 0
10 4 3 4 4 4
17 0 4 7 8 7
18 0 0 7 7 7
10 0 ò 4 4 4
20 7 7 0 7 0
Ciencias Letras
7 ò
ò 0
0 ò
7 ò
0 0
4 0
ò 0
0 ò
ò 0
ò 0
7 ò
0 4
0 0
7 8
0 ò
3 4
ò 7
0 7
ò 4
7 0
Tabla 6.1: Cali…caciones en 5 asignaturas y puntuaciones en 2 factores co-
munes de 20 alumnos.
CNa Mat Fra Lat Lit
CNa 1 0.0ò0 0.407 0.420 0.ò84
Mat 1 0.000 0.230 0.317
Fra 1 0.813 0.841
Lat 1 0.700
Lit 1
Tabla 6.2: Matriz de correlaciones para las cali…caciones en 5 asignaturas.
6.4. TEOREMAS FUNDAMENTALES 95
De los 7 puntos, 5.6 se explican por el factor común C, 1 punto por el factor
común L y 0.4 punts por el factor único. Este factor único representa la
variabilidad propia de las CNa, independente de los conceptos C y L.
Las comunalidades son:
/
2
1
= 0.08. /
2
2
= 0.82. /
2
3
= 0.82. /
2
4
= 0.73. /
2
5
= 0.08.
Los porcentajes de la variabilidad explicada por los factores comunes y las
comunalidades son:
Factor C Factor L Comunalidades
C. Naturales 64 4 68
Matemáticas 81 1 82
Francés 1 81 82
Latín 9 64 73
Literatura 4 64 68
6.4. Teoremas fundamentales
El primer teorema, conocido como teorema de Thurstone, permite rela-
cionar la matriz factorial con la matriz de correlaciones, o más exactamente,
con la matriz de correlaciones reducida. El segundo teorema permite de-
terminar, teóricamente, el número de factores comunes y los valores de las
comunalidades.
Teorema 6.4.1 Bajo las hipòtesis del modelo factorial lineal se veri…ca
:
j;
=
¸
n
I=1
c
jI
c
;I
. i = , = 1. . . . . j.
1 =
¸
n
I=1
c
2
jI
÷d
2
j
. i = 1. . . . . j.
En notación matricial
H = AA
t
÷O
2
. (6.11)
Demost.: Al ser las variables reducidas, H =1(XX
t
) y de (6.6)
H = 1((AF ÷Ol)(AF ÷Ol)
t
)
= A1(FF
t
)A
t
÷O1(ll
t
)O
t
÷ 2A1(Fl
t
)O.
Por las condiciones de incorrelación entre factores tenemos que 1(FF
t
) = I
n
.
1(ll
t
) = I
j
. 1(Fl
t
) = 0. lo que prueba (6.11).
96 CAPÍTULO 6. ANÁLISIS FACTORIAL
De (6.9) vemos inmediatamente que
H
+
= AA
t
. (6.12)
Una solución factorial viene dada por cualquier matriz A que cumpla la
relación (6.12). Así pues, si : 1. existen in…nitas soluciones, pues si A es
solución, también lo es AT, siendo T una matriz :: ortogonal. Por otro
lado, (6.11) o (6.12) tampoco resuelven completamente el problema, ya que
desconocemos las comunalidades. La obtención de las comunalidades está
muy ligada al número de factores comunes.
Teorema 6.4.2 Se veri…ca:
1. El modelo factorial existe si H es la suma de una matriz semide…nida
positiva y una matriz diagonal con elementos no negativos.
2. El número : de factores comunes es el rango de la matriz H
+
. Por
lo tanto : es el orden del más grande menor de H que no contiene
elementos de la diagonal.
3. Les comunalidades son aquellos valores 0 _ /
2
j
_ 1 tales que H
+
es
matriz semi-de…nida positiva (tiene : valores propios positivos).
Demost.: Es una consecuencia de la relación (6.12) entre H
+
y A. El mayor
menor de Hquiere decir la submatriz cuadrada con determinante no negativo,
que no contenga elementos de la diagonal.
Hemos visto que a partir de H podemos encontrar :, pero la solución no
es única. El principio de parsimonia en AF dice que entre varias soluciones
admisibles, escogeremos la que sea más simple. El modelo factorial será pues
aquel que implique un número mínimo : de factores comunes. Fijado :, las
comunalidades se pueden encontrar, algebraicamente, a partir de la matriz
de correlaciones H. En la práctica, las comunalidades se hallan aplicando
métodos estadísticos.
Finalmente, podemos probar de manera análoga, que si el análisis fac-
torial lo planteamos a partir de la matriz de covarianzas X. sin suponer las
variables reducidas, aunque sí los factores, entonces obtenemos la estructura
X = AA
t
÷O
2
. (6.13)
6.5. MÉTODO DEL FACTOR PRINCIPAL 97
6.5. Método del factor principal
Es un método de obtención de la matriz factorial con la propiedad de que
los factores expliquen máxima varianza y sean incorrelacionados.
La variabilidad total de las variables, que suponemos reducidas, es j. La
variabilidad de la variable A
j
explicada por el factor 1
;
es c
2
j;
. La suma de
variabilidades explicadas por 1
;
es
\
;
= c
2
1;
÷ ÷c
2
j;
.
El primer factor principal 1
1
es tal que \
1
es máximo. Consideremos pues
el problema de maximizar \
1
con la restricción H
+
= AA
t
. Utilizando el
método de los multiplicadores de Lagrange debemos considerar la función
\
1
÷
j
¸
;.;
0
=1
¡
;;
0 (:
;;
0 ÷
n
¸
I=1
c
;I
c
;
0
I
).
donde ¡
;;
0 = ¡
;
0
;
són los multiplicadores. Igualando las derivadas a cero se
obtiene que las saturaciones a
1
= (c
11
. . . . . c
j1
)
t
del primer factor principal
veri…can
H
+
a
1
= \
1
a
1
.
es decir, a
1
es el primer vector propio de H
+
y \
1
es el primer valor propio.
El valor máximo de \
1
es precisamente \
1
.
Si ahora restamos del modelo factorial el primer factor
A
t
j
= A
j
÷c
j1
1
1
= c
j2
1
2
÷ ÷c
jn
1
n
÷d
j
l
j
.
el modelo resultante contiene :÷1 factores. Aplicando de nuevo el criterio
del factor principal al modelo vemos que las saturaciones a
2
= (c
12
. . . . . c
j2
)
t
tales que la variabilidad explicada por el segundo factor
\
2
= c
2
12
÷ ÷c
2
j2
.
sea máxima, corresponende al segundo vector propio de H
+
con valor propio
\
2
. que es precisament el valor máximo de \
2
.
En general, si H
+
= lAl
t
es la descomposición espectral de H
+
. la
solución del factor principal es
A = lA
1/2
.
98 CAPÍTULO 6. ANÁLISIS FACTORIAL
Fijado un valor compatible de :, un algoritmo iterativo de obtención de
la matriz factorial y de las comunalidades es:
Paso 1 H = lAl
t
(j valores y vectores propios)
Paso 2 H
1
= l
(1)
n
A
(1)
n
l
(1)t
n
(: primeros valores y vectores propios)
Paso i H
j
= l
(j)
n
A
(j)
n
l
(j)t
n
.
A
j
= l
(j)
n
(A
(j)
n
)
1/2
Paso i+1 H
j+1
=diag(A
j
A
t
j
) ÷H÷I (volver al paso i)
La matriz A
j
converge a la matriz factorial A. Como criterio de conver-
gencia podemos considerar la estabilidad de las comunalidades. Pararemos si
pasando de i a i ÷1 los valores de las comunalidades, es decir, los valores en
diag(A
j
A
t
j
). prácticamente no varían. Esta refactorización podria fallar si se
presenta el caso de Heywood o H no satisface el modelo factorial (6.11).
Ejemplo: Volviendo al ejemplo de las asignaturas, la solución por el
método del factor principal encuentra dos factores que explican el 74.6 % de
la varianza:
1
1
1
2
C. Naturales .621 -.543
Matemáticas .596 -.682
Francés .796 .432
Latín .828 .210
Literatura .771 .292
Valor propio 2.654 1.076
Porcentaje 53.08 21.52
6.6. Método de la máxima verosimilitud
6.6.1. Estimación de la matriz factorial
Podemos plantear la obtención de la matriz factorial como un problema
de estimación de la matriz de covarianzas ¯. con la restricción que ¯ se
descompone en la forma
¯ = AA
t
÷Y.
donde Y = O
2
es una matriz diagonal (véase (6.13)). Si suponemos que las
: observaciones de las j variables provienen de una distribución normal con
6.6. MÉTODO DE LA MÁXIMA VEROSIMILITUD 99
µ = 0. el logaritmo de la función de verosimilitud es
log 1(X.j. ¯) = ÷
:
2
(log [2:¯[ ÷t:(¯
÷1
S)).
Cambiando de signo y modi…cando algunas constantes, se trata de estimar
A y Y de manera que
1
j
(A. Y) =log [¯[ ÷t:(¯
÷1
S)÷log [S[÷j (6.14)
sea mínimo, siendo S la matriz de covarianzas muestrales. Las derivadas
respecto de A y Y son
·1
j
·¹
= 2¯
÷1
(¯ ÷o)¯
÷1
A.
·1
j
·\
= diag(¯
÷1
(¯ ÷o)¯
÷1
).
Por tanto, las ecuaciones a resolver para obtener estimaciones de A y Y son
¯
÷1
(¯ ÷o)¯
÷1
A = 0. diag(¯
÷1
(¯ ÷o)¯
÷1
) = 0.
¯ = AA
t
÷Y. A
t
Y
÷1
A es diagonal.
(6.15)
La última condición es sólo una restricción para concretar una solución,
puesto que si A es solución, també lo es AT, siendo T matriz ortogonal.
Debe tenerse en cuenta que se trata de encontrar el espacio de los factores
comunes. La solución …nal será, en la práctica, una rotación de la solución que
veri…que ciertos criterios de simplicidad. Las ecuaciones (6.15) no proporcio-
nan una solución explícita, pero es posible encontrar una solución utilizando
un método numérico iterativo.
6.6.2. Hipótesis sobre el número de factores
Una ventaja del método de la máxima verosimilitud es que permite for-
mular un test de hipótesis sobre la estructura factorial de ¯ y el número :
de factores comunes.
Planteemos el test
H
0
: ¯ = AA
t
÷Y vs H
1
: ¯ es de…nida positiva,
donde A es de rango :.
100 CAPÍTULO 6. ANÁLISIS FACTORIAL
Si
´
¯ =
´
A
´
A
t
÷
´
Y. siendo
´
Ay
´
Ylas estimaciones, los máximos del logaritmo
de la razón de verosimilitud son (Sección 5.4.2)
H
0
: ÷
a
2
(log [
´
¯[ ÷ tr(
´
¯
÷1
S)).
H
1
: ÷
a
2
(log [S[ ÷j).
Aplicando el Teorema 3.5.1 tenemos que el estadístico
(
I
= :(log [
´
¯[ ÷log [S[ ÷ tr(
´
¯
÷1
S)÷j) = :1
j
(
´
A.
´
Y)
sigue asinptóticamente la distribución ji-cuadrado con
/ = j(j ÷1)2 ÷(j :÷j ÷:(:÷1)2) =
1
2
((j ÷:)
2
÷j ÷:)
grados de libertad. Podemos observar que (
I
es : veces el valor mínimo de
la función (6.14) y que / coincide con (6.10).
6.7. Rotaciones de factores
La obtención de la matriz factorial, por aplicación de los dos métodos
que hemos expuesto, no es más que el primer paso del AF. Normalmente
la matriz obtenida no de…ne unos factores interpretables. En el ejemplo de
las asignaturas, la solución por el método del factor principal es en principio
válida, pero de…ne dos factores comunes 1
1
. 1
2
que no son fácilmente identi-
…cables. Se hace necesario “rotar” estos dos factores hacia unos factores más
fáciles de interpretar.
Se han propuesto diferentes versiones sobre como transformar la matriz
factorial a …n de obtener una estructura simple de los factores. Esencialmente
se trata de conseguir que unas saturaciones sean altas a costa de otras, que
serán bajas, para así destacar la in‡uencia de los factores comunes sobre las
variables observables.
6.7.1. Rotaciones ortogonales
Dada una matriz factorial A. queremos encontrar una matriz ortogonal
T tal que la nueva matriz factorial H = AT de…na unos factores que tengan
una estructura más simple. Un criterio analítico considera la función
G =
n
¸
I=1
n
¸
I,=;=1
[
j
¸
j=1
c
2
j;
c
2
jI
÷

j
j
¸
j=1
c
2
j;
j
¸
j=1
c
2
jI
|. (6.16)
6.7. ROTACIONES DE FACTORES 101
donde es un parámetro tal que 0 _ _ 1. Hay dos criterios especialmente
interesantes.
Quartimax: Si = 0 minimizar G equivale a maximizar la varianza de
los cuadrados de los j : coe…cientes de saturación. Si cada saturación c
2
j;
se
divide por la comunalidad, es decir, se considera c
2
j;
/
2
j
. la rotación se llama
quartimax normalizada.
Varimax: Si = 1 minimizar G equivale a maximizar la suma de las
varianzas de los cuadrados de los coe…cientes de saturación de cada columna
de A. Análogamente si consideramos c
2
j;
/
2
j
. la rotación se llama varimax
normalizada.
6.7.2. Factores oblicuos
Los factores comunes pueden estar también correlacionados, y entonces
se habla del modelo factorial oblícuo. Este modelo postula que las variables
observables dependen de unos factores correlacionados 1
t
1
. . . . . 1
t
n
y de j
factores únicos. Así para cada variable A
j
A
j
= j
j1
1
t
1
÷ ÷j
jn
1
t
n
÷d
j
l
j
. i = 1. . . . . j. (6.17)
La solución factorial oblicua consistirá en hallar las siguientes matrices:
1. Matriz del modelo factorial oblícuo
I =(j
j;
)
siendo j
j;
la saturación de la variable A
j
en el factor 1
t
;
.
2. Matriz de correlaciones entre factores oblícuos
d = (.
j;
) siendo .
j;
= cor(1
t
j
. 1
t
;
).
3. Estructura factorial oblicua (estructura de referencia)
O =(¡
j;
) siendo ¡
j;
= cor(A
j
. 1
t
;
).
Si indicamos F
0
= (1
t
1
. . . . . 1
t
n
)
t
y escribimos el modelo (6.17) en forma
matricial
X = IF
0
÷Ol.
102 CAPÍTULO 6. ANÁLISIS FACTORIAL
fácilmente probamos la relación entre las tres matrices I. d y O
O = Id.
y la versión del teorema de Thurstone para factores correlacionados
H = IdI
t
÷O
2
.
Si los factores son ortogonales, el modelo factorial coincide con la estructura
factorial y tenemos que
I = O. d = I
n
.
6.7.3. Rotación oblicua
Ya se ha dicho que hallar una matriz factorial A constituye el primer paso
de la factorización. Queremos encontrar una matriz L tal que la nueva matriz
factorial I = AL de…na unos factores oblicuos que tengan una estructura
más simple. Un criterio analítico sobre la matriz de estructura factorial O
considera la función
H =
n
¸
I=1
¸
I,=;=1
[
j
¸
j=1
¡
2
j;
¡
2
jI
÷

j
j
¸
j=1
¡
2
j;
j
¸
j=1
¡
2
jI
|
donde es un parámetro tal que 0 _ _ 1. Hay tres criterios especial-
mente interesantes, que tienen una interpretación parecida al caso ortogonal
y que también se pueden formular, más adecuadamente, dividiendo por las
comunalidades.
Quartimin: Si = 0 hay máxima oblicuidad entre los factores comunes.
Bi-quartimin: Si = 12 el criterio es intermedio entre quartimin y co-
varimin.
Covarimin: Si = 1 hay mínima oblicuidad entre los factores comunes.
Conviene tener en cuenta que las rotaciones ortogonales y oblícuas in-
tentan simpli…car la estructura factorial A y la estructura de referencia O.
respectivamente.
Un criterio directo de rotación oblicua es el promax. Sea A la matriz fac-
torial obtenida por el método varimax. Queremos destacar unas saturaciones
sobre otras, por tanto de…nimos I
+
= (j
+
j;
) tal que
j
+
j;
= [c
I+1
j;
[c
j;
. / 1.
6.7. ROTACIONES DE FACTORES 103
siendo / un número entero.
Cada elemento de Aqueda elevado a una potencia / conservando el signo.
Seguidamente ajustamos I
+
a AL en el sentido de los mínimos cuadrados
L = (A
t
A)
÷1
A
t
I
+
.
Es necesario normalizar la matriz L de manera que los vectores columna de
T = (L
t
)
÷1
tengan módulo unidad. Obtenemos entonces
I = AL. d = T
t
T. O = AT.
El grado de oblicuidad de los factores comunes aumenta con /. Se suele tomar
/ = 4.
Ejemplo: Continuando con el ejemplo de las 5 asignaturas, la estimación
máximo verosímil y la matriz factorial rotada son:
Máxim veros. Varimax Comun.
CNa
Mat
Fra
Lat
Lit
F
1
F
2
.659 .432
.999 .005
.104 .974
.234 .809
.327 .831
C L
.636 .464
.999 .046
.055 .978
.193 .820
.280 .847
.62
.99
.96
.71
.79
El test de hipótesis de que hay : = 2 factores comunes da .
2
1
= 1.22.
no signi…cativo. Podemos aceptar : = 2. La rotación varimax pone de man-
i…esto la existencia de dos factores (. 1, que podemos interpretar como di-
mensiones latentes de Ciencias y Letras.
La rotación oblicua promax con / = 4 da las matrices I. O. d :
Modelo factorial Estruct. factorial Correlaciones factores
CNa
Mat
Fra
Lla
Lit
( 1
.570 .375
1.04 -.135
-.150 1.024
.028 .831
.114 .844
( 1
.706 .581
.992 .242
.221 .970
.330 .842
.420 .885

1 .302
.302 1

La Figura 6.1 representa los factores ortogonales iniciales F
1
y F
2
, dibu-
jados como vectores unitarios, y los factores oblícuos C y L. Las variables
tienen una longitud proporcional a la raíz cuadrada de sus comunalidades.
104 CAPÍTULO 6. ANÁLISIS FACTORIAL
Figura 6.1: Proyección de las variables sobre los factors comunes ortogonals, y
factores rotados (rotación promax), interpretados como factores de Ciencias
y Letras.
6.7.4. Factores de segundo orden
Un vez hemos obtenido los factores oblícuos con matriz de correlaciones
d. podemos suponer que estos : factores primarios dependen de :
t
factores
secundarios de acuerdo con una matriz factorial H que veri…ca
d = HH
t
÷E
2
.
siendo E la matriz :: diagonal.
Si los factores secundarios son también oblicuos, el proceso de factor-
ización puede continuar hasta llegar a un único factor común de orden supe-
rior.
Un ejemplo de aplicación nos lo proporciona la teoria clásica de la estruc-
tura factorial de la inteligencia. Los tests de aptitud dependen de un conjunto
elevado de factores primarios, que dependen de un conjunto de 7 factores se-
cundarios (verbal, numérico, espacial, razonamiento, memoria, percepción,
psicomotores), que a su vez dependen de un factor general “g” (el factor “g”
de Spearman), que sintetiza el hecho de que todas las aptitudes mentales
están correlacionadas.
6.8. MEDICIÓN DE FACTORES 105
6.8. Medición de factores
Sea x = (r
1
. . . . . r
j
)
t
los valores de las j variables observables obtenidas
sobre un individuo .. Nos planteamos ahora “medir los factores”, es decir,
encontrar los valores f = (1
1
. . . . . 1
n
)
t
de los factores comunes sobre .. Se
veri…ca
x = Af ÷Ou. (6.18)
siendo u = (n
1
. . . . n
j
)
t
los valores de las unicidades.
Si interpretamos (6.18) como un modelo lineal, donde x es el vector de
observaciones, Aes la matriz de diseño, f es el vector de parámetros y o = Ou
es el término de errror, el criterio de los mínimos cuadrados (véase (13.4))
nos da
f = (A
t
A)
÷1
A
t
x.
Un método más elaborado (propuesto por M. S. Bartlett) considera que
f es función lineal de x y que los valores de los factores únicos
u = O
÷1
(x ÷Af )
son términos de error. Si queremos minimizar
u
t
u = n
2
1
÷ ÷n
2
j
.
expresando (6.18) como O
÷1
x = O
÷1
Af ÷u. es fácil ver que
f = (A
t
O
÷2
A)
÷1
A
t
O
÷2
x.
Una modi…cación de este método (propuesta por T. W. Anderson y H.
Rubin) consiste en añadir la condición de que los factores comunes estimados
estén incorrelacionados. La solución que resulta es
f = H
÷1
A
t
O
÷2
x.
siendo H
2
= A
t
O
÷2
HO
÷2
A.
Ejemplo: Continuando con el ejemplo de las 5 asignaturas, las cali…ca-
ciones en las asignatures de los 4 primeros alumnos (Tabla 6.1) y las pun-
tuaciones (Anderson-Rubin) en los factores ( y 1. obtenidos con la rotación
varimax, son:
Alumno CNa Mat Fra Lat Lit C L
1 7 7 5 5 6 1.06 -.559
2 5 5 6 6 5 -.568 .242
3 5 6 5 7 5 .259 -.505
4 6 8 5 6 6 1.85 -.614
106 CAPÍTULO 6. ANÁLISIS FACTORIAL
Teniendo en cuenta que los factores comunes son variables estandarizadas,
el primer alumno tiene una nota relativamente alta en Ciencias y una nota
algo por debajo de la media en Letras.
6.9. Análisis factorial con…rmatorio
Los métodos del factor principal y de la máxima verosimilitud son ex-
ploratorios, en el sentido de que exploran las dimensiones latentes de las
variables. El AF también se puede plantear en sentido con…rmatorio, es-
tableciendo una estructura factorial de acuerdo con el problema objeto de
estudio, y seguidamente aceptando o rechazando esta estructura mediante
un test de hipótesis. Por ejemplo, podemos considerar que la matriz factorial
en el ejemplo de las 5 asignaturas es
C L
CNa 1 0
Mat 1 0
Fra 0 1
Lla 0 1
Lit 0 1
interpretando que las dos primeras sólo dependen del factor Ciencias y las
otras tres del factor Letras. Entonces podemos realizar una transformación
de la matriz factorial inicial para ajustarnos a la matriz anterior.
Si la solución inicial es A. postulamos una estructura H y deseamos en-
contrar T ortogonal tal que AT se aproxime a H en el sentido de los mínimos
cuadrados
tr(H÷AT)
2
= mínimo,
entonces la solución es T = lY
t
. siendo A
t
H = lAY
t
la descomposición
singular de A
t
H. Si T no es ortogonal y por lo tanto se admite una estruc-
tura oblicua, entonces T se obtiene siguiendo un procedimiento parecido a
la rotación promax
T = (A
t
A)
÷1
A
t
H.
però normalizando a módulo 1 los vectores columna de T.
Más generalmente, en AF con…rmatorio se especi…ca el número de factores
comunes, el tipo ortogonal u oblicuo de la solución, y los valores libres o …jos
de las saturaciones.
6.9. ANÁLISIS FACTORIAL CONFIRMATORIO 107
Ejemplo: Un AF con…rmatorio sobre 9 tests (estudiado por K. Joreskog)
obtiene siete soluciones con…rmatorias. De los 9 tests considerados, los tests
1,2,3 miden relaciones espaciales, los tests 4,5,6 inteligencia verbal y los tests
7,8,9 velocidad de percepción. La matriz de correlaciones es:
1 2 3 4 5 6 7 8 9
1 1 .318 .468 .335 .304 .326 .116 .314 .489
2 1 .230 .234 .157 .195 .057 .145 .139
3 1 .327 .335 .325 .099 .160 .327
4 1 .722 .714 .203 .095 .309
5 1 .685 .246 .181 .345
6 1 .170 .113 .280
7 1 .585 .408
8 1 .512
9 1
Sólo comentaremos tres soluciones. La primera solución es oblicua no
restringida, y se puede aceptar, puesto que la ji-cuadrado del ajuste no es
signi…cativa.
I d Comun.
.71 .00 .00 .50
.54 -.03 -.08 .26
.67 .04 -.09 .46
.00 .87 .00 1 .76
-.03 .81 .13 .54 1 .70
.01 .82 -.01 .24 .28 1 .68
.00 .00 .78 .61
.42 -.30 .73 .68
.56 -.06 .41 .54
.
2
12
= 0.77
j = 0.04
La segunda solución es oblicua restringida. Se impone la condición de que
los tres primeros tests correlacionen sólo con el primer factor, los tres sigu-
ientes sólo con el segundo y los tres últimos sólo con el tercero. No obstante,
el valor ji-cuadrado es signi…cativo y esta solución no debería aceptarse.
108 CAPÍTULO 6. ANÁLISIS FACTORIAL
I d Comun.
.68 .00 .00 .46
.52 .00 .00 .27
.69 .00 .00 .48
.00 .87 .00 1 .77
.00 .83 .00 .54 1 .69
.00 .83 .00 .52 .34 1 .69
.00 .00 .66 .43
.00 .00 .80 .63
.00 .00 .70 .49
.
2
24
= ò1.10
j = 0.001
La tercera solución es ortogonal no restringida, con un factor general y
tres factores especí…cos, en el sentido que el primero no correlaciona con la
variable 4, el segundo no correlaciona con las variables 1 y 7 y el tercero
no correlaciona con 1,2 y 4. El valor ji-cuadrado indica que esta solución es
aceptable.
I d Comun.
.38 .58 .00 .00 .48
.24 .41 .35 .00 .37
.38 .53 .30 -.03 1 .52
.87 .00 .03 .00 .00 1 .75
.83 .01 -.13 .06 .00 .00 1 .72
.83 .01 .04 -.02 .00 .00 .00 1 .68
.24 .02 .00 .95 .95
.15 .43 -.13 .57 .56
.36 .59 -.22 .34 .64
.
2
6
= 2.7ò
j = 0.84
6.10. Complementos
Constituyen dos precedentes del Análisis Factorial el concepto de fac-
tor latente de F. Galton y de eje principal de K. Pearson. El primer trabajo,
publicado en 1904, por Ch. Spearman (Spearman, 1904) desarrolla una teoría
de la inteligencia alrededor de un factor común, el factor “g”. Esta teoría,
6.10. COMPLEMENTOS 109
que ordenaba la inteligencia de los individuos a lo largo de una sola dimen-
sión, fue defendida por C. Burt, con consecuencias sociológicas importantes,
pues proporcionó una base cientí…ca para …nanciar las escuelas privadas en
detrimento de otras.
El Análisis Factorial moderno se inicia con la obra “Multiple Factor
Analysis” de L.L. Thurstone, que postulaba más de un factor común, intro-
ducía la estructura simple y las rotaciones de factores. A partir de Thurstone
la medida de la inteligencia era más “democrática”, ya que poseía varias di-
mensiones latentes, quedando sin sentido una ordenación de los individuos,
que si en una dimensión era posible hacerlo, en varias dimensiones no. Había
una polémica similar sobre la personalidad. La teoria psicoanalítica defendía
una continuidad entre la personalidad neurótica y la psicótica, mientras que
el AF revela que neurosis y psicosis son dimensiones independientes.
Los modelos y métodos de Spearman, Burt, Thurstone y otros (Holzinger,
Harman y Horst), son ya historia. Los métodos actuales para obtener la
matriz factorial son: factor principal, análisis factorial canónico (C.R. Rao),
método Alfa (H.F. Kaiser, J. Ca¤rey) y el método de la máxima verosimilitud
(D.N. Lawley, K.G. Joreskog). Véase Joreskog (1967).
El método varimax de rotación ortogonal de Kaiser es uno de los más
recomendados. J.B. Carroll introdujo la rotación oblicua quartimin y A.E.
Hendrickson y P.O. White la promax. Anderson y Rubin (1956) publicaron
un excelente trabajo sobre AF, tratando todo los aspectos algebraicos y es-
tadísticos del tema. Véase Harman (1976), Torrens-Ibern (1972).
El estudio de las dimensiones latentes es un tema presente en la ciencia
y siempre ha despertado interés. C. R. Rao demostró que si conocemos la
distribución de / combinaciones lineales de j variables independientes, siendo
/(/ ÷ 1)2 < j _ /(/ ÷ 1)2. entonces la distribución de cada una de las
j variables queda determinada (salvo la media o parámetro de localización).
Por ejemplo, si tenemos j = 210 variables independientes bastaría conocer
la distribución de / = 20 combinaciones lineales adecuadas para determinar
la distribución de las 210 variables. Este resultado proporciona una cierta
justi…cación teórica acerca del hecho que la información multivariante posee
una dimensionalidad latente mucho más pequeña.
La etapa inicial del AF (hasta 1966), era exploratoria, como una her-
ramienta para explorar la dimensionalidad latente de las variables. Más tarde,
el análisis factorial se ha entendido en sentido con…rmatorio (Joreskog, Law-
ley, Maxwell, Mulaik), estableciendo una estructura factorial de acuerdo con
el problema, y seguidamente aceptando o rechazando esta estructura medi-
110 CAPÍTULO 6. ANÁLISIS FACTORIAL
ante un test de hipótesis (Joreskog, 1969, 1970). Consúltese Cuadras (1981).
Se han llevado a cabo muchas aplicaciones del AF. Citaremos tres, las
dos primeras sobre AF exploratorio y la tercera sobre AF con…rmatorio.
Rummel (1963) estudia 22 medidas de los con‡ictos de 77 naciones y en-
cuentra tres dimensiones latentes, que identi…ca como: agitación, revolución
y subversión, y ordena las naciones según las puntuaciones en los factors
comunes.
Sánchez-Turet y Cuadras (1972) adaptan el cuestionario E.P.I. de person-
alidad (Eysenck Personality Inventory) y sobre un test de 69 ítems (algunos
ítems detectan mentiras) encuentran tres factores: Introversión-Extroversión,
Estabilidad-Inestabilidad, Escala de mentiras.
Joreskog (1969) explica un ejemplo de AF con…rmatorio sobre 9 tests,
previamente estudiado por Anderson y Rubin. Véase la Sección 6.9.
Finalmente, el Análisis de Estructuras Covariantes es una generalización
del AF, que uni…ca este método con otras técnicas multivariantes (MANOVA,
análisis de componentes de la varianza, análisis de caminos, modelos simplex
y circumplexos, etc.). Se supone que la estructura general para la matriz de
covarianzas es
¯ = H(IdI
t
÷O
2
)H
t
÷ O
2
.
Otra generalización es el llamado modelo LISREL (Linear Structural Re-
lationship), que permite relacionar un grupo de variables dependientes ¥
con un grupo de variables independientes X. que dependen de unas vari-
ables latentes a través de un modelo de medida. Las variables latentes están
relacionadas por un modelo de ecuaciones estructurales. LISREL (Joreskog
y Sorbom, 1999) es muy ‡exible y tiene muchas aplicaciones (sociología, psi-
cología, economía). Véase Satorra (1989), Batista y Coenders (2000).
Capítulo 7
ANALISIS CANONICO DE
POBLACIONES
7.1. Introducción
Con el Análisis de Componentes Principales podemos representar los indi-
viduos de una población, es decir, representar una única matriz de datos. Pero
si tenemos varias matrices de datos, como resultado de observar las variables
sobre varias poblaciones, y lo que queremos es representar las poblaciones,
entonces la técnica adecuada es el Análisis Canónico de Poblaciones (CANP).
Supongamos que de la observación de j variables cuantitativas A
1
. . . . . A
j
sobre o poblaciones obtenemos o matrices de datos
X =

¸
¸
¸
¸
X
1
X
2
.
.
.
X
j
¸

:
1
j
:
2
j
.
.
.
:
j
j
donde X
j
es la matriz :
j
j de la población i. Sean x
t
1
.x
t
2
. . . . .x
t
j
los vectores
(…la) de las medias de cada población. X es de orden : j, siendo : =
¸
j
j=1
:
j
. Indiquemos
X=

¸
¸
¸
¸
x
t
1
÷x
t
x
t
2
÷x
t
.
.
.
x
t
j
÷x
t
¸

111
112 CAPÍTULO 7. ANALISIS CANONICO DE POBLACIONES
la matriz o j con las medias de las o poblaciones. Tenemos dos maneras de
cuanti…car matricialmente la dispersión entre las poblaciones:
La matriz de dispersión no ponderada entre grupos
A =X
t
X =
j
¸
j=1
(x
j
÷x)(x
j
÷x)
t
.
La matriz de dispersión ponderada entre grupos
H =
j
¸
j=1
:
j
(x
j
÷x)(x
j
÷x)
t
.
La matriz A es proporcional a una matriz de covarianzas tomando como
datos sólo las medias de las poblaciones. La matriz H participa, juntamente
con V (matriz de dispersión dentro de grupos) en el test de comparación
de medias de o poblaciones. Aquí trabajaremos con la matriz A, si bien los
resultados serían parecidos si utilizáramos la matriz H. También haremos uso
de la matriz de covarianzas (véase (3.2)):
S =
1
: ÷o
j
¸
j=1
:
j
S
j
.
Entonces A =X
t
X juega el papel de matriz de covarianzas “entre” las pobla-
ciones, S juega el papel de matriz de covarianzas “dentro” de las poblaciones.
7.2. Variables canónicas
De…nición 7.2.1 Sean Y = [v
1
. . . . . v
j
| los vectores propios de A =X
t
X re-
specto de S con valores propios \
1
\
j
, es decir,
Av
j
= \
j
S
j
v
j
.
normalizados según
v
t
j
S
j
v
j
= 1.
Los vectores v
1
. . . . . v
j
son los vectores canónicos y las variables canónicas
son las variables compuestas
)
j
= Xv
j
.
7.2. VARIABLES CANÓNICAS 113
Si v
j
= (·
1j
. . . . . ·
jj
)
t
y X = [A
1
. . . . . A
j
|. la variable canónica )
j
es la
variable compuesta
)
j
= Xv
j
= ·
1j
A
1
÷ ÷·
jj
A
j
que tiene o-varianza 1 y ¹÷varianza \
j
. es decir:
var
¹
()
j
) = v
t
j
Av
j
= \
j
. var
S
()
j
) = v
t
j
S
j
v
j
= 1.
Trabajaremos con j variables canónicas, pero de hecho el número efectivo es
/ = m´in¦j. o ÷1¦. ver Sección 7.5.3.
Teorema 7.2.1 Las variables canónicas veri…can:
1. Son incorrelacionadas dos a dos respecto a A y también respecto a S
cov
¹
()
j
. )
;
) = cov
S
()
j
. )
;
) = 0 :i i = ,.
2. Las ¹-varianzas son respectivamente máximas:
var
¹
()
1
) = \
1
var
¹
()
j
) = \
j
.
en el sentido de que )
1
es la variable con máxima varianza entre grupos,
condicionada a varianza 1 dentro grupos, )
2
es la variable con máxima
varianza entre grupos, condicionada a estar incorrelacionada con )
1
y
tener varianza 1 dentro grupos, etc.
Demost.: Supongamos \
1
\
j
0. Probemos que las variables )
j
=
Xt
j
. i = 1. . . . . j. están incorrelacionadas:
cov
¹
()
j
. )
;
) = t
t
j
At
;
= t
t
j
S\
;
t
;
= \
;
t
t
j
St
;
.
cov
¹
()
;
. )
j
) = t
t
;
At
j
= t
t
;
S\
;
t
j
= \
j
t
t
;
St
j
.
= (\
;
÷ \
j
)t
t
j
St
;
= 0 = t
t
j
St
;
= 0 = cov
¹
()
j
. )
;
) = \
;
t
t
j
St
;
=
cov
¹
()
j
. )
;
) = 0. si i = ,. Además, de t
t
j
St
;
= 1:
var
¹
()
j
) = \
j
t
t
j
St
;
= \
j
.
Sea ahora ) =
¸
j
j=1
c
j
A
j
=
¸
j
j=1
c
j
)
j
una variable compuesta tal que
var
S
() ) =
¸
j
j=1
c
2
j
var
S
()
j
) =
¸
j
j=1
c
2
j
= 1. Entonces:
var
¹
() ) = var
¹
(
j
¸
j=1
c
j
)
j
) =
j
¸
j=1
c
2
j
var
¹
()
j
) =
j
¸
j=1
c
2
j
\
j
_ (
j
¸
j=1
c
2
j
)\
1
= var
¹
()
1
).
114 CAPÍTULO 7. ANALISIS CANONICO DE POBLACIONES
que prueba que )
1
tiene máxima varianza entre grupos.
Consideremos a continuación las variables ) incorrelacionadas con )
1
.
que podemos expresar como:
) =
j
¸
j=2

j
)
j
condicionado a
j
¸
j=2

2
j
= 1.
Entonces:
var
¹
() ) = var
¹
(
j
¸
j=2

j
)
j
) =
j
¸
j=2

2
j
var
¹
()
j
) =
j
¸
j=2

2
j
\
j
_ (
j
¸
j=2

2
j
)\
2
= var
¹
()
2
).
y por lo tanto )
2
está incorrelacionada con )
1
y tiene varianza máxima. La
demostración para )
3
. . . . . )
j
es análoga.
7.3. Distancia de Mahalanobis y transforma-
ción canónica
La distancia de Mahalanobis entre dos poblaciones es una medida natural
de la diferencia entre las medias de las poblaciones, pero teniendo en cuenta
las covarianzas. En la Sección 1.9 hemos introducido la distancia entre los
individuos de una misma población. Ahora de…nimos la distancia entre dos
poblaciones cuando hay más de dos poblaciones.
De…nición 7.3.1 Consideremos muestras multivariantes de o poblaciones
con vectores de medias x
1
.x
2
. . . . .x
j
y matriz de covarianzas (común) S. La
distancia (al cuadrado) de Mahalanobis entre las poblaciones i. , es
`
2
(i. ,) = (x
j
÷x
;
)
t
S
÷1
(x
j
÷x
;
).
Si X es la matriz centrada con los vectores de medias y Y = [v
1
. . . . . v
j
|
es la matriz con los vectores canónicos (vectores propios de A =X
t
Xrespecto
de S). la transformación canónica es
¥ =XY.
La matriz ¥ de orden o j contiene las coordenadas canónicas de las o
poblaciones.
7.4. REPRESENTACIÓN CANÓNICA 115
Teorema 7.3.1 La distancia de Mahalanobis entre cada par de poblaciones
i. , coincide con la distancia Euclídea entre las …las i. , de la matriz de co-
ordenadas canónicas ¥. Si v
j
= x
j
Y entonces
d
2
1
(i. ,) = (v
j
÷v
;
)
t
(v
j
÷v
;
) = (x
j
÷x
;
)
t
S
÷1
(x
j
÷x
;
). (7.1)
Demost.: Basta probar que los productos escalares coinciden
v
j
v
t
;
= x
j
S
÷1
x
t
;
==XS
÷1
X
t
= ¥¥
t
.
Sea A =diag(\
1
. . . . . \
j
) la matriz diagonal con los valores propios de A =X
t
X
respecto de S. Entonces
AY = SYA con Y
t
SY = I
j
.
y la transformación canónica es ¥ =XY.
AY = SYA es X
t
XY = SYA, luego S
÷1
X
t
XY = YA y premultiplicando
por X tenemos XS
÷1
X
t
XY = XYA. es decir,
XS
÷1
X
t
¥ = ¥A.
Con lo cual ¥ contiene los vectores propios de XS
÷1
X
t
. luego cumple la
descomposición espectral
XS
÷1
X
t
= ¥A¥
t
suponiendo ¥ ortogonal. Tomando ¥A
1/2
que indicamos también por ¥.
obenemos …nalmente XS
÷1
X
t
= ¥¥
t
.
7.4. Representación canónica
La representación de las o poblaciones mediante las …las de X con la
métrica de Mahalanobis es bastante complicada: la dimensión puede ser
grande y los ejes son oblícuos. En cambio, la representación mediante las
coordenadas canónicas ¥ con la métrica Euclídea se realiza a lo largo de
ejes ortogonales. Si además, tomamos las ¡ primeras coordenadas canónicas
(usualmente ¡ = 2), la representación es totalmente factible y es óptima en
dimensión reducida, en el sentido de que maximiza la variabilidad geométrica
.
116 CAPÍTULO 7. ANALISIS CANONICO DE POBLACIONES
Teorema 7.4.1 La variabilidad geométrica de las distancias de Mahalanobis
entre las poblaciones es proporcional a la suma de los valores propios:
\
A
(X) =
1
2o
2
j
¸
j.;=1
`(i. ,)
2
=
1
o
j
¸
j=1
\
j
. (7.2)
Si ¥ =XY. donde Y, de orden j ¡ es la matriz de la transformación
canónica en dimensión ¡ y
o
2
j;
(¡) = (v
j
÷v
;
)(v
j
÷v
;
)
t
=
o
¸
I=1
(n
jI
÷n
;I
)
2
es la distancia Euclídea (al cuadrado) entre dos …las de ¥. la variabilidad
geométrica en dimensión ¡ _ j es
\
c
(¥)
o
=
1
2o
2
j
¸
j.;=1
o
2
j;
(¡) =
1
o
o
¸
j=1
\
j
.
y esta cantidad es máxima entre todas las transformaciones lineales en di-
mensión ¡.
Demost.: De (5.3) y (7.1)
\
A
(X) =
1
2o
2
j
¸
j.;=1
`(i. ,)
2
=
1
2o
2
j
¸
j.;=1
j
¸
I=1
(n
jI
÷n
;I
)
2
= :
2
1
÷ ÷:
2
j
donde :
2
;
= (
¸
j
j=1
n
2
j;
)o representa la varianza ordinaria de la columna )
;
de ¥. Esta suma de varianzas es
tra(
1
o
¥
t
¥) =
1
o
tra(Y
t
X
t
XY) =
1
o
tra(Y
t
AY) =
1
o
tra(A)
lo que prueba (7.2).
Sea ahora
¯
¥=XT otra transformación de Xtal que T
t
ST = I. Indicando
T = [t
1
. . . . . t
j
|,.la ¹-varianza de la primera columna
¯
)
1
de
¯
¥ es t
t
1
At
1
_
v
t
1
Av
1
= \
1
. Es decir, la varianza ordinaria :
2
(
¯
)
1
) = o
÷1
¯
)
t
1
¯
)
1
= o
÷1
t
t
1
X
t
Xt
1
es máxima para )
1
= Xv
1
. primera columna de ¥. Análogamente se denues-
tra para las demás columnas (segunda, tercera, etc., coordenadas canónicas).
Tenemos pues:
\
c
(
¯
¥)
o
=
o
¸
I=1
:
2
(
¯
)
I
) =
1
o
o
¸
I=1
var
¹
(
¯
)
I
) _ \
c
(¥)
o
=
1
o
o
¸
I=1
\
I
.
7.5. ASPECTOS INFERENCIALES 117
El porcentaje de variabilidad geométrica explicada por las ¡ primeras
coordenadas canónicas es
1
o
= 100
\ (¥)
o
\
A
(X)
= 100
\
1
÷ ÷\
o
\
1
÷ ÷\
j
.
7.5. Aspectos inferenciales
Supongamos ahora que las matrices de datos X
1
. . . . . X
j
provienen de
o poblaciones normales `
j
(j
1
. ¯
1
). . . . . `
j
(j
j
. ¯
j
). Para poder aplicar cor-
rectamente un análisis canónico de poblaciones conviene que los vectores de
medias sean diferentes y que las matrices de covarianzas sean iguales.
7.5.1. Comparación de medias
El test
H
0
: j
1
= j
2
= = j
j
(7.3)
ha sido estudiado en la Sección 3.3.3 y se decide calculando el estadístico
A = [V[[H÷V[ con distribución lambda de Wilks. Si aceptamos H
0
las
medias de las poblaciones son teóricamente iguales y el análisis canónico,
técnica destinada a representar las medias de las poblaciones a lo largo de
ejes canónicos, no tiene razón de ser. Por lo tanto, conviene rechazar H
0
.
7.5.2. Comparación de covarianzas
El test
H
t
0
: ¯
1
= ¯
2
= = ¯
j
se resuelve mediante el test de razón de verosimilitud
\
1
=
[S
1
[
a
1
/2
[S
j
[
ag/2
[S[
a/2
.
donde S
j
es la matriz de covarianzas de las datos de la población i. estimación
máximo verosímil de ¯
j
y
S = (:
1
S
1
÷ ÷:
j
S
j
): = V:
118 CAPÍTULO 7. ANALISIS CANONICO DE POBLACIONES
es la estimación máximo verosímil de ¯. matriz de covarianzas común bajo
H
t
0
. Rechazaremos H
t
0
si el estadístico
÷2 log \
1
= :log [S[ ÷(:
1
log [S
1
[ ÷ ÷:
j
log [S
j
[) ~ .
2
o
es signi…cativo, donde ¡ = oj(j÷1)2÷j(j÷1)2 = (o÷1)j(j÷1)2 son los
grados de libertad de la ji-cuadrado. Si rechazamos H
t
0
, entonces resulta que
no disponemos de unos ejes comunes para representar todas las poblaciones
(la orientación de los ejes viene determinada por la matriz de covarianzas),
y el análisis canónico es teóricamente incorrecto. Conviene pues aceptar H
t
0
.
Este es el llamado test de Bartlett.
Debido a que el test anterior puede ser sesgado, conviene aplicar la cor-
rección de Box,
c (: ÷o) log [S[ ÷((:
1
÷1) log [
´
S
1
[ ÷ ÷ (:
j
÷1) log [
´
S
j
[)
donde
´
S
j
= (:
j
(:
j
÷1))S
j
. y la constante c es
c = [1 ÷(
2j
2
÷ 3j ÷1
0(j ÷ 1)(o ÷1)
)(
j
¸
I=1
1
:
j
÷1
÷
1
: ÷o
)|.
7.5.3. Test de dimensionalidad
Como el rango de A = X
t
X no puede superar ni la dimensión j ni o ÷1.
es obvio que el número efectivo de valores propios es
/ = m´in¦j. o ÷1¦.
Si los vectores de medias poblacionales están en un espacio 1
n
de dimen-
sión : < /. entonces el espacio canónico tiene dimensión : y por lo tanto
debemos aceptar la hipótesis
H
(n)
0
: \
1
\
n
\
n+1
= = \
I
.
donde \
1
\
n
son los valores propios de ^^
t
(la versión poblacional
de A) respecto de ¯. Si
|
1
|
I
son los valores propios de H respecto de V (ver Sección 3.3.3), es decir,
soluciones de
[H÷|V[ = 0.
7.5. ASPECTOS INFERENCIALES 119
entonces un test para decidir H
(n)
0
está basado en el estadístico
/
n
= [: ÷1 ÷
1
2
(j ÷o)|
I
¸
j=n+1
log(1 ÷|
j
) ~ .
2
o
.
donde ¡ = (j÷:)(o ÷:÷1). Este test asintótico, propuesto por Bartlett, se
aplica secuencialmente: si /
0
es signi…cativo, estudiaremos /
1
: si /
1
es también
signi…cativo, estudiaremos /
2
, etc. Si /
0
. . . . . /
n÷1
son signi…cativos pero /
n
no, aceptaremos que la dimensión es :. Obsérvese que aceptar H
(0)
0
equivale a
la hipótesis nula de igualdad de vectores de medias (que entonces coincidirían
en un punto), es decir, equivale a aceptar (7.3).
Otros autores utilizan este test independienmente para cada dimensión.
Así, el test H
0
: \
;
= 0 está basado en el estadístico
c
;
= [: ÷1 ÷
1
2
(j ÷o)| log(1 ÷|
;
) ~ .
2
v
.
donde : = j ÷ o ÷ 2, son los grados de liberdad. Rechazaremos H
0
si c
;
es
signi…cativo.
7.5.4. Regiones con…denciales
Sean v
t
j
= x
t
j
Y.i = 1. . . . . o las proyecciones canónicas de los vectores de
medias muestrales de las poblaciones. Podemos entender v
j
como una esti-
mación de j
+
j
= j
j
\. la proyección canónica del vector de medias poblacional
j
j
. Queremos encontrar regiones con…denciales para j
+
j
. i = 1. . . . . o.
Teorema 7.5.1 Sea 1 ÷ c el coe…ciente de con…anza, 1
c
tal que 1(1
1
c
) = c. donde 1 sigue la distribución F con j y (: ÷ o ÷ j ÷ 1) o.|. y
consideremos:
1
2
c
= 1
c
(: ÷o)j
(: ÷o ÷j ÷ 1)
.
Entonces las proyecciones canónicas j
+
j
de los vectores de medias pobla-
cionales pertenecen a regiones con…denciales que son hiperesferas (esferas
en dimensión 3, círculos en dimensión 2) de centros y radios
(v
j
. 1
c

:
j
).
donde :
j
es el tamaño muestral de la población i.
120 CAPÍTULO 7. ANALISIS CANONICO DE POBLACIONES
Demost.: x
j
÷j
j
es `
j
(0. ¯:
j
) independiente de Vque sigue la distribución
\
j
(¯. : ÷o). Por lo tanto
(: ÷o):
j
(x
j
÷j
j
)
t
V
÷1
(x
j
÷j
j
)
= :
j
(x
j
÷j
j
)S
÷1
(x
j
÷j
j
)
t
~ 1
2
(j. : ÷o).
y como la distribución de Hotelling equivale a una 1, tenemos que
(x
j
÷j
j
)
t
S
÷1
(x
j
÷j
j
) ~
(: ÷o)j
:
j
(: ÷o ÷j ÷ 1)
1
j
a÷j÷j+1
.
Así pues
1[(x
j
÷j
j
)
t
S
÷1
(x
j
÷j
j
) _
1
2
c
:
j
| = 1 ÷c.
que de…ne una región con…dencial hiperelíptica para j
j
con coe…ciente de
con…anza 1 ÷ c. Pero la transformación canónica v
t
j
= x
t
j
Y convierte (x
j
÷
j
j
)
t
S
÷1
(x
j
÷j
j
) en (v
j
÷j
+
j
)
t
(v
j
÷j
+
j
) y por lo tanto
1[(v
j
÷j
+
j
)
t
(v
j
÷j
+
j
) _
1
2
c
:
j
| = 1 ÷c.
Esta transformación convierte además hiperelipses en hiperesferas (elipses
en círculos si la dimensión es 2), ya que las variables canónicas son incorrela-
cionadas, lo que también es válido si reducimos la dimensión (tomamos las
: primeras coordenadas canónicas).
Por ejemplo, si elegimos 1 ÷c = 0.0ò y una representación en dimensión
reducida 2, cada población vendrá representada por un círculo de centro v
j
y radio 1
0.05

:
j
. de manera que el vector de medias proyectado pertenece
al círculo con coe…ciente de con…anza 0.95. La separación entre los centros
indicará diferencias, mientras que si dos círculos se solapan, será indicio de
que las dos poblaciones son posiblemente iguales.
Ejemplo 7.5.1
Se tienen medidas de 5 variables biométricas sobre coleópteros del género
Timarcha de 5 especies encontradas en 8 localidades:
1. T. sinustocollis (Campellas, Pirineos) :
1
= 40.
2. T. sinustocollis (Planollas, Pirineos) :
2
= 40.
3. T. indet (vall de Llauset, Pirineos, Osca) :
3
= 20.
4. T. monserratensis (Collformic, Barcelona) :
4
= 40.
7.5. ASPECTOS INFERENCIALES 121
Figura 7.1: Proyeción canónica de cuatro poblaciones.
5. T. monserratensis (Collfsuspina, Barcelona) :
5
= 40.
6. T. catalaunensis (La Garriga, Barcelona) :
6
= 40.
7. T. balearica (Mahón, Baleares) :
7
= 1ò
8. T. pimeliodes (Palermo, Sicilia) :
8
= 40
Las medidas (en mm.) son:
A
1
= long. prognoto, A
2
=diam. máximo prognoto, A
3
= base prognoto,
A
4
= long. élitros, A
5
= diam. máximo élitros.
Se quiere estudiar si existen diferencias entre las 8 especies y representar-
las mediante la distancia de Mahalanobis. Los resultados del análisis canónico
son:
Matriz de covarianzas común:
S =

¸
¸
¸
¸
¸
3.277 3.240 2.807 ò.òò1 4.281
7.174 0.282 0.210 7.380
0.210 8.282 0.08ò
20.30 13.34
13.27
¸

Test de Bartlett para homogeneidad de la matriz de covarianzas. Ji-
cuadrado = 229.284, con 105 g.l. Signi…cativo al 5 %.
Matriz de dispersión entre grupos:
122 CAPÍTULO 7. ANALISIS CANONICO DE POBLACIONES
H =

¸
¸
¸
¸
¸
0208 11380 8030 22024 17410
21240 1ò370 4270ò 32ò02
11ò28 31000 2347ò
80020 0ò020
40800
¸

~ \
4
(7. ¯)
Matriz de dispersión dentro de grupos:
V =

¸
¸
¸
¸
¸
874.8 807.ò 70ò.4 1482 1142
101ò 1077 24ò8.00 1070
10ò8 2211 1784
ò410 3ò02
3ò41
¸

~ \
5
(207. ¯)
Matriz de dispersión total:
T =

¸
¸
¸
¸
¸
7143 122ò3 8804 24407 18ò02
23104 17047 4ò2ò4 34472
13180 33220 2ò200
02040 00180
ò3432
¸

Test de comparación de medias:
A = [V[ [H÷V[ = 0.0102 ~ A(ò. 207. 7) ÷1 = 02.ò (3ò y 1108 g.l.)
Existen diferencias muy signi…cativas.
Transformación canónica, valores propios y porcentaje acumulado:
v
1
v
2
-.0292 .2896
.5553 .7040
-.6428 -.9326
.1259 -.1326
.1125 .0059
\ 158.64 24.53
% 85.03 98.18
De acuerdo con la Fig. 7.2, las poblaciones 1 y 2 pertenecen claramente
a la misma especie, así como la 4 y 5. Las poblaciones 3 y 6 son especies
próximas, mientras que las 7 y 8 se diferencian mucho de las otras especies.
7.6. COMPLEMENTOS 123
Figura 7.2: Representación canónica de 8 especies de coleópteros.
7.6. Complementos
El Análisis Canónico de Poblaciones (CANP) fué planteado por M.S.
Bartlett en términos de correlación canónica entre las poblaciones y las vari-
ables observables. C. R. Rao lo relacionó con la distancia de Mahalanobis
y lo estudió como una técnica para representar poblaciones. Su difusión es
debido a Seal (1964).
Existen diferentes criterios para obtener la región con…dencial para las
medias de las poblaciones. Aquí hemos seguido un criterio propuesto por
Cuadras (1974). Una formulación que no supone normalidad es debido a
Krzanowski y Radley (1989). A menudo los datos no cumplen la condición
de igualdad de las matrices de covarianzas, aunque el CANP es válido si las
matrices muestrales son relativamente semejantes.
En el CANP, y más adelante en el Análisis Discriminante, interviene la
descomposición T = H÷V. es decir:
j
¸
j=1
a
i
¸
I=1
(x
jI
÷x)(x
jI
÷x)
t
=
j
¸
j=1
:
j
(x
j
÷x)(x
j
÷x)
t
÷
j
¸
j=1
a
i
¸
I=1
(x
jI
÷x
j
)(x
jI
÷x
j
)
t
.
Si los datos provienen de o poblaciones con densidades 1
j
(x), medias y
matrices de covarianzas (j
j
. ¯
j
) y probabilidades j
j
. i = 1. . . . . o. es decir, con
densidad
1(x) =j
1
1
1
(x) ÷ ÷j
j
1
j
(x).
124 CAPÍTULO 7. ANALISIS CANONICO DE POBLACIONES
entonces el vector de medias correspondiente a 1 es
j=j
1
j
1
÷ ÷j
j
j
j
.
y la matriz de covarianzas es
¯ =
j
¸
j=1
j
j
(j
j
÷j)(j
j
÷j)
t
÷
j
¸
j=1
j
j
¯
j
.
Esta descomposición de ¯ es la versión poblacional de T = H÷V. y la
versión multivariante de
var() ) = 1[var[) [A|| ÷ var[1[) [A||.
donde ) [A representa la distribución de una variable ) dada A. Ver Flury
(1997).
Capítulo 8
ESCALADO
MULTIDIMENSIONAL
(MDS)
8.1. Introducción
Representar un conjunto …nito cuando disponemos de una distancia entre
los elementos del conjunto, consiste en encontrar unos puntos en un espacio de
dimensión reducida, cuyas distancias euclídeas se aproximen lo mejor posible
a las distancias originales.
Sea ! = ¦.
1
. .
2
. . . . . .
a
¦ un conjunto …nito con : elementos diferentes,
que abreviadamente indicaremos
! = ¦1. 2. .... :¦.
Sea o
j;
= o(i. ,) una distancia o disimilaridad entre los elementos i. , de
!.
Se habla de distancia (métrica) cuando se cumplen las tres condiciones:
1. o(i. i) = 0 para todo i.
2. o(i. ,) = o(,. i) _ 0 para todo i. ,.
3. o(i. ,) _ o(i. /) ÷o(,. /) para todo i. ,. / (desigualdad triangular).
Si sólo se cumplen las dos primeras condiciones, diremos que o(i. ,) es
una disimilaridad.
125
126 CAPÍTULO 8. ESCALADO MULTIDIMENSIONAL (MDS)
Consideremos entonces la matriz de distancias (o disimilaridades)
^ =

¸
¸
¸
¸
o
11
o
12
o
1a
o
21
o
22
o
2a
.
.
.
.
.
.
.
.
.
.
.
.
o
a1
o
a2
o
aa
¸

o
j;
= o
;j
= o(i. ,) _ o
jj
= 0.
De…nición 8.1.1 Diremos que ^ = (o
j;
) es una matriz de distancias Eu-
clídeas si existen : puntos x
1
. . . . . x
a
÷ 1
j
. siendo
x
t
j
= (r
j1
. . . . . r
jj
). i = 1. . . . . :.
tales que
o
2
j;
=
j
¸
c=1
(r
jc
÷r
;c
)
2
= (x
j
÷x
;
)
t
(x
j
÷x
;
) (8.1)
Indicaremos las coordenadas de los puntos x
1
. . . . . x
a
. que representan los
elementos 1. . . . . : de !. en forma de matriz
X =

¸
¸
¸
¸
r
11
r
12
r
1j
r
21
r
22
r
2a
.
.
.
.
.
.
.
.
.
.
.
.
r
a1
r
a2
r
aj
¸

.
El objetivo del escalamiento multidimensional es encontrar la X más ade-
cuada a partir de la matriz de distancias ^.
8.2. Cuando una distancia es euclídea?
Sea ^
(2)
= (o
2
j;
) la matriz de cuadrados de las distancias. Si la distancia
es euclídea entonces de (8.1)
o
2
j;
= x
t
j
x
j
÷x
t
;
x
;
÷2x
t
j
x
;
La matriz de productos internos asociada a ^ es
G = XX
t
.
8.2. CUANDO UNA DISTANCIA ES EUCLÍDEA? 127
Los elementos de G = (o
j;
) son o
j;
= x
t
j
x
;
. Relacionando ^
(2)
= (o
2
j;
) con G
vemos que
^
(2)
= 1g
t
÷g1
t
÷2G. (8.2)
donde g =(o
11
. . . . . o
aa
)
t
contiene los elementos de la diagonal de G. Sea H
la matriz de centrado (Cap. 1). Introducimos ahora las matrices A = ÷
1
2
^
(2)
y H = HAH.
Teorema 8.2.1 La matriz de distancias ^ es euclídea si y sólo si H _0. es
decir, los valores propios de H son no negativos.
Demost.: La relación entre H = (/
j;
) y A = (c
j;
) es
/
j;
= c
j;
÷c
j.
÷c
.;
÷c
..
.
donde c
j.
es la media de la columna i de A, c
.;
es la media de la …la , y c
..
es la media de los :
2
elementos de A. Entonces
/
jj
= ÷c
j.
÷c
.j
÷c
..
. /
;;
= ÷c
;.
÷c
.;
÷c
..
.
y por lo tanto
o
2
j;
= /
jj
÷/
;;
÷2/
j;
= c
jj
÷c
;;
÷2c
j;
. (8.3)
Supongamos que ^ es euclídea. Entonces G = XX
t
. De (8.2) resulta que
A = ÷(1g
t
÷g1
t
)2 ÷G.
Multiplicando ambos lados de A por H, dado que H1 = 1
t
H = 0. tenemos
que
H = HAH = HGH = HXX
t
H = XX
t
_ 0.
lo que prueba que H es semide…nida positiva.
Supongamos ahora que H _0. Entonces H = ¥¥
t
para alguna matriz ¥
de orden :j. es decir, /
j;
= v
t
j
v
;
, donde v
t
j
es la …la i- ésima de ¥. Aplicando
(8.3) tenemos
o
2
j;
= v
t
j
v
j
÷v
t
;
v
;
÷2v
t
j
v
;
= (v
j
÷v
;
)
t
(v
j
÷v
;
).
que demuestra que ^ es matriz de distancias euclídeas.
128 CAPÍTULO 8. ESCALADO MULTIDIMENSIONAL (MDS)
8.3. El análisis de coordenadas principales
Hemos visto que si H _0, cualquier matriz ¥ tal que H = ¥¥
t
propor-
ciona unas coordenadas cartesianas compatibles con la matriz de distancias
^. Sea
H = lAl
t
la descomposición espectral de H, donde l es una matriz : j de vectores
propios ortonormales de H y A es matriz diagonal que contiene los valores
propios ordenados
\
1
_ _ \
j
\
j+1
= 0 (8.4)
Obsérvese que H1 = 0. y por lo tanto \
j+1
= 0 es también valor propio de
H de vector propio el vector 1 de unos. Entonces es evidente que la matriz
: j
X = lA
1/2
(8.5)
también veri…ca H = XX
t
.
De…nición 8.3.1 La solución por coordenadas principales es la matriz de co-
ordenadas (8.5), tal que sus columnas A
1
. . . . . A
j
. que interpretaremos como
variables, son vectores propios de H de valores propios (8.4). Las coordenadas
del elemento i ÷ ! son
x
t
j
= (r
j1
. . . . . r
jj
).
donde x
j
es la …la i-ésima de X. Reciben el nombre de coordenadas principales
y cumplen (8.1).
La solución por coordenadas principales goza de importantes propiedades.
En las aplicaciones prácticas, se toman las ¡ < j primeras coordenadas prin-
cipales a …n de representar !. Por ejemplo, si ¡ = 2, las dos primeras coor-
denadas de X proporcionan una representación a lo largo de los ejes A
1
y
A
2
:
A
1
A
2
1 r
11
r
12
2 r
21
r
22
.
.
.
.
.
.
.
.
.
n r
a1
r
a2
Propiedades:
8.3. EL ANÁLISIS DE COORDENADAS PRINCIPALES 129
1. Las variables A
I
(columnas de X) tienen media 0.
A
1
= = A
j
= 0
Prueba: 1 es vector propio de H ortogonal a cada A
I
. por lo tanto
A
I
=
1
a
(1
t
A
I
) = 0.
2. Las varianzas son proporcionales a los valores propios
:
2
I
=
1
:
\
I
. / = 1. . . . . j
Prueba: la varianza es
1
a
A
t
I
A
I
=
1
a
\
I
.
3. Las variables son incorrelacionadas
cor(A
I
. A
I
0 ) = 0. / = /
t
= 1. . . . . j.
Prueba: como las medias son nulas, la covarianza es
cov(A
I
. A
I
0 ) =
1
:
A
t
I
A
I
0 = 0.
pues los vectores propios de H son ortogonales.
4. Las variables A
I
son componentes principales de cualquier matriz de
datos Z tal que las distancias euclídeas entre sus …las concuerden con
^.
Prueba: Supongamos Z matriz de datos centrada. Tenemos que
H = XX
t
= ZZ
t
La matriz de covarianzas de Z es
S =
1
:
Z
t
Z = TOT
t
.
donde O es diagonal y T es la matriz ortogonal de la transformación
en componentes principales. Entonces:
Z
t
Z = :TOT
t
.
ZZ
t
Z = :ZTOT.
t
HZT = ZT:O.
130 CAPÍTULO 8. ESCALADO MULTIDIMENSIONAL (MDS)
y por lo tanto ZT es matriz de vectores propios de H con valores
propios los elementos diagonales de :O. lo que implica X = ZT. En
consecuencia la matriz de coordenadas principales X coincide con la
transformación por componentes principales de Z.
5. La variabilidad geométrica de ^ es
\
c
(X) =
1
2:
2
a
¸
j.;=1
o
2
j;
=
1
:
j
¸
I=1
\
I
. (8.6)
6. La variabilidad geométrica en dimensión ¡ es máxima cuando tomamos
las ¡ primeras coordenadas principales. Es decir,
\
c
(X)
o
=
1
2:
2
a
¸
j.;=1
o
2
j;
(¡) =
1
2:
2
a
¸
j.;=1
o
¸
I=1
(r
jI
÷r
;I
)
2
=
1
:
o
¸
I=1
\
I
es máximo.
Prueba: Sea r
1
. .... r
a
una muestra con media r = 0 y varianza :
2
. Se
veri…ca
1
2a
2
¸
a
j.;=1
(r
j
÷r
;
)
2
=
1
2a
2
(
¸
a
j.;=1
r
2
j
÷
¸
a
j.;=1
r
2
;
÷2
¸
a
j.;=1
r
j
r
;
)
=
1
2a
2
(:
¸
a
j=1
r
2
j
÷:
¸
a
;=1
r
2
;
÷2
¸
a
j=1
r
j
¸
a
j;=1
r
;
)
= :
2
.
por lo tanto
\
c
(X) =
j
¸
I=1
:
2
I
.
Hemos demostrado que para cualquier matriz X tal que H = XX
t
, la
suma de las varianzas de las colummnas de X es igual a la variabilidad
geométrica. Si en particular tenemos las coordenadas principales, esta
suma de varianzas es la suma de los valores propios dividida por :, y
como entonces las columnas son componentes principales, sus varianzas
son respectivamente máximas.
El porcentaje de variabilidad explicada por los ¡ primeros ejes principales
es la proporción de variabilidad geométrica
1
o
= 100
\
c
(X)
o
\
c
(X)
= 100
¸
o
I=1
\
I
¸
j
I=1
\
I
8.4. SIMILARIDADES 131
Ejemplo 8.3.1
Consideremos ! = ¦1. 2. 3. 4. ò¦ y la matriz de distancias (al cuadrado):
1 2 3 4 5
1 0 226 104 34 101
2 0 26 104 29
3 0 26 9
4 0 41
5 0
Los valores propios de H son \
1
= 130. \
2
= 10. \
3
= \
4
= \
5
= 0. Por
lo tanto ^ es matriz de distancias euclídeas y ! se puede representar en un
espacio de dimensión 2. Las coordenadas principales son las columnas A
1
. A
2
de:
A
1
A
2
1
1 -8 -1 1
2 7 0 1
3 2 1 1
4 -3 2 1
5 2 -2 1
\ 130 10 0
r 0 0 1
:
2
26 2 0
8.4. Similaridades
En ciertas aplicaciones, especialmente en Biología y Psicología, en lugar
de una distancia, lo que se mide es el grado de similaridad entre cada par de
individuos.
Una similaridad : sobre un conjunto …nito ! es una aplicación de ! !
en 1 tal que:
:(i. i) _ :(i. ,) = :(,. i) _ 0.
La matriz de similaridades entre los elementos de ! es
S =

¸
¸
¸
¸
:
11
:
12
... :
1a
:
21
:
22
... :
2a
.
.
.
.
.
.
.
.
.
.
.
.
:
a1
:
a2
... :
aa
¸

132 CAPÍTULO 8. ESCALADO MULTIDIMENSIONAL (MDS)
donde :
j;
= :(i. ,).
Supongamos que tenemos j variables binarias A
1
. A
2
. ...A
j
. donde cada
A
j
toma los valores 0 ó 1. Para cada par de individuos (i. ,) consideremos la
tabla
,
1 0
i 1 c /
0 c d
donde c. /. c. d las frecuencias de (1,1), (1,0), (0,1) y (0,0), respectivamente,
con j = c ÷ / ÷ c ÷ d. Un coe…ciente de similaridad debería ser función de
c. /. c. d. Son conocidos los coe…cientes de similaridad:
:
j;
=
c ÷d
j
(Sokal-Michener)
:
j;
=
c
c ÷/ ÷c
(Jaccard)
(8.7)
que veri…can: :
jj
= 1 _ :
j;
= :
;j
_ 0.
Podemos transformar una similaridad en distancia aplicando la fórmula
d
2
j;
= :
jj
÷:
;;
÷2:
j;
. (8.8)
Entonces la matriz A = ÷(d
2
j;
)2 es
A = ÷
1
2
(S
;
÷S
t
;
÷2S).
donde S
;
tiene todas sus …las iguales, y como HS
;
= S
t
;
H = 0. resulta que
H = HAH = HSH.
Por lo tanto:
1. Si S es matriz (semi)de…nida positiva, la distancia d
j;
es euclídea.
2. rang(HSH) = rang(S) ÷1.
3. Las coordenadas principales se obtienen diagonalizando HSH.
8.5. NOCIONES DE MDS NO MÉTRICO 133
8.5. Nociones de MDS no métrico
Supongamos que la matriz de distancias ^ es no euclídea. Entonces la
matriz H (Teorema 8.2.1) tiene valores propios negativos:
\
1
_ _ \
j
0 \
j+1
_ _ \
j
0 .
El fundamento del MDS no métrico es transformar las distancias o
j;
para
convertirlas en euclídeas, pero conservando las relaciones de proximidad entre
los elementos del conjunto !.
De…nición 8.5.1 La preordenación asociada a la matriz de distancias ^ es
la ordenación de las : = :(: ÷1)2 distancias:
o
j
1
;
1
_ o
j
2
;
2
_ _ o
jm;m
. (8.9)
La preordenación es, de hecho, una propiedad asociada a !. es decir,
podemos escribir
(i
1
. ,
1
) _ (i
2
. ,
2
) _ _ (i
n
. ,
n
). (i
I
. ,
I
) ÷ ! !.
donde
(i. ,) _ (i
t
. ,
t
) si o
j;
_ o
j
0
;
0 .
Se trata de representar ! en un espacio que conserve la preordenación. Por
ejemplo, si consideramos las tres matrices de distancias sobre {A,B,C,D}:
A B C D A B C D A B C D
A 0 1 2 3 0 1 1 1 0 1 1 1
B 0 1 2 0 1 1 0 1 1
C 0 1 0 0 0 1
D 0 0 0
las preordenaciones se pueden representar en 1, 2 ó 3 dimensiones (Fig. 8.1),
respectivamente.
Si transformamos la distancia o
j;
en
´
o
j;
= .(o
j;
), donde . es una función
positiva creciente, es evidente que
´
o
j;
tiene la misma preordenación (8.9), y
por lo tanto, individuos próximos (alejados) según o
j;
estarán también próx-
imos (alejados) con respecto a
´
o
j;
. Si además
´
o
j;
es euclídea, tendremos la
134 CAPÍTULO 8. ESCALADO MULTIDIMENSIONAL (MDS)
Figura 8.1: Representación de 4 objetos conservando las preordenaciones rela-
cionadas a tres matrices de distancias.
posibilidad de representar !. aplicando, por ejemplo, un análisis de coorde-
nadas principales sobre la distancia transformada, pero conservando (aprox-
imadamente) la preordenación. En general, la función . no es lineal, y se
obtiene por regresión monótona. Hay dos casos especialmente simples.
De…nición 8.5.2 La transformación q-aditiva de o
j;
se de…ne como
´
o
2
j;
=

o
2
j;
÷2c si i = ,
0 si i = ,
donde c < 0 es una constante. La transformación aditiva se de…ne como
´
o
j;
=

o
j;
÷c si i = ,
0 si i = ,
donde c 0 es una constante.
Es evidente que las dos transformaciones aditiva y q-aditiva conservan
la preordenación de la distancia. Probemos ahora que la primera puede dar
lugar a una distancia euclídea.
Teorema 8.5.1 Sea ^ una matriz de distancias no euclídeas y sea \
j
0 < 0 el
menor valor propio de H. Entonces la transformación q-aditiva proporciona
una distancia euclídea para todo c tal que c _ \
j
0 .
Demost.: Sea
´
^ = (
´
o
j;
) la matriz de distancias transformadas. Las matrices
A. H y
´
A.
´
H (ver Teorema 8.2.1) veri…can
´
A= A÷c(I ÷J).
´
H = H÷cH.
8.5. NOCIONES DE MDS NO MÉTRICO 135
Sea v vector propio de H de valor propio \ = 0. Entonces Hv = v y por lo
tanto
´
Hv = (H÷cH)v = (\ ÷c)v.
Así
´
H tiene los mismos vectores propios que H, pero los valores propios son
\
1
÷c _ _ \
j
÷c 0 \
j+1
÷c _ _ \
j
0 ÷c.
que son no negativos si c _ \
j
0 . en cuyo caso
´
H es semide…nida positiva.
La mejor transformación q-aditiva es la que menos distorsiona la distancia
original. De acuerdo con este criterio, el mejor valor para la constante es
c = \
j
0 .
Las transformaciones aditiva y no lineal son más complicadas y las de-
jamos para otro dia. De hecho, los programas de MDS operan con trans-
formaciones no lineales, siguiendo criterios de minimización de una función
que mide la discrepancia entre la distancia original y la transformada. Por
ejemplo, el método de Kruskal consiste en:
1. Fijar una dimensión Euclídea j.
2. Transformar la distancia o
j;
en la “disparidad”
´
o
j;
= .(o
j;
). donde
. es una función monótona creciente. Las disparidades conservan la
preordenación de las distancias.
3. Ajustar una distancia euclídea d
j;
a las disparidades
´
o
j;
de manera que
minimice
¸
j<;
(d
j;
÷
´
o
j;
)
2
.
4. Asociar a las distancias d
j;
una con…guración euclídea j-dimensional, y
representar los : objetos a partir de las coordenadas de la con…guración.
Para saber si la representación obtenida re‡eja bien las distancias entre
los objetos, se calcula la cantidad
o =

¸
j<;
(d
j;
÷
´
o
j;
)
2
¸
j<;
d
2
j;
.
denominada “stress”, que veri…ca 0 _ o _ 1. pero se expresa en forma de
porcentaje. La representación es considerada buena si o no supera el 5 %.
136 CAPÍTULO 8. ESCALADO MULTIDIMENSIONAL (MDS)
También es conveniente obtener el diagrama de Sheppard, que consiste en
representar los :(: ÷ 1)2 puntos (o
j;
. d
j;
). Si los puntos dibujan una curva
creciente, la representación es buena, porque entonces se puede decir que
conserva bien la preordenación (Fig. 8.4).
8.6. Distancias estadísticas
En esta sección discutiremos algunos modelos de distancias estadísticas.
8.6.1. Variables cuantitativas
Siendo x = (r
1
. r
2
. . . . . r
j
). v = (n
1
. n
2
. . . . . n
j
) dos puntos de 1
j
. La dis-
tancia de Minkowsky se de…ne como
d
o
(x. v) = (
j
¸
j=1
[r
j
÷n
j
[
o
)
1/o
.
Casos particulares de la distancia d
o
son:
1. Distancia “ciudad”:
d
1
(x. v) =
j
¸
j=1
[r
j
÷n
j
[
2. Distancia Euclídea:
d
2
(x. v) =

j
¸
j=1
(r
j
÷n
j
)
2
3. Distancia “dominante”:
d
o
(x. v) = m´ax
1<j<j
¦[r
j
÷n
j

Tienen también interés en las aplicaciones, la distancia normalizada por
el rang 1
j
de la variable i
d
G
(x. v) =
1
j
j
¸
j=1
[r
j
÷n
j
[
1
j
.
8.6. DISTANCIAS ESTADÍSTICAS 137
y, cuando los valores de las variables son positivos, la métrica de Canberra
d
C
(x. v) =
1
j
j
¸
j=1
[r
j
÷n
j
[
r
j
÷n
j
.
d
G
y d
C
son invariantes por cambios de escala.
Supongamos ahora dos poblaciones !
1
. !
2
con vectores de medias j
1
. j
2
y matrices de covarianzas ¯
1
. ¯
2
. Cuando ¯
1
= ¯
2
= ¯. la distancia de
Mahalanobis entre poblaciones es
`
2
(!
1
. !
2
) = (j
1
÷j
2
)
t
¯
÷1
(j
1
÷j
2
)
Esta distancia, ya introducida previamente, es invariante por cambios de es-
cala y tiene en cuenta la correlación entre las variables. Además, si `
j
. `
o
. `
j+o
indican las distancias basada en j. ¡. j ÷¡ variables, respectivamente, se ver-
i…ca:
a) `
j
_ `
j+o
.
b) `
2
j+o
= `
2
j
÷`
2
o
si los dos grupos de j y ¡ variables son independientes.
No es fácil dar una de…nición de distancia cuando ¯
1
= ¯
2
. Una de…nición
de compromiso es
(j
1
÷j
2
)
t
[
1
2

1
÷ ¯
2
)|
÷1
(j
1
÷j
2
).
8.6.2. Variables binarias
Cuando todas las variables son binarias (toman solamente los valores 0
y 1), entonces conviene de…nir un coe…ciente de similaridad (Sección 8.4) y
aplicar (8.8) para obtener una distancia. Existen muchas maneras de de…nir
una similaridad :
j;
en función del peso que se quiera dar a los c. /. c. d. Por
ejemplo:
:
j;
=
c
c ÷ 2(/ ÷c)
(Sokal-Sneath)
:
j;
=
2c
(c ÷/)(c ÷c)
(Dice)
(8.10)
Las similaridades de…nidas en (8.7) y (8.10) proporcionan distancias eu-
clídeas.
138 CAPÍTULO 8. ESCALADO MULTIDIMENSIONAL (MDS)
8.6.3. Variables categóricas
Supongamos que las observaciones pueden ser clasi…cadas en / cate-
gorías excluyentes ¹
1
. . . . . ¹
I
, con probabilidades p = (j
1
. . . . . j
I
). donde
¸
I
I=1
j
I
= 1. Podemos de…nir distancias entre individuos y entre pobla-
ciones.
1. Entre individuos. Si dos individuos i. , tienen las categorías ¹
I
. ¹
I
0 .
respectivamente, una distancia (al cuadrado) entre i. , es:
d(i. ,)
2
=

0 si / = /
t
.
j
÷1
I
÷j
÷1
I
0
si / = /
t
.
Si hay varios conjuntos de variables categóricas, con un total de 1
categorías o estados, una similaridad es c1 (“matching coe¢cient”),
donde c es el número de coincidencias.
2. Entre poblaciones. Si tenemos dos poblaciones representadas por p =
(j
1
. . . . . j
I
). q = (¡
1
. . . . . ¡
I
). dos distancias entre poblaciones son
d
o
(p. q) = 2
¸
I
j=1
(j
j
÷¡
j
)
2
(j
j
÷¡
j
).
d
b
(p. q) = arc cos(
¸
I
j=1

j
j
¡
j
).
La primera es la distancia de Bhattachariyya, y se justi…ca considerando
p y q como los vectores de medias entre dos poblaciones multinomiales con
: = 1 (Sección 1.102.7). Las g-inversas (Sección 1.10) de las matrices de
covarianzas son
C
÷
j
= diag(j
÷1
1
. . . . . j
÷1
I
). C
÷
o
= diag(¡
÷1
1
. . . . . ¡
÷1
I
).
Aplicando la distancia de Mahalanobis tomando el promedio de ambas g-
inversas se obtiene d
o
(p. q).
La distancia d
b
(p. q) se justi…ca situando los puntos (

j
1
. . . . .

j
;
) y
(

¡
1
. . . . .

¡
I
) sobre una hiperesfera de radio unidad y hallando la distancia
geodésica. Véase la distancia de Rao.
8.6.4. Variables mixtas
En las aplicaciones a menudo los datos provienen de las observaciones
de j
1
variables cuantitativas, j
2
variables dicotómicas (dos estados: presente,
8.6. DISTANCIAS ESTADÍSTICAS 139
ausente) y j
3
variables categóricas o cualitativas (más de dos estados). Un
coe…ciente de similaridad (propuesto por Gower, 1971) es
:
j;
=
¸
j
1
I=1
(1 ÷[r
jI
÷r
;I
[1
I
) ÷c ÷c
j
1
÷ (j
2
÷d) ÷j
3
. (8.11)
donde 1
I
es el rango de la variable cuantitativa A
I
. c y d son el número
de dobles presencias y dobles ausencias de las variables dicotómicas, y c es
el número de coincidencias entre las variables categóricas. Si solamente hay
variables dicotómicas o variables categóricas, :
j;
reduce la similaridad nor-
malizada por el rango, al coe…ciente de Jaccard o al “matching coe¢cient”,
respectivamente:
1 ÷
1
j
1
¸
j
1
I=1
[r
I
÷n
I
[1
I
si j
2
= j
3
= 0.
c(c ÷/ ÷c) si j
1
= j
3
= 0.
cj
3
si j
1
= j
2
= 0.
Este coe…ciente veri…ca 0 _ :
j;
_ 1. y aplicando (8.8) se obtiene una distancia
euclídea que además admite la posibilidad de datos faltantes.
8.6.5. Otras distancias
Existen muchos procedimientos para de…nir distancias, en función de los
datos y el problema experimental. Veamos dos.
Modelo de Thurstone
Supongamos que queremos ordenar : estímulos .
1
. . . . . .
a
(por ejemplo,
: productos comerciales)
.
j
1
_ _ .
jn
según una escala de preferencias o
j
1
_ _ o
jn
. donde los o
j
son parámetros.
Sea j
j;
la proporción de individuos de la población que pre…eren .
;
sobre .
j
.
Un modelo es
j
j;
=
1

2:

0
j
÷0
i
÷o
c
÷t
2
/2
dt.
Si más de la mitad de los individuos pre…eren .
;
sobre .
j
. entonces o
j
< o
;
.
Así:
140 CAPÍTULO 8. ESCALADO MULTIDIMENSIONAL (MDS)
a) j
j;
< 0.ò implica o
j
o
;
.
b) j
j;
= 0.ò implica o
j
= o
;
.
c) j
j;
0.ò implica o
j
< o
;
.
La estimación de los parámetros a partir de las proporciones j
j;
es com-
plicada. Alternativamente, teniendo en cuenta que j
j;
÷ j
;j
= 1 podemos
de…nir la distancia entre estímulos
d(.
j
. .
;
) = [j
j;
÷0.ò[
y aplicar un MDS sobre la matriz (d(.
j
. .
;
)). La representación de los estí-
mulos a lo largo de la primera dimensión nos proporciona una solución a la
ordenación de los estímulos.
Distancia de Rao
Sea o
0
= ¦1(r. o). o ÷ O¦ un modelo estadístico y .(o) =
0
00
log 1(r. o)
un vector columna. La matriz de información de Fisher 1(o) es la matriz
de covarianzas de los .
t
s. Siendo o
o
. o
b
dos valores de los parámetros. Una
distancia tipo Mahalanobis sería el valor esperado de
(.(o
o
) ÷.(o
b
))
t
1(o)
÷1
(.(o
o
) ÷.(o
b
)).
Pero . depende de r y o varía entre o
o
. o
b
. Consideremos entonces a 1(o)
como un tensor métrico sobre la variedad diferenciable o
0
. La distancia de
Rao entre o
o
. o
b
es la distancia geodésica entre los puntos correspondientes de
o
0
. La distancia de Rao es invariante por transformaciones de las variables y
de los parámetros, generaliza la distancia de Mahalanobis y tiene aplicaciones
en estadística matemática. Veamos tres ejemplos.
1. Distribución de Poisson: 1(r. \) = c
÷a
\
a
r!. r = 0. 1. 2. . . . . La dis-
tancia entre dos valores \
o
. \
b
es:
^(\
o
. \
b
) = 2[

\
o
÷

\
b
[.
2. Distribución multinomial. La distancia entre p = (j
1
. . . . . j
I
) y q =

1
. . . . . ¡
I
) es:
^(p. q) =arc cos(
I
¸
j=1

j
j
¡
j
).
8.7. DOS EJEMPLOS 141
3. Distribución normal. Si ¯ es …ja, la distancia (al cuadrado) entre dos
vectores de medias es:
^
2
(!
1
. !
2
) = (j
1
÷j
2
)
t
¯
÷1
(j
1
÷j
2
).
Finalmente, para un valor …jo de o. podemos de…nir la distancia entre dos
observaciones r
1
. r
2
que dan .
j
(o) =
0
00
log 1(r
j
. o). i = 1. 2. como
(.
1
(o) ÷.
2
(o))
t
1(o)
÷1
(.
1
(o) ÷.
2
(o)).
8.7. Dos ejemplos
Ejemplo 8.7.1
Un arqueólogo encontró 5 herramientas cortantes A,B,C,D,E y una vez
examinadas, comprobó que estaban hechas de piedra, bronce y hierro, con-
forme a la siguiente matriz de incidencias:
Piedra Bronce Hierro
A 0 1 0
B 1 1 0
C 0 1 1
D 0 0 1
E 1 0 0
Utilizando la similaridad de Jaccard (8.7), obtenemos la matriz de similari-
dades:
A B C D E
A 1 1/2 1/2 0 0
B 1 1/3 0 1/2
C 1 1/2 0
D 1 0
E 1
Los resultados del análisis de coordenadas principales son:
A .0000 .6841 -.3446
B .4822 .1787 .2968
C -.4822 .1787 .2968
D -.6691 -.5207 -.1245
E .6691 -.5207 -.1245
valor propio 1.360 1.074 .3258
porc. acum. 44.36 79.39 90.01
142 CAPÍTULO 8. ESCALADO MULTIDIMENSIONAL (MDS)
Figura 8.2: Representación por análisis de coordenadas principales de 5 her-
ramientas prehistóricas.
La primera y segunda coordenadas explican el 80 % de la variabilidad
geométrica. La representación (Fig. 8.2) indica que las herramientas quedan
ordenadas según su antigüedad: E es la más antigua (sólo contiene piedra) y
D la más moderna (sólo contiene hierro).
Ejemplo 8.7.2
Una distancia genética es una medida que cuanti…ca las proximidades
entre dos poblaciones a partir de las proporciones génicas. Por ejemplo, si
existen / ordenaciones cromosómicas que se presentan en las proporciones
(j
1
. . . . . j
I
). (¡
1
. . . . . ¡
I
). una distancia adecuada (propuesta por A. Prevosti)
es
1
2:
I
¸
j=1
[j
j
÷¡
j
[
donde : es el número de cromosomas diferentes.
Las distancias entre : = 10 poblaciones de D. Suboscura que provienen de
Droback, Dalkeith, Groningen, Fontaineblau, Viena, Zurich, Huelva, Barcelona,
Fornia, Foresta, Etna, Fruska-Gora, Thessaloniki, Silifke, Trabzon, Chalus,
Orangerie, Agadir, Las Mercedes, se dan en la Tabla 8.1. Aplicando un MDS
no métrico, se obtiene la representación de las 19 poblaciones (Fig. 8.3), con
un “stress” de 2.84, que indica que la representación es buena. La Fig. 8.4
representa las distancias versus las disparidades.
8.7. DOS EJEMPLOS 143
Dro Dal Gro Fon Vie Zur Hue Bar For For Etn Fru The Sil Tra Cha Ora Aga Las
DROBA 0
DALKE .307 0
GRONI .152 .276 0
FONTA .271 .225 .150 0
VIENA .260 .370 .187 .195 0
ZURIC .235 .300 .112 .120 .128 0
HUELV .782 .657 .695 .580 .540 .623 0
BARCE .615 .465 .529 .412 .469 .445 .259 0
FORNI .780 .657 .693 .607 .606 .609 .373 .309 0
FORES .879 .790 .801 .764 .760 .761 .396 .490 .452 0
ETNA .941 .846 .873 .813 .818 .817 .414 .524 .451 .177 0
FRUSK .560 .505 .470 .442 .342 .391 .577 .460 .501 .681 .696 0
THESS .668 .545 .592 .514 .434 .500 .502 .392 .363 .590 .630 .315 0
SILIF .763 .643 .680 .584 .581 .610 .414 .357 .413 .646 .667 .544 .340 0
TRABZ .751 .619 .675 .582 .519 .587 .418 .342 .399 .587 .648 .439 .269 .286 0
CHALU .709 .489 .636 .548 .531 .549 .595 .489 .514 .635 .649 .444 .408 .574 .438 0
ORANG .947 .867 .864 .782 .837 .795 .573 .574 .568 .519 .535 .782 .733 .696 .698 .760 0
AGADI .927 .834 .844 .803 .789 .792 .428 .498 .485 .329 .303 .666 .661 .642 .631 .710 .321 0
LASME .931 .699 .846 .749 .802 .792 .404 .485 .429 .380 .253 .659 .566 .604 .551 .460 .615 .430 0
Tabla 8.1: Distancias genéticas respecto a las ordenaciones cromosómicas
entre 19 poblaciones de D. Suboscura.
144 CAPÍTULO 8. ESCALADO MULTIDIMENSIONAL (MDS)
Figura 8.3: Representación MDS de 19 poblaciones de D. Subobscura respecto
a las distancias genéticas entre ordenaciones cromosómicas.
Figura 8.4: Representación de las distancias genéticas vs las disparidades.
8.8. COMPLEMENTOS 145
Para otros ejemplos, consúltese Baillo y Grané (2008).
8.8. Complementos
En un plano teórico, el MDS comienza con el teorema de I. J. Schoenberg
acerca de la posibilidad de construir las coordenadas de un conjunto de puntos
dadas sus distancias. A nivel aplicado, es de destacar a W. S. Torgerson, que
en 1957 aplica el MDS a la psicología, y Gower (1966), que prueba su relación
con el Análisis de Componentes Principales y el Canónico de Poblaciones,
abriendo un fructífero campo de aplicación en la biología.
El MDS no métrico es debido a R. N. Shepard, que en 1962 introdujo el
concepto de preordenación, y J. B. Kruskal, que en 1964 propuso algoritmos
efectivos que permitían encontrar soluciones. La transformación q-aditiva
fue estudiada por J.C. Lingoes y K.V. Mardia. Diversos autores estudiaron
la transformación aditiva, hasta que Cailliez (1983) encontró la solución de-
…nitiva. Consultar Cox y Cox (1994).
Existen diferentes modelos para tratar el problema de la representación
cuando actúan diferentes matrices de distancias. Un modelo, propuesto por
J. D. Carroll, es el INDSCAL. Un modelo reciente, propuesto por Cuadras y
Fortiana (1998) y Cuadras (1998), es el “related metric scaling”.
De la misma manera que se hace regresión sobre componentes principales,
se puede hacer regresión de una variable dependiente ) sobre las dimen-
siones principales obtenidas aplicando MDS sobre una matriz de distancias
entre las observaciones. Este modelo de regresión basado en distancias per-
mite plantear la regresión con variables mixtas. Consultar Cuadras y Arenas
(1990), Cuadras et al. (1996).
Una versión del MDS, denominada “continuous scaling”, permite encon-
trar las coordenadas principales de una variable aleatoria. Consultar Cuadras
y Fortiana (1993a,1995), Cuadras y Lahlou (2000).
P.C. Mahalanobis y C. R. Rao propusieron sus distancias en 1936 y 1945,
respectivamente. Posteriormente Amari, Atkinson, Burbea, Mitchell, Oller y
otros estudiaron la distancia de Rao. Consultar Oller (1987), Oller y Cuadras
(1985), Cuadras (1988).
146 CAPÍTULO 8. ESCALADO MULTIDIMENSIONAL (MDS)
Capítulo 9
ANALISIS DE
CORRESPONDENCIAS
9.1. Introducción
El Análisis de Correspondencias (AC) es una técnica multivariante que
permite representar las categorías de las …las y columnas de una tabla de
contingencia.
Supongamos que tenemos dos variables categóricas A y B con 1 y J cate-
gorías respectivamente, y que han sido observadas cruzando las 1 categorías
A con las J categorías B, obteniendo : =
¸
j;
1
j;
observaciones, donde 1
j;
es el número de veces en que aparece la interseccón A
j
¨B
;
. dando lugar a la
tabla de contingencia 1 J :
B
1
B
2
B
J
A
1
1
11
1
12
1
1J
1

A
2
1
21
1
22
1
2J
1

.
.
.
.
.
.
.
.
.
A
1
1
11
1
12
1
1J
1

1
·1
1
·2
1
·J
:
(9.1)
donde 1

=
¸
;
1
j;
es la frecuencia marginal de A
j
. 1
·;
=
¸
j
1
j;
es la frecuen-
cia marginal de B
;
. Debemos tener en cuenta que enrealidad la tabla (9.1)
147
148 CAPÍTULO 9. ANALISIS DE CORRESPONDENCIAS
resume la matriz de datos inicial, que típicamente es de la forma:
A
1
A
2
A
1
B
1
B
2
B
J
1 1 0 0 1 0 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
i 0 0 1 0 1 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
: 0 0 1 0 0 1
en la que damos el valor 1 cuando se presenta una característica y 0 cuando
no se presenta. Así, el individuo 1¨ presentaría las características A
1
y B
1
.
el individuo i¨ presentaria las características A
1
y B
2
. y el individuo :¨ las
características A
1
y B
J
. La matriz de datos : (1 ÷J) es pues
Z = [X. ¥|.
A partir de ahora utilizaremos el nombre de variables …las y variables
columnas a las variables A y B, respectivamente.
Indiquemos por N = (1
j;
) la matriz 1 J con las frecuencias de la tabla
de contingencia. La matriz
I =
1
:
N.
es la matriz de correspondencias. Indiquemos por r el vector 1 1 con los
totales marginales de las …las de I, y por c el vector J 1 con los totales
marginales de las columnas de 1 :
r = I1. c = I
t
1.
Tenemos entonces que
r =
1
:
1
t
X. c =
1
:
1
t
¥.
son los vectores de medias de las matrices de datos X. ¥. Indiquemos además
O
v
= diag(r). O
c
= diag(c).
las matrices diagonales que contienen los valores marginales de …las y colum-
nas de I. Se veri…ca
X
t
X = :O
v
. ¥
t
¥ = :O
c
. X
t
¥ = :I = N.
9.2. CUANTIFICACIÓN DE LAS VARIABLES CATEGÓRICAS 149
Por lo tanto, las matrices de covarianzas entre …las, entre columnas y entre
…las y columnas, son
S
11
= O
v
÷rr
t
. S
22
= O
c
÷cc
t
. S
12
= I÷rc
t
.
Puesto que la suma de las variables es igual a 1, las matrices S
11
y S
22
son
singulares.
9.2. Cuanti…cación de las variables categóri-
cas
El problema de las variables categóricas, para que puedan ser manejadas
en términos de AM clásico, es que no son cuantitativas. La cuanti…cación 0
ó 1 anterior es convencional. Asignemos pues a las categorías A
1
. . . . .A
1
de
la variable …la, los valores numéricos c
1
. . . . . c
1
. y a las categorías B
1
. . . . .B
J
de la variable columna, los valores numéricos /
1
. . . . . /
J
. es decir, indiquemos
los vectores
a = (c
1
. . . . . c
1
)
t
. I = (/
1
. . . . . /
J
)
t
.
y consideremos las variables compuestas
l = Xa. \ = ¥I.
Si en un individuo / se observan las categorías A
j
.B
;
. entonces los valores de
l. \ sobre / son
l
I
= c
j
. \
I
= /
;
.
Deseamos encontrar a. I tales que las correlaciones entre l y \ sean
máximas. Claramente, estamos ante un problema de correlación canónica,
salvo que ahora las matrices S
11
y S
22
son singulares. Una g-inversa (Sección
1.10) de S
11
es la matriz S
÷
11
= O
÷1
v
que veri…ca
S
11
S
÷
11
S
11
= S
11
.
En efecto,
(O
v
÷rr
t
)O
÷1
v
(O
v
÷rr
t
) = (O
v
÷rr
t
)(I ÷1r
t
)
= O
v
÷O
v
1r
t
÷rr
t
÷rr
t
1r
t
= O
v
÷rr
t
÷rr
t
÷rr
t
= O
v
÷rr
t
.
150 CAPÍTULO 9. ANALISIS DE CORRESPONDENCIAS
Análogamente S
÷
22
= O
÷1
c
. Aplicando la teoria de la correlación canónica
(Sección 4.3), podemos considerar la descomposición singular
O
÷1/2
v
(I÷rc
t
)O
÷1/2
c
= lO
A
Y
t
. (9.2)
donde O
A
es la matriz diagonal con los valores singulares en orden decre-
ciente. Si u
1
. v
1
son los primeros vectores canónicos, tendremos entonces
a = S
÷1/2
11
u
1
. I = S
÷1/2
22
v
1
. : = \
1
.
es decir, el primer valor singular es la máxima correlación entre las variables
l y \. Pero pueden haber más vectores y correlaciones canonicas, y por lo
tanto la solución general es
a
j
= O
÷1/2
v
u
j
. I
j
= O
÷1/2
c
v
j
. :
j
= \
j
. i = 1. . . . . m´in¦1. J¦.
En notación matricial, los vectores que cuanti…can las categorías de las …las
y de las columnas de N, son las columnas de las matrices
A
0
= O
÷1/2
v
l. H
0
= O
÷1/2
c
Y.
También obtenemos correlaciones máximas considerando las matrices
A = O
÷1/2
v
lO
A
. H = O
÷1/2
c
YO
A
. (9.3)
pues el producto por una constante (en este caso un valor singular), no altera
las correlaciones.
9.3. Representación de …las y columnas
Los per…les de las …las son
(
j
j1
:
j
.
j
j2
:
j
. .
j
jJ
:
j
).
es decir, las “probabilidades condicionadas” 1(B
1
A
j
). . . . . 1(B
J
A
j
). La ma-
triz de per…les de las …las es
O = O
÷1
v
I.
9.3. REPRESENTACIÓN DE FILAS Y COLUMNAS 151
De…nición 9.3.1 La distancia ji-cuadrado entre las …las i. i
t
de N es
o
2
jj
0 =
J
¸
;=1
(j
j;
:
j
÷j
j
0
;
:
j
0 )
2
c
;
.
La matriz de productos escalares asociada a esta distancia es
G = OO
÷1
c
O
t
.
y la relación entre ^
(2)
= (o
2
jj
0 ) y G es
^
(2)
= g1
t
÷1g
t
÷2G.
siendo g el vector columna con los 1 elementos diagonales de G. La solución
MDS ponderada de las …las de N (Sección 9.9) se obtiene calculando la
diagonalización
O
1/2
v
(I ÷1r
t
)G(I ÷r1
t
)O
1/2
v
= lO
2
A
l
t
.
y seguidamente obteniendo las coordenadas principales
A = O
÷1/2
v
lO
A
. (9.4)
Las distancias euclídeas entre las …las de A coinciden con la distancia ji-
cuadrado.
Relacionemos ahora estas coordenadas con las cuanti…caciones anteriores.
De (9.2) tenemos
O
÷1/2
v
(I÷rc
t
)O
÷1
c
(I
t
÷cr
t
)O
÷1/2
v
= lO
2
A
l
t
.
y de
O
1/2
v
(O
÷1
v
I÷1c
t
)O
÷1
c
(I
t
O
÷1
v
÷c1
t
)O
1/2
v
= O
1/2
v
(O÷1r
t
O)O
÷1
c
(O
t
÷O
t
r1
t
)O
1/2
v
.
deducimos que
O
1/2
v
(I ÷1r
t
)OO
÷1
c
O
t
(I ÷r1
t
)O
1/2
v
= lO
2
A
l
t
.
Esta última expresión demuestra que las matrices A obtenidas en (9.3) y
(9.4) son la misma.
152 CAPÍTULO 9. ANALISIS DE CORRESPONDENCIAS
Análogamente podemos de…nir la distancia ji-cuadrado entre columnas
o
2
;;
0 =
1
¸
j=1
(j
j;
c
;
÷j
j;
0 c
;
0 )
2
:
j
.
y probar que las distancias euclídeas entre las …las de la matriz H obtenidas
en (9.3), coinciden con esta distancia ji-cuadrado.
Así pues, si consideramos las dos primeras coordenadas principales:
Filas Columnas
A
1
(c
11
. c
12
) B
1
(/
11
. /
12
)
A
2
(c
21
. c
22
) B
2
(/
21
. /
22
)
.
.
.
.
.
.
.
.
.
.
.
.
A
1
(c
11
. c
12
) B
J
(/
J1
. /
J2
)
obtenemos una representación de …las y columnas de la matriz de frecuencias
N.
9.4. Relación entre …las y columnas y repre-
sentación conjunta
Las coordenadas A y las coordenadas H, que representan las …las y las
columnas, están relacionadas. Premultiplicando (9.2) por O
÷1/2
v
y postmul-
tiplicando por Y obtenemos
O
÷1
v
(I÷rc
t
)O
÷1/2
c
Y = O
÷1/2
v
l.
luego
O
÷1
v
(I÷rc
t
)HO
÷1
A
= A.
Análogamente se prueba que
O
÷1
c
(I
t
÷cr
t
)AO
÷1
A
= H.
Si ahora tenemos en cuenta que r
t
O
÷1
v
= 1
t
. premultiplicando por r
t
1
t
(I÷rc
t
)HO
÷1
A
= r
t
A.
Como además 1
t
I = c
t
. 1
t
r = 1. vemos fácilmente que
(c
t
÷c
t
)HO
÷1
A
= r
t
A = 0.
9.4. RELACIÓNENTREFILAS YCOLUMNAS YREPRESENTACIÓNCONJUNTA153
Análogamente, c
t
H = 0. es decir, las medias ponderadas de las coordenadas
principales son cero. En consecuencia
A = O
÷1
v
IHO
÷1
A
. H = O
÷1
c
I
t
AO
÷1
A
. (9.5)
Conviene notar que O
÷1
v
I son los per…les de las …las, y O
÷1
c
I
t
son los per…les
de las columnas. Así pues tenemos que, salvo el factor dilatador O
÷1
A
. (pues
los elementos diagonales de O
A
son menores que 1), se veri…ca:
1. Las coordenadas de las …las son las medias, ponderadas por los per…les
de las …las, de las coordenadas de las columnas.
2. Las coordenadas de las columnas son las medias, ponderadas por los
per…les de las columnas, de las coordenadas de las …las.
Por ejemplo, la primera coordenada principal de las …las veri…ca:
c
j1
=
1
\
1
(/
11
j
j1
:
j
÷/
21
j
j2
:
j
÷ ÷/
J1
j
jJ
:
j
). i = 1. . . . . 1.
y la primera coordenada principal de las columnas veri…ca
/
;1
=
1
\
1
(c
11
j
1;
c
;
÷c
21
j
2;
c
;
÷ ÷c
11
j
1;
c
;
). , = 1. . . . . J.
La Tabla 9.1 contiene unos datos arti…ciales, que clasi…can 400 clientes
según la edad (joven, mediana, mayor) y los productos que compran en un
supermercado.
Tenemos:
I =

¸
¸
¸
¸
¸
0.17ò 0 0
0.112ò 0.112ò 0
0.07ò 0.07ò 0.07ò
0 0.2 0.0ò
0.087ò 0.012ò 0.02ò
¸

. r =

¸
¸
¸
¸
¸
0.17ò
0.22ò
0.22ò
0.2ò0
0.12ò
¸

. c =

¸
0.4ò
0.40
0.1ò
¸

.
La matriz de per…les de las …las es:
O =

¸
¸
¸
¸
¸
1.00 0 0
0.ò0 0.ò0 0
0.33 0.33 0.33
0 0.80 0.20
0.70 0.10 0.20
¸

154 CAPÍTULO 9. ANALISIS DE CORRESPONDENCIAS
Edad
Producto Joven Mediana Mayor Total
A 70 0 0 70
B 45 45 0 90
C 30 30 30 90
D 0 80 20 100
E 35 5 10 50
Total 180 160 60 400
Tabla 9.1: Clasi…cación de 400 clientes según edades y productos adquiridos
en un supermercado.
Las coordenadas principales son:
Filas Columnas
A =

1.0000 ÷0.1100
0.0òò1 ÷0.4213
÷0.1834 0.481ò
÷0.0231 ÷0.1208
0.ò384 0.3012
¸
¸
¸
¸
¸
¸
H =

0.7ò2ò ÷0.0307
÷0.0770 ÷0.2303
÷0.4ò22 0.7ò71
¸
¸
Los valores singulares son: \
1
= 0.0847. \
2
= 0.3311. La primera coordena-
da principal de las …las A
1
. . . . .A
5
veri…ca:
1.0000 = 0.0847
÷1
(.7ò2ò 1 ÷ 0 ÷ 0)
0.0òò1 = 0.0847
÷1
(.7ò2ò .ò ÷.077 .ò ÷ 0)
÷0.1834 = 0.0847
÷1
(.7ò2ò .33 ÷.077 .33 ÷.4ò22 .33)
÷0.0231 = 0.0847
÷1
(0 ÷.077 .8 ÷.4ò22 .2)
0.ò384 = 0.0847
÷1
(.7ò2ò .7 ÷.077 .1 ÷.4ò22 .2)
Las coordenadas de las marcas A,B,C,D,E son medias de las coordenadas de
las tres edades, ponderadas por la incidencia del producto en la edad.
9.5. Soluciones simétrica y asimétrica
La representación de …las y columnas utilizando las coordenadas princi-
pales A. H es la solución simétrica. La representación conjunta es posible
gracias a las fórmulas (9.5). La representación utilizando las matrices
A = O
÷1/2
v
lO
A
. H
0
= O
÷1/2
c
Y.
9.5. SOLUCIONES SIMÉTRICA Y ASIMÉTRICA 155
Figura 9.1: Representación asimétrica (izquierda) y simétrica (derecha) de
las …las (productos) y columnas (edades) de la Tabla 9.1.
es decir, coordenadas principales para las …las y coordenadas estándard para
las columnas, es la llamada solución asimétrica. Esta solución veri…ca
I÷rc
t
= O
v
AH
t
0
O
c
.
y por lo tanto A. H
0
reproducen mejor la dependencia entre …las y columnas.
La Tabla 9.2 relaciona los colores de los cabellos y de los ojos de 5,383
individuos.
Color cabellos
Color ojos Rubio Rojo Castaño Oscuro Negro Total
CLARO 688 116 584 188 4 1,580
AZUL 326 38 241 110 3 718
CASTAÑO 343 84 909 412 26 1,774
OSCURO 98 48 403 681 81 1,311
Total 1,455 286 2,137 1,391 114 5,383
Tabla 9.2: Clasi…cación de 5383 individuos según el color de los ojos y del
cabello.
156 CAPÍTULO 9. ANALISIS DE CORRESPONDENCIAS
Figura 9.2: Representación asimétrica (izquierda) y simétrica (derecha) de
los datos de los colores de ojos y cabellos.
Las coordenadas principales son:
Filas Columnas
A =

0.4400 ÷0.0872
0.3000 ÷0.1047
÷0.0301 0.2437
÷0.7002 ÷0.134ò
¸
¸
¸
¸
H =

0.ò437 ÷0.1722
0.2324 ÷0.0477
0.0402 0.2070
÷0.ò801 ÷0.1070
÷1.0784 ÷0.2743
¸
¸
¸
¸
¸
¸
Los valores singulares son: \
1
= 0.440. \
2
= 0.1727. \
3
= 0.0202. De
acuerdo con (9.6), la variabilidad explicada por las dos primeras dimensiones
principales es 1
2
= 80.8 /. La Figura 9.2 proporciona las representaciones
simétrica y asimétrica.
9.6. Variabilidad geométrica (inercia)
Vamos a probar que
.
2
= :
1
¸
I=1
\
2
I
.
9.6. VARIABILIDAD GEOMÉTRICA (INERCIA) 157
siendo 1 = m´in¦1. J¦ y
.
2
= :
1
¸
j=1
J
¸
;=1
(1
j;
÷1

1
·;
:)
2
1

1
·;
el estadístico ji-cuadrado con (1 ÷ 1)(J ÷ 1) g.l. que permite decidir si hay
independencia entre …las y columnas de N. Es decir, la ji-cuadrado es : veces
la suma de los valores propios del AC.
El coe…ciente c
2
de Pearson se de…ne como
c
2
=
1
¸
j=1
J
¸
;=1
(j
j;
÷:
j
c
;
)
2
:
j
c
;
=
.
2
:
.
Es fácil probar que también podemos expresar
c
2
=
1
¸
j=1
J
¸
;=1
j
2
j;
:
j
c
;
÷1.
La variabilidad geométrica ponderada de la distancia ji-cuadrado entre
…las es
\
c
=
1
2
1
¸
j=1
1
¸
j
0
=1
:
j
o
2
jj
0 :
j
0 .
Proposición 9.6.1 \
c
= c
2
.
Prueba:
o
2
jj
0 =
J
¸
;=1
(j
j;
:
j
÷j
j
0
;
:
j
0 )
2
c
;
=
J
¸
;=1
(
j
j;
:
j
c
;
÷
j
j
0
;
:
j
0 c
;
)
2
c
;
Por lo tanto
\
c
=
1
2
1
¸
j=1
1
¸
j
0
=1
J
¸
;=1
:
j
(
j
j;
:
j
c
;
÷
j
j
0
;
:
j
0 c
;
)
2
c
;
:
j
0
Si desarrollamos por un lado
¸
1
j=1
¸
1
j
0
=1
¸
J
;=1
:
j
j
2
ij
v
2
i
c
2
j
c
;
:
j
0 =
¸
1
j=1
¸
1
j
0
=1
¸
J
;=1
j
2
ij
v
i
c
j
:
j
0
=
¸
1
j=1
¸
J
;=1
j
2
ij
v
i
c
j
.
158 CAPÍTULO 9. ANALISIS DE CORRESPONDENCIAS
y por otro lado, dado que
¸
1
j=1
j
j;
= c
;
.
¸
1
j=1
¸
1
j
0
=1
¸
J
;=1
:
j
j
ij
j
i
0
j
v
i
c
2
j
v
i
0
c
;
:
j
0 =
¸
1
j=1
¸
1
j
0
=1
¸
J
;=1
j
ij
j
i
0
j
c
j
=
¸
1
j=1
¸
J
;=1
j
ij
c
j
c
j
= 1.
es decir, vemos que \
c
= (c ÷c ÷2)2. siendo c =
¸
j.;
j
2
ij
v
i
c
j
.
Proposición 9.6.2 c
2
=
¸
1
I=1
\
2
I
.
Prueba: Sea
V = O
÷1/2
v
(I÷rc
t
)O
÷1/2
c
= lO
A
Y
t
.
Entonces
c
2
= tr(VV
t
) = tr(lO
2
A
l
t
) = tr(O
2
A
).
Proposición 9.6.3 La variabilidad geométrica utilizando sólo las primeras
: coordenadas principales es
\
c
(:) =
n
¸
I=1
\
2
I
.
Prueba: Supongamos : = 1. Podemos escribir la matriz de distancias entre
…las como
^
(2)
= a1
t
÷1a
t
÷2AA
t
.
siendo a el vector columna que contiene los elementos de la diagonal de AA
t
.
Entonces
\
c
=
1
2
r
t
^
(2)
r = r
t
a1
t
r ÷r
t
1a
t
r ÷2r
t
AA
t
r = r
t
a.
Pero
r
t
a = tr(O
1/2
v
AA
t
O
1/2
v
) = tr(lO
2
A
l
t
) = tr(O
2
A
).
Lo hemos probado para : = 1. pero fácilmente vemos que la fórmula tam-
bién vale para : < 1.
Así pues, en la representación por AC de las …las y columnas de N en
dimensión :. el porcentaje de variabilidad geométrica o inercia viene dado
por
1
n
= 100
¸
n
I=1
\
2
I
¸
1
I=1
\
2
I
. (9.6)
9.7. ANALISIS DE CORRESPONDENCIAS MÚLTIPLES 159
9.7. Analisis de Correspondencias Múltiples
El AC combina y representa dos variables categóricas. Pero se puede adap-
tar para estudiar más de dos variables. Presentemos primero el procedimiento
para dos variables, que después generalizaremos.
Escribimos la matriz : (1 ÷ J) de datos binarios como una matriz
: (J
1
÷J
2
)
Z = [Z
1
. Z
2
|.
Entonces tenemos que
H
&
= Z
t
Z =
¸
Z
t
1
Z
1
Z
t
1
Z
2
Z
t
2
Z
1
Z
t
2
Z
2

=:
¸
O
v
I
I
t
O
c

.
La matriz de frecuencias, donde F y C contienen las marginales de …las y
columnas,
H
&
=
¸
F N
N
t
C

es la llamada matriz de Burt. A continuación podemos realizar tres análisis
de correspondencias diferentes sobre las siguientes matrices:
a) N. b) [Z
1
. Z
2
|. c) H
&
.
El análisis a) lo hemos visto en las secciones anteriores. El resultado es
una representación de …las y columnas de N.
El análisis b) es sobre [Z
1
. Z
2
|. considerada una matriz binaria con :
…las y J
1
÷ J
2
columnas. AC nos daría una representación de las J
1
÷ J
2
columnas, que es la interesante, y también de los : individuos, pero esta
segunda representación es innecesaria.
El análisis c) es sobre H
&
que es la matriz simétrica de orden (J
1
÷J
2
)
(J
1
÷J
2
). Tendremos una representación idéntica por columnas y por …las.
En los tres casos vemos que podemos representar las …las y columnas de
N. Es posible demostrar que los tres análisis son equivalentes en el sentido de
que proporcionan la misma representación, variando sólo los valores propios.
160 CAPÍTULO 9. ANALISIS DE CORRESPONDENCIAS
Todo esto se describe en el cuadro que sigue.
Tabla Dimensión Coordenadas Valor propio
N = Z
t
1
Z
2
J
1
J
2
A (…las)
H (columnas)
\
Z = [Z
1
. Z
2
| : (J
1
÷J
2
)
¸
A
H

1+

A
2
H
&
= Z
t
Z (J
1
÷J
2
) (J
1
÷J
2
)
¸
A
H

(
1+

A
2
)
2
Consideremos a continuación ( variables categòricas con J
1
. . . . . J
Q
esta-
dos, respectivamente, sobre : individuos. Sea J = J
1
÷ ÷J
Q
. La tabla de
datos, de orden : J es la super-matriz de indicadores
Z = [Z
1
. . . . . Z
;
. . . . . Z
o
|.
donde Z
;
es : J
;
y contiene los datos binarios de la variable ,. La tabla de
contingencia que tabula la combinación de las variables i. , es N
j;
= Z
t
j
Z
;
.
La matriz de Burt, de orden J J es
H
&
= Z
t
Z =

Z
t
1
Z
1
Z
t
1
Z
2
Z
t
1
Z
Q
Z
t
2
Z
1
Z
t
2
Z
2
Z
t
2
Z
Q
.
.
.
.
.
.
.
.
.
.
.
.
Z
t
Q
Z
1
Z
t
Q
Z
2
Z
t
Q
Z
Q
¸
¸
¸
¸
¸
.
donde las matrices Z
t
;
Z
;
són diagonales.
El Anàlisis de Correspondencias Múltiples intenta representar los J =
J
1
÷ ÷J
Q
estados de las ( variables categòricas. Como en el caso ( = 2. lo
podemos llevar a cabo aplicando un AC simple sobre las matrices siguientes:
a) Z. b) H
&
.
En el caso a) representamos las J columnas e ignoramos las : …las (in-
dividuos). En el caso b) tenemos una tabla de frecuencias J J simétrica
y podemos representar las …las (=columnas) aplicando AC simple. Los dos
procedimientos son equivalentes, salvo que se cumple la relación
\
1
I
= (\
Z
I
)
2
9.8. EJEMPLOS 161
entre los valores propios \
1
I
obtenidos a partir de la matriz de Burt y los \
Z
I
que surgen del análisis sobre Z. Las inercias correspondientes son:
c
2
(H
&
) =
¸
I
\
1
I
=
1
(
2
[
¸
j,=;
c
2
(`
j;
) ÷ (J ÷()|.
c
2
(Z) =
¸
I
\
Z
I
=
J
(
÷1.
siendo c
2
(`
j;
) la inercia para la tabla `
j;
. véase Sección 9.6. Así pues podemos
constatar que AC puede servir también para representar más de dos variables
categòricas.
9.8. Ejemplos
Ejemplo 9.8.1
La Tabla 9.3 contiene las frecuencias con la clasifcación cruzada de 1257
individuos segun Edad (E), Sexo (S), intención de Voto (V) y Clase social
(C). Tenemos ( = 4. J = 12. J
1
= 4. J
2
= 2. J
3
= 3. J
4
= 2. Los datos
iniciales (matriz Z. solo mostramos 5 individuos) son de la forma:
Edad Votación Clase Sexo
73 51-73 41-50 26-40 <26 Lib Con Alt Mit Obr H D
0 1 0 0 0 1 0 0 1 0 1 0
0 1 0 0 0 0 1 1 0 0 0 1
0 0 0 0 1 1 0 0 0 1 1 0
1 0 0 0 0 0 1 1 0 0 0 1
0 1 0 0 0 1 0 0 1 0 1 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
La Tabla 9.4 es la tabla de Burt. Observemos que es simétrica. El AC
simple sobre esta tabla nos permite representar las 4 variables categóricas
sobre el mismo grá…co, véase la Figura 9.3.
162 CAPÍTULO 9. ANALISIS DE CORRESPONDENCIAS
Edad Hombres Mujeres
Derecha Izquierda Derecha Izquierda
Clase alta
73 4 0 10 0
51-73 27 8 26 9
41-50 27 4 25 9
26-40 17 12 28 9
<26 7 6 7 3
Clase media
73 8 4 9 1
51-73 21 13 33 8
41-50 27 12 29 4
26-40 14 15 17 13
<26 9 9 13 7
Clase obrera
73 8 15 17 4
51-73 35 62 52 53
41-50 29 75 32 70
26-40 32 66 36 67
<26 14 34 18 33
Tabla 9.3: Tabla de frecuencias combinando 1257 individuos según edad, sexo,
clase social y tendencia de voto.
81 0 0 0 0 56 25 14 23 44 39 42
0 347 0 0 0 194 153 70 75 202 166 181
0 0 343 0 0 169 174 65 72 206 174 169
0 0 0 326 0 144 182 66 59 201 156 170
0 0 0 0 160 68 92 23 38 99 79 81
56 194 169 144 68 631 0 178 180 273 279 352
25 153 174 182 92 0 626 60 87 479 335 291
14 70 65 66 23 178 60 238 0 0 112 126
23 75 72 59 38 180 87 0 267 0 132 135
44 202 206 201 99 273 479 0 0 752 370 382
39 166 174 156 79 279 335 112 132 370 614 0
42 181 169 170 81 352 291 126 135 382 0 643
Tabla 9.4: Tabla de Burt con la clasi…cación de 1257 individuos según edad,
sexo, clase social y tendencia de voto.
9.8. EJEMPLOS 163
Figura 9.3: Representación por análisis de correspondencias múltiples de los
datos de la Tabla 9.3.
Ejemplo 9.8.2
La Tabla 9.5 contiene las frecuencias de supervivientes, clasi…cadas por
género (G), supervivencia (S), edad (E) y clase (C, primera 1, segunda
2, tercera 3 y tripulación T), del hundimiento del vapor “Titanic”. Ahora
( = 4. J = 10. J
1
= 2. J
2
= 2. J
3
= 2. J
4
= 4. La Figura 9.4 representa esta
combinación de datos categóricos. Claramente los hombres adultos, la tripu-
lación y la tercera clase están más cerca de NO supervivencia, mientras que
mujeres, niños y primera clase están más cerca de SÍ supervivencia. Véase
también el Ejemplo 14.5.1.
164 CAPÍTULO 9. ANALISIS DE CORRESPONDENCIAS
Género Edad Superv 1 2 3 T
Hombre Adulto NO 118 154 387 670
Mujer 4 13 89 3
Hombre Niño 0 0 35 0
Mujer 0 0 17 0
Hombre Adulto SI 57 14 75 192
Mujer 140 80 76 20
Hombre Niño 5 11 13 0
Mujer 1 13 14 0
Tabla 9.5: Tabla de frecuencias combinando género, edad, supervivencia y
clase, de los datos de supervivencia del "Titanic".
Figura 9.4: Representación por análisis de correspondencias múltiples de los
datos de supervivencia del “Titanic”, Tabla 9.5.
9.9. MDS PONDERADO 165
9.9. MDS ponderado
En esta sección introducimos una variante del Análisis de Coordenadas
Principales.
De…nición 9.9.1 Sea ^
j
= (o
j;
) una matriz de distancias o o. v =
(n
1
. . . . . n
j
)
t
un vector de pesos tal que
v
t
1 =
j
¸
j=1
n
j
= 1. n
j
_ 0.
y consideremos la matriz diagonal O
&
=diag(v). La solución MDS ponderada
de ^
j
es la matriz
X = O
÷1/2
&
lA.
siendo
O
1/2
&
(I
j
÷1v
t
)(÷
1
2
D
(2)
j
)(I
j
÷v1
t
)O
1/2
&
= lA
2
l
t
. (9.7)
una descomposición espectral, donde A
2
= dico(\
2
1
. . . . . \
2
j
) contiene los val-
ores propios y ^
(2)
j
= (o
2
j;
).
De…nición 9.9.2 La variabilidad geométrica ponderada de ^
j
es
\
c
=
1
2
a
¸
j.;=1
n
j
o
2
j;
n
;
=
1
2
v
t
^
(2)
j
v.
Las coordenadas principales son las …las de X. Escribiendo
X = [A
1
. A
2
. . . . . A
j
|.
podemos interpretar las columnas de X como variables. Observemos que se
veri…ca
(I
j
÷1v
t
)(÷
1
2
^
(2)
j
)(I
j
÷v1
t
) = XX
t
. (9.8)
Propiedades:
1. Las variables A
I
(columnas de X) tienen medias ponderadas iguales a
cero:
A
I
= v
t
A
I
= 0.
Prueba:
v
t
(I
j
÷1v
t
) = v
t
÷v
t
= 0 =v
t
XX
t
v = 0 =v
t
X = 0.
166 CAPÍTULO 9. ANALISIS DE CORRESPONDENCIAS
2. Las varianzas ponderadas de las variables A
I
son iguales a los valores
propios:
:
2
I
= \
2
I
. / = 1. . . . . j.
Prueba: si la media de r
1
. . . . . r
j
es 0. la varianza ponderada es
¸
n
j
r
2
j
.
es decir,
:
2
I
= O
1/2
&
X
I
X
t
I
O
1/2
&
= (l
t
I
X
I
)(X
I
l
I
) = \
2
I
.
donde \
2
I
es el valor propio de vector propio l
I
.
3. Las variables (columnas de X) están incorrelacionadas
cor(A
I
. A
I
0 ) = 0. / = /
t
= 1. . . . . j.
Prueba: puesto que las medias son nulas la covarianza ponderada es
cov(A
I
. A
I
0 ) = O
1/2
&
X
t
I
X
I
0 O
1/2
&
= \
2
I
l
t
I
l
I
0 = 0.
ya que los vectores propios son ortogonales.
4. La variabilidad geométrica ponderada de ^
j
es
\
c
=
j
¸
I=1
\
2
I
.
Prueba: Expresemos la matriz de distancias al cuadrado como
^
(2)
j
= 1d
t
÷d1
t
÷2XX
t
.
siendo d un vector o 1 con los elementos diagonales de XX
t
. Por una
parte
1
2
v
t
^
(2)
j
v = v
t
1d
t
v÷v
t
XX
t
v = d
t
v.
Por otra parte
d
t
v =tr(O
1/2
&
XX
t
O
1/2
&
) =tr(lA
2
l
t
) =tr(A
2
).
5. Si tomamos las ¡ primeras coordenadas principales de X. la variabilidad
geométrica ponderada es:
\
c
(¡)=
o
¸
I=1
\
2
I
.
9.9. MDS PONDERADO 167
Estudiemos ahora la relación entre el Análisis de Coordenadas Principales
ordinario (Cap. 8) y el ponderado. Supongamos que podemos expresar el
vector de pesos como
v =
1
:
(:
1
. :
2
. . . . . :
I
). : =
j
¸
j=1
:
j
.
donde :
j
son enteros positivos y el peso n
j
es igual (o muy próximo
1
) a :
j
:.
Indiquemos por ^ la matriz : o que contiene :
j
…las (0. . . . . 1. . . . . 0). Por
ejemplo, si o = 3 y :
1
= 2. :
2
= 3. :
3
= 1. entonces
^=

¸
¸
¸
¸
¸
¸
¸
1 0 0
1 0 0
0 1 0
0 1 0
0 1 0
0 0 1
¸

.
Si ahora suponemos que en vez de o objetos tenemos : objetos, pero
el primer objeto está repetido :
1
veces, el segundo objeto :
2
veces, etc.,
entonces la matriz de distancias es
^
a
= ^^
j
^
t
. (9.9)
y el análisis no ponderado sobre la matriz ^
a
es
(I
a
÷
1
:
11
t
)(÷
1
2
^
(2)
a
)(I
a
÷
1
:
11
t
) =
¯
lO
2
A
¯
l
t
= ¥¥
t
. (9.10)
siendo
¯
l la matriz : j de los vectores propios. La solución no ponderada
es
¥ =
¯
lO
A
.
Teorema 9.9.1 La solución no ponderada ¥ sobre ^
a
coincide con la solu-
ción ponderada X sobre ^
j
. en el sentido de que obtenemos ¥ repitiendo
:
1
. . . . . :
j
veces las …las de X.
1
Tomando n su…cientmente grande, podemos aproximarlo tanto como queramos.
168 CAPÍTULO 9. ANALISIS DE CORRESPONDENCIAS
Prueba: De (9.9) podemos expresar la solución no ponderada (9.10) como
(I
a
÷
1
:
11
t
)^(÷
1
2
^
(2)
j
)^
t
(I
a
÷
1
:
11
t
) = ¥¥
t
.
Se veri…ca
(I
a
÷
1
:
11
t
)^= ^(I
j
÷1
j
v
t
).
Por lo tanto, de (9.8) tenemos
^(I
j
÷1v
t
)(÷
1
2
^
(2)
j
)(I
j
÷v1
t
)^
t
= ^XX
t
^
t
.
que demuestra que ¥ = ^X. En otras palabras, las coordenadas principales
no ponderadas ¥ son el resultado de repetir :
1
. . . . . :
j
veces las coordenadas
X. La relación entre los valores singulares es
¯
\
I
= o\
I
. / = 1. . . . . j.
Por ejemplo, si o = 3 y :
1
= 2. :
2
= 3. :
3
= 1. obtenemos
X =

¸
r
11
r
12
r
21
r
22
r
31
r
32
¸

. ¥ =

¸
¸
¸
¸
¸
¸
¸
r
11
r
12
r
11
r
12
r
21
r
22
r
21
r
22
r
21
r
22
r
31
r
32
¸

.
9.10. Complementos
El Análisis de Correspondencias (AC) tiene una larga historia que se inicia
en 1935 (H.O. Hirschfeld, R.A. Fisher, L. Guttman). Ha sido extensamente
estudiado por Benzécri (1973) y Greenacre (1984).
Utilizando coordenadas estándard A
0
= (c
0
jI
). H
0
= (/
0
;I
). podemos ex-
presar la matriz de correspondencias I = (j
j;
) como
I = rc
t
÷O
v
A
0
O
A
H
t
0
O
c
.
Indicando r = (j

. . . . . j

)
t
. c = (j
·1
. . . . . j
·J
)
t
los vectores marginales de …las
y columnas de I, la expresión escalar es
j
j;
= j

j
·;
(1 ÷
1
¸
I=1
\
I
c
0
jI
/
0
;I
).
9.10. COMPLEMENTOS 169
Si el término entre paréntesis c =
¸
1
I=1
\
I
c
0
jI
/
0
;I
. es su…cientemente pequeño
para que log(1 ÷c) - c. entonces
log j
j;
= log j

÷ log j
·;
÷
1
¸
I=1
\
I
c
0
jI
/
0
;I
.
que se adapta a un modelo log-lineal (Sección 11.5), donde c cuanti…caría
el término de interacción. El AC sería pues una manera de visualizar los
términos de interacción (van der Heijden y de Leeuw, 1985).
CA veri…ca el “principio de equivalencia distribucional”: si dos per…les de
columnas son idénticos, es decir,
j
j;
c
;
=
j
j;
0
c
;
0
. i = 1. . . . . 1.
entonces las columnas ,. ,
t
de N pueden juntarse y ser reemplazadas por su
suma. En efecto, cuando se cumple este principio
j
j;
c
;
=
j
j;
0
c
;
0
=
j
j;
÷j
j;
0
c
;
÷c
;
0
.
Luego
[(
j
j;
:
j
c
;
)÷(
j
j
0
;
:
j
0 c
;
)|
2
c
;
÷[(
j
j;
0
:
j
c
;
0
)÷(
j
j
0
;
0
:
j
0 c
;
0
)|
2
c
;
0 = [(
j
j;
÷j
j;
0
:
j
(c
;
÷c
;
0 )
)÷(
j
j
0
;
÷j
j
0
;
0
:
j
0 (c
;
÷c
;
0 )
)|
2
(c
;
÷c
;
0 ).
y la distancia ji-cuadrado queda inalterada si juntamos las columnas , y ,
t
.
Una variante del AC propuesta por Rao (1995), se basa en la distancia
de Hellinger
¯
o
2
jj
0 =
J
¸
;=1
(

j
j;
:
j
÷

j
j
0
;
:
j
0 )
2
.
entre dos …las de N. que tiene la ventaja de no depender de los per…les de las
columnas. Sin embargo los resultados pueden ser muy similares (Cuadras et
al, 2004), y el método basado en esta distancia resulta más apropiado cuando
las …las se ajustan a poblaciones multinomiales distintas.
Una forma alternativa de presentar el AC es el “reciprocal averaging”
(RA). Supongamos que queremos encontrar las coordenadas (c
1
. . . . . c
1
) de
170 CAPÍTULO 9. ANALISIS DE CORRESPONDENCIAS
las …las como medias ponderadas de las coordenadas de las columnas y recíp-
rocamente, las coordenadas (/
1
. . . . . /
J
) de las columnas como medias pon-
deradas de las coordenadas de las …las:
c
j
=
J
¸
;=1
/
;
j
j;
:
j
. /
;
=
1
¸
j=1
c
j
j
j;
c
;
.
Pero estas relaciones no se pueden veri…car simultáneamente (por razones
geométricas obvias), así que hemos de introducir un factor multiplicativo
1 y escribir
c
j
=
J
¸
;=1
/
;
j
j;
:
j
. /
;
=
1
¸
j=1
c
j
j
j;
c
;
. (9.11)
El objectivo del RA es encontrar las coordenadas veri…cando (9.11) tal que
sea mínimo. Entonces es posible probar que \ = (1)
2
es un valor propio.
Esto mismo lo podemos plantear para la segunda y siguientes coordenadas
y probar la equivalencia entre RA y AC. Los cálculos del RA se efectúan
iterativamente, y es útil (especialmente en ecología), cuando la matriz de
frecuencias N tiene dimensión grande y contiene muchos ceros (Hill, 1973).
Por otra parte se conoce a (9.11) como la mejor representación ÷baricéntrica
sobre un eje (Lebart et al., 1977).
Una extensión interesante del AC es el “Canonical Correspondence Analy-
sis“ (Ter Braak, 1986), que tiene en cuenta, para la representación, que
los ejes sean combinación lineal de variables externas. Tiene aplicaciones
en ecología, dado que permite relacionar las comunidades biológicas con las
variables ambientales.
Además del análisis de correspondencias múltiples, se pueden también
representar tablas de contingencia múltiples mediante “mosaicos”. La Figura
9.5 contiene la representación en mosaico de los datos del Titanic, Tabla 9.5.
Véase Friendly (1994, 1999).
Una extensión continua del AC considera una densidad bivariante /(r. n)
con densidades marginales 1(r). o(n). y la descomposición singular
1(r)
÷1/2
/(r. n)o(n)
÷1/2
=
o
¸
I=1
j
I
n
I
(r)·
I
(n). (9.12)
donde ¦j
I
. / _ 1¦ son correlaciones canónicas y ¦n
I
. / _ 1¦. ¦·
I
. / _ 1¦ son
sistemas de funciones ortonormales (Lancaster, 1969). Hay una interesante
9.10. COMPLEMENTOS 171
Figura 9.5: Representación en “mosaico” de los datos de supervivencia del
“Titanic”, Tabla 9.5.
semejanza entre (9.12) y el AC, pues muchas propiedades se conservan. Véase
una comparación sistemática en Cuadras et al. (2000) y Cuadras (2002b). El
ACha sido también comparado con otros métodos de representación de tablas
de contingencia (Cuadras et al., 2006), propiciando una versión paramétrica
que los engloba a todos (Cuadras y Cuadras, 2006). Para una amplia visión
del Análisis de Correspondencias y sus variantes, véase Greenacre (2008).
172 CAPÍTULO 9. ANALISIS DE CORRESPONDENCIAS
Capítulo 10
CLASIFICACION
10.1. Introducción
Clasi…car los elementos de un conjunto …nito consiste en realizar una par-
tición del conjunto en subconjuntos homogéneos, siguiendo un determinado
criterio de clasi…cación. Cada elemento pertenece a un único subconjunto,
que a menudo tiene un nombre que lo caracteriza. Así clasi…camos:
Las personas en hombres y mujeres.
Los trabajadores en actividades profesionales: servicios, industria, agri-
cultura.
Los animales en especies, géneros, familias y órdenes.
Los libros de una biblioteca en arte, literatura, ciencia, informática y
viajes.
Sea ! = ¦.
1
. .
2
. . . . . .
a
¦ un conjunto …nito con : elementos diferentes,
que abreviadamente indicaremos
! = ¦1. 2. .... :¦.
Clasi…car es también de…nir una relación de equivalencia { sobre !. Esta
relación de…ne una partición sobre ! en : clases de equivalencia:
! = c
1
÷c
2
÷ ÷c
n
.
donde ÷ signi…ca reunión disjunta. A la partición la llamaremos clustering y
a las clases de equivalencia clusters.
173
174 CAPÍTULO 10. CLASIFICACION
10.2. Jerarquía indexada
Las clasi…caciones pueden ser jerárquicas o no jerárquicas . Una clasi-
…cación jerárquica es una sucesión de clusterings tal que cada clustering se
obtiene agrupando clusters. Por ejemplo, si : = ò, una clasi…cación jerárquica
es:
! = ¦1¦ ÷¦2¦ ÷¦3¦ ÷¦4¦ ÷¦ò¦
! = ¦1. 2¦ ÷¦3. 4¦ ÷¦ò¦
! = ¦1. 2¦ ÷¦3. 4. ò¦
! = !
De…nición 10.2.1 Una jerarquía indexada ((. c) sobre ! está formada por
una colección de clusters ( · .(!) y un índice c tal que:
Axioma de la intersección: Si c. c
t
÷ ( entonces c ¨ c
t
÷ ¦c. c
t
. O¦.
Axioma de la reunión: Si c ÷ ( entonces c = '¦c
t
[ c
t
÷ (. c
t
· c¦.
La reunión de todos los clusters es el conjunto total: ! = '¦c [ c ÷ (¦.
El índice c es una aplicación de ( sobre el conjunto de números reales posi-
tivos tal que:
c(i) = 0. \i ÷ !. c(c) _ c(c
t
) si c · c
t
.
Diremos que una jerarquía es total si:
\i ÷ !. ¦i¦ ÷ (.
! ÷ (.
Comentarios:
1. El primer axioma signi…ca que si tenemos dos clusters, uno está incluido
en el otro o ambos son disjuntos, es decir, c · c
t
. ó c
t
· c. ó c ¨ c
t
= O.
Se trata de evitar que un elemento de ! pertenezca a dos clusters
excluyentes a la vez, ya que entonces estaría mal clasi…cado.
2. El segundo axioma signi…ca que cada cluster es reunión de los clusters
que contiene. Es decir, reuniendo clusters obtenemos clusters más am-
plios. Por ejemplo, en el reino animal, un género es reunión de especies,
una familia es reunión de géneros, etc.
10.2. JERARQUÍA INDEXADA 175
3. El índice c mide el grado de heterogeneidad de cada cluster. Cuanto
más grande es el cluster más heterogéneo es.
Teorema 10.2.1 Para todo r _ 0 la relación binaria {
a
sobre los elementos
de !
i{
a
, :i i. , ÷ c. :ic:do c(c) _ r. (10.1)
es de equivalencia.
Demost.: La relación {
a
es:
Re‡exiva: i{
a
i ya que i ÷ ¦i¦, siendo c(¦i¦) = 0 _ r.
Simétrica: Evidente.
Transitiva: Sea c
j;
el mínimo cluster que contiene i. ,, y análogamente c
;I
.
Entonces :
i{
a
, =i. , ÷ c
j;.
c(c
j;
) _ r. ,{
a
/ =,. / ÷ c
;I.
c(c
;I
) _ r.
=c
j;
¨ c
;I
= O =

c) c
j;
· c
;I
=i. / ÷ c
;I.
/) c
;I
· c
j;
=i. / ÷ c
j;.
=i{
a
/.
La relación (10.1) de…ne, para cada r _ 0, una partición de ! en clases
de equivalencia. La partición se llama clustering al nivel r.
Ejemplo 10.2.1
Consideremos : = ò partidos políticos: CU (Conveniencia y Unión), PP
(Partido Pragmático), PSC (Partido Social Catalán), IC (Iniciativa Cata-
lana) y ER (Entente Republicana). Un ejemplo (hipotético) de jerarquía
indexada sobre ! ={CU,PP,PSC,IC,ER} es:
( ={CU
0
,PP
0
,PSC
0
,IC
0
,ERC
0
,{CU, PP}
1
,{PSC, IC}
1.5
,{PSC, IC, ERC}
2
,!
3
},
donde el índice c está indicado como un subíndice: c(CU)=0, c(CU,PP)=1,
etc. Tenemos entonces las siguientes particiones o clusterings:
c Nom¦rc ocl clnsicring
! = ¦CU¦ ÷¦II¦ ÷¦ISC¦ ÷¦IC¦ ÷¦LI¦ 0 (partidos)
! = ¦CU. II¦ ÷¦ISC. IC¦ ÷¦LI} 1.ò (derecha, izquierda, centro)
! = ¦CU. II¦ ÷¦ISC. IC. LI} 2 (coaliciones)
! = ! 3 (parlamento)
La representación de esta clasi…cación se encuentra en la Figura 10.1, que
justi…camos en la sección siguiente.
176 CAPÍTULO 10. CLASIFICACION
10.3. Geometría ultramétrica
Para presentar una clasi…cación utilizamos llaves. Por ejemplo, la clasi…-
cación divisiva de Nación, Comunidades Autónomas y Provincias (sólo vamos
a considerar 8) es:
Nación Autonomías Provincias
Lspa na

Arag´on

Hncsca
Jcrncl
Zaragoza
Caialnnya

Larcclona
Gcrona
L´crioa
Jarragona
Maorio Maorio
Una generalización de las llaves es el árbol ultramétrico. Como veremos
más adelante, una jerarquía indexada puede ser visualizada mediante un
grá…co sencillo e intuitivo, llamado dendograma.
De…nición 10.3.1 Un espacio ultramétrico (!. n) es una estructura forma-
da por un conjunto …nito ! y una función distancia n sobre !! veri…cando,
para todo i. ,. / de !:
No negatividad: n(i. ,) _ n(i. i) = 0.
Simetría: n(i. ,) = n(,. i).
Propiedad ultramétrica:
n(i. ,) _ snp¦n(i. /). n(,. /)¦.
La matriz l = (n(i. ,)) de orden : :
l =

¸
¸
¸
¸
n
11
n
12
n
1a
n
21
n
22
n
2a
.
.
.
.
.
.
.
.
.
.
.
.
n
a1
n
a2
n
aa
¸

n
j;
= n
;j
= n(i. ,). n
jj
= 0.
es la matriz de distancias ultramétricas .
10.3. GEOMETRÍA ULTRAMÉTRICA 177
Proposición 10.3.1 Una distancia ultramétrica veri…ca la desigualdad tri-
angular y por lo tanto es métrica.
Demost.:
n(i. ,) _ snp¦n(i. /). n(,. /)¦ _ n(i. /) ÷n(,. /).
De…nición 10.3.2 Un triángulo ¦i. ,. /¦ formado por tres elementos de !
es ultramétrico si es isósceles y su base es el lado más pequeño. Es decir, si
n(i. ,) es la base, entonces
n(i. ,) _ n(i. /) = n(,. /).
Teorema 10.3.2 En un espacio ultramétrico todo triángulo es ultramétrico.
Demost.: Sea ¦i. ,. /¦ un triángulo. Sea n(i. ,) es el lado más pequeño, en-
tonces:
n(i. /) _ snp¦n(i. ,). n(,. /)¦ = n(,. /)
n(,. /) _ snp¦n(i. ,). n(i. /)¦ = n(i. /)
==n(i. /) = n(,. /).
De…nición 10.3.3 Un árbol ultramétrico (también llamado dendograma) es
un grafo conexo, sin ciclos con un punto llamado raiz y : puntos extremos
equidistantes de la raiz.
Una propiedad importante es que todo espacio ultramétrico (!. n) se
puede “dibujar” mediante un dendograma, como muestra la Figura 10.2.
Teorema 10.3.3 Sea (!. n) un espacio ultramétrico. Entonces podemos rep-
resentarlo mediante un árbol ultramétrico con extremos los elementos de !.
Demost.: Supongamos el árbol en posición vertical. Sea n(i. ,) la distancia
entre los extremos i. , medida como la mitad de la mínima longitud de las
aristas verticales que unen i con ,, es decir, la distancia vertical hasta el
nudo que liga i con ,. Consideremos un triángulo ¦i. ,. /¦ y supongamos
que ¦i. ,¦ es el lado más pequeño. Entonces / se relaciona con i. , en un
nudo
t
por encima de . Así n(/. i) = n(/. ,) = n(i. ,) ÷ . donde _ 0
es la distancia vertical entre y
t
. Esto demuestra que ¦i. ,. /¦ es un arbol
ultramétrico.
Hay una versión del Teorema 10.2.1 para distancias ultramétricas.
178 CAPÍTULO 10. CLASIFICACION
Figura 10.1: Representación en árbol ultramétrico (dendograma) de cinco
partidos políticos.
Teorema 10.3.4 Sea (!. n) un espacio métrico. Si n es distancia ultramétri-
ca, entonces la relación binaria {
a
sobre los elementos de !
i{
a
, :i n(i. ,) _ r. (10.2)
es de equivalencia para todo r _ 0. Recíprocamente, si la relación (10.2) es
de equivalencia para todo r _ 0, entonces n es distancia ultramétrica.
Demost.: Supongamos que n es ultramétrica. Entonces la relación {
a
es:
Re‡exiva: n(i. i) = 0 _ r.
Simétrica: n(i. ,) = n(,. i) _ r.
Transitiva: Sea ¦i. ,. /¦ un triángulo ultramétrico con base ¦i. ,¦. entonces
tenemos
n(i. ,) _ n(,. /) = n(i. /) _ r.
que nos demuestra la transitividad.
Supongamos ahora que {
a
es de equivalencia y que el triángulo ¦i. ,. /¦
veri…ca:
n(i. ,) _ n(,. /) _ n(i. /).
10.3. GEOMETRÍA ULTRAMÉTRICA 179
Sea r = n(,. /). Entonces n(i. ,) _ r. n(,. /) _ r =n(i. /) _ r = n(,. /)
por la transitividad de {
a
. Esto demuestra que n(,. /) = n(i. /) y por lo
tanto el triángulo ¦i. ,. /¦ es ultramétrico.
La Figura 10.1 contiene el dendograma correspondiente a la jeraquía in-
dexada del ejemplo 10.2.1.
Otra propiedad importante es que juntando elementos próximos de !
seguimos manteniendo la propiedad ultramétrica, y esto vale para cualquier
clustering.
Teorema 10.3.5 Supongamos que sobre los : clusters del clustering
! = c
1
÷c
2
÷ ÷c
n
hay de…nida una distancia ultramétrica n. Sean c
j
. c
;
los dos clusters más
próximos: n(c
j
. c
;
) = mínimo. Entonces uniendo c
j
con c
;
, se puede de…nir
una distancia ultramétrica n
t
sobre los :÷1 clusters del clustering
! = c
1
÷ ÷c
j
' c
;
÷ ÷c
n
.
Demost.: Si / = i. ,. por la propiedad ultramétrica tenemos que n(c
I
. c
j
) =
n(c
I
. c
;
). De…nimos:
n
t
(c
I
. c
j
' c
;
) = n(c
I
. c
j
) = n(c
I
. c
;
). / = i. ,.
n
t
(c
o
. c
b
) = n(c
o
. c
b
). c. / = i. ,.
(10.3)
Consideremos el triángulo ¦c
o
. c
b
. c
j
' c
;
¦. Entonces:
n
t
(c
o
. c
b
) = n(c
o
. c
b
)
_ snp¦n(c
o
. c
j
). n(c
b
. c
j
)¦ = snp¦n
t
(c
o
. c
j
' c
;
). n
t
(c
b
. c
j
' c
;
)¦.
n
t
(c
o
. c
j
' c
;
) = n(c
o
. c
j
)
_ snp¦n(c
o
. c
b
). n(c
b
. c
j
)¦ = snp¦n
t
(c
o
. c
b
). n
t
(c
b
. c
j
' c
;
)¦.
Finalmente, la propiedad ultramétrica es invariante por transformaciones
monótonas.
Proposición 10.3.6 Si n es distancia ultramétrica y n
t
= .(n) es una trans-
formación de n donde . es una función positiva monótona (creciente o de-
creciente), entonces n
t
es también distancia ultramétrica.
Demost.: Si ¦i. ,. /¦ es un triángulo ultramétrico con base ¦i. ,¦ y . es monó-
tona, tendremos que
n(i. ,) _ n(i. /) = n(,. /) =n
t
(i. ,) _ n
t
(i. /) = n
t
(,. /).
180 CAPÍTULO 10. CLASIFICACION
10.4. Algoritmo fundamental de clasi…cación
A partir de un espacio ultramétrico podemos construir una jerarquia in-
dexada. Nos lo permite el siguiente
Algoritmo fundamental de clasi…cación
Sea (!. n) un espacio ultramétrico. El fundamento de este algoritmo con-
siste en el hecho de que, en virtud del Teorema 10.3.5, juntando elementos o
clusters más próximos, conservamos la propiedad ultramétrica.
1. Comencemos con la partición:
! = ¦1¦ ÷ ÷¦:¦.
2. Sean i. , los dos elementos más próximos: n(i. ,) = mínimo. Los unimos
¦i¦ ' ¦,¦ = ¦i. ,¦
y de…nimos la nueva distancia ultramétrica n
t
n
t
(/. ¦i. ,¦) = n(i. /) = n(,. /). / = i. ,.
(ver Teorema 10.3.5).
3. Consideremos la nueva partición:
! = ¦1¦ ÷ ÷¦i. ,¦ ÷ ÷¦:¦
y repitamos el paso 2 hasta llegar a !. En este proceso, cada vez que
unimos c
j
con c
;
tal que n(c
j
. c
;
) = mínimo, de…nimos el índice
c(c
j
' c
;
) = n(c
j
. c
;
). (10.4)
El resultado de este proceso es una jerarquía indexada ((. c).
10.5. Equivalencia entre jerarquía indexada y
ultramétrica
Una jerarquía indexada es una estructura conjuntista. Un espacio ultra-
métrico es una estructura geométrica. Ambas estructuras son equivalentes.
10.6. ALGORITMOS DE CLASIFICACIÓN JERÁRQUICA 181
Teorema 10.5.1 Sea ((. c) una jerarquía indexada total sobre un conjunto
!. Entonces podemos de…nir una distancia ultramétrica n sobre !. Recíproca-
mente, todo espacio ultramétrico (!. n) de…ne una jerarquía indexada ((. c).
Demost.: A partir de ((. c) de…nimos la siguiente distancia
n(i. ,) = c(c
j;
).
donde c
j;
es el mínimo cluster (respecto a la relación de inclusión) que con-
tiene i. ,. Sea ¦i. ,. /¦ un triángulo y sean también c
jI
. c
;I
los mínimos clusters
que contienen ¦i. /¦. ¦,. /¦ respectivamente. Tenemos que
c
jI
¨ c
;I
= O
y por tanto (axioma de la intersección) hay dos posibilidades:
c) c
jI
· c
;I
=i. ,. / ÷ c
;I
=c
j;
· c
;I
=n(i. ,) = c(c
j;
) _ n(,. /) = c(c
;I
)
/) c
;I
· c
jI
=i. ,. / ÷ c
jI
=c
j;
· c
jI
=n(i. ,) = c(c
j;
) _ n(i. /) = c(c
jI
)
Así pues: n(i. ,) _ snp¦n(i. /). n(,. /)¦.
La posibilidad de construir una jerarquía indexada a partir de una dis-
tancia ultramétrica es una consecuencia del algoritmo fundamental de clasi-
…cación. El índice de la jerarquía viene dado por (10.4).
Comentarios:
1. Obsérvese la analogía entre el Teorema 10.3.5 y el algoritmo funda-
mental de clasi…cación.
2. Obsérvese además que (10.3) permite de…nir de manera inequívoca una
distancia entre un cluster y la unión de los dos clusters más próximos.
Esta propiedad es la que otorga importancia a la distancia ultramétrica.
10.6. Algoritmos de clasi…cación jerárquica
Supongamos que, en relación a unas variables observables, hemos obtenido
una matriz de distancias ^ = (o(i. ,)) de orden : : entre los elementos de
un conjunto ! :
^ =

¸
¸
¸
¸
o
11
o
12
o
1a
o
21
o
22
o
2a
.
.
.
.
.
.
.
.
.
.
.
.
o
a1
o
a2
o
aa
¸

o
j;
= o
;j
= o(i. ,). o
jj
= 0.
182 CAPÍTULO 10. CLASIFICACION
Si la distancia o es ultramétrica, entonces no hay ningún problema para
llevar a cabo una clasi…cación construyendo una jerarquía indexada. Basta
con aplicar el algoritmo fundamental de clasi…cación (Sección 10.4). Pero
en general o no cumple la propiedad ultramétrica y por lo tanto hemos de
modi…car adecuadamente este algoritmo.
Algoritmo de clasi…cación
Sea (!. o) un espacio métrico. El algoritmo de clasi…cación se basa en el
Teorema 10.3.5, en el sentido de que juntaremos los elementos o clusters más
próximos, y procuraremos obtener triángulos ultramétricos.
1. Comencemos con la partición:
! = ¦1¦ ÷ ÷¦:¦.
2. Sean i. , los dos elementos más próximos: o(i. ,) = mínimo. Los unimos
¦i¦ ' ¦,¦ = ¦i. ,¦
y de…nimos la distancia de un elemento / al cluster ¦i. ,¦
o
t
(/. ¦i. ,¦) = 1(o(i. /). o(,. /)). / = i. ,. (10.5)
donde 1 es una función adecuada.
3. Consideremos la nueva partición:
! = ¦1¦ ÷ ÷¦i. ,¦ ÷ ÷¦:¦.
y repitamos el paso 2 hasta llegar a !. En este proceso, cada vez que
unimos c
j
con c
;
tal que o(c
j
. c
;
) = mínimo, de…nimos el índice
c(c
j
' c
;
) = o
t
(c
j
. c
;
). (10.6)
La función 1 en (10.5) se de…ne adecuadamente a …n de que se cumpla la
propiedad ultramétrica. El resultado de este proceso es una jerarquía index-
ada ((. c).
10.6. ALGORITMOS DE CLASIFICACIÓN JERÁRQUICA 183
10.6.1. Método del mínimo
Los diferentes métodos de clasi…cación jerárquica dependen de la elección
de 1 en (10.5). Una primera elección conveniente de 1 consiste simplemente
en tomar el valor más pequeño de los dos lados ¦i. /¦. ¦,. /¦ del triángulo
¦i. ,. /¦ con base ¦i. ,¦, es decir:
o
t
(/. ¦i. ,¦) = m´in¦o(i. /). o(,. /)¦. / = i. ,. (10.7)
En otras palabras, hacemos que el triángulo
o(i. ,¦ _ o(i. /) = c _ o(,. /).
se transforme en ultramétrico
o
t
(i. ,¦ _ o
t
(i. /) = o
t
(,. /) = c.
Ejemplo. Sea ^ una matriz de distancias sobre ! = ¦1. 2. 3. 4. ò¦. El
método del mínimo proporciona una jerarquía indexada ((. c) asociada a
una matriz ultramétrica l:
^ =
1 2 3 4 ò
1 0 1 3 4 7
2 0 4 4 8
3 0 2 8
4 0 7
ò 0
÷
(1. 2) 3 4 ò
(1. 2) 0 3 4 7
3 0 2 8
4 0 7
ò 0
÷
(1. 2) (3. 4) ò
(1. 2) 0 3 7
(3. 4) 0 7
ò 0
÷
(1. 2. 3. 4) ò
(1. 2. 3. 4) 0 7
ò 0
÷( = ¦¦1¦
0
. . . . . ¦ò¦
0
. ¦1. 2¦
1
. ¦3. 4¦
2
. ¦1. 2. 3. 4¦
3
. !
7
¦
((. c) ÷÷l =
1 2 3 4 ò
1 0 1 3 3 7
2 0 3 3 7
3 0 2 7
4 0 7
ò 0
El método del mínimo produce una distancia ultramétrica n que goza de
la siguiente propiedad.
184 CAPÍTULO 10. CLASIFICACION
Teorema 10.6.1 Sea
l = ¦n [ n cs nliram´cirica. n(i. ,) _ o(i. ,)¦
el conjunto de distancias ultramétricas más pequeñas que o. Entonces la dis-
tancia ultramétrica n resultante de aplicar el método del mínimo es el ele-
mento máximo de l
n(i. ,) _ n(i. ,). n ÷ l. \i. , ÷ !.
Demost.: Sean ¦i. ,¦ los elementos más próximos. Entonces n(i. ,) = o(i. ,).
La columna / (= i. ,) tendrá términos repetidos iguales a una distancia o
t
construida tomando un mínimo. Si n _ o es otra distancia ultramétrica,
entonces: a) si es estrictamente más pequeña es evidente que n n. b) si
n(/
t
. /
tt
) es más grande que n(/
t
. /
tt
) pero es igual a alguna o, entonces la
columna / tendrá elementos repetidos, y al menos uno será superior a o
t
.
Contradicción.
El razonamiento es parecido si consideramos un cluster c y un elemento
/ ÷ c. Compárese ^ con l en el ejemplo anterior. Véase también el Teorema
10.7.3.
A la vista de este resultado, podemos decir que n es la mejor aproximación
a o por defecto.
10.6.2. Método del máximo
Una segunda elección razonable de 1 consiste en tomar el valor más grande
de los dos lados ¦i. /¦. ¦,. /¦ del triángulo ¦i. ,. /¦ con base ¦i. ,¦, es decir:
o
t
(/. ¦i. ,¦) = m´ax¦o(i. /). o(,. /)¦. / = i. ,. (10.8)
En otras palabras, hacemos que el triángulo
o(i. ,¦ _ o(i. /) _ o(,. /) = /.
se convierta en ultramétrico
o
t
(i. ,¦ _ o
t
(i. /) = o
t
(,. /) = /.
El método del máximo produce una distancia ultramétrica n que goza de
la siguiente propiedad.
10.6. ALGORITMOS DE CLASIFICACIÓN JERÁRQUICA 185
Teorema 10.6.2 Sea
l = ¦n [ n cs nliram´cirica. n(i. ,) _ o(i. ,)¦
el conjunto de distancias ultramétricas más grandes que o. Entonces la distan-
cia ultramétrica n resultante de aplicar el método del máximo es un elemento
minimal de l
n(i. ,) _ n(i. ,). n ÷ l. \i. , ÷ !.
Así n es la mejor aproximación a o por exceso.
Comentarios:
1. Las distancias n. n. y o veri…can:
n(i. ,) _ o(i. ,) _ n(i. ,).
Hay igualdad n = o = n si y sólo si o es ultramétrica.
2. n es elemento máximo y es único. El método del mínimo sólo tiene una
solución.
3. n es elemento minimal y no es único. El método del máximo puede
tener varias soluciones.
4. Si todos los elementos fuera de la diagonal de la matriz de distancias ^
son diferentes, entonces la solución obtenida aplicando el método del
máximo es única y por tanto n es elemento mínimo .
Finalmente, una notable propiedad de los métodos del mínimo (también
conocido como single linkage) y del máximo (complete linkage) es que con-
servan la ordenación de la distancia o. en el sentido de la Proposición 10.3.6.
Teorema 10.6.3 Los métodos del mínimo y del máximo son invariantes por
transformaciones monótonas de la distancia o :
o
t
= .(o) =n
t
= .(n)
donde n. n
t
son las ultramétricas asociadas a o. o
t
y . es una función monó-
tona positiva.
Demost.: En el proceso de encontar la ultramétrica sólo intervienen los rangos
de los valores de o. que son los mismos que los rangos de los valores de o
t
.
186 CAPÍTULO 10. CLASIFICACION
10.7. Otras propiedades del método del mín-
imo
Una propiedad de la distancia ultramétrica dice que todo elemento de
una bola es también centro de la propia bola.
Proposición 10.7.1 Sea 1(i
0
. :) una bola cerrada de centro i
0
y radio : :
1(i
0
. :) = ¦i ÷ ![ n(i
0
. i) _ :¦.
Entonces
\i ÷ 1(i
0
. :) ·c:i1icc 1(i. :) = 1(i
0
. :).
La demostración es inmediata. También se veri…ca:
Proposición 10.7.2 Sea ¦i
1
. . . . . i
n
¦. Se cumple la desigualdad
n(i
1
. i
n
) _ snp¦n(i
c
. i
c+1
)[c = 1. . . . . :÷1¦.
Demost.: Por recurrencia sobre :. Para : = 2 es la desigualdad ultramétrica.
Supongamos cierto para :÷1. Tenemos:
n(i
1
. i
n
) _ snp¦n(i
1
. i
n÷1
). n(i
n÷1
. i
n

_ snp¦snp¦n(i
c
. i
c+1
)[c = 1. . . . . :÷2¦. n(i
n÷1
. i
n

_ snp¦n(i
c
. i
c+1
)[c = 1. . . . . :÷1¦.
Sea ahora ! = ¦1. 2. . . . . :¦ y o una distancia sobre !.
De…nición 10.7.1 Una cadena [i. ,|
n
es el conjunto ¦i = i
1
. i
2
. . . . . , = i
n
¦.
De…nición 10.7.2 Indiquemos
snp[i. ,|
n
= snp
1<c<n
o(i
c
. i
c+1
)
el máximo salto de la cadena [i. ,|
n
. De…nimos la distancia sobre !
n(i. ,) =´inl
n
snp[i. ,|
n
Teorema 10.7.3 Se veri…ca:
10.7. OTRAS PROPIEDADES DEL MÉTODO DEL MÍNIMO 187
1. n es una ultramétrica tal que n _ o.
2. Si n es otra ultramétrica tal que n _ o entonces n _ n.
3. n es la ultramétrica que se obtiene por el método del mínimo.
Demost.: [i. ,|
2
= ¦i. ,¦ es una cadena que une i. , y por lo tanto
n(i. ,) _ snp[i. ,|
2
Sea [i. ,. /| una cadena que une i. , pero que contiene /. El conjunto de
las cadenas [i. ,. /| está contenido en el conjunto de las cadenas [i. ,|. Por lo
tanto:
´inl
n
snp[i. ,|
n
_´inl
n
0
snp[i. /. ,|
n
0 (10.9)
Por otra parte, dadas las cadenas [i. ,|. [,. /| podemos construir
[i. /. ,| = [i. ,| ' [,. /|
de modo que
snp[i. /. ,| = snp¦snp[i. ,|. snp[,. /|¦
Teniendo en cuenta (10.9) deducimos que
n(i. ,) _ snp¦n(i. /). n(,. /)¦
Sea ahora n _ o. Aplicando la Proposición 10.7.2
n(i. ,) _ snp
1<c<n
n(i
c
. i
c+1
) _ snp[i. ,|
n
Por lo tanto
n(i. ,) _´inl
n
snp[i. ,|
n
= n(i. ,).
Conviene comparar este resultado con el Teorema 10.6.1.
188 CAPÍTULO 10. CLASIFICACION
Figura 10.2: Representación mediante un dendograma que agrupa 11 profe-
sores según los artículos publicados conjuntamente.
10.8. Ejemplos
Profesores. Un grupo de : = 11 profesores de probabilidades y estadística
de la Universidad de Barcelona han publicado, entre 1994 y 2000, unos 150
artículos internacionales, algunos en colaboración. Con la …nalidad de agru-
par los profesores según los artículos que publicaron juntos, consideramos el
coe…ciente de similaridad
:(i. ,) = número de artículos que i. , han publicado juntos.
De…nimos entonces la disimilaridad
d(i. ,) = 1 ÷:(i. ,) m´in¦:(i. i). :(,. ,)¦.
Calculando d(i. ,) para cada par de profesores, obtenemos la siguiente
matriz de distancias:
10.8. EJEMPLOS 189
Are Cor Cua For Mar Nua Oli Oll Rov San Sar
Arenas 0
Corcuera 1 0
Cuadras 0.50 1 0
Fortiana 0.83 1 0.06 0
Marquez 1 1 1 1 0
Nualart 1 1 1 1 1 0
Oliva 1 1 0.33 0.33 1 1 0
Oller 1 0.75 1 1 1 1 1 0
Rovira 1 1 1 1 1 1 1 1 0
Sanz 1 1 1 1 0.33 0.93 1 1 0.11 0
Sarra 1 1 1 1 0.75 1 1 1 1 0.25 0
Aplicando un análisis cluster, método del mínimo (single linkage), a esta
matriz de disimilaridades, obtenemos el dendograma de la Figura 10.2. Este
grá…co pone de mani…esto que hay tres grupos principales con 4, 2 y 5 pro-
fesores, que trabajan en análisis multivariante (AM), estadística matemática
(EM) y análisis estocástico (AE), respectivamente.
Idiomas. Los idiomas tienen semejanzas y diferencias entre sus palabras.
Midiendo objetivamente sus diferencias en relación a las letras que describen
los números 1 a 10, se pretende agrupar jerárquicamente 14 idiomas europeos:
Alemán, Inglés, Vasco, Catalán, Castellano, Danés, Filandés, Francés,
Gallego, Holandés, Húngaro, Italiano, Noruego y Polaco.
La disimilaridad entre cada par de idiomas se calcula sumando el número
de letras que cambian (por supresión, duplicación, añadido, etc.) al escribir
cada uno de los números 1, 2, ..., 10.
Por ejemplo, entre Inglés y Noruego hay 27 diferencias (sumando las que
hay para cada uno de los números del 1 al 10), y entre Español (Castellano)
e Italiano sólo hay 17.
Véase Oliva et al. (1993) para más detalles.
190 CAPÍTULO 10. CLASIFICACION
Figura 10.3: Representación mediante un dendograma (método del mínimo)
de 14 idiomas europeos. Las disimilaridades iniciales se obtiene a partir de
las diferencias al escribir los números del 1 al 10.
La matriz de disimilaridades es:
Ale Ing Vas Cat Cas Dan Fil Fra Gal Hol Hun Ita Nor Pol
Alemán 0
Inglés 29 0
Vasco 45 44 0
Catalán 34 28 45 0
Castellano 32 29 46 17 0
Danés 30 26 43 27 31 0
Filandés 58 55 59 57 55 59 0
Francés 33 32 46 13 24 33 59 0
Gallego 32 27 44 13 7 26 55 23 0
Holandés 19 25 43 43 32 29 56 33 33 0
Húngaro 42 38 45 40 42 36 56 38 40 37 0
Italiano 37 35 46 22 17 32 60 24 15 36 45 0
Noruego 29 27 43 29 32 3 58 33 27 28 36 33 0
Polaco 45 44 53 44 36 44 56 45 38 42 52 42 44 0
Sobre esta matriz de disimilaridades se lleva a cabo un análisis cluster
10.9. CLASIFICACIÓN NO JERÁRQUICA 191
jerárquico, método del míunimo (single linkage). El resultado es el dendogra-
ma de la Figura 10.3. Claramente se aprecia que los idiomas de origen latino
se agrupan, manteniendo una cierta similaridad con las lenguas anglosajonas,
que también se agrupan. El Polaco y el Húngaro, aunque son dos idiomas
bastante distintos, forman un cluster. El Vasco y el Filandés se mantienen
separados de las otras lenguas.
10.9. Clasi…cación no jerárquica
Una clasi…cación no jerárquica de : objetos en relación a una matriz de
datos cuantitativos X, consiste en obtener o grupos homogéneos y excluyentes
(clusters). Si tenemos o clusters, estamos en la misma situación contemplada
en el Cap. 7, y podemos considerar la descomposición de la variabilidad total
T = H÷V
Una partición en o clusters que hace máxima H o mínima V. en relación
a algún criterio, dará una solución al problema, puesto que tendremos una
máxima dispersión entre clusters. Algunos criterios, justi…cados por el análisis
multivariante de la varianza, son:
a) Minimizar tr(V)
b) Minimizar [V[.
c) Minimizar A = [V[[T[.
d) Maximizar tr(V
÷1
H).
Pero la cantidad de maneras diferentes de agrupar : objetos en o clusters
es del orden de o
a
o!. número muy grande incluso para valores moderados de
: y o. Por ejemplo, necesitaríamos formar más de 10
23
clusters si : = ò0. o =
3. Por tanto, es necesario seguir algún algoritmo de agrupación.
El método de las medias móviles consiste en:
1. Comenzar con o puntos del espacio 1
j
y asignar los objetos a o clus-
ters de acuerdo con la proximidad (distancia euclídea) a los o puntos
iniciales.
192 CAPÍTULO 10. CLASIFICACION
2. Calcular los centroides de los o clusters obtenidos y reasignar los objetos
según su proximidad al centroide de cada cluster.
3. Repetir el paso anterior, calculando cada vez la cantidad [V[ (o el
criterio de optimización escogido). Parar cuando [V[ ya no disminuye.
Es posible probar que la suma de cuadrados de las distancias euclídeas
de los puntos de cada cluster al centroide
j
¸
I=1
a
¸
j=1
d
2
(x
Ij
. x
I
)
disminuye a cada paso.
10.10. Número de clusters
Diversos autores (Calinski, Harabasz, Hartigan, Krzanowski, Lai) han
propuesto métodos para estimar el número de clusters sde una clasi…cación.
Es éste un tema abordado desde muchas perspectivas (véase Gordon, 1999).
Normalmente el usuario determina el número / de clusters. Un primer
criterio consiste en tomar el valor / tal que maximice la cantidad
cl
1
(/) =
tr(H(/))
o ÷1

tr(V(/))
: ÷o
.
donde H(/). V(/) indican las matrices entre-grupos y dentro-grupos para /
grupos. Otro criterio considera
dif(/) = (/ ÷1)
2/j
V(/ ÷1) ÷/
2/j
V(/)
y elige / tal que maximiza
c|
2
(/) = di1(/)di1(/ ÷ 1).
Pero c|
1
i c|
2
no estan de…nidos para / = 1. Un tercer criterio propone el
estadístico
H(/) = (
V(/)
V(/ ÷ 1)
÷1)(: ÷/ ÷1).
empieza con / = 1 y aumenta / si H(/) crece signi…cativamente de acuerdo
con una aproximación a la distribución F.
10.11. COMPLEMENTOS 193
Tibshirani et al. (2001) proponen un método que contempla también el
caso / = 1. Partiendo del resultado de cualquier clasi…cación, jerárquica o
no, comparan el cambio de V(/) respecto al cambio esperado para a una
distribución apropiada de referencia
1(log [V(/)[) ÷log [V(/)[.
10.11. Complementos
La historia de la clasi…cación comienza con la sistemática de Carl von Lin-
né, que permitía clasi…car animales y plantas según género y especie. La clasi-
…cación moderna (denominada taxonomía numérica) se inicia en 1957 con
la necesidad de proponer criterios objetivos de clasi…cación (Sokal, Sneath,
Michener). Posteriormente, diversos autores relacionaron las clasi…caciones
jerárquicas con los espacios ultramétricos (Benzecri, Jardine, Sibson, John-
son), dado que la propiedad ultramétrica ya era conocida en otros campos
de la matemática. Hartigan (1967) y Johnson (1967) son dos referencias im-
portantes para representar matrices de similaridades (o disimilaridades) me-
diante dendogramas y relacionarlos con las clasi…caciones jerárquicas. Véase
Gordon (1999).
Una crítica que se ha hecho al análisis cluster es el excesivo repertorio
de distancias y métodos de clasi…cación. Incluso se han realizado clasi…ca-
ciones de las propias maneras de clasi…car, y clasi…caciones jerárquicas de las
distancias. También se ha argumentado (Flury, 1997) que el planteamiento
correcto del análisis cluster consiste en encontrar mixturas
1(x) =j
1
1
1
(x) ÷ ÷j
j
1
j
(x).
donde cada densidad 1
j
representaría un cluster y 1 la densidad de los datos
que hemos observado. Pero si una distancia mide razonablemente las difer-
encias entre los objetos, entonces se pueden obtener clasi…caciones objetivas
aplicando análisis cluster jerárquico. Por ejemplo, en el año 1999 se realizó la
clasi…cación jerárquica del reino vegetal a partir de distancias entre secuen-
cias de DNA, obteniendo una concordancia de un 60 % con la clasi…cación
tradicional basada en la similitud morfológica de las plantas.
J. C. Gower conjeturó en 1971 que toda distancia ultramétrica era eu-
clídea con dimensión : ÷ 1. un resultado que sería probado por Holman
(1972). Interesó entonces estudiar la relación entre representaciones en ár-
bol y en coordenadas (Bock, Crithcley, Heiser, Kruskal). Critchley y Heiser
194 CAPÍTULO 10. CLASIFICACION
(1988) probaron que, a pesar del resultado de Holman, es posible representar
un espacio ultramétrico con una sola dimensión utilizando una métrica ade-
cuada. Un estudio de los vectores propios y las dimensiones principales de
una matriz de distancias ultramétricas es debido a Cuadras y Oller (1987).
Véase también Cuadras y Carmona (1983) y Cuadras et al. (1996).
N. Jardine y R. Simpson propusieron el método de clasi…cación denomi-
nado ‡exible, que consiste en de…nir la distancia de un cluster a la unión de
dos clusters en función de unos parámetros, por ejemplo, inicialmente
o
t
(/. ¦i. ,¦) = c
j
o(i. /) ÷c
;
o(,. /) ÷o(i. ,) ÷[o(i. /) ÷o(,. /)[.
y análogamente en los siguientes pasos. Dando valores a los parámetros se
obtienen los métodos siguientes (se incluye denominación estándar):
Criterio de agrupación c
j
c
;

Mínimo (single linkage) 1/2 1/2 0 ÷12
Máximo (complete linkage) 1/2 1/2 0 ÷12
Media (weighted average link) 1/2 1/2 0 0
UPGMA (group average link) :
j
(:
j
÷:
;
) :
;
(:
j
÷:
;
) 0 0
UPGMA (Unweighted pair group method using arithmetic averages) es un
método recomendable porque proporciona una clasi…cación que se ajusta bien
a la distancia inicial en el sentido de los mínimos cuadrados.
G.H. Ball, D.J. Hall, E. Diday y otros propusieron algoritmos e…cientes
de agrupación no jerárquica. Consúltese Everitt (1993).
Capítulo 11
ANALISIS DISCRIMINANTE
11.1. Introducción
Sean !
1
. !
2
dos poblaciones, A
1
. ....A
j
variables observables, x =(r
1
. .... r
j
)
las observaciones de las variables sobre un individuo .. El problema es asignar
. a una de las dos poblaciones. Este problema aparece en muchas situaciones:
decidir si se puede conceder un crédito; determinar si un tumor es benigno o
maligno; identi…car la especie a que pertenece una planta.
Una regla discriminante es un criterio que permite asignar ., y que
a menudo es planteado mediante una función discriminante 1(r
1
. .... r
j
).
Entonces la regla de clasi…cación es
Si 1(r
1
. .... r
j
) _ 0 asignamos . a !
1
.
en caso contrario asignamos . a !
2
.
Esta regla divide 1
j
en dos regiones
1
1
= ¦x[1(x) 0¦. 1
2
= ¦x[1(x) < 0¦.
En la decisión de clasi…car, nos equivocaremos si asignamos . a una población
a la que no pertenece. La probabilidad de clasi…cación errónea (pce)es
pce = 1(1
2
!
1
)1(!
1
) ÷1(1
1
!
2
)1(!
2
). (11.1)
195
196 CAPÍTULO 11. ANALISIS DISCRIMINANTE
11.2. Clasi…cación en dos poblaciones
11.2.1. Discriminador lineal
Sean j
1
. j
2
los vectoros de medias de las variables en !
1
. !
2
. respectiva-
mente, y supongamos que la matriz de covarianzas ¯ es común. Las distancias
de Mahalanobis de las observaciones x =(r
1
. . . . . r
j
)
t
de un individuo . a las
poblaciones son
`
2
(x.j
j
) = (x÷j
j
)
t
¯
÷1
(x÷j
j
). i = 1. 2.
Un primer criterio de clasi…cación consiste en asignar . a la población más
próxima:
Si `
2
(x.j
1
) < `
2
(x.j
2
) asignamos . a !
1
.
en caso contrario asignamos . a !
2
.
(11.2)
Expresando esta regla como una función discriminante, tenemos:
`
2
(x.j
2
) ÷`
2
(x.j
1
) = x
t
¯
÷1
x÷j
2
¯
÷1
j
2
÷2x
t
¯
÷1
j
2
÷x
t
¯
÷1
x÷j
1
¯
÷1
j
1
÷ 2x
t
¯
÷1
j
1
= (j
2
÷j
1
)
t
¯
÷1
(j
2
÷j
1
) ÷ 2x
t
¯
÷1
(j
1
÷j
2
)
De…nimos la función discriminante
1(x) =
¸

1
2
(j
1
÷j
2
)

t
¯
÷1
(j
1
÷j
2
) . (11.3)
Tenemos que
`
2
(x.j
2
) ÷`
2
(x.j
1
) = 21(x)÷1((j
1
÷j
2
) 2)
y la regla (11.2) es
Si 1(x) 0 asignamos . a !
1
.
en caso contrario asignamos . a !
2
.
La función lineal (11.3) es el discriminador lineal de Fisher.
11.2. CLASIFICACIÓN EN DOS POBLACIONES 197
11.2.2. Regla de la máxima verosimilitud
Supongamos que 1
1
(x) . 1
2
(x) son las densidades de x en !
1
. !
2
. Una regla
de clasi…cación consiste en asignar . a la población donde la verosimilitud
de las observaciones x es más grande:
Si 1
1
(x) 1
2
(x) asignamos . a !
1
.
en caso contrario asignamos . a !
2
.
La función discriminante es
\ (x) = log 1
1
(x) ÷log 1
2
(x) .
11.2.3. Regla de Bayes
En ciertas situaciones, se conocen las probabilidades a priori de que .
pertenezca a cada una de las poblaciones
¡
1
= 1 (!
1
) . ¡
2
= 1 (!
2
) . ¡
1
÷¡
2
= 1.
Una vez que se dispone de las observaciones x =(r
1
. . . . . r
j
). las probabili-
dades a posteriori de que . pertenezca a las poblaciones (teorema de Bayes)
son
1(!
j
x) =
¡
j
1
j
(x)
¡
1
1
1
(x) ÷¡
2
1
2
(x)
. i = 1. 2.
La regla de clasi…cación de Bayes es
Si 1(!
1
x) 1(!
2
x) asignamos . a !
1
.
en caso contrario asignamos . a !
2
.
El discriminador de Bayes es
1(x) = log 1
1
(x) ÷log 1
2
(x) ÷ log (¡
1
¡
2
) .
Cuando ¡
1
= ¡
2
= 12. entonces 1(x) = \ (x) . Este discriminador es óptimo
.
Teorema 11.2.1 La regla de Bayes minimiza la probabilidad de clasi…cación
errónea.
198 CAPÍTULO 11. ANALISIS DISCRIMINANTE
Demost.: Supongamos que se dispone de otra regla que clasi…ca a !
1
si x ÷1
+
1
.
y a !
2
si x ÷1
+
2
. donde 1
+
1
. 1
+
2
son regiones complementarias del espacio
muestral. Indicando dx =dr
1
dr
j
. La probabilidad de clasi…cación errónea
es
jcc
+
= ¡
1

1

2
1
1
(x)dx÷¡
2

1

1
1
2
(x)dx
=

1

2

1
1
1
(x)÷¡
2
1
2
(x))dx÷¡
2
(

1
2
1
2
(x)dx÷

1

1
1
2
(x)dx)
=

1

2

1
1
1
(x)÷¡
2
1
2
(x))dx÷¡
2
.
Esta última integral es mínima si 1
+
2
incluye todas las x tal que ¡
1
1
1
(x)÷¡
2
1
2
(x) <0
y excluye toda las x tal que ¡
1
1
1
(x)÷¡
2
1
2
(x) 0. Por tanto jcc
+
es mínima
si 1
+
2
= 1
2
. donde 1
2
= ¦x[1(x) <0¦.
11.3. Clasi…cación en poblaciones normales
Supongamos ahora que la distribución de A
1
. ....A
j
en !
1
es `
j
(j
1
. ¯
1
)
y en !
2
es `
j
(j
2
. ¯
2
), es decir,
1
j
(x) = (2:)
÷j/2

X
÷1
j

1/2
cxp¦÷
1
2
(x ÷µ
j
)
t
X
÷1
j
(x ÷µ
j
)¦.
11.3.1. Discriminador lineal
Si suponemos j
1
= j
2
. ¯
1
= ¯
2
= ¯. entonces
\ (x) = ÷
1
2
(x÷j
1
)
t
¯
÷1
(x÷j
1
) ÷
1
2
(x÷j
2
)
t
¯
÷1
(x÷j
2
)
= 1(x)
y por tanto los discriminadores máximo verosímil y lineal, el segundo basado
en el criterio de la mínima distancia, coinciden.
Sea c la distancia de Mahalanobis entre las dos poblaciones
c = (j
1
÷j
2
)
t
¯
÷1
(j
1
÷j
2
).
Si suponemos que x proviene de `
j
(j
2
. ¯). de x÷j
1
= x÷j
2
÷j
2
÷j
1
. y de
1(x÷j
2
)(x÷j
2
)
t
= ¯. (x÷j
2
)
t
¯
÷1
(x÷j
2
) ~ .
2
j
, tenemos que la esperanza
de l = (x÷j
1
)
t
¯
÷1
(x÷j
1
) es
1(l) =1[(x÷j
2
)
t
¯
÷1
(x÷j
2
) ÷c ÷ 2(x÷j
2
)
t
¯
÷1
(j
2
÷j
1
)| = j ÷c.
11.3. CLASIFICACIÓN EN POBLACIONES NORMALES 199
y la varianza de \ = (x÷j
2
)
t
¯
÷1
(x÷j
2
) es la misma que la de 1(x) y es
var(\ ) = 1((j
2
÷j
1
)
t
¯
÷1
(x÷j
2
)(x÷j
2
)
t
¯
÷1
(j
2
÷j
1
)) = c.
Entonces encontramos fácilmente la distribución de la función discriminante
1(x) :
1(x) es `(÷
1
2
c. c) si x proviene de `
j
(j
1
. ¯).
1(x) es `(÷
1
2
c. c) si x proviene de `
j
(j
2
. ¯).
(11.4)
11.3.2. Regla de Bayes
Si suponemos j
1
= j
2
. ¯
1
= ¯
2
= ¯. y conocemos las probabilidades a
priori ¡
1
= 1 (!
1
) . ¡
2
= 1 (!
2
) . entonces es fácil ver que
1(x) =1(x)÷log(¡
1
¡
2
).
y la función discriminante de Bayes es el discriminador lineal más la constante
log(¡
1
¡
2
).
11.3.3. Probabilidad de clasi…cación errónea
La probabilidad de asignar x a !
2
cuando proviene de `
j
(j
1
. ¯) es
1(1(x) <0[!
1
) = 1((1(x)÷
1
2
c)

c) = 4(÷
1
2

c).
donde 4(.) es la función de distribución `(0. 1). La probabilidad de clasi…-
cación errónea es
jcc = ¡
1
1(1(x) <0[!
1
) ÷¡
2
1(1(x) 0[!
2
) = 4(÷
1
2

c).
Por tanto jcc es una función decreciente de la distancia de Mahalanobis c
entre las dos poblaciones.
11.3.4. Discriminador cuadrático
Supongamos j
1
= j
2
. ¯
1
= ¯
2
. Entonces el criterio de la máxima verosimil-
itud proporciona el discriminador
((x) =
1
2
x
t

¯
÷1
2
÷¯
÷1
1

x ÷x
t

¯
÷1
1
j
1
÷¯
÷1
2
j
2

÷
1
2
j
t
2
¯
÷1
2
j
2
÷
1
2
j
t
1
¯
÷1
1
j
1
÷
1
2
log [¯
2
[ ÷
1
2
log [¯
1
[
200 CAPÍTULO 11. ANALISIS DISCRIMINANTE
((x) es el discriminador cuadrático. Análogamente podemos obtener el dis-
criminador cuadrático de Bayes
1(x) =((x) ÷ log(¡
1
¡
2
).
11.3.5. Clasi…cación cuando los parámetros son esti-
mados
En las aplicaciones prácticas, j
1
. j
2
. ¯
1
. ¯
2
son desconocidos y se deberán
estimar a partir de muestras de tamaños :
1
. :
2
de las dos poblaciones susti-
tuyendo j
1
. j
2
por los vectores de medias x
1
. x
2
. y ¯
1
. ¯
2
por las matrices de
covarianzas S
1
. S
2
. Si utilizamos el estimador lineal, entonces la estimación
de ¯ será
S =(:
1
S
1
÷:
2
S
2
)(:
1
÷:
2
)
y la versión muestral del discriminador lineal es
´
1(x) = [x÷
1
2
(x
1
÷x
2
)|
t
S
÷1
(x
1
÷x
2
) .
La distribución muestral de
´
1(x) es bastante complicada, pero la distribución
asintótica es normal:
´
1(x) es `(÷
1
2
c. c) si x proviene de `
j
(j
1
. ¯).
´
1(x) es `(÷
1
2
c.
1
2
c) si x proviene de `
j
(j
2
. ¯).
donde c = (x
1
÷x
2
)
t
S
÷1
(x
1
÷x
2
) .
11.3.6. Un ejemplo
Ejemplo 11.3.1
Mytilicola intestinalis es un copépodo parásito del mejillón, que en estado
larval presenta diferentes estadios de crecimiento. El primer estadio (Nauplis)
y el segundo estadio (Metanauplius) son difíciles de distinguir.
Sobre una muestra de :
1
= 70 y :
2
= 01 copépodos que se pudieron iden-
ti…car al microscopio como del primero y segundo estadio respectivamente,
se midieron las variables
| = longitud, c = anchura,
11.3. CLASIFICACIÓN EN POBLACIONES NORMALES 201
Figura 11.1: Discriminadores lineal y cuadrático en la clasi…cación de copépo-
dos. La línea recta es el conjunto de puntos tales que 1 = 0. La parábola es
el conjunto de puntos tales que ( = 0.
y se obtuvieron las siguientes medias y matrices de covarianzas:
Estadio-1
x
1
= ( 210.ò 138.1 )
S
1
=

400.0 ÷1.310
÷1.310 300.2

Estadio-2
x
2
= ( 241.0 147.8 )
S
2
=

210.0 ò7.07
ò7.07 1ò2.8

Discriminador lineal
La estimación de la matriz de covarianzas común es:
S = (:
1
S
1
÷:
2
S
2
)(:
1
÷:
2
) =

301.4 31.02
31.02 222.0

El discriminador lineal es:
1(long. anch) = ((long. anch) ÷
1
2
(401.1. 28ò.0)

301.4 31.02
31.02 222.0

÷1

÷22.1
÷0.7

= ÷0.000long ÷0.034anch ÷ 20.04
202 CAPÍTULO 11. ANALISIS DISCRIMINANTE
La tabla de clasi…caciones es:
Estadio asignado
1 2
Estadio 1 61 15
original 2 21 70
Discriminador de Bayes
Una larva, desde que eclosiona está 4 horas en el estadio 1 y 8 horas
en el estadio 2. Al cabo de 12 horas, la larva pasa a un estadio fácilmente
identi…cable. Por tanto, una larva tiene, a priori, una probabilidad 412 = 13
de pertenecer al estadio 1 y una probabilidad 812 = 23 de pertenecer al
estadio 2. Así ¡
1
= 13. ¡
2
= 23. y el discriminador de Bayes es
1(long. anch) = \ (long. anch) ÷ log(12) = ÷0.000long ÷0.034anch ÷ 20.24
Probabilidad de clasi…cación errónea
Una estimación de la distancia de Mahalanobis es

÷22.1 ÷0.7

301.4 31.02
31.02 222.0

÷1

÷22.1
÷0.7

= 1.872.
La probabilidad de asignar una larva al estadio 1 cuando corresponde al
estadio 2 o al estadio 2 cuando corresponde al estadio 1 es
jcc = 4(÷
1
2

1.872) = 4(÷0.084) = 0.247.
Discriminador cuadrático
El test de homogeneidad de covarianzas nos da:
.
2
= [1 ÷
13
18
(
1

÷
1
00
÷
1
10ò
)|(183ò.4 ÷882.ò ÷020. 32) = 20.22
con 3 g.l. Las diferencias entre las matrices de covarianzas son signi…cati-
vas. Por tanto, el discriminador cuadrático puede resultar más apropiado.
Efectuando cálculos se obtiene:
((long. anch) = 0.0014long
2
÷ 0.002anch
2
÷0.002long anch
÷0.44òlong ÷0.141anch ÷ 72.30
11.4. DISCRIMINACIÓN EN EL CASO DE K POBLACIONES 203
Con el clasi…cador cuadrático se han clasi…cado bien 2 individuos más (Fig.
11.1):
Estadio asignado
1 2
Estadio 1 59 17
original 2 17 74
11.4. Discriminación en el caso de k pobla-
ciones
Supongamos ahora que el individuo . puede provenir de / poblaciones
!
1
. !
2
. . . . . !
I
. donde / _ 3. Es necesario establecer una regla que permita
asignar . a una de las / poblaciones sobre la base de las observaciones x =
(r
1
. r
2
. . . . . r
j
)
t
de j variables.
11.4.1. Discriminadores lineales
Supongamos que la media de las variables en !
j
es j
j
. y que la matriz de
covarianzas ¯ es común. Si consideramos las distancias de Mahalanobis de .
a las poblaciones
`
2
(x.j
j
) = (x÷j
j
)
t
¯
÷1
(x÷j
j
). i = 1. . /.
un criterio de clasi…cación consiste en asignar . a la población más próxima:
Si `
2
(x.j
j
) = m´in¦`
2
(x.j
1
). . `
2
(x.j
I
)¦. asignamos . a !
j
. (11.5)
Introduciendo las funciones discriminantes lineales
1
j;
(x) =

j
j
÷j
;

t
¯
÷1

1
2

j
j
÷j
;

t
¯
÷1

j
j
÷j
;

es fácil probar que (11.5) equivale a
Si 1
j;
(x) 0 para todo , = i. asignamos . a !
j
.
Además las funciones 1
j;
(x) veri…can:
1. 1
j;
(x) =
1
2
[`
2
(x.j
;
) ÷`
2
(x.j
j
)|.
2. 1
j;
(x) = ÷1
;j
(x) .
3. 1
vc
(x) = 1
jc
(x) ÷1
jv
(x) .
Es decir, sólo necesitamos conocer / ÷1 funciones discriminantes.
204 CAPÍTULO 11. ANALISIS DISCRIMINANTE
11.4.2. Regla de la máxima verosimilitud
Sea 1
j
(x) la función de densidad de x en la población !
j
. Podemos obtener
una regla de clasi…cación asignando . a la población donde la verosimilitud
es más grande:
Si 1
j
(x) = m´ax¦1
1
(x). . 1
I
(x)¦. asignamos . a !
j
.
Este criterio es más general que el geométrico y está asociado a las funciones
discriminantes
\
j;
(x) = log 1
j
(x) ÷log 1
;
(x).
En el caso de normalidad multivariante y matriz de covarianzas común, se
veri…ca \
j;
(x) = 1
j;
(x). y los discriminadores máximo verosímiles coinciden
con los lineales. Pero si las matrices de covarianzas son diferentes ¯
1
. . . . . ¯
I
.
entonces este criterio dará lugar a los discriminadores cuadráticos
(
j;
(x) =
1
2
x
t

¯
÷1
;
÷¯
÷1
j

x ÷x
t

¯
÷1
j
j
1
÷¯
÷1
;
j
2

÷
1
2
j
t
;
¯
÷1
;
j
;
÷
1
2
j
t
j
¯
÷1
j
j
j
÷
1
2
log [¯
;
[ ÷
1
2
log [¯
j
[ .
11.4.3. Regla de Bayes
Si además de las funciones de densidad 1
j
(x). se conocen las probabili-
dades a priori
¡
1
= 1 (!
1
) . . . . . ¡
I
= 1 (!
I
) .
la regla de Bayes que asigna . a la población tal que la probabilidad a
posteriori es máxima
Si ¡
j
1
j
(x) = m´ax¦¡
1
1
1
(x). . ¡
I
1
I
(x)¦. asignamos . a !
j
.
está asociada a las funciones discriminantes
1
j;
(x) = log 1
j
(x) ÷log 1
;
(x) ÷ log(¡
j
¡
;
).
Finalmente, si 1(,i) es la probabilidad de asignar . a !
;
cuando en realidad
es de !
j
. la probabilidad de clasi…cación errónea es
jcc =
I
¸
j=1
¡
j
(
I
¸
;,=j
1(,i)).
y se demuestra que la regla de Bayes minimiza esta pce.
11.4. DISCRIMINACIÓN EN EL CASO DE K POBLACIONES 205
11.4.4. Un ejemplo clásico
Continuando con el ejemplo 3.6.2, queremos clasi…car a una de las 3 es-
pecies una ‡or cuyas medidas son:
r
1
=6.8 r
2
=2.8 r
3
=4.8 r
4
=1.4
La matriz de covarianzas común es
o =

¸
¸
¸
0.20ò0 0.0027 0.107ò 0.0384
0.11ò4 0.0òò24 0.0327
0.18ò10 0.0420
0.0418
¸

Las distancies de Mahalanobis (al cuadrado) entre las 3 poblaciones son:
Setosa Versicolor Virginica
Setosa 0 89.864 179.38
Versicolor 0 17.201
Virginica 0
Los discriminadores lineales son:
1
12
(r) =
1
2
[`
2
(r. r
2
) ÷`
2
(r. r
1
)| .
1
13
(r) =
1
2
[`
2
(r. r
3
) ÷`
2
(r. r
1
)| .
1
23
(r) = 1
13
(r) ÷1
12
(r). 1
21
(r) = ÷1
12
(r).
1
31
(r) = ÷1
13
(r). 1
32
(r) = ÷1
23
(r).
La regla de decisión consiste en asignar el individuo r a la población i si
1
j;
(r) 0 \, = i.
Se obtiene:
Individuo 1
12
1
13
1
21
1
23
1
31
1
32
Población
r -51.107 -44.759 51.107 6.3484 44.759 -6.3484 2
Por lo tanto clasi…camos la ‡or a la especie I. Versicolor.
Para estimar la probabilidad de clasi…cación errónea pce podemos omitir
una vez cada individuo, clasi…carlo a partir de los demás y observar si sale
bien clasi…cado (método leaving-one-out). El resultado de este proceso da:
206 CAPÍTULO 11. ANALISIS DISCRIMINANTE
Población asignada
1 2 3
Población 1 50 0 0
original 2 0 48 2
3 0 1 49
Sólo hay 3 individuos mal clasi…cados y la pce estimada es 31ò0 = 0.02.
Capítulo 12
DISCRIMINACION
LOGISTICA Y BASADA EN
DISTANCIAS
12.1. Análisis discriminante logístico
12.1.1. Introducción
El modelo de regresión logística permite estimar la probabilidad de un
suceso que depende de los valores de ciertas covariables.
Supongamos que un suceso (o evento) de interés ¹ puede presentarse o
no en cada uno de los individuos de una cierta población. Consideremos una
variable binari n que toma los valores:
n = 1 si ¹ se presenta, n = 0 si ¹ no se presenta.
Si la probabilidad de ¹ no depende de otras variables, indicando 1(¹) = j.
la verosimilitud de una única observación n es
1 = j
&
(1 ÷j)
1÷&
.
pues 1 = j si n = 1. 1 = 1 ÷j si n = 0.
Si realizamos : pruebas independientes y observamos n
1
. . . . . n
a
, la verosimil-
itud es
1 =
a
¸
j=1
j
&
i
(1 ÷j)
1÷&
i
= j
I
(1 ÷j)
a÷I
207
208CAPÍTULO12. DISCRIMINACIONLOGISTICAYBASADAENDISTANCIAS
siendo / =
¸
n
j
la frecuencia absoluta de ¹ en las : pruebas. Para estimar
j resolvemos la ecuación de verosimilitud
·
·j
ln 1 = 0
cuya solución es ´ j = /:. la frecuencia relativa del suceso ¹. La distribución
asintótica de ´ j es normal `(j. j(1 ÷j):).
Muy distinta es la estimación cuando esta probabilidad depende de otras
variables. La probabilidad de ¹ debe entonces modelarse adecuadamente.
12.1.2. Modelo de regresión logística
Supongamos ahora que la probabilidad j depende de los valores de ciertas
variables A
1
. . . . . A
j
. Es decir, si x = (r
1
. . . . . r
j
)
t
son las observaciones de
un cierto individuo . sobre las variables, entonces la probabilidad de acon-
tecer ¹ dado x es j(n = 1[x). Indicaremos esta probabilidad por j(x). La
probabilidad contraria de que ¹ no suceda dado x será j(n = 0[x) = 1÷j(x).
Es fácil darse cuenta que pretender que j(x) sea una función lineal de x no
puede funcionar correctamente, pues j(x) está comprendido entre 0 y 1.
Por diversas razones, es muy conveniente suponer un modelo lineal para
la llamada transformación logística de la probabilidad
ln[
j(x)
1 ÷j(x)
| =
0
÷
1
r
1
÷ ÷
j
r
j
=
0
÷
t
x. (12.1)
siendo = (
1
. .
j
)
t
parámetros de regresión. El modelo 12.1 equivale a
suponer las siguientes probabilidades para ¹ y su contrario, ambas en función
de x
j(x) =
c
o
0
+o
0
x
1 ÷c
o
0
+o
0
x
. 1 ÷j(x) =
1
1 ÷c
o
0
+o
0
x
.
Hagamos ahora una breve comparación con el modelo lineal. El mdelo de
regresión lineal (véase capítulo siguiente) es
n =
0
÷
1
r
1
÷ ÷
j
r
j
÷c.
donde se supone que n es una variable respuesta cuantitativa y que c es un
error con media 0 y varianza o
2
. Usando la misma terminología, podemos
entender el modelo logístico en el sentido de que
n = j(x) ÷c.
12.1. ANÁLISIS DISCRIMINANTE LOGÍSTICO 209
donde ahora n sólo toma los valores 0 ó 1. Si n = 1 entonces c = 1÷j(x) con
probabilidad j(x). Si n = 0 entonces c = ÷j(x) con probabilidad 1 ÷ j(x).
De este modo, dado x. el error c tiene media 0 y varianza j(x)(1 ÷j(x)).
Dado un individuo .. la regla de discriminación logística (suponiendo
los parámteros conocidos o estimados) simplemente decide que . posee la
característica ¹ si j(x) 0.ò. y no la posee si j(x) _ 0.ò Introduciendo la
función discrimnante
1
j
(x) = ln(
j(x)
1 ÷j(x)
)
la regla de decisión logística es
Si 1
j
(x) 0 entonces n = 1. si 1
j
(x) _ 0 entonces n = 0.
12.1.3. Estimación de los parámetros
La verosimilitud de una observación n es 1 = j(x)
&
(1 ÷ j(x))
1÷&
. La
obtención de : observaciones independientes
(n
j
. x
j
) = (n
j
. r
j1
. . . . . r
jj
)
se puede tabular matricialmente como
v =

¸
¸
¸
¸
n
1
n
2
.
.
.
n
a
¸

. X =

¸
¸
¸
¸
1 r
11
r
12
r
1j
1 r
21
r
22
r
2j
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1 r
a1
r
a2
r
aj
¸

.
Nótese que, para poder tener en cuenta el término constante
0
en el modelo,
la primera columna de X contiene unos.
La verosimilitud de : observaciones independientes es
1 =
a
¸
j=1
j(x
j
)
&
i
(1 ÷j(x
j
))
1÷&
i
Tomando logaritmos
ln 1 =
a
¸
j=1
n
j
ln j(x
j
)(1 ÷j(x))
1÷&
i
210CAPÍTULO12. DISCRIMINACIONLOGISTICAYBASADAENDISTANCIAS
A …n de hallar los estimadores máximo verosímiles de los parámetros de-
beremos resolver las ecuaciones
·
·
;
ln 1 = 0. , = 0. 1. . . . . j.
Se tiene ln j(x
j
) =
0
÷
1
x
j
÷ln(1 ÷c
o
0
+o
1
x
i
), luego
0
0o
0
ln j(x
j
) = 1 ÷
c

0
+
0
x
i
1+c

0
+
0
x
i
= 1 ÷j(x
j
)
0
0o
j
ln j(x
j
) = r
j;
÷r
j;
c

0
+
0
x
1+c

0
+
0
x
i
= r
j;
(1 ÷j(x
j
))
Análogamente derivaríamos ln(1 ÷ j(x
j
)) = ÷ln(1 ÷ c
o
0
+o
1
x
i
). Se obtienen
entonces las ecuaciones de verosimilitud para estimar los parámetros .
¸
a
j=1
(n
j
÷j(x
j
)) = 0.
¸
a
j=1
r
j;
(n
j
÷j(x
j
)) = 0. , = 1. . . . . j.
(12.2)
Utilizando el vector v. la matriz X y el vector de probabilidades :(X) =
(j(x
1
) . . . . j(x
a
))
t
. estas ecuaciones se pueden escribir como
X
t
:(X) = X
t
v.
siendo comparables con las ecuaciones normales (Capítulo 13) X
t
X = X
t
¥.
para estimar los parámetros del modelo lineal v = X÷o. salvo que ahora
el modelo X es :(X). que depende de . Sin embargo las ecuaciones (12.2)
no se pueden resolver explícitamente, debiéndose recurrir a procedimientos
numéricos iterativos. Véase Peña (2002).
12.1.4. Distribución asintótica y test de Wald
Indiquemos por
´
d = (
´

0
.
´

1
. . . . .
´

j
)
t
la estimación de los parámetros.
Aplicando la teoría asintótica de los estimadores máximo verosímiles, la ma-
triz de informaciión de Fisher es I
o
= X
t
YX. siendo
Y =

j(x
1
)(1 ÷j(x
1
)) 0

0 j(x
a
)(1 ÷j(x
a
))
¸
¸
La distribución asintótica de
´
d es entonces normal multivariante `
j+1
(d .
I
÷1
o
)..En particular, la distribución asintótica del parámetro
´

j
es normal
12.1. ANÁLISIS DISCRIMINANTE LOGÍSTICO 211
`(
j
.var(
´

j
)). donde var(
´

j
) es el correspondiente elemento diagonal de la
matriz inversa I
÷1
o
.
El llamado test de Wald para la signi…cación de
j
utiliza el estadístico
. =
´

j

var(
´

j
)
con distribución asintótica `(0. 1). o bien .
2
con distribución ji-cuadrado
con 1 g. l.
. Si se desea estudiar la signi…cación de todos los parámetros de regresión,
el test de Wald calcula
n =
´
d
t
I
o
´
d.
con distribución asintótica ji-cuadrado con j ÷ 1 g. l. bajo la hipótesis nula
d = 0.
12.1.5. Ajuste del modelo
En regresión logística se obtiene el ajuste del modelo calculando la verosimil-
itud 1 del modelo (estimando los parámetros por máxima verosimilitud) y
utilizando el llamado estadístico de desviación:
1 = ÷2 ln 1(modelo de regresión).
Se puede interpretar 1 como menos dos veces la razón de verosimilitudes del
modelo ajustado y el modelo saturado
1 = ÷2 ln
1(modelo de regresión)
1(modelo saturado)
El modelo saturado es el que posee tantos parámetros como observaciones.
En nuestro caso
1(modelo saturado) =
a
¸
j=1
n
j
&
i
(1 ÷n
j
)
1÷&
i
)
= 1.
Supongamos ahora que deseamos estudiar la signi…cación de una o varias
covariables. En particular, la signi…cación de un coe…ciente de regresión: H
0
:

j
= 0. Utilizando la desviación 1 calcularemos
G = 1 (modelo sin las variables) ÷1(modelo con las variables)
= ÷2 ln
1(modelo sin las variables)
1(modelo con las variables)
.
212CAPÍTULO12. DISCRIMINACIONLOGISTICAYBASADAENDISTANCIAS
Si queremos estudiar la signi…cación de / variables, entonces la distribución
asintótica de G es ji-cuadrado con / g. l. . En particular / = 1 si sólo
estudiamos la signi…cación de una variable.
12.1.6. Curva ROC
Supongamos que la población consiste en individuos que poseen un tumor,
el cual puede ser maligno (suceso ¹), o benigno (contrario de ¹). La regla
de discriminación logística
Si j(x) 0.ò decidimos que n = 1
puede resultar insu…ciente en este caso, pues bastantes individuos podrían
ser clasi…cados como tumor benigno siendo maligno.
Se llama sensibilidad a la curva
oc(t) = 1(j(x) t[n = 1). 0 _ t _ 1.
Variando t. la curva oc va dando la proporción de individuos a los que se
detecta tumor maligno. Para t = 0 todos los individuos resultarían malignos,
y para t = 1 todos resultarían benignos.
Se llama especi…cidad a la curva
1:(t) = 1(j(x) < t[n = 0). 0 _ t _ 1.
Variando t. la curva 1: va dando la proporción de individuos a los que se
detecta tumor benigno. Para t = 0 todos los individuos resultarían benignos,
y para t = 1 todos resultarían malignos. Es un problema importante en
diagnosis médica determinar el valor de corte t tal que detecte el mayor
número de tumores malignos, sin cometer demasiados errores (decidir que es
maligno cuando en realidad es benigno).
La curva ROC (Receiving Operating Characteristic) resume las dos curvas
de sensibilidad y especi…cidad. Es la curva que resulta de representar los
puntos
(1 ÷1:(t). oc(t)) 0 _ t _ 1.
es decir, 1-Especi…cidad en el eje OX, y la Sensibilidad en el eje OY. La curva
ROC está por encima de la diagonal, y cuanto más se aparta de la diagonal,
mejor es la discriminación.
12.1. ANÁLISIS DISCRIMINANTE LOGÍSTICO 213
En el caso de que la curva coincida con la diagonal, se tiene que
oc(t) = 1(j(x) t[n = 1) = 1 ÷1:(t) = 1(j(x) t[n = 0).
Entonces no es posible distinguir entre las dos poblaciones. En otras pal-
abras, la función discriminant logística 1
j
(x) = ln[j(x)(1 ÷ j(x))| tiene
exactamente la misma distribución tanto si n = 1 como si n = 0..
El área bajo la curva ROC es siempre mayor o igual que 0.ò. Un valor a
partir de 0.8 se considera como que la discriminación es buenba. Un valor a
partir de 0.0 se consideraría como muy bueno. La discriminación es perfecta
si el área vale 1. Véase
Ejemplo 12.1.1
Estudio epidemiológico sobre : = 180 mujeres que han tenido un bebé.
Se intenta estudiar las causas (edad, peso antes embarazo, fumar, etc.) que
provocan el nacimiento de un bebé prematuro. Se considera que un bebé es
prematuro si su peso está por debajo de los 2500 gramos. Visitando la web
http://www.umass.edu/statdata/statdata/
(÷Data sets, Regression-Logistic) se puede bajar el …chero “Low Birth-
weight”. Consideramos LOW como variable dependiente (0 si peso mayor
2500gr, 1 si menor que 2500gr) y las variables predictoras AGE (edad), LWT
(peso de la madre), RACE (1=blanco, 2=negro, 3=otros), SMOKE (0=no
fuma, 1=fuma).
Las estimaciones de los parámetros
0
.
1
. . . ., sus desviaciones típicas y el
estadístico de Wald se dan en el siguiente cuadro. La variable race (categórica
con 3 estados), se desglosa en 2 variables binarias.
Variable ST(). Wald g.l. j
Age -0.022 0.035 0.41 1 0.622
Weight -0,012 0.006 3.76 1 0.052
Race 7.79 2 0.020
Race_1 -0.94 0.41 5.07 1 0.024
Race_2 0.29 0.52 0.30 1 0.583
Smoke 1.05 0.38 7.64 1 0.006
Visits -0.008 0,16 0.002 1 0.963
Constant -0.79 0.15 25.3 1 0.000
1 = ÷2log-veros 214.57
214CAPÍTULO12. DISCRIMINACIONLOGISTICAYBASADAENDISTANCIAS
Con el modelo considerando el término constante y 5 variables (age,
weight, race, smoke, visits) obtenemos 1 = ÷2 ln(modelo) = 214.ò7ò. Con-
siderando el término constante y 3 variables (weight, race, smoke) obten-
emos 1 = ÷2 ln(modelo) = 21ò.0ò. La diferencia entre las dos desviaciones
21ò.0ò ÷ 214.ò7ò = 0.47ò es ji-cuadrado con 3 g. l., no signi…cativo. Luego
no hay ventaja en incluir las variables Edad y Número de visitas.
La regla estàndar de decisión en regresión logística es:
Si j(r) 0. ò el bebé tiene el peso bajo, en caso contrario es normal.
El valor de corte 0. ò se puede alterar para mejorar la Sensibilidad (detectar
un bebé con peso bajo) o la Especi…cidad (detectar un bebé con peso normal).
En la tabla vemos que si disminuye el punto de corte, detectamos más bebés
de bajo peso, pero menos de peso normal.
Corte % Normales pred. % Peso bajo pred.
0,1 9,2 100
0,3 50,0 76,3
0,5 93,8 15,3
0,7 100 1,7
0,9 100 0
La curva ROC es el grá…co conjunto de la Sensibilidad (eje vertical) y 1-
Especi…cidad (eje horizontal), variando la probabilidad de corte. La diagonal
indicaría empate (no se distingue entre bebé de bajo peso y bebé normal).
El área bajo la curva ROC es 0. ò en el peor de los casos (que la curva ROC
coincida con la diagonal). En este ejemplo (Figura 11.2) el área vale 0. 084.
indicando que el modelo posee una capacidad de predicción moderada.
12.1.7. Comparación entre discriminador lineal y logís-
tico
En el modelo logístico conocemos la probabilidad j(x) de n = 1 dados los
valores x
j(x) =
c
o
0
+o
0
x
1 ÷c
o
0
+o
0
x
Bajo normalidad `
j
(j
1
. ¯). `
j
(j
0
. ¯) con probabilidades a priori ¡
1
=
¡
0
= 12. y utilizando el discriminador lineal, la probabilidad de n = 1 (es
12.1. ANÁLISIS DISCRIMINANTE LOGÍSTICO 215
Figura 12.1: Curva ROC que representa las curvas de Sensibilidad y 1-
Especi…cidad para los datos de bebés con bajo peso.
decir, de la población `
j
(j
1
. ¯)) dado x es
1(n = 1[x) =
1
1
(x)
1
1
(x) ÷1
0
(x)
=
c
÷
1
2
(x÷j
1
)
0

1
(x÷j
1
)
c
÷
1
2
(x÷j
1
)
0

1
(x÷j
1
)
÷c
÷
1
2
(x÷j
0
)
0

1
(x÷j
0
)
.
Multiplicando numerador y denominador por c
1
2
(x÷j
0
)
0

1
(x÷j
0
)
y teniendo
en cuenta que ÷
1
2
(x ÷ j
1
)
t
¯
÷1
(x ÷ j
1
) ÷
1
2
(x ÷ j
0
)
t
¯
÷1
(x ÷ j
0
) = ÷1(x).
donde
1(x) =
¸

1
2
(j
0
÷j
1
)

t
¯
÷1
(j
0
÷j
1
)
es el discriminador lineal, vemos que
1(n = 1[x) =
c
÷1(x)
1 ÷c
÷1(x)
.
Puesto que ÷1(r) =
0
÷
t
x siendo

0
= ÷
1
2
(j
1
÷j
0
)
t
¯
÷1
(j
1
÷j
0
) . = ¯
÷1
(j
1
÷j
0
) .
216CAPÍTULO12. DISCRIMINACIONLOGISTICAYBASADAENDISTANCIAS
conseguimos obtener el modelo logístico a partir del discriminador lineal. Sin
embargo, el modelo normal es más e…ciente. En realidad el modelo logístico
sirve para la clase de distribuciones pertenecientes a la familia exponencial,
que incluye la normal. Al ser el logístico un modelo más amplio y robusto,
pierde en e…ciencia.
Efron (1975) calculó analíticamente la e…ciencia relativa (cociente entre
las probabilidades de clasi…cación errónea) del modelo logístico respecto al
normal. La e…ciencia relativa asintótica es una función de

c siendo c la
distancia de Mahalanobis entre las dos poblaciones:
c = (j
1
÷j
0
)
t
¯
÷1
(j
1
÷j
0
).
Para ¡
1
= ¡
0
= 12 (el caso más favorable para el discriminante logístico),
la e…ciencia es la misma (vale 1), para valores muy pequeños de c. y decrece
hasta 0.343 para c = 10 (la probabilidad de error en el caso logístico es tres
veces mayor que en el normal si c es grande). Los valores son:

c 0 0.5 1 1.5 2 2.5 3 3.5 4
E…ciencia 1.000 1.000 .995 .968 .899 .786 .641 .486 .343
Continuando con el ejemplo 11.3.1, el discriminador lineal (suponiendo
normalidad e igualdad de matrices de covarianzas) es:
1(long,anch) = ÷0.000long ÷0.034anch ÷ 20.04
En este ejemplo

c =

1.872 = 1.308. La e…ciencia del discrimnador logís-
tico con respecto al lineal normal es del orden de 0.98.
Aplicando el modelo logístico, se obtiene
Variable ST(). Wald g. l. j valor
Amplitud 0.069 0.012 31.21 1 0.000
Anchura 0.031 0.013 5,859 1 0.015
Constante -20,23 3,277 38,15 1 0.000
1 = ÷2log-verosim 167,12
Las probabilidades de que un copépodo con longitud | y anchura c pertenezca
al estadio 1 y al estadio 2 son, respectivamente:
1
1 ÷c
÷20.23+0.069|+0.031o
.
c
÷20.23+0.069|+0.031o
1 ÷c
÷20.23+0.069|+0.031o
Por ejemplo, si | = 248. c = 100. entonces las probabilidades son 0.130 y
0.803. y el copépodo sería asignado al estadio 2. Los resultados prácticamente
coinciden con el discriminador lineal (Figura 12.2).
12.2. ANÁLISIS DISCRIMINANTE BASADO EN DISTANCIAS 217
Figura 12.2: Curvas ROC para el discriminador lineal y el logístico (izquier-
da). Ambas curvas son indistinguibles, indicando la misma e…ciencia para
discrimanr entre los dos estadios. El área bajo la curva es 0,838.
12.2. Análisis discriminante basado en dis-
tancias
Los métodos que hemos descrito funcionan bien con variables cuantitati-
vas o cuando se conoce la densidad. Pero a menudo las variables son binarias,
categóricas o mixtas. Aplicando el principio de que siempre es posible de…nir
una distancia entre observaciones, es posible dar una versión del análisis dis-
criminante utilizando solamente distancias.
12.2.1. La función de proximidad
Sea ! una población, X un vector aleatorio con valores en 1 · 1
j
y
densidad 1 (r
1
. .... r
j
) . Sea o una función de distancia entre las observaciones
de X. De…nimos la variabilidad geométrica como la cantidad
\
c
(X) =
1
2

1
o
2
(x. v) 1(x)1(v)dxdv
\
c
(X) es el valor esperado de las distancias (al cuadrado) entre observaciones
independientes de X.
Sea . un individuo de !, y x =(r
1
. .... r
j
)
t
las observaciones de X sobre
.. De…nimos la función de proximidad de . a ! en relación con X como la
218CAPÍTULO12. DISCRIMINACIONLOGISTICAYBASADAENDISTANCIAS
función
c
2
c
(x) = 1

o
2
(x. X)

÷\
c
(X) =

1
o
2
(x. t)1(t)dt÷\
c
(X) . (12.3)
c
2
c
(x) es la media de las distancias de x. que es …ja, a t. que varía aleatori-
amente, menos la variabilidad geométrica.
Teorema 12.2.1 Supongamos que existe una representación de (1. o) en un
espacio 1 (Euclídeo o de Hilbert)
(1. o) ÷1
con un producto escalar < .. . y una norma |z|
2
=< z. z , tal que
o
2
(x. v) = |· (x) ÷·(v)|
2
.
donde · (x) . ·(v) ÷ 1 son las imágenes de x. v. Se veri…ca:
\
c
(X) = 1(|· (X)|
2
) ÷|1(· (X))|
2
.
c
2
c
(x) = |· (x) ÷1(· (X))|
2
.
En consecuencia, podemos a…rmar que la variabilidad geométrica es una
varianza generalizada, y que la función de proximidad mide la distancia de
un individuo a la población.
12.2.2. La regla discriminante DB
Sean !
1
. !
2
dos poblaciones, o una función distancia. o es formalmente la
misma en cada población, pero puede tener diferentes versiones o
1
. o
2
, cuan-
do estemos en !
1
. !
2
, respectivamente. Por ejemplo, si las poblaciones son
normales `
j

j
. X
j
) . i = 1. 2. y consideramos las distancias de Mahalanobis
o
2
j
(x. v) = (x ÷v)
t
X
÷1
j
(x ÷v) . i = 1. 2.
lo único que cambia es la matriz ¯. Debe quedar claro que o depende del
vector aleatorio X, que en general tendrá diferente distribución en !
1
y !
2
.
Seguidamente, mediante (12.3), encontraremos las funciones de proxim-
idad c
2
1
. c
2
2
, correspondientes a !
1
. !
2
. Sea . un individuo que queremos
clasi…car, con valores x = X(.).
12.2. ANÁLISIS DISCRIMINANTE BASADO EN DISTANCIAS 219
La regla de clasi…cación basada en distancias (DB, distance-based) es:
Si c
2
1
(x) _ c
2
2
(x) asignamos . a !
1
.
en caso contrario asignamos . a !
2
.
Teniendo en cuenta el Teorema 12.2.1, se cumple
c
2
j
(x) = |· (x) ÷1

i
(· (X))|
2
. i = 1. 2.
y por tanto la regla DB asigna . a la población más próxima. La regla DB
solamente depende de las distancias entre individuos.
12.2.3. La regla DB comparada con otras
Los discriminadores lineal y cuadrático son casos particulares de la regla
DB.
1. Si las poblaciones son `
j

1
. X
1
) . `
j

2
. X
2
) y o
2
es la distancia de
Mahalanobis entre observaciones o
2
(x. v) = (x ÷v)
t
X
÷1
(x ÷v) . en-
tonces las funciones de proximidad son
c
2
j
(x) = (x ÷µ
j
)
t
X
÷1
(x ÷µ
i
)
y el discriminador lineal es
1(x) =
1
2

c
2
2
(x) ÷c
2
1
(x)

.
2. Si las poblaciones son `
j

1
. X
1
) . `
j

2
. X
2
) y o
2
j
es la distancia de
Mahalanobis más una constante
o
2
j
(x. v) = (x ÷v)
t
¯
÷1
j
(x ÷v) ÷ log [¯
j
[ 2 x = v.
= 0 x = v.
entonces el discriminador cuadrático es
((x) =
1
2

c
2
2
(x) ÷c
2
1
(x)

.
220CAPÍTULO12. DISCRIMINACIONLOGISTICAYBASADAENDISTANCIAS
3. Si o es la distancia euclídea ordinaria entre observaciones, la regla DB
equivale a utilizar el discriminador
1 (x) = [x ÷
1
2

1
÷µ
2
)|
t

1
÷µ
2
) . (12.4)
conocido como discriminador Euclídeo. 1 (x) es útil en determinadas
circunstancias, por ejemplo, cuando la cantidad de variables es grande
en relación al número de individuos, pues tiene la ventaja sobre 1(x)
de que no necesita calcular la inversa de ¯.
12.2.4. La regla DB en el caso de muestras
En las aplicaciones prácticas, no se dispone de las densidades 1
1
(x). 1
2
(x).
sino de dos muestras de tamaños :
1
. :
2
de las variables X =(A
1
. .... A
j
) en
las poblaciones !
1
. !
2
. Sea ^
1
= (o
j;
(1)) la matriz :
1
:
1
de distancias
entre las muestras de la primera población, y ^
2
= (o
j;
(2)) la matriz :
2
:
2
de distancias entre las muestras de la segunda población. Indicamos (las
representaciones Euclídeas de las muestras) por
x
1
. x
2
. .... x
a
1
muestra de !
1
.
v
1
. v
2
. .... v
a
2
muestra de !
2
.
(12.5)
es decir, o
j;
(1) = o
1
(x
j
. x
;
). o
j;
(2) = o
1
(v
j
. v
;
).
Las estimaciones de las variabilidades geométricas son:
´
\
1
=
1
2:
2
1
a
1
¸
j.;=1
o
2
j;
(1) .
´
\
2
=
1
2:
2
2
a
2
¸
j.;=1
o
2
j;
(2).
Sea . un individuo, o
j
(1). i = 1. . . . . :
1
. las distancias a los :
1
individuos
de !
1
y o
j
(2). i = 1. . . . . :
2
. las distancias a los :
2
individuos de !
2
. Si x son
las coordenadas (convencionales) de . cuando suponemos que es de !
1
. y
análogamente v. las estimaciones de las funciones de proximidad son
´
c
2
1
(x) =
1
:
1
a
1
¸
j=1
o
2
j
(1) ÷
´
\
1
.
´
c
2
2
(v) =
1
:
2
a
2
¸
j=1
o
2
j
(2) ÷
´
\
2
.
La regla DB en el caso de muestras es
Si
´
c
2
1
(x) _
´
c
2
2
(v) asignamos . a !
1
.
en caso contrario asignamos . a !
2
.
12.2. ANÁLISIS DISCRIMINANTE BASADO EN DISTANCIAS 221
Esta regla solamente depende de distancias entre observaciones y es preciso
insistir en que el conocimiento de x. v, no es necesario. La regla DB clasi…ca
. a la población más próxima:
Teorema 12.2.2 Supongamos que podemos representar . y las dos muestras
en dos espacios euclídeos (posiblemente diferentes)
x. x
1
. x
2
. .... x
a
1
÷ H
j
. v. v
1
. v
2
. .... v
a
2
÷ H
o
.
respectivamente. Entonces se cumple
´
c
2
1
(x) = d
2
1
(x.x) .
´
c
2
2
(v) = d
2
1
(v.v) .
donde x. v son los centroides de las representaciones Euclídeas de las mues-
tras.
Demost.: Consideremos x. x
1
. x
2
. .... x
a
. x= (
¸
a
j=1
x
j
):. Por un lado
1
a
a
¸
j=1
d
2
(x
j
. x) =
1
a
a
¸
j=1
(x
j
÷x)
t
(x
j
÷x)
=
1
a
a
¸
j=1
x
t
j
x
j
÷x
t
x÷2x
t
x.
Por otro
1
2a
2
a
¸
j.;=1
d
2
(x
j
. x
;
) =
1
2a
2
a
¸
j.;=1
(x
j
÷x
;
)
t
(x
j
÷x
;
)
=
1
a
a
¸
j=1
x
t
j
x
j
÷x
t
x.
Restando
´
c
2
(x) = x
t
x÷x
t
x÷2x
t
x =d
2
1
(x.x) .
Ejemplo 12.2.1
Krzanowski (1975) ilustra el llamado “location model” para llevar a cabo
análisis discriminante con variables mixtas (cuantitativas, binarias, categóri-
cas). Los datos describen un grupo de 137 mujeres, 76 con tumor benigno
y 59 con tumor maligno, con respecto a 7 variables cuantitativas, 2 binarias
y 2 categóricas (con tres estados cada una). Véase Krzanowski (1980) para
una descripción de los datos.
222CAPÍTULO12. DISCRIMINACIONLOGISTICAYBASADAENDISTANCIAS
Tomando los 137 casos, se calcula el número de individuos mal clasi…ca-
dos utilizando el discriminador lineal LDF (11.2), el discriminador euclídeo
(12.4), el “location model” LM (que consiste en ajustar un discriminador
lineal para cada combinación de las variables categóricas) y el discriminador
basado en distancias DB, utilizando la similaridad (8.11) para variables mix-
tas y transformándola en distancia mediante (8.8). Los resultados están con-
tenidos en la siguiente tabla. Con el método DB se clasi…can equivocadamente
sólo 39 mujeres.
Tumor Benigno Maligno Total
Casos 78 59 137
LDF 31 27 58
EDF 29 37 56
LM 21 24 45
DB 18 21 39
Para otros ejemplos con datos categóricos o mixtos, véase Cuadras (1992b).
12.3. Complementos
El Análisis Discriminante se inicia en 1936 con el trabajo de R.A. Fisher
sobre clasi…cación de ‡ores del género Iris. A. Wald y T.W. Anderson estu-
diaron las propiedades del discriminador lineal. L. Cavalli y C.A.B. Smith
introdujeron el discriminador cuadrático.
J. A. Anderson, en diversos trabajos, estudió el modelo de discriminación
logístico. Si de…nimos
n(.. x) = 1(!
1
x) = ¡
1
1
1
(x)(¡
1
1
1
(x) ÷¡
2
1
2
(x)).
la regla de clasi…cación es
. es de !
1
si n(.. x) 12. de !
2
en caso contrario.
Entonces el modelo logístico (modelo logit) supone
n(.. x) =
1
1 ÷c
c+
0
x
= 1(÷c ÷
t
x),
donde 1(.) = 1(1÷c
÷:
) es la llamada función de distribución logística. Este
modelo se estudia en este mismo capítulo. Se pueden obtener otros modelos
12.3. COMPLEMENTOS 223
cambiando 1. Por ejemplo, si escogemos la función de distribución normal
estándar, entonces obtenemos el llamado modelo probit.
Albert y Anderson (1984) probaron que en el modelo logístico, los esti-
madores máximo verosímiles de los parámetros no existen si hay completa
separación de las muestras de las dos poblaciones. Además, si las muestras es-
tán muy diferenciadas, las estimaciones de los parámetros no funcionan. Por
ejemplo, en el caso de los datos de ‡ores del género Iris, véase Tabla 3.2),
las estimaciones resultan demasiado grandes y no son correctas. Longford
(1994) estudió la función de verosimilitud en el modelo de regresión logística
con coe…cientes de regresión aleatorios.
Existen otros métodos de análisis discriminante, algunos no-paramétricos,
otros para variables mixtas, como el método del núcleo, del vecino mas próx-
imo, el basado en el “location model” de W. Krzanowski, etc. Consúltese
McLachlan (1992).
Los métodos de análisis discriminante basados en distancias pueden abor-
dar todo tipo de datos y han sido estudiados por Cuadras (1989, 1992b, 2008),
Cuadras et al. (1997).
224CAPÍTULO12. DISCRIMINACIONLOGISTICAYBASADAENDISTANCIAS
Capítulo 13
EL MODELO LINEAL
13.1. El modelo lineal
Supongamos que una variable observable ) depende de varias variables
explicativas (caso de la regresión múltiple), o que ha sido observada en difer-
entes situaciones experimentales (caso del análisis de la varianza). Entonces
tendremos : observaciones de ) , que en muchas situaciones aplicadas, se
ajustan a un modelo lineal
n
j
= r
j1

1
÷r
j2

2
÷ ÷r
jn

n
÷c
j
. i = 1. . . . . :. (13.1)
que en notación matricial es

¸
¸
¸
¸
n
1
n
2
.
.
.
n
a
¸

=

¸
¸
¸
¸
r
11
r
12
r
1n
r
21
r
22
r
2n
.
.
.
.
.
.
.
.
.
.
.
.
r
a1
r
a2
r
an
¸

¸
¸
¸
¸

1

2
.
.
.

n
¸

÷

¸
¸
¸
¸
c
1
c
2
.
.
.
c
a
¸

.
Los elementos que intervienen en el modelo lineal son:
1. El vector de observaciones de )
v = (n
1
. n
2
. . . . . n
a
)
t
.
2. El vector de parámetros
d = (
1
.
2
. . . . .
n
)
t
.
225
226 CAPÍTULO 13. EL MODELO LINEAL
3. La matriz de diseño
X =

¸
¸
¸
¸
r
11
r
12
r
1n
r
21
r
22
r
2n
.
.
.
r
a1
r
a2
r
an
¸

.
4. El vector de desviaciones aleatorias
o = (c
1
. c
2
. . . . . c
a
)
t
La notación matricial compacta del modelo es:
v = Xd ÷o.
Solamente v y X son conocidas. En los modelos de regresión, X contiene
las observaciones de : variables explicativas. En los modelos de análisis de
la varianza, X contiene los valores 0. 1 ó ÷1. según el tipo de diseño experi-
mental.
13.2. Suposiciones básicas del modelo
Supongamos que las desviaciones aleatorias o errores c
j
del modelo lineal
se asimilan a : variables aleatorias con media 0, incorrelacionadas y con
varianza común o
2
. es decir, satisfacen:
1. 1(c
j
) = 0. i = 1. . . . . :.
2. 1(c
j
c
;
) = 0. i = , = 1. . . . . :.
3. var(c
j
) = o
2
. i = 1. . . . . :.
Estas condiciones equivalen a decir que el vector de medias y la matriz
de covarianzas del vector o = (c
1
. c
2
. . . . . c
a
)
t
son:
1(o) = 0. ¯
c
= o
2
I
j
.
Si podemos suponer que los errores son normales y estocásticamente in-
dependientes, entonces estamos ante un modelo lineal normal
v ~`
a
(Xd.o
2
I
j
).
La cantidad : = rang(X) es el rango del diseño. Se veri…ca : _ : y
cuando : = : se dice que es un modelo de rango máximo.
13.3. ESTIMACIÓN DE PARÁMETROS 227
13.3. Estimación de parámetros
13.3.1. Parámetros de regresión
La estimación de los parámetros d = (
1
. . . . .
n
)
t
en función de las
observaciones v = (n
1
. . . . . n
a
)
t
. se plantea mediante el criterio de los mínimos
cuadrados (LS, “least squares”). Se desea encontrar
´
d = (
´

1
. . . . .
´

n
)
t
tal que
o
t
o = (v ÷Xd)
t
(v ÷Xd) =
a
¸
j=1
(n
j
÷r
j1

1
÷. . . ÷r
jn

n
)
2
(13.2)
sea mínimo.
Teorema 13.3.1 Toda estimación LS de d es solución de las ecuaciones
X
t
Xd = X
t
v (13.3)
denominadas ecuaciones normales del modelo.
Demost.:
o
t
o =(v ÷Xd)
t
(v ÷Xd) = v
t
v÷2d
t
X
t
v÷2dX
t
Xd.
Derivando vectorialmente respecto de d e igualando a cero
·
·d
o
t
o = ÷2X
t
v÷2X
t
Xd = 0
obtenemos (13.3).
Distinguiremos dos casos según el rango del diseño.
a) : = :. Entonces la estimación de d es única:
´
d = (X
t
X)
÷1
X
t
v. (13.4)
b) : < :. Cuando el diseño no es de rango máximo una solución es
´
d = (X
t
X)
÷
X
t
v.
donde (X
t
X)
÷
es una inversa generalizada de X
t
X.
La suma de cuadrados residual de la estimación de d es
1
2
0
= (v ÷X
´
d)
t
(v ÷X
´
d) =
a
¸
j=1
(n
j
÷ ´ n
j
)
2
.
siendo
´ n
j
= r
j1
´

1
÷ ÷r
jn
´

n
.
228 CAPÍTULO 13. EL MODELO LINEAL
13.3.2. Varianza
La varianza común de los términos de error, o
2
=var(c
j
). es el otro
parámetro que hemos de estimar en función de las observaciones v = (n
1
. . . . . n
a
)
t
y de X. En esta estimación interviene de manera destacada la suma de
cuadrados residual.
Lema 13.3.2 Sea (
v
(X) el subespacio de 1
a
de dimensión : generado por
las columnas de X. Entonces 1(v) = Xd ÷(
v
(X) y ´o= v ÷X
´
d es ortogonal
a (
v
(X).
Demost.: Por las ecuaciones normales
X
t
´o= X
t
(v ÷X
´
d) = X
t
v ÷X
t
X
´
d = 0.
Teorema 13.3.3 Sea v = Xd ÷o el modelo lineal donde o satisface las su-
posiciones básicas del modelo (Sección 13.2). Entonces el estadístico
´ o
2
= 1
2
0
(: ÷:).
siendo 1
2
0
la suma de cuadrados residual y : = rang(X) el rango del modelo,
es un estimador insesgado de o
2
.
Demost.: Sea T = [t
1
. . . . . t
v
. t
v+1
. . . . . t
a
| una matriz ortogonal tal que sus
columnas formen una base ortonormal de 1
a
. de manera que las : primeras
generen el subespacio (
v
(X) y por tanto las otras : ÷ : sean ortogonales a
(
v
(X). De…nimos z = T
t
v. Entonces z =(.
1
. . . . . .
a
)
t
veri…ca
1(.
j
) = t
t
j
Xd = :
j
si i _ :.
= 0 si i :.
pues t
j
es ortogonal a (
v
(X) si i :. Consideremos ´o= v ÷X
´
d. Entonces
T
t
´o= z ÷T
t
X
´
d. donde las : primeras componentes de T
t
´o son cero (por el
lema anterior) y las :÷: componentes de T
t
X
´
d son también cero. Por tanto
T
t
´o es
T
t
´o = (0. . . . . 0. .
v+1
. . . . . .
a
)
t
y en consecuencia
1
2
0
= ´o
t
´o = ´o
t
TT
t
´o =
a
¸
j=v+1
.
2
j
.
13.4. ALGUNOS MODELOS LINEALES 229
La matriz de covarianzas de v es o
2
I
a
. y por ser T ortogonal, la de z es
también o
2
I
a
. Así
1(.
j
) = 0. 1(.
2
j
) = var(.
j
) = o
2
. i :.
y por tanto
1(1
2
c
) =
a
¸
j=v+1
1(.
2
j
) = (: ÷:)o
2
.
Bajo el modelo lineal normal, la estimación de d es estocásticamente
independiente de la estimación de o
2
, que sigue la distribución ji-cuadrado.
Teorema 13.3.4 Sea v ~`
a
(Xd.o
2
I
j
) el modelo lineal normal de rango
máximo : = rang(X). Se veri…ca:
1. La estimación LS de d es también la estimación máximo verosímil de
d. Esta estimación es además insesgada y de varianza mínima.
2.
´
d~`
n
(d.o
2
(X
t
X)
÷1
).
3. l = (
´
d ÷d)
t
X
t
X(
´
d ÷d)o
2
~ .
2
n
.
4.
´
d es estocásticamente independiente de 1
2
0
.
5. 1
2
0
o
2
~ .
2
a÷v
.
13.4. Algunos modelos lineales
13.4.1. Regresión múltiple
El modelo de regresión múltiple de una variable respuesta ) sobre :
variables explicativas A
1
. . . . . A
n
es
n
j
=
0
÷r
j1

1
÷ ÷r
jn

n
÷c
j
. i = 1. . . . . :. (13.5)
donde n
j
es la i-ésima observación de ). y r
j1
. . . . . r
jn
son las i-ésimas obser-
vaciones de las variables explicativas. La matriz de diseño es
X =

¸
¸
¸
¸
1 r
11
r
1n
1 r
21
r
2n
.
.
.
.
.
.
.
.
.
.
.
.
1 r
a1
r
an
¸

.
230 CAPÍTULO 13. EL MODELO LINEAL
13.4.2. Diseño de un factor
Supongamos que una variable observable ) ha sido observada en / condi-
ciones experimentales diferentes, y que disponemos de :
j
réplicas (observa-
ciones independentes de ) ) n
j1
. . . . . n
ja
i
bajo la condición experimental i. El
modelo es
n
jI
= j ÷c
j
÷c
jI
. i = 1. . . . ./: / = 1. . . . .:
j
. (13.6)
donde j es la media general y c
j
es el efecto aditivo de la condición i. Las
desviaciones aleatorias c
jI
se suponen normales independientes. En el modelo
(13.6), se supone la restricción lineal
c
1
÷ ÷c
I
= 0.
y por tanto cabe considerar solamente los parámetros j. c
1
. . . . .c
I÷1
. Por
ejemplo, si / = 3. :
1
= :
2
= 2. :
3
= 3. la matriz de diseño es
j c
1
c
2
X =

¸
¸
¸
¸
¸
¸
¸
¸
¸
1 1 0
1 1 0
1 0 1
1 0 1
1 ÷1 ÷1
1 ÷1 ÷1
1 ÷1 ÷1
¸

13.4.3. Diseño de dos factores
Supongamos que las : = c / observaciones de una variable observable
) se obtienen combinando dos factores con c y / niveles, respectivamente,
denominados factor …la y columna (por ejemplo, producción de trigo obtenida
en 0 = 3 3 parcelas, 3 …ncas y 3 fertilizantes en cada …nca). El modelo es
n
j;
= j ÷c
j
÷
;
÷c
j;
. (13.7)
donde j es la media general, c
j
es el efecto aditivo del nivel i del factor …la,
;
es el efecto aditivo del nivel , del factor columna. Las desviaciones aleatorias
c
j;
se suponen normales independientes. En el modelo (13.6) se suponen las
restricciones lineales
o
¸
j=1
c
j
=
b
¸
;=1

;
= 0. (13.8)
13.5. HIPÓTESIS LINEALES 231
Por ejemplo, si c = / = 3 la matriz de diseño es
j c
1
c
2

1

2
X =

¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
1 1 0 1 0
1 0 1 1 0
1 ÷1 ÷1 1 0
1 1 0 0 1
1 0 1 0 1
1 ÷1 ÷1 0 1
1 1 0 ÷1 ÷1
1 0 1 ÷1 ÷1
1 ÷1 ÷1 ÷1 ÷1
¸

13.5. Hipótesis lineales
Consideremos el modelo lineal normal v = Xd ÷o. Una hipótesis lineal
es una restricción lineal sobre los parámetros d del modelo.
De…nición 13.5.1 Una hipótesis lineal de rango t sobre los parámetros d es
una restricción lineal
/
j1

1
÷ ÷/
jn

n
= 0. i = 1. . . . . t.
Indicando la matriz t :. con t < : …las linealmente independientes,
H =

¸
/
11
/
1n

/
t1
/
tn
¸

la notación matricial de una hipótesis lineal es
H
0
: Hd = 0. (13.9)
De…nición 13.5.2 Una hipótesis lineal es demostrable si las …las de H son
combinación lineal de las …las de X. Dicho de otra manera, si existe una
matriz A de orden t : tal que
H = AX.
232 CAPÍTULO 13. EL MODELO LINEAL
Observaciones:
a) Suponemos que la matriz H es de rango t.
b) Solamente podremos construir un test (el test F) para decidir si podemos
aceptar o no una hipótesis lineal si esta hipótesis es “demostrable”.
c) Es evidente que si el modelo es de rango máximo, : = rang(X) = :.
cualquier hipótesis lineal es demostrable.
Cuando una hipótesis (13.9) es cierta, los parámetros d se convierten en
0 y la matriz de diseño X en
¯
X. Así el modelo lineal, bajo H
0
. es
v =
¯
X0 ÷o. (13.10)
Para obtener (13.10), consideramos los subespacios 1(H).1(X) generados
por las …las de H y X. Entonces 1(H) ·1(X) ·1
n
. Sea C una matriz :
(: ÷t) tal que 1(C
t
) ·1(X) y HC = 0. En otras palabras, las columnas de
C pertenecen a 1(X) y son ortogonales a 1(H). Si de…nimos los parámetros
0 = (o
1
. . . . . o
v÷t
)
t
tales que
d = C0.
entonces Hd = HCd = 0 y el modelo v = Xd ÷o. bajo la restricción Hd = 0.
se transforma en (13.10), siendo
¯
X = XC.
La estimación LS de 0 es
´
0= (
¯
X
t
¯
X)
÷1
¯
Xv
y la suma de cuadrados residual es
1
2
1
= (v÷
¯
X
´
0)
t
(v÷
¯
X
´
0).
También se puede probar que la estimación LS de los parámetros d. bajo
la restricción (13.9), es
´
d
1
=
´
d÷(X
t
X)
÷
H
t
(H(X
t
X)
÷
H
t
)
÷1
H
´
d
y la suma de cuadrados del modelo lineal es
1
2
1
= (v ÷X
´
d
1
)
t
(v ÷X
´
d
1
)
El siguiente teorema es conocido como Teorema Fundamental del Análisis
de la Varianza.
13.5. HIPÓTESIS LINEALES 233
Teorema 13.5.1 Sea v ~`
a
(Xd.o
2
I
j
) el modelo lineal normal y H
0
: Hd = 0
una hipótesis lineal demostrable de rango t. Consideremos los estadísticos
1
2
0
= (v ÷X
´
d)
t
(v ÷X
´
d). 1
2
1
= (v ÷X
´
d
1
)
t
(v ÷X
´
d
1
).
Se veri…ca:
1. 1
2
0
o
2
~ .
2
a÷v
.
2. Si H
0
es cierta
1
2
1
o
2
~ .
2
a÷v
0 .
1
2
1
÷1
2
0
o
2
~ .
2
t
.
siendo :
t
= : ÷t.
3. Si H
0
es cierta, los estadísticos (1
2
1
÷ 1
2
0
) y 1
2
0
son estocásticamente
independientes.
Demost.: Observemos primero que bajo el modelo lineal normal, n
1
. . . . . n
a
son normales independientes, y .
1
. . . . . .
a
(véase Teorema 13.3.3) son también
normales independientes.
1. Cada .
j
es `(0. o
2
) para i :. Luego 1
2
0
o
2
es suma de (:÷:) cuadra-
dos de `(0. 1) independientes.
2. Si la hipótesis lineal es cierta, la matriz de diseño X se transforma en
¯
X= XC. es decir, las columnas de XC son combinación lineal de las
columnas de X. Podemos encontrar una matriz ortogonal
T = [t
1
. . . . . t
v
0 . t
v
0
+1
. . . . . t
v
. t
v+1
. . . . . t
a
|
tal que
(
v
0 (XC) = [t
1
. . . . . t
v
0 | · (
v
(X) = [t
1
. . . . . t
v
|.
Siguiendo los mismos argumentos del Teorema 13.3.3, tenemos que
1
2
1
=
a
¸
j=v
0
+1
.
2
j
y 1
2
1
o
2
sigue la distribución .
2
a÷v
0 . Por otro lado
1
2
1
÷1
2
0
=
v
¸
j=v
0
+1
.
2
j
y (1
2
1
÷1
2
0
)o
2
sigue la distribución .
2
t
. donde t = : ÷:
t
.
234 CAPÍTULO 13. EL MODELO LINEAL
3. Las sumas de cuadrados que intervienen en 1
2
0
y en 1
2
1
÷1
2
0
no tienen
términos en común, por tanto son independientes.
Consecuencia inmediata y muy importante de este resultado es que, si H
0
es cierta, entonces el estadístico
1 =
(1
2
1
÷1
2
0
)to
2
1
2
0
(: ÷:)o
2
=
(1
2
1
÷1
2
0
)
1
2
0
: ÷:
t
~ 1
t
a÷v
. (13.11)
Es decir, 1 sigue la distribución F con t y : ÷ : grados de libertad y no
depende de la varianza (desconocida) del modelo.
13.6. Inferencia en regresión múltiple
Consideremos el modelo de regresión múltiple (13.5). El rango del modelo
es rang(X) = :÷ 1. La hipótesis más interesante en las aplicaciones es
H
0
:
1
= =
n
= 0.
que equivale a decir que la variable respuesta ) no depende de las variables
explicativas A
1
. . . . . A
n
. La matriz de la hipótesis lineal es
H =

¸
¸
¸
0 1 0 0
0 0 1 0

0 0 0 1
¸

. :c:o(H) = :.
Si H
0
es cierta, solamente interviene el parámetro
0
. evidentemente
´

01
= n
(media muestral) y las sumas de cuadrados residuales son
1
2
0
=
a
¸
j=1
(n
j
÷ ´ n
j
)
2
. 1
2
1
=
a
¸
j=1
(n
j
÷n)
2
.
donde
´

0
.
´

1
. . . . .
´

n
son los estimadores LS bajo el modelo no restringido y
´ n
j
=
´

0
÷r
j1
´

1
÷ ÷r
jn
´

n
. Aplicando (13.11), bajo H
0
tenemos que
1 =
(1
2
1
÷1
2
0
)
1
2
0
: ÷:÷1
:
~ 1
n
a÷n÷1
.
13.7. COMPLEMENTOS 235
El test F se suele expresar en términos de la correlación múltiple. Se demues-
tra que
1
2
0
=
a
¸
j=1
(n
j
÷ ´ n
j
)
2
= (1 ÷1
2
)
a
¸
j=1
(n
j
÷n)
2
.
donde 1 es el coe…ciente de correlación múltiple muestral entre ) y A
1
. . . . . A
n
(Teorema 4.2.2). Por tanto, si H
0
es cierta, es decir, si la correlación múltiple
poblacional es cero, entonces
1 =
1
2
1 ÷1
2
: ÷:÷1
:
~ 1
n
a÷n÷1
.
Rechazaremos H
0
si 1 es signi…cativa.
13.7. Complementos
Hemos visto los aspectos fundamentales del modelo lineal. Un estudio
más completo incluiría:
a) análisis grá…co de los residuos, b) efectos de la colinealidad, c) mín-
imos cuadrados ponderados, d) errores correlacionados, e) selección de las
variables, etc. Ver Peña (1989), Chatterjee y Price (1991), Carmona (2005).
Para tratar variables explicativas mixtas, podemos de…nir un modelo lin-
eal considerando las dimensiones principales obtenidas aplicando análisis de
coordenadas principales sobre una matriz de distancias entre las observa-
ciones. Consultar Cuadras y Arenas (1990), Cuadras et al. (1996).
236 CAPÍTULO 13. EL MODELO LINEAL
Capítulo 14
ANÁLISIS DE LA VARIANZA
(ANOVA)
El análisis de la varianza comprende un conjunto de técnicas estadísticas
que permiten analizar cómo operan diversos factores, estudiados simultánea-
mente en un diseño factorial, sobre una variable respuesta.
14.1. Diseño de un factor
Supongamos que las observaciones de una variable ) solamente dependen
de un factor con / niveles:
Nivcl 1 n
11
n
12
n
1a
1
Nivcl 2 n
21
n
22
n
2a
2

Nivcl k n
I1
n
I2
n
Ia
k
Si escribimos j
j
= j ÷c
j
. en el modelo (13.6) tenemos
n
jI
= j
j
÷c
jI
. i = 1. . . . ./: / = 1. . . . .:
j
.
donde j
j
es la media de la variable en el nivel i. Indiquemos:
Media nivel i : n

= (1:
j
)
¸
I
n
jI
Media general: n = (1:)
¸
j
¸
I
n
jI
No. total de observaciones: : = :
1
÷ ÷:
I
237
238 CAPÍTULO 14. ANÁLISIS DE LA VARIANZA (ANOVA)
También indiquemos:
Suma de cuadrados entre grupos: (
1
=
¸
j
:
j
(n

÷n)
2
Suma de cuadrados dentro de grupos: (
1
=
¸
j
¸
I
(n
jI
÷n

)
2
Suma de cuadrados total: (
T
=
¸
j
¸
I
(n
jI
÷n)
2
Se veri…ca la relación fundamental:
(
T
= (
1
÷(
1
.
Las estimaciones LS de las medias j
j
son
´ j
j
= n

. i = 1. . . . . /.
y la suma de cuadrados residual es 1
2
0
= (
1
.
La hipótesis nula de principal interés es la que establece que no existen
diferencias entre los niveles de los factores:
H
0
: j
1
= = j
I
.
y tiene rango 1. Bajo H
0
solamente existe una media j y su estimación es
´ j = n. Entonces la suma de cuadrados residual es 1
2
1
= (
T
y además se
veri…ca
1
2
1
÷1
2
0
= (
1
.
Por tanto, como una consecuencia del Teorema 13.5.1, tenemos que:
1. (
1
(: ÷/) es un estimador centrado de o
2
y (
1
o
2
~ .
2
a÷I
.
2. Si H
0
es cierta, (
1
(/ ÷1) es también estimador centrado de o
2
y
(
T
o
2
~ .
2
a÷1
.
(
1
o
2
~ .
2
I÷1
.
3. Si H
0
es cierta, los estadísticos (
1
y (
1
son estocásticamente inde-
pendientes.
Consecuencia inmediata es que, si H
0
es cierta, entonces el estadístico
1 =
(
1
(/ ÷1)
(
1
(: ÷/)
~ 1
I÷1
a÷I
.
14.2. DISEÑO DE DOS FACTORES 239
14.2. Diseño de dos factores
Supongamos que las observaciones de una variable ) dependen de dos fac-
tores A, B, denominados factores …la y columna, con c y / niveles A
1
. . . . .A
o
y B
1
. . . . .B
b
. y que disponemos de una observación para cada combinación
de los niveles de los factores:
B
1
B
2
B
b
A
1
n
11
n
12
n
1b
n

A
2
n
21
n
22
n
2b
n

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
A
o
n
o1
n
o2
n
ob
n

n
·1
n
·2
n
·b
n
··
siendo
n

=
1
/
b
¸
;=1
n
j;
. n
·;
=
1
c
o
¸
j=1
n
j;
. n
··
= n =
1
c/
o
¸
j=1
b
¸
;=1
n
j;
.
las medias por …las, por columnas y general. Supongamos que los datos se
ajustan al modelo (13.7) con las restricciones (13.8), donde j es la media
general, c
j
es el efecto del nivel A
j
del factor …la,
;
es el efecto del nivel B
;
del factor columna. El rango del diseño y los g.l. del residuo son
: = 1 ÷(c÷1) ÷(/ ÷1) = c÷/ ÷1. :÷: = c/ ÷(c÷/ ÷1) = (c÷1)(/ ÷1).
Las estimaciones de los parámetros son
´ j = n. ´ c
j
= n

÷n.
´

;
= n
·;
÷n.
y la expresión de la desviación aleatoria es
´ c
j;
= n
j;
÷ ´ j ÷ ´ c
j
÷
´

;
= (n
j;
÷n

÷n
·;
÷n).
La suma de cuadrados residual del modelo es
1
2
0
=
o
¸
j=1
b
¸
;=1
(n
j;
÷n

÷n
·;
÷n)
2
.
240 CAPÍTULO 14. ANÁLISIS DE LA VARIANZA (ANOVA)
También consideramos las cantidades:
Suma de cuadrados entre …las: (
¹
= /
¸
j
(n

÷n)
2
Suma de cuadrados entre columnas: (
1
= c
¸
;
(n
·;
÷n)
2
Suma de cuadrados residual: (
1
=
¸
j.;
(n
j;
÷n

÷n
·;
÷n)
2
Suma de cuadrados total: (
T
=
¸
j.;
(n
j;
÷n)
2
Se veri…ca la siguiente identidad:
(
T
= (
¹
÷(
1
÷(
1
.
En el modelo de dos factores, las hipótesis de interés son:
H
¹
0
: c
1
= = c
o
= 0 (no hay efecto …la)
H
1
0
:
1
= =
b
= 0 (no hay efecto columna)
Supongamos H
1
0
cierta. Entonces el modelo se transforma en n
j;
= j÷c
j
÷c
j;
.
es decir, actúa solamente un factor, y por tanto
1
2
1
=
o
¸
j=1
b
¸
;=1
(n
j;
÷n

)
2
.
Ahora bien, desarrollando (n
j;
÷n

)
2
= ((n
·;
÷n)÷(n
j;
÷n

÷n
·;
÷n))
2
resulta
que
1
2
1
= (
1
÷(
1
.
Análogamente, si H
1
0
es cierta, obtendríamos 1
2
1
= (
¹
÷(
1
. Por el Teorema
13.5.1 se veri…ca:
1. (
1
(c÷1)(/÷1) es un estimador centrado de o
2
y (
1
o
2
~ .
2
(o÷1)(b÷1)
.
2. Si H
¹
0
es cierta, (
¹
(c ÷ 1) es también estimador centrado de o
2
,
(
¹
o
2
~ .
2
(o÷1)
y los estadísticos (
¹
y (
1
son estocásticamente inde-
pendientes.
3. Si H
1
0
es cierta, (
1
(/ ÷ 1) es también estimador centrado de o
2
.
(
1
o
2
~ .
2
(b÷1)
y los estadísticos (
1
y (
1
son estocásticamente inde-
pendientes.
14.3. DISEÑO DE DOS FACTORES CON INTERACCIÓN 241
Por lo tanto tenemos que para decidir H
¹
0
utilizaremos el estadístico
1
¹
=
(
¹
(
1
(c ÷1)(/ ÷1)
(c ÷1)
~ 1
o÷1
(o÷1)(b÷1)
.
y para decidir H
1
0
utilizaremos
1
1
=
(
1
(
1
(c ÷1)(/ ÷1)
(/ ÷1)
~ 1
b÷1
(o÷1)(b÷1)
.
14.3. Diseño de dos factores con interacción
Supongamos que las observaciones de una variable ) dependen de dos fac-
tores A, B, denominados factores …la y columna, con c y / niveles A
1
. . . . .A
o
y B
1
. . . . .B
b
. y que disponemos de c observaciones (réplicas) para cada com-
binación de los niveles de los factores:
B
1
B
2
B
b
A
1
n
111
. . . . . n
11c
n
121
. . . . . n
12c
n
1b1
. . . . . n
1bc
n
1··
A
2
n
211
. . . . . n
21c
n
221
. . . . . n
22c
n
2b1
. . . . . n
2bc
n
2··
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
A
o
n
o11
. . . . . n
o1c
n
o22
. . . . . n
o2c
n
ob1
. . . . . n
obc
n
o··
n
·1·
n
·2·
n
·b·
n
···
siendo
n
j··
=
1
/c
b.c
¸
;.I=1
n
j;I
. n
·;·
=
1
cc
o.c
¸
j.I=1
n
j;I
.
n
j;·
=
1
c
c
¸
I=1
n
j;I
. n = n
···
=
1
c/c
o.b.c
¸
j.;.I=1
n
j;
.
El modelo lineal del diseño de dos factores con interacción es
n
j;I
= j ÷c
j
÷
;
÷
j;
÷c
j;I
.
i = 1. . . . . c: , = 1. . . . . /: / = 1. . . . . c.
siendo j la media general, c
j
el efecto del nivel A
j
del factor …la,
;
el efecto
del nivel B
;
del factor columna,
j;
la interacción entre los niveles A
j
.B
;
. El
242 CAPÍTULO 14. ANÁLISIS DE LA VARIANZA (ANOVA)
parámetro
j;
mide la desviación del modelo aditivo 1(n
j;I
) = j ÷c
j
÷
;
y
solamente es posible estimar si hay c 1 réplicas. Se suponen las restricciones
o
¸
j=1
c
j
=
b
¸
;=1

;
=
o
¸
j=1

j;
=
b
¸
;=1

j;
= 0.
Así el número de parámetros independientes del modelo es
1 ÷ (c ÷1) ÷ (/ ÷1) ÷ (c ÷1)(/ ÷1) = c/
y los g.l. del residuo son c/c ÷c/ = c/(c ÷1).
Las estimaciones de los parámetros son
´ j = n. ´ c
j
= n
j··
÷n.
´

;
= n
·;·
÷n. ´
j;
= n
j;·
÷n
j··
÷n
·;·
÷n.
y la expresión de la desviación aleatoria es
´ c
j;I
= n
j;I
÷ ´ j ÷ ´ c
j
÷
´

;
÷´
j;
= (n
j;
÷n).
La suma de cuadrados residual del modelo es
1
2
0
=
o.b.c
¸
j.;.I=1
(n
j;I
÷n
j··
)
2
.
También debemos considerar las cantidades:
Suma de cuadrados entre …las: (
¹
= /c
¸
j
(n
j··
÷n)
2
Suma de cuadrados entre columnas: (
1
= cc
¸
;
(n
·;·
÷n)
2
Suma de cuadrados de la interacción: (
¹1
= c
¸
j.;
(n
j;·
÷n
j··
÷n
·;·
÷n)
2
Suma de cuadrados residual: (
1
=
¸
j.;I
(n
j;I
÷n
j··
)
2
Suma de cuadrados total: (
T
=
¸
j.;
(n
j;I
÷n)
2
Se veri…ca la siguiente identidad
(
T
= (
¹
÷(
1
÷(
¹1
÷(
1
.
Las hipótesis de interés son:
H
¹
0
: c
1
= = c
o
= 0 (no hay efecto …la)
H
1
0
:
1
= =
b
= 0 (no hay efecto columna)
H
¹1
0
:
11
= =
ob
= 0 (no hay interacción)
14.4. DISEÑOS MULTIFACTORIALES 243
Como en los casos anteriores, podemos ver que la aceptación o rechazo de
las hipótesis se decide mediante el test F:
1
¹
=
(
¹
(
1
c/(c ÷1)
c ÷1
~ 1
o÷1
ob(c÷1)
1
1
=
(
1
(
1
c/(c ÷1)
/ ÷1
~ 1
b÷1
ob(c÷1)
1
¹1
=
(
¹1
(
1
c/(c ÷1)
(c ÷1)(/ ÷1)
~ 1
(o÷1)(b÷1)
ob(c÷1)
14.4. Diseños multifactoriales
Los diseños de dos factores se generalizan a un número mayor de factores.
Cada factor representa una causa de variabilidad que actúa sobre la variable
observable. Si por ejemplo, hay 3 factores A, B, C, las observaciones son n
j;II
.
donde i indica el nivel i-ésimo de A, , indica el nivel j-ésimo de B, / indica
el nivel k-ésimo de C, y / indica la réplica / para la combinación i,/ de los
tres factores, que pueden interactuar. Un modelo típico es
n
j;II
= j ÷c
¹
j
÷c
1
;
÷c
C
I
÷c
¹1
j;
÷c
¹C
jI
÷c
1C
;I
÷c
¹1C
j;I
÷c
j;II
.
siendo:
j = media general,
c
¹
j
. c
1
;
. c
C
I
= efectos principales de A,B,C,
c
¹1
j;
. c
¹C
jI
. c
1C
;I
= interacciones entre A y B, A y C, B y C,
c
¹1C
j;I
= interacción entre A,B y C,
c
j;II
= desviación aleatoria `(0. o
2
).
Son hipótesis de interés: H
¹
0
: c
¹
j
= 0 (el efecto principal de A no es signi-
…cativo), H
¹1
0
: c
¹1
j
= 0 (la interacción entre A y B no es signi…cativa), etc.
Los tests para aceptar o no estas hipótesis se obtienen descomponiendo la
variabilidad total en sumas de cuadrados
¸
j.;.I.I
(n
jI;I
÷n)
2
= ¹ ÷1 ÷( ÷¹1 ÷¹( ÷1( ÷¹1( ÷1.
donde 1 es el residuo. Si los factores tienen c. /. c niveles, respectivamente, y
hay d réplicas para cada combinación de los niveles, entonces ¹ tiene (c ÷1)
244 CAPÍTULO 14. ANÁLISIS DE LA VARIANZA (ANOVA)
g.l., ¹1 tiene (c ÷1)(/ ÷1) g.l. Si interpretamos las réplicas como un factor
1. el residuo es
1 = 1 ÷¹1 ÷11 ÷(1 ÷¹11 ÷¹(1 ÷1(1 ÷¹1(1
con
¡ = (d ÷1) ÷ (c ÷1)(d ÷1) ÷ ÷ (c ÷1)(/ ÷1)(c ÷1)(d ÷1) = c/c(d ÷1)
g.l. Entonces calcularemos los cocientes F
1 =
¹(c ÷1)

. 1 =
¹1(c ÷1)(/ ÷1)

.
que sirven para aceptar o rechazar H
¹
0
y H
¹1
0
, respectivamente.
En determinadas situaciones experimentales puede suceder que algunos
factoros no interactúen. Entonces las sumas de cuadrados correspondientes
se suman al residuo. Por ejemplo, si C no interactúa con A,B, el modelo es
n
j;II
= j ÷c
¹
j
÷c
1
;
÷c
C
I
÷c
¹1
j;
÷c
j;II
y la descomposición de la suma de cuadrados es
¸
j.;.I.I
(n
jI;I
÷n)
2
= ¹ ÷1 ÷( ÷¹1 ÷1
t
.
donde 1
t
= ¹( ÷1( ÷¹1( ÷1 es el nuevo residuo con g.l.
¡
t
= (c ÷1)(c ÷1) ÷ (/ ÷1)(c ÷1) ÷ (c ÷1)(/ ÷1)(c ÷1) ÷¡.
Los cocientes F para las hipótesis anteriores son ahora
1 =
¹(c ÷1)
1
t
¡
t
. 1 =
¹1(c ÷1)(/ ÷1)
1
t
¡
t
.
14.5. Modelos log-lineales
Supongamos que tenemos dos variables categóricas A,B con c. / categorías
respectivamente, y hemos observado las c/ categorias : =
¸
j;
1
j;
veces,
14.5. MODELOS LOG-LINEALES 245
donde 1
j;
es el número de veces que se observó la intersección A
j
¨B
;
. es
decir, tenemos la tabla de contingencia c / :
B
1
B
2
B
b
A
1
1
11
1
12
1
1b
1

A
2
1
21
1
22
1
2b
1

.
.
.
.
.
.
A
o
1
o1
1
o2
1
ob
1

1
·1
1
·2
1
·b
:
donde 1

=
¸
;
1
j;
. 1
·;
=
¸
j
1
j;
son las frecuencias marginales de A
j
.B
;
respectivamente. Indiquemos las probabilidades
j
j;
= 1(A
j
¨ B
;
). j

= 1(A
j
). j
·;
= 1(B
;
).
Existe independencia estocástica entre A y B si j
j;
= j

j
·;
. es decir, si
ln j
j;
= ln j

÷ ln j
·;
.
Si introducimos las frecuencias teóricas
1
j;
= :j
j;
. 1

= :j

. 1
·;
= :j
·;
.
la condición de independencia es
ln 1
j;
= ln 1

÷ ln 1
·;
÷ln :.
que podemos escribir como
ln 1
j;
= \ ÷\
¹
j
÷\
1
;
. (14.1)
siendo
\ = (
¸
o
j=1
¸
b
;=1
ln 1
j;
)c/.
\
¹
j
= (
¸
b
;=1
ln 1
j;
)/ ÷\.
\
1
;
= (
¸
o
j=1
ln 1
j;
)c ÷\.
El modelo (14.1) es un ejemplo de modelo log-lineal.
Generalmente no podemos aceptar la independencia estocástica. Por tan-
to, hemos de añadir un término a (14.1) y escribir
ln 1
j;
= \ ÷\
¹
j
÷\
1
;
÷\
¹1
j;
.
246 CAPÍTULO 14. ANÁLISIS DE LA VARIANZA (ANOVA)
donde \
¹1
j;
= ln 1
j;
÷ \ ÷ \
¹
j
÷ \
1
;
es la desviación del modelo lineal. La
similitud con el modelo anova de dos factores es clara.
En las aplicaciones no conocemos las frecuencias esperadas 1
j;
. sino las
frecuencias observadas 1
j;
. Entonces la estimación de los parámetros es muy
semejante al modelo anova, pero los tests de hipótesis se resuelven mediante
ji-cuadrados.
La hipótesis de interés es la independencia entre A,B
H
0
: \
¹1
j;
= 0.
que equivale a decir que los datos se ajustan al modelo (14.1). Sean
´
1
j;
= :1

1
·;
las estimaciones máximo-verosímiles de las frecuencias esperadas. El test ji-
cuadrado clásico consiste en calcular
¸
j.;
(1
j;
÷
´
1
j;
)
2

´
1
j;
y el test de la razón de verosimilitud se basa en
2
¸
j.;
1
j;
log(1
j;

´
1
j;
).
que también sigue la distribución ji-cuadrado con (c ÷1)(/ ÷1) g.l.
El tratamiento de 3 variables categóricas A, B, C es semejante. Partiendo
de una tabla de contingencia c / c. puede interesarnos saber si:
a) A, B, C son mútuamente independientes, en cuyo caso el modelo es
ln 1
j;I
= \ ÷\
¹
j
÷\
1
;
÷\
C
I
.
b) Hay dependencia entre A y B, entre A y C, entre B y C
ln 1
j;I
= \ ÷\
¹
j
÷\
1
;
÷\
C
I
÷\
¹1
j;
÷\
¹C
jI
÷\
1C
;I
.
c) Hay además dependencia entre A, B, C
ln 1
j;I
= \ ÷\
¹
j
÷\
1
;
÷\
C
I
÷\
¹1
j;
÷\
¹C
jI
÷\
1C
;I
÷\
¹1C
j;I
.
d) A es independiente de B, C, que son dependientes, siendo el modelo
ln 1
j;I
= \ ÷\
¹
j
÷\
1
;
÷\
C
I
÷\
1C
;I
.
En cada caso, el test ji-cuadrado o el de razón de verosimilitud nos permiten
decidir si los datos se ajustan al modelo. Conviene observar que obtendríamos
.
2
= 0 en el tercer modelo, ya que los datos se ajustan perfectamente al
modelo.
14.5. MODELOS LOG-LINEALES 247
Género Edad Supervivencia 1 2 3 T
Hombre Adulto NO 118 154 387 670
Mujer 4 13 89 3
Hombre Niño 0 0 35 0
Mujer 0 0 17 0
Hombre Adulto SÍ 57 14 75 192
Mujer 140 80 76 20
Hombre Niño 5 11 13 0
Mujer 1 13 14 0
Tabla 14.1: Tabla de frecuencias combinando género, edad, supervivencia y
clase, de los datos del Titanic.
14.5.1. Ejemplo
Ejemplo 14.5.1
Analicemos los datos de supervivencia del Titanic, véase el Ejemplo 9.8.2,
que reproducimos de nuevo en la Tabla 14.1.
Indicamos por c la parte del modelo que contiene los efectos principales
y las interacciones de orden inferior a la máxima propuesta. Por ejemplo,
c = \ ÷\
G
j
÷\
1
;
÷\
S
I
÷\
C
|
÷\
G1
j;
÷\
GS
jI
÷\
GC
j|
÷\
1S
;I
÷\
1C
;|
÷\
SC
I|
en el caso del modelo [GSC]. Entonces los modelos analizados son:
Modelo para ln 1
j;I
Símbolo .
2
g.l. j
\ ÷\
G
j
÷\
1
;
÷\
S
I
÷\
C
|
[G][E][S][C] 1216.4 25 0.000
c = \
G1
j;
÷ ÷\
SC
I|
[GE][GS][GC][ES][EC][SC] 239.7 16 0.000
c ÷\
G1C
j;|
÷\
S
I
[GEC][S] 659.3 15 0.000
c ÷\
G1C
j;|
÷\
GSC
jI|
÷\
G1S
j;I
[GEC][GSC][GES] 32.3 6 0.000
c ÷\
G1SC
j;I|
[GESC] 0 - -
c ÷\
G1C
j;|
÷\
GSC
j;I
÷\
1SC
;I|
[GEC][GSC][ESC] 9.2 4 0.056
El modelo [G][E][S][C] debe rechazarse, pues .
2
es muy signi…cativo. El
modelo [GE][GS][GC][ES][EC][SC] con sólo las interacciones de segundo or-
den se ajusta mejor pero también debe rechazarse. El modelo [GEC][S], sig-
ni…caría suponer (caso de aceptarse) que el combinado de género, edad y
248 CAPÍTULO 14. ANÁLISIS DE LA VARIANZA (ANOVA)
clase es independiente de la supervivencia, pero también debe rechazarse.
El modelo [GESC] es el modelo de dependencia completa, que incluye todas
las interacciones, se ajusta perfectament a las frecuencias observadas, pero
carece de interés (hay tantos parámetros como datos).
El único modelo que podría aceptarse es el [GEC][GSC][ESC], .
2
= 0.2
con 4 g.l. Se concluye que debemos aceptar que la supervivencia dependía
del género, edad y clase. El salvamento de los pasajeros se produjo en los
términos siguientes: “mujeres y niños primero (según la clase) y después
hombres de primera clase”.
14.6. Complementos
El Análisis de la Varianza fue introducido por R. A. Fisher en 1938, para
resolver problemas de diseño experimental en agricultura. Hemos visto que
es una aplicación del modelo lineal. Existen muchos diseños diferentes, cuyo
estudio dejamos para otro momento.
Los primeros estudios y aplicaciones consideraban factores de efectos …-
jos. En 1947, C. Eisenhart consideró que algunos efectos podían ser aleato-
rios. Ciertamente, los efectos que actúan sobre los modelos pueden ser …jos,
aleatorios o mixtos, y cuando hay interacciones el cálculo de los cocientes F
es diferente. Ver Cuadras (2000), Peña (1989).
Capítulo 15
ANÁLISIS DE LA VARIANZA
(MANOVA)
15.1. Modelo
El análisis multivariante de la varianza (MANOVA) es una generalización
en j 1 variables del análisis de la varianza (ANOVA).
Supongamos que tenemos : observaciones independientes de j variables
observables )
1
. . . . . )
j
. obtenidas en diversas condiciones experimentales, co-
mo en el caso univariante. La matriz de datos es
¥ =

¸
¸
¸
¸
n
11
n
12
n
1j
n
21
n
22
n
2j
.
.
.
.
.
.
.
.
.
.
.
.
n
a1
n
a2
n
aj
¸

= [¯ v
1
.¯ v
2
. . . . .¯ v
j
|.
donde ¯ v
;
= (n
1;
. n
2;
. . . . . n
a;
)
t
son las : observaciones (independientes) de
la variable )
;
. que suponemos siguen un modelo lineal univariante ¯ v
;
=
Xd
;
÷o
;
.
El modelo lineal multivariante es
¥ = XH÷E (15.1)
249
250 CAPÍTULO 15. ANÁLISIS DE LA VARIANZA (MANOVA)
siendo X la matriz de diseño
X =

¸
¸
¸
¸
r
11
r
12
r
1n
r
21
r
22
r
2n
.
.
.
.
.
.
.
.
.
.
.
.
r
a1
r
a2
r
an
¸

.
H la matriz de parámetros de regresión
H =

¸
¸
¸
¸

11

12

1j

21

22

2j
.
.
.
.
.
.
.
.
.
.
.
.

n1

n2

nj
¸

.
y E la matriz de desviaciones aleatorias
E =

¸
¸
¸
¸
c
11
c
12
c
1j
c
21
c
22
c
2j
.
.
.
.
.
.
.
.
.
.
.
.
c
a1
c
a2
c
aj
¸

Las matrices ¥ y X son conocidas. Suponemos que las …las de E son inde-
pendientes `
j
(0.¯).
15.2. Estimación de parámetros
En el modelo MANOVA debemos estimar los :j parámetros de regre-
sión contenidos en H. así como la matriz de covarianzas ¯.
En el modelo univariante v = Xd ÷o. la estimación LS
´
d = (X
t
X)
÷
X
t
v
minimiza ´o
t
´o= (v ÷X
´
d)
t
(v ÷X
´
d). En el caso multivariante, el estimador
LS de H es
´
H tal que minimiza la traza
tr(
´
E
t
´
E) = tr[(¥÷X
´
H)
t
(¥÷X
´
H)|.
siendo
´
E = ¥÷X
´
H.
La matriz de residuos es la matriz H
0
= (1
0
(i. ,)) de orden j j
H
0
=
´
E
t
´
E = (¥÷X
´
H)
t
(¥÷X
´
H).
donde 1
0
(,. ,) es la suma de cuadrados residual del modelo univariante ¯ v
;
=
Xd
;
÷o
;
.
15.2. ESTIMACIÓN DE PARÁMETROS 251
Teorema 15.2.1 Consideremos el modelo de regresión multivariante ¥ =
XH÷E. siendo
¥ =

v
t
1
.
.
.
v
t
a
¸
¸
¸
. E =

o
t
1
.
.
.
o
t
a
¸
¸
¸
.
con las condiciones:
1. 1(¥) = XH, es decir, 1(E) = 0.
2. cov(v
j
) = cov(o
j
) = ¯. donde v
t
j
son …las de ¥. y o
t
j
son …las de E.
3. cov(v
j
. v
;
) =cov(o
j
. o
;
) = 0 para i = ,.
Entonces:
Las estimaciones LS de los parámetros de regresión H veri…can las
ecuaciones normales
X
t
X
´
H = X
t
¥. (15.2)
y vienen dados por
´
H = (X
t
X)
÷1
X
t
¥.
cuando el diseño es de rango máximo : = rang(X) =:. y por
´
H = (X
t
X)
÷
X
t
¥
cuando : < :. El estimador
´
H minimiza la traza tr(
´
E
t
´
E) así como el
determinante oci(
´
E
t
´
E). Además
´
H es un estimador insesgado de H.
Demost.: Sea H
0
otro estimador de H. Entonces:
(¥÷XH
0
)
t
(¥÷XH
0
) = (¥÷X
´
H÷X
´
H÷XH
0
)
t
(¥÷X
´
H÷X
´
H÷XH
0
)
= H
0
÷ (X
´
H÷XH
0
)
t
(X
´
H÷XH
0

(¥÷X
´
H)
t
(X
´
H÷XH
0
)÷(X
´
H÷XH
0
)
t
(¥÷X
´
H)
= H
0
÷ (X
´
H÷XH
0
)
t
(X
´
H÷XH
0
).
pues (¥÷X
´
H)
t
(X
´
H÷XH
0
) =(¥÷X
´
H)
t
X(
´
H÷H
0
) = 0 por veri…car
´
H
las ecuaciones normales (15.2). Luego (¥÷XH
0
)
t
(¥÷XH
0
) = H
0
÷ ^.
siendo ^ una matriz j j de…nida positiva. Entonces la traza y el determi-
nante de (¥÷XH
0
)
t
(¥÷XH
0
) alcanzan el valor mínimo cuando ^= 0,
es decir, para H
0
=
´
H. Por otra parte
1(
´
H) = (X
t
X)
÷1
X
t
1(¥) =(X
t
X)
÷1
(X
t
X)H = H.
252 CAPÍTULO 15. ANÁLISIS DE LA VARIANZA (MANOVA)
Teorema 15.2.2 Bajo las mismas condiciones del teorema anterior, con : =
rang(X). podemos expresar la matriz de residuos como
H
0
= ¥
t
[I ÷X(X
t
X)
÷
X
t
|¥.
Una estimación centrada de la matriz de covarianzas ¯ es
´
¯ = H
0
(: ÷:).
Demost.:
(¥÷X
´
H)
t
(¥÷X
´
H) = ¥
t
¥÷¥
t
X
´

´
H
t
X
t
¥÷
´
H
t
X
t
X
´
H
= ¥
t
¥÷¥
t
X
´
H (por
´
H
t
X
t
¥ =
´
H
t
X
t
X
´
H)
= ¥
t
¥÷¥
t
X(X
t
X)
÷
X
t
¥
= ¥
t
[I ÷X(X
t
X)
÷
X
t
|¥.
Sea ahora T = [t
1
. . . . . t
v
. t
v+1
. . . . . t
a
| una matriz ortogonal tal que sus
columnas formen una base ortonormal de 1
a
. de manera que las : primeras
generen el mismo subespacio (
v
(X) generado por las columnas de X. Por lo
tanto las otras : ÷: columas serán ortogonales a (
v
(X). Es decir
t
t
j
X = + si i _ :.
t
t
j
X = 0 si i :.
donde + indica un valor posiblemente no nulo.
Sea Z = T
t
¥.Entonces
1(Z) = T
t
XH =
¸
n
0

: primeras …las
: ÷: últimas …las
Consideremos el residuo
´
E= ¥÷X
´
H. De X
t
(¥÷X
´
H) = 0. ver ecuaciones
normales (15.2), deducimos que
´
E es ortogonal a X en el sentido que
T
t
´
E =
¸
0
Z
a÷v

: primeras …las
: ÷: últimas …las
donde Z
a÷v
es matriz (: ÷:) j. Pero
T
t
´
E = T
t
¥÷T
t
X
´
H = Z ÷
¸
+
0

=
¸
0
Z
a÷v

.
15.3. TESTS DE HIPÓTESIS LINEALES 253
es decir, las últimas : ÷ : …las de Z y de T
t
´
E coinciden. Entonces, como
TT
t
= I.
H
0
=
´
E
t
´
E =
´
E
t
TT
t
´
E =

0 Z
t
a÷v

¸
0
Z
a÷v

= Z
t
a÷v
Z
a÷v
.
Indiquemos Z
t
a÷v
= [z
1
. . . . . z
a÷v
| donde z
t
1
. . . . . z
t
a÷v
son las …las (inde-
pendientes) de Z
a÷v
. Entonces cada z
j
es un vector de media cero y matriz
de covarianzas ¯. Luego 1(z
j
z
t
j
) = ¯ y Z
t
a÷v
Z
a÷v
= z
1
z
t
1
÷ ÷ z
a÷v
z
t
a÷v
.
Por lo tanto
1(H
0
) = 1(z
1
z
t
1
÷ ÷z
a÷v
z
t
a÷v
) = (: ÷:)¯.
Teorema 15.2.3 Sea ¥ = XH÷E el modelo lineal normal multivariante
donde las …las de E son `
j
(0.¯) independientes. Sea H
0
la matriz de resid-
uos. Se veri…ca entonces que la distribución de H
0
es Wishart \
j
(¯. : ÷:).
Demost.: Hemos visto en el teorema anterior que 1(Z
a÷v
) = 0. Así las : ÷
: …las de Z
a÷v
son todas `
j
(0.¯) independientes. Luego H
0
= Z
t
a÷v
Z
a÷v
cumple las condiciones de una matriz j j que sigue la distribución de
Wishart.
15.3. Tests de hipótesis lineales
Una hipótesis lineal demostrable de rango t y matriz H es
H
0
: HH = 0
donde las …las de H son combinación lineal de las …las de X.
Como en el caso univariante (Sección 13.5), si H
0
es cierta, el modelo se
transforma en
¥ =
¯
XO÷E.
la estimación de los parámetros H restringidos a H
0
viene dada por
´
H
1
=
´
H÷(X
t
X)
÷
H
t
(H(X
t
X)
÷
H
t
)
÷1
H
´
H
y la matriz residual es
H
1
= (¥÷X
´
H
1
)
t
(¥÷X
´
H
1
).
254 CAPÍTULO 15. ANÁLISIS DE LA VARIANZA (MANOVA)
Teorema 15.3.1 Sea ¥ = XH÷E el modelo lineal multivariante, donde
las …las de E son `
j
(0.¯) independientes, H
0
la matriz de residuos, H
0
:
HH = 0 una hipótesis lineal demostrable y H
1
la matriz de residuos bajo H
0
.
Se veri…ca:
1. H
0
~ \
j
(¯. : ÷:).
2. Si H
0
es cierta, las matrices H
0
y H
1
÷ H
0
siguen la distribución de
Wishart
H
1
~ \
j
(¯. : ÷:
t
). H
1
÷H
0
~ \
j
(¯. t).
siendo t = :c:o(H). :
t
= : ÷t.
3. Si H
0
es cierta, las matrices H
0
y H
1
÷H
0
son estocásticamente inde-
pendientes.
Demost.: Si la hipótesis H
0
es cierta, el subespacio generado por las …las de
H está contenido en el generado por las …las de X. Podemos construir una
base ortogonal de 1
n
[u
1
. . . . . u
t
. u
t+1
. . . . . u
v
. u
v+1
. . . . . u
n
|
tal que [u
1
. . . . . u
t
| generen H. y [u
1
. . . . . u
t
. u
t+1
. . . . . u
v
| generen X.
Consideremos la matriz Cde orden :(:÷t) generada por [u
t+1
. . . . . u
v
|.
Entonces HC = 0 y el modelo ¥ = XH÷E se convierte en ¥ =
¯
XO÷E.
siendo
¯
X = XC. y CO = H. pues HH = HCO = 0..Así la matriz de diseño
X se transforma en
¯
X = XC. donde las columnas de XC son combinación
lineal de las columnas de X.
Podemos construir una matriz ortogonal
T = [t
1
. . . . . t
v
0 . t
v
0
+1
. . . . . t
v
. t
v+1
. . . . . t
a
|
tal que las :
t
= :÷t primeras columnas generen XC y las : primeras generen
X
(
v
0 (XC) = [t
1
. . . . . t
v
0 | · (
v
(X) = [t
1
. . . . . t
v
|.
Siguiendo los mismos argumentos del teorema 15.2.2, tenemos que
T
t
´
E =
¸
0
Z
a÷v
0

.
15.4. MANOVA DE UN FACTOR 255
donde las : ÷:
t
…las de Z
a÷v
0 son `
j
(0.¯) independientes. Por tanto
H
1
= (¥÷
¯
X
´
O)
t
(¥÷
¯
X
´
O) = Z
t
a÷v
0 Z
a÷v
0
es Wishart \
j
(¯. : ÷:
t
). Por otro lado podemos escribir
T
t
(¥÷
¯
X
´
O) =
¸
0
Z
a÷v
0

=

0
Z
t
Z
a÷v
¸
¸
.
donde las t = : ÷:
t
…las de Z
t
son independientes de las : ÷: …las de Z
a÷v
.
Entonces H
1
= Z
t
t
Z
t
÷Z
t
a÷v
Z
a÷v
. es decir,
H
1
÷H
0
= Z
t
t
Z
t
.
donde H
1
÷H
0
es Wishart \
j
(¯. : ÷:
t
) e independiente de H
0
.
La consecuencia más importante de este teorema es que, si H
0
es cierta,
entonces H
0
y H
1
÷H
0
son Wishart independientes y
A =
[H
0
[
[(H
1
÷H
0
) ÷H
0
[
=
[H
0
[
[H
1
[
~ A(j. : ÷:. t).
Así 0 _ A _ 1 sigue la distribución de Wilks. Aceptaremos H
0
si A no es
signi…cativo y rechazaremos H
0
si A es pequeño y signi…cativo.
Tabla general MANOVA
g. l. matriz Wishart lambda de Wilks
Desviación hipótesis t H
1
÷H
0
A = [H
0
[[H
1
[
Residuo : ÷: H
0
Criterio decisión: Si A < A
c
es rechazada H
0
. donde 1(A(j. : ÷:. t) < A
c
) = c.
15.4. Manova de un factor
El modelo del diseño de un único factor o causa de variabilidad es
v
jI
= µ ÷o
j
÷o
jI
. i = 1. . . . ./: / = 1. . . . .:
j
.
donde µ es un vector de medias general, o
j
es el efecto del nivel i del fac-
tor, v
jI
es la observación multivariante / en la situación (o población) i.
256 CAPÍTULO 15. ANÁLISIS DE LA VARIANZA (MANOVA)
correspondiendo a la misma situación experimental del análisis canónico de
poblaciones (Capítulo 7), con : = :
1
÷ ÷:
I
. Por tanto
V = H
0
. H = H
1
÷H
0
. T = H
1
= H÷V.
son las matrices de dispersión “dentro grupos”, “entre grupos” y “total”,
respectivamente (Sección 3.3.3).
MANOVA de un factor
g. l. matriz Wishart lambda de Wilks
Entre grupos / ÷1 H A = [V[[T[ ~ A(j. : ÷/. / ÷1)
Dentro grupos : ÷/ V
Total : ÷1 T
15.5. Manova de dos factores
Si suponemos que las : = c / observaciones multivariantes dependen
de dos factores …la y columna, con c y / niveles respectivamente, el modelo
es
v
j;
= µ ÷o
j
÷d
;
÷o
j;
. i = 1. . . . . c: , = 1. . . . . /.
donde µ es la media general, o
j
es el efecto aditivo del nivel i del factor …la, d
;
es el efecto aditivo del nivel , del factor columna. Como generalización del ca-
so univariante, intervienen las matrices A = (c

). H =(/

). T = (t

). H
0
=
(:

) con elementos
c

= /
¸
j
(n
j·&
÷n
&
)(n
j··
÷n
·
)
/

= c
¸
;
(n
·;&
÷n
&
)(n
·;·
÷n
·
)
:

=
¸
j;
(n
j;&
÷n
j·&
÷n
·;&
÷n
&
)(n
j;·
÷n
j··
÷n
·;·
÷n
·
)
t

=
¸
j;
(n
j;&
÷n
&
)(n
j;·
÷n
·
). n. · = 1. . . . . j.
siendo, para cada variable )
&
. n
&
la media general, n
·;&
la media …jando el
nivel , del factor columna, etc. Se veri…ca
T = A÷H÷H
0
.
Indicando ¡ = (c ÷1)(/ ÷1). obtenemos la tabla
15.6. MANOVA DE DOS FACTORES CON INTERACCIÓN 257
MANOVA de dos factores
matriz lambda
g. l. Wishart de Wilks
Filas c ÷1 A [A[[T[ ~ A(j. ¡. c ÷1)
Columnas / ÷1 H [H[[T[ ~ A(j. ¡. / ÷1)
Residuo ¡ H
0
Total c/ ÷1 T
15.6. Manova de dos factores con interacción
En el diseño de dos factores con interacción suponemos que las : = c/c
observaciones multivariantes dependen de dos factores …la y columna, con c
y / niveles respectivamente, y que hay c observaciones (réplicas) para cada
una de las c / combinaciones de los niveles. El modelo lineal es
v
j;I
= µ ÷o
j
÷d
;
÷~
j;
÷o
j;I
. i = 1. . . . . c: , = 1. . . . . /: / = 1. . . . . c.
donde µ es la media general, o
j
es el efecto aditivo del nivel i del factor …la,
d
;
es el efecto aditivo del nivel , del factor columna, ~
j;
es la interacción,
parámetro que mide la desviación de la aditividad del efecto de los factores,
e v
j;I
= (n
j;I1
. . . . . n
j;Ij
)
t
es la réplica multivariante / de las variables ob-
servables. También, como en el caso univariante, intervienen las matrices
A = (c

). H = (/

). AH = (c

). H
0
= (:

). T = (t

). donde
c

= /c
¸
j
(n
j··&
÷n
&
)(n
j···
÷n
·
)
/

= cc
¸
;
(n
·;·&
÷n
&
)(n
·;··
÷n
·
)
c

= c
¸
j.;
(n
j;·&
÷n
j··&
÷n
·;··
÷n
&
)(n
j;··
÷n
j···
÷n
·;··
÷n
·
)
:

=
¸
j.;I
(n
j;I&
÷n
j··&
)(n
j;I·
÷n
j···
)
t

=
¸
j.;
(n
j;&
÷n
&
)(n
j;&
÷n
&
). n. · = 1. . . . . j.
que veri…can
T = A÷H÷AH÷H
0
.
( AH no es un producto matricial). Obtenemos la tabla:
258 CAPÍTULO 15. ANÁLISIS DE LA VARIANZA (MANOVA)
MANOVA de dos factores con interacción
matriz lambda
g. l. Wishart de Wilks
Filas c ÷1 A [A[[T[ ~ A(j. :. c ÷1)
Columnas / ÷1 H [H[[T[ ~ A(j. :. / ÷1)
Interacción (c ÷1)(/ ÷1) = ¡ AH [AH[[T[ ~ A(j. :. ¡)
Residuo c/(c ÷1) = : H
0
Total c/c ÷1 T
15.7. Ejemplos
Ejemplo 15.7.1 Ratas experimentales.
En un experimento para inhibir un tumor, se quiere investigar el efecto
del sexo (S) y de la temperatura ambiental (T). Se consideran las variables:
)
1
=peso inicial, )
2
=peso …nal, )
3
=peso del tumor.
Machos Hembras
Temp )
1
)
2
)
3
)
1
)
2
)
3
4 18.15 16.51 0.24 19.15 19.49 0.16
18.68 19.50 0.32 18.35 19.81 0.17
19.54 19.84 0.20 20.58 19.44 0.22
20 21.27 23.30 0.33 18.87 22.00 0.25
19.57 22.30 0.45 20.66 21.08 0.20
20.15 18.95 0.35 21.56 20.34 0.20
34 20.74 16.69 0.31 20.22 19.00 0.18
20.02 19.26 0.41 18.38 17.92 0.30
17.20 15.90 0.28 20.85 19.90 0.17
Los resultados MANOVA son:
15.7. EJEMPLOS 259
g. l. matriz dispersión lambda F g.l.
T 2

¸
4.81 0.00 .284
32.ò .370
.010
¸

.261 3.18 6,20
S 1

¸
.042 1.27 ÷.10
2.ò1 ÷.38
.000
¸

.337 6.55 3,10
TS 2

¸
.27ò .810 .038
32.ò .088
.000
¸

.772 0.46 6,20
Residuo 12

¸
10.3 7.01 ÷.10
20.7 .208
.030
¸

Total 17

¸
2ò.0 18.7 ÷.00
32.ò .284
.12ò
¸

Son signi…cativos los efectos S y T, pero la interacción no es signi…cativa.
Una representación canónica de los 3 2 = 0 grupos (Figura 14.1) ayuda
a visualizar las diferencias. Podemos ver que la pequeña diferencia entre la
representación de las tres temperatures de los machos y de las hembras es
indicio de una cierta interacción, aunque no signi…cativa.
260 CAPÍTULO 15. ANÁLISIS DE LA VARIANZA (MANOVA)
Figura 15.1: Representación canónica de los datos de las ratas hembras
(izquierda) y machos (derecha).
Ejemplo 15.7.2 Coleópteros.
Continuando con el ejemplo 7.5.1, vamos a estudiar 8 especies (factor E)
de coleópteros del género Timarcha, pero teniendo en cuenta el sexo, machos
y hembras (factor S), en relación a 5 variables biométricas.
Las matrices de dispersión entre especies, entre sexos, debidas a la inter-
acción, residual y los estadísticos A y 1 son:
E=

¸
¸
¸
¸
¸
14303 24028 17137 48484 30308
43734 31300 8ò080 04ò21
23010 01ò10 4040ò
100020 120080
0ò30ò
¸

A = .0008
1
35.2353
= 1ò2.8
S=

¸
¸
¸
¸
¸
07ò.04 1013.0 1044.ò 4ò20.0 3270.0
3840.3 3024.4 10780. 7804.0
4001.0 10007. 70ò7.2
3022ò. 21871.
1ò82ò.
¸

A = .1044
1
5.559
= 403.2
ES=

¸
¸
¸
¸
¸
00.470 81.ò32 03.òò0 02.03ò 20.òò4
07.20ò 8ò.òò4 1ò7.28 102.31
80.40ò 127.00 108.2ò
428.07 230.ò3
282.30
¸

A = .7002
1
35.2353
= 4.320
15.8. OTROS CRITERIOS 261
R
0
=

¸
¸
¸
¸
¸
1ò40.7 1487.8 1340.4 24ò2.0 1024.0
3408.ò 3078.4 4200.0 341ò.0
3082.0 3888.2 31ò0.4
0178.0 0038.0
ò0ò0.3
¸

15.8. Otros criterios
Sea \
1
_ _ \
j
los valores propios de H
0
respecto de H
1
. Podemos
expresar el criterio de Wilks como
A =
[H
0
[
[H
1
[
= \
1
\
j
.
Este criterio es especialmente interesante, teniendo en cuenta que si \ es la
razón de verosimilitud en el test de hipótesis, entonces \ = A
a/2
.
Se demuestra que cualquier estadístico que sea invariante por cambios
de origen y de escala de los datos, debe ser función de estos valores propios
(Anderson, 1958). Así otros tests propuestos son:
1. Traza de Hotelling:
tr((H
1
÷H
0
)H
÷1
c
) =
j
¸
j=1
1 ÷\
j
\
j
.
2. Traza de Pillai:
tr((H
1
÷H
0
)H
÷1
1
) =
j
¸
j=1
1 ÷\
j
.
3. Raíz mayor de Roy: (1 ÷\
j
)\
j
.
En el ejemplo 15.7.2, para contrastar las diferencias entre localidades,
obtenemos los siguientes valores de los estadísticos de Wilks, Hotelling, Pillai
y Roy, y sus transformaciones a una F:
F g.l. g.l.
Wilks 0.007 152.8 35 2354
Hotelling 28.02 446.2 35 2787
Pillai 2.090 57.78 35 2815
Roy 24.90 2002 7 563
262 CAPÍTULO 15. ANÁLISIS DE LA VARIANZA (MANOVA)
15.9. Complementos
El Análisis Multivariante de la Varianza es muy similar al Análisis de
la Varianza, salvo que interviene más de una variable cuantitativa observ-
able. Esta extensión multivariante se inicia en 1930 con los trabajos de H.
Hotelling, J. Wishart y S. S. Wilks. Posteriormente S.N. Roy propuso un
planteo basado en el principio de unión-intersección.
Los cuatro criterios que hemos visto son equivalentes para j = 1. y difer-
entes para j 1. No está claro cual es el mejor criterio, depende de la
hipótesis alternativa. Por ejemplo, en el diseño de un factor, si los vectores
de medias están prácticamente alineados, entonces el criterio de Roy es el
más potente. Ver Rencher (1998).
Se puede plantear un análisis tipo ANOVA para datos categóricos, dando
lugar al método llamado CATANOVA (Light y Margolin, 1971). Para datos
mixtos o no normales, se puede plantear MANOVA utilizando distancias
entre las observaciones, calculando coordenadas principales mediante MDS, y
a continuación aplicando el modelo de regresión multivariante. Véase Cuadras
(2008).
Capítulo 16
FUNCIONES ESTIMABLES
MULTIVARIANTES
16.1. Funciones estimables
En el modelo lineal univariante v = Xd ÷o, además de la estimación de
los parámetros de regresión d. tiene también interés la estimación de ciertas
combinaciones lineales de los parámetros d.
De…nición 16.1.1 Una función paramétrica · es una combinación lineal de
los parámetros d = (
1
. . . . .
n
)
t
· = j
1

1
÷ ÷j
n

n
= p
t
d.
donde p = (j
1
. . . . . j
n
)
t
. Una función paramétrica · es estimable si existe
una combinación lineal
´
· de v = (n
1
. . . . . n
a
)
t
´
· = c
1
n
1
÷ ÷c
a
n
a
= a
t
v.
donde a = (c
1
. . . . . c
a
)
t
, tal que
1(
´
·) = ·.
La caracterización de que una función paramétrica · es estimable es la
siguiente
Proposición 16.1.1 Una función paramétrica · = p
t
d es estimable si y
sólo si el vector …la p
t
es combinación lineal de las …las de la matriz de
diseño X.
263
264 CAPÍTULO 16. FUNCIONES ESTIMABLES MULTIVARIANTES
Demost.: 1(
´
·) = 1(a
t
v) = a
t
1(v) = a
t
Xd = p
t
d, que vale para todo d. Por
lo tanto a
t
X = p
t
. es decir, p
t
es combinación lineal de las …las de X.
16.2. Teorema de Gauss-Markov
La estimación óptima de una función paramétrica estimable · = p
t
d se
obtiene sustituyendo d por la estimación LS
´
d. Esto es el famoso teorema
de Gauss-Markov.
Teorema 16.2.1 Sea · = p
t
d una función paramétrica estimable. Se ver-
i…ca:
1. Si
´
d es estimador LS de d, entonces
´
· = p
t
´
d es único.
2.
´
· = p
t
´
d es estimador lineal insesgado de · y, dentro de los estimadores
lineales insesgados de ·, tiene varianza mínima.
Demost.: Existe un estimador insesgado
´
· = a
t
v de · = p
t
d. Sea (
v
(X) el
subespacio generado por las columnas de X. Entonces a =¯a÷I. donde ¯a ÷
(
v
(X) y I es ortogonal a (
v
(X). Consideremos al estimador ¯a
t
v. Tenemos
1(
´
·) = 1(a
t
v) =1(¯a
t
v ÷I
t
v) =1(¯a
t
v) ÷I
t
Xd =1(¯a
t
v) =·.
puesto que I
t
X = 0. Luego ¯a
t
v es estimador centrado. Si a
t
1
v es otro esti-
mador centrado con a
1
÷ (
v
(X). entonces 1(¯a
t
v)÷1(a
t
v) = (¯a
t
÷a
t
)Xd = 0
=¯a = a
1
. es decir, ¯a
t
v es único.
Por otro lado, ´o= v ÷X
´
d es ortogonal a (
v
(X) y ¯a
t
o = ¯a
t
v ÷¯a
t
X
´
d = 0
=¯a
t
v = ¯a
t
X
´
d = p
t
´
d. Así
´
· = ¯a
t
v = p
t
´
d es único y centrado.
Finalmente, indicando
|a|
2
= c
2
1
÷ ÷c
2
a
.
tenemos que
var(a
t
v) =|a|
2
o
2
= (|¯a|
2
÷|I|
2
)o
2
_ |¯a|
2
o
2
= var(¯a
t
v).
que prueba que
´
· = p
t
´
d tiene varianza mínima.
Un criterio para saber si p
t
d es función paramétrica estimable es
p
t
(X
t
X)
÷
X
t
X = p
t
.
16.3. FUNCIONES ESTIMABLES MULTIVARIANTES 265
16.3. Funciones estimables multivariantes
En el modelo lineal multivariante (15.1), también tiene interés la esti-
mación de ciertas combinaciones lineales de los parámetros H. Indiquemos
por v
1
. . . . . v
a
los vectores …la de ¥. y d
1
. . . . . d
n
los vectores …la de H.es
decir:
¥ =

v
1
.
.
.
v
a
¸
¸
¸
. H =

d
1
.
.
.
d
n
¸
¸
¸
.
De…nición 16.3.1 Una función paramétrica multivariante r es una combi-
nación lineal de las …las de H,
r
t
= j
1
d
1
÷ ÷j
n
d
n
= p
t
H.
donde p = (j
1
. . . . . j
n
)
t
. Una función paramétrica multivariante r es es-
timable (fpem) si existe una combinación lineal
´
r
t
de las …las de ¥
´
r
t
= c
1
v
1
÷ ÷c
a
v
a
= a
t
¥.
donde a = (c
1
. . . . . c
a
)
t
, tal que
1(
´
r) = r.
La caracterización de que una función paramétrica · es fpem es la sigu-
iente:
Proposición 16.3.1 Una función paramétrica r
t
= p
t
H es estimable si y
sólo si el vector …la p
t
es combinación lineal de las …las de la matriz de diseño
X.
La demostración es similar al caso univariante. La estimación óptima de
una fpem r
t
= p
t
H viene dada por
´
r
t
= p
t
´
H.
Sólo hay que sustituir H por sus estimaciones LS
´
H.
Teorema 16.3.2 Sea r
t
= (·
1
. . . . . ·
j
) = p
t
H una función paramétrica
estimable. Se veri…ca:
266 CAPÍTULO 16. FUNCIONES ESTIMABLES MULTIVARIANTES
1. Si
´
H es estimador LS de H, entonces
´
r
t
= (
´
·
1
. . . . .
´
·
j
) = p
t
´
H es único.
2. Cada
´
·
;
es estimador lineal insesgado de ·
;
y de varianza mínima
entre los estimadores lineales insesgados de ·
;
.
Observemos que este teorema vale sin necesidad de una hipótesis de nor-
malidad. El estimador LS de r es
´
r
t
= p
t
´
H = p
t
(X
t
X)
÷
X
t
¥ =o
1
v
1
÷ ÷o
a
v
a
donde v
1
. . . . . v
a
son las …las de la matriz de datos ¥. El vector g = (o
1
. . . . . o
a
)
t
es único, y podemos de…nir la dispersión de
´
r. que es mínima, como la can-
tidad
o
2
·
= o
2
1
÷ ÷o
2
a
. (16.1)
La versión del Teorema 15.3.1 para fpem es:
Teorema 16.3.3 En el modelo MANOVA normal, si
´
r = p
t
´
H es la esti-
mación LS de r. entonces:
1. La distribución de
´
r es la de una combinación lineal de variables nor-
males independientes.
2. La distribución de H
0
es \
j
(¯. : ÷:).
3.
´
r y H
0
son estocásticamente independientes.
16.4. Análisis canónico de fpem
Supongamos que r
t
1
= p
t
1
H. . . . . r
t
c
= p
t
c
H es un sistema de : fpem.
Podemos plantear la representación canónica del sistema como una general-
ización del análisis canónico de poblaciones.
16.4.1. Distancia de Mahalanobis
Sean
´
r
1
. . . . .
´
r
c
las estimaciones LS de los fpem,
´
¯ = H
0
(: ÷ :) la
estimación de la matriz de covarianzas. Podemos de…nir la distancia de Ma-
halanobis (estimada) entre las funciones r
j
. r
;
como
`(i. ,)
2
= (
´
r
j
÷
´
r
;
)
t
´
¯
÷1
(
´
r
j
÷
´
r
;
).
16.4. ANÁLISIS CANÓNICO DE FPEM 267
Observemos que si
´
r
t
j
= g
t
j
¥ es independiente de
´
r
t
;
= g
t
;
¥ y se veri…ca
la hipótesis H
0
: r
j
= r
;
. entonces o
÷1
j;
(
´
r
j
÷
´
r
;
) es `
j
(0. X). donde o
j;
=
|g
j
÷g
;
| . y (: ÷ :)
´
¯ es \
j
(¯. : ÷ :). por lo tanto o
÷1
j;
`(i. ,) es Hotelling
1
2
(j. : ÷:) y
: ÷: ÷j ÷ 1
(: ÷:)j
o
÷1
j;
`(i. ,)
2
~ 1
j
a÷v÷j+1
.
Análogamente vemos que la distribución de
: ÷: ÷j ÷ 1
(: ÷:)j
1
o
2
·
(
´
r
j
÷r
j
)
t
´
¯
÷1
(
´
r
j
÷r
j
)
es también 1
j
a÷v÷j+1
. donde o
2
·
es la dispersión mínima (16.1).
16.4.2. Coordenadas canónicas
Si
´
r
j
= (
´
·
j1
. . . . .
´
·
jj
)
t
. i = 1. . . . . :. consideremos las medias
·
;
=
1
:
c
¸
j=1
´
·
j;
. , = 1. . . . . :.
y la matriz
l =

¸
¸
´
·
11
÷·
1

´
·
1j
÷·
j
.
.
.
.
.
.
.
.
.
´
·
c1
÷·
1

´
·
cj
÷·
j
¸

.
Sea Y = [v
1
. . . . . v
j
| la matriz de vectores propios de l
t
l respecto de
´
¯. con
la normalización v
t
;
´
¯v
;
= 1. es decir,
l
t
lY =
´
¯YO
A
. Y
t
´
¯Y = I.
donde O
A
=diag(\
1
. . . . . \
j
) es la matriz diagonal con los valores propios. Las
coordenadas canónicas de
´
r
1
. . . . .
´
r
c
son las …las v
t
1
. . . . . v
t
c
de la matriz
V = lY.
La distancia euclídea entre las …las coincide con la distancia de Mahalanobis
entre las fpem
(v
j
÷v
;
)
t
(v
j
÷v
;
) = (
´
r
j
÷
´
r
;
)
t
´
¯
÷1
(
´
r
j
÷
´
r
;
).
268 CAPÍTULO 16. FUNCIONES ESTIMABLES MULTIVARIANTES
De manera análoga podemos de…nir la variabilidad geométrica de las fpem,
probando que es
\
·
=
1
2:
2
c
¸
j.;=1
`(i. ,)
2
=
1
:
j
¸
j=1
\
j
.
y que es máxima en dimensión reducida ¡. El porcentaje de variabilidad
explicada por las ¡ primeras coordenadas canónicas es
1
o
= 100
\ (¥)
o
\
·
= 100
\
1
÷ ÷\
o
\
1
÷ ÷\
j
.
16.4.3. Regiones con…denciales
Sean v
t
j
=
´
r
t
j
Y. i = 1. . . . . :. las proyecciones canónicas de las estima-
ciones de las fpem. Podemos entender v
t
j
como una estimación de r
+t
j
= r
t
j
Y.
la proyección canónica de r
j
. Podemos también encontrar regiones con…den-
ciales para las r
+
j
. i = 1. . . . . o.
Sea 1 ÷ c el coe…ciente de con…anza, 1
c
tal que 1(1 1
c
) = c. donde
1 sigue la distribución F con j y (: ÷o ÷j ÷ 1) g.l., y consideremos:
1
2
c
= 1
c
(: ÷:)j
(: ÷: ÷j ÷ 1)
.
Luego las proyecciones canónicas r
+
j
de las fpem pertenecen a regiones con…-
denciales que son hiperesferas (esferas en dimensión 3, círculos en dimensión
2) de centros y radios
(v
j
. o
j
1
c
)
donde o
j
es la dispersión mínima (16.1) de la estimación LS de r
j
.
16.5. Ejemplos
Ejemplo 1. Se quiere hacer una comparación de dos fármacos ansiolíticos
(Diazepan y Clobazan) con un placebo, que indicaremos D, C, P. Las vari-
ables observables son efectos secundarios en la conducción de automóbiles:
)
1
=tiempos de reacción (segundos) a la puesta en rojo de un semáforo,
)
2
=distancia mínima (cm.) entre dos puntos que el conductor necesitaba
16.5. EJEMPLOS 269
para poder pasar por el medio. Los datos sobre 8 individuos (media de varias
pruebas) eran:
Placebo Clobazan Diazepan
Ind.
1
2
3
4
5
6
7
8
)
1
)
2
.548 177.8
.619 184.4
.641 247.2
.628 163.4
.846 173.6
.517 167.2
.876 174.0
.602 158.6
)
1
)
2
.519 203.0
.776 164.8
.678 215.8
.595 153.6
.858 171.6
.493 166.0
.741 170.2
.719 157.2
)
1
)
2
.637 194.8
.818 175.2
.701 205.8
.687 152.2
.855 189.2
.618 181.0
.849 189.0
.731 184.6
Los datos se ajustan a un diseño de dos factores sin interacción:
v
j;
= µ ÷o
j
÷d
;
÷o
j;
.
Interesa estudiar si hay diferencias signi…cativas entre los fármacos, y si las
hay, representarlos y compararlos. Es decir, queremos hacer un test sobre la
hipótesis H
0
: o
1
= o
2
= o
3
y representar las funciones estimables
r
1
= µ ÷o
1
. r
2
= µ ÷o
2
. r
3
= µ ÷o
3
.
La tabla MANOVA es:
g. l. matriz dispersión lambda F g.l.
Fármacos 2

.027ò 1.07
300

.482 2.86 4,26
Individuos 7

.2ò8 ÷1.23
8474

.025 9.84 14,26
Residuo 14

.037 ÷1.00
2221

Las diferencias entre fármacos y entre individuos son signi…cativas
Las estimaciones LS son:
´
r
1
= (.0ò0. 180.8)
t
.
´
r
2
= (.072. 17ò.3)
t
.
´
r
3
= (.737. 184.0)
t
.
con dispersión (16.1): o
1
= o
2
= o
3
=

18 = 0.3ò4. Los dos valores propios
de l
t
l respecto de
´
¯ son 1. 084. 0.108 y explican el 100 % de la variabilidad
270 CAPÍTULO 16. FUNCIONES ESTIMABLES MULTIVARIANTES
Figura 16.1: Representación canonica de tres fármacos en un diseño de dos
factores.
geométrica en dimensión 2. Las coordenadas y los radios de la representación
canónica (izquierda) y las correlaciones entre variables observables )
1
. )
2
. )
3
y canónicas \
1
. \
2
(derecha) son:
Fármaco )
1
)
2
radio \
1
\
2
Placebo 19.73 8.91 0.86 )
1
.869 -.494
Clobazan 19.75 8.44 0.86 )
2
.296 .955
Diazepan 21.32 8.68 0.86
La representación canónica indica que no hay diferencias entre P y C. En
cambio D se diferencia signi…cativamente de P. Puesto que las variables miden
efectos secundarios, resulta que C no los tiene, pero D sí (Fig. 15.1).
Ejemplo 2. Continuando con el ejemplo 15.7.1, vamos a realizar la repre-
sentación canónica de los tres niveles de la temperatura. Los valores propios
de l
t
l respecto de
´
¯ son 2.529, 1.375, que explican el 100 % de la variabili-
dad geométrica (Fig. 15.2). Las coordenadas y los radios de la representación
canónica (izquierda) y las correlaciones entre variables observables )
1
. )
2
. )
3
y canónicas \
1
. \
2
(derecha) son:
temp \
1
\
2
radio \
1
\
2
4 -.539 -.871 1.29 )
1
.395 .278
20 1.29 .091 1.29 )
2
.961 -.276
34 -.753 .779 1.29 )
3
.405 .653
Ejemplo 3. Continuando con el ejemplo 15.7.2, podemos hacer la rep-
resentación canónica de las ocho especies, eliminando el efecto del sexo y
16.6. COMPLEMENTOS 271
Figura 16.2: Representación canónica de los efectos principales de las tem-
peraturas.
de la interacción. Los dos primeros valores propios de l
t
l respecto de
´
¯
son 201.67, 28.054, que explican el 98.2 % de la variabilidad geométrica (Fig.
13.3). Las coordenadas y los radios de la representación canónica (izquierda)
y las correlaciones entre variables observables y canónicas (derecha) son:
Especie \
1
\
2
radio \
1
\
2
1 -4.567 -1.164 .342 )
1
.600 .115
2 -3.760 -.5129 .342 )
2
.661 .450
3 -1.944 -1.031 .418 )
3
.453 .698
4 -2.613 1.536 .342 )
4
.804 .522
5 -2.299 1.731 .342 )
5
.748 .522
6 -1.705 .6381 .342
7 6.828 -3.671 .503
8 10.06 2.475 .342
Esta representación permite visualizar las diferencias entre las especies, sin
la in‡uencia del dimor…smo sexual y de la interacción especiesexo.
16.6. Complementos
El teorema de Gauss-Markov se puede generalizar de diversas maneras al
caso multivariante. Ver Mardia et al. (1979), Rencher (1998).
La representación de funciones paramétricas estimables multivariantes fue
propuesta por Cuadras (1974). Ver Cuadras et al. (1996) y otras generaliza-
ciones en Lejeune y Calinski (2000), Arenas y Cuadras (2004).
272 CAPÍTULO 16. FUNCIONES ESTIMABLES MULTIVARIANTES
Figura 16.3: Representación canonica de 8 especies de coleópteros, eliminando
el efecto del dimor…smo sexual y de la interacción.
Bibliografía
[1] Albert, A. and J. A. Anderson (1984) On the existence of maximum
likelihood estimates in logistic regression models. Biometrika, 71, 1-19.
[2] Anderson, T. W. (1958) An Introduction to Mltivariate Analysis. J.
Wiley, N. York.
[3] Anderson, T. W. and H. Rubin (1956) Statistical inference in factor
analysis. Proc. of the Third Berkeley Symposium on Math. Stat. and
Prob., 5, 111-150.
[4] Arenas, C. and C. M. Cuadras (2004) Comparing two methods for
joint representation of multivariate data. Comm. Stat. Comp. Simul.,
33, 415-430.
[5] Baillo, A. and A. Grané (2008).100 Problemas Resueltos de Estadística
Multivariante. Delta, Madrid.
[6] Batista, J.M. and G. Coenders (2000) Modelos de Ecuaciones Estruc-
turales. La Muralla, Madrid.
[7] Benzecri, J.P. (1976) L’Analyse des Données. I. La Taxinomie. II.
L’Analyse des Correspondances. Dunod, Paris.
[8] Cailliez, F. (1983) The analytical solution of the additive constant prob-
lem. Psychometrika, 48, 305-308.
[9] Cárdenas C., and Galindo Villardón, M. P. (2001). Biplot con infor-
mación externa basado en modelos bilineales generalizados. Universidad
Central de Venezuela, Caracas.
[10] Carmona, F. (2005) Modelos Lineales. Pub. Univ. de Barcelona,
Barcelona.
273
274 BIBLIOGRAFÍA
[11] Cooley, W.W. and P. R. Lohnes (1971) Multivariate data analysis. J.
Wiley, N. York.
[12] Cox, T. F. and M. A. A. Cox (1964) Multidimensional Scaling. Chap-
man and Hall, London.
[13] Critchley, F. and W. Heiser (1988) Hierarchical trees can be scaled
perfectly in one dimension. J. of Classi…cation, 5, 5-20.
[14] Cuadras, C. M. (1974) Análisis discriminante de funciones paramétricas
estimables. Trab. Esta. Inv. Oper., 25, 3-31.
[15] Cuadras, C. M. (1981) Métodos de Análisis Multivariante. Eunibar,
Barcelona. 3a Ed. EUB, Barcelona, 1996.
[16] Cuadras, C. M. (1988) Distancias estadísticas (con discusión) . Estadís-
tica Española, 30, 295-378.
[17] Cuadras, C. M. (1989) Distance analysis in discrimination and classi-
…cation using both continuous and categorical variables. In: Y. Dodge
(Ed.), Statistical Data Analysis and Inference, pp. 459–473. Elsevier
Science Publishers B. V. (North–Holland), Amsterdam.
[18] Cuadras, C. M. (1991) Ejemplos y aplicaciones insólitas en regresión y
correlación. Qüestió, 15, 367-382.
[19] Cuadras, C. M. (1992a) Probability distributions with given multivari-
ate marginals and given dependence structure. J. Multivariate Analy-
sis, 42, 51-66.
[20] Cuadras, C. M (1992b) Some examples of distance based discrimina-
tion. Biometrical Letters, 29, 3-20.
[21] Cuadras, C. M. (1993) Interpreting an inequality in multiple regression.
The American Statistician, 47, 256-258.
[22] Cuadras, C. M. (1998) Multidimensional dependencies in ordination
and classi…cation. In: K. Fernández and E. Morinneau (Eds.), Analy-
ses Multidimensionnelles des Données, pp.15-26, CISIA-Ceresta, Saint
Mandé (France).
BIBLIOGRAFÍA 275
[23] Cuadras, C. M. (2000) Problemas de Probabilidades y Estadística. Vol.
2. EUB, Barcelona.
[24] Cuadras, C. M. (2002a) On the covariance between functions. J. of
Multivariate Analysis, 81, 19-27.
[25] Cuadras, C. M. (2002b) Correspondence analysis and diagonal expan-
sions in terms of distribution functions. J. of Statistical Planning and
Inference, 103, 137-150.
[26] Cuadras, C. M. (2005) Continuous canonical correlation analysis. Re-
search Letters in Information and Mathematical Sciences, 8, 97-103.
[27] Cuadras, C. M. (2006) The importance of being the upper bound in
the bivariate family. SORT, 30, 55-84.
[28] Cuadras, C. M. (2008) Distance-based multisample tests for multi-
variate data. In: Advances in Mathematical and Statistical Modeling,
(Arnold, B. C.; Balakrishnan, N.; Sarabia, J. M.; Mínguez, R. Eds.),
Birkhauser, Boston, pp. 61-71.
[29] Cuadras, C. M. (2009) Constructing copula functions with weighted
geometric means. J. of Statistical Planning and Inference, 139, 3766-
3772.
[30] Cuadras, C. M. and C. Arenas (1990) Adistance based regression model
for prediction with mixed data. Comm. Stat.-Theor. Meth., 19, 2261-
2279.
[31] Cuadras, C. M., Atkinson, R.A. and J. Fortiana (1997) Probability
densities from distances and discriminant analysis. Statistics and Prob-
ability Letters, 33, 405-411.
[32] Cuadras, C. M. and J. Augé (1981) A continuous general multivariate
distribution and its properties. Commun. Stat.-Theor. Meth, A10, 339-
353.
[33] Cuadras. C. M. and D. Cuadras (2006) A parametric approach to cor-
respondence analysis. Linear Algebra and its Applications, 417, 64-74.
[34] Cuadras, C. M. and F. Carmona (1983) Euclidean dimensionality of
ultrametric distances. Qüestiio, 7, 353-358.
276 BIBLIOGRAFÍA
[35] Cuadras, C. M., Arenas, C. and J. Fortiana (1996) Some computational
aspects of a distance-based model for prediction. Comm. Stat.-Simul.
Comp., 25, 593-609.
[36] Cuadras, C. M. and J. Fortiana (1993a) Continuous metric scaling and
prediction. In: C.M. Cuadras and C.R. Rao (Eds.), Multivariate Analy-
sis, Future Directions 2, pp. 47–66. Elsevier Science Publishers B. V.
(North–Holland), Amsterdam.
[37] Cuadras, C. M. and J. Fortiana (1993b) Aplicación de las distancias
en estadística. Qüestiió, 17, 39-74.
[38] Cuadras, C. M. and J. Fortiana (1994) Ascertaining the underlying
distribution of a data set. In: R. Gutierrez and M.J. Valderrama (Eds.),
Selected Topics on Stochastic Modelling, pp. 223-230. World-Scienti…c,
Singapore.
[39] Cuadras, C. M. and J. Fortiana (1995) A continuous metric scaling
solution for a random variable. J. of Multivariate Analysis, 52, 1–14.
[40] Cuadras, C. M. and J. Fortiana (1996) Weighted continuous metric
scaling. In: Gupta, A. K. and V. L. Girko (Eds.), Multidimensional
Statistical Analysis and Theory of Random Matrices, pp. 27–40. VSP,
Zeist, The Netherlands.
[41] Cuadras, C.M. and J. Fortiana (1998) Visualizing categorical data with
related metric scaling. In: J. Blasius and M. Greenacre, (Eds.), Visu-
alization of Categorical Data, pp. 365-376. Academic Press, N. York.
[42] Cuadras, C. M. and J. Fortiana (2000) The Importance of Geome-
try in Multivariate Analysis and some Applications. In: C.R. Rao and
G. Szekely, (Eds.), Statistics for the 21st Century, pp. 93-108. Marcel
Dekker, N. York.
[43] Cuadras, C. M. and J. Fortiana (2004) Distance-based multivariate
two sample tests. In: Parametric and Semiparametric Models with Ap-
plications to Reliability, Survival Analysis, and Quality of Life (M. S.
Nikulin, N. Balakrishnan, M. Mesbah, N. Limnios,Eds.), Birkhauser,
Boston, 273-290.
BIBLIOGRAFÍA 277
[44] Cuadras, C. M., Fortiana, J. and M. Greenacre (2000) Continuous ex-
tensions of matrix formulations in correspondence analysis, with ap-
plications to the FGM family of distributions. In: R.D.H. Heijmans,
D.S.G. Pollock and A. Satorra, (Eds.), Innovations in Multivariate Sta-
tistical Analysis, pp. 101-116. Kluwer Ac. Publ., Dordrecht.
[45] Cuadras, C. M., Cuadras, D. and M. Greenacre (2006) Comparison of
di¤erent methods for representing categorical data. Communications
in Statistics-Simul. and Comp., 35 (2), 447-459.
[46] Cuadras, C. M., Fortiana, J. and F. Oliva (1996) Representation of sta-
tistical structures, classi…cation and prediction using multidimensional
scaling. In: W. Gaul, D. Pfeifer (Eds.), From Data to Knowledge, pp.
20-31. Springer, Berlin.
[47] Cuadras, C. M., Fortiana, J. and F. Oliva (1997) The proximity of an
individual to a population with applications in discriminant analysis.
J. of Classi…cation, 14, 117-136.
[48] Cuadras, C.M. and Y. Lahlou (2000) Some orthogonal expansions for
the logistic distribution. Comm. Stat.-Theor. Meth., 29, 2643-2663.
[49] Cuadras, C. M. and J. M. Oller (1987) Eigenanalysis and metric mul-
tidimensional scaling on hierarchical structures. Qüestiió, 11, 37-57.
[50] Cuadras, C. M. and M. Sánchez-Turet (1975) Aplicaciones del análisis
multivariante canónico en la investigación psicológica. Rev. Psicol. Gen.
Aplic., 30, 371-382.
[51] Chatterjee, S. and B. Price (1991) Regression analysis by example. Wi-
ley, N. York.
[52] Efron, B. (1975) The e…cency of logistic regression compared to normal
discriminant analysis. J. of the American Statistical Association, 70,
892-898.
[53] Friendly, M. (1994). Mosaic displays for multi-way contingency tables.
J. of the American Statistical Association, 89,190–200.
[54] Friendly, M. (1999). Extending mosaic displays: Marginal, conditional,
and partial views of categorical data. J. of Computational and Graph-
ical Statistics, 8 , 373–395.
278 BIBLIOGRAFÍA
[55] Everitt, B.S. (1993). Cluster Analysis. Edward Arnold, London.
[56] Flury, B. (1997) A First Course in Multivariate Statistics. Springer, N.
York.
[57] Fortiana, J. and C. M. Cuadras (1997) A family of matrices, the dis-
cretized Brownian Bridge and distance-based regression. Linear Algebra
and its Applications, 264, 173-188.
[58] Gabriel, K. R. (1971) The biplot graphic display of matrices with ap-
plication to principal component analysis. Biometrika, 58, 453-467.
[59] Galindo Villardon, M. P. (1986) Una alternativa de representación si-
multánea: HJ-Biplot. Questiio, 10, 13-23.
[60] Gittings, R. (1985) Canonical Analysis. A Review with Applications in
Ecology. Springer-Verlag, Berlin.
[61] Gordon, A. D. (1999) Classi…cation. Chapman and Hall, London.
[62] Gower, J. C. (1966) Some distance properties of latent roots and vector
methods in multivariate analysis. Biometrika, 53, 315-328.
[63] Gower, J. C. (1971) A general coe¢cient of similarity and some of its
properties. Biometrics, 27, 857-871.
[64] Gower, J. C. and D. J. Hand (1996) Biplots. Chapman and Hall, Lon-
don.
[65] Greenacre, M. J. (1984) Theory and Applications of Correspondence
Analysis. Academic Press, London.
[66] Greenacre, M. J. (2008) La Práctica del Análisis de Correspondencias.
Fundación BBVA - Rubes Ed., Barcelona.
[67] Harman, H. H. (1976) Modern Factor Analysis. The Univ. Chicago
Press, Chicago, 3a ed.
[68] Hartigan (1967) Representation of similarity matrices by trees. J. of
the American Statistical Association, 62, 1140-1158.
[69] Hastie, T. and R.J. Tibshirani (1990) Generalized Additive Models.
Chapman and Hall, London.
BIBLIOGRAFÍA 279
[70] Hill, M. O. (1973) Reciprocal averaging: an eigenvector method of or-
dination. J. of Ecology, 61, 237-249.
[71] Holman, E.W. (1972) The relation between Hierarchical and Euclidean
models for psychological distances. Psychometrika, 37, 417-423.
[72] Hosmer, D. W. and S. Lemeshow (2000) Applied Logistic Regression,
2nd Edition. Wiley, N. York.
[73] Hutchinson, T.P. and C.D. Lai (1991) The Engineering Statistician’s
Guide to Continuous Bivariate Distributions. Rumsby Scienti…c Pub.,
Adelaide.
[74] Joe, H. (1997) Multivariate Models and Dependence Concepts. Chap-
man and Hall, London.
[75] Johnson, S. C. (1967) Hierarchical clustering schemes. Psychometrika,
32, 241-254.
[76] Joreskog, K. (1967) Some contributions to maximum likelihood factor
analysis. Psychometrika, 32, 443-482.
[77] Joreskog, K. (1969) A general approach to con…rmatory maximum like-
lihood factor analysis. Psychometrika, 34, 183-202.
[78] Joreskog, K. (1970) A general method for analysis of covarianvce struc-
tures. Biometrika, 57, 239-251.
[79] Joreskog, K, Sorbom, D. (1999) LISREL 8: A Guide to the Program
and Applications. Scienti…c Sotware International, Inc., Chicago.
[80] Krzanowski, W. J. (1975) Discrimination and classi…cation using both
binary and continuous variables. J. of the American Statistical Associ-
ation, 70, 782-790.
[81] Krzanowski, W. J. (1980) Mixtures of continuous and categorical vari-
ables in discriminant analysis. Biometrics, 36, 493-499.
[82] Krzanowski, W. J. and D. Radley (1989) Nonparametric con…dence and
tolerance regions in canonical variate analysis. Biometrics, 45, 1163-
1173.
280 BIBLIOGRAFÍA
[83] Lancaster, H. O. (1969) The Chi-Squared Distribution. J. Wiley, N.
York.
[84] Lebart, L., Morineau, A. and N. Tabard (1977) Techniques de la De-
scription Statistique. Dunod, Paris.
[85] Light, R. J. and B. H. Margolin (1971) An analysis of variance for
categoricala data. J. of the American Statistical Association, 66. 534-
544.
[86] Longford, N. T. (1994) Logistic regression with random coe¢cients.
Computational Statistics and Data Analysis, 17, 1-15.
[87] Lawley, D. N. and A. E. Maxwell. (1971) Factor Analysis as a Statistical
Method. Butterworth, London.
[88] Leujene, M. and T. Calinski (2000) Canonical analysis applied to mul-
tivariate analysis of variance. J. of Multivariate Analysis, 72, 100-119.
[89] McLachlan, G. J. (1992) Discriminant Analysis and Statistical Pattern
Recognition. Wiley, N. York.
[90] Mardia, K. V., Kent, J. T. and J. M. Bibby (1979) Multivariate Analy-
sis. Academic Press, London.
[91] Muirhead, R. J. (1982) Aspects of Multivariate Statistical Theory. Wi-
ley, N. York.
[92] Nelsen, R,. B. (1999) An Introduction to Copulas. Springer, N. York.
[93] Oliva, F., Bolance, C. and L. Diaz (1993) Aplicació de l’anàlisi multi-
variante a un estudi sobre les llengües europees. Qüestiió, 17, 139-161.
[94] Oller, J.M. (1987) Information metric for extreme values and logistic
distributions. Sankhya, 49 A, 17-23.
[95] Oller, J.M. and C.M. Cuadras (1985) Rao’s distance for negative
multinomial distributions. Sankhya, 47 A, 75-83.
[96] Peña, D. (1989) Estadística Modelos y Métodos 2. Modelos Lineales y
Series Temporales. Alianza Universidad Textos, 2a Ed., Madrid.
BIBLIOGRAFÍA 281
[97] Peña, D. (2002) Análisis de Datos Multivariantes. McGraw Hill Inter-
americana, Madrid.
[98] Quesada-Molina, J. J. (1992) A generalization of an identity of Hoe¤d-
ing and some applications. J of the Italian Stat. Society, 3, 405-411.
[99] Rao, C. R. (1952) Advanced Statistical Methods in Biometric Research.
Wiley, N. York.
[100] Rao, C. R. (1973) Linear Statistical Inference and their Applications.
Wiley, N. York.
[101] Rao, C. R. (1995) A review of canonical coordinates and an alternative
to correspondence analysis using Hellinger distance. Qüestiió, 19, 23-
63.
[102] Rencher, A. C. (1995) Methods of Multivariate Analysis. Wiley, N.
York.
[103] Rencher, A. C. (1998) Multivariate statistical inference and applica-
tions. Wiley, N. York,.
[104] Rummel, R. J. (1963) The dimensions of con‡ict behavior within and
between nations. General Systems Yearbook, 8, 1-50.
[105] Sánchez-Turet, M. and Cuadras, C. M. (1972) Adaptación española del
cuestionario E.P.I. de Eysenck. Anuario de Psicología, 6, 31-59.
[106] Satorra, A. (1989) Alternative test criteria in covariance structure
analysis: A uni…ed approach. Psychometrika, 54, 131-151.
[107] Seal, H. L. (1964) Multivariate Statistical Analysis for Biologists.
Methuen and Co. Ltd., London.
[108] Seber, G. A. F. (1977) Linear Regression Analysis. J. Wiley, N. York.
[109] Spearman, Ch. (1904) General intelligence objetively determined and
measured. American J. of Psychology, 15, 201-293.
[110] Tibshirani, R., Walther, G. and T. Hastie (2001) Estimating the num-
ber of clusters in a data set via the gap statistic. J. R. Stat. Soc. B,
63, 411-423.
282 BIBLIOGRAFÍA
[111] Torrens-Ibern, J. (1972) Modéles et Méthodes de l’Analyse Factorielle.
Dunod, Paris.
[112] van der Heijden, P. G. M. and J. de Leuw (1985) Correspondence analy-
sis used complementary to loglinear analysis. Psychometrika, 50, 429-
447.
Índice alfabético
biplot, 80, 85
Box, corrección de , 118
coe…ciente de Pearson, 157
comunalidad, 88, 91
coordenadas
canónicas, 115, 267
principales, 128, 151
correlación
canónica, 61
múltiple, 58
simple, 13
correspondencias
múltiples, 159
simples, 152
curva
especi…cidad, 212
ROC, 212
sensibilidad, 212
dendograma, 177
descomposicion
espectral, 19
singular, 19
desigualdad
de Cramér-Rao, 37
triangular, 125, 177
ultramétrica, 176
discriminador
Bayes, 199
cuadrático, 200
distancia, 17
ciudad, 136
de Bhattachariyya, 138
de Mahalanobis, 17, 114, 199, 266
de Pearson, 17
de Rao, 140
dominante, 136
Euclídea, 17, 72, 136
ji-cuadrado, 151
distribución
aproximación asintótica a una F,
30
de Hotelling, 28, 46
de Wilks, 29, 255
de Wishart, 27
elíptica, 34
multinomial, 32
normal bivariante, 26
normal multivariante, 24
ecuaciones
de verosimilitud, 99
normales, 227, 250
espacio ultramétrico, 176
factor
único, 88, 90
común, 88, 90
en diseños factoriales, 237, 239,
241
función
283
284 ÍNDICE ALFABÉTICO
de verosimilitud, 37, 38, 44, 99
estimable multivariante, 265
estimable univariante, 263
score, 37
Heywood, caso de, 93
hipótesis lineal, 231, 253
interacción, 241
inversa generalizada, 19, 32, 138, 149
jerarquía indexada, 174
matriz, 255
centrada, 13
de Burt, 159, 161
de correlaciones, 13, 88
de covarianzas, 13
de dispersión dentro grupos, 41,
256
de dispersión entre grupos, 41, 256
de distancias Euclídeas, 126
de información de Fisher, 38
medición de factores
de Anderson-Rubin, 105
de Bartlett, 105
por mínimos cuadrados, 105
medidas de variabilidad
variación total, 16, 71
varianza generalizada, 16
metodo
de las medias móviles, 191
del factor principal, 97
del mínimo, 183
del máximo, 184
‡exible, 194
modelo
de regresión logística, 208
de regresión múltiple, 229
lineal, 225
log-lineal, 245
logístico, 208
multifactorial, 90
Thurstone, 139
unifactorial, 88
mosaicos, 170
número
de clusters (conglomerados), 192
de componentes principales, 78
de correlaciones canónicas, 63
de factores comunes, 99
de variables canónicas, 118
paradoja
de Rao, 51
de Stein, 54
preordenación, 133
principio
de equivalencia distribucional, 169
de parsimonia, 96
de unión-intersección, 46, 55, 64,
262
probabilidad de clasi…cación errónea,
195, 197, 199
razón de verosimilitud, 45
regla
basada en distancias, 219
Bayes, 197, 204
discriminación logística, 209
discriminante, 195
máxima verosimilitud, 197, 204
rotación
biquartimin, 102
covarimin, 102
oblícua, 102
ortogonal, 100
ÍNDICE ALFABÉTICO 285
promax, 102
quartimax, 101
quartimin, 102
varimax, 101
similaridad, coe…ciente de
de Dice, 137
de Jaccard, 132
de Sokal y Michener, 132
de Sokal-Sneath, 137
de…nición, 131
Gower, 139
teorema
de Cochran, 41
de Craig, 42
de Fisher, 43
de Gauss-Markov, 264
de la dimensión, 15
de Thusrstone, 95
de Wilks, 45
test
comparación de dos medias, 40
comparación de k medias, 46
de Bartlett, 55, 118
de Bartlett-Lawley, 63
de esfericidad, 79
de razón de verosimilitud, 45
de Wald, 211
independencia, 45, 63, 77
sobre la covarianza, 76
sobre la media, 39
transformación
canónica, 114
componentes principales, 70, 73
lineal, 14
unicidad, 91
valores singulares, 19, 62, 80, 150
variabilidad geométrica (inercia), 72,
73, 115, 130, 157
variable
canónica, 61
compuesta, 14, 70

2 Es propiedad del autor. c C. M. Cuadras CMC Editions Manacor 30 08023 Barcelona, Spain

Índice general
1. DATOS MULTIVARIANTES 1.1. Introducción . . . . . . . . . . . . . . . . . . . . 1.2. Matrices de datos . . . . . . . . . . . . . . . . . 1.3. La matriz de centrado . . . . . . . . . . . . . . 1.4. Medias, covarianzas y correlaciones . . . . . . . 1.5. Variables compuestas . . . . . . . . . . . . . . . 1.6. Transformaciones lineales . . . . . . . . . . . . . 1.7. Teorema de la dimensión . . . . . . . . . . . . . 1.8. Medidas globales de variabilidad y dependencia 1.9. Distancias . . . . . . . . . . . . . . . . . . . . . 1.10. Dos aspectos del cálculo matricial . . . . . . . . 1.10.1. Descomposición singular . . . . . . . . . 1.10.2. Inversa generalizada . . . . . . . . . . . 1.11. Un ejemplo . . . . . . . . . . . . . . . . . . . . 2. NORMALIDAD MULTIVARIANTE 2.1. Introducción . . . . . . . . . . . . . . 2.2. Distribución normal multivariante . . 2.2.1. De…nición . . . . . . . . . . . 2.2.2. Propiedades . . . . . . . . . . 2.2.3. Caso bivariante . . . . . . . . 2.3. Distribución de Wishart . . . . . . . 2.4. Distribución de Hotelling . . . . . . . 2.5. Distribución de Wilks . . . . . . . . . 2.6. Relaciones entre Wilks, Hotelling y F 2.7. Distribución multinomial . . . . . . . 2.8. Distribuciones con marginales dadas . 2.9. Complementos . . . . . . . . . . . . . 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 11 11 12 13 14 14 15 16 17 19 19 19 20 23 23 24 24 25 26 27 28 29 31 32 32 34

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

4 3. INFERENCIA MULTIVARIANTE 3.1. Conceptos básicos . . . . . . . . . . . . . . . 3.2. Estimación de medias y covarianzas . . . . . 3.3. Tests multivariantes . . . . . . . . . . . . . . 3.3.1. Test sobre la media: una población . 3.3.2. Test sobre la media: dos poblaciones 3.3.3. Comparación de medias . . . . . . . 3.4. Teorema de Cochran . . . . . . . . . . . . . 3.5. Construcción de tests multivariantes . . . . 3.5.1. Razón de verosimilitud . . . . . . . . 3.5.2. Principio de unión-intersección . . . . 3.6. Ejemplos . . . . . . . . . . . . . . . . . . . . 3.7. Análisis de per…les . . . . . . . . . . . . . . 3.8. Complementos . . . . . . . . . . . . . . . . .

ÍNDICE GENERAL 37 37 38 39 39 40 40 41 44 44 46 47 53 54 57 57 57 59 62 63 63 64 64 65 67 69 69 71 72 74 75 76 78 78 79 79

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

4. ANALISIS DE CORRELACION CANONICA 4.1. Introducción . . . . . . . . . . . . . . . . . . . . 4.2. Correlación múltiple . . . . . . . . . . . . . . . 4.3. Correlación canónica . . . . . . . . . . . . . . . 4.4. Correlación canónica y descomposición singular 4.5. Signi…cación de las correlaciones canónicas . . . 4.6. Test de independencia . . . . . . . . . . . . . . 4.6.1. Razón de verosimilitud . . . . . . . . . . 4.6.2. Principio de unión intersección . . . . . . 4.7. Ejemplos . . . . . . . . . . . . . . . . . . . . . . 4.8. Complementos . . . . . . . . . . . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

5. ANALISIS DE COMPONENTES PRINCIPALES 5.1. De…nición y obtención de las componentes principales . 5.2. Variabilidad explicada por las componentes principales 5.3. Representación de una matriz de datos . . . . . . . . . 5.4. Inferencia . . . . . . . . . . . . . . . . . . . . . . . . . 5.4.1. Estimación y distribución asintótica . . . . . . . 5.4.2. Tests de hipótesis . . . . . . . . . . . . . . . . . 5.5. Número de componentes principales . . . . . . . . . . . 5.5.1. Criterio del porcentaje . . . . . . . . . . . . . . 5.5.2. Criterio de Kaiser . . . . . . . . . . . . . . . . . 5.5.3. Test de esfericidad . . . . . . . . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

ÍNDICE GENERAL 5.5.4. Criterio del bastón roto . 5.6. Biplot . . . . . . . . . . . . . . 5.7. Ejemplos . . . . . . . . . . . . . 5.8. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5 79 80 81 85 87 87 88 90 90 91 91 92 93 93 95 97 98 98 99 100 100 101 102 104 105 106 108 111 111 112 114 115 117 117 117 118

6. ANÁLISIS FACTORIAL 6.1. Introducción . . . . . . . . . . . . . . . . . . 6.2. El modelo unifactorial . . . . . . . . . . . . 6.3. El modelo multifactorial . . . . . . . . . . . 6.3.1. El modelo . . . . . . . . . . . . . . . 6.3.2. La matriz factorial . . . . . . . . . . 6.3.3. Las comunalidades . . . . . . . . . . 6.3.4. Número máximo de factores comunes 6.3.5. El caso de Heywood . . . . . . . . . 6.3.6. Un ejemplo . . . . . . . . . . . . . . 6.4. Teoremas fundamentales . . . . . . . . . . . 6.5. Método del factor principal . . . . . . . . . 6.6. Método de la máxima verosimilitud . . . . . 6.6.1. Estimación de la matriz factorial . . 6.6.2. Hipótesis sobre el número de factores 6.7. Rotaciones de factores . . . . . . . . . . . . 6.7.1. Rotaciones ortogonales . . . . . . . . 6.7.2. Factores oblicuos . . . . . . . . . . . 6.7.3. Rotación oblicua . . . . . . . . . . . 6.7.4. Factores de segundo orden . . . . . . 6.8. Medición de factores . . . . . . . . . . . . . 6.9. Análisis factorial con…rmatorio . . . . . . . . 6.10. Complementos . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

7. ANALISIS CANONICO DE POBLACIONES 7.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . 7.2. Variables canónicas . . . . . . . . . . . . . . . . . . . 7.3. Distancia de Mahalanobis y transformación canónica 7.4. Representación canónica . . . . . . . . . . . . . . . . 7.5. Aspectos inferenciales . . . . . . . . . . . . . . . . . . 7.5.1. Comparación de medias . . . . . . . . . . . . 7.5.2. Comparación de covarianzas . . . . . . . . . . 7.5.3. Test de dimensionalidad . . . . . . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. 150 . . . . .2. . . . . . . . . .1. . . . . Soluciones simétrica y asimétrica . . Variables binarias . . . . . . . . 8. . . . . . . .5. . . . .1. .2. . . 156 . . . . . . .6. . .8. . . . . . . . . .5. El análisis de coordenadas principales .10. . . . . .6. . . . . 180 . .3. . . . . . . Variables categóricas . . . . . 9. . . Algoritmo fundamental de clasi…cación 10. . . . . . . . . Regiones con…denciales . . . . . 8. . . . . . . Geometría ultramétrica . . Introducción . . . . . .4. . .3. 8. Cuando una distancia es euclídea? . . . . . . . . . . . . . . . . . . . . 152 . . . . . . . . . . ESCALADO MULTIDIMENSIONAL (MDS) 8. . . 174 . . . . . . 161 . . . . . . . 9. . . . . . 8. . . . . . . . . . . . . . Variabilidad geométrica (inercia) . . . 10. . .5. . . . . . Algoritmos de clasi…cación jerárquica . . . . 9. . . . . . . . . . . . . . . 181 . . . . . . 9. . . . . . Complementos . . . . . . . . 9.1. . . . . . . . . . . 9. . . . . .6. Dos ejemplos . . . . . . . . 183 . . Nociones de MDS no métrico . . Equivalencia entre jerarquía indexada y 10. . . . . . .4. . . . . . Método del mínimo . . . . . . . . 8. Otras distancias . . . . .3. . .6. . . .6. . . Variables cuantitativas . . . . 8. .6. .7. . . . . . . . . . . . . . . . . . . . .2. . . . . . . . . . . . . . . . . . . . 8.1. . . . . . . . Analisis de Correspondencias Múltiples . . .6. . . Similaridades . . . . . . . . . . . . . . . 147 . . . . . . Jerarquía indexada . . . . . . . . . . ANALISIS DE CORRESPONDENCIAS 9. . . . . . . . . . . . 8. . . . . . . . . 10. . . . . . 165 . . . .6. . . . . . . . . . .7. . . . Representación de …las y columnas . . . Relación entre …las y columnas y representación conjunta 9. . . . . . .CLASIFICACION 10. 159 . 125 125 126 128 131 133 136 136 137 138 138 139 141 145 9. . . . 173 . . . . . . . . . . . . . . . . . . 147 . . .4. . . . . . . . . .5. . MDS ponderado .8. Introducción . . . . . . . 8. 168 173 . . . . . . .3. . . .1. 10. . . . . . . . . . 10. Ejemplos .5. . . Complementos . . 176 . . Introducción . . . . . . . . . . .4. 119 7. . 8. . . 9. . . . . . . . . . . 8. . . . . . . Variables mixtas . . . . ultramétrica . . . Complementos . . . . . . . . . . . . . . .6. . . 8. . . . . . . . . . 149 . Distancias estadísticas . . . . . . 123 8.4. . . . . . . . . . . . . . . . . . Cuanti…cación de las variables categóricas . . . . . . . . . . . . . . .9. . . . . . . . . . . . . . . . . . .6.6 ÍNDICE GENERAL 7. . . . . . . 180 . . . . 154 . . . 10. . . . . .2. 9. . . . . . . . . .

. . . Discriminador lineal . . . Introducción . . Ajuste del modelo . . . .2. . . . . . .2. . . Clasi…cación en poblaciones normales . . . 211 12. . 11. . . . . . 11. . . Regla de la máxima verosimilitud .3. . Análisis discriminante basado en distancias . . . . Curva ROC . . . .2. .2. . La función de proximidad . . . . .4. . . . .ÍNDICE GENERAL 10. . . . . . . . . . . .2. . . . . . . . . . . 217 12.DISCRIMINACION LOGISTICA Y BASADA EN DISTANCIAS 207 12. . . . Regla de la máxima verosimilitud . Discriminador lineal . . . . 207 12. . Método del máximo . . . .3. . . . . . . . Un ejemplo . 217 . . . .5. 10. . . 198 . . .1. . . . . . . . . . . . Introducción . . . . . Un ejemplo clásico .6. . .4. 204 .3. . .2. .1. . . . . . . . . . . . . . . . .3. . .3. . . . . 11. .1. 210 12. 203 . . . . . . . . . . . . .9. . .11. . . Regla de Bayes . . .1. . . . .3. . 11. . . . . Ejemplos . . . .6. .8. . . . Comparación entre discriminador lineal y logístico . Clasi…cación cuando los parámetros son estimados 11.5. . Modelo de regresión logística . . . . . .4. 11. . . 11. . . . . . . C .1. . . . . . . . . . . . . . . . . . . . . .1. . Estimación de los parámetros . . . . Regla de Bayes . . . . . 208 12. . . . 209 12. . 212 12. . . . . Clasi…cación en dos poblaciones . . . . . . . . . . . . . . . . . . 195 . . 11. . .2. 207 12. . 11. . . . . . . . . 11. . . . .3.2.4. . . . . . . . . . . . . . . . . . . . . 205 12. . . . . .7. . . . . . . .6. . . 196 . . . . . . . . . .2. .1. . . Probabilidad de clasi…cación errónea . . . . . . . . . . . . . . .1. 10. . . . . . . . . . . 195 . . . 200 .1. .10. . . . . . . 11. . . 11. .ANALISIS DISCRIMINANTE 11. . . . . . . . . . . . .7. .3. . 11. . . omplementos . . . 197 . .3. . . . . . . . úmero de clusters .3. Distribución asintótica y test de Wald . . . . . . . . 10. . . . . . . . . . . 11. . . . Otras propiedades del método del mínimo 10. . .1.4. . . . . .1. . . . 199 . . . . 11. 200 . . . . 198 . .1. Regla de Bayes . . . . 7 184 186 188 191 192 193 11. . . . . 214 12. . . . 196 . . . . . . . . . . .4. . .1. . .2. . . . . . . . . . . . . . . . . . . . . .3. . . . . . 199 . . . . . . . . . 203 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204 . . . Análisis discriminante logístico . . . 11. . . . . . Discriminadores lineales . . .1.4. .2. . . . . Clasi…cación no jerárquica . . . . . . . . . Discriminador cuadrático . . . N 10. . . . .4. 199 . . . . . . . . . . 197 . . Discriminación en el caso de k poblaciones . . . . .

. . .4. . . . . . . . . 235 237 237 239 241 243 244 247 248 14. 13. . . . . . . . . . . . . . Algunos modelos lineales . . . . 15. . . . . . . . . . . . . . . . . . . . . . . . . . . 15. . . 15. 13. . . 218 219 220 222 . . . . . . . . .3. . . . . . 13. . . . . . 14. . . . . . . . . Complementos . . . .3. . . 253 . . . . 230 . . Diseño de dos factores . .EL MODELO LINEAL 13. . 15. . . . . . . 257 . . ÍNDICE GENERAL . . . . . . . . . . . . . . . . . . . .3. . . . . . . . . . . . . 256 . . Complementos . 12. . . . . . Hipótesis lineales . . 250 . . . . . . .2. . . . . . . .2. . . Parámetros de regresión 13. . . . . . . 229 . . . . . . . .3. . . .4. 249 . 225 . . 261 . 15. .8 12. . . 228 . . . . . . . . . . . . . .3. 15. . La regla DB en el caso de muestras 12. . . . Tests de hipótesis lineales . . . . . . . . Regresión múltiple . . . . . . .5. . . . . . . . La regla DB comparada con otras .7. . . Ejemplos . . . . . . . . . . . . . . . . . . . . .6. .ANÁLISIS DE LA VARIANZA (ANOVA) 14. . . . . . . . . . . Diseños multifactoriales . . . . . . . . . . . Varianza .ANÁLISIS DE LA VARIANZA (MANOVA) 15. . . . . . . . . . . . 12. . . . . . . . . . . . . . . . . .5. . . . . . . . . . . 258 . . . 13. . . . . . . Inferencia en regresión múltiple 13. . . . .2. . . . . . . . Manova de dos factores . . . . .4. . 227 . . . . . . . . . . .6. . . . .1. . . 13. . . . . . . 14. . .2. . 226 . . . . . . . . . . . . . . Modelos log-lineales . .8. . . . . . . . . .4. . . 14. . . .4. . . . .1. . . . Complementos . . . . . . . . Diseño de dos factores con interacción . .5.1. . . . . El modelo lineal . Otros criterios . . 229 . . . . . . . . . . . . . . . . . . . . 14. . . . . . . . . . . . . . . . . Estimación de parámetros . .3. . . . .4. . 14. . Suposiciones básicas del modelo 13. .5. . . . . . . . . 227 . . .2. . . . . . . . . . . . . . . . . . . . . . . Diseño de un factor . .2. . . . . . . . . . . . . . . . . . 249 . . . . .3. . . . . . . . . . . . . 15. . . . . . . . . . . . . . . . 262 . Diseño de un factor .3. . . . . . . . . . . . . . . . . .1. . 14. . . .7. . . . 255 . . . 13. Complementos . . . . . . . . . . . . . . . . . .2. Manova de un factor . . . . . 15. . . 13. . . . . 230 . . . . . . . . . . 13. . . Modelo .2. . . 225 . . . . . . . . . 13. .2. . . . . . .1. . . . . 234 . 15. . .6. . . . . . . . . . .9. La regla discriminante DB . . . Manova de dos factores con interacción . Estimación de parámetros . . . . . . . . .1. . . . . . . . Diseño de dos factores . . . . . . . 231 . . Ejemplo . . .4. . . . . .

. Complementos . . . . . . . .5. . 16. . Regiones con…denciales .2. . . .4. . .6. . . 16. . . 16. . . . . 16. . . . . . 16. . Análisis canónico de fpem . . . Ejemplos . . . . . . . . . . . . . . 16.1. . . . . . . . . . . . . . .1.4. . . . . . . . . . . . . . . . . . . . . Coordenadas canónicas . 9 263 . . . . . . . . . . . . . 264 . .4. . . 16. . . . . Distancia de Mahalanobis . . . . . . Funciones estimables .ÍNDICE GENERAL 16. . . 265 . . . . 271 . . . 263 . . . . . . . . . .3. . . Teorema de Gauss-Markov . 266 . . . . . . .2. . . . . . . . . . . . . .4. . . 268 . . . . . . . . . . . . . . 266 . . . . . . . . 16. .FUNCIONES ESTIMABLES MULTIVARIANTES 16. 267 . . . Funciones estimables multivariantes . . . . .3. 268 . .

1991. 1974). 1996. El autor se reserva el derecho de ampliar el texto e introducir mejoras. compensado con una clara orientación aplicada. La exposición mantiene un cierto rigor matemático. M. 7. Laboratorio de Cálculo. EUB.10 P ROLOGO ÍNDICE GENERAL El Análisis Multivariante es un conjunto de métodos estadísticos y matemáticos. no. y el libro “Métodos de Análisis Multivariante”(EUNIBAR. con referencias a algunas contribuciones recientes. estudiadas conjuntamente. Todos los métodos se ilustran con ejemplos. Cómo citar este libro: C. La segunda versión (2010) contiene correcciones. ampliaciones y un índice alfabético. que justi…can su aplicabilidad. destinados a describir e interpretar los datos que provienen de la observación de varias variables estadísticas. Barcelona). Para examinar los datos y ver más ejemplos consúltese la página web www:ub:edu=stat=cuadras=cuad:html Esta obra tiene como precedentes la monogra…a “Métodos de Análisis Factorial”(Pub. Universidad de Barcelona. La primera versión apareció en 2007. Este libro es una presentación convencional de los principales modelos y métodos del Análisis Multivariante. Cuadras Nuevos Métodos de Análisis Multivariante CMC Editions Barcelona. 1981. 2010 . PPU.

por lo tanto la geometría. La información multivariante es una matriz de datos. en AM la información de entrada consiste en matrices de distancias o similaridades. representa e interpreta los datos que resulten de observar un número p > 1 de variables estadísticas sobre una muestra de n individuos. Matrices de datos Supongamos n individuos ! 1 . : : : . La información estadística en AM es de carácter multidimensional. analiza. el cálculo matricial y las distribuciones multivariantes juegan un papel fundamental. Xp : Sea xij = Xj (! i ) la observación de la variable Xj sobre el individuo ! i : La matriz de 11 . pero a menudo. Las variables observables son homogéneas y correlacionadas. Introducción El análisis multivariante (AM) es la parte de la estadística y del análisis de datos que estudia. : : : .Capítulo 1 DATOS MULTIVARIANTES 1. sin que alguna predomine sobre las demás.2. que miden el grado de discrepancia entre los individuos.1. 1. Comenzaremos con las técnicas que se basan en matrices de datos. ! n y p variables X1 .

ciertas características multivariantes se expresan mejor a partir de la matriz de centrado H. B .3. . C C xip C C . : : : . . xi la …la i-ésima de X: 2. xnj 1 x1p .. A spp xj 0 ) sjj 0 = xj )(xij 0 la covarianza entre las variables j. . La matriz simétrica p p de covarianzas 0 s11 s12 B s21 s22 S =B @ ::: ::: sp1 sp2 1X (xij n i=1 n x11 . de…nida como H=I 1 J n . x = (x1 . xp )0 el vector (…la) de las medias de las variables. .12 datos multivariantes es CAPÍTULO 1.. 1. . .. . . Indicaremos: 1. x y S son medidas multivariantes de tendencia central y dispersión. DATOS MULTIVARIANTES Las …las de X se identi…can con los individuos y las columnas de X con las variables. @ . siendo n 1X xj = xij : n i=1 4. : : : . y J = 110 es la matriz n n de unos. j 0 : Naturalmente. .. . . xnp siendo muestrales 1 s1p s2p C C. Xj la columna j-ésima de X: 3. . C . La matriz de centrado Si 1 =(1. B . : : : . B X = B xi1 B .. A .. 1)0 es el vector columna de unos de orden n 1. . xj . xn1 0 x1j . xij .

MEDIAS. etc. COVARIANZAS Y CORRELACIONES Propiedades: H0 = H: H2 = H: H1 = 10 H = 0: rang(H) =n 1: 13 Los valores propios de H son 0 ó 1: X = HX es la matriz de datos centrados (las columnnas de X suman 0). sj sj 0 siendo sj . tienen expresiones matriciales simples. Matriz de covarianzas: 1 0 1 S = X X = X0 HX: n n 4. x0 = n 10 X: 2. covarianzas y correlaciones El vector de medias. j 0 viene dado por sjj 0 rjj 0 = .. Matriz de datos centrados: X= X 3. R = B 21 @ A ::: ::: rp1 rp2 1 1x0 = HX: .4. sj 0 las desviaciones típicas. Matriz de correlaciones: El coe…ciente de correlación entre las variables j.4. 1 1. Además de la matriz de covarianzas interesa también la matriz de correlaciones 0 1 1 r12 r1p B r 1 r2p C C. la matriz de covarianzas.1. Medias. 1.

14

CAPÍTULO 1. DATOS MULTIVARIANTES

donde rij =cor(Xi ; Xj ) es el coe…ciente de correlación (muestral) entre las variables Xi ; Xj ; que veri…ca: R = D 1 SD 1 ; S = DRD; (1.1)

siendo D la matriz diagonal con las desviaciones típicas de las variables.

1.5.

Variables compuestas

Algunos métodos de AM consisten en obtener e interpretar combinaciones lineales adecuadas de las variables observables. Una variable compuesta Y es una combinación lineal de las variables observables con coe…cientes a = (a1 ; : : : ; ap )0 Y = a1 X1 + + ap Xp : Si X =[X1 ; : : : ; Xp ] es la matriz de datos, también podemos escribir Y = Xa: Si Z = b1 X1 + + bp Xp = Xb es otra variable compuesta, se veri…ca:

1. Y = x0 a; Z=x0 b: 2. var(Y ) = a0 Sa, var(Z) = b0 Sb: 3. cov(Y; Z) = a0 Sb: Ciertas variables compuestas reciben diferentes nombres según la técnica multivariante: componentes principales, variables canónicas, funciones discriminantes, etc. Uno de los objetivos del Análisis Multivariante es encontrar variables compuestas adecuadas que expliquen aspectos relevantes de los datos.

1.6.
es

Transformaciones lineales
q: Una transformación lineal de la matriz de datos Y = XT:

Sea T una matriz p

Las columnas Y1 ; : : : ; Yq de Y son las variables transformadas. Propiedades:

1.7. TEOREMA DE LA DIMENSIÓN 1. y0 =x0 T; donde y es el vector de medias de Y: 2. SY = T0 ST; donde SY es la matriz de covarianzas de Y: Demost.: 1 1 1 1 y0 = n 10 Y = n 10 XT =x0 T: SY = n Y0 HY = n T0 X0 HXT = T0 ST:

15

1.7.

Teorema de la dimensión
1 1 a0 Sa = a0 X0 HXa = a0 X0 HHXa = b0 b n n 0;

La matriz de covarianzas S es (semi)de…nida positiva, puesto que:

siendo b =n 1=2 HXa: El rango r = rang(S) determina la dimensión del espacio vectorial generado por las variables observables, es decir, el número de variables linealmente independientes es igual al rango de S: Teorema 1.7.1 Si r = rang(S) p hay r variables linealmente independientes y las otras p r son combinación lineal de estas r variables. Demost.: Podemos ordenar las p variables de manera que la matriz de covarianzas de X1 ; : : : ; Xr sea no singular 0 1 s11 s1r B . .. . C @ . . . A . . sr1 srr sj1 sjr Sea Xj ; j > r: Las covarianzas entre Xj y X1 ; : : : ; Xr veri…can: sjj = Entonces var(Xj
r X i=1

ai sji ;

sji =

r X i0 =1

ai0 sii0 :

Pr

i=1

P P ai Xi ) = sjj + r 0 =1 ai ai0 sii0 2 r ai sji i;i P P P i=1 P = Pr ai sji + Pr ai ( r0 =1 P sii0 ) 2 r ai sji ai0 i=1 i=1 i i=1 = r ai sji + r ai sji 2 r ai sji i=1 i=1 i=1 = 0:

16 Por lo tanto Xj
r X i=1

CAPÍTULO 1. DATOS MULTIVARIANTES
r X i=1

ai Xi = c =) Xj = c +

ai Xi

donde c es una constante.

Corolario 1.7.2 Si todas las variables tienen varianza positiva (es decir, ninguna se reduce a una constante) y r = rang(R) p; hay r variables linealmente independientes y las otras p r son combinación lineal de estas r variables. Demost.: De (1.1) deducimos que r = rang(R) = rang(S):

1.8.

Medidas globales de variabilidad y dependencia

Una medida de la variabilidad global de las p variables debe ser función de la matriz de covarianzas S: Sean 1 ; : : : ; p los valores propios de S: Las siguientes medidas tienen especial interés en AM. a) Varianza generalizada: jSj = b) Variación total: tr(S) =
1 1 p:

+

+

p

Una medida de dependencia global debe ser función de la matriz de correlaciones R: Un coe…ciente de dependencia es
2

=1

jRj;

que veri…ca: 1. 0 2. 3.
2 2 2

1:

= 0 si y sólo si las p variables estan incorrelacionadas. = 1 si y sólo si hay relaciones lineales entre las variables.

1.9. DISTANCIAS

17

Demost.: 1. Sean 1 ; : : : ; p los valores propios de R. Si g y a son las medias geométrica y aritmética de p números positivos, se veri…ca g a: Entonces, de tr(R) =p (jRj)1=p = (
1 1=p p)

(

1

+

+

p )=p

=1

y por lo tanto 0 det(R) 1: 2. R = I (matriz identidad) si y sólo si las p variables están incorrelacionadas y entonces 1 jIj =0: 3. Si 2 = 1; es decir, jRj =0; entonces rang(R) <p y por lo tanto hay combinaciones lineales entre las variables (Teorema 1.7.1).

1.9.

Distancias

es una matriz de datos, con matriz de covarianzas S; las tres de…niciones más importantes de distancia entre las …las x0i = (xi1 ; : : : ; xip ); x0j = (xj1 ; : : : ; xjp ) de X son: 1. Distancia Euclídea: v u p uX dE (i; j) = t (xih
h=1

Algunos métodos de AM están basados en criterios geométricos y en la noción de distancia entre individuos y entre poblaciones. Si 1 0 x01 B . C X =@ . A . x0n

xjh )2 :

(1.2)

2. Distancia de K. Pearson

donde shh es la covarianza de la variable Xh : 3. Distancia de Mahalanobis: dM (i; j) = q

v u p uX dP (i; j) = t (xih
h=1

xjh )2 =shh ;

(1.3)

(xi

xj )0 S 1 (xi

xj ):

(1.4)

18 Observaciones

CAPÍTULO 1. DATOS MULTIVARIANTES

Un cambio de escala de una variable Xj es una transformación Yj = Xj ; donde es una constante. La distancia dM es muy adecuada en AM debido a que veri…ca: a) dE supone implícitamente que las variables son incorrelacionadas y no es invariante por cambios de escala. b) dP también supone que las variables están incorrelacionadas pero es invariante por cambios de escala. c) dM tiene en cuenta las correlaciones entre las variables y es invariante por transformaciones lineales no singulares de las variables, en particular cambios de escala. Las distancias dE y dP son casos particulares de dM cuando la matriz de covarianzas es la identidad Ip y diag(S), respectivamente. En efecto: dE (i; j)2 = (xi dP (i; j)2 = (xi xj )0 (xi xj ); xj ):

xj )0 [diag(S)] 1 (xi

La distancia de Mahalanobis (al cuadrado) puede tener otras versiones: 1. Distancia de una observación xi al vector de medias x de X : (xi x)0 S 1 (xi x)

2. Distancia entre dos poblaciones representadas por dos matrices de datos Xn1 p ; Yn2 p : (x y)0 S 1 (x y); donde x; y son los vectores de medias y S = (n1 S1 + n2 S2 )=(n1 + n2 ) es la media ponderada de las correspondientes matrices de covarianzas.

10. pero existe la inversa generalizada o g-inversa A : Sea A un matriz de orden m n con m n: Se llama inversa generalizada de A o g-inversa. la inversa no existe. pero si A veri…ca además: A AA = A . a una matriz A que veri…ca: AA A = A: La g-inveresa no es única. existe la matriz inversa A 1 tal que AA 1 = A 1 A = In : Si el rango es rang(A) = r < n. Ds es una matriz diagonal n n con los valores singulares s1 y V es una matriz n sr sr+1 = = sn = 0. n ortogonal.10. . (AA )0 = AA (A A)0 = A A. DOS ASPECTOS DEL CÁLCULO MATRICIAL 19 1.1. o A no es matriz cuadrada.1. 1. siendo U0 U = In : 3. Dos aspectos del cálculo matricial Descomposición singular Sea A un matriz de orden m n con m n: Se llama descomposición en valores singulares de A a A = UDs V0 donde U es matriz m n cuyas columnas son vectores ortonormales. El rango de A es el número r de valores singulares positivos. U contiene los vectores propios (unitarios) de AA0 .2. V contiene los vectores propios (unitarios) de A0 A. 2.10. siendo V0 V = VV0 = In : 4.10. Inversa generalizada Si A es una matriz cuadrada de orden n n no singular. es decir. Se veri…ca: 1. Si m = n y A es simétrica. rang(A) = n. entonces U = V y A = UDs U0 es la desocmposición espectral de A: Los valores singulares son los valores propios de A: 1.

536. Un ejemplo Ejemplo 1. 0): Entonces Ds = diag(s1 1 . : : : .11. : : : . 46.20 CAPÍTULO 1.769 C C R=B @ 1 0. E. 0. W. DATOS MULTIVARIANTES entonces la g-inversa A es única.1 La Tabla 1. Sea rang(A) = r y A = UDs V0 la descomposición singular de A. sr 1 .885 0.179) Matriz de covarianzas (dividiendo por n) 0 1 280 216 278 218 B 212 221 165 C C S=B @ 337 250 A 218 Matriz de correlaciones 0 1 1 0.826 0. que miden los depósitos de corcho (en centigramos) en cada uno de los cuatro puntos cardinales: N. : : : . 45.179.905 0. con Ds = diag(s1 . : : : . S.679. 49. 0. covarianzas y correlaciones Vector de medias x0 =(50.11.923 A 1 .1 contiene los datos de n = 28 alcornoques y p = 4 variables. sr . Medias. 0): y la matriz m n A = VDs U0 es una g-inversa de A: En efecto. AA A = UDs V0 VDs U0 UDs V0 = A: 1.883 B 1 0.

1: Depósitos de corcho (centigramos) de 28 alcornoques en las cuatro direcciones cardinales. Variables compuestas Las siguientes variables compuestas explican diferentes aspectos de la variabilidad de los datos: Contraste eje N-S con eje E-W: Y1 = N + S Contraste N-S: Y2 = N S Contraste E-W: Y3 = E W E W Media 8.1 61.03 0. La normalización de Y1 .11.5 Variables normalizadas Una variable compuesta está normalizada si la suma de cuadrados de sus coe…cientes es 1.857 0.75 .606 30.63 0. La normalización evita que la varianza tome un valor arbitrario.1.428 31.27 99. UN EJEMPLO N 72 60 56 41 32 30 39 42 37 33 32 63 54 47 E 66 53 57 29 32 35 39 43 40 29 30 45 46 51 S W 76 77 66 63 64 58 36 38 35 36 34 26 31 27 31 25 31 25 27 36 34 28 74 63 60 52 52 43 N 91 56 79 81 78 46 39 32 60 35 39 50 43 48 E S W 79 100 75 68 47 50 65 70 61 80 68 58 55 67 60 38 37 38 35 34 37 30 30 32 50 67 54 37 48 39 36 39 31 34 37 40 37 39 50 54 57 43 21 Tabla 1. Y2 .857 1.707 49. Y3 dará: Z1 = Z2 = Z3 = Interpretación (N + S p E W )=2 2 (N S)= p (E W )= 2 Media Varianza: 4.000 Varianza 124.

E.1 y las relaciones lineales. W y relaciones entre cada par de variables de la Tabla 1. o regresión lineal. La normalización de las variables consigue que estas tengan varianzas más homogéneas. Visualización de datos En los capítulos siguientes veremos métodos y técnicas de visualización de datos multivariantes. antes de realizar el análisis. La principal dirección de variabilidad aparece al hacer la comparación del eje N-S con el eje E-W. DATOS MULTIVARIANTES Figura 1.1.22 CAPÍTULO 1. Como norma general es conveniente. S. La Figura 1. .1: Distribución de las variables N. entre cada par de variables. examinar y revisar los datos.1 contiene un grá…co que permite visualizar la distribución de las 4 variables de la Tabla 1.

xp ) 2 Rp : R 2) Rp f (x1 . la matriz de covarianzas = ( ij ) es = E((X 23 )(X )0 ): . y la matriz de covarianzas = ( ij ). Xj ). : : : . xp )dx1 dxp = 1: Conocida f (x1 . de orden p p. Xp ) un vector aleatorio con distribución absolutamente continua y función de densidad f (x1 . E(Xp ))0 . : : : . : : : .Capítulo 2 NORMALIDAD MULTIVARIANTE 2. : : : . siendo ij =cov(Xi . donde E(Xj ) es la esperanza de la variable marginal Xj . : : : . ii =var(Xi ): Teniendo en cuenta que los elementos de la matriz (X )(X )0 . xp ) 0. es importante el vector de medias = (E(X1 ). para todo (x1 . xp ): Es decir. xp ) podemos encontrar la función de densidad de cada variable marginal Xj mediante la integral Z fj (xj ) = f (x1 . Xj ) = E(Xi i )(Xj j ). : : : . : : : . xj . : : : .1. xp )dx1 dxj 1 dxj+1 dxp : Como en el caso de una matriz de datos. son (Xi i )(Xj j ) y que cov(Xi . Sea X =(X1 . Introducción Los datos en AM suelen provenir de una población caracterizada por una distribución multivariante. : : : . f veri…ca: 1) f (x1 .

1): (2. ) como una generalización de la normal univariante.2) Vamos a introducir la distribución normal mutivariante Np ( . que como veremos. : : : . ) como una combinación lineal de p variables Y1 . . (2.4) . . Por otra parte. es la matriz de covarianzas. Xp )0 Np ( .2. 2.2) sugiere de…nir la distribución X = (X1 .1) Evidentemente se veri…ca: X= + Y donde Y N (0. . Yp independientes con distribución N (0. 1): X1 = 1 + a11 Y1 + + a1p Yp .4) son equivalentes. es decir. 2 ). Xp )0 Np ( .2. (2. ) según: j j 1=2 e f (x. Xp = p + ap1 Y1 + + app Yp que podemos escribir como X = +AY donde A = (aij ) es una matriz p q que veri…ca AA0 = : (2. . : : : . (2.5) Proposición 2.2. n )0 y = ( ij ) una matriz de…nida positiva. . xp )0 .3) siendo x = (x1 .1) sugiere de…nir la densidad de X = (X1 . : : : . . : : : .24 CAPÍTULO 2. ) = p ( 2 )p 1 (x 2 )0 1 (x ) .3) y (2. 2. . = ( 1 . Por una parte. : : : . y varianza 2 : La función de densidad de X es: f (x.1.1 Las dos de…niciones (2. Hotelling y Wilks. con media 1 )= p e 2 1 (x 2 )2 = 2 = ( 2 ) 1=2 p e 2 1 (x 2 ) 1 2 (x ) (2. Distribución normal multivariante De…nición 2 Sea X una variable aleatoria con distribución N ( . (2. NORMALIDAD MULTIVARIANTE En este capítulo introducimos y estudiamos la distribución normal multivariante y tres distribuciones relacionadas con las muestras multivariantes: Wishart.

p. i = 1. 2. DISTRIBUCIÓN NORMAL MULTIVARIANTE Demost.7) Substituyendo (2. i = 1. En efecto.7) en (2. 1) independientes: p fX (x1 . el cambio y J = cambio. : : : . Propiedades )0 ) =E(AYY0 A0 ) = AIp A0 = : 1. La distribución de cada variable marginal Xi es normal univariante: Xi N ( i. 3. yp (x)) siendo yi = yi (x1 .3).2. : : : . 1) independientes. : : : . xp ) = fY (y1 (x). ii ).: Según la fórmula del cambio de variable fX (x1 . : : : .5) tenemos y = A 1 (x )) @y = jA 1 j @x @y @x @y @x 25 el jacobiano del y como las variables Yi son N (0.6) y de jA 1 j2 = j j obtenemos (2. . De (2. Xp Z = b0 + b1 X1 + + bp Xp es también normal univariante. : : : . xp ).5) es inmediato que E(X) = y que la matriz de covarianzas es E((X )(X 2.2.4) resulta que Z es combinación lineal de N (0.2. xp ) = (1= 2 )p e Pero 1 1 2 Pp i=1 2 yi jA 1 j: (2.6) = (A 1 )0 (A 1 ) y por lo tanto )0 (A 1 )0 (A 1 )(x ) = (x 1 y0 y = (x )0 1 (x ): (2. : : : . Toda combinación lineal de las variables X1 . De (2. de (2. : : : .2. p: Es consecuencia de la de…nición (2.4).

5) U = YY0 = Pp 2 i=1 Yi es suma de los cuadrados de p variables N (0. En efecto. x2 ) = 1 p exp [ 2 2 1 2 1 1 1 21 2 f (x1 2 1 1) 2 2 (x1 1 1) (x2 2 2) + (x2 2 2 2) 2 . . x1 = E(X1 =X2 = x2 ). ij = 0. 2 y del coe…ciente 2 1 de correlación =cor(X1 . las curvas de regresión de la media x2 = E(X2 =X1 = x1 ).26 CAPÍTULO 2. Caso bivariante Cuando p = 2. pp ) es matriz diagonal. . entonces las variables (X1 . siendo 1< < +1: (Figura 2. En efecto. la función de densidad de la normal bivariante se puede expresar en función de las medias y varianzas 1 . Si =diag( 11 .1). La regresión es de tipo lineal. La distribución de la variable marginal Xi es N ( i . : : : . 3. es decir.3. la función de densidad conjunta resulta igual al producto de las funciones de densidad marginales: f (x1 . Xp ) son estocásticamente independientes. : : : . i 6= j. es decir. 2. 11 ) f (xp . son las rectas de regresión. xp . 2 . La función de densidad de X2 condicionada a X1 = x es f (x2 =x1 ) = 2 densidad de la distribución normal N ( p 1 2 (1 2) exp[ [(x2 2+ 2 ( 2 = 1 )(x1 2 2) 2 2 (1 1 ). Se veri…ca: = 0: 2 i ): 1.2. p. ) = f (x1 . Hay independencia estocástica si y sólo si 2. X2 ) : f (x1 . : : : . pp ) 5. 2 1 )] ]. de (2. La distribución de la forma cuadrática U = (x ) 1 (x )0 es ji-cuadrado con p grados de libertad. 1) independientes. 2 . 2 ( 2 = 1 )(x1 2 2 (1 )): 4. 1. NORMALIDAD MULTIVARIANTE 4.

DISTRIBUCIÓN DE WISHART 27 Figura 2. Un ejemplo destacado lo constituye la distribución de la matriz de covarianzas S.3. con parámetros y n grados de libertad. la densidad de Q es f (Q) =cjQj(n siendo c Propiedades: 1 p 1) exp( p Q 1 tr( 2 1 Q)). generaliza la distribución ji-cuadrado y juega un papel importante en inferencia multivariante. ) entonces diremos que la matriz Q = Z0 Z es Wishart Wp ( . desviaciones típicas 2 y 2. n). coe…ciente de correlación 0. De…nición Si las …las de la matriz Zn p son independientes Np (0.1: Función de densidad de una distribución normal bivariante de medias 1 y 1. = 2np=2 p(p 1)=4 j jn=2 i=1 1 ( (n + 1 2 i): .3. calculada a partir de una matriz de datos donde las …las son observaciones normales multivariantes. Textos avanzados prueban que cuando es de…nida positiva y n p.2. 2. Distribución de Wishart La distribución de Wishart es la que sigue una matriz aleatoria simétrica de…nida positiva.8.

entonces la suma Q1 + Q2 es también Wishart Wp ( . n): En particular. entonces T 2 = my0 Q 1 y sigue la distribución T 2 de Hotelling. ) independiente de M que es Wp ( . Q son independientes. n) y Q22 es Wp ( 3. T 2 está directamente relacionada con la distribución de Fisher-Snedecor T 2 (p. m + n): 2. 11 . Si Q es Wishart Wp ( .28 CAPÍTULO 2. Q= Q11 Q12 Q21 Q22 22 . entonces t0 Qt t t es 2 n: 2. Si Q1 . m): Propiedades: 1. m). Distribución de Hotelling Es una generalización multivariante de la distribución t de Student. m) y además y. Si x es Np ( . n). que se indica por T 2 (p. si t es un vector. De…nición Si y es Np (0. entonces T0 QT es Wq (T0 T. entonces T 2 = m(x )0 M 1 (x ) T 2 (p. Q2 son independientes Wishart Wp ( . n) y T es una matriz p q de constantes. n): . m): 2.4. y separamos las variables en dos conjuntos y consideramos las particiones correspondientes de las matrices y Q = Entonces Q11 es Wp ( 11 21 12 22 . I). m). Si Q es Wishart Wp ( . m) mp Fp m p+1 m p+1 : . Q es Wishart Wp (I. NORMALIDAD MULTIVARIANTE 1. n). Wp ( .

(x )0 S 1 (x ) p Fn p : 4. respectivamente. es m Fn = n m1 . con …las independientes Np ( . n 1). S son el vector de medias y la matriz de covarianzas de la matriz Xn p con …las independientes Np ( . B=n donde A. entonces (n y por lo tanto 1)(x n p p )0 S 1 (x ) T 2 (p. y consideramos la estimación conjunta centrada de e S= (n1 S1 + n2 S2 )=(n1 + n2 T2 = y por lo tanto n1 n2 e (x y)0 S 1 (x n1 + n2 n1 + n2 1 p 2 T (n1 + n2 2)p y) 2). Si x. ). Si consideramos la distribución = la relación entre A . ). Distribución de Wilks La distribución F con m y n grados de libertad surge considerando el cociente A=m F = . S1 . así como la inversa Fm . A+B m n y Fn .5. Yn2 p .2. DISTRIBUCIÓN DE WILKS 29 3. n1 + n2 2) p Fn1 +n2 1 p: 2. entonces T 2 (p. n Fm = m1 n : La distribución de Wilks generaliza esta relación.y. B són ji-cuadrados estocásticamente independientes con m y n grados de libertad. . Si x. S2 son el vector de medias y la matriz de covarianzas de las matrices Xn1 p .5.

Concretamente: (p. NORMALIDAD MULTIVARIANTE Si las matrices A. con m p. que indicaremos por (p. a la distribución F: Si (p. Wp ( .30 De…nición CAPÍTULO 2. B de orden p p son independientes Wishart Wp ( . la distribución lambda de Wilks. por de…nición.556). 1 p): 2 (Obsérvese que debe ser m p): 3. Los parámetros se pueden permutar manteniendo la misma distribución. m). respectivamente. m + n p. Su distribución es equivalente a la del producto de n variables beta independientes: n Q (p. 0 1 y además no depende de estudiarla suponiendo = I: : Por lo tanto. la distribución del cociente de determinantes jAj = jA + Bj es. = (pq 2)=4.8) (n = 2) 5. 1973. p. m. n). podemos 2. p): 4. n q. de lib. . n) Ui . q) es Wilks con n relativamente grande. consideremos 1=s ms 2 1 (2. exacta o asintóticamente. En general. según las fórmulas m 1 n Fm (p = 1) n 1 p 1p p 1p m p+1 p m 1 n m p+1 p p Fm p+1 (n = 1) 2n F2(m 1) (p = 2) 2p F2(m p+1) (2. m. n): Propiedades: 1. la distribución de equivale a la F. m. (Rao. n) (n.9) F = 1=s pq p con m = n (p+q+1)=2. Para valores 1 y 2 de p y n. una transformación de equivale. i=1 donde Ui es beta 1 B( 2 (m + i p). s = (p2 q 2 4)=(p2 + q 2 5): Entonces F sigue asintóticamente la distribución F con pq y (ms 2 ) g.

0 0.8 x 1. y yy0 es Wp (I.05 0. n) y F = (n=m)A=B = m (n=m)F Fn : Tenemos que = (A=B)=(A=B + 1) = F =(1 + F ).10 0. p): Además y0 Q 1 y = p 1= 1 = (1 )= : De (2. Probemos la relación entre y F cuando p = 1: Sean A n m. n) n n Fm : (2. donde = jQj=jQ + yy0 j (p. m.4 0. Recordemos que y es un vector columna y por lo tanto yy0 es una matriz p p.15 0. m.2. m. B independientes.20 0. 1) (1.2: Un ejemplo de función de densidad lambda de Wilks.6. 2. y = jQ + yy0 j=jQj = 1= .10) tenemos que y0 Q 1 y(m + 1 p)=p Fm+1 p y por lo tanto mp Fp : T 2 = my0 Q 1 y m + 1 p m+1 p . RELACIONES ENTRE WILKS.6 0. Entonces = A=(A + B) (1.m). HOTELLING Y F 31 y 0. Probemos la relación entre las distribuciones T 2 y F: Tenemos T 2 = my0 Q 1 y.1): Se cumple jQ + yy0 j = jQjj1+y0 Q que implica 1+y0 Q 1 1 yj. luego m m n F = =(1 ) ) (n=m) =(1 ) Fn : Mas si F Fn entonces 1=F Fm : Hemos demostrado que: 1 (1. Relaciones entre Wilks.2 0. m.10) B.0 Figura 2. donde Q es Wp (I.6. n) m (1.00 0. m+1 p. Hotelling y F 2 2 A.

y) la función de distribución bivariante de dos variables aleatorias (X. la matriz C es singular.12) 2. = A1 + + Ak . : : : . : : : . NORMALIDAD MULTIVARIANTE 2. con probabilidades positivas P (A1 ) = p1 . y) = P (X x. El vector de medias de f es = np: 2. Distribución multinomial Supongamos que la población es la reunión disjunta de k sucesos excluyentes A1 . Una g-inversa de C es (véase Sección 1. La matriz de covarianzas de f es C = n[diag(p) cii = npi (1 pi ).8.10): C = diag(p1 1 . pk )0 : 1. fk ) = n! n1 ! nk ! p f1 1 p fk : k En el caso k = 2 tenemos la distribución binomial. Ak . pk 1 ): (2. Y y): .11). : : : . Distribuciones con marginales dadas Sea H(x. siendo f1 + + fk = n: (2. cij = npi pj si i 6= j: pp0 ): Es decir: Puesto que C1 = 0.32 CAPÍTULO 2. fk ) con función de densidad discreta p(f1 . Ak . P (Ak ) = pk . : : : .11) La distribución multinomial es la distribución de f = (f1 . veri…cando p1 + + pk = 1: Consideremos n observaciones independientes y sea (f1 . : : : . Indiquemos p = (p1 . fk ) el vector con las frecuencias observadas de A1 . La singularidad se debe a que se veri…ca (2. Y ): La función H es H(x.7. : : : . : : : . : : : .

donde . G(y)g y demostró la desigualdad H (x. 1). entonces se cumple la relación funcional entre X. Hoe¤ding había probado la siguiente fórmula para la covarianza Z cov(X.8. Si suponemos X. y) = H(1. 0g. y + son las correlaciones entre X. H(x. y) F (x)G(y))dxdy R2 y demostrado la desigualdad + . Cuando la distribución es H + . Y independientes. Posteriormente. Previamente W. y) H(x. DISTRIBUCIONES CON MARGINALES DADAS 33 Consideremos las distribuciones marginales. H y H + . que en algunos casos contienen a H . y): 1. G y posiblemente algún parámetro. algunas familias son: . G(y). Y F (X) + G(Y ) = 1: y la correlación (si existe) es mínima. es decir las distribuciones univariantes de X y de Y : F (x) = P (X G(y) = P (Y x) = H(x.2. Y cuando la distribución bivariante es H . H 0 y H + : Escribiendo F. Cuando la distribución es H . respectivamente. entonces se cumple la relación funcional entre X. una primera distribución es H 0 (x. y) H + (x. Fréchet introdujo las distribuciones bivariantes H (x. G. diversos autores han propuesto distribuciones bivariantes paramétricas a partir de las marginales F. Y F (X) = G(Y ) y la correlación (si existe) + es máxima. y) = maxfF (x) + G(y) H + (x. Y ) = (H(x. y) = m nfF (x). y). y) = F (x)G(y): M. H para indicar F (x). G. y): Un procedimiento para la obtención de modelos de distribuciones bivariantes consiste en encontrar H a partir de F.

Otras distribuciones importantes son la multinomial y la Dirichlet. Cuadras-Augé: H = (m nfF. F (y))=(1 )F (x)J(y). la más utilizada en análisis multivariante. en la suposición de normalidad. Ali-Mikhail-Haq: H = F G=[1 4. Complementos La distribución normal multivariante es. 1 < 1: ) una función de distribución uni- 2. Gg) (F G)1 . pronto se planteó la necesidad de encontrar la distribución de la matriz de covarianzas. NORMALIDAD MULTIVARIANTE 1. se basan. como las distribuciones elípticas. Rencher (1995. y de . Cuando se estudiaron muestras normales multivariantes. cuya densidad es de la forma f (x) = j j 1=2 g((x )0 1 (x )). Más recientemente se han estudiado generalizaciones. con diferencia. 1998). y) = F (m nfx. 1 1. yg) + (1 siendo J(y) = [G(y) variante. Farlie-Gumbel-Morgenstern: H = F G[1 + (1 2. Rao (1973). Clayton-Oakes: H = [F 3. 5.34 CAPÍTULO 2. Familia de correlación: H (x. casi exclusivamente.9. Textos como Anderson (1956). donde g es una función positiva creciente. 1 1: . 0 1: (1 F )(1 G)] 1 1: +G 1] 1= F )(1 G)].

y) F (x)G(y))d (x)d (y): R2 Véase también Quesada-Molina (1992). S. . Así fue como J.2. Joe (1997). Algunas referencias son: Hutchinson y Lai (1990). Hotelling y S. en los años 1928. H. Wilks propusieron las distribuciones que llevan sus nombres. respectivamente.9. (Y )) = (H(x. Cuadras y Augé (1981). La fórmula de Hoe¤ding admite la siguiente generalización (Cuadras. 1931 y 1932. Cuadras (1992a. Nelsen (1999). Wishart. 2009). El estudio de las distribuciones con marginales dadas proporciona un método de construcción de distribuciones univariantes y multivariantes. 2006. COMPLEMENTOS 35 algunos estadísticos apropiados para realizar tests multivariantes. 2002): Z cov( (X).

36 CAPÍTULO 2. NORMALIDAD MULTIVARIANTE .

) un modelo estadístico. La función “score”se de…ne como @ log f (x. ): Cuando un modelo estadístico es regular se veri…ca: a) E(z(X. Conceptos básicos z(x. : : : . ): @ Una muestra multivariante está formada por las n …las x01 . )) = 0: b) F ( ) =E(z(X. ) = log f (xi .1.Capítulo 3 INFERENCIA MULTIVARIANTE 3. ) = n Y i=1 f (xi . x0p independientes de una matriz de datos Xn p : La función de verosimilitud es L(X. )0 ): Un estimador t(X) de es insesgado si E(t(X)) = : La desigualdad de Cramér-Rao dice que si cov(t(X)) es la matriz de covarianzas de t(X). ): @ i=1 . entonces cov(t(X)) F ( ) 1 . ) = Sea f (x. ): La matriz de información de Fisher F ( ) es la matriz de covarianzas de z(X. )z(X. 37 La función “score”de la muestra es n X @ z(X.

donde F1 ( ) es la matriz de información de Fisher para una sola observación. . b) Si t(X) es estimador insesgado de tal que cov(t(X)) = (nF1 ( )) 1 . ) = det(2 Se veri…ca Pn i=1 (xi ) n=2 son independientes Np ( . : : : . Estimación de medias y covarianzas p Si las n …las x01 . . podemos obtener b resolviendo la ecuación n X @ log f (xi . ) la función ( 1X (xi 2 i=1 n exp ) 1 (xi )0 ) )0 1 )0 1 (xi P ) = n (xP x)0 1 (xi x) + n(x i i=1 n 1 = trf x)(xi x)0 g i=1 (xi +n(x )0 1 (x ) )0 1 (x ) y por lo tanto el logaritmo de L se puede expresar como n n n log L(X. entonces bn = t(X): c) bn converge en probabilidad a : 3. ): En condiciones de regularidad.38 CAPÍTULO 3. INFERENCIA MULTIVARIANTE en el sentido de que la diferencia cov(t(X)) F ( ) 1 es una matriz semide…nida positiva. ) = log det(2 ) tr( 1 S) (x 2 2 2 Derivando matricialmente respecto de @ @ @ @ 1 (x ): y de ) = 0. Un estimador b del parámetro desconocido es máximo verosímil si maximiza la función L(X. ) = 0: @ i=1 Entonces el estimador máximo verosímil bn obtenido a partir de una muestra de tamaño n satisface: a) Es asintóticamente normal con vector de medias y matriz de covarianzas (nF1 ( )) 1 . x0n de Xn de verosimilitud es L(X. (x 1 tenemos log L =n n 2 1 (x S log L = [ )(x )0 ] = 0: .2.

Tests multivariantes Un primer método para construir tests sobre los parámetros de una población normal. Si = 0 es conocida.1. tenemos x que alcanza laa cota de Cramér-Rao. Queremos realizar un test sobre la hipótesis H0 : 1. la matriz de información de Fisher es F ( ) = E(n (x )n 1 b = S: (x )0 ) = n 1 y como cov(x) = =n. el (3. TESTS MULTIVARIANTES Las estimaciones máximo-verosímiles de . Si es desconocida. que dan lugar a estadísticos con distribución conocida (ji-cuadrado.3. nS sigue la distribución de Wishart. x es Np ( . n 1). Test sobre la media: una población Supongamos que las …las de Xn p son independientes Np ( . 3. se basa en las propiedades anteriores.3. como (n 1)(x )0 S 1 (x ) estadístico de contraste es n p p (x 0 )0 S 1 (x 0 ) Fn p : p T 2 (p. ): Sea 0 un vector de medias conocido.1) En ambos casos se rechaza H0 para valores grandes signi…cativos del estadístico. 3. el estadístico de contraste es n(x 0 0) 1 (x 0) 2 p: 2. F). como x es Np ( . .3. x y S son estocásticamente independientes. 3. =n). b = x. =n): 2.3. 1 39 son pues Si sólo es desconocido. Probaremos más adelante que: 1.

. siendo Si = ni 1 X0i HXi . ) (3. .3.40 CAPÍTULO 3. y que provienen de la observación de g poblaciones normales multivariantes: matriz orden medias covarianzas distribucion x1 S1 Np ( 1 . n = i=1 ni : Deseamos construir un test para decidir si podemos aceptar la hipótesis de igualdad de medias H0 : 1 = 2 = = g: . Test sobre la media: dos poblaciones Supongamos ahora que tenemos dos matrices de datos independientes Xn1 p . Si es conocida. como (x y) es Np ( 1 2 . Yn2 p que provienen de distribuciones Np ( 1 . . INFERENCIA MULTIVARIANTE 3. Np ( 2 . n i=1 Pg g S= 1 n g g X i=1 n i Si . el estadístico de contraste es n1 + n2 1 p n1 n2 e (x y)0 S 1 (x (n1 + n2 2)p n1 + n2 y) p Fn1 +n2 1 p: 3. ): Queremos construir un test sobre la hipótesis H0 : 1 = 2: 1.3. . . . ). ) X2 n2 p . . Comparación de medias Supongamos que las …las de g matrices de datos son independientes. Xg ng p xg Sg Np ( g . . . ) X1 n1 p x2 S2 Np ( 2 . . .2) El vector de medias generales y la estimación centrada de la matriz de covarianzas común son 1X x= ni xi . .3. Si es desconocida. (1=n1 + 1=n2 ) ) el estadístico de contraste es n1 n2 2 (x y)0 1 (x y) p: n1 + n2 2. .2. .

si H0 es cierta = jWj jW + Bj (p. g 1): Rechazaremos H0 si es pequeña y signi…cativa. u0 v =0: 1. W son estocasticamente independientes.3. n g). Lema 3.x entonces y0 = u0 X = n ui xi es normal multivariante con = 0 y matriz i=1 de covarianzas P P P E(yy0 ) = E( n ui xi )( n ui xi )0 = E( n ui uj xi x0j ) i=1 i=1 i. g 1). un )0 .j=1 Pn Pn 2 0 = i. : : : . v dos vectores n 1 tales que u0 u = v0 v =1.4. : P B = Pg P(xi x)(xi x)0 (dispersion entre grupos) i=1 ni g ni 0 xi )(xi xi ) (dispersion dentro grupos) W = Pi=1 P =1 (xi ni x)(xi x)0 (dispersion total) T = g (xi i=1 =1 g)S y la relación: T = B + W: Si la hipótesis nula es cierta. 3. Si = 0 entonces y0 = u0 X es Np (0.4. ): 2. ) y u. Teorema de Cochran Algunos resultados de la sección anterior son una consecuencia del teorema de Cochran. n 1). 41 Se veri…ca que W = (n B.: Sean x01 . : : :P 0n las …las (independientes) de X: Si u = (u1 .1 Sea X(n p) una matriz de datos Np ( . n g. o si la transformación a una F es grande y signi…cativa. se veri…ca además B Wp ( .j=1 ui uj E(xi xj ) = i=1 ui E(xi x0i ) P = n u2 = : i=1 i . T Wp ( . W Wp ( .4. por lo tanto. y0 = u0 X es independiente de z0 = v0 X: Demost. TEOREMA DE COCHRAN Introducimos las siguientes matrices .

1): Si C2 = C entonces Cui = i ui siendo i = 0 ó 1: Por lo tanto r =tr(C) y r X 0 0 X CX = yi yi Wp ( . z0 = vP es también normal. y junto con el teorema de Cochran. X P Las esperanzas de y. donde los pesos son valores propios de C: 2. Cui = X 0 X0 CX = i yi yi Entonces 0 son también independientes Np (0. E(z) = ( n vi ) : Las i=1 i=1 covarianzas entre y y z son: P E[(yP E(y))(z E(z))0 ]= n ui vj E[(xi )(xj )0 ] i=1 n = i=1 ui vi E[(xi )(xj )0 ] = u0 v = 0. C Y =@ . 0 yn u0n X El siguiente resultado se conoce como teorema de Craig. X0 CX tiene la misma distribución que una suma ponderada de matrices Wp ( .4. si v = (v1 . lo que prueba la independencia estocástica entre y y z: Teorema 3.4. z son: E(y) = ( n ui ) . p) una matriz de datos Np (0. vn )0 . ) y cada yi yi es Wp ( . ) y sea C(n n) 1.2 Sea X(n una matriz simétrica. permite construir tests sobre vectores de medias. es decir. : : : .: Sea C= n X i=1 0 i ui ui i ui : la descomposición espectral de C. r): i=1 0 Por el Lema 3. .1 anterior. INFERENCIA MULTIVARIANTE 0 Análogamente. . A. . X0 CX es Wishart Wp ( . A = @ . 1). C B .42 CAPÍTULO 3. las …las yi de la matriz 0 1 0 1 0 y1 u01 X B . r) si y sólo si C es idempotente y rang(C) = r: Demost.

1) independientes. 0 Si suponemos i (1) j (2) 6= 0.: Consideremos C1 = n 1 110 : Tenemos rang(C1 ) = 1. j: Teorema 3. P 0 0 es ortogonal a 1.3.4.4. como H2 = H. ): Entonces : 1. H1 = 0. ). donde los yi yi son Wp ( . : : : g.4. W son independientes con distribuciones Wishart: B Wp ( . i = 1. Entonces X0 C1 X es independiente de X0 C2 X si C1 C2 = 0: Demost. Tenemos que nS = n 1 yi yi . z0j = vj X: Por otra parte X 0 0 C1 C2 = i (1) j (2)ui ui vj vj . P X0 C1 X = P X0 C2 X = 0 i (1)yi yi . W Wp ( .5 Sean Xi . X0 C1 X =xx0 : Consideremos también C2 = H: Como C1 C2 = 0 deducimos que x es independiente de S: Por otra parte.4 Sea X(n p) una matriz de datos Np ( . La matriz de covarianzas S = X0 HX=n veri…ca nS 3.4. En el caso univariante p = 1 es el llamado teorema de Fisher. n g): .4. 0 0 siendo yi = u0i X. H tiene el valor propio 1 con multiplicidad n 1: Así ui . yi .1 yi (1 p) = u0i X es 0 0 0 independiente de zj (1 p) = vj X: Así X C1 X es independiente de X0 C2 X: Una primera consecuencia del teorema anterior es la independencia entre vectores de medias y matrices de covarianzas muestrales. Demost. entonces por el Lema 3. vector propio de valor propio 1. i=1 Teorema 3. 8i. 0 j (2)zj zj . n 1): p = 2 = = g es cierta. yj son independientes (Lema P 0 0 3. x y S son estocásticamente independientes. entonces B. =n): 2. g 1). 0 j (2)vj vj .1). n = g ni : Si la hipótesis nula i=1 H0 : 1 Wp ( . C2 (n n) matrices simétricas. matrices de datos independientes de orden ni P con distribución Np ( i .3 Sea X(n p) una matriz de datos Np ( . TEOREMA DE COCHRAN 43 Teorema 3. La media x es Np ( . ) y sean C1 (n n). resultando que yi = u0i X veri…ca E(yi ) = ( n=1 ui ) = (u0i 1) =0 = 0: Si uj es otro vector propio. C1 C2 = 0 ) i (1) j (2)u0i vj = 0. rang(H) =n 1.: P C1 = P n i=1 C2 = n j=1 0 i (1)ui ui .4.

: : : .44 CAPÍTULO 3. ) .4. : : : . etc. : : : 1). 7 X =4 . 1 2 rang(C1 ) = n k. i=1 donde 11 tiene n1 unos y el resto ceros. Sean también P Ii = diag(1i ). Xg 11 = P : : : . : : : . : : : . 1). 1 = g 1i = (1. rang(C2 ) = g 1. (1. : : : . 0). ) = n Y i=1 f (x. 1. siendo una región paramétrica de dimensión geométrica r: Sea 0 una subregión paramétrica de dimensión s. C2 = C2 . C2 = g ni 1 1i 10i n 1 110 : i=1 i=1 Entonces C2 = C1 . : : : . B = X0 C2 X: El resultado es consecuencia de los Teoremas 3. xn una muestra de valores independientes de X .5. 3. 1g = (0.4. Construcción de tests multivariantes Razón de verosimilitud Supongamos que la función de densidad de (X1 . INFERENCIA MULTIVARIANTE Sean Demost. 1. C1 C2 = 0. Xp ) es f (x. 0.: Escribimos las matrices de datos como una única matriz 2 3 X1 6 . 5: . : : : . xn .4 y 3. donde x 2Rp y 2 . : : : . consideremos la función de verosimilitud L(x1 . I = g Ii .1. 3. : : : 0. ). 1. W = X0 C1 X.5. 1.5. y planteamos el test de hipótesis H0 : 2 0 vs H1 : 2 0: Sea x1 . i=1 Hi = Ii ni 1 1i 10i P P C1 = g Hi .

5. Test de independencia sea grande y sig- Si (X1 . CONSTRUCCIÓN DE TESTS MULTIVARIANTES 45 y sea b el estimador máximo verosímil de 2 : Consideremos análogamente b0 . : : : . : : : . r = p + p(p + 1)=2. Existe un importante resultado (atribuido a Wilks).5. Se demuestra (Sección 5. entonces 0 = f( . ).l.2) que 2 log R = n log jRj. Xp ) es N ( . el estimador de máxima verosimilitud de 2 0 : Tenemos que b maximiza L sin restricciones y b0 maximiza L cuando se impone la condición de que pertenezca a 0 : La razón de verosimilitud es el estadístico R = que satisface 0 1: Aceptamos la hipótesis H0 si R es próxima a 1 y R aceptamos la alternativa H1 si R es signi…cativamente próximo a 0. xn .3. se veri…ca: 2 log donde s = dim( 0) R 2 r s. y Si las variables son independientes. que dice que la distribución de -2 veces el logaritmo de s g. L(x1 . pero en la mayoría de los casos su distribución es desconocida. b) es asintóticamente < r = dim( ). q . I.l.1 Bajo ciertas condiciones de regularidad. 0 )g. donde 0 es diagonal. = f( . El estadístico camente ji-cuadrado con q = p + p(p + 1)=2 2p = p(p n log jRj es asintóti- 1)=2 g. b0 ) . es cualquier matriz de…nida positiva. tendremos que R es probable que 2 = n log jRj no sea signi…cativo.4. xn . 0 contiene las p medias de las variables y las p varianzas. n log jRj 0. cuando el tamaño de la muestra n es grande. )g. Veamos dos ejemplos. : : : . 2 log R Entonces rechazamos la hipótesis H0 cuando ni…cativo. s = 2p. L(x1 . El test basado en R tiene muchas aplicaciones en AM. donde R es la matriz de correlaciones. y queremos hacer un test sobre la independencia estocástica de las variables. R es ji-cuadrado con r Teorema 3.

Aceptaremos H0 : = 0 si aceptamos todas las hipótesis univariantes H0 (a). = f( 1 . Sea Xa = Xa una variable compuesta con media (a) = a: El test univariante H0 (a) : (a) = 0 (a) contra la alternativa H1 (a) : (a) 6= 0 (a) se resuelve mediante la t de Student t(a) = p n 1 x(a) 0 (a) s(a) tn 1 donde x(a) = x0 a es la media muestral de Xa y s2 (a) = a0 Sa es la varianza. cuando la donde = jWj=jTj es la lambda de Wilks y n = n1 + n log es asintóticamente ji-cuadrado con r s = (g hipótesis H0 es cierta. Por lo tanto 1)p g. formalmente (principio de unión-intersección): H0 = \H0 (a).3.46 CAPÍTULO 3. es decir. . s = p + p(p + 1)=2. + ng . planteemos la hipótesis nula multivariante H0 : = 0 como un test univariante. la T 2 de Hotelling (Sección 3. donde es matriz de…nida positiva y (vector) es la media común cuando H0 es cierta. INFERENCIA MULTIVARIANTE Test de comparación de medias Consideremos el test de comparación de medias planteado en la Sección 3. y p + p(p + 1)=2 bajo H0 : Se demuestra la relación R = n=2 .3. Como ejemplo. 3.1) es precisamente el cuadrado de esta máxima t de Student. Ahora 0 = f( . g ). y nos decidiremos por la alternativa H1 : 6= 0 si aceptamos una sola de las alternativas H1 (a). Principio de unión-intersección Es un principio general que permite construir tests multivariantes a partir de tests univariantes y se aplica a muchos tests. : : : .5. r = gp + p(p + 1)=2. Pues bien.3.2.l. a H1 = [H1 (a): a Así rechazaremos H0 si la máxima t(a) resulta signi…cativa. )g. Hay gp + p(p + 1)=2 parámetros bajo H1 . )g.

Amerohelea pseudofascinata. se han obtenido las matrices de datos de la Tabla 3. antena.: (x 0) es un vector columna y podemos escribir t2 (a) como t2 (a) = (n 1) a0 (x 0 )(x a0 Sa 0 0) a Sea A = (x 0 )(x Av1 = 1 Sv1 entonces 0 0) matriz de orden p 1 p y rango 1: Si v1 satisface = max v v0 Av : v0 Sv 0 )(x 0 0 ) v1 De (x 0 )(x y de la identidad S 1 (x vemos que 0 )(x 1 0 0 ) v1 = 1 Sv1 resulta que S 1 (x 0 1 0 ) S (x = 1 v1 0 1 0 ) (S (x 0 1 0 ) S (x 0 )) = (x 0 )(S 1 (x 0 )) = (x a 0 ). ala (en mm). para dos muestras de tamaños n1 = 9 y n2 = 6.6.2 En el test sobre el vector de medias. En relación a las variables X1 = long. 180. la T 2 de Hotelling y la t de Student están relacionadas por T 2 = maxt2 (a): a Demost. Vectores de medias (valores multiplicados por 100): x= (141. v1 = S 1 (x 0 1 0 ) S (x 0 ): Por lo tanto 0 ): T 2 = maxt2 (a) = (n 1)(x 3.33.1. X2 = long. Ejemplos Ejemplo 3.67): .67.6.5. 192.1 Se desean comparar dos especies de moscas de agua: Amerohelea fascinata. EJEMPLOS 47 Teorema 3.3.6.44). y = (122.

86 1.54 1.47 43.38 1.2 .90 1.14 1.64 1.48 1.40 1. pseudofascinata n2 = 6 X1 X2 1. INFERENCIA MULTIVARIANTE Amerohelea fascinata n1 = 9 X1 X2 1.83 167.6.001): Ejemplo 3.48 CAPÍTULO 3.78 S2 = 39.78 2(9 + 6 2) Decisión: rechazamos la hipótesis de que las dos especies son iguales (Nivel de signi…cación=0. X2 = long.1: X1 = long.08 A.87 6+9 2 F12 9+6 1 2 2 T = 25.52: 6 9 2 D = 55.46 66.24 1.81 : Distancia de Mahalanobis entre las dos muestras: b y)S 1 (x y)0 = 15. ala (en mm).49 66.26 2.20 1.38 1.18 1.96 1.82 1.47 43. antena.30 1..70 1.72 1.47 77.82 1. para dos muestras de tamaño n1 = 9 y n2 = 6.83 80.00 80. Matrices de covarianzas: S1 = 98.56 2.00 Tabla 3.36 1.82 1.38 1.87 : Estimación centrada de la matriz de covarianzas común: b 1 S= (8S1 + 5S2 ) = 13 D2 = (x Estadístico T 2 : T2 = Estadístico F : 75.28 2.74 1.46 133.96 1.00 1.78 1.

5.156 Lambda de Wilks: = jWj = 0. versicolor I.02344 jW + Bj (4.9): ! F = 198.703 5.148 4.462.956 12. 2.246) n1 = 50 (5.212 19.260.345 57. 2) Transformación a una F aplicando (2.770. setosa I.936.953 165.17 71. anch:(petalos): Vectores de medias y tamaños mustrales: I.322 6.808 C C W =B @ 27.23 22.588.73 186.69 80.932 B =B @ 436. virginica (5.413 Matriz dispersión dentro grupos: 0 1 38.278 B 11. X4 = long:.645 B 16. EJEMPLOS 49 Comparación de las especies virginica. setosa de ‡ ores del género Iris (datos de R. X3 . .550. 2. A. X2 = long:. respecto a las variables que miden longitud y anchura de sépalos y pétalos: X1 . Fisher.962 8.284 A 6.326) n2 = 50 (6. Tabla 3. 0.6. versicolor.3. 2. 3.428. anch:(sepalos).974.95 8 F288 Decisión: las diferencias entre las tres especies son muy signi…cativas. 4.630 24.026) n3 = 50 1 C C A Matriz dispersión entre grupos: 0 63. 1. 1. 147.006.2).

0 2.1 4.3 1.6 5.6 1.4 2.3 4.9 5.9 2.4 3.0 3.4 0.2 5.6 4.5 3.3 1.0 6.0 2.1 2.7 6.9 2.5 1.7 4.1 4.0 5.5 5.3 6.0 4.2 6.4 3.6 3.7 6.4 1.4 3.3 3.3 1.8 3.7 7.1 4.0 5.8 5.6 1.5 6.3 6.1 6.2 1.8 2.6 3.5 4.2 2.1 X4 2.7 3.9 6.9 2.0 3.5 4.0 2.5 1.7 1.2 4.0 3.9 5.7 2.4 3.1 5.3 0.5 3.5 1.5 6.4 0.4 1.5 4.9 3.1 5.4 5.7 5.5 5.9 3.7 6.5 7.9 X2 3.5 6.8 6.0 2.9 5.5 6.2 0.2 5.4 1.8 2.7 1.8 5.1 0.2 0.2 4.5 4.7 1.4 3.0 3.5 3.9 1.2 0.3 2.9 3.9 4.2 0.1 0.2 0.8 2.5 4.8 3.7 7.5 1.5 4.4 2.9 6.6 3.7 3.7 4.9 5.2 0.2 5.5 2.7 3.0 1.4 1.3 1.4 6.1 4.7 X2 3.0 3.7 3.3 6.8 4.8 6.6 2.1 3.4 4.3 1.0 2.3 2.7 5.6 1.9 5.1 5.5 3.3 0.2 0.5 1.6 4.5 1.5 1.2 4.3 1.0 2.2 3.0 4.5 1.3 2.8 5.0 3.5 5.6 3.9 6.5 5.1 6.1 5.6 5.1 4.7 5.4 5. .0 5.0 4.0 3.6 5.6 5.7 3.0 X2 3.2 3.3 1.0 2.2 0.8 5.0 1.5 3.8 6.8 3.1 6.8 3.3 4.0 5.0 5.3 6.2: Longitud y anchura de sépalos y pétalos de 3 especies del género Iris: Setosa.2 2.7 1.1 6.4 3.4 0.4 5.0 3.0 1.0 2.7 1.0 1.4 1.9 2.8 3.9 5.1 4.2 0.8 2.4 5.5 2.7 5.2 2.5 2.1 1.2 0.2 5.8 2.2 1.2 5.2 0.2 5.5 2.0 2.7 3.0 1.4 6.2 X1 7.1 X4 1.2 1.3 1.9 2.7 6.4 5.7 6.1 0.5 4.6 1.8 Tabla 3.0 4.1 3.5 1.1 4.2 5.4 1.3 1.9 2.3 5. INFERENCIA MULTIVARIANTE X1 5.0 5.3 5.3 2.4 4.1 1.2 2.4 0.0 2.8 2.8 1.6 6.8 3.4 4.8 1.4 2.1 1.8 2.3 0.6 2.3 1.2 3.9 5.8 3.8 6.2 0.6 1.6 1.2 4.4 0.2 0.8 1.9 5.7 6.1 3.5 1.0 6.4 4.2 5.7 4.4 1.4 1.4 5.7 3.4 X4 0.9 2.3 0.1 2.1 5.7 4.4 4.6 5.5 3.3 1.2 3.7 5.3 1.2 2.3 4.0 4.0 4.5 1. Virginica.8 2.3 4.4 7.4 7.0 4.1 1.4 0.1 5.5 7.1 2.2 6.8 3.0 2.8 6.2 0.5 1.3 5.8 2.0 2.1 5.1 7.4 1.4 1.9 4.0 3.9 1.9 4.4 1.2 3.9 4.2 0.2 0.0 5.2 0.2 1.1 5.6 7.4 1.0 1.4 4.8 3.0 2.5 1.5 2.1 5.2 2.0 4.8 7.4 1.2 7.7 2.4 3.0 3.8 5.7 3.2 1.2 0.7 4.6 1.4 2.9 2.3 2.5 1.7 6.3 2.1 5.0 1.2 1.1 2.1 1.5 3.0 4.6 1.1 6.2 0.3 1.6 5.1 0.1 5.1 3.8 6.4 2.7 5.1 1.8 2.7 6.5 4.4 0.2 0.9 3.6 3.4 1.4 1.3 1.4 6.5 1.5 1.4 3.6 3.4 1.6 2.50 CAPÍTULO 3.6 5.3 6.2 3.5 1.9 2.5 1.4 3.2 0.0 3.5 2.9 2.3 5.3 5.0 2.5 1.5 3.8 6.3 1.5 2.7 3.2 2.8 3.5 6.1 5.4 5.6 5.6 0.5 0.4 1.1 3.0 5.4 2.2 0.5 4.8 2.0 X3 6.2 3.0 4.3 1.6 5.9 4.8 5.3 6.9 2.3 1.5 1.0 1.7 3.5 1.0 5.6 3.1 5.2 1.3 3.2 3.4 1.9 3.5 2.5 1.7 7.5 1.9 7.4 6.2 3.2 0.3 3.6 4.2 4.9 6.4 2.5 3.4 5.3 X1 6.5 4.2 0.6 5.7 6.9 6.8 4.8 4.8 2.6 4.6 5.3 3.0 1.7 5.0 5.8 4.3 2.7 6.1 4.4 1.7 1.3 3.1 4.8 6.1 2.1 0.0 2.7 6.8 5.0 1.5 2.7 6.6 6. Versicolor.0 2.1 1.7 4.4 4.0 3.6 5.3 1.3 5.3 X3 1.8 2.0 6.0 5.9 5.0 6.4 6.2 3.4 1.4 4.8 5.5 1.0 4.1 3.6 6.3 1.7 2.9 6.4 3.7 3.2 1.3 3.2 0.8 2.3 0.1 3.1 3.3 1.7 4.5 3.0 5.3 1.3 1.0 6.6 5.4 6.2 0.8 X3 4.2 2.6 4.8 1.3 5.0 5.7 3.6 5.9 3.3 0.0 3.8 3.2 0.5 1.9 3.9 5.0 2.3 6.1 5.1 1.3 1.3 1.5 5.8 6.6 1.2 3.6 1.2 6.8 1.2 0.5 3.5 6.6 1.9 5.8 2.4 6.3 0.4 3.

) (p = 0.4777 = 5. Interpretemos geométricamente esta paradoja (conocida como paradoja de Rao). siendo d =(16. matrices de covarianzas) de p = 2 variables X (longitud del fémur). EJEMPLOS Ejemplo 3.1 23.215 (45 g.4 444. desviaciones típicas. pero el test bivariante no.7 374.2 Matriz covarianzas 561.488 = 2. Por lo tanto ambos tests univariantes resultan signi…cativos.l.6.079): (27 + 20 2)2 27 20 0.867 Suponiendo normalidad. Con nivel de signi…cación 0. Medias n1 = 27 n2 = 20 Diferencia Desv.4777.l. . Y (longitud del húmero). y aplicando el test T 2 de Hotelling.9): 2 La T de Hotelling es T2 = que convertida en una F da: F = 27 + 20 1 2 5. Indios) .685 (2 y 44 g.7 Y 335.1 323.2 11. 1. los tests t de comparación de medias para cada variable por separado son: Variable X Variable Y t = 2.6.488 27 + 20 Esta F no es signi…cativa al nivel 0. Utilicemos ahora las dos variables conjuntamente. 05 se concluye que hay diferencias signi…cativas para cada variable por separado. t = 2. típicas X 460.3.0318): A un nivel de signi…cación 0.24 Correlación: r = 0. medias. La distancia de Mahab lanobis entre las dos poblaciones es d0 S 1 d =0.302 (45 g. contradiciendo la creencia de que un test multivariante debería proporcionar mayor signi…cación que un test univariante. 11.3 16.) (p = 0.9 18.2 b S= 374.l. obtenidas sobre dos poblaciones (Angloindios.2 331.05.0259).) (p = 0.05.3 51 Consideremos los siguientes datos (tamaños muestrales.

consúltese Baillo y Grané (2008). INFERENCIA MULTIVARIANTE aceptaremos la hipótesis nula bivariante si el vector diferencia d = (x y)0 pertenece a la elipse n1 n2 0 d n1 + n2 561. 06845 6y 2 3. 0912 1xy + 0. n 1 + n 2 s1 siendo 2 el valor crítico para una t con 45 g. Variable y : 0. Para ver más ejemplos. el test con x y el test con y por separado. existe una pequeña región por encima de ry y a la derecha de rx que cae dentro de la elipse. son tests t distintos del test T 2 empleado con (x. equivalente a una F. Así pues no hay signi…cación si x. se obtiene el punto señalado con el signo +. todos los valores que están fuera de la elipse (región F) son signi…cativos para las dos variables. . 04 036 9x2 0. Procederíamos de forma similar para la segunda variable y. Además.52 CAPÍTULO 3. y) es superior. y por separado no son signi…cativos. para el cual x e y son signi…cativas pero no (x. 24 1 d 3. Obtenemos así las cuatro rectas Variable x : 0. y): Así x e y son signi…cativas si el punto se encuentra en el cuadrante A. Para los datos del ejemplo. 7 374. Tales tests no tienen por qué dar resultados compatibles. pero conjuntamente sí. donde 3. en el test univariante y para la primera variable x. Las probabilidades de las regiones de rechazo son distintas. 1862y = 2: En la Figura 3. Pues bien. Hay casos en que x.1 podemos visualizar la paradoja. 143x = 2.2: Análogamente. l. No obstante. 2 331. la diferència d = x1 x2 debe veri…car r n1 n2 d j ( )j 2. 2 374. y). la potencia del test con (x.2 es el punto crítico para una F con 2 y 44 g. l. Los valores de la diferencia que están a la derecha de la recta vertical rx son signi…cativos para la variable x: Análogamente los que están por encima de la recta horizontal ry lo son para la y: Por otra parte. puesto que la probabilidad de la región F es mayor que las probabilidades sumadas de las regiones A y B. (Una simetría con respecto al origen nos permitiría considerar otras dos rectas y la región B).2. y veri…can la inecuación 0.

7. : : : . p )0 : Por ejemplo.3. ANÁLISIS DE PERFILES 53 Figura 3. 3. X2 X3 . : : : . ): Estamos interesados en establecer una hipótesis lineal sobre = ( 1 . Por lo tanto aplicaremos . Xp 1 Xp son iguales a cero. Análisis de per…les Supongamos que las …las de una matriz de datos X(n p) provienen de una distribución Np ( . que las medias univariantes son iguales: H0 : 1 = = p Esta hipótesis sólo tiene sentido si las variables observables son comparables.1: Un test de comparación de poblaciones bivariante puede resultar menos signi…cativo que dos tests univariantes con las variables marginales. Consideremos la matriz de orden (p 1) p 0 1 1 1 0 0 B 0 1 1 0 C C C=B @ A 0 9 9 1 La hipótesis es equivalente a H0 : C = 0 Aceptar H0 es lo mismo que decir que las medias de las p 1 variables X1 X2 .7.

sigue una T 2 (3.1) con p 1 variables 1 p+1 y la T 2 de Hotelling es : Rechazaremos la hipótesis nula si el valor F resulta signi…cativo. W son iguales. . Efron y C.74 Bajo la hipótesis nula. En este caso 0 1 1 1 0 0 1 0 A C=@ 0 1 0 0 1 1 b T 2 = n(Cx)0 (CSC0 ) 1 Cx = 20. 3. y propuso una mejora de aquel estimador. Aplicando (3. 25) = [25=(27 3)]T 2 = 6. Queremos estudiar si las medias poblacionales de N. b siendo S la matriz de covarianzas con corrección de sesgo. justi…cando por qué p 3 (consultar Cuadras.99: Hay diferencias signi…cativas a lo largo de las cuatro direcciones cardinales. S.54 CAPÍTULO 3.1. en el sentido de que no minimiza p X i=1 (bi 2 i) . 23): Convertida en una F se obtiene F (3. 1991).11. n 1). S. B. Complementos C. Morris explicaron esa peculiaridad desde una perspectiva bayesiana. ) puede ser inadmisible si p 3. E.40: El valor crítico al nivel 0. Stigler dió una interesante explicación en términos de regresión. Stein probó que la estimación b = x de de la distribución Np ( .05 es 2.8. INFERENCIA MULTIVARIANTE el test de la T 2 de Hotelling a la matriz de datos Y = XC: Bajo la hipótesis nula b T 2 = (n 1)(Cx)0 (CSC0 ) 1 (Cx) = n(Cx)0 (CSC0 ) 1 (Cx) n p+1 b (Cx)0 (CSC0 ) 1 (Cx) p 1 p Fn T 2 (p 1. M. Consideremos los datos del ejemplo 1.

Rao y A. Por ejemplo. En general. es necesario hacer la modi…cación de G. Wilks y es más general. es necesario corregir los tests multiplicando por una constante a …n de conseguir tests insesgados (la potencia del test será siempre más grande que el nivel de signi…cación). El test de máxima-verosimilitud es atribuido a S. P. Box sobre el test de Bartlett para comparar matrices de covarianzas (Sección 7.5. Roy. COMPLEMENTOS 55 El principio es debido a S. y a continuación aplicando el modelo de regresión multivariante. Wald. Véase Cuadras y Fortiana (2004). pero no siempre es aplicable. R.2).3. Es interesante notar que 2 log se puede interpretar como una distancia de Mahalanobis. N. Para datos de tipo mixto o no normales. E. se puede plantear la comparación de dos poblaciones utilizando distancias entre las observaciones. calculando coordenadas principales mediante MDS. Otros tests semejantes fueron propuestos por C. Cuadras (2008). . Rao (1973).8. Consultar Cuadras y Fortiana (1993b).

56 CAPÍTULO 3. INFERENCIA MULTIVARIANTE .

La correlación múltiple si Y es una v. Xp ) e Y = (Y1 . Y son dos v. que son generalizaciones de las correlaciones simple y múltiple. : : : . Correlación múltiple Queremos relacionar una variable respuesta Y con p variables cuantitativas explicativas X1 . : : : . El modelo de regresión múltiple consiste en encontrar la combinación lineal b Y = 1 X1 + 57 + p Xp .Capítulo 4 ANALISIS DE CORRELACION CANONICA 4. La correlación canónica si X = (X1 .a. Introducimos y estudiamos las correlaciones canónicas.1. Yq ) son dos vectores aleatorios. Tenemos tres posibilidades para relacionar dos variables: La correlación simple si X. Introducción En este capítulo estudiamos la relación multivariante entre vectores aleatorios. Xp . 4. : : : . que suponemos centradas. y X = (X1 .a. : : : . Xp ) es un vector aleatorio.2.

Xj ). la corb relación simple entre Y y la mejor predicción Y = X b : Se indica por Se veri…ca: 1. por de…nición.1) Derivando vectorialmente respecto de e igualando a 0 2 = 0: b 2E(Y Y ) 2 0 b La variable predicción es Y = X b = b1 X1 + b e Y =Y +Y. bp ) que minimizan la cantidad b E(Y Y )2 veri…can la ecuación Demost. R = 0 si Y está incorrelacionada con cada una de las variables Xi : b e Teorema 4.2.2 La variable predicción Y . 0 R 1: b R = cor(Y. Xp es. ANALISIS DE CORRELACION CANONICA que mejor se ajuste a la variable Y: Sea la matriz de covarianzas de X y = ( 1 . : : : .: b ( ) = E(Y Y )2 b = E(Y )2 + E(Y )2 = var(Y ) + 0 @ @ ( )=2 b= 1 : (4. . : : : .1 Los coe…cientes b = (b1 . : : : . residual Y y la correlación múltiple R cumplen: b e 1. Teorema 4. R = 1 si Y es combinación lineal de X1 . Xp : 3. p: El criterio de ajuste es el de los mínimos cuadrados. La correlación múltiple entre Y y X1 .58 CAPÍTULO 4. Y e Y son variables incorrelacionadas. p )0 el vector columna con las covarianzas j = cov(Y. Y ): 2. + bp Xp : Si ponemos e entonces Y es la variable residual. : : : . : : : .2. j = 1.

3.2) Sean X = (X1 . Xp ). : : : . 59 2) es consecuencia inmediata de 1). b = (b1 . CORRELACIÓN CANÓNICA b e 2. Correlación canónica b b cov2 (Y. Y = (Y1 . : : : . Y ) var(Y ) = : b var(Y ) var(Y )var(Y ) p b i=1 i i 0 0 b = b = b b = var(Y ). Y. V ) sea máxima. y sea S12 la matriz p q con las covarianzas de las variables X con las variables Y: Es decir: X Y donde S21 = S012 : Podemos suponer var(U ) = a0 S11 a =1. R2 =var(Y )=var(Y ): b = : En efecto. : : : . : : : . var(Y ) =var(Y )+var(Y ): Demost.3. Indicamos por S11 . de b cov(Y. var(V ) = b0 S22 b =1: X S11 S21 Y S12 S22 . Y ) = E(Y Y ) = E( b X0 (Y 0 b 0 b = 0: =b b 0 X)) = obtenemos R2 = 4. bp )0 tales que la correlación entre ambas cor(U. p b i=1 i Xi ) 0 b e be cov(Y . Yq ) dos vectores aleatorios de dimensiones p y q: Planteemos el problema de encontrar dos variables compuestas U = Xa = a1 X1 + + ap Xp . Y ) = cov(Y. siendo a = (a1 . (4. S22 las matrices de covarianzas (muestrales) de las variables X.: 1) es consecuencia de b 3. respectivamente. ap )0 .4. V = Yb = b1 Y1 + + b p Yq . Finalmente.

y operando análogamente con la otra ecuación. son multiplicadores de Lagrange. S21 a S22 b = 0: (4.1 Los primeros vectores canónicos satisfacen las ecuaciones S12 S221 S21 a = S11 a. obtenemos (4. 1 y substituyendo en la primera obtenemos S12 S221 S21 a S11 a = 0: Pre1 scindiendo de . Entonces de @ =@a =@ =@b = 0 obtenemos las dos ecuaciones S12 b S11 a = 0. Teorema 4. b = 1 S221 S21 a. pues es un factor multiplicativo arbitrario.60 CAPÍTULO 4.3. p 1. La máxima correlación entre U. V es la primera correlación canónica r1 . están relacionados por a = b = 1=2 S111 S12 b.3).2 Los vectores canónicos normalizados por a0 S11 a = b0 S22 b = 1. S21 S111 S12 b = S22 b: Demost. 1=2 S221 S21 a.4). b0 S21 a = b0 S22 b. b que cumplen esta condición son los primeros vectores canónicos. ANALISIS DE CORRELACION CANONICA Así el problema se reduce a: maximizar a0 S12 b restringido a a0 S11 a = b0 S22 b =1: Los vectores de coe…cientes a. tenemos a0 S12 b = a0 S11 a. b) = a0 S12 b 2 (a0 S11 a 1) 2 (b0 S22 b 1). Teorema 4.3. y la primera correlación canónica es r1 = propio de S111 S12 S221 S21 : donde 1 es el primer valor .3) donde .4) Multiplicando la primera por a0 y la segunda por b0 .: Consideremos la función (a. que implican = : Así pues. de la segunda ecuación en (4. (4.

bm . . donde es una constante a determinar. qg parejas de vectores canónicos a1 . . r1 = cor(U1 . V1 ) es la máxima correlación entre una combinación lineal de X y una combinación lineal de Y: 3. Vm están incorrelacionadas. .3) para ak . : : : . . am . 0 j ai S11 aj : . .3. cor(Ui . . V1 ).3 Supongamos r1 > r2 > > rm : Entonces: 1. V2 ) es la máxima correlación entre las combinaciones lineales de X incorrelacionadas con U1 y las combinaciones lineales de Y incorrelacionadas con V1 : 4. V2 = Yb2 .4) que a = S111 S12 b. La segunda correlación canónica r2 = cor(U2 . r2 = cor(U2 . por a0j y por a0i tenemos que a0j S12 S221 S21 ai = a0i S12 S221 S21 aj = k.: Sea i 6= j: Expresando (4. : : : . Concretamente hay m = m nfp. V2 ). . CORRELACIÓN CANÓNICA 61 Demost. Um como las variables canónicas V1 . b1 . : : : .4. Vm ): Teorema 4. Tanto las variables canónicas U1 . las ecuaciones en valores y vectores propios tienen otras soluciones. Um = Xam . Partimos de que a0 S11 a =1 y para = 1=2 resulta que: a0 S11 a = = = = =1 a S11 S111 S12 b 1=2 0 a S12 b 1=2 1=2 0 a S12 S221 S21 a 1 a0 S11 a 1=2 0 2 La correlación es r1 = a0 S12 b y como 1 = 1=2 a0 S12 b deducimos que r1 = 1 : De hecho.3. rm = cor(Um . 2. U2 = Xa2 . k = i. . que proporcionan las variables y correlaciones canónicas U1 = Xa1 . y multiplicando 0 i aj S11 ai . V1 = Yb1 . . j. Vj ) = 0 si i 6= j: Demost.: Tenemos de (4. Vm = Ybm . La primera correlación canónica r1 = cor(U1 . .

4. y es una matriz diagonal con los valores singulares de Q.62 CAPÍTULO 4. y multiplicando por b0j S21 y por a0i S12 llegamos a b0j S21 S111 S12 S221 S21 ai = a0i S12 S221 S21 S111 S12 bj = Restando: ( i 0 j )ai S12 bj 0 i bj S21 ai . Correlación canónica y descomposición singular Podemos formular una expresión conjunta para los vectores canónicos utilizando la descomposición singular de una matriz. expresando (4.: QQ0 = S11 S12 S22 S22 S21 S11 y por lo tanto S11 S12 S221 S21 S11 ui = Multiplicando por S11 1=2 1=2 1=2 2 i (S11 ui ) 1=2 1=2 2 i ui 1=2 1=2 1=2 1=2 1=2 1=2 1=2 1=2 bi = S22 vi . ANALISIS DE CORRELACION CANONICA 0 0 Restando: ( i j )ai S11 aj = 0 ) ai S11 aj = 0 ) cor(Ui . consideremos la matriz p q Q = S11 S12 S22 y hallemos Q = U V0 .1 Los vectores canónicos y correlaciones canónicas son ai = S11 ui .4. la descomposición singular de Q. : : : . Vj ) = 0: 4. S221 S21 S111 S12 bj = j bj . Uj ) = 0: Por otra parte. 0 j ai S12 bj : = 0 ) a0i S12 bj = 0 ) cor(Ui . Demost. Supongamos p q. p ): Teorema 4. Es decir. U0 U = Ip .3) como S111 S12 S221 S21 a = i ai . ri = =U i: 2 U0 S111 S12 S221 S21 (S11 ui ) = y comparando con resultados anteriores. queda probado el teorema. V0 V = V0 V = Iq . V es una matriz q q ortogonal. donde U es una matriz p q con columnas ortonormales. =diag( 1 . .

: : : . qg correlaciones canónicas obtenidas a partir de soluciones de: 2 j 12 221 21 11 j = 0: Si queremos decidir cuáles son signi…cativas.4. entonces Lk = [n 1 k 21 ) = k: El test de Bartlett-Lawley demuestra que k m X Y 1 2 (p + q + 1) + ri ] log[ (1 2 i=1 i=k+1 2 ri ) es asintóticamente ji-cuadrado con (m k)(p k) g. Test de independencia Suponiendo normalidad. SIGNIFICACIÓN DE LAS CORRELACIONES CANÓNICAS 63 4. las m = m nfp. a partir de muestras de tamaño n: Naturalmente. Signi…cación de las correlaciones canónicas Hemos encontrado las variables y correlaciones canónicas a partir de las matrices de covarianzas y correlaciones muestrales. 22 : Sean 1 2 m 11 .l. es decir. a…rmar que X es independiente de Y consiste en plantear H0 : 12 = 0. 12 . m).5. (k = 0. S22 por las versiones poblacionales 11 . S12 . 22 . .5. : : : . Este test se aplica secuencialmente: si Li es signi…cativo para i = 0. entonces se acepta H0 : 4. H1 : 12 6= 0: Podemos resolver este test de hipótesis de dos maneras. indiquemos 0 = 1 y planteemos el tests k H0 : k > k+1 = = m = 0. 12 . que equivale a rang( 221 k si H0 es cierta. todo lo que hemos dicho vale si sustituimos S11 . 1. k 1. 1. pero Lk no es k signi…cativo. supongamos normalidad multivariante.6.

1998). . pero también se puede aplicar el estadístico L0 de Bartlett-Lawley. q): Rechazaremos H0 si es pequeña y signi…cativa (Mardia et al.V es decir.64 CAPÍTULO 4. V: La correlación muestral es r(U. Razón de verosimilitud Si la hipótesis es cierta. 1976). y aceptaremos H1 si r(U. aceptaremos H0 si r(U. V ) U. V ) es signi…cativa para algún par U.V = b1 Y1 + + b p Yq : Consideremos las variables U = a1 X1 + La correlación entre U. V ) = p a012 12 b p a 11 a b0 22 b H0 equivale a (U. n 1 p.6.6.1. Principio de unión intersección + ap Xp . V es (U. el test es: H0 : 1 = 0. 1979. V ) = 0 para todo U. H1 : 1 > 0: Existen tablas especiales para decidir si r1 es signi…cativa (Morrison.5. V ) = p a0 S12 b p : a0 S11 a b0 S22 b Aplicando el principio de unión intersección (Sección 3. q). n 1 q.2). ANALISIS DE CORRELACION CANONICA 4. Por tanto.5. Rencher.1) se reduce al estadístico = jSj jRj = . V.2. equivalente a (q. de la primera correlación canónica. V ) no es signi…cativa para todo U. entonces el test de razón de verosimilitud (Sección 3. V: Este criterio nos lleva a estudiar la signi…cación de r1 = max r(U. jS11 jjS22 j jR11 jjR22 j que sigue la distribución lambda de Wilks (p. Es fácil probar que es función de las correlaciones canónicas = jI S221 S21 S111 S12 j m Y = (1 i=1 2 ri ): 4.

0000 0.1400.4.8392 0.0000 B 0.7108 0.0539): La dependencia entre (X1 . b1 = (0.7.7. R12 = : Las raíces de la ecuación: jR12 R221 R21 son: 1 R11 j = 0.1400X1 0.8086 C C 0.7040 0.0707)0 . 0. Y2 = ancho cabeza segundo hijo.7108 0. Ejemplos Se consideran n = 25 familias y las variables: X1 = long.7108 0. a2 = (0.0000 0.7346 1.6218.7885).0566.2619Y2 .0707X2 .0000 . = 0.1760.0566X1 + 0. La matriz de correlaciones es: 0 1. U2 = 0. (r1 = 0. 0.000830 = 0 = 0.7346 0. Y2 ) viene dada principalmente por la relación entre (U1 .6932 0.7885. Y1 = long. b2 = (0.7346 1. X2 = ancho cabeza primer hijo. 0. V1 = 0. cabeza segundo hijo. V1 ) con correlación 0.0539: Los vectores canónicos normalizados son: a1 = (0. V2 = 0. r2 = 0.8392 A 1. más alta que cualquier correlación entre una variable Xi y una variable Yj : Podemos interpretar las .0802Y2 .6932 1.7040 0.0502Y1 + 0.7885.8392 1.0000 1.0029.0000 0.8392 1.1870)0 .287596 + 0. X2 ) y (Y1 . 0. 0.0000 0.2619)0 : Las variables canónicas con variaza 1 son: U1 = 0.6932 0. EJEMPLOS 65 4. y por tanto las correlaciones canónicas son: r1 = 0.0000 0.7346 R =B @ 0.1760Y1 0.1870X2 .8086 0. cabeza primer hijo.7040 Entonces: R11 = R22 = 1 0.8086 .460363 2 2 0. (r2 = 0.0802)0 .0502.

Y1 = log(cociente Juan/Joan).7101 . 2 = 0.60 con 4 y 42 g.5478 .l.8377. Valores positivos de las variables Y1 .l.7448 . Y2 = log(cociente Juana/Joana).7528 1 Y2 . 22. La prueba de signi…cación de las correlaciones canónicas dá: 0 H0 : 1 H0 : 0 1 =1> 1= > 2 = 0. r2 = 0.8520 1 X3 . donde “cociente Juan/Joan” signi…ca el resultado de dividir el número de hombres que se llaman Juan por el número de hombres que se llaman Joan. L0 = 22. transformamos con una F obteniendo 6.).6536 .).66 CAPÍTULO 4. ANALISIS DE CORRELACION CANONICA primeras variables canónicas como un factor de “tamaño”de la cabeza y las segundas como un factor de “forma” Habría entonces una notable relación . Rechazamos la hipótesis de independencia. L1 = 1.6265 1 Y1 .1 (4 g. 0 1 Podemos rechazar H0 y aceptar H0 : Solamente la primera correlación canónica es signi…cativa.4125: . X4 = log(porcentaje de votos a ERC).8027 1 Sólo hay 2 correlaciones canónicas: r1 = 0. 2) que.5127 1 X4 . según (2.l. en el tamaño y una escasa relación en la forma de la cabeza.22 (2 g.5907 .6393 . X2 ) y (Y1 . X2 = log(porcentaje de votos a PSC).7555 .3771 jR11 jjR22 j (2. La matriz de correlaciones es: X1 X2 X3 X4 Y1 Y2 X1 1 X2 .5146 .5912 .8). El test de independencia entre (X1 . Se consideran los resultados de unas elecciones celebradas en las 41 comarcas catalanas y para cada comarca se tabulan los valores de las siguientes variables: X1 = log(porcentaje de votos a CU). X3 = log(porcentaje de votos a PP). Y2 en una comarca indican predominio de los nombres en castellano sobre los nombres en catalán.6404 . Y2 ) da = jRj = 0.

372PSC 0. que son partidos más nacionalistas. tiene interés en estadística el concepto de máxima correlación (propuesto por H. Complementos El análisis de correlación canónica (ACC) fué introducido por H. tienden a votar más a CU y ERC.372X2 0. pero de gran interés teórico puesto que diversos métodos de AM se derivan del ACC. (r2 = 0.339Y2 . que son partidos más centralistas. 67 Las primeras variables canónicas U1 .127X3 + 1.4031.4. V1 . (Y )). Y . COMPLEMENTOS Las variables canónicas son: U1 = V1 = U2 = V2 = +0. La distribución de las correlaciones canónicas es bastante complicada.8377). que con un análisis de todas las correlaciones sería difícil de interpretar. más castellanizadas.706Y1 + 0. Si f (x. .555ERC. a …n de estudiar el número y la naturaleza de las relaciones entre mente y cuerpo.a. X. 1982). En ecología se ha aplicado como un modelo para estudiar la relación entre presencia de especies y variables ambientales (Gittings.546X4 . Solamente se conocen resultados asintóticos (Muirhead. 4. Las regiones que votan más al PSC y al PP.083CU 0. +1.1130X3 + 0. en el sentido de que los nombres castellanos Juan y Juana no predominan tanto sobre los catalanes Joan y Joanna.1130PP + 0. Es un método de aplicación limitada.083X1 0. Hotelling en 1935. están en general. y) es la densidad de dos v.4125): +1.546X2 + 1. nos indican que las regione más catalanas. Cuadras y Sánchez (1975). 1985).928X1 + 2. que buscaba la relación entre tests mentales y medidas biométricas. Aplicaciones a la psicología se pueden encontrar en Cooley y Lohnes (1971).706(Juan/Joan) + 0. Las segundas variables canónicas tienen una interpretación más di…cil.8. .642Y2 . que podemos escribir convencionalmente como U1 = +0. V1 = +0. +0.555X4 . Gabelein) que se de…ne como 1 = sup cor( (X).339(Juana/Joanna). (r1 = 0.521Y1 1.8.

68 CAPÍTULO 4. Y son variables independientes. ANALISIS DE CORRELACION CANONICA donde (X). Entonces 1 = 0 si X. 1 (X). Sin embargo el cálculo de 1 puede ser complicado (Cuadras. 2002a). Finalmente cabe destacar que las correlaciones canónicas pueden constituir un conjunto contínuo (Cuadras. y) se puede desarrollar en serie a partir de las correlaciones y funciones canónicas. como una forma de predecir una variable en función de la otra (Hastie y Tibshirani. (Y ) son funciones con varianza …nita. Podemos ver a 1 como la primera correlación canónica. 2005). 1 (Y ) como las primeras variables canónicas y de…nir las sucesivas correlaciones canónicas. Lancaster (1969) estudia estas correlaciones y demuestra que f (x. . 1990). Diversos autores han estudiado la estimación de las primeras funciones canónicas.

1 Las componentes principales son las variables compuestas Y1 = Xt1 . Entre todas las variables compuestas Y tales que cov(Y1 .1. la variable Y2 es tal que var(Y2 ) es máxima condicionado a t02 t2 = 1: 3. Análogamente de…nimos las demás componentes principales. Las componentes principales son unas variables compuestas incorrelacionadas tales que unas pocas explican la mayor parte de la variabilidad de X: De…nición 5. 69 .1. Yp = Xtp tales que: 1. Y2 con varianza máxima. Xp ] una matriz de datos multivariantes.Capítulo 5 ANALISIS DE COMPONENTES PRINCIPALES 5. : : : . Y ) = 0. var(Y1 ) es máxima condicionado a t01 t1 = 1: 2. Lo que sigue también vale si X es un vector formado por p variables observables. : : : . Y2 = Xt2 . De…nición y obtención de las componentes principales Sea X =[X1 . Y3 es una variable incorrelacionada con Y1 .

son incorrelacionadas: cov(Yi . Yi ) = t0j Sti = t0j j ti = )( j Además: 0 i )ti tj 0 j ti tj . ANALISIS DE COMPONENTES PRINCIPALES Si T = [t1 . p: i = 1. t2 . Teorema 5. son las componentes principales. : : : . p.70 CAPÍTULO 5. es decir. i ti . 0 i tj ti . p: Demost. var(Yi ) = i t0i tj = i : Pp Pp Sea i=1 ai Xi = i=1 i Yi una variable compuesta tal que Pp ahora Y = 2 i=1 i = 1: Entonces p X var(Y ) = var( i=1 i Yi ) = p X i=1 2 i var(Yi ) = p X i=1 2 i i p X ( i=1 2 i) 1 = var(Y1 ). 2.1) se llama transformación por componentes principales. Yj ) = 0. : : : . . : : : . 0 j ti tj = 0. Las componentes principales son variables incorrelacionadas: cov(Yi . t0i ti = 1. Las variables compuestas Yi = Xti . p: 3. : : : . : : : .1 Sean t1 . i = 1. : : : . entonces la transformación lineal X!Y Y = XT (5. i 6= j = 1. i = 1. t2 .: Supongamos 1 > > p > 0: Probemos que las variables Yi = Xti .1. i = 1. si i 6= j. Yj ) = = 0. tp ] es la matriz p p cuyas columnas son los vectores que de…nen las componentes principales. Las varianzas son los valores propios de S var(Yi ) = i. tp los p vectores propios normalizados de la matriz de covarianzas S. Yj ) = t0i Stj = t0i j tj = cov(Yj . ) t0i tj = 0. Sti = Entonces: 1. ) cov(Yi . : : : . p.

Si p 3. la demostración de que Y3 . Yq contribuyen con la cantidad q i=1 i a la variación total tr(S): 3. Y1 . si m = 2 < p. Yp son también componentes principales es análoga. Variabilidad explicada por las componentes principales i La varianza de la componente principal Yi es var(Yi ) = P total es tr(S) = p i=1 i : Por lo tanto: 1. Xp por las componentes principales Y1 . X2 . Entonces podremos sustituir X1 . Si q < p. tales componentes tienen interpretación experimental. las dos primeras componentes explican una gran parte de la variabilidad de las variables. y por lo tanto Y2 está incorrelacionada con Y1 y tiene varianza máxima. : : : . Por ejemplo. 5.2) Pm = 100 + p 1+ En las aplicaciones cabe esperar que las primeras componentes expliquen un elevado porcentaje de la variabilidad total. : : : . y P2 = 90 %. Y2 : En muchas aplicaciones. El porcentaje de variabilidad explicada por las m primeras componentes principales es + m 1+ : (5. : : : .2.2.5. Consideremos ahora las variables Y incorrelacionadas con Y1 : Las podemos expresar como: Y = Entonces: p X var(Y ) = var( i=2 i Yi ) p X i=1 bi Xi = p X i=2 i Yi condicionado a p X i=2 2 i = 1: = p X i=2 2 i var(Yi ) = p X i=2 2 i i p X ( i=2 2 i) 2 = var(Y2 ). . Yi contribuye con la cantidad i y la variación a la variación total tr(S): P 2. VARIABILIDAD EXPLICADA POR LAS COMPONENTES PRINCIPALES71 que prueba que Y1 tiene varianza máxima.

De…nición 5. x0n de X: Necesitamos introducir una distancia (ver Sección 1. 2 ij (q) q = (yi yj ) (yi 0 yj ) = q X h=1 (yih yjh )2 es la distancia euclídea entre dos …las de Y: La variabilidad geométrica en dimensión q p es n 1 X 2 V (Y)q = 2 (q): 2n i. donde T es una matriz p de constantes. en un espacio de dimensión reducida m (por ejemplo.3.1 La distancia euclídea (al cuadrado) entre dos …las de X xi = (xi1 .j=1 2 ij : Si Y = XT es una transformación lineal de X.j=1 ij . esta representación no se puede visualizar. : : : . x02 . De…nición 5. Queremos representar.2 La variabilidad geométrica de la matriz de distancias es la media de sus elementos al cuadrado n 1 X V (X) = 2 2n i. : : : . las …las x01 . : : : . Necesitamos reducir la dimensión. Podemos representar las n …las de X como n puntos en el espacio Rp distanciados de acuerdo con la métrica ij : Pero si p es grande. ANALISIS DE COMPONENTES PRINCIPALES 5. : : : . xjp ). Xp ] una matriz n p de datos multivariantes. p X h=1 = (xi xj ) (xi 0 xj ) = (xih xjh )2 : La matriz =( ij ) es la matriz n n de distancias entre las …las.3. Representación de una matriz de datos Sea X =[X1 . xip ). es 2 ij xj = (xj1 . m = 2).9).72 CAPÍTULO 5.3.

donde T es cualquiera. la variabilidad geométrica de Y = XT. es p p X X V (Y)q = s2 (Yj ) = t0j Stj .j=1 (xi xj )2 = = Pn (x x (xj x))2 Pi.: Aplicando (5. entonces n 1 X (xi 2n2 i.3.j=1 xj )2 = s2 : (5.j=1 i P n 1 x)2 + n2 n (xj i. : : : . : : : .3) a cada columna de X y sumando obtenemos V (X) = p X j=1 sjj = tr(S): Una buena representación en dimensión reducida q (por ejemplo. a …n de que los puntos estén lo más separados posible. REPRESENTACIÓN DE UNA MATRIZ DE DATOS 73 Teorema 5.2 La transformación lineal T que maximiza la variabilidad geométrica en dimensión q es la transformación por componentes principales (5. T = [t1 . q = 2) será aquella que tenga máxima variabilidad geométrica .3.j=1 P 2 + n2 n (xi x)(xj x))2 i.j=1 1 1 = n ns2 + n ns2 + 0 = 2s2 : 1 n2 1 n2 x)2 Aplicando (5.1).j=1 (xi i. es decir. si x es la media 1 n2 Pn i.3).3.1 La variabilidad geométrica de la distancia euclídea es la traza de la matriz de covarianzas V (X) =tr(S) = p X h=1 h: Demost. xn es una muestra univariante con varianza s2 . tq ] contiene los q primeros vectores propios normalizados de S: Demost. j=1 j=1 .5. Teorema 5.: Si x1 .3) En efecto.

C . x y S son estocásticamente independientes. C B . : : : . obtenemos una representación óptima en dimensión 2 de las …las de X: Supongamos ahora q = 2: Si aplicamos la transformación (5. la matriz de datos X se reduce a 0 1 y11 y12 . en realidad.74 CAPÍTULO 5. . yn1 yn2 5. B . Inferencia Hemos planteado el ACP sobre la matriz S. U =nS es Wishart Wp ( . ANALISIS DE COMPONENTES PRINCIPALES siendo s2 (Yj ) = t0j Stj la varianza de la variable compuesta Yj : Alcanzamos la máxima varianza cuando Yj es una componente principal: s2 (Yj ) j : Así: max V (Y)q = p X j=1 j: El porcentaje de variabilidad geométrica explicada por Y es Pq = 100 V (Y)q = 100 V (X)p + 1+ 1 + + q p : Entonces.4. . A @ . x es Np ( . . n 1): 3. representando los puntos de coordenadas (yi1 . =n): 2. i = 1. ): Recordemos que: 1. C . yi2 ).1). . pero lo podemos también plantear sobre la matriz de covarianzas poblacionales : Las componentes principales obtenidas sobre S son. estimaciones de las componentes principales sobre : Sea X matriz de datos n p donde las …las son independientes con distribución Np ( . . B C Y = B yi1 yi2 C : B . n. .

gp ]. Si los valores propios son diferentes.1 Se veri…ca: 1. = [ 1. sea S = GLG0 la diagonalización de S: Indiquemos: G = [g1 .2 Los vectores propios [g1 . lp ] veri…can asintóticamente: .4. : : : . l = [l1 .4. La demostración de 2) se encuentra en Anderson (1959). lp ) los vectores propios y valores propios de S: A partir de ahora supondremos 1 p: 5. : : : . : : : . los vectores propios y valores propios de : Por otra parte. Teorema 5. gp ] y valores propios l = [l1 . p: 2.: Los valores y vectores propios están biunívocamente relacionados con y por lo tanto 1) es consecuencia de la propiedad de invariancia de la estimación máximo verosímil. : : : . Cuando k > 1 valores propios son iguales a 1 > p k p k+1 = = p = . lp ]. los valores y vectores propios obtenidos a partir de S son estimadores máximo-verosímiles de los obtenidos a partir de bi = li . Estimación y distribución asintótica Teorema 5.1. L = diag(l1 . : : : . : : : . p ).5. : : : . la diagonalización de p ]. el estimador máximo verosímil de valores propios de S b = (lp k+1 es la media de los correspondientes + + lp )=k Demost. : : : . 1. = diag( 1 . > b i = gi = .4. INFERENCIA Sea = =[ 0 75 : Indiquemos p ].4. i = 1. : : : .

2. ): El test es: H0 : = 0 ( desconocida) Si L es la verosimilitud de la muestra.4.: Anderson (1959). Mardia. Kent y Bibby (1979). obtenemos el intervalo de i con…anza asintótico con coe…ciente de con…anza 1 li (1 + az )1=2 < i i X j6=i i ( i 2 j) i 0 i < =2 (1 li az 1=2 =2 ) siendo a2 = 2=(n 1) y P (jZj > z =2 ) = =2. Vi =n) donde Vi = 3. 2 2 =n). 2=(n 1)) li e az =2 < i < li e+az =2 : 5. i cov(li . gi es Np ( i . Supongamos que queremos decidir si la matriz es igual a una matriz determinada 0 : Sea X un matriz n p con …las independientes Np ( . donde Z es N (0. li . 2 li 2 =n): En particular: es N ( i . 1): Se obtiene otro intervalo de con…anza como consecuencia de que log li es N (log i .2. l es independiente de G: Demost. i 6= j. ANALISIS DE COMPONENTES PRINCIPALES 1. Como consecuencia de que li es N ( i .76 CAPÍTULO 5. Tests de hipótesis Determinados tests de hipótesis relativos a las componentes principales son casos particulares de un test sobre la estructura de la matriz : A. lj ) = 0. l es Np ( . 2 2 =n). lj son normales e independientes. es decir. el máximo de log L bajo Ho es log L0 = El máximo no restringido es log L = n log j2 Sj 2 n p: 2 n log j2 2 0j n tr( 2 1 0 S): .

Si la hipótesis nula a…rma que las p variables son estocásticamente independientes. 1. lk . (5. a0 ). Este es un test importante en ACP. C. obtenemos 2 2 log R = n log jRj q siendo q = p(p + 1)=2 p = p(p 1)=2: Si el estadístico n log jRj no es signi…cativo.4. tra(R) =p. spp ) y Sd 1 S = R es la matriz de correlaciones. INFERENCIA El estadístico basado en la razón de verosimilitud 2 log R R 77 es np: (5. . : : : .5. Lp son los valores propios de y geométrica a = (L1 + entonces. Test de independencia completa. : : : . . De (5. : : : . g son las medias aritmética Lp )1=p . : : : . el test se formula como H0 : = d = diag( 11 .1). Bajo H0 la estimación de d es Sd =diag(s11 . independientes. + lp )=(p S0 1 S S0 (l1 .4. pp ) ( desconocida). lk . asintóticamente 2 log R S y a. (5. lk+1 =a0 .5) + Lp )=p. La hipótesis nula es H0 : 1 > > p k = p k+1 = = p = : si H0 es cierta) Indicamos los valores propios de S y de S0 (estimación de S (l1 . donde a0 = (lk+1 + k) (Teorema 5. lp ). . : : : . Entonces (1. g = (L1 = np(a log g 1) 2 q. lp =a0 ). a0 .6) siendo q = p(p + 1)=2 par( 0 ) el número de parámetros libres de menos el número de parámetros libres de 0 : B. : : : . entonces podemos aceptar que las variables son incorrelacionadas y por lo tanto.4) y de log j2 Sd j log j2 Sj = log jRj.4) = 2(log L log L0 ) = ntra( 0 1 S) n log j 1 0 1 0 Sj Si L1 . lk+1 . Test de igualdad de valores propios. como hay normalidad multivariante. : : : .

. R n( i=k+1 p X (5.7) donde q = (p k)(p 5.1: Ejemplo de representación de los valores propios. : : : . entonces aumentar la dimensión apenas aporta más variabilidad explicada. por ejemplo el 80 %. Por otra parte. Pk . si la representación de P1 .78 CAPÍTULO 5. Criterio del porcentaje El número m de componentes principales se toma de modo que Pm sea próximo a un valor especi…cado por el usuario.1.5) son a = 1 y g = (lk+1 2 log = n(p k) log(lk+1 + k + 1)=2 + lp )=(p 1: lp )1=p a0 k) (k p)=p y aplicando (5. 5. las medias (5.5. Número de componentes principales En esta sección presentamos algunos criterios para determinar el número m < p de componentes principales.5.6) log li ) 2 q. ANALISIS DE COMPONENTES PRINCIPALES 60 50 40 30 20 10 0 0 1 2 3 4 5 lam k 6 Figura 5. P2 . que indicaría 3 componentes principales. : : : con respecto de k prácticamente se estabiliza a partir de un cierto m.

que es la variabilidad total.5. si p = 4.7) y se aplica secuencialmente: Si (0) (0) aceptamos H0 no hay direcciones principales. El test para decidir sobre H0 está basado en el estadístico ji-cuadrado (5. donde v =tra(S)=p es la media de las varianzas. pero si rechazamos H0 . Por lo tanto una componente principal con varianza inferior a 1 explica menos variabilidad que una variable observable. en(1) (1) tonces repetimos el test con H0 : Si aceptamos H0 entonces m = 1.2. (m) la distribución de los datos es esférica. tendríamos que m = 2 si rechazamos H0 . En efecto. llamado de Kaiser. ): Si la hipótesis H0 (m) : 1 > > m > m+1 = = p es cierta. Estudios de Montecarlo prueban que es más correcto el punto de corte = 0.4. es entonces: Retenemos las m primeras componentes tales que m 1. no tiene sentido considerar más de m componentes principales. Imaginemos un bastón de longitud Vt .7 v: 5.7. Criterio del bastón roto Los valores propios suman Vt =tr(S). Por ejem(0) (1) plo. m podría ser tal que m v. Por ejemplo.5. que es más pequeño que 1. pero si (1) (2) rechazamos H0 repetimos el test con H0 . que también son las varianzas de las componentes. También es aconsejable considerar el punto de corte 0. El criterio. Test de esfericidad Supongamos que la matriz de datos proviene de una población normal multivariante Np ( . Este criterio se puede extender a la matriz de covarianzas.5. . Criterio de Kaiser Obtener las componentes principales a partir de la matriz de correlaciones R equivale a suponer que las variables observables tengan varianza 1.5. no hay direcciones de máxima variabilidad a partir de m. Vt )) y que los trozos ordenados son los valores propios l1 > l2 > > lp : Si normalizamos a Vt = 100.3. que rompemos en p trozos al azar (asignando p 1 puntos uniformemente sobre el intervalo (0. y así sucesivamente. NÚMERO DE COMPONENTES PRINCIPALES 79 5. es decir.5. H0 y aceptamos (2) H0 : 1 > 2 > 3 = 4 : 5. donde 1 p son los valores propios de R.

0) mj j Mj .2. el biplot clásico se lleva a cabo mediante la descomposición singular X = U V0 .16 93. : : : .08 27.08 14. =diag( 1 .15. los valores son: Porcentaje E(L1 ) E(L2 ) E(L3 ) E(L4 ) Esperado 52. si p = 4.25 Acumulado 52. donde j es un parámetro que varía entre el mínimo valor mj y el máximo valor Mj de Xj: Entonces la representación de Xj es simplemente el eje xj ( )T: . donde U es una matriz p q con columnas ortonormales.92 pero V3 = 97. ANALISIS DE COMPONENTES PRINCIPALES entonces el valor esperado de lj es E(Lj ) = 100 1X 1 : p i=1 j + i p j Las m primeras componentes son signi…cativas si el porcentaje de varianza explicada supera claramente el valor de E(L1 ) + + E(Lm ): Por ejemplo.74 100 Si V2 = 93. : : : . Biplot Un biplot es una representación. en un mismo grà…co.80 CAPÍTULO 5.08 79. como en la Figura 5. : : : .6. p ): Entonces XV = U es la transformación en componentes principales.58 6. podemos entender una variable Xj como el conjunto de puntos de coordenadas xj ( j ) = (0. Podemos plantear el biplot de una manera alternativa. j . luego las coordenadas de las …las están contenidas en U : Las cordenadas de las columnas son entonces las …las de la matriz V: Ambos sistemas de coordenadas se pueden representar sobre el mismo grá…co. y es una matriz diagonal con los valores singulares de X. de las …las (individuos) y las columnas (variables) de una matriz de datos X(n p): Suponiendo X matriz centrada. U0 U = Ip . V es una matriz q q ortogonal. 5. Es decir. V0 V = V0 V = Iq . La transformación por componentes principales Y = XT permite representar las …las. entonces tomaremos sólo dos componentes. Para representar también las columnas.

5. 74. Matriz de covarianzas: 0 1 9.).99 9. con los siguientes resultados: 1.27 4.44 5.1: 2.0738 15.1 Sobre una muestra de n = 100 estudiantes mujeres de Bioestadística.52 3. Vectores y valores propios (columnas): t1 : 8328 : 5029 : 1362 . p tp ) donde t1 . EJEMPLOS 81 Siguiendo este procedimiento. acum.99 4.25.7.05 88 . : : : . tp son las …las de T: 5.0892 2.34 A 4.9755 2. la representación de las variables se identi…ca con el haz de segmentos ( 1 t1 . X4 = ancho caderas (cm.33 1.54 97.56 44.92 t3 : 1882 .47 93. x2 = 161.19 17. x3 = 36.7.79 26. X2 =talla (cm. Número de componentes: t2 : 5095 : 8552 . x4 = 30.52 4.49 Porc.79 S =B @ 5.44 C C 1.34 3.19 4. 58.53.73. prop. es fácil ver que mediante la transformación Y = XT. X3 =ancho hombros (cm. Ejemplos Ejemplo 5. : : : . se midieron las variables X1 = peso (kg).7.0 202 : 1114 .7 B 17.1867 Val.).15 t4 : 1063 : 1232 : 9826 .24 100 . Medias: x1 = 54.15 4.).

El corredor más rápido es el 5. el más lento es el 12. m = 1 y aceptamos m = 2: c.68: Los dos primeros valores propios son 58.1 contiene los tiempos parciales en minutos que 12 corredores tardan en recorrer 16 kilómetros. La interpretamos como una componente de tamaño. 333.7. Test del bastón roto: Puesto que P2 = 93.0738X4 : 6. el tipo pícnico en contraste con el tipo atlético. La Tabla 5. La segunda componente tiene coe…cientes positivos en la primera y cuarta variable y negativos en las otras dos.2). .8 5 0. Interpretación: la primera componente es la variable con máxima varianza y tiene todos sus coe…cientes positivos.05 88X3 + . que son mayores que 0. m 0 1 2 g. Las dimensiones de tamaño y forma están incorrelacionadas.7 v: Aceptamos m = 2: b. Componentes principales: Y1 = : 8328X1 + : 5029X2 + : 1362X3 + : 1867X4 .92 supera claramente el valor esperado 79. de la más pequeña a la más grande. aceptamos m = 2: 5.49 y 15.47.16 y que no ocurre lo mismo con P3 .l.3. La primera componente ordena las estudiantes según su tamaño.2 Mediante ACP podemos representar una matriz de datos en dimensión reducida (Teorema 5.9 9 123.39 2 2 Rechazamos m = 0. La interpretamos como una componente de forma. Y2 = : 5095X1 : 8552X2 . Criterio de Kaiser: la media de las varianzas es v =tr(S)=p = 19.82 CAPÍTULO 5. Test de esfericidad. ANALISIS DE COMPONENTES PRINCIPALES a. realizando los pasos que se ilustran con este ejemplo. y la segunda según la forma. Ejemplo 5.

7.500X2 + 0.6893 .9022 4.098 .494X4 Y2 = 0.22 96.265 1.1910 % 72.091 2.2357 12.5112 -.6905 -.765 1 .85 100 3.511X4 var(Y1 ) = 12.4953 .098 1 C C A .5000 .364 4.514X3 0.5176 .5275 .273 1 .9483 .527X1 + 0.2093 .5.5268 B B 4.26 4.265 1 2.1760 .5147 .15 acum 72. Componentes principales primera y segunda: Y1 = 0.517X2 0.4769 -.1: Tiempos parciales (en minutos) de 12 corredores.4538 -.453X1 + 0.2018 -.13 2. EJEMPLOS corredor km 4 km 8 km 12 km16 1 10 10 13 12 2 12 12 14 15 3 11 10 14 13 4 9 9 11 11 5 8 8 9 8 6 8 9 10 9 7 10 10 8 9 8 11 12 10 9 9 14 13 11 11 10 12 12 12 10 11 13 13 11 11 12 14 15 14 13 Tabla 5.083 3.4484 .477X3 + 0. 83 1.6621 . Vectores y valores propios de S : t1 t2 t3 t4 .35 98.26 var(Y2 ) = 4.4273 .917 C 1 .4494 C R=B S=B @ A @ 4.091 2.871 1. Matrices de covarianzas y correlaciones: 0 1 0 4.22 24.6624 .52 1.4943 -.

podemos interpretar Y1 como el tiempo que tardan en hacer el recorrido. siendo X la matriz de datos. X4 : Un corredor con valores altos en Y2 signi…ca que ha sido lento al principio y más rápido al …nal de la carrera. La segunda componente principal tiene coe…cientes positivos en X1 . b.2: Representación por análisis de componentes principales y mediante biplot de los tiempos parciales de 12 corredores. Y1 como la rapidez en efectuar la carrera. Para más ejemplos con datos reales. Podemos interpretar esta componente como la forma de correr. T la matriz con los vectores propios de S.2. son independientes. ANALISIS DE COMPONENTES PRINCIPALES Figura 5. La primera componente principal es casi proporcional a la suma de los tiempos parciales. consúltese Baillo y Grané (2008). La transformación por componentes principales es Y = XT. Por tanto. . La rapidez y la forma de correr. O incluso mejor. Interpretación: a. Un corredor con valores bajos en Y2 signi…ca que ha sido rápido al principio y más lento al …nal. 5. c. Figura 5. 4. La matriz Y contiene los valores de las componentes principales sobre los 12 individuos (coordenadas principales).84 CAPÍTULO 5. en el sentido de que la correlación es cero. X2 y coe…cientes negativos en X3 .

: : : como variables explicativas. Aplicando logaritmos. Mosimann sobre tamaño y forma de animales.8. log H. permite la representación en un mismo grá…co de las …las y columnas de una matriz de datos X (Figura 5. : : : .8. y la segunda permite estudiar su variabilidad en cuanto a la forma.5. Supongamos que se quieren relacionar las variables X1 . Galindo-Villardón (1986) y Cárdenas y Galindo-Villardón (2009). E. Se pueden de…nir las componentes principales de un proceso estocástico y de una variable aleatoria. p tales que 1 X1 + + p Xp = 0: Se puede plantear el problema como var( 1 X1 + + p Xp ) =mínima. El ACP puede servir para estudiar la capacidad de un cráneo o de una caparazón. log A. y realizar regresión de Y sobre Y1 . 1993).2). Pearson en 1901 y desarrollado por H. Y2 . Cuadras y Fortiana (1995). y por tanto . Y2 . : : : . Cuadras y Lahlou (2000) han estudiado las componentes principales de las variables uniforme. aunque las últimas componentes principales también pueden in‡ (Cuadras. donde . condicionado a 2 + + 2 = 1: Es 1 p fácil ver que la solución es la última componente principal Yp . Krzanowski y B. La regresión ortogonal es una variante uir interesante. ancho A. El biplot. Hotelling en 1933. pero W. exponencial y logística. considerando las primeras componentes principales Y1 . Supongamos que la caparazón de una tortuga tiene longitud L. La primera componente permite ordenar los animales de más pequeños a más grandes. COMPLEMENTOS 85 5. . serían los coe…cientes de Y1 : Por medio del ACP es posible efectuar una regresión múltiple de Y sobre X1 . en términos de la primera. Xp . Xp (todas con media 0). técnica iniciada por Gabriel (1971). Una aplicación clásica es el estudio de P. obtenemos log C = log L + log A + log H = log(L A H ). Nótese que tamaño y forma son conceptos “independientes” . que podemos interpretar como la primera componente principal Y1 de las variables log L. . en el sentido de encontrar los coe…cientes 1 . Véase Gower y Hand (1996). Jolicoeur y J. y alto H: La capacidad sería C = L A H . : : : . segunda y siguientes componentes principales. Complementos El Análisis de Componentes Principales (ACP) fué iniciado por K. evitando así efectos de colinealidad. . El ACP tiene muchas aplicaciones. son parámetros. Flury han investigado las componentes principales comunes a varias poblaciones. : : : . Es un método referente a una población.

86 CAPÍTULO 5. ANALISIS DE COMPONENTES PRINCIPALES .

llamado factor “g” de Spearman. que el AF identi…ca como “factores” son: . La teoria clásica de la inteligencia suponía que los tests de inteligencia estaban relacionados por un factor general. también medida a partir de los tests. está dominada por dos dimensiones: el factor neuroticismo-estabilidad y el factor introversión-extroversión. Introducción El Análisis Factorial (AF) es un método multivariante que pretende expresar p variables observables como una combinación lineal de m variables hipotéticas o latentes. 3. pero el modelo que relaciona variables y factores es diferente en AF. Tiene una formulación parecida al Análisis de Componentes Principales. las componentes principales también existen. Ejemplos en los que la variabilidad de las variables observables se puede resumir mediante unas variables latentes. mientras que el modelo factorial podría ser aceptado o no mediante un test estadístico. Las diferentes características políticas de ciertos países están in‡ uidas por dos dimensiones: izquierda-derecha y centralismo-nacionalismo. La estructura de la personalidad.Capítulo 6 ANÁLISIS FACTORIAL 6. 1. Si la matriz de correlaciones existe. El AF obtiene e interpreta los factores comunes a partir de la matriz de 87 . denominadas factores. 2.1.

y cada Xi está además in‡ uida por un factor único Ui . F ) = ai . b) Los p + 1 factores están incorrelacionados. p: (6.88 CAPÍTULO 6. cantidad que recibe el nombre de comunalidad. Up . Xp variables observables sobre una misma población. Xj ) = ai aj . Por otra parte a2 . El modelo factorial es Xi = ai F + di Ui .1) De acuerdo con este modelo. ANÁLISIS FACTORIAL correlaciones entre las variables: 0 1 r12 B r21 1 R =B @ rp1 rp2 1 r1p r2p C C: A 1 6. i = 1. i 6= j: Por lo tanto la saturación ai es el coe…ciente de correlación entre Xi y el factor común. es la proporción de variabilidad que se explica por F y la i correlación entre Xi . y p factores únicos U1 . cada variable Xi depende del factor comúnF y de un factor único Ui : El modelo supone que: a) las variables y los factores están estandarizados (media 0 y varianza 1). i indicada por h2 . aj : Una caracterización del modelo unifactorial es rij rij 0 ai = = . : : : .2) . que aporta la parte de la variabilidad que no podemos explicar a partir del factor común. El modelo más simple de AF sólo contempla un factor común F. cor(Xi . : : : . uno para cada variable. El modelo unifactorial Consideremos X1 . De este modo F contiene la parte de la variabilidad común a todas las variables. ri0 j ri0 j 0 ai0 (6. a2 + d2 i i cor(Xi . El coe…ciente ai es la saturación de la variable Xi en el factor F: De (6.2. Xj sólo depende de las saturaciones ai . que recoge la covariabilidad de todas las variables. : : : .1) deducimos inmediatamente que = 1.

67 1.00 0.83 1.67 0. que no contenga elementos de la diagonal. D (discriminación de tonos) y Mu (música) obtenidas por los alumnos de una escuela. I (inglés).00 0. tanto estas relaciones. que necesariamente se deben cumplir para que sea válido el modelo unifactorial.67 0.51 0.66 0.67 0. Si consideramos la primera y la tercera …la.83 = = = = 1.51 De acuerdo con el modelo unifactorial. la siguiente matriz de correlaciones C F I M D Mu C 1.64 0.78 0.00 relaciona las cali…caciones en C (clásicas). Esto es equivalente a decir que el determinante de todo menor de orden dos de R. los cocientes entre elementos de la misma columna no diagonal de dos …las de la matriz de correlaciones R es constante. Es inmediato probar que R tiene rango 1.3) Estas son las llamadas relaciones tetrádicas.2 .83 0. Esta matriz veri…ca.66 0. La matriz de correlaciones reducida R se obtiene substituyendo la diagonal de unos por las comunalidades (véase (6.65 0.64 1. com las tetrádicas.40 Mu 0. aproximadamente.63 0. .57 I 0. es cero: rij rij 0 ri0 j ri0 j 0 = rij ri0 j 0 rij 0 ri0 j 0 = ai aj ai0 aj 0 ai aj 0 ai0 aj 0 = 0: (6.00 0.51 0. la primera comunalidad es r12 r14 r1p 1 r1p r12 r13 = = = : (6.00 0. 0.2).57 0.65 0. Por ejemplo. estas cali…caciones dependen esencialmente de un factor común.2.51 M 0.66 0. la estimación de la primera comunalidad podría consistir en tomar la media de los cocientes (6. F (francés).54 0.40 1.63 F 0.54 0. que todos los menores de orden dos se anulan y que las comunalidades se obtienen a partir de las correlaciones. EL MODELO UNIFACTORIAL 89 es decir. Así.7)). las relaciones (6.67 0. M (matemáticas).45 1.70 0.51 D 0.00 0.78 0.4) h2 = 1 r23 r24 rpp 1 En las aplicaciones reales.54 0.4). tenemos que: 0. Por ejemplo.63 0. sólo se veri…can aproximadamente.64 0.45 0.6.70 0.70 0.

podemos suponer que tienen media 0 y varianza 1. Fj ) = 0. Tanto los factores comunes como los factores únicos són variables reducidas. . Los factores comunes están incorrelacionados con los factores únicos cor(Fi . j = 1. de acuerdo con el modelo lineal: X1 = a11 F1 + X2 = a21 F1 + Xp = ap1 F1 + + a1m Fm +d1 U1 + a2m Fm +d2 U2 + apm Fm +dp Up : (6.5) Las hipótesis del modelo son: 1. : : : .1.5) se admite que las variables. Uj ) = 0. : : : . : : : . El modelo multifactorial El modelo El modelo del análisis factorial de m factores comunes considera que las p variables observables X1 . Fm . En el modelo factorial (6. p: 3.90 CAPÍTULO 6. sólo explicada por el correspondiente factor especí…co. m. Up . : : : . Los factores comunes y los factores únicos están incorrelacionados dos a dos cor(Fi .3. Uj ) = 0. Los factores comunes representan dimensiones independentes en el sentido lineal. : : : . salvo una parte de su variabilidad. ANÁLISIS FACTORIAL 6. cor(Ui . dependen de los factores comunes. m. p: 2. i 6= j = 1. en conjunto. 6. i 6= j = 1. y dado que tanto los factores comunes como los únicos son variables convencionales. : : : . i = 1. : : : . y p factores únicos U1 . Xp dependen de m variables latentes F1 . llamadas factores comunes.3.

dp ) es la matriz diagonal con las saturaciones entre variables y factores únicos. Xp )0 el vector columna de las variables.3. La matriz factorial Los coe…cientes aij son las saturaciones entre cada variable Xi y el factor Fj : La matriz p m que contiene estos coe…cientes es la matriz factorial 0 1 a11 a1m B a a2m C C: A = B 21 @ A ap1 apm Si indicamos por X = (X1 . im i De las condiciones del modelo del AF se veri…ca y por lo tanto a2 es la parte de la variabilidad de la variable Xi que es debida ij al factor común Fj . Las comunalidades var(Xi ) = a2 + i1 + a2 + d2 . EL MODELO MULTIFACTORIAL 91 6. La comunalidad es la parte de la variabilidad de las variables sólo explicada por los factores comunes. Up )0 .3. entonces tenemos que 1 = h2 + d2 : (6.6. : : : . Luego. (6. mientras que d2 es la parte de la variabilidad explicada i exclusivamente por el factor único Ui : La cantidad h2 = a2 + + a2 (6. i para cada variable tenemos que: variabilidad = comunalidad + unicidad.2. : : : . El AF tiene como principal objetivo encontrar e interpretar la matriz factorial A: 6.6) donde D =diag(d1 . : : : .8) i i .3.3. Fm )0 . U =(U1 . el modelo factorial en expresión matricial es X = AF + DU. : : : .7) i i1 im se llama comunalidad de la variable Xi : La cantidad d2 es la unicidad. Si supoemos que las variables observables son también reducidas. y análogamente F = (F1 .

3. El número máximo m de factores comunes en función de p es: p m 2 3 4 5 6 7 8 9 10 20 30 40 0 1 1 2 3 3 4 5 6 14 22 31 Asignamos a m el valor entero por defecto cuando ma tiene parte fraccionaria. el caso más interesante es m < ma . Si m = ma el modelo es determinado y podemos encontrar A algebraicamente a partir de R: Desde un punto de vista estadístico.92 CAPÍTULO 6. ya que entonces podemos plantear la estimación estadística de A. por tanto introduciremos m(m 1)=2 restricciones y el número de parámetros libres de A será p m m(m 1)=2: El número de correlaciones menos el número de parámetros libres es d = p(p 1)=2 (p m m(m 1 1)=2) = [(p 2 m)2 p m]: (6. que podemos determinar teniendo en cuenta que hay p(p 1)=2 correlaciones diferentes y p m saturaciones. ANÁLISIS FACTORIAL Evidentmente se veri…ca La matriz de correlaciones reducida se obtiene a partir de R substituyendo los unos de la diagonal por las comunalidades 1 0 2 h1 r12 r1p B r h2 r2p C 2 C: R = B 21 A @ rp1 rp2 h2 p R = R + D2 : (6.9) 6. pues hay más saturaciones libres que correlaciones.10) Si igualamos d a 0 obtenemos una ecuación de segundo grado que un vez resuelta nos prueba que m 1 ma = (2p + 1 2 p 8p + 1): Un modelo factorial es sobredeterminado si m > ma . . donde d > 0 juega el papel de número de grados de libertad del modelo.4. Número máximo de factores comunes El número m de factores comunes está limitado por un valor máximo ma . Pero si A es matriz factorial también lo es AT. donde T es matriz ortogonal.

1. EL MODELO MULTIFACTORIAL 93 6. En otras palabras. en asignaturas de Ciencias o de Letras. como el de la máxima verosimilitud. Matemáticas (Mat). se dividen.8).5.9 con Ciencias y sólo 0.8 7 + 0.1 Lla .6.1 . Latín (Lat).4 . Un ejemplo Las asignaturas clásicas de la enseñanza media.B. Por ejemplo. las segundas con contenido más humanístico y artístico.2 .2 L .8 Mat . El caso de Heywood Una limitación del modelo factorial es que alguna comunalidad puede alcanzar (algebraicamente) un valor superior a 1.6. Cuando esto ocurre.8 Las dos primeras asignaturas están más in‡ uidas por el factor C. suponemos que C y L son dos variables no observables.2 5 + 0. Supongamos que están in‡ uidas por dos factores comunes o variables latentes: Ciencias (C) y Letras (L). La cali…cación del primer alumno en CNa es 7.3.3.9 Fra . que de manera latente in‡ uyen sobre las cinco asignaturas. las primeras con contenido más racional y empírico. 6. Matemáticas tiene una correlación de 0. Consideremos las siguientes 5 asignaturas: Ciencias Naturales (CNa). Francés (Fra). contradiciendo (6. y las tres últimas por el factor L. debida a 7 puntos en Ciencias y 5 puntos en Letras. la solución se ha de interpretar con precaución.9 .3. en líneas generales. Según el modelo factorial: 7 = 0. se resuelve este inconveniente (primeramente observado por H.8 . En algunos métodos. Las cali…caciones de n = 20 alumnos en las asignaturas y en los factores se encuentran en la Tabla 6. Literatura (Lit).3 Lit . Heywood) imponiendo la condición h2 i 1 en la estimación de las comunalidades.1 con Letras. Vamos a suponer que la matriz factorial es C CNa .

813 0.230 0.841 Lat 1 0.1: Cali…caciones en 5 asignaturas y puntuaciones en 2 factores comunes de 20 alumnos.497 0.656 0. ANÁLISIS FACTORIAL Asignaturas Alumno CNa Mat Fra Lat Lit Factores Ciencias Letras 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 7 5 5 6 7 4 5 5 6 6 6 5 6 8 6 4 6 6 6 7 7 5 6 8 6 4 5 6 5 5 7 5 6 7 7 3 4 6 5 7 5 6 5 5 6 6 5 5 7 6 5 4 6 8 5 4 7 7 4 6 5 6 7 6 7 7 5 5 6 6 6 5 6 8 6 4 8 7 4 7 6 5 5 6 6 6 6 5 6 6 5 4 5 8 6 4 7 7 4 6 7 5 6 7 6 4 5 6 5 5 7 6 6 7 6 3 5 6 5 7 5 6 5 5 6 6 6 5 6 6 5 4 6 8 5 4 7 7 4 6 Tabla 6.099 0. .420 0.584 Mat 1 0. CNa Mat Fra Lat Lit CNa 1 0.2: Matriz de correlaciones para las cali…caciones en 5 asignaturas.94 CAPÍTULO 6.766 Lit 1 Tabla 6.317 Fra 1 0.

h2 = 0. Teoremas fundamentales El primer teorema. i = 1. 1 punto por el factor común L y 0.4 punts por el factor único. Teorema 6.6.68: 1 2 3 4 5 Los porcentajes de la variabilidad explicada por los factores comunes y las comunalidades son: Factor C Factor L Comunalidades C. p: i En notación matricial R = AA0 + D2 : Demost.4. h2 = 0.11) . permite relacionar la matriz factorial con la matriz de correlaciones. rij = m aik ajk .6) R = E((AF + DU)(AF + DU)0 ) = AE(FF0 )A0 +DE(UU0 )D0 + 2AE(FU0 )D: Por las condiciones de incorrelación entre factores tenemos que E(FF0 ) = Im . : : : . el número de factores comunes y los valores de las comunalidades.: Al ser las variables reducidas. : : : .82. E(UU0 ) = Ip .1 Bajo las hipòtesis del modelo factorial lineal se veri…ca P i 6= j = 1.4. 5. h2 = 0. lo que prueba (6. conocido como teorema de Thurstone.11). Las comunalidades son: h2 = 0. El segundo teorema permite determinar.82. TEOREMAS FUNDAMENTALES 95 De los 7 puntos. h2 = 0. E(FU0 ) = 0. Este factor único representa la variabilidad propia de las CNa.68. R =E(XX0 ) y de (6. p.73. independente de los conceptos C y L. o más exactamente. Naturales 64 4 68 Matemáticas 81 1 82 Francés 1 81 82 Latín 9 64 73 Literatura 4 64 68 6. teóricamente. (6. k=1 Pm 2 1 = k=1 aik + d2 .4.6 se explican por el factor común C. con la matriz de correlaciones reducida.

ANÁLISIS FACTORIAL De (6. Por otro lado.12) tampoco resuelven completamente el problema.12). algebraicamente. las comunalidades se hallan aplicando métodos estadísticos. Finalmente. Teorema 6. las comunalidades se pueden encontrar.4. pues si A es solución.12) Una solución factorial viene dada por cualquier matriz A que cumpla la relación (6. si m > 1. siendo T una matriz m m ortogonal. El modelo factorial será pues aquel que implique un número mínimo m de factores comunes.9) vemos inmediatamente que R = AA0 : (6.2 Se veri…ca: 1. El número m de factores comunes es el rango de la matriz R : Por lo tanto m es el orden del más grande menor de R que no contiene elementos de la diagonal. Demost. a partir de la matriz de correlaciones R: En la práctica. podemos probar de manera análoga. Les comunalidades son aquellos valores 0 h2 i matriz semi-de…nida positiva (tiene m valores propios positivos). La obtención de las comunalidades está muy ligada al número de factores comunes. Así pues. sin suponer las variables reducidas.96 CAPÍTULO 6. que si el análisis factorial lo planteamos a partir de la matriz de covarianzas . pero la solución no es única. existen in…nitas soluciones. ya que desconocemos las comunalidades. también lo es AT. Fijado m.13) . 2. El modelo factorial existe si R es la suma de una matriz semide…nida positiva y una matriz diagonal con elementos no negativos. entonces obtenemos la estructura = AA0 + D2 : (6. escogeremos la que sea más simple. (6. El principio de parsimonia en AF dice que entre varias soluciones admisibles.: Es una consecuencia de la relación (6. aunque sí los factores. Hemos visto que a partir de R podemos encontrar m. 1 tales que R es 3.12) entre R y A: El mayor menor de R quiere decir la submatriz cuadrada con determinante no negativo.11) o (6. que no contenga elementos de la diagonal.

el modelo resultante contiene m 1 factores. El valor máximo de V1 es precisamente 1 : Si ahora restamos del modelo factorial el primer factor Xi0 = Xi ai1 F1 = ai2 F2 + + aim Fm + di Ui . corresponende al segundo vector propio de R con valor propio 2 . que suponemos reducidas. La variabilidad total de las variables. si R = U U0 es la descomposición espectral de R . a1 es el primer vector propio de R y 1 es el primer valor propio. donde qjj 0 = qj 0 j són los multiplicadores.j 0 =1 m X k=1 ajk aj 0 k ). Igualando las derivadas a cero se obtiene que las saturaciones a1 = (a11 . Aplicando de nuevo el criterio del factor principal al modelo vemos que las saturaciones a2 = (a12 . es p: La variabilidad de la variable Xi explicada por el factor Fj es a2 : La suma de ij variabilidades explicadas por Fj es Vj = a2 + 1j + a2 : pj El primer factor principal F1 es tal que V1 es máximo.5. MÉTODO DEL FACTOR PRINCIPAL 97 6. ap2 )0 tales que la variabilidad explicada por el segundo factor V2 = a2 + 12 + a2 . Consideremos pues el problema de maximizar V1 con la restricción R = AA0 : Utilizando el método de los multiplicadores de Lagrange debemos considerar la función V1 + p X q (r jj 0 jj 0 j. p2 sea máxima.5. : : : . que es precisament el valor máximo de V2 : En general. : : : . ap1 )0 del primer factor principal veri…can R a1 = 1 a1 . Método del factor principal Es un método de obtención de la matriz factorial con la propiedad de que los factores expliquen máxima varianza y sean incorrelacionados. es decir. la solución del factor principal es A=U 1=2 : .6.

292 Valor propio 2. m (i) (i) Ai = Um ( m )1=2 Paso i+1 Ri+1 =diag(Ai A0i ) + R Paso 1 Paso 2 Paso i (p valores y vectores propios) (m primeros valores y vectores propios) I (volver al paso i) La matriz Ai converge a la matriz factorial A: Como criterio de convergencia podemos considerar la estabilidad de las comunalidades.543 Matemáticas .11). un algoritmo iterativo de obtención de la matriz factorial y de las comunalidades es: R = U U0 (1) (1)0 R1 = U(1) m Um m (i) (i)0 Ri = U(i) m Um . 6. prácticamente no varían.596 -.828 .6.6.771 .682 Francés . Esta refactorización podria fallar si se presenta el caso de Heywood o R no satisface el modelo factorial (6.432 Latín .6 % de la varianza: F1 F2 C. donde V = D2 es una matriz diagonal (véase (6. Naturales .621 -. con la restricción que se descompone en la forma = AA0 + V.076 Porcentaje 53. Pararemos si pasando de i a i + 1 los valores de las comunalidades. la solución por el método del factor principal encuentra dos factores que explican el 74. es decir. los valores en diag(Ai A0i ). Si suponemos que las n observaciones de las p variables provienen de una distribución normal con .98 CAPÍTULO 6.13)). Ejemplo: Volviendo al ejemplo de las asignaturas.52 6. Método de la máxima verosimilitud Estimación de la matriz factorial Podemos plantear la obtención de la matriz factorial como un problema de estimación de la matriz de covarianzas . ANÁLISIS FACTORIAL Fijado un valor compatible de m.08 21.1.210 Literatura .654 1.796 .

2. siendo S la matriz de covarianzas muestrales. Hipótesis sobre el número de factores Una ventaja del método de la máxima verosimilitud es que permite formular un test de hipótesis sobre la estructura factorial de y el número m de factores comunes. diag( 1 ( S) 1 ) = 0. 1 @Fp = diag( @V S) ): Por tanto.6. Las derivadas respecto de A y V son @Fp =2 @A 1 ( 1 S) ( 1 A. en la práctica. MÉTODO DE LA MÁXIMA VEROSIMILITUD = 0. Debe tenerse en cuenta que se trata de encontrar el espacio de los factores comunes. . V) = log j j + tr( 1 S) log jSj p (6.6. també lo es AT. las ecuaciones a resolver para obtener estimaciones de A y V son ( S) 1 A = 0. La solución …nal será.15) no proporcionan una solución explícita. 6. donde A es de rango m. siendo T matriz ortogonal. A V A es diagonal. .6. 0 0 1 = AA + V.14) sea mínimo. 1 (6. se trata de estimar A y V de manera que Fp (A.15) La última condición es sólo una restricción para concretar una solución. pero es posible encontrar una solución utilizando un método numérico iterativo. el logaritmo de la función de verosimilitud es log L(X. Las ecuaciones (6. Planteemos el test H0 : = AA0 + V vs H1 : es de…nida positiva. puesto que si A es solución. ) = n (log j2 2 j tr( 1 99 S)): Cambiando de signo y modi…cando algunas constantes. una rotación de la solución que veri…que ciertos criterios de simplicidad.

Se han propuesto diferentes versiones sobre como transformar la matriz factorial a …n de obtener una estructura simple de los factores. la solución por el método del factor principal es en principio válida. Podemos observar que Ck es n veces el valor mínimo de la función (6.14) y que k coincide con (6. para así destacar la in‡ uencia de los factores comunes sobre las variables observables.7. En el ejemplo de las asignaturas. ANÁLISIS FACTORIAL bb b b b Si b = AA0 +V. por aplicación de los dos métodos que hemos expuesto. ik (6. que serán bajas. Rotaciones de factores La obtención de la matriz factorial. pero de…ne dos factores comunes F1 .16) .5. siendo A y V las estimaciones. queremos encontrar una matriz ortogonal T tal que la nueva matriz factorial B = AT de…na unos factores que tengan una estructura más simple.4.V) sigue asinptóticamente la distribución ji-cuadrado con k = p(p (p m + p 1 1)=2) = ((p m)2 p m) 2 grados de libertad.7. 2 n (log jSj + p): 2 1 Aplicando el Teorema 3. Esencialmente se trata de conseguir que unas saturaciones sean altas a costa de otras. Rotaciones ortogonales Dada una matriz factorial A. los máximos del logaritmo de la razón de verosimilitud son (Sección 5. 6.100 CAPÍTULO 6. Un criterio analítico considera la función p m m X X X G= [ a2 a2 ij ik k=1 k6=j=1 i=1 p p X i=1 a2 ij p X i=1 a2 ]. F2 que no son fácilmente identi…cables.10).2) H0 : H1 : n (log j b j + tr( b 1 S)).1. no es más que el primer paso del AF. Normalmente la matriz obtenida no de…ne unos factores interpretables. Se hace necesario “rotar”estos dos factores hacia unos factores más fáciles de interpretar.1 tenemos que el estadístico Ck = n(log j b j 1)=2 log jSj + tr( b m(m b b S) p) = nFp (A. 6.

Quartimax : Si = 0 minimizar G equivale a maximizar la varianza de los cuadrados de los p m coe…cientes de saturación. i = 1. Si cada saturación a2 se ij divide por la comunalidad.17) en forma matricial X = PF0 + DU.2. Fm )0 y escribimos el modelo (6. Fj0 ): 3. la rotación se llama varimax ij i normalizada. . ROTACIONES DE FACTORES 101 donde es un parámetro tal que 0 1: Hay dos criterios especialmente interesantes. 6. es decir. : : : . Fm y de p factores únicos.17) La solución factorial oblicua consistirá en hallar las siguientes matrices: 1.7. : : : . Fj0 ): 0 0 Si indicamos F0 = (F1 . Este modelo postula que las variables 0 0 observables dependen de unos factores correlacionados F1 . Factores oblicuos Los factores comunes pueden estar también correlacionados. p: (6. Así para cada variable Xi 0 Xi = pi1 F1 + 0 + pim Fm + di Ui . Estructura factorial oblicua (estructura de referencia) Q =(qij ) siendo qij = cor(Xi . : : : . y entonces se habla del modelo factorial oblícuo. se considera a2 =h2 .7. Varimax : Si = 1 minimizar G equivale a maximizar la suma de las varianzas de los cuadrados de los coe…cientes de saturación de cada columna de A: Análogamente si consideramos a2 =h2 . Matriz del modelo factorial oblícuo P =(pij ) siendo pij la saturación de la variable Xi en el factor Fj0 : 2. Matriz de correlaciones entre factores oblícuos = ('ij ) siendo 'ij = cor(Fi0 . la rotación se llama i ij quartimax normalizada.6.

que tienen una interpretación parecida al caso ortogonal y que también se pueden formular. Quartimin: Si = 0 hay máxima oblicuidad entre los factores comunes. Sea A la matriz factorial obtenida por el método varimax. Un criterio directo de rotación oblicua es el promax. ANÁLISIS FACTORIAL yQ fácilmente probamos la relación entre las tres matrices P. por tanto de…nimos P = (pij ) tal que pij = jak+1 j=aij . Un criterio analítico sobre la matriz de estructura factorial Q considera la función H= p m X X X 2 2 [ qij qik k=1 k6=j=1 i=1 p p X i=1 2 qij p X i=1 2 qik ] donde es un parámetro tal que 0 1: Hay tres criterios especialmente interesantes. Conviene tener en cuenta que las rotaciones ortogonales y oblícuas intentan simpli…car la estructura factorial A y la estructura de referencia Q.3. ij k > 1. Q=P . = Im : 6. el modelo factorial coincide con la estructura factorial y tenemos que P = Q. respectivamente. Queremos encontrar una matriz L tal que la nueva matriz factorial P = AL de…na unos factores oblicuos que tengan una estructura más simple.102 CAPÍTULO 6.7. dividiendo por las comunalidades. Queremos destacar unas saturaciones sobre otras. y la versión del teorema de Thurstone para factores correlacionados R = P P0 + D2 : Si los factores son ortogonales. Covarimin: Si = 1 hay mínima oblicuidad entre los factores comunes. . Rotación oblicua Ya se ha dicho que hallar una matriz factorial A constituye el primer paso de la factorización. Bi-quartimin: Si = 1=2 el criterio es intermedio entre quartimin y covarimin. más adecuadamente.

193 . Cada elemento de A queda elevado a una potencia k conservando el signo. dibujados como vectores unitarios.362 1 .464 .79 CNa Mat Fra Lat Lit El test de hipótesis de que hay m = 2 factores comunes da 2 = 1. La rotación oblicua promax con k = 4 da las matrices P.96 .974 .7. = T0 T.04 -.885 CNa Mat Fra Lla Lit La Figura 6.999 .242 1 . Q.978 .135 .71 .820 .659 . Podemos aceptar m = 2: La rotación varimax pone de mani…esto la existencia de dos factores C.327 veros.842 .221 . 1 no signi…cativo.844 .970 .420 . : Modelo C .999 . . L.104 . F2 .375 .005 . ROTACIONES DE FACTORES 103 siendo k un número entero.831 .280 .99 . Las variables tienen una longitud proporcional a la raíz cuadrada de sus comunalidades.22.636 .62 .847 Comun. .024 . y los factores oblícuos C y L. que podemos interpretar como dimensiones latentes de Ciencias y Letras. Obtenemos entonces P = AL. factorial Correlaciones factores L C L .992 .831 Varimax C L .055 .6.1 representa los factores ortogonales iniciales F1 y F2 .150 .362 1.581 -.706 .809 .028 . la estimación máximo verosímil y la matriz factorial rotada son: Máxim F1 .330 . Q = AT: El grado de oblicuidad de los factores comunes aumenta con k: Se suele tomar k = 4: Ejemplo: Continuando con el ejemplo de las 5 asignaturas.114 factorial Estruct.432 .234 . Seguidamente ajustamos P a AL en el sentido de los mínimos cuadrados L = (A0 A) 1 A0 P : Es necesario normalizar la matriz L de manera que los vectores columna de T = (L0 ) 1 tengan módulo unidad.046 .570 1.

psicomotores). siendo E la matriz m m diagonal.1: Proyección de las variables sobre los factors comunes ortogonals. espacial. Un ejemplo de aplicación nos lo proporciona la teoria clásica de la estructura factorial de la inteligencia. ANÁLISIS FACTORIAL Figura 6. razonamiento. Factores de segundo orden Un vez hemos obtenido los factores oblícuos con matriz de correlaciones . Los tests de aptitud dependen de un conjunto elevado de factores primarios. Si los factores secundarios son también oblicuos. numérico. percepción. y factores rotados (rotación promax). el proceso de factorización puede continuar hasta llegar a un único factor común de orden superior. memoria. podemos suponer que estos m factores primarios dependen de m0 factores secundarios de acuerdo con una matriz factorial B que veri…ca = BB0 + E2 . interpretados como factores de Ciencias y Letras. que dependen de un conjunto de 7 factores secundarios (verbal. .4.7. que sintetiza el hecho de que todas las aptitudes mentales están correlacionadas. 6. que a su vez dependen de un factor general “g”(el factor “g” de Spearman).104 CAPÍTULO 6.

Bartlett) considera que f es función lineal de x y que los valores de los factores únicos u = D 1 (x u0 u = u 2 + 1 expresando (6.18) como un modelo lineal. A es la matriz de diseño. Medición de factores Sea x = (x1 . Se veri…ca x = Af + Du. (6.8.06 -.505 4 6 8 5 6 6 1. son: C L Alumno CNa Mat Fra Lat Lit 1 7 7 5 5 6 1.614 . donde x es el vector de observaciones.568 .559 2 5 5 6 6 5 -. up )0 los valores de las unicidades. : : : . obtenidos con la rotación varimax. . las cali…caciones en las asignatures de los 4 primeros alumnos (Tabla 6. xp )0 los valores de las p variables observables obtenidas sobre un individuo !.85 -. el criterio de los mínimos cuadrados (véase (13. Nos planteamos ahora “medir los factores” es decir. W.259 -. es fácil ver que f = (A0 D 2 A) 1 A0 D 2 x: Una modi…cación de este método (propuesta por T. Anderson y H. La solución que resulta es f = B 1 A0 D 2 x.6. Si interpretamos (6. f es el vector de parámetros y e = Du es el término de errror.4)) nos da f = (A0 A) 1 A0 x: Un método más elaborado (propuesto por M. encontrar los valores f = (f1 . MEDICIÓN DE FACTORES 105 6.8. Rubin) consiste en añadir la condición de que los factores comunes estimados estén incorrelacionados. p son términos de error.242 3 5 6 5 7 5 .18) siendo u = (u1 : : : . S.18) como D 1 Af ) + u2 . fm )0 de los factores comunes sobre !. : : : .1) y las puntuaciones (Anderson-Rubin) en los factores C y L. Si queremos minimizar 1 x=D Af + u. siendo B2 = A0 D 2 RD 2 A: Ejemplo: Continuando con el ejemplo de las 5 asignaturas.

el tipo ortogonal u oblicuo de la solución. . entonces la solución es T = UV0 . y seguidamente aceptando o rechazando esta estructura mediante un test de hipótesis. ANÁLISIS FACTORIAL Teniendo en cuenta que los factores comunes son variables estandarizadas. 6. podemos considerar que la matriz factorial en el ejemplo de las 5 asignaturas es C L CNa 1 0 Mat 1 0 Fra 0 1 Lla 0 1 Lit 0 1 interpretando que las dos primeras sólo dependen del factor Ciencias y las otras tres del factor Letras. Por ejemplo.106 CAPÍTULO 6. Si la solución inicial es A.9. El AF también se puede plantear en sentido con…rmatorio. Entonces podemos realizar una transformación de la matriz factorial inicial para ajustarnos a la matriz anterior. siendo A0 B = U V0 la descomposición singular de A0 B: Si T no es ortogonal y por lo tanto se admite una estructura oblicua. en el sentido de que exploran las dimensiones latentes de las variables. estableciendo una estructura factorial de acuerdo con el problema objeto de estudio. Análisis factorial con…rmatorio Los métodos del factor principal y de la máxima verosimilitud son exploratorios. y los valores libres o …jos de las saturaciones. però normalizando a módulo 1 los vectores columna de T: Más generalmente. el primer alumno tiene una nota relativamente alta en Ciencias y una nota algo por debajo de la media en Letras. entonces T se obtiene siguiendo un procedimiento parecido a la rotación promax T = (A0 A) 1 A0 B. postulamos una estructura B y deseamos encontrar T ortogonal tal que AT se aproxime a B en el sentido de los mínimos cuadrados tr(B AT)2 = mínimo. en AF con…rmatorio se especi…ca el número de factores comunes.

203 .87 . Se impone la condición de que los tres primeros tests correlacionen sólo con el primer factor.230 .54 1 .2.280 6 1 .71 .157 .09 .67 .408 7 1 .42 .325 .314 .345 5 1 .246 .318 .54 .76 . .56 P .00 .714 . ANÁLISIS FACTORIAL CONFIRMATORIO 107 Ejemplo: Un AF con…rmatorio sobre 9 tests (estudiado por K.116 .8.234 . puesto que la ji-cuadrado del ajuste no es signi…cativa. .03 . los tres siguientes sólo con el segundo y los tres últimos sólo con el tercero.54 2 12 = 9.9.170 .489 2 1 .113 .70 . . La primera solución es oblicua no restringida.145 . Joreskog) obtiene siete soluciones con…rmatorias.28 1 .3 miden relaciones espaciales.77 p = 0.61 .327 3 4 1 .26 .181 .68 . La matriz de correlaciones es: 1 2 3 4 5 6 7 8 9 1 1 .722 .335 .00 -.73 -.335 . los tests 1.195 . y se puede aceptar.01 . los tests 4. No obstante.04 -.78 -.00 -.685 .50 .6 inteligencia verbal y los tests 7. De los 9 tests considerados.512 8 9 1 Sólo comentaremos tres soluciones.30 .099 .68 .326 .309 1 .304 .139 1 .13 .9 velocidad de percepción.06 .24 .327 .46 1 .81 .00 .160 . el valor ji-cuadrado es signi…cativo y esta solución no debería aceptarse.41 Comun.64 La segunda solución es oblicua restringida.6.00 .468 .82 -.057 .01 .095 .08 .5.00 .585 .03 -.

48 .53 .00 . con un factor general y tres factores especí…cos.83 . Pearson.37 .03 .84 6. .83 .69 .38 .43 . .00 .35 .03 .01 . El valor ji-cuadrado indica que esta solución es aceptable.00 .30 -.00 .49 2 24 = 51.56 .001 La tercera solución es ortogonal no restringida.34 1 .69 .00 .00 .00 Comun.66 .02 . Complementos Constituyen dos precedentes del Análisis Factorial el concepto de factor latente de F.00 . publicado en 1904. Spearman (Spearman.06 .00 .00 .63 .95 -.00 .87 .52 .83 .80 .68 .46 .36 .24 .95 .108 CAPÍTULO 6.69 .70 Comun.41 .27 .00 .52 1 .00 . en el sentido que el primero no correlaciona con la variable 4.13 .04 -.00 .10.00 .00 .87 .59 P .75 p = 0.83 .77 . Galton y de eje principal de K.00 .00 .15 .00 .00 .02 .75 .48 1 .00 . el factor “g” Esta teoría.00 1 .72 .38 . El primer trabajo. ANÁLISIS FACTORIAL . por Ch.00 .00 .54 1 .00 P . el segundo no correlaciona con las variables 1 y 7 y el tercero no correlaciona con 1. .57 -.43 .64 2 6 = 2.34 1 .00 1 .68 . 1904) desarrolla una teoría de la inteligencia alrededor de un factor común. .2 y 4.01 .00 -.24 .00 .58 .52 . .19 p = 0.00 .13 .00 .22 .

A partir de Thurstone la medida de la inteligencia era más “democrática” ya que poseía varias di. Más tarde. mensiones latentes. Torrens-Ibern (1972). El método varimax de rotación ortogonal de Kaiser es uno de los más recomendados. C. Este resultado proporciona una cierta justi…cación teórica acerca del hecho que la información multivariante posee una dimensionalidad latente mucho más pequeña. quedando sin sentido una ordenación de los individuos. Por ejemplo. Kaiser. COMPLEMENTOS 109 que ordenaba la inteligencia de los individuos a lo largo de una sola dimensión. que postulaba más de un factor común. Lawley. el análisis factorial se ha entendido en sentido con…rmatorio (Joreskog. Los modelos y métodos de Spearman. son ya historia. Harman y Horst).L. Rao demostró que si conocemos la distribución de k combinaciones lineales de p variables independientes. como una herramienta para explorar la dimensionalidad latente de las variables. Los métodos actuales para obtener la matriz factorial son: factor principal.B. si tenemos p = 210 variables independientes bastaría conocer la distribución de k = 20 combinaciones lineales adecuadas para determinar la distribución de las 210 variables. introducía la estructura simple y las rotaciones de factores. tratando todo los aspectos algebraicos y estadísticos del tema.R. análisis factorial canónico (C. mientras que el AF revela que neurosis y psicosis son dimensiones independientes. Lawley. La teoria psicoanalítica defendía una continuidad entre la personalidad neurótica y la psicótica. La etapa inicial del AF (hasta 1966).6. Joreskog). y seguidamente aceptando o rechazando esta estructura medi- . Véase Harman (1976). White la promax. Véase Joreskog (1967). siendo k(k 1)=2 < p k(k + 1)=2. método Alfa (H.N.F.10. El estudio de las dimensiones latentes es un tema presente en la ciencia y siempre ha despertado interés. estableciendo una estructura factorial de acuerdo con el problema. con consecuencias sociológicas importantes. pues proporcionó una base cientí…ca para …nanciar las escuelas privadas en detrimento de otras. El Análisis Factorial moderno se inicia con la obra “Multiple Factor Analysis” de L. Había una polémica similar sobre la personalidad. Anderson y Rubin (1956) publicaron un excelente trabajo sobre AF.O. Carroll introdujo la rotación oblicua quartimin y A. K. en varias dimensiones no. Thurstone. J. Mulaik).E. J. Thurstone y otros (Holzinger. que si en una dimensión era posible hacerlo.G. R. Burt. entonces la distribución de cada una de las p variables queda determinada (salvo la media o parámetro de localización). Ca¤rey) y el método de la máxima verosimilitud (D. Rao). Hendrickson y P. Maxwell. Burt. fue defendida por C. era exploratoria.

que uni…ca este método con otras técnicas multivariantes (MANOVA. . análisis de componentes de la varianza. Véase Satorra (1989). ANÁLISIS FACTORIAL ante un test de hipótesis (Joreskog. etc. que identi…ca como: agitación. Citaremos tres. Finalmente. las dos primeras sobre AF exploratorio y la tercera sobre AF con…rmatorio. que permite relacionar un grupo de variables dependientes Y con un grupo de variables independientes X. previamente estudiado por Anderson y Rubin.P. Batista y Coenders (2000). Consúltese Cuadras (1981). Joreskog (1969) explica un ejemplo de AF con…rmatorio sobre 9 tests.110 CAPÍTULO 6. 1970).9. y ordena las naciones según las puntuaciones en los factors comunes.I. psicología. análisis de caminos. Se han llevado a cabo muchas aplicaciones del AF. Sánchez-Turet y Cuadras (1972) adaptan el cuestionario E. economía). Escala de mentiras. revolución y subversión. Se supone que la estructura general para la matriz de covarianzas es = B(P P0 + D2 )B0 + 2 : Otra generalización es el llamado modelo LISREL (Linear Structural Relationship). LISREL (Joreskog y Sorbom. Estabilidad-Inestabilidad. 1969. el Análisis de Estructuras Covariantes es una generalización del AF.). Rummel (1963) estudia 22 medidas de los con‡ ictos de 77 naciones y encuentra tres dimensiones latentes. de personalidad (Eysenck Personality Inventory) y sobre un test de 69 ítems (algunos ítems detectan mentiras) encuentran tres factores: Introversión-Extroversión. 1999) es muy ‡ exible y tiene muchas aplicaciones (sociología. que dependen de unas variables latentes a través de un modelo de medida. Véase la Sección 6. modelos simplex y circumplexos. Las variables latentes están relacionadas por un modelo de ecuaciones estructurales.

x02 . Xp sobre g poblaciones obtenemos g matrices de datos 0 1 X1 n1 p B X2 C n2 p B C X =B . X es de orden n p.Capítulo 7 ANALISIS CANONICO DE POBLACIONES 7. y lo que queremos es representar las poblaciones. : : : . es decir. C . siendo n = Pg i=1 ni : Indiquemos 0 0 1 x1 x0 B x0 x0 C B 2 C X= B . 0 0 xg x 111 Con el Análisis de Componentes Principales podemos representar los individuos de una población. . Pero si tenemos varias matrices de datos. : : : . C @ . Introducción donde Xi es la matriz ni p de la población i: Sean x01 . @ . como resultado de observar las variables sobre varias poblaciones. entonces la técnica adecuada es el Análisis Canónico de Poblaciones (CANP). Xg ng p . Supongamos que de la observación de p variables cuantitativas X1 . .x0g los vectores (…la) de las medias de cada población.1. A . representar una única matriz de datos. A .

La matriz B participa. Tenemos dos maneras de cuanti…car matricialmente la dispersión entre las poblaciones: La matriz de dispersión no ponderada entre grupos A =X X = 0 g X i=1 (xi x)(xi x)0 : La matriz de dispersión ponderada entre grupos B= g X i=1 ni (xi x)(xi x)0 : La matriz A es proporcional a una matriz de covarianzas tomando como datos sólo las medias de las poblaciones. vp ] los vectores propios de A =X X respecto de S con valores propios 1 > > p .112 CAPÍTULO 7.2. es decir. ANALISIS CANONICO DE POBLACIONES la matriz g p con las medias de las g poblaciones. 7. Aquí trabajaremos con la matriz A. S juega el papel de matriz de covarianzas “dentro”de las poblaciones. si bien los resultados serían parecidos si utilizáramos la matriz B: También haremos uso de la matriz de covarianzas (véase (3. juntamente con W (matriz de dispersión dentro de grupos) en el test de comparación de medias de g poblaciones. vp son los vectores canónicos y las variables canónicas son las variables compuestas Yi = Xvi : . Variables canónicas 0 De…nición 7. Avi = normalizados según 0 vi Si vi = 1: i Si vi . : : : .1 Sean V = [v1 . Los vectores v1 .2)): S= 0 1 n g g X i=1 n i Si : Entonces A =X X juega el papel de matriz de covarianzas “entre”las poblaciones.2. : : : .

están incorrelacionadas: covA (Yi . Demost. g 1g.2. condicionada a estar incorrelacionada con Y1 y tener varianza 1 dentro grupos. Yj ) = t0i Atj = t0i S j tj = covA (Yj . vpi )0 y X = [X1 . : : : . de t0i Stj = 1: = varA (Yi ) = i t0i Stj = i : P P Sea ahora Y = p ai Xi P p = i=1 i Yi una variable compuesta tal que i=1 P p 2 2 varS (Y ) = p i=1 i varS (Yi ) = i=1 i = 1: Entonces: p X varA (Y ) = varA ( i=1 i Yi ) = p X i=1 2 i varA (Yi ) = p X i=1 2 i i p X ( i=1 2 i) 1 = varA (Y1 ). si i 6= j. 0 j ti Stj 0 0 ) ( j i )ti Stj = 0 ) ti Stj = 0 ) covA (Yi . : : : . Además. Teorema 7. : : : .: Supongamos 1 > > p > 0: Probemos que las variables Yi = Xti .3.5. . en el sentido de que Y1 es la variable con máxima varianza entre grupos. Yj ) = 0. i. VARIABLES CANÓNICAS 113 Si vi = (v1i . condicionada a varianza 1 dentro grupos. Yj ) = covA (Yi . p.2. + vpi Xp es decir: 0 varS (Yi ) = vi Si vi = 1: Trabajaremos con p variables canónicas. Y2 es la variable con máxima varianza entre grupos. Yj ) = covS (Yi . Xp ]. i = 1. etc. Yi ) = t0j Ati = t0j S j ti = 0 j ti Stj . Yj ) = 0 si i 6= j: 2. pero de hecho el número efectivo es k = m nfp. Las A-varianzas son respectivamente máximas: varA (Y1 ) = 1 > > varA (Yp ) = p. Son incorrelacionadas dos a dos respecto a A y también respecto a S covA (Yi . 0 i tj Sti . ver Sección 7. la variable canónica Yi es la variable compuesta Yi = Xvi = v1i X1 + que tiene S-varianza 1 y A varianza 0 varA (Yi ) = vi Avi = i.7.1 Las variables canónicas veri…can: 1.

: : : . Ahora de…nimos la distancia entre dos poblaciones cuando hay más de dos poblaciones. pero teniendo en cuenta las covarianzas.3.9 hemos introducido la distancia entre los individuos de una misma población. En la Sección 1. vp ] 0 es la matriz con los vectores canónicos (vectores propios de A =X X respecto de S). j) = (xi xj )0 S 1 (xi xj ): Si X es la matriz centrada con los vectores de medias y V = [v1 . p contiene las coordenadas canónicas de las g . y por lo tanto Y2 está incorrelacionada con Y1 y tiene varianza máxima. la transformación canónica es Y =XV: La matriz Y de orden g poblaciones. que podemos expresar como: Y = Entonces: p X varA (Y ) = varA ( i=2 i Yi ) = p X i=2 2 i varA (Yi ) p X i=2 i Yi condicionado a p X i=2 2 i = 1: = p X i=2 2 i i p X ( i=2 2 i) 2 = varA (Y2 ). : : : .1 Consideremos muestras multivariantes de g poblaciones con vectores de medias x1 . ANALISIS CANONICO DE POBLACIONES que prueba que Y1 tiene máxima varianza entre grupos. Distancia de Mahalanobis y transformación canónica La distancia de Mahalanobis entre dos poblaciones es una medida natural de la diferencia entre las medias de las poblaciones.114 CAPÍTULO 7. Yp es análoga. : : : . 7. De…nición 7.x2 .3. j es M 2 (i.xg y matriz de covarianzas (común) S: La distancia (al cuadrado) de Mahalanobis entre las poblaciones i. La demostración para Y3 . Consideremos a continuación las variables Y incorrelacionadas con Y1 .

7.4. REPRESENTACIÓN CANÓNICA

115

Teorema 7.3.1 La distancia de Mahalanobis entre cada par de poblaciones i; j coincide con la distancia Euclídea entre las …las i; j de la matriz de coordenadas canónicas Y. Si yi = xi V entonces d2 (i; j) = (yi E yj )0 (yi yj ) = (xi xj )0 S 1 (xi xj ): (7.1)

Demost.: Basta probar que los productos escalares coinciden
0 yi yj = xi S 1 x0j () XS 1 X = YY0 : 0

Sea =diag( 1 ; : : : ; p ) la matriz diagonal con los valores propios de A =X X respecto de S: Entonces AV = SV con V0 SV = Ip ;

0

y la transformación canónica es Y =XV: 0 0 AV = SV es X XV = SV , luego S 1 X XV = V y premultiplicando 0 por X tenemos XS 1 X XV = XV ; es decir, XS 1 X Y = Y : Con lo cual Y contiene los vectores propios de XS 1 X ; luego cumple la descomposición espectral XS 1 X = Y Y0 suponiendo Y ortogonal. Tomando Y 0 obenemos …nalmente XS 1 X = YY0 :
1=2 0 0 0

que indicamos también por Y;

7.4.

Representación canónica

La representación de las g poblaciones mediante las …las de X con la métrica de Mahalanobis es bastante complicada: la dimensión puede ser grande y los ejes son oblícuos. En cambio, la representación mediante las coordenadas canónicas Y con la métrica Euclídea se realiza a lo largo de ejes ortogonales. Si además, tomamos las q primeras coordenadas canónicas (usualmente q = 2), la representación es totalmente factible y es óptima en dimensión reducida, en el sentido de que maximiza la variabilidad geométrica .

116

CAPÍTULO 7. ANALISIS CANONICO DE POBLACIONES

Teorema 7.4.1 La variabilidad geométrica de las distancias de Mahalanobis entre las poblaciones es proporcional a la suma de los valores propios:
g p 1 X 1X 2 M (i; j) = VM (X) = 2 2g i;j=1 g i=1 i:

(7.2)

Si Y =XV; donde V, de orden p canónica en dimensión q y
2 ij (q)

q es la matriz de la transformación
q X h=1

= (yi

yj )(yi

yj ) =

0

(yih

yjh )2

es la distancia Euclídea (al cuadrado) entre dos …las de Y; la variabilidad geométrica en dimensión q p es
g 1 X V (Y)q = 2 2g i;j=1 2 ij (q)

1X = g i=1

q

i;

y esta cantidad es máxima entre todas las transformaciones lineales en dimensión q: Demost.: De (5.3) y (7.1)
g g p 1 XX 1 X M (i; j)2 = 2 (yih yjh )2 = s2 + + s2 1 p 2g 2 i;j=1 2g i;j=1 h=1 P 2 donde s2 = ( g yij )=g representa la varianza ordinaria de la columna Yj j i=1 de Y: Esta suma de varianzas es 1 1 1 1 0 tra( Y0 Y) = tra(V0 X XV) = tra(V0 AV) = tra( ) g g g g

VM (X) =

lo que prueba (7.2). e Sea ahora Y=XT otra transformación de X tal que T0 ST = I. Indicando e e T = [t1 ; : : : ; tp ],:la A-varianza de la primera columna Y1 de Y es t01 At1 0 0 e e e v1 Av1 = 1 : Es decir, la varianza ordinaria s2 (Y1 ) = g 1 Y10 Y1 = g 1 t01 X Xt1 es máxima para Y1 = Xv1 ; primera columna de Y: Análogamente se denuestra para las demás columnas (segunda, tercera, etc., coordenadas canónicas). Tenemos pues: e V (Y)q =
q X

1X e e s (Yk ) = varA (Yk ) g k=1 k=1
2

q

1X V (Y)q = g k=1

q

k:

7.5. ASPECTOS INFERENCIALES

117

El porcentaje de variabilidad geométrica explicada por las q primeras coordenadas canónicas es Pq = 100 V (Y)q = 100 VM (X) + 1+
1

+ +

q p

:

7.5.

Aspectos inferenciales

Supongamos ahora que las matrices de datos X1 ; : : : ; Xg provienen de g poblaciones normales Np ( 1 ; 1 ); : : : ; Np ( g ; g ): Para poder aplicar correctamente un análisis canónico de poblaciones conviene que los vectores de medias sean diferentes y que las matrices de covarianzas sean iguales.

7.5.1.
El test

Comparación de medias
H0 :
1

=

2

=

=

g

(7.3)

ha sido estudiado en la Sección 3.3.3 y se decide calculando el estadístico = jWj=jB + Wj con distribución lambda de Wilks. Si aceptamos H0 las medias de las poblaciones son teóricamente iguales y el análisis canónico, técnica destinada a representar las medias de las poblaciones a lo largo de ejes canónicos, no tiene razón de ser. Por lo tanto, conviene rechazar H0 :

7.5.2.
El test

Comparación de covarianzas
0 H0 : 1

=

2

=

=

g

se resuelve mediante el test de razón de verosimilitud
R

=

jS1 jn1 =2

jSjn=2

jSg jng =2

;

donde Si es la matriz de covarianzas de las datos de la población i; estimación máximo verosímil de i y S = (n1 S1 + + ng Sg )=n = W=n

118

CAPÍTULO 7. ANALISIS CANONICO DE POBLACIONES

es la estimación máximo verosímil de ; matriz de covarianzas común bajo 0 0 H0 : Rechazaremos H0 si el estadístico 2 log
R

= n log jSj

(n1 log jS1 j +

+ ng log jSg j)

2 q

es signi…cativo, donde q = gp(p + 1)=2 p(p + 1)=2 = (g 1)p(p + 1)=2 son los 0 grados de libertad de la ji-cuadrado. Si rechazamos H0 , entonces resulta que no disponemos de unos ejes comunes para representar todas las poblaciones (la orientación de los ejes viene determinada por la matriz de covarianzas), 0 y el análisis canónico es teóricamente incorrecto. Conviene pues aceptar H0 : Este es el llamado test de Bartlett. Debido a que el test anterior puede ser sesgado, conviene aplicar la corrección de Box, c (n g) log jSj ((n1 b 1) log jS1 j + + (ng b 1) log jSg j) 1 n g )]:

b donde Si = (ni =(ni

1))Si ; y la constante c es 2p2 + 3p ( 6(p + 1)(g
g 1 X 1 )( 1) k=1 ng 1

c = [1

7.5.3.

Test de dimensionalidad
0

Como el rango de A = X X no puede superar ni la dimensión p ni g es obvio que el número efectivo de valores propios es k = m nfp; g 1g:

1;

Si los vectores de medias poblacionales están en un espacio Rm de dimensión m < k; entonces el espacio canónico tiene dimensión m y por lo tanto debemos aceptar la hipótesis H0 donde 1 > > de A) respecto de
(m)

:

1

>

>

m

>

m+1

=
0

=

k;

m

son los valores propios de MM (la versión poblacional : Si l1 > > lk

son los valores propios de B respecto de W (ver Sección 3.3.3), es decir, soluciones de jB lWj = 0;

7.5. ASPECTOS INFERENCIALES entonces un test para decidir H0 bm = [n 1
(m)

119

está basado en el estadístico
2 q;

k X 1 (p + g)] log(1 + li ) 2 i=m+1

donde q = (p m)(g m 1): Este test asintótico, propuesto por Bartlett, se aplica secuencialmente: si b0 es signi…cativo, estudiaremos b1 ; si b1 es también signi…cativo, estudiaremos b2 , etc. Si b0 ; : : : ; bm 1 son signi…cativos pero bm (0) no, aceptaremos que la dimensión es m: Obsérvese que aceptar H0 equivale a la hipótesis nula de igualdad de vectores de medias (que entonces coincidirían en un punto), es decir, equivale a aceptar (7.3). Otros autores utilizan este test independienmente para cada dimensión. Así, el test H0 : j = 0 está basado en el estadístico cj = [n donde r = p + g signi…cativo. 1 1 (p + g)] log(1 + lj ) 2
2 r;

2j son los grados de liberdad. Rechazaremos H0 si cj es

7.5.4.

Regiones con…denciales

Sean y0i = x0i V;i = 1; : : : ; g las proyecciones canónicas de los vectores de medias muestrales de las poblaciones. Podemos entender yi como una estimación de i = i V; la proyección canónica del vector de medias poblacional i : Queremos encontrar regiones con…denciales para i ; i = 1; : : : ; g: Teorema 7.5.1 Sea 1 el coe…ciente de con…anza, F tal que P (F > F ) = ; donde F sigue la distribución F con p y (n g p + 1) g:l: y consideremos: (n g)p R2 = F : (n g p + 1) Entonces las proyecciones canónicas i de los vectores de medias poblacionales pertenecen a regiones con…denciales que son hiperesferas (esferas en dimensión 3, círculos en dimensión 2) de centros y radios p (yi ; R = ni ); donde ni es el tamaño muestral de la población i:

lo que también es válido si reducimos la dimensión (tomamos las m primeras coordenadas canónicas). ya que las variables canónicas son incorrelacionadas. sinustocollis (Campellas. Osca) n3 = 20: 4. tenemos que (xi Así pues R2 ]=1 . =ni ) independiente de W que sigue la distribución Wp ( . Por ejemplo. mientras que si dos círculos se solapan. n g): Por lo tanto 0 1 (n g)ni (xi i ) W (xi 1 0 = ni (xi i )S (xi i) i) T 2 (p.: xi i es Np (0. ANALISIS CANONICO DE POBLACIONES Demost. será indicio de que las dos poblaciones son posiblemente iguales. sinustocollis (Planollas. Pirineos) n1 = 40: 2. cada población vendrá representada por un círculo de centro yi p y radio R0. de manera que el vector de medias proyectado pertenece al círculo con coe…ciente de con…anza 0. Pirineos.5.120 CAPÍTULO 7. Pirineos) n2 = 40: 3. n g). T. La separación entre los centros indicará diferencias. Ejemplo 7. T. T. y como la distribución de Hotelling equivale a una F . Barcelona) n4 = 40: . monserratensis (Collformic. T. indet (vall de Llauset.05 = ni .95 y una representación en dimensión reducida 2. ni que de…ne una región con…dencial hiperelíptica para i con coe…ciente de con…anza 1 : Pero la transformación canónica y0i = x0i V convierte (xi 0 0 1 i ) S (xi i ) en (yi i ) (yi i ) y por lo tanto P [(xi 0 1 i ) S (xi i) 0 1 i ) S (xi i) (n ni (n g)p p Fn g p + 1) g p+1 : P [(yi 0 i ) (yi i) R2 ]=1 ni : Esta transformación convierte además hiperelipses en hiperesferas (elipses en círculos si la dimensión es 2). si elegimos 1 = 0.1 Se tienen medidas de 5 variables biométricas sobre coleópteros del género Timarcha de 5 especies encontradas en 8 localidades: 1.95.

X3 = base prognoto. máximo élitros.l.174 6. élitros. Matriz de dispersión entre grupos: .210 8.30 13. 5.867 5.685 C S=B B C @ 20.284. máximo prognoto. Signi…cativo al 5 %. X2 =diam.282 6.34 A 13. T. 7.5. Jicuadrado = 229.380 C B C 6. T. ASPECTOS INFERENCIALES 121 Figura 7.282 9.277 3.7.27 Test de Bartlett para homogeneidad de la matriz de covarianzas.551 4.1: Proyeción canónica de cuatro poblaciones.281 B 7. monserratensis (Collfsuspina. Sicilia) n8 = 40 Las medidas (en mm. X5 = diam. T. Barcelona) n6 = 40: balearica (Mahón. T. prognoto. X4 = long.210 7. con 105 g. 6. Se quiere estudiar si existen diferencias entre las 8 especies y representarlas mediante la distancia de Mahalanobis. Baleares) n7 = 15 pimeliodes (Palermo.249 2. 8. Barcelona) n5 = 40: catalaunensis (La Garriga.) son: X1 = long. Los resultados del análisis canónico son: Matriz de covarianzas común: 0 1 3.

122 CAPÍTULO 7.1259 -. valores propios y porcentaje acumulado: v1 v2 -.03 98.2896 .5553 . Las poblaciones 3 y 6 son especies próximas.64 24. así como la 4 y 5. Transformación canónica.0292 . 7.53 % 85. 7) ! F = 62.7040 -.1125 . las poblaciones 1 y 2 pertenecen claramente a la misma especie.) Existen diferencias muy signi…cativas. 267. mientras que las 7 y 8 se diferencian mucho de las otras especies. . ) 1142 1970 1784 3562 3541 W5 (267.l.6428 -.5 765.4 1482 B 1915 1677 2458.99 B 1658 2211 W=B B @ 5419 6268 11386 8039 B 21249 15370 B 11528 B=B B @ 22924 42795 31009 86629 17419 32502 23475 65626 49890 W4 (7.0102 (5.5 1 C C C C A (35 y 1108 g.9326 .8 867.1326 .2. ) Matriz de dispersión total: 0 7143 12253 8804 24407 18562 B 23164 17047 45254 34472 B B 13186 33220 25260 T=B @ 92049 69189 53432 Test de comparación de medias: = jWj = jB + Wj = 0. ANALISIS CANONICO DE POBLACIONES 0 1 C C C C A 1 C C C C A Matriz de dispersión dentro de grupos: 0 874.0059 158.18 De acuerdo con la Fig.

es decir. .S.7. g.2: Representación canónica de 8 especies de coleópteros. interviene la descomposición T = B + W. medias y matrices de covarianzas ( i . Su difusión es debido a Seal (1964). 7. Complementos El Análisis Canónico de Poblaciones (CANP) fué planteado por M. Existen diferentes criterios para obtener la región con…dencial para las medias de las poblaciones. Bartlett en términos de correlación canónica entre las poblaciones y las variables observables. y más adelante en el Análisis Discriminante. Aquí hemos seguido un criterio propuesto por Cuadras (1974). i = 1.6. En el CANP. es decir: g ni XX i=1 h=1 (xih x)(xih x) = 0 g X i=1 ni (xi x)(xi x) + 0 g ni XX i=1 h=1 (xih xi )(xih xi )0 : Si los datos provienen de g poblaciones con densidades fi (x). A menudo los datos no cumplen la condición de igualdad de las matrices de covarianzas. R. Una formulación que no supone normalidad es debido a Krzanowski y Radley (1989).6. Rao lo relacionó con la distancia de Mahalanobis y lo estudió como una técnica para representar poblaciones. i ) y probabilidades pi . aunque el CANP es válido si las matrices muestrales son relativamente semejantes. con densidad f (x) =p1 f1 (x) + +pg fg (x). : : : . COMPLEMENTOS 123 Figura 7. C.

pi ( i )( i )0 + g X i=1 pi i: Esta descomposición de versión multivariante de es la versión poblacional de T = B + W.124 CAPÍTULO 7. ANALISIS CANONICO DE POBLACIONES entonces el vector de medias correspondiente a f es =p1 y la matriz de covarianzas es = g X i=1 1+ +pg g. . donde Y jX representa la distribución de una variable Y dada X: Ver Flury (1997). y la var(Y ) = E[var[Y jX]] + var[E[Y jX]].

i) 3. j) = (j. k) Si sólo se cumplen las dos primeras condiciones. 125 . ng: Sea : Se habla de distancia (métrica) cuando se cumplen las tres condiciones: 1. ! 2 . j) es una disimilaridad. Sea = f! 1 . Introducción Representar un conjunto …nito cuando disponemos de una distancia entre los elementos del conjunto. i) = 0 para todo i: 0 para todo i. (i. : : : . j: para todo i. que abreviadamente indicaremos = f1. j. 2. k (desigualdad triangular): ij = (i.1. (i. j) (i. j de 2. :::. j) una distancia o disimilaridad entre los elementos i. consiste en encontrar unos puntos en un espacio de dimensión reducida. ! n g un conjunto …nito con n elementos diferentes. diremos que (i.Capítulo 8 ESCALADO MULTIDIMENSIONAL (MDS) 8. cuyas distancias euclídeas se aproximen lo mejor posible a las distancias originales. k) + (j. (i.

..1 Diremos que = ( ij ) es una matriz de distancias Euclídeas si existen n puntos x1 . C: . n de . C . . 8. : : : . ESCALADO MULTIDIMENSIONAL (MDS) Consideremos entonces la matriz de distancias (o disimilaridades) 0 1 B 21 B =B . xn 2 Rp .1. en forma de matriz 0 1 x11 x12 x1p B x21 x22 x2n C B C X =B . tales que 2 ij p X =1 i = 1. . que representan los elementos 1. : : : .1) Indicaremos las coordenadas de los puntos x1 . : : : . . = (xi xj )2 = (xi xj )0 (xi xj ) (8. A . ij = ji = (i. 11 12 22 1n 2n . . : : : .126 CAPÍTULO 8. xn . @ . .1) 2 ij = x0i xi + x0j xj 2x0i xj es La matriz de productos internos asociada a G = XX0 : . . j) ii = 0: De…nición 8. . . A @ . n. Si la distancia ij es euclídea entonces de (8. . xip ).2. siendo x0i = (xi1 . n1 n2 nn C C . : : : . Cuando una distancia es euclídea? Sea (2) = ( 2 ) la matriz de cuadrados de las distancias. . . xn1 xn2 xnp El objetivo del escalamiento multidimensional es encontrar la X más adecuada a partir de la matriz de distancias . ..

: : : . donde yi es la …la i. Introducimos ahora las matrices A = 2 (2) y B = HAH: Teorema 8. bjj = aj: a:j + a:: . Demost. bij = yi yj . que demuestra que es matriz de distancias euclídeas.3) Supongamos que es euclídea.3) tenemos 2 ij 0 0 = yi yi + yj yj 0 2yi yj = (yi yj )0 (yi yj ). Supongamos ahora que B 0: Entonces B = YY0 para alguna matriz Y 0 0 de orden n p. a:j es la media de la …la j y a:: es la media de los n2 elementos de A: Entonces bii = y por lo tanto 2 ij ai: a:i + a:: . los valores propios de B son no negativos. tenemos que 0 0. . es donde ai: es la media de la columna i de A.2) resulta que A= (1g0 + g10 )=2 + G: Multiplicando ambos lados de A por H. CUANDO UNA DISTANCIA ES EUCLÍDEA? Los elementos de G = (gij ) son gij = x0i xj : Relacionando vemos que (2) = 1g0 + g10 2G. Entonces G = XX0 . De (8.2) donde g =(g11 .8. 1). 0. gnn )0 contiene los elementos de la diagonal de G: Sea H 1 la matriz de centrado (Cap.2. dado que H1 = 10 H = 0.ésima de Y: Aplicando (8. B = HAH = HGH = HXX0 H = XX lo que prueba que B es semide…nida positiva.1 La matriz de distancias es euclídea si y sólo si B decir. = bii + bjj 2bij = aii + ajj 2aij : (8.: La relación entre B = (bij ) y A = (aij ) es bij = aij ai: a:j + a:: .2. es decir. (2) 127 =( 2 ij ) con G (8.

La solución por coordenadas principales goza de importantes propiedades. De…nición 8. : : : .128 CAPÍTULO 8. . El análisis de coordenadas principales Hemos visto que si B 0. .4). tal que sus columnas X1 . n xn1 Propiedades: xn2 . las dos primeras coordenadas de X proporcionan una representación a lo largo de los ejes X1 y X2 : X1 X2 1 x11 x12 2 x21 x22 . si q = 2.1). donde xi es la …la i-ésima de X: Reciben el nombre de coordenadas principales y cumplen (8.3. donde U es una matriz n p de vectores propios ortonormales de B y es matriz diagonal que contiene los valores propios ordenados (8. .3. .5) también veri…ca B = XX0 . que interpretaremos como variables.5). cualquier matriz Y tal que B = YY0 proporciona unas coordenadas cartesianas compatibles con la matriz de distancias : Sea B = U U0 la descomposición espectral de B. . ESCALADO MULTIDIMENSIONAL (MDS) 8. y por lo tanto p+1 = 0 es también valor propio de B de vector propio el vector 1 de unos: Entonces es evidente que la matriz n p X = U 1=2 (8. xip ). se toman las q < p primeras coordenadas principales a …n de representar : Por ejemplo. . Xp . : : : . .4) 1 p > p+1 = 0 Obsérvese que B1 = 0. En las aplicaciones prácticas.1 La solución por coordenadas principales es la matriz de coordenadas (8. . son vectores propios de B de valores propios (8. Las coordenadas del elemento i 2 son x0i = (xi1 .

Tenemos que B = XX0 = ZZ0 La matriz de covarianzas de Z es 1 S = Z0 Z = TDT0 . Las varianzas son proporcionales a los valores propios s2 = k 1 n k. : : : . n k Prueba: como las medias son nulas. ZZ0 Z = nZTDT. Las variables Xk (columnas de X) tienen media 0: X1 = = Xp = 0 129 Prueba: 1 es vector propio de B ortogonal a cada Xk .0 BZT = ZTnD. p k: 1 0 Prueba: la varianza es n Xk Xk = 3. Las variables Xk son componentes principales de cualquier matriz de datos Z tal que las distancias euclídeas entre sus …las concuerden con : Prueba: Supongamos Z matriz de datos centrada. Las variables son incorrelacionadas cor(Xk . por lo tanto 1 X k = n (10 Xk ) = 0: 2. k 6= k 0 = 1. Entonces: Z0 Z = nTDT0 . Xk0 ) = pues los vectores propios de B son ortogonales. 1 n k = 1. la covarianza es cov(Xk . n donde D es diagonal y T es la matriz ortogonal de la transformación en componentes principales. p: 1 0 X Xk0 = 0. EL ANÁLISIS DE COORDENADAS PRINCIPALES 1. . Xk0 ) = 0. : : : . 4.3.8.

j=1 (xi i.6) 6.j=1 2 ij (q) q n 1 XX = 2 (xik 2n i. esta suma de varianzas es la suma de los valores propios dividida por n. por lo tanto V (X) = p X k=1 s2 : k Hemos demostrado que para cualquier matriz X tal que B = XX0 . La variabilidad geométrica en dimensión q es máxima cuando tomamos las q primeras coordenadas principales. sus varianzas son respectivamente máximas. :::. n 1 X V (X)q = 2 2n i. Si en particular tenemos las coordenadas principales. la suma de las varianzas de las colummnas de X es igual a la variabilidad geométrica. lo que implica X = ZT: En consecuencia la matriz de coordenadas principales X coincide con la transformación por componentes principales de Z: 5.j=1 k=1 1X xjk ) = n k=1 2 q k es máximo. Prueba: Sea x1 .130 CAPÍTULO 8. Es decir.j=1 2n2 P P Pn j 2 Pn i2 1 = 2n2 (n i=1 xi + n j=1 xj 2 n xi n xj ) ij=1 i=1 = s2 . xn una muestra con media x = 0 y varianza s2 .j=1 1X = n k=1 p k: (8. ESCALADO MULTIDIMENSIONAL (MDS) y por lo tanto ZT es matriz de vectores propios de B con valores propios los elementos diagonales de nD.j=1 i. Se veri…ca P P Pn P 1 1 xj )2 = 2n2 ( n x2 + n x2 2 n xi xj ) i. y como entonces las columnas son componentes principales.j=1 i. La variabilidad geométrica de es 2 ij n 1 X V (X) = 2 2n i. El porcentaje de variabilidad explicada por los q primeros ejes principales es la proporción de variabilidad geométrica Pq V (X)q k=1 k Pq = 100 = 100 Pp V (X) k=1 k .

i) 0: La matriz de similaridades entre los elementos de es 0 1 s11 s12 ::: s1n B s21 s22 ::: s2n C B C S=B . . j) = s(j. en lugar de una distancia. 4. @ . 2. . . Las coordenadas principales son las columnas X1 . 5g y la matriz de distancias (al cuadrado): 1 2 3 4 5 1 0 226 104 34 101 0 26 104 29 2 3 0 26 9 0 41 4 5 0 Los valores propios de B son 1 = 130. lo que se mide es el grado de similaridad entre cada par de individuos. .4.3. SIMILARIDADES Ejemplo 8. 3. Similaridades En ciertas aplicaciones. 2 = 10. . . C . 3 = 4 = 5 = 0: Por lo tanto es matriz de distancias euclídeas y se puede representar en un espacio de dimensión 2. sn1 sn2 ::: snn .8. . X2 de: X1 X2 1 1 -8 -1 1 7 0 1 2 3 2 1 1 -3 2 1 4 5 2 -2 1 130 10 0 x 0 0 1 2 s 26 2 0 8. A . i) s(i. especialmente en Biología y Psicología.4..1 Consideremos 131 = f1. Una similaridad s sobre un conjunto …nito es una aplicación de en R tal que: s(i.

y como HSf = S0f H = 0. resulta que B = HAH = HSH: Por lo tanto: 1. d: Son conocidos los coe…cientes de similaridad: sij sij = a+d p (Sokal-Michener) (8. con p = a + b + c + d.8) donde Sf tiene todas sus …las iguales. X2 . la distancia dij es euclídea. j) consideremos la tabla j 1 0 i 1 a b 0 c d donde a. b. ESCALADO MULTIDIMENSIONAL (MDS) donde sij = s(i.7) (Jaccard) a = a+b+c que veri…can: sii = 1 sij = sji 0. :::Xp . Un coe…ciente de similaridad debería ser función de a. (1. rang(HSH) = rang(S) 1: 3. 2.0).1). d las frecuencias de (1. c. Si S es matriz (semi)de…nida positiva. b. (0.132 CAPÍTULO 8. j): Supongamos que tenemos p variables binarias X1 . Podemos transformar una similaridad en distancia aplicando la fórmula d2 = sii + sjj ij Entonces la matriz A = (d2 )=2 es ij A= 1 (Sf + S0f 2 2S). respectivamente. c. Las coordenadas principales se obtienen diagonalizando HSH: . 2sij : (8. Para cada par de individuos (i.1) y (0. donde cada Xi toma los valores 0 ó 1.0).

(i2 . . NOCIONES DE MDS NO MÉTRICO 133 8. pero conservando las relaciones de proximidad entre los elementos del conjunto : De…nición 8.9) La preordenación es. es evidente que bij tiene la misma preordenación (8.D}: A B C A 0 1 2 B 0 1 C 0 D D A B 3 0 1 2 0 1 0 C 1 1 0 D A B 1 0 1 1 0 0 0 C 1 1 0 D 1 1 1 0 las preordenaciones se pueden representar en 1.1) tiene valores propios negativos: 1 p >0> p+1 p0 : El fundamento del MDS no métrico es transformar las distancias ij para convertirlas en euclídeas.5.2.9). (ik . donde ' es una función positiva creciente. individuos próximos (alejados) según ij estarán también próximos (alejados) con respecto a b ij : Si además b ij es euclídea. j2 ) (im .B. j1 ) donde (i. Nociones de MDS no métrico Supongamos que la matriz de distancias es no euclídea. es decir. Si transformamos la distancia ij en bij = '( ij ). y por lo tanto. Por ejemplo. jk ) 2 Se trata de representar en un espacio que conserve la preordenación. 8. jm ). j) (i0 . respectivamente. de hecho.1 La preordenación asociada a la matriz de distancias la ordenación de las m = n(n 1)=2 distancias: i1 j1 i2 j2 im jm : es (8. 2 ó 3 dimensiones (Fig. si consideramos las tres matrices de distancias sobre {A.5.C.1). tendremos la .8. una propiedad asociada a podemos escribir (i1 . Entonces la matriz B (Teorema 8.5. j 0 ) si ij i0 j 0 : .

B (ver Teorema 8. aplicando. La transformación aditiva se de…ne como bij = + c si i 6= j 0 si i = j ij donde c > 0 es una constante. ESCALADO MULTIDIMENSIONAL (MDS) Figura 8. posibilidad de representar .2.1 Sea una matriz de distancias no euclídeas y sea p0 < 0 el menor valor propio de B: Entonces la transformación q-aditiva proporciona una distancia euclídea para todo a tal que a p0 : Demost. por ejemplo.1) veri…can b A= A a(I b J).5. Probemos ahora que la primera puede dar lugar a una distancia euclídea. Es evidente que las dos transformaciones aditiva y q-aditiva conservan la preordenación de la distancia. y se obtiene por regresión monótona.5. B = B aH: .: Sea b = (bij ) la matriz de distancias transformadas. Hay dos casos especialmente simples.1: Representación de 4 objetos conservando las preordenaciones relacionadas a tres matrices de distancias.134 CAPÍTULO 8. un análisis de coordenadas principales sobre la distancia transformada. la función ' no es lineal. De…nición 8. Las matrices b b A.2 La transformación q-aditiva de b2 = ij 2 ij ij se de…ne como 0 2a si i 6= j si i = j donde a < 0 es una constante. Teorema 8. pero conservando (aproximadamente) la preordenación. B y A. En general.

3. Transformar la distancia ij en la “disparidad” bij = '( ij ). Asociar a las distancias dij una con…guración euclídea p-dimensional. pero se expresa en forma de porcentaje. La representación es considerada buena si S no supera el 5 %. Para saber si la representación obtenida re‡ bien las distancias entre eja los objetos. Ajustar una distancia euclídea dij a las disparidades bij de manera que minimice X (dij bij )2 : i<j 4. donde ' es una función monótona creciente. denominada “stress” que veri…ca 0 .5. el método de Kruskal consiste en: 1. Fijar una dimensión Euclídea p: 2. De acuerdo con este criterio. Las disparidades conservan la preordenación de las distancias. pero los valores propios son 1 a p a>0> p+1 a p0 a. en cuyo caso B es semide…nida positiva. se calcula la cantidad v uP bij )2 u i<j (dij P . el mejor valor para la constante es a = p0 : Las transformaciones aditiva y no lineal son más complicadas y las dejamos para otro dia.8. De hecho. S 1. Por ejemplo. siguiendo criterios de minimización de una función que mide la discrepancia entre la distancia original y la transformada. y representar los n objetos a partir de las coordenadas de la con…guración. La mejor transformación q-aditiva es la que menos distorsiona la distancia original. b que son no negativos si a p0 . NOCIONES DE MDS NO MÉTRICO 135 Sea v vector propio de B de valor propio 6= 0: Entonces Hv = v y por lo tanto b Bv = (B aH)v = ( a)v: b Así B tiene los mismos vectores propios que B. los programas de MDS operan con transformaciones no lineales. S=t 2 i<j dij .

136

CAPÍTULO 8. ESCALADO MULTIDIMENSIONAL (MDS)

También es conveniente obtener el diagrama de Sheppard, que consiste en representar los n(n 1)=2 puntos ( ij ; dij ): Si los puntos dibujan una curva creciente, la representación es buena, porque entonces se puede decir que conserva bien la preordenación (Fig. 8.4).

8.6.

Distancias estadísticas

En esta sección discutiremos algunos modelos de distancias estadísticas.

8.6.1.

Variables cuantitativas

Siendo x = (x1 ; x2 ; : : : ; xp ); y = (y1 ; y2 ; : : : ; yp ) dos puntos de Rp : La distancia de Minkowsky se de…ne como
p X dq (x; y) = ( jxi i=1

yi jq )1=q ;

Casos particulares de la distancia dq son: 1. Distancia “ciudad” : d1 (x; y) = 2. Distancia Euclídea:
p X i=1

jxi

yi j

v u p uX d2 (x; y) = t (xi
i=1

yi )2

3. Distancia “dominante” : d1 (x; y) = max fjxi
1 i p

yi jg

Tienen también interés en las aplicaciones, la distancia normalizada por el rang Ri de la variable i 1 X jxi yi j ; dG (x; y) = p i=1 Ri
p

8.6. DISTANCIAS ESTADÍSTICAS

137

y, cuando los valores de las variables son positivos, la métrica de Canberra 1 X jxi yi j dC (x; y) = : p i=1 xi + yi dG y dC son invariantes por cambios de escala. Supongamos ahora dos poblaciones 1 ; 2 con vectores de medias 1 ; 2 y matrices de covarianzas 1 ; 2 : Cuando 1 = 2 = ; la distancia de Mahalanobis entre poblaciones es M 2(
1; 2) p

=(

1

0 2)

1

(

1

2)

Esta distancia, ya introducida previamente, es invariante por cambios de escala y tiene en cuenta la correlación entre las variables. Además, si Mp ; Mq ; Mp+q indican las distancias basada en p; q; p + q variables, respectivamente, se veri…ca: a) Mp Mp+q : 2 2 2 b) Mp+q = Mp +Mq si los dos grupos de p y q variables son independientes. No es fácil dar una de…nición de distancia cuando 1 6= 2 : Una de…nición de compromiso es (
1 0 1 2) [ (

2

1

+

2 )]

1

(

1

2 ):

8.6.2.

Variables binarias

Cuando todas las variables son binarias (toman solamente los valores 0 y 1), entonces conviene de…nir un coe…ciente de similaridad (Sección 8.4) y aplicar (8.8) para obtener una distancia. Existen muchas maneras de de…nir una similaridad sij en función del peso que se quiera dar a los a; b; c; d: Por ejemplo: sij = a a + 2(b + c) (Sokal-Sneath) (8.10)

2a sij = (Dice) (a + b)(a + c)

Las similaridades de…nidas en (8.7) y (8.10) proporcionan distancias euclídeas.

138

CAPÍTULO 8. ESCALADO MULTIDIMENSIONAL (MDS)

8.6.3.

Variables categóricas

Supongamos que las observaciones pueden ser clasi…cadas en k categorías excluyentes A1 ; : : : ; Ak , con probabilidades p = (p1 ; : : : ; pk ); donde Pk h=1 ph = 1: Podemos de…nir distancias entre individuos y entre poblaciones. 1. Entre individuos. Si dos individuos i; j tienen las categorías Ah ; Ah0 ; respectivamente, una distancia (al cuadrado) entre i; j es: d(i; j)2 = 0 si h = h0 ; 1 1 ph + ph0 si h 6= h0 :

Si hay varios conjuntos de variables categóricas, con un total de K categorías o estados, una similaridad es =K (“matching coe¢ cient” ), donde es el número de coincidencias. 2. Entre poblaciones. Si tenemos dos poblaciones representadas por p = (p1 ; : : : ; pk ); q = (q1 ; : : : ; qk ); dos distancias entre poblaciones son P da (p; q) = 2 k (pi qi )2 =(pi + qi ); i=1 P p pi qi ): db (p; q) = arc cos( k i=1

La primera es la distancia de Bhattachariyya, y se justi…ca considerando p y q como los vectores de medias entre dos poblaciones multinomiales con n = 1 (Sección 1.102.7). Las g-inversas (Sección 1.10) de las matrices de covarianzas son Cp = diag(p1 1 ; : : : ; pk 1 ); Cq = diag(q1 1 ; : : : ; qk 1 ):

Aplicando la distancia de Mahalanobis tomando el promedio de ambas ginversas se obtiene da (p; q): p p La distancia db (p; q) se justi…ca situando los puntos ( p1 ; : : : ; pj ) y p p ( q1 ; : : : ; qk ) sobre una hiperesfera de radio unidad y hallando la distancia geodésica. Véase la distancia de Rao.

8.6.4.

Variables mixtas

En las aplicaciones a menudo los datos provienen de las observaciones de p1 variables cuantitativas, p2 variables dicotómicas (dos estados: presente,

8.6. DISTANCIAS ESTADÍSTICAS

139

ausente) y p3 variables categóricas o cualitativas (más de dos estados). Un coe…ciente de similaridad (propuesto por Gower, 1971) es Pp1 (1 jxih xjh j=Rh ) + a + sij = h=1 ; (8.11) p1 + (p2 d) + p3 donde Rh es el rango de la variable cuantitativa Xh ; a y d son el número de dobles presencias y dobles ausencias de las variables dicotómicas, y es el número de coincidencias entre las variables categóricas. Si solamente hay variables dicotómicas o variables categóricas, sij reduce la similaridad normalizada por el rango, al coe…ciente de Jaccard o al “matching coe¢ cient” , respectivamente: P 1 p11 p1 jxh yh j=Rh si p2 = p3 = 0; h=1 a=(a + b + c) =p3 si p1 = p3 = 0; si p1 = p2 = 0:

Este coe…ciente veri…ca 0 sij 1; y aplicando (8.8) se obtiene una distancia euclídea que además admite la posibilidad de datos faltantes.

8.6.5.

Otras distancias

Existen muchos procedimientos para de…nir distancias, en función de los datos y el problema experimental. Veamos dos. Modelo de Thurstone Supongamos que queremos ordenar n estímulos ! 1 ; : : : ; ! n (por ejemplo, n productos comerciales) ! i1 ! in según una escala de preferencias i1 in ; donde los i son parámetros. Sea pij la proporción de individuos de la población que pre…eren ! j sobre ! i : Un modelo es Z j i 1 2 pij = p e t =2 dt: 2 1 Si más de la mitad de los individuos pre…eren ! j sobre ! i ; entonces Así:
i

<

j:

140

CAPÍTULO 8. ESCALADO MULTIDIMENSIONAL (MDS)
i i i

a) pij < 0;5 implica b) pij = 0;5 implica c) pij > 0;5 implica

> = <

j; j; j:

La estimación de los parámetros a partir de las proporciones pij es complicada. Alternativamente, teniendo en cuenta que pij + pji = 1 podemos de…nir la distancia entre estímulos d(! i ; ! j ) = jpij 0;5j

y aplicar un MDS sobre la matriz (d(! i ; ! j )): La representación de los estímulos a lo largo de la primera dimensión nos proporciona una solución a la ordenación de los estímulos. Distancia de Rao Sea S = ff (x; ); 2 g un modelo estadístico y z( ) = @@ log f (x; ) un vector columna. La matriz de información de Fisher F ( ) es la matriz de covarianzas de los z 0 s. Siendo a ; b dos valores de los parámetros. Una distancia tipo Mahalanobis sería el valor esperado de (z( a ) z( b ))0 F ( ) 1 (z( a ) z( b )):

Pero z depende de x y varía entre a ; b : Consideremos entonces a F ( ) como un tensor métrico sobre la variedad diferenciable S : La distancia de Rao entre a ; b es la distancia geodésica entre los puntos correspondientes de S : La distancia de Rao es invariante por transformaciones de las variables y de los parámetros, generaliza la distancia de Mahalanobis y tiene aplicaciones en estadística matemática. Veamos tres ejemplos. 1. Distribución de Poisson: f (x; ) = e x x =x!; x = 0; 1; 2; : : : : La distancia entre dos valores a ; b es: p p ( a ; b ) = 2j a b j:

2. Distribución multinomial. La distancia entre p = (p1 ; : : : ; pk ) y q = (q1 ; : : : ; qk ) es: k Xp (p; q) = arc cos( pi qi ):
i=1

Dos ejemplos Ejemplo 8.1787 .3446 .5207 -. bronce y hierro. para un valor …jo de .E y una vez examinadas. Distribución normal. como (z1 ( ) z2 ( ))0 F ( ) 1 (z1 ( ) z2 ( )): 8.6691 -.39 90.7.7.2968 D -.1 Un arqueólogo encontró 5 herramientas cortantes A.7). podemos de…nir la distancia entre dos observaciones x1 .1787 . Si vectores de medias es: 2 141 es …ja.01 . 44. obtenemos la matriz de similaridades: A B C D E A 1 1/2 1/2 0 0 1 1/3 0 1/2 B C 1 1/2 0 1 0 D E 1 Los resultados del análisis de coordenadas principales son: A . DOS EJEMPLOS 3.D. x2 que dan zi ( ) = @@ log f (xi .6841 -. conforme a la siguiente matriz de incidencias: Piedra Bronce Hierro A 0 1 0 B 1 1 0 C 0 1 1 D 0 0 1 E 1 0 0 Utilizando la similaridad de Jaccard (8.1245 valor propio 1.4822 .7.6691 -. 2. acum.1245 E .4822 .36 79. la distancia (al cuadrado) entre dos 2) ( 1.2968 B C -.360 1.5207 -. comprobó que estaban hechas de piedra.3258 porc.074 . =( 1 0 2) 1 ( 1 2 ): Finalmente.0000 . i = 1.8.B. ).C.

3).4 representa las distancias versus las disparidades.7. Orangerie. Aplicando un MDS no métrico. Fontaineblau.142 CAPÍTULO 8. 8.2 Una distancia genética es una medida que cuanti…ca las proximidades entre dos poblaciones a partir de las proporciones génicas.2: Representación por análisis de coordenadas principales de 5 herramientas prehistóricas. : : : . Fornia. que indica que la representación es buena. Viena. se dan en la Tabla 8. Foresta. La primera y segunda coordenadas explican el 80 % de la variabilidad geométrica. una distancia adecuada (propuesta por A. Thessaloniki.84. La Fig. con un “stress” de 2. 8. Zurich. pk ). Prevosti) es k 1 X jpi qi j 2r i=1 donde r es el número de cromosomas diferentes. Groningen. Por ejemplo. Las distancias entre n = 19 poblaciones de D. Suboscura que provienen de Droback. Las Mercedes. La representación (Fig. si existen k ordenaciones cromosómicas que se presentan en las proporciones (p1 . Ejemplo 8. Etna. Silifke. : : : . Huelva.2) indica que las herramientas quedan ordenadas según su antigüedad: E es la más antigua (sólo contiene piedra) y D la más moderna (sólo contiene hierro). 8. Fruska-Gora. Trabzon. Barcelona. qk ). Agadir. (q1 . . ESCALADO MULTIDIMENSIONAL (MDS) Figura 8. Chalus. Dalkeith. se obtiene la representación de las 19 poblaciones (Fig.1.

7 3 3 .4 8 9 .7 9 5 .9 4 1 .5 6 0 .6 5 9 .6 1 9 .5 8 0 .2 6 0 .4 1 3 .6 0 6 .6 3 1 .4 7 0 .8.4 2 9 .1 5 0 . DOS EJEMPLOS 143 D ro D a l G ro Fo n V ie Z u r H u e B a r Fo r Fo r E tn Fru T h e S il Tra C h a O ra A g a L a s D RO BA DALKE G RO NI F O N TA V IE N A Z U R IC H U E LV BARCE FO R N I FO R E S ETNA FRUSK THESS S IL IF TRABZ CHALU ORANG AG AD I LASM E 0 .5 1 9 .8 4 4 .4 5 2 .3 4 2 .7 4 9 .3 9 9 .3 0 9 .6 9 8 .6 4 2 .1 5 2 .3 6 3 .7 8 0 .4 4 4 .6 2 3 .5 1 4 .7 0 9 .5 0 5 .4 9 8 .5 4 5 .6 1 0 .8 4 6 .7 1 0 .5 9 2 .8 3 7 .6 3 6 .5 8 7 .3 1 5 .5 8 2 .4 1 2 .6 5 7 .1 9 5 .7 6 3 .8 0 3 .3 4 0 .6 4 9 .6 6 8 .7.4 3 9 .7 9 2 .4 0 8 .7 8 2 .5 5 1 .5 4 9 .5 4 4 .8 3 4 .6 4 8 .4 3 4 .8 1 3 .3 8 0 . Suboscura.5 2 4 .5 6 6 .6 1 5 .7 8 2 .6 0 9 .5 8 7 .8 0 1 .7 6 0 .4 6 9 .6 6 1 .5 1 4 .5 2 9 . .8 7 3 .3 9 2 .2 2 5 .5 0 2 .7 8 2 .5 7 4 .5 9 0 .8 6 4 .6 8 1 .7 6 1 .3 5 7 .6 4 6 .9 4 7 .1 8 7 .5 7 4 .1 2 0 .8 7 9 .4 4 2 .2 3 5 .5 0 0 .1 2 8 .6 1 5 .4 1 4 .6 9 6 .6 9 9 .4 1 4 .5 7 3 .8 6 7 .6 5 7 .5 3 1 .3 0 3 .3 9 6 .6 0 4 .4 3 0 Tabla 8.7 5 1 .6 9 5 .3 7 0 .6 9 3 .3 2 9 .7 6 4 .8 4 6 .2 5 9 .5 9 5 .6 7 5 .7 9 2 .8 1 7 .6 3 0 .4 8 5 .4 0 4 .4 1 8 .3 7 3 .1: Distancias genéticas respecto a las ordenaciones cromosómicas entre 19 poblaciones de D.5 7 7 .4 6 5 .5 4 0 .8 0 2 .1 1 2 .3 4 2 .5 1 9 .2 5 3 .7 8 9 .5 8 1 .8 1 8 .6 6 6 .7 9 0 .6 6 7 .4 6 0 .4 6 0 .4 8 5 .4 2 8 .6 4 3 .5 4 8 .2 6 9 .6 0 7 .6 8 0 .5 8 4 .6 3 5 .5 0 1 .4 3 8 .5 6 8 .7 6 0 .3 9 1 .5 3 5 .3 0 7 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 .3 0 0 .9 2 7 .1 7 7 .6 9 6 .9 3 1 .2 7 1 .2 8 6 .2 7 6 .4 5 1 .4 4 5 .3 2 1 .4 9 0 .4 8 9 .

144 CAPÍTULO 8. Subobscura respecto a las distancias genéticas entre ordenaciones cromosómicas. . ESCALADO MULTIDIMENSIONAL (MDS) Figura 8.3: Representación MDS de 19 poblaciones de D.4: Representación de las distancias genéticas vs las disparidades. Figura 8.

145 8. A nivel aplicado.8. Consultar Cuadras y Fortiana (1993a. La transformación q-aditiva fue estudiada por J. Consultar Cuadras y Arenas (1990). Burbea. Lingoes y K. Consultar Cox y Cox (1994). es de destacar a W. hasta que Cailliez (1983) encontró la solución de…nitiva.1995). se puede hacer regresión de una variable dependiente Y sobre las dimensiones principales obtenidas aplicando MDS sobre una matriz de distancias entre las observaciones. Carroll. Mahalanobis y C. el MDS comienza con el teorema de I. propuesto por J. Rao propusieron sus distancias en 1936 y 1945. (1996). . trar las coordenadas principales de una variable aleatoria.V. S. Mardia. Existen diferentes modelos para tratar el problema de la representación cuando actúan diferentes matrices de distancias.C. COMPLEMENTOS Para otros ejemplos. Complementos En un plano teórico. y Gower (1966). R. B. es el INDSCAL. Una versión del MDS. N. que en 1964 propuso algoritmos efectivos que permitían encontrar soluciones. Atkinson. Cuadras y Lahlou (2000). Un modelo. Cuadras et al. Mitchell. De la misma manera que se hace regresión sobre componentes principales. Oller y Cuadras (1985).8. Posteriormente Amari. Diversos autores estudiaron la transformación aditiva.C. Consultar Oller (1987). abriendo un fructífero campo de aplicación en la biología. que en 1962 introdujo el concepto de preordenación. El MDS no métrico es debido a R. denominada “continuous scaling” permite encon. y J. Oller y otros estudiaron la distancia de Rao. J. Kruskal. P. D. Un modelo reciente. respectivamente. es el “related metric scaling” . que en 1957 aplica el MDS a la psicología. Este modelo de regresión basado en distancias permite plantear la regresión con variables mixtas. Shepard. Schoenberg acerca de la posibilidad de construir las coordenadas de un conjunto de puntos dadas sus distancias. propuesto por Cuadras y Fortiana (1998) y Cuadras (1998). consúltese Baillo y Grané (2008). Torgerson. Cuadras (1988). que prueba su relación con el Análisis de Componentes Principales y el Canónico de Poblaciones.8.

ESCALADO MULTIDIMENSIONAL (MDS) .146 CAPÍTULO 8.

fIJ fJ BJ f1J f2J A1 A2 .1) P P donde fi = j fij es la frecuencia marginal de Ai . fI2 f2 . obteniendo n = ij fij observaciones. Supongamos que tenemos dos variables categóricas A y B con I y J categorías respectivamente. . AI f1 f2 .. . .1) 147 . f j = i fij es la frecuencia marginal de Bj : Debemos tener en cuenta que enrealidad la tabla (9. Introducción El Análisis de Correspondencias (AC) es una técnica multivariante que permite representar las categorías de las …las y columnas de una tabla de contingencia. .1.Capítulo 9 ANALISIS DE CORRESPONDENCIAS 9. donde fij es el número de veces en que aparece la interseccón Ai \Bj . dando lugar a la tabla de contingencia I J : B1 f11 f21 fI1 f1 B2 f12 f22 . y que han sido observadas cruzando las I categorías P A con las J categorías B. fI n (9.

Tenemos entonces que r= 1 0 1 X. . 0 . 0 . . . .148 CAPÍTULO 9. y por c el vector J 1 con los totales marginales de las columnas de P : r = P1. n es la matriz de correspondencias. 0 AI 0 .. 0 . . 1 . 1 . . i . Así. Se veri…ca X0 X = nDr . . . n c = P0 1: son los vectores de medias de las matrices de datos X. 1 B1 1 . y el individuo \n" las características AI y BJ : La matriz de datos n (I + J) es pues Z = [X. . . . . en la que damos el valor 1 cuando se presenta una característica y 0 cuando no se presenta. . . ... . 0 A2 0 . . n A1 1 . Indiquemos por r el vector I 1 con los totales marginales de las …las de P. . . las matrices diagonales que contienen los valores marginales de …las y columnas de P. respectivamente. que típicamente es de la forma: 1 . . Dc = diag(c). . Y]: A partir de ahora utilizaremos el nombre de variables …las y variables columnas a las variables A y B. 1 . X0 Y = nP = N: . 0 BJ 0 . .. . ANALISIS DE CORRESPONDENCIAS resume la matriz de datos inicial. . n c= 1 0 1 Y. . Y: Indiquemos además Dr = diag(r). Indiquemos por N = (fij ) la matriz I J con las frecuencias de la tabla de contingencia. 0 B2 0 .. 0 . La matriz 1 P = N. . . . . el individuo \i" presentaria las características AI y B2 . . . el individuo \1" presentaría las características A1 y B1 . . . Y0 Y = nDc ..

Bj . S12 = P rc0 : Puesto que la suma de las variables es igual a 1.9. : : : . : : : . Vk = bj : Deseamos encontrar a. La cuanti…cación 0 ó 1 anterior es convencional.AI de la variable …la. : : : .2. para que puedan ser manejadas en términos de AM clásico. indiquemos los vectores a = (a1 . : : : .10) de S11 es la matriz S11 = Dr 1 que veri…ca S11 S11 S11 = S11 : En efecto. salvo que ahora las matrices S11 y S22 son singulares. entonces los valores de U. estamos ante un problema de correlación canónica. bJ )0 . aI . Asignemos pues a las categorías A1 . entre columnas y entre …las y columnas. : : : . V = Yb: Si en un individuo k se observan las categorías Ai . V sobre k son Uk = ai . y consideremos las variables compuestas U = Xa.2. Una g-inversa (Sección 1. los valores numéricos a1 . b = (b1 . : : : . las matrices de covarianzas entre …las. son S11 = Dr rr0 . es que no son cuantitativas. b tales que las correlaciones entre U y V sean máximas. bJ . aI )0 . Cuanti…cación de las variables categóricas El problema de las variables categóricas. es decir.BJ de la variable columna. las matrices S11 y S22 son singulares. 9. S22 = Dc cc0 . Claramente. CUANTIFICACIÓN DE LAS VARIABLES CATEGÓRICAS 149 Por lo tanto. los valores numéricos b1 . (Dr rr0 )Dr 1 (Dr rr0 ) = (Dr = Dr = Dr = Dr rr0 )(I 1r0 ) Dr 1r0 rr0 +rr0 1r0 rr0 rr0 +rr0 rr0 : . y a las categorías B1 .

B0 = Dc 1=2 V: También obtenemos correlaciones máximas considerando las matrices A = Dr 1=2 UD . P (BJ =Ai ): La matriz de per…les de las …las es Q = Dr 1 P: .150 CAPÍTULO 9.3). y por lo tanto la solución general es ai = Dr 1=2 ui . B = Dc 1=2 VD . .3. no altera las correlaciones. : : : . m nfI. son las columnas de las matrices A0 = Dr 1=2 U. (9. 1=2 b = S22 v1 . ri ri piJ ). el primer valor singular es la máxima correlación entre las variables U y V: Pero pueden haber más vectores y correlaciones canonicas. v1 son los primeros vectores canónicos. los vectores que cuanti…can las categorías de las …las y de las columnas de N. i = 1. es decir. Jg: En notación matricial. podemos considerar la descomposición singular Dr 1=2 (P rc0 )Dc 1=2 = UD V0 .3) pues el producto por una constante (en este caso un valor singular). (9. tendremos entonces a = S11 u1 . 9. ri = i. ri Los per…les de las …las son ( . Representación de …las y columnas pi1 pi2 . las “probabilidades condicionadas”P (B1 =Ai ). ANALISIS DE CORRESPONDENCIAS Análogamente S22 = Dc 1 : Aplicando la teoria de la correlación canónica (Sección 4. bi = Dc 1=2 vi . : : : . Si u1 . 1=2 r= 1.2) donde D es la matriz diagonal con los valores singulares en orden decreciente. es decir.

siendo g el vector columna con los I elementos diagonales de G: La solución MDS ponderada de las …las de N (Sección 9. y la relación entre (2) =( 2 ii0 ) (2) y G es = g10 + 1g0 2G. . y seguidamente obteniendo las coordenadas principales A = Dr 1=2 UD : (9. REPRESENTACIÓN DE FILAS Y COLUMNAS De…nición 9.2) tenemos Dr 1=2 (P y de 1=2 Dr (Dr 1 P 1=2 1c0 )Dc 1 (P0 Dr 1 c10 )Dr = D1=2 (Q r 1=2 1r0 Q)Dc 1 (Q0 Q0 r10 )Dr .4) Las distancias euclídeas entre las …las de A coinciden con la distancia jicuadrado.9) se obtiene calculando la diagonalización D1=2 (I r 1r0 )G(I 1=2 r10 )Dr = UD2 U0 .3) y (9. i0 de N es 2 ii0 151 = J X (pij =ri j=1 pi0 j =ri0 )2 cj : La matriz de productos escalares asociada a esta distancia es G = QDc 1 Q0 . deducimos que D1=2 (I r 1r0 )QDc 1 Q0 (I 1=2 r10 )Dr = UD2 U0 : Esta última expresión demuestra que las matrices A obtenidas en (9. rc0 )Dc 1 (P0 cr0 )Dr 1=2 = UD2 U0 .1 La distancia ji-cuadrado entre las …las i.3.4) son la misma.9. De (9.3. Relacionemos ahora estas coordenadas con las cuanti…caciones anteriores.

B1 B2 . si consideramos las dos primeras coordenadas principales: A1 A2 . que representan las …las y las 1=2 columnas. Como además 10 P = c0 . b22 ) . vemos fácilmente que (c0 c0 )BD 1 = r0 A = 0: . 10 r = 1. b12 ) (b21 .4. Relación entre …las y columnas y representación conjunta Las coordenadas A y las coordenadas B. a12 ) (a21 . . premultiplicando por r0 10 (P rc0 )BD 1 = r0 A: rc0 )BD 1 = A: rc0 )Dc 1=2 V = Dr 1=2 U. BJ Columnas (b11 . . . aI2 ) obtenemos una representación de …las y columnas de la matriz de frecuencias N: 9. . Premultiplicando (9. (bJ1 . están relacionadas. coinciden con esta distancia ji-cuadrado. y probar que las distancias euclídeas entre las …las de la matriz B obtenidas en (9. . Así pues. a22 ) .3).152 CAPÍTULO 9.2) por Dr y postmultiplicando por V obtenemos Dr 1 (P luego Dr 1 (P Análogamente se prueba que Dc 1 (P0 cr0 )AD 1 = B: Si ahora tenemos en cuenta que r0 Dr 1 = 10 . ANALISIS DE CORRESPONDENCIAS Análogamente podemos de…nir la distancia ji-cuadrado entre columnas 2 jj 0 = I X (pij =cj i=1 pij 0 =cj 0 )2 ri . Filas (a11 . . bJ2 ) AI (aI1 . . .

075 0.225 0. se veri…ca: 1. : : : .025 B B r=B B @ 0 0. es decir. ponderadas por los per…les de las columnas.175 0 0 B 0.50 B Q = B 0. B C @ 0 0. I.225 0. Así pues tenemos que.20 . y la primera coordenada principal de las columnas veri…ca bj1 = 1 1 (a11 p1j p2j + a21 + cj cj + aI1 j = 1.9.175 0.80 0.5) Conviene notar que Dr 1 P son los per…les de las …las.1 contiene unos datos arti…ciales. C A 1 0. mediana.1125 0.15 0 1 0 0 0.45 c = @ 0. de las coordenadas de las columnas. c0 B = 0.125 1 C C C.50 0 C C 0. ponderadas por los per…les de las …las. (pues los elementos diagonales de D son menores que 1). Las coordenadas de las columnas son las medias. J: La Tabla 9.2 0. mayor) y los productos que compran en un supermercado.250 0. En consecuencia A = Dr 1 PBD 1 .075 0. las medias ponderadas de las coordenadas principales son cero. que clasi…can 400 clientes según la edad (joven.0875 0. Por ejemplo. : : : .40 A : 0.10 0.1125 0 C B C P = B 0. B = Dc 1 P0 AD 1 : (9.20 A 0.075 C . salvo el factor dilatador D 1 .33 0. la primera coordenada principal de las …las veri…ca: ai1 = 1 1 (b11 pi1 pi2 + b21 + ri ri + bJ1 piJ ).70 Tenemos: 0 1 0. RELACIÓN ENTRE FILAS Y COLUMNAS Y REPRESENTACIÓN CONJUNTA153 Análogamente. cj i = 1.0125 0. Las coordenadas de las …las son las medias.00 B 0.05 A 0. ri pIj ). y Dc 1 P0 son los per…les de las columnas.33 C C 0.4.33 B @ 0 0. La matriz de per…les de las …las es: 0 1. de las coordenadas de las …las. 2.

33 .7525 1 + 0 + 0) (. ANALISIS DE CORRESPONDENCIAS Edad Joven Mediana Mayor Total 70 0 0 70 45 45 0 90 30 30 30 90 0 80 20 100 35 5 10 50 180 160 60 400 Producto A B C D E Total Tabla 9. La representación conjunta es posible gracias a las fórmulas (9.5384 = 0. B es la solución simétrica.5 + 0) 1 (.6847 = 0.9231 0.0551 0.4522 .3012 3 Columnas 0.4522 .677 .6847 = 0.A5 veri…ca: 1.8 .0551 0. .1834 0.7525 0.0990 0. La representación utilizando las matrices A = Dr 1=2 UD . Las coordenadas principales son: 2 Filas 1.D.E son medias de las coordenadas de las tres edades.1834 0.1199 0.0397 0.154 CAPÍTULO 9.9231 0.7525 .6847 = 0.7 .6770 0.1: Clasi…cación de 400 clientes según edades y productos adquiridos en un supermercado.5 .3311: La primera coordenada principal de las …las A1 .677 . 9.5).2) 1 (.5.6847.33 .C.7525 .B.4213 0.4522 3 0. Soluciones simétrica y asimétrica La representación de …las y columnas utilizando las coordenadas principales A.677 . ponderadas por la incidencia del producto en la edad. : : : . 2 = 0.2393 5 0.6847 = 0.33) 1 (0 .0990 0.7571 2 7 7 7 B=4 7 5 Los valores singulares son: 1 = 0.677 .2) 1 Las coordenadas de las marcas A.1 .4815 0.5384 0.4522 .6847 1 6 6 A=6 6 4 (.1208 0. B0 = Dc 1=2 V.7525 .

1.2 relaciona los colores de los cabellos y de los ojos de 5. La Tabla 9.2: Clasi…cación de 5383 individuos según el color de los ojos y del cabello. B0 reproducen mejor la dependencia entre …las y columnas.455 286 2.774 98 48 403 681 81 1. es la llamada solución asimétrica.137 1.383 Tabla 9. y por lo tanto A.5. Esta solución veri…ca P rc0 = Dr AB00 Dc .1: Representación asimétrica (izquierda) y simétrica (derecha) de las …las (productos) y columnas (edades) de la Tabla 9.383 individuos. coordenadas principales para las …las y coordenadas estándard para las columnas. SOLUCIONES SIMÉTRICA Y ASIMÉTRICA 155 Figura 9. es decir.580 326 38 241 110 3 718 343 84 909 412 26 1. .391 114 5. Color ojos CLARO AZUL CASTAÑO OSCURO Total Color cabellos Rubio Rojo Castaño Oscuro Negro Total 688 116 584 188 4 1.9.311 1.

156 CAPÍTULO 9.2437 5 4 0. 3 = 0.2 proporciona las representaciones simétrica y asimétrica.0402 0. 2 = 0.2: Representación asimétrica (izquierda) y simétrica (derecha) de los datos de los colores de ojos y cabellos.5437 0.5891 0. Variabilidad geométrica (inercia) K X k=1 Vamos a probar que 2 =n 2 k.7002 3 2 Columnas 0.1727. .0477 0.6).6.4400 0.1722 0.1345 Los valores singulares son: 1 = 0.8 %: La Figura 9.0361 0.2324 0.449.1647 7 7 B=6 6 0.0292: De acuerdo con (9.0872 6 6 0.3996 0.2079 0. 9. ANALISIS DE CORRESPONDENCIAS Figura 9. Las coordenadas principales son: Filas 6 A=6 4 2 0.1070 1.2743 3 7 7 7 7 5 0. la variabilidad explicada por las dos primeras dimensiones principales es P2 = 86.0784 0.

1 V = Prueba: 2 ii0 2 : pi0 j =ri0 )2 cj I J J X pij = ( ri c j j=1 = Por lo tanto J X (pij =ri j=1 I pi0 j 2 ) cj ri0 cj Si desarrollamos por un lado PI i=1 1 XXX pij V = ri ( 2 i=1 i0 =1 j=1 ri cj PJ p2 ij 2 j=1 ri ri c2 cj ri0 j pi0 j 2 ) cj ri0 ri0 cj PI i0 =1 = = PI PI i=1 i=1 PI PJ i0 =1 p2 ij j=1 ri cj .9.6. que permite decidir si hay independencia entre …las y columnas de N: Es decir. VARIABILIDAD GEOMÉTRICA (INERCIA) siendo K = m nfI. El coe…ciente 2 de Pearson se de…ne como 2 = I J X X (pij i=1 j=1 2 ri cj )2 = : ri c j n Es fácil probar que también podemos expresar 2 I J X X p2 ij = ri c j i=1 j=1 1: La variabilidad geométrica ponderada de la distancia ji-cuadrado entre …las es I I 1 XX 2 ri 0 ri0 : V = 2 i=1 i0 =1 ii Proposición 9. PJ p2 ij j=1 ri cj ri0 .l. la ji-cuadrado es n veces la suma de los valores propios del AC. Jg y 2 157 =n I J X X (fij i=1 j=1 fi f j =n)2 fi f j el estadístico ji-cuadrado con (I 1)(J 1) g.6.

dado que PI PI PJ i=1 i0 =1 pij = cj .2 Prueba: Sea Entonces 2 2 2)=2. siendo 2 k: PJ pij pi0 j i0 =1 j=1 cj PJ pij cj j=1 cj = 1.6) .6. en la representación por AC de las …las y columnas de N en dimensión m. P p2 ij i. siendo a el vector columna que contiene los elementos de la diagonal de AA0 : Entonces 1 V = r0 2 Pero 1=2 1=2 r0 a = tr(Dr AA0 Dr ) = tr(UD2 U0 ) = tr(D2 ): (2) r = r0 a10 r + r0 1a0 r 2r0 AA0 r = r0 a: Lo hemos probado para m = K.3 La variabilidad geométrica utilizando sólo las primeras m coordenadas principales es V (m) = m X k=1 2 k: Prueba: Supongamos m = K: Podemos escribir la matriz de distancias entre …las como (2) = a10 +1a0 2AA0 . pero fácilmente vemos que la fórmula también vale para m < K: Así pues. el porcentaje de variabilidad geométrica o inercia viene dado por P Pm = 100 m Pk=1 K k=1 2 k : 2 k (9. vemos que V = ( + Proposición 9.j ri cj : = PK k=1 W = Dr 1=2 (P rc0 )Dc 1=2 = UD V0 : = tr(WW0 ) = tr(UD2 U0 ) = tr(D2 ): Proposición 9.6. ANALISIS DE CORRESPONDENCIAS PI i=1 y por otro lado. = = PI i=1 PI i=1 pij pi0 j j=1 ri ri c2 ri0 cj ri0 j PI = es decir.158 CAPÍTULO 9.

que es la interesante. AC nos daría una representación de las J1 + J2 columnas. pero esta segunda representación es innecesaria. . Z2 ]: c) Bu : El análisis a) lo hemos visto en las secciones anteriores. En los tres casos vemos que podemos representar las …las y columnas de N: Es posible demostrar que los tres análisis son equivalentes en el sentido de que proporcionan la misma representación. Analisis de Correspondencias Múltiples El AC combina y representa dos variables categóricas.9. considerada una matriz binaria con n …las y J1 + J2 columnas. A continuación podemos realizar tres análisis de correspondencias diferentes sobre las siguientes matrices: a) N: b) [Z1 . Pero se puede adaptar para estudiar más de dos variables. Z2 ]. variando sólo los valores propios. El resultado es una representación de …las y columnas de N: El análisis b) es sobre [Z1 .7. El análisis c) es sobre Bu que es la matriz simétrica de orden (J1 + J2 ) (J1 + J2 ): Tendremos una representación idéntica por columnas y por …las. donde F y C contienen las marginales de …las y columnas. Presentemos primero el procedimiento para dos variables.7. y también de los n individuos. ANALISIS DE CORRESPONDENCIAS MÚLTIPLES 159 9. que después generalizaremos. Z2 ]: Entonces tenemos que Bu = Z0 Z = Z01 Z1 Z01 Z2 Z02 Z1 Z02 Z2 =n Dr P P0 Dc : La matriz de frecuencias. Escribimos la matriz n (I + J) de datos binarios como una matriz n (J1 + J2 ) Z = [Z1 . Bu = F N N0 C es la llamada matriz de Burt.

Como en el caso Q = 2. donde Zj es n Jj y contiene los datos binarios de la variable j: La tabla de contingencia que tabula la combinación de las variables i. respectivamente.160 CAPÍTULO 9. ANALISIS DE CORRESPONDENCIAS Todo esto se describe en el cuadro que sigue. 5 4 .. El Anàlisis de Correspondencias Múltiples intenta representar los J = J1 + +JQ estados de las Q variables categòricas. salvo que se cumple la relación B k =( Z 2 k) . : : : . 7. Los dos procedimientos son equivalentes. 0 0 0 ZQ ZQ ZQ Z1 ZQ Z2 donde las matrices Z0j Zj són diagonales. . Z2 ] Bu = Z0 Z n Dimensión J1 J2 Coordenadas A (…las) B (columnas) A B A B Valor propio (J1 + J2 ) (J1 + J2 ) p 1+ 2 (J1 + J2 ) ( 1+2 )2 p Consideremos a continuación Q variables categòricas con J1 . : : : . j es Nij = Z0i Zj : La matriz de Burt. Zj . En el caso b) tenemos una tabla de frecuencias J J simétrica y podemos representar las …las (=columnas) aplicando AC simple. de orden n J es la super-matriz de indicadores Z = [Z1 . . : : : . de orden J J es 3 2 Z01 ZQ Z01 Z1 Z01 Z2 6 Z0 Z1 Z0 Z2 Z02 ZQ 7 2 7 6 2 Bu = Z0 Z = 6 . Sea J = J1 + + JQ : La tabla de datos. JQ estados. Tabla N = Z01 Z2 Z = [Z1 . . sobre n individuos. . . . . . Zq ]. . lo podemos llevar a cabo aplicando un AC simple sobre las matrices siguientes: a) Z: b) Bu : En el caso a) representamos las J columnas e ignoramos las n …las (individuos).

. .6: Así pues podemos constatar que AC puede servir también para representar más de dos variables categòricas.9. J1 = 4. solo mostramos 5 individuos) son de la forma: Edad >73 51-73 41-50 0 1 0 0 1 0 0 0 0 1 0 0 0 1 0 . Clase Alt Mit Obr 0 1 0 1 0 0 0 0 1 1 0 0 0 1 0 . . . . J = 12. véase Sección 9. k Z k 9. La Tabla 9. .8. . . EJEMPLOS 161 Z k entre los valores propios B obtenidos a partir de la matriz de Burt y los k que surgen del análisis sobre Z: Las inercias correspondientes son: 2 (Bu ) = (Z) = 2 siendo 2 (Nij ) la inercia para la tabla Nij . Ejemplos Ejemplo 9. . .1 La Tabla 9. Sexo H D 1 0 0 1 1 0 0 1 1 0 . . P P k B k = = 1 X [ Q2 i6=j J Q 1. . . . . intención de Voto (V) y Clase social (C). Votación 26-40 <26 Lib Con 0 0 1 0 0 0 0 1 0 1 1 0 0 0 0 1 0 0 1 0 . . . . .8.4 es la tabla de Burt. véase la Figura 9. El AC simple sobre esta tabla nos permite representar las 4 variables categóricas sobre el mismo grá…co. J2 = 2. Sexo (S). . 2 (Nij ) + (J Q)]. . Observemos que es simétrica. . .3 contiene las frecuencias con la clasifcación cruzada de 1257 individuos segun Edad (E). . . .3. . . . . . . . J4 = 2: Los datos iniciales (matriz Z. Tenemos Q = 4. J3 = 3.8.

sexo. clase social y tendencia de voto. clase social y tendencia de voto. . ANALISIS DE CORRESPONDENCIAS Hombres Derecha Izquierda Clase 4 0 27 8 27 4 17 12 7 6 Clase 8 4 21 13 27 12 14 15 9 9 Clase 8 15 35 62 29 75 32 66 14 34 Mujeres Derecha Izquierda alta 10 0 26 9 25 9 28 9 7 3 media 9 1 33 8 29 4 17 13 13 7 obrera 17 4 52 53 32 70 36 67 18 33 >73 51-73 41-50 26-40 <26 >73 51-73 41-50 26-40 <26 >73 51-73 41-50 26-40 <26 Tabla 9. sexo.3: Tabla de frecuencias combinando 1257 individuos según edad. 81 0 0 0 0 56 25 14 23 44 39 42 0 347 0 0 0 194 153 70 75 202 166 181 0 0 343 0 0 169 174 65 72 206 174 169 0 0 0 326 0 144 182 66 59 201 156 170 0 0 0 0 160 68 92 23 38 99 79 81 56 194 169 144 68 631 0 178 180 273 279 352 25 153 174 182 92 0 626 60 87 479 335 291 14 70 65 66 23 178 60 238 0 0 112 126 23 75 72 59 38 180 87 0 267 0 132 135 44 202 206 201 99 273 479 0 0 752 370 382 39 166 174 156 79 279 335 112 132 370 614 0 42 181 169 170 81 352 291 126 135 382 0 643 Tabla 9.4: Tabla de Burt con la clasi…cación de 1257 individuos según edad.162 Edad CAPÍTULO 9.

EJEMPLOS 163 Figura 9.5 contiene las frecuencias de supervivientes.2 La Tabla 9.3: Representación por análisis de correspondencias múltiples de los datos de la Tabla 9.1. primera 1. clasi…cadas por género (G).3. J = 10.9. mientras que mujeres.8. tercera 3 y tripulación T).8. Ejemplo 9. . supervivencia (S). J4 = 4: La Figura 9. edad (E) y clase (C. J2 = 2. Q = 4. J1 = 2. del hundimiento del vapor “Titanic” Ahora . la tripulación y la tercera clase están más cerca de NO supervivencia. niños y primera clase están más cerca de SÍ supervivencia.4 representa esta combinación de datos categóricos. Véase también el Ejemplo 14. Claramente los hombres adultos. J3 = 2.5. segunda 2.

5: Tabla de frecuencias combinando género. ANALISIS DE CORRESPONDENCIAS Género Hombre Mujer Hombre Mujer Hombre Mujer Hombre Mujer Edad Superv 1 2 3 T Adulto NO 118 154 387 670 4 13 89 3 Niño 0 0 35 0 0 0 17 0 Adulto SI 57 14 75 192 140 80 76 20 Niño 5 11 13 0 1 13 14 0 Tabla 9. de los datos de supervivencia del "Titanic". supervivencia y clase.5. . Figura 9.164 CAPÍTULO 9. .4: Representación por análisis de correspondencias múltiples de los datos de supervivencia del “Titanic” Tabla 9. edad.

7) w 2 g una descomposición espectral. MDS PONDERADO 165 9.2 La variabilidad geométrica ponderada de V = n 1X wi 2 i.j=1 2 ij wj g es 1 = w0 2 (2) g w: Las coordenadas principales son las …las de X: Escribiendo X = [X1 . podemos interpretar las columnas de X como variables. Xp ]. : : : . MDS ponderado En esta sección introducimos una variante del Análisis de Coordenadas Principales. donde 2 = diag( 2 .9.1 Sea g = ( ij ) una matriz de distancias g (w1 . wg )0 un vector de pesos tal que w1= 0 g X i=1 g. siendo 1 (2) )(Ig w10 )D1=2 = U 2 U0 .9. : : : .9. De…nición 9. wi 0. Las variables Xk (columnas de X) tienen medias ponderadas iguales a cero: X k = w0 Xk = 0: Prueba: w0 (Ig 1w0 ) = w0 w0 = 0 ) w0 XX0 w = 0 ) w0 X = 0: . 2 ) contiene los val1 p (2) 2 ores propios y g = ( ij ): D1=2 (Ig 1w0 )( w De…nición 9. w = wi = 1.9.8) 2 g Propiedades: 1.9. X2 . (9. : : : . y consideremos la matriz diagonal Dw =diag(w): La solución MDS ponderada de g es la matriz X = Dw 1=2 U . Observemos que se veri…ca 1 (2) (Ig 1w0 )( )(Ig w10 ) = XX0 : (9.

la variabilidad geométrica ponderada es: V (q)= q X k=1 2 k: . p: k k P Prueba: si la media de x1 . : : : . ANALISIS DE CORRESPONDENCIAS 2. : : : . k w k donde 2 k es el valor propio de vector propio Uk : 3. 4. xg es 0. k 6= k 0 = 1. es Prueba: Expresemos la matriz de distancias al cuadrado como (2) g = 1d0 +d10 2XX0 . i es decir. 1=2 s2 = D1=2 Xk X0k Dw = (U0k k )( k Uk ) = 2 . Xk0 ) = D1=2 X0k Xk0 D1=2 = w w ya que los vectores propios son ortogonales. la varianza ponderada es wi x2 . Xk0 ) = 0. k = 1. : : : . siendo d un vector g parte 1 0 w 2 Por otra parte 1 con los elementos diagonales de XX0 : Por una (2) g w = w0 1d0 w w0 XX0 w = d0 w: 1=2 1=2 d0 w =tr(Dw XX0 Dw ) =tr(U 2 U0 ) =tr( 2 ): 5.166 CAPÍTULO 9. La variabilidad geométrica ponderada de V = p X k=1 2 k: g = 0. p: 2 0 k Uk Uk 0 Prueba: puesto que las medias son nulas la covarianza ponderada es cov(Xk . Si tomamos las q primeras coordenadas principales de X. Las varianzas ponderadas de las variables Xk son iguales a los valores propios: s2 = 2 . Las variables (columnas de X) están incorrelacionadas cor(Xk .

9.9. MDS PONDERADO

167

Estudiemos ahora la relación entre el Análisis de Coordenadas Principales ordinario (Cap. 8) y el ponderado. Supongamos que podemos expresar el vector de pesos como 1 w = (n1 ; n2 ; : : : ; nk ); n n=
g X i=1

ni ;

donde ni son enteros positivos y el peso wi es igual (o muy próximo 1 ) a ni =n: Indiquemos por M la matriz n g que contiene ni …las (0; : : : ; 1; : : : ; 0): Por ejemplo, si g = 3 y n1 = 2; n2 = 3; n3 = 1; entonces B B B M=B B B @ 0 1 1 0 0 0 0 0 0 1 1 1 0 0 0 0 0 0 1 1 C C C C: C C A

Si ahora suponemos que en vez de g objetos tenemos n objetos, pero el primer objeto está repetido n1 veces, el segundo objeto n2 veces, etc., entonces la matriz de distancias es
n

=M

gM

0

; es

(9.9)

y el análisis no ponderado sobre la matriz (In 1 0 1 11 )( n 2
(2) n )(In

n

e siendo U la matriz n es

p de los vectores propios. La solución no ponderada e Y = UD :

1 0 e e 11 ) = UD2 U0 = YY0 ; n

(9.10)

Teorema 9.9.1 La solución no ponderada Y sobre n coincide con la solución ponderada X sobre g ; en el sentido de que obtenemos Y repitiendo n1 ; : : : ; ng veces las …las de X:
1

Tomando n su…cientmente grande, podemos aproximarlo tanto como queramos.

168

CAPÍTULO 9. ANALISIS DE CORRESPONDENCIAS

Prueba: De (9.9) podemos expresar la solución no ponderada (9.10) como (In Se veri…ca 1 0 1 11 )M( n 2 (In
(2) 0 g )M (In

1 0 11 ) = YY0 : n 1g w0 ):

1 0 11 )M = M(Ig n Por lo tanto, de (9.8) tenemos M(Ig 1w0 )(

1 (2) w10 )M0 = MXX0 M0 ; g )(Ig 2 que demuestra que Y = MX: En otras palabras, las coordenadas principales no ponderadas Y son el resultado de repetir n1 ; : : : ; ng veces las coordenadas X: La relación entre los valores singulares es ek = g
k;

k = 1: : : : ; p:

Por ejemplo, si g = 3 y n1 = 2; n2 = 3; n3 = 1; obtenemos 0 1 x11 x12 B x11 x12 C 0 1 B C x11 x12 B C @ x21 x22 A ; Y = B x21 x22 C : X= B x21 x22 C B C x31 x32 @ x21 x22 A x31 x32

9.10.

Complementos

El Análisis de Correspondencias (AC) tiene una larga historia que se inicia en 1935 (H.O. Hirschfeld, R.A. Fisher, L. Guttman). Ha sido extensamente estudiado por Benzécri (1973) y Greenacre (1984). Utilizando coordenadas estándard A0 = (a0 ); B0 = (b0 ); podemos exik jk presar la matriz de correspondencias P = (pij ) como P = rc0 + Dr A0 D B00 Dc : Indicando r = (p1 ; : : : ; pI )0 ; c = (p 1 ; : : : ; p J )0 los vectores marginales de …las y columnas de P, la expresión escalar es pij = pi p j (1 +
K X k=1 0 0 k aik bjk ):

9.10. COMPLEMENTOS P Si el término entre paréntesis = K k=1 para que log(1 + ) ; entonces
0 0 k aik bjk ;

169 es su…cientemente pequeño

log pij = log pi + log p j +

K X k=1

0 0 k aik bjk ;

que se adapta a un modelo log-lineal (Sección 11.5), donde cuanti…caría el término de interacción. El AC sería pues una manera de visualizar los términos de interacción (van der Heijden y de Leeuw, 1985). CA veri…ca el “principio de equivalencia distribucional” si dos per…les de : columnas son idénticos, es decir, pij pij 0 = ; cj cj 0 i = 1; : : : ; I;

entonces las columnas j; j 0 de N pueden juntarse y ser reemplazadas por su suma. En efecto, cuando se cumple este principio pij 0 pij + pij 0 pij = = : cj cj 0 cj + cj 0 Luego [( pi0 j 2 pij 0 pi0 j 0 2 pij + pij 0 pi0 j + pi0 j 0 2 pij ) ( )] cj +[( ) ( )] cj 0 = [( ) ( )] (cj +cj 0 ); ri c j ri0 cj ri c j 0 ri0 cj 0 ri (cj + cj 0 ) ri0 (cj + cj 0 )

entre dos …las de N; que tiene la ventaja de no depender de los per…les de las columnas. Sin embargo los resultados pueden ser muy similares (Cuadras et al, 2004), y el método basado en esta distancia resulta más apropiado cuando las …las se ajustan a poblaciones multinomiales distintas. Una forma alternativa de presentar el AC es el “reciprocal averaging” (RA). Supongamos que queremos encontrar las coordenadas (a1 ; : : : ; aI ) de

y la distancia ji-cuadrado queda inalterada si juntamos las columnas j y j 0 : Una variante del AC propuesta por Rao (1995), se basa en la distancia de Hellinger J q Xq e2 0 = ( pij =ri pi0 j =ri0 )2 ; ii
j=1

170

CAPÍTULO 9. ANALISIS DE CORRESPONDENCIAS

las …las como medias ponderadas de las coordenadas de las columnas y recíprocamente, las coordenadas (b1 ; : : : ; bJ ) de las columnas como medias ponderadas de las coordenadas de las …las: ai =
J X j=1

bj

pij ; ri

bj =

I X i=1

ai

pij : cj

Pero estas relaciones no se pueden veri…car simultáneamente (por razones geométricas obvias), así que hemos de introducir un factor multiplicativo > 1 y escribir ai =
J X

pij bj ; ri j=1

bj =

I X i=1

ai

pij : cj

(9.11)

El objectivo del RA es encontrar las coordenadas veri…cando (9.11) tal que sea mínimo. Entonces es posible probar que = (1= )2 es un valor propio. Esto mismo lo podemos plantear para la segunda y siguientes coordenadas y probar la equivalencia entre RA y AC. Los cálculos del RA se efectúan iterativamente, y es útil (especialmente en ecología), cuando la matriz de frecuencias N tiene dimensión grande y contiene muchos ceros (Hill, 1973). Por otra parte se conoce a (9.11) como la mejor representación baricéntrica sobre un eje (Lebart et al., 1977). Una extensión interesante del AC es el “Canonical Correspondence Analysis“ (Ter Braak, 1986), que tiene en cuenta, para la representación, que los ejes sean combinación lineal de variables externas. Tiene aplicaciones en ecología, dado que permite relacionar las comunidades biológicas con las variables ambientales. Además del análisis de correspondencias múltiples, se pueden también representar tablas de contingencia múltiples mediante “mosaicos” La Figura . 9.5 contiene la representación en mosaico de los datos del Titanic, Tabla 9.5. Véase Friendly (1994, 1999). Una extensión continua del AC considera una densidad bivariante h(x; y) con densidades marginales f (x); g(y); y la descomposición singular f (x)
1=2

h(x; y)g(y)

1=2

=

1 X k=1

k uk (x)vk (y);

(9.12)

donde f k ; k 1g son correlaciones canónicas y fuk ; k 1g; fvk ; k 1g son sistemas de funciones ortonormales (Lancaster, 1969). Hay una interesante

9.10. COMPLEMENTOS

171

Figura 9.5: Representación en “mosaico” de los datos de supervivencia del “Titanic” Tabla 9.5. , semejanza entre (9.12) y el AC, pues muchas propiedades se conservan. Véase una comparación sistemática en Cuadras et al. (2000) y Cuadras (2002b). El AC ha sido también comparado con otros métodos de representación de tablas de contingencia (Cuadras et al., 2006), propiciando una versión paramétrica que los engloba a todos (Cuadras y Cuadras, 2006). Para una amplia visión del Análisis de Correspondencias y sus variantes, véase Greenacre (2008).

172 CAPÍTULO 9. ANALISIS DE CORRESPONDENCIAS .

donde + signi…ca reunión disjunta. literatura. ! 2 . Esta relación de…ne una partición sobre en m clases de equivalencia: = c1 + c2 + + cm . que abreviadamente indicaremos = f1. 2. : : : . industria. A la partición la llamaremos clustering y a las clases de equivalencia clusters. que a menudo tiene un nombre que lo caracteriza. 173 .1. Los trabajadores en actividades profesionales: servicios. familias y órdenes. Los animales en especies. Introducción Clasi…car los elementos de un conjunto …nito consiste en realizar una partición del conjunto en subconjuntos homogéneos. ng: Clasi…car es también de…nir una relación de equivalencia R sobre . agricultura. siguiendo un determinado criterio de clasi…cación. :::. Los libros de una biblioteca en arte. ciencia. informática y viajes. Sea = f! 1 . ! n g un conjunto …nito con n elementos diferentes.Capítulo 10 CLASIFICACION 10. Cada elemento pertenece a un único subconjunto. Así clasi…camos: Las personas en hombres y mujeres. géneros.

5g = De…nición 10.2.1 Una jerarquía indexada (C. 2. Por ejemplo. Por ejemplo. etc. c0 . 2g + f3. si n = 5. un género es reunión de especies. es decir. CLASIFICACION 10. Jerarquía indexada Las clasi…caciones pueden ser jerárquicas o no jerárquicas . Es decir. fig 2 C: (c) (c0 ) si c c0 : . El primer axioma signi…ca que si tenemos dos clusters. El segundo axioma signi…ca que cada cluster es reunión de los clusters que contiene.174 CAPÍTULO 10. en el reino animal.: Se trata de evitar que un elemento de pertenezca a dos clusters excluyentes a la vez. Diremos que una jerarquía es total si: 8i 2 . c c0 . 4g + f5g = f1. ya que entonces estaría mal clasi…cado. uno está incluido en el otro o ambos son disjuntos. una clasi…cación jerárquica es: = f1g + f2g + f3g + f4g + f5g = f1. . 4. ó c0 c. ó c \ c0 = . 2 C: Comentarios: 1. c0 2 C entonces c \ c0 2 fc. 8i 2 . c0 La reunión de todos los clusters es el conjunto total: cg: = [fc j c 2 Cg: El índice es una aplicación de C sobre el conjunto de números reales positivos tal que: (i) = 0. 2g + f3.2. reuniendo clusters obtenemos clusters más amplios. ) sobre está formada por una colección de clusters C }( ) y un índice tal que: Axioma de la intersección: Si c. Una clasi…cación jerárquica es una sucesión de clusterings tal que cada clustering se obtiene agrupando clusters. una familia es reunión de géneros.g: Axioma de la reunión: Si c 2 C entonces c = [fc0 j c0 2 C.

izquierda.ERC0 .IC0 . ) iRx k: cij ) i.PP.ER} es: C ={CU0 . ) (cij ) x. etc. Tenemos entonces las siguientes particiones o clusterings: = = = = 3 }. IC}1.2. (10. siendo (fig) = 0 x: Simétrica: Evidente.5 (derecha.2. Teorema 10. Transitiva: Sea cij el mínimo cluster que contiene i. centro) fCU. en clases La relación (10.PSC0 . La partición se llama clustering al nivel x: Ejemplo 10. PSC (Partido Social Catalán). . PP}1 . donde el índice está indicado como un subíndice: (CU)=0. (CU. y análogamente cjk : Entonces : iRx j ) i.1 Para todo x 0 la relación binaria Rx sobre los elementos de iRx j si i.: La relación Rx es: Re‡ exiva: iRx i ya que i 2 fig. que justi…camos en la sección siguiente. JERARQUÍA INDEXADA 175 3. IC. k 2 cjk. k 2 cjk. k 2 cij. Cuanto más grande es el cluster más heterogéneo es. Nombre del clustering fCUg + fPPg + fPSCg + fICg + fERg 0 (partidos) fCU.PSC.5 . a) cij b) cjk cjk ) i. siendo (c) x. (cjk ) x.IC.1 Consideremos n = 5 partidos políticos: CU (Conveniencia y Unión). ICg + fER} 1. para cada x 0.{PSC. ERC}2 .1) es de equivalencia. j 2 c.10. Demost.PP0 .1) de…ne.2. PPg + fPSC. PP (Partido Pragmático).{PSC. j 2 cij.{CU.1. El índice mide el grado de heterogeneidad de cada cluster. PPg + fPSC. IC. j.PP)=1. Un ejemplo (hipotético) de jerarquía indexada sobre ={CU. ER} 2 (coaliciones) 3 (parlamento) La representación de esta clasi…cación se encuentra en la Figura 10. ) cij \ cjk 6= . jRx k ) j. una partición de de equivalencia. IC (Iniciativa Catalana) y ER (Entente Republicana).

j) = u(j. de orden n 1 u1n u2n C C . j) La matriz U = (u(i. uii = 0: . u) es una estructura formada por un conjunto …nito y una función distancia u sobre veri…cando. Por ejemplo. j).. k). k)g: n es la matriz de distancias ultramétricas . @ . para todo i.3. Como veremos más adelante. Comunidades Autónomas y Provincias (sólo vamos a considerar 8) es: Nación 8 > > > > > > > > > > < Autonomías Provincias 8 < Huesca Teruel Aragon : 8 Zaragoza > Barcelona > < Gerona > > Catalunya > > > > Lerida > > > : > Tarragona > > : Madrid Madrid Espa~a n Una generalización de las llaves es el árbol ultramétrico. . unn uij = uji = u(i. De…nición 10. .1 Un espacio ultramétrico ( . . Geometría ultramétrica Para presentar una clasi…cación utilizamos llaves. C . llamado dendograma. i): Propiedad ultramétrica: u(i. j. k de : No negatividad: u(i. j) u(i. A . una jerarquía indexada puede ser visualizada mediante un grá…co sencillo e intuitivo. u(j.176 CAPÍTULO 10. CLASIFICACION 10. i) = 0: Simetría: u(i. j)) 0 u11 u12 B u21 u22 B U =B . . la clasi…cación divisiva de Nación. . un1 un2 supfu(i. .3.

Teorema 10. j. j en un nudo 0 por encima de : Así u(k. k). Entonces k se relaciona con i. k) + u(j. j). k) supfu(i. entonces: u(i. j) = u(i. j) es la base. u(j. k)g = u(i. k)g = u(j. j) es el lado más pequeño. sin ciclos con un punto llamado raiz y n puntos extremos equidistantes de la raiz. k) = u(j.2 Un triángulo fi.3. kg es un arbol ultramétrico.3 Un árbol ultramétrico (también llamado dendograma) es un grafo conexo. k): De…nición 10. como muestra la Figura 10. Sea u(i. kg formado por tres elementos de es ultramétrico si es isósceles y su base es el lado más pequeño. j) + .3. j). u) un espacio ultramétrico. . Entonces podemos representarlo mediante un árbol ultramétrico con extremos los elementos de : Demost.2 En un espacio ultramétrico todo triángulo es ultramétrico. j. j) supfu(i. si u(i. u(i.2.3. k): supfu(i. entonces u(i. k)g u(i. es decir. j) u(i.: Sea fi. la distancia vertical hasta el nudo que liga i con j: Consideremos un triángulo fi.1 Una distancia ultramétrica veri…ca la desigualdad triangular y por lo tanto es métrica. Demost. Hay una versión del Teorema 10.3.10. k) =) u(i.: Supongamos el árbol en posición vertical. u(j. Una propiedad importante es que todo espacio ultramétrico ( . Demost. k) = u(j. i) = u(k.: u(i. jg es el lado más pequeño. GEOMETRÍA ULTRAMÉTRICA 177 Proposición 10. donde 0 0 es la distancia vertical entre y : Esto demuestra que fi.3 Sea ( .3. k): Teorema 10. Sea u(i. k) De…nición 10. Es decir. u) se puede “dibujar”mediante un dendograma. j.3.2. j medida como la mitad de la mínima longitud de las aristas verticales que unen i con j. kg y supongamos que fi. j) la distancia entre los extremos i. k) u(j.1 para distancias ultramétricas. j. kg un triángulo.

j. i) = 0 x: Simétrica: u(i. Teorema 10. k) x. kg un triángulo ultramétrico con base fi. entonces u es distancia ultramétrica. k) u(i. entonces la relación binaria Rx sobre los elementos de iRx j si u(i. kg veri…ca: u(i. j) u(j.2) es de equivalencia para todo x 0. Entonces la relación Rx es: Re‡ exiva: u(i. k): . j) = u(j. si la relación (10. k) = u(i.2) es de equivalencia para todo x 0. j. j) x. u) un espacio métrico. jg: entonces tenemos u(i.4 Sea ( . que nos demuestra la transitividad.178 CAPÍTULO 10. CLASIFICACION Figura 10.1: Representación en árbol ultramétrico (dendograma) de cinco partidos políticos.: Supongamos que u es ultramétrica.3. Supongamos ahora que Rx es de equivalencia y que el triángulo fi. Si u es distancia ultramétrica. (10. j) u(j. i) x: Transitiva: Sea fi. Demost. Recíprocamente.

cj ) = mínimo: Entonces uniendo ci con cj . cb ). k): Entonces u(i. GEOMETRÍA ULTRAMÉTRICA 179 Sea x = u(j. cb ) supfu(ca . cb ). ci [ cj )g: (10. ci )g = supfu0 (ca . ci ) = u(ck . cb ) = u(ca . cb . j: Consideremos el triángulo fca .2. se puede de…nir una distancia ultramétrica u0 sobre los m 1 clusters del clustering = c1 + + ci [ cj + + cm : Demost. k) x = u(j. tendremos que u(i. Otra propiedad importante es que juntando elementos próximos de seguimos manteniendo la propiedad ultramétrica. j. k) y por lo tanto el triángulo fi. cj ): De…nimos: u0 (ck . ci ) = u(ck . u0 (ca . k) ) u0 (i. b 6= i. k) x ) u(i. kg es ultramétrico. kg es un triángulo ultramétrico con base fi. ci ).10. k) = u(j. j.: Si fi. a.3) Finalmente. Proposición 10. por la propiedad ultramétrica tenemos que u(ck . k): .: Si k 6= i.6 Si u es distancia ultramétrica y u0 = '(u) es una transformación de u donde ' es una función positiva monótona (creciente o decreciente). ci [ cj g: Entonces: u0 (ca .3. jg y ' es monótona. ci )g = supfu0 (ca . j) u0 (i. j) u(i. ci [ cj ) = u(ca . u(cb .1. j. entonces u0 es también distancia ultramétrica. k 6= i. cb ). u0 (cb . ci [ cj ) = u(ck . cj los dos clusters más próximos: u(ci . u0 (cb . Teorema 10. k) = u(i. j) x. k) = u0 (j. cb ) = u(ca . y esto vale para cualquier clustering.3. la propiedad ultramétrica es invariante por transformaciones monótonas. La Figura 10. j.5 Supongamos que sobre los m clusters del clustering = c1 + c2 + + cm hay de…nida una distancia ultramétrica u: Sean ci . u0 (ca . u(cb . ci [ cj )g. cj ).3. u(j. ci ) supfu(ca . ci [ cj ). Demost.1 contiene el dendograma correspondiente a la jeraquía indexada del ejemplo 10. k) por la transitividad de Rx : Esto demuestra que u(j.

3. El fundamento de este algoritmo consiste en el hecho de que. cj ) = mínimo. Ambas estructuras son equivalentes.5. cada vez que unimos ci con cj tal que u(ci . (10.3. Los unimos fig [ fjg = fi. k). en virtud del Teorema 10. Nos lo permite el siguiente Algoritmo fundamental de clasi…cación Sea ( .5). Comencemos con la partición: = f1g + + fng: 2. j. j) = mínimo.5. . ).4. j los dos elementos más próximos: u(i. 3. jg + + fng k 6= i. k) = u(j. Un espacio ultramétrico es una estructura geométrica. Sean i. y repitamos el paso 2 hasta llegar a : En este proceso. de…nimos el índice (ci [ cj ) = u(ci .180 CAPÍTULO 10. jg y de…nimos la nueva distancia ultramétrica u0 u0 (k. conservamos la propiedad ultramétrica. Equivalencia entre jerarquía indexada y ultramétrica Una jerarquía indexada es una estructura conjuntista. fi.4) 10. cj ): El resultado de este proceso es una jerarquía indexada (C. jg) = u(i. u) un espacio ultramétrico. juntando elementos o clusters más próximos. CLASIFICACION 10. Algoritmo fundamental de clasi…cación A partir de un espacio ultramétrico podemos construir una jerarquia indexada. (ver Teorema 10. 1. Consideremos la nueva partición: = f1g + + fi.

k)g: La posibilidad de construir una jerarquía indexada a partir de una distancia ultramétrica es una consecuencia del algoritmo fundamental de clasi…cación. j. 2n .5.10.3) permite de…nir de manera inequívoca una distancia entre un cluster y la unión de los dos clusters más próximos. C . fj. j) = (cij ) u(j. Esta propiedad es la que otorga importancia a la distancia ultramétrica.: A partir de (C. @ .6. Tenemos que cik \ cjk 6= . en relación a unas variables observables.6. 10. ALGORITMOS DE CLASIFICACIÓN JERÁRQUICA 181 Teorema 10. 2. Demost. k 2 cjk ) cij cik ) i. ) de…nimos la siguiente distancia u(i. . j)) de orden n n entre los elementos de un conjunto : 0 1 B 21 B =B . k) = (cjk ) u(i. j. k) = (cik ) Así pues: u(i. Comentarios: 1. ij = ji = (i.3. . ) una jerarquía indexada total sobre un conjunto : Entonces podemos de…nir una distancia ultramétrica u sobre : Recíprocamente. A . . Obsérvese además que (10. j.1 Sea (C. j. todo espacio ultramétrico ( . kg un triángulo y sean también cik . y por tanto (axioma de la intersección) hay dos posibilidades: a) cik b) cjk cjk ) i. n1 n2 nn C C . j). ii = 0: . j) = (cij ). Sea fi.4).. kg. u(j.. Obsérvese la analogía entre el Teorema 10.5 y el algoritmo fundamental de clasi…cación. u) de…ne una jerarquía indexada (C. ). donde cij es el mínimo cluster (respecto a la relación de inclusión) que contiene i. hemos obtenido una matriz de distancias = ( (i. k 2 cik ) cij cjk ) u(i. 11 12 1n 22 . k). El índice de la jerarquía viene dado por (10. j) supfu(i. Algoritmos de clasi…cación jerárquica Supongamos que. j) = (cij ) cik ) u(i. cjk los mínimos clusters que contienen fi. kg respectivamente.

Comencemos con la partición: = f1g + + fng: 2. Los unimos fig [ fjg = fi.5) donde f es una función adecuada. j los dos elementos más próximos: (i. j) = mínimo. fi. k 6= i.182 CAPÍTULO 10. jg + + fng. jg y de…nimos la distancia de un elemento k al cluster fi. (j. de…nimos el índice (ci [ cj ) = 0 (ci .6) La función f en (10. en el sentido de que juntaremos los elementos o clusters más próximos. Basta con aplicar el algoritmo fundamental de clasi…cación (Sección 10. CLASIFICACION Si la distancia es ultramétrica. j.3. El resultado de este proceso es una jerarquía indexada (C. cj ) = mínimo. y repitamos el paso 2 hasta llegar a : En este proceso. jg 0 (k. ). k)). entonces no hay ningún problema para llevar a cabo una clasi…cación construyendo una jerarquía indexada. Sean i. 3. cj ): (10. El algoritmo de clasi…cación se basa en el Teorema 10.5. k). cada vez que unimos ci con cj tal que (ci . jg) = f ( (i. Algoritmo de clasi…cación Sea ( .4). ) un espacio métrico.5) se de…ne adecuadamente a …n de que se cumpla la propiedad ultramétrica. y procuraremos obtener triángulos ultramétricos. . Pero en general no cumple la propiedad ultramétrica y por lo tanto hemos de modi…car adecuadamente este algoritmo. (10. Consideremos la nueva partición: = f1g + + fi. 1.

4) 0 7 5 0 (1. 2. j. 4) (1.1.6. fj. . k) = a (j. fi. kg.5). 4) 0 5 (1. (j. k 6= i. 2. jg se transforme en ultramétrico 0 (i. Una primera elección conveniente de f consiste simplemente en tomar el valor más pequeño de los dos lados fi. 2) 3 4 0 3 4 0 2 0 5 (1. k). kg del triángulo fi. 2g1 . Método del mínimo Los diferentes métodos de clasi…cación jerárquica dependen de la elección de f en (10. 3. k). 3. f1. 2. jg) = m nf (i. es decir: 0 (k. f1. ALGORITMOS DE CLASIFICACIÓN JERÁRQUICA 183 10. jg. 2) 0 3 8 ! (3. (i. ) asociada a una matriz ultramétrica U : 1 2 3 4 5 1 0 1 3 4 7 2 0 4 4 8 = 3 0 2 8 4 0 7 5 0 (1. hacemos que el triángulo (i.7) En otras palabras. 4g3 . 0 1 2 3 4 5 1 0 1 3 3 7 2 0 3 3 7 (C. f5g0 . 3. ) ! U = 3 0 2 7 4 0 7 5 0 7g El método del mínimo produce una distancia ultramétrica u que goza de la siguiente propiedad. 2. k)g. Sea una matriz de distancias sobre = f1.10. jg 0 (i. 2) 3 ! 4 5 5 7 ! 7 0 5 7 ! C = ff1g0 . k) = 0 (j. : : : . k) = a: Ejemplo. 4) 7 (1. f3. 2) (3. 3. 4.6. 4g2 . kg con base fi. j: (10. 5g: El método del mínimo proporciona una jerarquía indexada (C.

es decir: 0 (k.2. k). jg. j) (i. fj. entonces la columna k tendrá elementos repetidos. 8i. entonces: a) si es estrictamente más pequeña es evidente que u > u. (j. k) = b: El método del máximo produce una distancia ultramétrica u que goza de la siguiente propiedad. A la vista de este resultado. j).: Sean fi. j) tendrá términos repetidos iguales a una distancia 0 construida tomando un mínimo. kg.6. kg con base fi. 10. u(i.7. CLASIFICACION U = fu j u es ultrametrica. . (i.8) En otras palabras. jg) = maxf (i. jg (i. j): La columna k (6= i. k) = 0 (j. Véase también el Teorema = 10. kg del triángulo fi. hacemos que el triángulo se convierta en ultramétrico 0 (i. podemos decir que u es la mejor aproximación a por defecto.6.3. k 00 ) pero es igual a alguna . k 6= i. j) u(i. k) (j. j. jg 0 (i. fi. b) si u(k 0 . u 2 U.1 Sea CAPÍTULO 10. y al menos uno será superior a 0 : Contradicción. Si u es otra distancia ultramétrica. jg los elementos más próximos. j) = (i. j)g el conjunto de distancias ultramétricas más pequeñas que : Entonces la distancia ultramétrica u resultante de aplicar el método del mínimo es el elemento máximo de U u(i.184 Teorema 10. j: (10. Entonces u(i. j 2 : Demost. El razonamiento es parecido si consideramos un cluster c y un elemento k 2 c: Compárese con U en el ejemplo anterior. k)g. Método del máximo Una segunda elección razonable de f consiste en tomar el valor más grande de los dos lados fi. k) = b. k 00 ) es más grande que u(k 0 .

ALGORITMOS DE CLASIFICACIÓN JERÁRQUICA Teorema 10. y veri…can: u(i.2 Sea U = fu j u es ultrametrica. j) Hay igualdad u = (i. Teorema 10.3 Los métodos del mínimo y del máximo son invariantes por transformaciones monótonas de la distancia : 0 = '( ) ) u0 = '(u) 0 donde u. y ' es una función monó- Demost. j) u(i. u es elemento máximo y es único. j)g 185 el conjunto de distancias ultramétricas más grandes que : Entonces la distancia ultramétrica u resultante de aplicar el método del máximo es un elemento minimal de U u(i.6. u es elemento minimal y no es único.6. u. una notable propiedad de los métodos del mínimo (también conocido como single linkage) y del máximo (complete linkage) es que conservan la ordenación de la distancia .: En el proceso de encontar la ultramétrica sólo intervienen los rangos de los valores de . j). u0 son las ultramétricas asociadas a . El método del mínimo sólo tiene una solución.6. = u si y sólo si 2. 3. 4. tona positiva. u 2 U. en el sentido de la Proposición 10. j 2 : Así u es la mejor aproximación a Comentarios: 1. que son los mismos que los rangos de los valores de 0 : . j) u(i. 8i. El método del máximo puede tener varias soluciones. por exceso. Las distancias u.3. u(i. j): es ultramétrica. Finalmente. entonces la solución obtenida aplicando el método del máximo es única y por tanto u es elemento mínimo .10. j) (i.6. Si todos los elementos fuera de la diagonal de la matriz de distancias son diferentes.

im )g supfsupfu(i . : : : . Proposición 10. r) una bola cerrada de centro i0 y radio r : B(i0 .7. im 1 ). : : : . Otras propiedades del método del mínimo Una propiedad de la distancia ultramétrica dice que todo elemento de una bola es también centro de la propia bola.3 Se veri…ca: .7.2 Sea fi1 . r): La demostración es inmediata. r) verif ica B(i. ng y una distancia sobre : Sea ahora De…nición 10.2 Indiquemos sup[i. j = im g: De…nición 10. j) = nf sup[i. i +1 )j = 1.7.7. im ) supfu(i . : : : . Tenemos: u(i1 . CLASIFICACION 10. También se veri…ca: Proposición 10. j]m = sup 1 m (i . im g: Se cumple la desigualdad u(i1 . i +1 ) el máximo salto de la cadena [i. m 2g. Supongamos cierto para m 1.1 Sea B(i0 . i +1 )j rg: = 1. im ) supfu(i1 .1 Una cadena [i. r) = fi 2 j u(i0 . m 1g: Demost. j]m m Teorema 10. r) = B(i0 . i +1 )j = 1.7. : : : .7. m 1g: = f1. i) Entonces 8i 2 B(i0 .186 CAPÍTULO 10. im )g supfu(i . u(im 1 . : : : . : : : .: Por recurrencia sobre m. i2 . j]m : De…nimos la distancia sobre u(i. u(im 1 . Para m = 2 es la desigualdad ultramétrica. j]m es el conjunto fi = i1 . 2.

k). Aplicando la Proposición 10. k]g Teniendo en cuenta (10. OTRAS PROPIEDADES DEL MÉTODO DEL MÍNIMO 1. Demost. jg es una cadena que une i. k. j] [ [j. k. j]. j]m nf sup[i. j) nf sup[i. k.9) deducimos que u(i. k] podemos construir [i. Si u es otra ultramétrica tal que u : entonces u u: 187 3. k)g . j): m Conviene comparar este resultado con el Teorema 10. j]. j) 1 sup u(i . j]. j] = supfsup[i. j.7. i m +1 ) sup[i. . j]m Por lo tanto u(i. j] = [i.9) 0 m m Por otra parte. u es la ultramétrica que se obtiene por el método del mínimo. [j. j]m = u(i. dadas las cadenas [i.7. j.: [i.10. u es una ultramétrica tal que u 2. j) Sea ahora u supfu(i. k] de modo que sup[i. j y por lo tanto u(i.6. j pero que contiene k: El conjunto de las cadenas [i. u(j. k] está contenido en el conjunto de las cadenas [i. k] una cadena que une i. sup[j. j]m0 (10. j]2 Sea [i. j) sup[i. Por lo tanto: nf sup[i.1.2 u(i. j]2 = fi.

unos 150 artículos internacionales. s(j.2: Representación mediante un dendograma que agrupa 11 profesores según los artículos publicados conjuntamente. Ejemplos Profesores. algunos en colaboración. consideramos el coe…ciente de similaridad s(i. j)g: Calculando d(i. Un grupo de n = 11 profesores de probabilidades y estadística de la Universidad de Barcelona han publicado. j)= m nfs(i. entre 1994 y 2000.8. j) = número de artículos que i. j) = 1 s(i. j han publicado juntos: De…nimos entonces la disimilaridad d(i. j) para cada par de profesores.188 CAPÍTULO 10. 10. i). obtenemos la siguiente matriz de distancias: . CLASIFICACION Figura 10. Con la …nalidad de agrupar los profesores según los artículos que publicaron juntos.

Por ejemplo. Húngaro.. Noruego y Polaco.33 1 1 1 1 0 1 1 0.06 1 1 0. Gallego.75 1 1 1 Cua For Mar Nua Oli Oll Rov San 189 Sar 0 0. Midiendo objetivamente sus diferencias en relación a las letras que describen los números 1 a 10. EJEMPLOS Are Arenas 0 Corcuera 1 Cuadras 0. Filandés. 2 y 5 profesores. Véase Oliva et al. Castellano.83 Marquez 1 Nualart 1 Oliva 1 Oller 1 Rovira 1 Sanz 1 Sarra 1 Cor 0 1 1 1 1 1 0. a esta matriz de disimilaridades. Los idiomas tienen semejanzas y diferencias entre sus palabras.93 1 0 1 1 1 1 0 1 1 1 0 0.11 0 1 0.75 0 1 1 1 0. Francés. y entre Español (Castellano) e Italiano sólo hay 17. 10.33 0.2. (1993) para más detalles. duplicación. 2. Holandés. estadística matemática (EM) y análisis estocástico (AE). .33 1 1 1 1 0 1 1 1 1 0. etc. se pretende agrupar jerárquicamente 14 idiomas europeos: Alemán. que trabajan en análisis multivariante (AM).) al escribir cada uno de los números 1. Catalán. Danés. respectivamente.10.25 0 Aplicando un análisis cluster.. . obtenemos el dendograma de la Figura 10.. Idiomas. Este grá…co pone de mani…esto que hay tres grupos principales con 4. Inglés. entre Inglés y Noruego hay 27 diferencias (sumando las que hay para cada uno de los números del 1 al 10). Italiano. método del mínimo (single linkage). Vasco.50 Fortiana 0.8. añadido. La disimilaridad entre cada par de idiomas se calcula sumando el número de letras que cambian (por supresión.

190 CAPÍTULO 10. La matriz de disimilaridades es: Ale Alemán 0 Inglés 29 Vasco 45 Catalán 34 Castellano 32 Danés 30 Filandés 58 Francés 33 Gallego 32 Holandés 19 Húngaro 42 Italiano 37 Noruego 29 Polaco 45 Ing Vas Cat Cas Dan Fil Fra Gal Hol Hun Ita Nor Pol 0 44 28 29 26 55 32 27 25 38 35 27 44 0 45 46 43 59 46 44 43 45 46 43 53 0 17 27 57 13 13 43 40 22 29 44 0 31 55 24 7 32 42 17 32 36 0 59 33 26 29 36 32 3 44 0 59 55 56 56 60 58 56 0 23 33 38 24 33 45 0 33 40 15 27 38 0 37 36 28 42 0 45 36 52 0 33 0 42 44 0 Sobre esta matriz de disimilaridades se lleva a cabo un análisis cluster .3: Representación mediante un dendograma (método del mínimo) de 14 idiomas europeos. CLASIFICACION Figura 10. Las disimilaridades iniciales se obtiene a partir de las diferencias al escribir los números del 1 al 10.

Comenzar con g puntos del espacio Rp y asignar los objetos a g clusters de acuerdo con la proximidad (distancia euclídea) a los g puntos iniciales. Claramente se aprecia que los idiomas de origen latino se agrupan. puesto que tendremos una máxima dispersión entre clusters. Clasi…cación no jerárquica Una clasi…cación no jerárquica de n objetos en relación a una matriz de datos cuantitativos X. El resultado es el dendograma de la Figura 10. que también se agrupan. aunque son dos idiomas bastante distintos. Algunos criterios.10. estamos en la misma situación contemplada en el Cap. en relación a algún criterio. método del míunimo (single linkage). El Polaco y el Húngaro. necesitaríamos formar más de 1023 clusters si n = 50. g = 3: Por tanto. justi…cados por el análisis multivariante de la varianza. número muy grande incluso para valores moderados de n y g: Por ejemplo. manteniendo una cierta similaridad con las lenguas anglosajonas. 7. CLASIFICACIÓN NO JERÁRQUICA 191 jerárquico.9. son: a) Minimizar tr(W) b) Minimizar jWj: c) Minimizar = jWj=jTj: d) Maximizar tr(W 1 B): Pero la cantidad de maneras diferentes de agrupar n objetos en g clusters es del orden de g n =g!.9.3. . El método de las medias móviles consiste en: 1. consiste en obtener g grupos homogéneos y excluyentes (clusters). dará una solución al problema. forman un cluster. 10. Si tenemos g clusters. El Vasco y el Filandés se mantienen separados de las otras lenguas. es necesario seguir algún algoritmo de agrupación. y podemos considerar la descomposición de la variabilidad total T=B+W Una partición en g clusters que hace máxima B o mínima W.

192 CAPÍTULO 10. Krzanowski. W(k + 1) empieza con k = 1 y aumenta k si H(k) crece signi…cativamente de acuerdo con una aproximación a la distribución F. Otro criterio considera dif(k) = (k y elige k tal que maximiza cl2 (k) = dif (k)=dif (k + 1): Pero cl1 i cl2 no estan de…nidos para k = 1: Un tercer criterio propone el estadístico W(k) H(k) = ( 1)=(n k 1). xk ) disminuye a cada paso. Hartigan. Es posible probar que la suma de cuadrados de las distancias euclídeas de los puntos de cada cluster al centroide g n XX k=1 i=1 d2 (xki .10. Calcular los centroides de los g clusters obtenidos y reasignar los objetos según su proximidad al centroide de cada cluster. 1)2=p W(k 1) k 2=p W(k) . Número de clusters Diversos autores (Calinski. 10. Harabasz. g 1 n g donde B(k). 1999). W(k) indican las matrices entre-grupos y dentro-grupos para k grupos. Lai) han propuesto métodos para estimar el número de clusters sde una clasi…cación. Es éste un tema abordado desde muchas perspectivas (véase Gordon. 3. Normalmente el usuario determina el número k de clusters. Un primer criterio consiste en tomar el valor k tal que maximice la cantidad cl1 (k) = tr(B(k)) tr(W(k)) = . Parar cuando jWj ya no disminuye. calculando cada vez la cantidad jWj (o el criterio de optimización escogido). Repetir el paso anterior. CLASIFICACION 2.

donde cada densidad fi representaría un cluster y f la densidad de los datos que hemos observado. Gower conjeturó en 1971 que toda distancia ultramétrica era euclídea con dimensión n 1. y clasi…caciones jerárquicas de las distancias.11. Heiser. Pero si una distancia mide razonablemente las diferencias entre los objetos. obteniendo una concordancia de un 60 % con la clasi…cación tradicional basada en la similitud morfológica de las plantas. que permitía clasi…car animales y plantas según género y especie. dado que la propiedad ultramétrica ya era conocida en otros campos de la matemática. diversos autores relacionaron las clasi…caciones jerárquicas con los espacios ultramétricos (Benzecri.10. 1997) que el planteamiento correcto del análisis cluster consiste en encontrar mixturas f (x) =p1 f1 (x) + +pg fg (x). También se ha argumentado (Flury. Posteriormente. comparan el cambio de W(k) respecto al cambio esperado para a una distribución apropiada de referencia E(log jW(k)j) log jW(k)j: 10.11. Kruskal). un resultado que sería probado por Holman (1972). jerárquica o no. Incluso se han realizado clasi…caciones de las propias maneras de clasi…car. Véase Gordon (1999). Sneath. Michener). (2001) proponen un método que contempla también el caso k = 1: Partiendo del resultado de cualquier clasi…cación. Crithcley. entonces se pueden obtener clasi…caciones objetivas aplicando análisis cluster jerárquico. Interesó entonces estudiar la relación entre representaciones en árbol y en coordenadas (Bock. C. en el año 1999 se realizó la clasi…cación jerárquica del reino vegetal a partir de distancias entre secuencias de DNA. Johnson). Jardine. Complementos La historia de la clasi…cación comienza con la sistemática de Carl von Linné. Sibson. J. Critchley y Heiser . Una crítica que se ha hecho al análisis cluster es el excesivo repertorio de distancias y métodos de clasi…cación. COMPLEMENTOS 193 Tibshirani et al. Por ejemplo. Hartigan (1967) y Johnson (1967) son dos referencias importantes para representar matrices de similaridades (o disimilaridades) mediante dendogramas y relacionarlos con las clasi…caciones jerárquicas. La clasi…cación moderna (denominada taxonomía numérica) se inicia en 1957 con la necesidad de proponer criterios objetivos de clasi…cación (Sokal.

. k) (j. Consúltese Everitt (1993). (1996). que consiste en de…nir la distancia de un cluster a la unión de dos clusters en función de unos parámetros. Simpson propusieron el método de clasi…cación denominado ‡ exible. a pesar del resultado de Holman. Jardine y R. N.J. Ball. CLASIFICACION (1988) probaron que. es posible representar un espacio ultramétrico con una sola dimensión utilizando una métrica adecuada. fi. Hall. Dando valores a los parámetros se obtienen los métodos siguientes (se incluye denominación estándar): Criterio de agrupación i j Mínimo (single linkage) 1/2 1/2 Máximo (complete linkage) 1/2 1/2 Media (weighted average link) 1/2 1/2 UPGMA (group average link) ni =(ni + nj ) nj =(ni + nj ) 0 0 0 0 1=2 +1=2 0 0 UPGMA (Unweighted pair group method using arithmetic averages) es un método recomendable porque proporciona una clasi…cación que se ajusta bien a la distancia inicial en el sentido de los mínimos cuadrados. j) + j (i. jg) = i (i.H. E. inicialmente 0 (k.194 CAPÍTULO 10. k)j. Diday y otros propusieron algoritmos e…cientes de agrupación no jerárquica. k) + (i. G. y análogamente en los siguientes pasos. por ejemplo. Un estudio de los vectores propios y las dimensiones principales de una matriz de distancias ultramétricas es debido a Cuadras y Oller (1987). k) + j (j. D. Véase también Cuadras y Carmona (1983) y Cuadras et al.

determinar si un tumor es benigno o maligno. Este problema aparece en muchas situaciones: decidir si se puede conceder un crédito.1) 195 .1. xp ). X1 . R2 = fxjD(x) < 0g: 1. Introducción Sean 1 . :::. :::. xp ) las observaciones de las variables sobre un individuo !. y que a menudo es planteado mediante una función discriminante D (x1 . nos equivocaremos si asignamos ! a una población a la que no pertenece. 2: En la decisión de clasi…car. 2 dos poblaciones. Entonces la regla de clasi…cación es Si D (x1 . :::. x = (x1 .Capítulo 11 ANALISIS DISCRIMINANTE 11.Xp variables observables. El problema es asignar ! a una de las dos poblaciones. :::. La probabilidad de clasi…cación errónea (pce)es pce = P (R2 = 1 )P ( 1) + P (R1 = 2 )P ( 2 ): (11. Una regla discriminante es un criterio que permite asignar !. xp ) 0 asignamos ! a en caso contrario asignamos ! a Esta regla divide Rp en dos regiones R1 = fxjD(x) > 0g. identi…car la especie a que pertenece una planta.

3) M 2 (x. 2: 1 ( 2 1+ 2) 0 1 ( 1 2) : (11. 1 ) = x0 1 x+ 2 x0 1 x 0 = ( 2 1) 2x0 1 2 0 1 1 1 + 2x 1 ( 2 + 1 ) + 2x0 2 1 1 1 1 ( 1 2) De…nimos la función discriminante L (x) = x Tenemos que M 2 (x. 2: Un primer criterio de clasi…cación consiste en asignar ! a la población más próxima: Si M 2 (x. y supongamos que la matriz de covarianzas es común.196 CAPÍTULO 11. 2 .2) es Si L(x) >0 asignamos ! a en caso contrario asignamos ! a 1. (11. tenemos: M 2 (x. 1 ) = 2L(x) L(( 1 + 2 ) =2) La función lineal (11. 1 ) < M 2 (x. 2 ) asignamos ! a 1 . 11. ANALISIS DISCRIMINANTE 11.2. 2 ) M 2 (x. Las distancias de Mahalanobis de las observaciones x =(x1 . i ) = (x 0 i) 1 (x i ). Clasi…cación en dos poblaciones Discriminador lineal Sean 1 . 2 ) y la regla (11.2) en caso contrario asignamos ! a 2 : Expresando esta regla como una función discriminante. i = 1. xp )0 de un individuo ! a las poblaciones son M 2 (x. : : : . respectivamente.2. 2 los vectoros de medias de las variables en 1 .1. .3) es el discriminador lineal de Fisher.

1 La regla de Bayes minimiza la probabilidad de clasi…cación errónea.2. Regla de la máxima verosimilitud Supongamos que f1 (x) . CLASIFICACIÓN EN DOS POBLACIONES 197 11. : : : . i = 1. 2: 11. 2: El discriminador de Bayes es B (x) = log f1 (x) log f2 (x) + log (q1 =q2 ) : Cuando q1 = q2 = 1=2. xp ).11.2.2. entonces B (x) = V (x) : Este discriminador es óptimo .2. 2: P ( i =x) = q1 f1 (x) + q2 f2 (x) La regla de clasi…cación de Bayes es Si P ( >P ( 2 =x) asignamos ! a en caso contrario asignamos ! a 1 =x) 1. q1 + q2 = 1: Una vez que se dispone de las observaciones x =(x1 . 2 : Una regla de clasi…cación consiste en asignar ! a la población donde la verosimilitud de las observaciones x es más grande: Si f1 (x) >f2 (x) asignamos ! a en caso contrario asignamos ! a La función discriminante es V (x) = log f1 (x) log f2 (x) : 1.3.2. se conocen las probabilidades a priori de que ! pertenezca a cada una de las poblaciones q1 = P ( 1) . q2 = P ( 2) . las probabilidades a posteriori de que ! pertenezca a las poblaciones (teorema de Bayes) son qi fi (x) . . f2 (x) son las densidades de x en 1 . Teorema 11. Regla de Bayes En ciertas situaciones.

donde R2 = fxjB(x) <0g: 11. entonces (x 1) 1 + 2 (x 0 2) 1 1 V (x) = 2 (x = L(x) 0 1) (x 2) y por tanto los discriminadores máximo verosímil y lineal. y a 2 si x 2R2 .3.198 CAPÍTULO 11. R2 son regiones complementarias del espacio muestral. coinciden. tenemos que la esperanza de U = (x 1 )0 1 (x 1 ) es E(U ) =E[(x 0 2) 1 (x 2) + + 2(x 0 2) 1 ( 2 1 )] =p+ . y de 0 0 1 2 E(x 2 )(x 2 ) = .Xp en y en 2 es Np ( 2 . el segundo basado en el criterio de la mínima distancia. Indicando dx =dx1 dxp : La probabilidad de clasi…cación errónea es R R pce = q1 R f1 (x)dx+q2 R f2 (x)dx 2 1 R R R = R (q1 f1 (x) q2 f 2 (x))dx+q2 ( R2 f2 (x)dx+ R f2 (x)dx) 1 R 2 = R (q1 f1 (x) q2 f 2 (x))dx+q2 : 2 Esta última integral es mínima si R2 incluye todas las x tal que q1 f1 (x) q2 f 2 (x) <0 y excluye toda las x tal que q1 f1 (x) q2 f 2 (x) >0: Por tanto pce es mínima si R2 = R2 . Clasi…cación en poblaciones normales 1 Supongamos ahora que la distribución de X1 . es decir. fi (x) = (2 ) p=2 i 1 1=2 es Np ( 1 .: Supongamos que se dispone de otra regla que clasi…ca a 1 si x 2R1 . .1. 1) expf 1 (x 2 0 i) 1 i (x i )g: 11. de x 1 = x 2 + 2 1 . donde R1 .3. ). (x 2 ) (x 2 ) p . 2 ). ANALISIS DISCRIMINANTE Demost. Discriminador lineal 1 Si suponemos 6= 2. Sea la distancia de Mahalanobis entre las dos poblaciones =( 1 0 2) 1 ( 1 2 ): Si suponemos que x proviene de Np ( 2 . :::. 1 = 2 1 = .

): 11. y conocemos las probabilidades a 2 ) . 2 2 = P ((L(x) donde (z) es la función de distribución N (0. ) es p 1p 1 )= ) = ( ).11. ) si x proviene de Np ( 1 . 11.2.4. priori q1 = P ( 1 ) . (11. Probabilidad de clasi…cación errónea 2 La probabilidad de asignar x a P (L(x) <0j 1) cuando proviene de Np ( 1 .3. q2 = P ( = 2 = .4) 1 L(x) es N ( 2 . y la función discriminante de Bayes es el discriminador lineal más la constante log(q1 =q2 ): 11. ) si x proviene de Np ( 2 . ). 1): La probabilidad de clasi…cación errónea es 1p ): pce = q1 P (L(x) <0j 1 ) + q2 P (L(x) >0j 2 ) = ( 2 Por tanto pce es una función decreciente de la distancia de Mahalanobis entre las dos poblaciones.3. 1 6= 2 : Entonces el criterio de la máxima verosimilitud proporciona el discriminador 1 Q (x) = 2 x0 1 0 +2 2 1 2 1 2 2 1 2 1 1 0 1 x + x0 1 1 1 1 1 1 + 2 log j 1 1 2 2j 1 2 2 log j 1j .3. entonces es fácil ver que B(x) =L(x)+ log(q1 =q2 ). CLASIFICACIÓN EN POBLACIONES NORMALES y la varianza de V = (x var(V ) = E(( 2 0 2) 0 1) 1 199 (x (x 2) es la misma que la de L(x) y es 0 2) 1 1 2 )(x ( 2 1 )) = : Entonces encontramos fácilmente la distribución de la función discriminante L(x) : 1 L(x) es N (+ 2 .3. Discriminador cuadrático Supongamos 1 6= 2 . Regla de Bayes 1 Si suponemos 1 6= 2 .3.

2 por las matrices de covarianzas S1 . Clasi…cación cuando los parámetros son estimados En las aplicaciones prácticas. . x2 . 2 .1 Mytilicola intestinalis es un copépodo parásito del mejillón. 2 x2 ) : donde = (x1 (x1 11. pero la distribución asintótica es normal: b L(x) es N (+ 1 . y 1 .200 CAPÍTULO 11.5. ).3. ANALISIS DISCRIMINANTE Q(x) es el discriminador cuadrático. 1 ) si x proviene de Np ( 2 . Un ejemplo Ejemplo 11.3. que en estado larval presenta diferentes estadios de crecimiento. 2 son desconocidos y se deberán estimar a partir de muestras de tamaños n1 . S2 : Si utilizamos el estimador lineal. ) si x proviene de Np ( 1 . Análogamente podemos obtener el discriminador cuadrático de Bayes B(x) =Q(x) + log(q1 =q2 ): 11.3. ). 2 b L(x) es N ( x2 )0 S 1 1 2 . 1 . a = anchura. Sobre una muestra de n1 = 76 y n2 = 91 copépodos que se pudieron identi…car al microscopio como del primero y segundo estadio respectivamente. 2 por los vectores de medias x1 . El primer estadio (Nauplis) y el segundo estadio (Metanauplius) son difíciles de distinguir. 1 . entonces la estimación de será S =(n1 S1 + n2 S2 )=(n1 + n2 ) y la versión muestral del discriminador lineal es 1 b (x1 + x2 )]0 S L (x) = [x 2 1 (x1 x2 ) : b La distribución muestral de L (x) es bastante complicada.6. n2 de las dos poblaciones sustituyendo 1 . se midieron las variables l = longitud.

6 1 22.4 31.5 138. CLASIFICACIÓN EN POBLACIONES NORMALES 201 Figura 11.9 57.02 31.3.97 152.1 9.6 (461. 285.1: Discriminadores lineal y cuadrático en la clasi…cación de copépodos.316 1. anch) = ((long.4 31.94 .9 1.2 x2 = S2 = Estadio-2 ( 241.8 Discriminador lineal La estimación de la matriz de covarianzas común es: S = (n1 S1 + n2 S2 )=(n1 + n2 ) = El discriminador lineal es: L(long. La línea recta es el conjunto de puntos tales que L = 0: La parábola es el conjunto de puntos tales que Q = 0: y se obtuvieron las siguientes medias y matrices de covarianzas: x1 = S1 = Estadio-1 ( 219.316 306.069long 1 2 301.97 57. anch) = 0.02 222.02 31.6 147.8 ) 210.11.02 222.034anch + 20.9) 301.1 ) 409.7 0.1.

l.247: 2 Discriminador cuadrático El test de homogeneidad de covarianzas nos da: 2 = [1 13 1 1 ( + 18 75 90 1 )](1835. y el discriminador de Bayes es B(long. una larva tiene. anch) + log(1=2) = Probabilidad de clasi…cación errónea Una estimación de la distancia de Mahalanobis es 22.36 anch . desde que eclosiona está 4 horas en el estadio 1 y 8 horas en el estadio 2. Efectuando cálculos se obtiene: Q(long.1 9. q2 = 2=3.202 CAPÍTULO 11.22 con 3 g. Al cabo de 12 horas.069long 0.872) = ( 0. Por tanto.0014long2 + 0.7 301.872: La probabilidad de asignar una larva al estadio 1 cuando corresponde al estadio 2 o al estadio 2 cuando corresponde al estadio 1 es pce = ( 1p 1.24 22.02 222.7 = 1. ANALISIS DISCRIMINANTE La tabla de clasi…caciones es: Estadio asignado 1 2 Estadio 1 61 15 original 2 21 70 Discriminador de Bayes Una larva.002anch2 0.5 926: 32) = 26.02 31. el discriminador cuadrático puede resultar más apropiado.002long 0. Las diferencias entre las matrices de covarianzas son signi…cativas. anch) = V (long.4 31.684) = 0.034anch + 20.141anch + 72.445long 0. Por tanto. anch) = 0.4 165 882. a priori.6 1 0. la larva pasa a un estadio fácilmente identi…cable.1 9. una probabilidad 4=12 = 1=3 de pertenecer al estadio 1 y una probabilidad 8=12 = 2=3 de pertenecer al estadio 2. Así q1 = 1=3.

3. donde k asignar ! a una de las k poblaciones sobre la base de las observaciones x = (x1 . 2 . xp )0 de p variables. Si consideramos las distancias de Mahalanobis de ! a las poblaciones M 2 (x. i ) = (x Si M 2 (x.5) equivale a Si Lij (x) > 0 para todo j 6= i. asignamos ! a 1 i (11. Discriminación en el caso de k poblaciones Supongamos ahora que el individuo ! puede provenir de k poblaciones 3: Es necesario establecer una regla que permita 1 .11. i = 1. Además las funciones Lij (x) veri…can: 1 1. . Discriminadores lineales Supongamos que la media de las variables en i es i . 11. k. i ) = m nfM 2 (x. 0 i) 1 (x i ). : : : . M 2 (x.5) Introduciendo las funciones discriminantes lineales 1 0 0 1 Lij (x) = i x j i j 2 es fácil probar que (11.1. i: un criterio de clasi…cación consiste en asignar ! a la población más próxima: . Lij (x) = 2 [M 2 (x.4.4. : : : . j ) + j asignamos ! a i: M 2 (x. x2 . Lrs (x) = Lis (x) Es decir. y que la matriz de covarianzas es común.4.1): Estadio asignado 1 2 Estadio 1 59 17 original 2 17 74 11. DISCRIMINACIÓN EN EL CASO DE K POBLACIONES 203 Con el clasi…cador cuadrático se han clasi…cado bien 2 individuos más (Fig. Lij (x) = Lji (x) : Lir (x) : 1 funciones discriminantes. sólo necesitamos conocer k . k )g. 11. i )]: 2. 1 ). k .

se conocen las probabilidades a priori q1 = P ( 1 ) .3. j6=i cuando en realidad y se demuestra que la regla de Bayes minimiza esta pce. fk (x)g. la regla de Bayes que asigna ! a la población tal que la probabilidad a posteriori es máxima Si qi fi (x) = maxfq1 f1 (x). está asociada a las funciones discriminantes Bij (x) = log fi (x) log fj (x) + log(qi =qj ): j Finalmente. asignamos ! a i: Este criterio es más general que el geométrico y está asociado a las funciones discriminantes Vij (x) = log fi (x) log fj (x): En el caso de normalidad multivariante y matriz de covarianzas común. Regla de Bayes Si además de las funciones de densidad fi (x). k . Regla de la máxima verosimilitud Sea fi (x) la función de densidad de x en la población i : Podemos obtener una regla de clasi…cación asignando ! a la población donde la verosimilitud es más grande: Si fi (x) = maxff1 (x). entonces este criterio dará lugar a los discriminadores cuadráticos 1 Qij (x) = 2 x0 1 + 2 0j 1 j 1 j j 1 2 i 0 i 1 x + x0 i 1 1 1 1 i + 2 log j j j i 1 j 1 2 2 log j i j : 11.4. . Pero si las matrices de covarianzas son diferentes 1 . si P (j=i) es la probabilidad de asignar ! a es de i .4.204 CAPÍTULO 11. : : : . ANALISIS DISCRIMINANTE 11.2. : : : . qk fk (x)g. y los discriminadores máximo verosímiles coinciden con los lineales. . asignamos ! a i. se veri…ca Vij (x) = Lij (x). q k = P ( k ) . la probabilidad de clasi…cación errónea es pce = k X i=1 k X qi ( P (j=i)). .

864 179. 2 L23 (x) = L13 (x) L12 (x).0927 0.759 -6. DISCRIMINACIÓN EN EL CASO DE K POBLACIONES 205 11.38 0 17.4.4.8 x3 =4.0418 1 C C A Las distancies de Mahalanobis (al cuadrado) entre las 3 poblaciones son: Setosa Versicolor Virginica Setosa Versicolor Virginica 0 89.8 x4 =1. L13 (x) = 1 [M 2 (x.0384 B 0.0327 S=B @ 0. x3 ) M 2 (x.05524 0.107 6.1675 0.8 x2 =2.3484 44. or Para estimar la probabilidad de clasi…cación errónea pce podemos omitir una vez cada individuo. clasi…carlo a partir de los demás y observar si sale bien clasi…cado (método leaving-one-out). x2 ) M 2 (x. queremos clasi…car a una de las 3 especies una ‡ cuyas medidas son: or x1 =6.18519 0.3484 2 Por lo tanto clasi…camos la ‡ a la especie I. L21 (x) = L12 (x). x1 )] . L32 (x) = L23 (x): La regla de decisión consiste en asignar el individuo x a la población i si Lij (x) > 0 8j 6= i: Se obtiene: Individuo L12 L13 L21 L23 L31 L32 Población x -51.2.6. x1 )] .4 La matriz de covarianzas común es 0 0.4.759 51.0426 0.11.1154 0.201 0 Los discriminadores lineales son: 1 L12 (x) = 2 [M 2 (x.107 -44. Un ejemplo clásico Continuando con el ejemplo 3. Versicolor. L31 (x) = L13 (x). El resultado de este proceso da: .2650 0.

206 CAPÍTULO 11. ANALISIS DISCRIMINANTE Población asignada 1 2 3 50 0 0 0 48 2 0 1 49 Población 1 original 2 3 Sólo hay 3 individuos mal clasi…cados y la pce estimada es 3=150 = 0.02: .

L = 1 p si y = 0: Si realizamos n pruebas independientes y observamos y1 . la verosimilitud de una única observación y es L = py (1 p)1 y . 12. Análisis discriminante logístico Introducción El modelo de regresión logística permite estimar la probabilidad de un suceso que depende de los valores de ciertas covariables.1.1. Supongamos que un suceso (o evento) de interés A puede presentarse o no en cada uno de los individuos de una cierta población. yn . Consideremos una variable binari y que toma los valores: y = 1 si A se presenta. pues L = p si y = 1.1. : : : . Si la probabilidad de A no depende de otras variables. indicando P (A) = p.Capítulo 12 DISCRIMINACION LOGISTICA Y BASADA EN DISTANCIAS 12. y = 0 si A no se presenta. la verosimilitud es n Y L= pyi (1 p)1 yi = pk (1 p)n k i=1 207 .

donde se supone que y es una variable respuesta cuantitativa y que e es un error con media 0 y varianza 2 : Usando la misma terminología. podemos entender el modelo logístico en el sentido de que y = p(x) + e. xp )0 son las observaciones de un cierto individuo ! sobre las variables. : : : . p )0 parámetros de regresión: El modelo 12. 0 : 0+ x 1+e 1 + e 0+ x Hagamos ahora una breve comparación con el modelo lineal. la frecuencia relativa del suceso A: La distribución b asintótica de p es normal N (p. 12. pues p(x) está comprendido entre 0 y 1: Por diversas razones. Para estimar p resolvemos la ecuación de verosimilitud @ ln L = 0 @p cuya solución es p = k=n. DISCRIMINACION LOGISTICA Y BASADA EN DISTANCIAS P siendo k = yi la frecuencia absoluta de A en las n pruebas.1) siendo = ( 1 . si x = (x1 .1 equivale a suponer las siguientes probabilidades para A y su contrario. La probabilidad de A debe entonces modelarse adecuadamente. es muy conveniente suponer un modelo lineal para la llamada transformación logística de la probabilidad ln[ p(x) ]= 1 p(x) 0 + 1 x1 + + p xp = 0 + 0 x. p(1 p)=n): b Muy distinta es la estimación cuando esta probabilidad depende de otras variables. Xp : Es decir. .1. ambas en función de x 0 e 0+ x 1 p(x) = 1 p(x) = 0 . . entonces la probabilidad de acontecer A dado x es p(y = 1jx): Indicaremos esta probabilidad por p(x): La probabilidad contraria de que A no suceda dado x será p(y = 0jx) = 1 p(x): Es fácil darse cuenta que pretender que p(x) sea una función lineal de x no puede funcionar correctamente. Modelo de regresión logística Supongamos ahora que la probabilidad p depende de los valores de ciertas variables X1 .2. El mdelo de regresión lineal (véase capítulo siguiente) es y= 0 + 1 x1 + + p xp + e. : : : .208CAPÍTULO 12. (12.

. si Lg (x) 0 entonces y = 0: 12. @ . el error e tiene media 0 y varianza p(x)(1 p(x)): Dado un individuo !. C. X =B . y no la posee si p(x) 0. para poder tener en cuenta el término constante la primera columna de X contiene unos.5 Introduciendo la función discrimnante p(x) ) Lg (x) = ln( 1 p(x) la regla de decisión logística es Si Lg (x) > 0 entonces y = 1.5. Estimación de los parámetros p(x))1 y : La La verosimilitud de una observación y es L = p(x)y (1 obtención de n observaciones independientes (yi . xnp 1 Nótese que. . ANÁLISIS DISCRIMINANTE LOGÍSTICO 209 donde ahora y sólo toma los valores 0 ó 1: Si y = 1 entonces e = 1 p(x) con probabilidad p(x): Si y = 0 entonces e = p(x) con probabilidad 1 p(x): De este modo. xi1 . x1p x2p . p(xi )yi (1 p(xi ))1 yi yi ln p(xi )(1 p(x))1 yi . . . . . xip ) se puede tabular matricialmente como 0 0 1 1 x11 x12 y1 B 1 x21 x22 B y2 C B B C y =B . .3.1. @ .1. dado x. : : : . . yn 1 xn1 xn2 .12. . La verosimilitud de n observaciones independientes es L= Tomando logaritmos ln L = n X i=1 n Y i=1 C C C: A 0 en el modelo.. . la regla de discriminación logística (suponiendo los parámteros conocidos o estimados) simplemente decide que ! posee la característica A si p(x) > 0. A . xi ) = (yi .

4.2) n p(xi )) = 0. p(xn ))0 . Sin embargo las ecuaciones (12. 1. siendo comparables con las ecuaciones normales (Capítulo 13) X0 X = X0 Y.2) no se pueden resolver explícitamente. debiéndose recurrir a procedimientos numéricos iterativos. salvo que ahora el modelo X es (X). DISCRIMINACION LOGISTICA Y BASADA EN DISTANCIAS A …n de hallar los estimadores máximo verosímiles de los parámetros beremos resolver las ecuaciones @ ln L = 0. j = 1. p: 0 + 1 xi 0 + 1 xi ln(1 + e 0 ). : : : . Distribución asintótica y test de Wald Indiquemos por b = (b0 . la distribución asintótica del parámetro bi es normal . Pn Pi=1 (yi p(xi )) = 0. 12. para estimar los parámetros del modelo lineal y = X +e. p: i=1 xij (yi Utilizando el vector y. bp )0 la estimación de los parámetros.1. b1 . la matriz X y el vector de probabilidades (X) = (p(x1 ) : : : . siendo 2 3 p(x1 )(1 p(x1 )) 0 5 V=4 0 p(xn )(1 p(xn )) La distribución asintótica de b es entonces normal multivariante Np+1 ( . Véase Peña (2002). : : : . que depende de . (12.210CAPÍTULO 12. I 1 )::En particular. luego =1 p(xi ) p(xi )) ln p(xi ) = 1 ln p(xi ) = xij e 0 + xi 0 1+e 0 + xi 0 e 0+ x xij 1+e 0 + 0 xi = xij (1 Análogamente derivaríamos ln(1 p(xi )) = ln(1 + e 0 + 1 xi ): Se obtienen entonces las ecuaciones de verosimilitud para estimar los parámetros . estas ecuaciones se pueden escribir como X0 (X) = X0 y. Aplicando la teoría asintótica de los estimadores máximo verosímiles. @ j Se tiene ln p(xi ) = @ @ @ @ j 0 de- j = 0. la matriz de informaciión de Fisher es I = X0 VX. : : : .

N ( i . l.1. l.12. o bien z 2 con distribución ji-cuadrado con 1 g. Se puede interpretar D como menos dos veces la razón de verosimilitudes del modelo ajustado y el modelo saturado D= 2 ln L(modelo de regresión) L(modelo saturado) El modelo saturado es el que posee tantos parámetros como observaciones. el test de Wald calcula 0 w = b I b.var(bi )). : Si se desea estudiar la signi…cación de todos los parámetros de regresión. Ajuste del modelo En regresión logística se obtiene el ajuste del modelo calculando la verosimilitud L del modelo (estimando los parámetros por máxima verosimilitud) y utilizando el llamado estadístico de desviación: D= 2 ln L(modelo de regresión). ANÁLISIS DISCRIMINANTE LOGÍSTICO 211 con distribución asintótica N (0.1. En particular. bajo la hipótesis nula = 0: 12.5. 1). En nuestro caso n Y L(modelo saturado) = yi yi (1 yi )1 yi ) = 1: i=1 Supongamos ahora que deseamos estudiar la signi…cación de una o varias covariables. la signi…cación de un coe…ciente de regresión: H0 : i = 0: Utilizando la desviación D calcularemos G = D (modelo sin las variables) D(modelo con las variables) L(modelo sin las variables) : = 2 ln L(modelo con las variables) . donde var(bi ) es el correspondiente elemento diagonal de la matriz inversa I 1 : El llamado test de Wald para la signi…cación de i utiliza el estadístico q b = var(b ) z= i i con distribución asintótica ji-cuadrado con p + 1 g.

Es la curva que resulta de representar los puntos (1 Es(t). . o benigno (contrario de A): La regla de discriminación logística Si p(x) > 0. pues bastantes individuos podrían ser clasi…cados como tumor benigno siendo maligno. y para t = 1 todos resultarían malignos. el cual puede ser maligno (suceso A). Se llama especi…cidad a la curva Es(t) = P (p(x) < tjy = 0).6. La curva ROC está por encima de la diagonal. . Curva ROC Supongamos que la población consiste en individuos que poseen un tumor. la curva Es va dando la proporción de individuos a los que se detecta tumor benigno. l. Para t = 0 todos los individuos resultarían malignos. es decir.212CAPÍTULO 12. y la Sensibilidad en el eje OY. Es un problema importante en diagnosis médica determinar el valor de corte t tal que detecte el mayor número de tumores malignos. Se(t)) 0 t 1. y para t = 1 todos resultarían benignos. y cuanto más se aparta de la diagonal. 1-Especi…cidad en el eje OX. En particular k = 1 si sólo estudiamos la signi…cación de una variable. DISCRIMINACION LOGISTICA Y BASADA EN DISTANCIAS Si queremos estudiar la signi…cación de k variables.1. Para t = 0 todos los individuos resultarían benignos. 0 t 1: Variando t. entonces la distribución asintótica de G es ji-cuadrado con k g. 12.5 decidimos que y = 1 puede resultar insu…ciente en este caso. Se llama sensibilidad a la curva Se(t) = P (p(x) > tjy = 1). La curva ROC (Receiving Operating Characteristic) resume las dos curvas de sensibilidad y especi…cidad. sin cometer demasiados errores (decidir que es maligno cuando en realidad es benigno). 0 t 1: Variando t. mejor es la discriminación. la curva Se va dando la proporción de individuos a los que se detecta tumor maligno.

30 1 0. Regression-Logistic) se puede bajar el …chero “Low Birthweight” Consideramos LOW como variable dependiente (0 si peso mayor . la función discriminant logística Lg (x) = ln[p(x)=(1 p(x))] tiene exactamente la misma distribución tanto si y = 1 como si y = 0:: El área bajo la curva ROC es siempre mayor o igual que 0.3 1 p 0. Un valor a partir de 0.022 -0. fumar.1.52 0.l. RACE (1=blanco. Variable Age Weight Race Race_1 Race_2 Smoke Visits Constant D = 2log-veros ST( ).000 -0.006 3. 3=otros).8 se considera como que la discriminación es buenba. peso antes embarazo.5: Un valor a partir de 0.012 -0. se tiene que Se(t) = P (p(x) > tjy = 1) = 1 Es(t) = P (p(x) > tjy = 0): 213 Entonces no es posible distinguir entre las dos poblaciones.035 0. se desglosa en 2 variables binarias. 1=fuma). Se considera que un bebé es prematuro si su peso está por debajo de los 2500 gramos. Se intenta estudiar las causas (edad.41 1 0. Las estimaciones de los parámetros 0 . LWT (peso de la madre).1 Estudio epidemiológico sobre n = 189 mujeres que han tenido un bebé. En otras palabras.15 25.020 0. 1 si menor que 2500gr) y las variables predictoras AGE (edad).9 se consideraría como muy bueno.umass.38 7.05 -0.622 0.002 1 0.94 0.963 0. 1 . SMOKE (0=no fuma.006 0. Véase Ejemplo 12.052 0. La variable race (categórica con 3 estados). ANÁLISIS DISCRIMINANTE LOGÍSTICO En el caso de que la curva coincida con la diagonal. La discriminación es perfecta si el área vale 1.583 0.) que provocan el nacimiento de un bebé prematuro.edu/statdata/statdata/ (!Data sets.79 214.024 0.76 1 7.008 -0. sus desviaciones típicas y el estadístico de Wald se dan en el siguiente cuadro. Visitando la web http://www. 2=negro.41 5.07 1 0.64 1 0. 2500gr.57 . Wald g.79 2 0.29 1.16 0. 0. etc. : : :.1.12.

El área bajo la curva ROC es 0.05 214. smoke) obtenemos D = 2 ln(modelo) = 215. weight.1 0.575: Considerando el término constante y 3 variables (weight.7. En la tabla vemos que si disminuye el punto de corte. race. Corte 0.2 50.3 15. Luego no hay ventaja en incluir las variables Edad y Número de visitas. l. El valor de corte 0. La diagonal indicaría empate (no se distingue entre bebé de bajo peso y bebé normal). detectamos más bebés de bajo peso. ) con probabilidades a priori q1 = q0 = 1=2. y utilizando el discriminador lineal. 684.8 100 100 % Peso bajo pred. visits) obtenemos D = 2 ln(modelo) = 214. en caso contrario es normal. Comparación entre discriminador lineal y logístico En el modelo logístico conocemos la probabilidad p(x) de y = 1 dados los valores x 0 e 0+ x p(x) = 0 1 + e 0+ x Bajo normalidad Np ( 1 . smoke.5 0. ). 5 el bebé tiene el peso bajo.7 0. no signi…cativo. 100 76.3 0. la probabilidad de y = 1 (es .2) el área vale 0. La regla estàndar de decisión en regresión logística es: Si p(x) > 0. 12.3 1. 9. variando la probabilidad de corte.7 0 La curva ROC es el grá…co conjunto de la Sensibilidad (eje vertical) y 1Especi…cidad (eje horizontal).0 93.9 % Normales pred. Np ( 0 .214CAPÍTULO 12. 5 en el peor de los casos (que la curva ROC coincida con la diagonal).475 es ji-cuadrado con 3 g.1.575 = 0.05: La diferencia entre las dos desviaciones 215.. pero menos de peso normal. En este ejemplo (Figura 11. 5 se puede alterar para mejorar la Sensibilidad (detectar un bebé con peso bajo) o la Especi…cidad (detectar un bebé con peso normal). indicando que el modelo posee una capacidad de predicción moderada. race. DISCRIMINACION LOGISTICA Y BASADA EN DISTANCIAS Con el modelo considerando el término constante y 5 variables (age.

)) dado x es f1 (x) = P (y = 1jx) = f1 (x) + f0 (x) e e 1 (x 2 1) 0 1 (x 2 1 (x 1) 1) 1 0 1 (x 1 (x 2 0 1 (x 1) 0) 0 0) 1 (x 0) +e 0) : Multiplicando numerador y denominador por e 2 (x 1 1 0 1 0 en cuenta que 2 (x (x 1) 1 ) + 2 (x 0) donde 0 1 1 L (x) = x ( + 1) ( 0 2 0 es el discriminador lineal. ANÁLISIS DISCRIMINANTE LOGÍSTICO 215 Figura 12.12.1: Curva ROC que representa las curvas de Sensibilidad y 1Especi…cidad para los datos de bebés con bajo peso. . = 1 ( 1 0) . vemos que P (y = 1jx) = Puesto que 0 1 (x y teniendo ) = L(x). 0 1) e L(x) : 1 + e L(x) L(x) = = 1 ( 2 1 0 + 0 x siendo 1 + 0 0) ( 1 0) .1. decir. de la población Np ( 1 .

p valor 1 0. Aplicando el modelo logístico.859 38.136 y 0.968 .863.98.069l+0. y decrece hasta 0.277 167. Sin embargo. Efron (1975) calculó analíticamente la e…ciencia relativa (cociente entre las probabilidades de clasi…cación errónea) del modelo logístico respecto al p siendo la normal.23 3.21 5.000 1.216CAPÍTULO 12.5 4 E…ciencia 1. y el copépodo sería asignado al estadio 2. para valores muy pequeños de .031a Por ejemplo. respectivamente: e 20.069 0.343 Continuando con el ejemplo 11. 20.5 3 3. que incluye la normal.872 = 1.3. Los valores son: p 0 0. 0. la e…ciencia es la misma (vale 1). se obtiene Variable Amplitud Anchura Constante D = 2log-verosim ST( ).786 .069l+0. .23+0. entonces las probabilidades son 0.899 .15 g.031a 1 . En realidad el modelo logístico sirve para la clase de distribuciones pertenecientes a la familia exponencial.015 1 0.23+0.12 Wald 31.012 0.343 para = 16 (la probabilidad de error en el caso logístico es tres veces mayor que en el normal si es grande). l.1.486 .995 .23+0. a = 160. si l = 248.000 1 0. Los resultados prácticamente coinciden con el discriminador lineal (Figura 12. el modelo normal es más e…ciente. DISCRIMINACION LOGISTICA Y BASADA EN DISTANCIAS conseguimos obtener el modelo logístico a partir del discriminador lineal. el discriminador lineal (suponiendo normalidad e igualdad de matrices de covarianzas) es: L(long. pierde en e…ciencia. Al ser el logístico un modelo más amplio y robusto.034anch + 20.94 p p En este ejemplo = 1.5 2 2.368: La e…ciencia del discrimnador logístico con respecto al lineal normal es del orden de 0.5 1 1.641 .031 0.2).000 . La e…ciencia relativa asintótica es una función de distancia de Mahalanobis entre las dos poblaciones: =( 1 0 0) 1 ( 1 0 ): Para q1 = q0 = 1=2 (el caso más favorable para el discriminante logístico).069l+0.031a 1+e 1 + e 20.000 Las probabilidades de que un copépodo con longitud l y anchura a pertenezca al estadio 1 y al estadio 2 son.anch) = 0.069long 0.013 -20.

El área bajo la curva es 0. X un vector aleatorio con valores en E Rp y densidad f (x1 . ANÁLISIS DISCRIMINANTE BASADO EN DISTANCIAS 217 Figura 12. Aplicando el principio de que siempre es posible de…nir una distancia entre observaciones. Pero a menudo las variables son binarias. y x = (x1 .2. La función de proximidad Sea una población. :::.1. 12.838.2: Curvas ROC para el discriminador lineal y el logístico (izquierda). xp ) : Sea una función de distancia entre las observaciones de X: De…nimos la variabilidad geométrica como la cantidad Z 1 2 (x. indicando la misma e…ciencia para discrimanr entre los dos estadios.2. Ambas curvas son indistinguibles. y) f (x)f (y)dxdy V (X) = 2 E V (X) es el valor esperado de las distancias (al cuadrado) entre observaciones independientes de X: Sea ! un individuo de . xp )0 las observaciones de X sobre !. categóricas o mixtas. :::. De…nimos la función de proximidad de ! a en relación con X como la . 12. es posible dar una versión del análisis discriminante utilizando solamente distancias. Análisis discriminante basado en distancias Los métodos que hemos descrito funcionan bien con variables cuantitativas o cuando se conoce la densidad.12.2.

que es …ja.1 Supongamos que existe una representación de (E. una función distancia. correspondientes a 1 . podemos a…rmar que la variabilidad geométrica es una varianza generalizada. X) V (X) = Z 2 (x. i = 1. 2 dos poblaciones. donde (x) . Por ejemplo. Seguidamente.218CAPÍTULO 12. Sea ! un individuo que queremos 1 2 clasi…car. lo único que cambia es la matriz . ) en un espacio L (Euclídeo o de Hilbert) (E. 2. cuando estemos en 1 . y que la función de proximidad mide la distancia de un individuo a la población.2. y consideramos las distancias de Mahalanobis 2 i (x. 2 . mediante (12.3) E (x) es la media de las distancias de x.2. que varía aleatoriamente. Teorema 12. La regla discriminante DB Sean 1 . z >. .2. respectivamente. es formalmente la misma en cada población. 2 . y) = (x y)0 1 i (x y) . i ) . Debe quedar claro que depende del vector aleatorio X. y: Se veri…ca: 2 V (X) = E(k (X)k2 ) (x) = k (x) E( (X))k2 : En consecuencia. ) ! L con un producto escalar < :. si las poblaciones son normales Np ( i . (y) 2 L son las imágenes de x. con valores x = X (!). 2 . a t. menos la variabilidad geométrica. encontraremos las funciones de proximidad 2 . i = 1. : > y una norma kzk2 =< z. 2 . DISCRIMINACION LOGISTICA Y BASADA EN DISTANCIAS función 2 (x) = E 2 (x. tal que 2 2 (x.3). y) = k (x) kE( (X))k2 : (y)k2 . 2. que en general tendrá diferente distribución en 1 y 2 . pero puede tener diferentes versiones 1 . 12. t)f (t)dt V (X) : (12.

Np ( 2 . 2. distance-based) es: 2 Si 2 (x) 2 (x) asignamos ! a 1 en caso contrario asignamos ! a 1. 1 ) . i = 1. se cumple 2 i (x) = k (x) E i ( (X))k2 . 2 ) y 2 es la distancia de 1 Mahalanobis entre observaciones 2 (x. 1 ) . 12. Np ( Mahalanobis más una constante 2 i 2. Si las poblaciones son Np ( 1 . ANÁLISIS DISCRIMINANTE BASADO EN DISTANCIAS 219 La regla de clasi…cación basada en distancias (DB. y 2 i es la distancia de x 6= y. La regla DB comparada con otras Los discriminadores lineal y cuadrático son casos particulares de la regla DB. (x.2. Si las poblaciones son Np ( 1 .3. x = y. y) = (x y)0 (x y) . y por tanto la regla DB asigna ! a la población más próxima. 2: Teniendo en cuenta el Teorema 12.1. 1.2.2.12. La regla DB solamente depende de las distancias entre individuos. entonces las funciones de proximidad son 2 i (x) = (x 0 i) 1 (x i) y el discriminador lineal es L (x) = 1 2 2 2 (x) 2 1 (x) : 2) 2. y) = (x =0 y)0 1 i (x y) + log j i j =2 entonces el discriminador cuadrático es Q (x) = 1 2 2 2 (x) 2 1 (x) : .

la regla DB equivale a utilizar el discriminador E (x) = [x 1 ( 2 1 + 0 2 )] ( 1 2) . por ejemplo. :::. 2: . i (1). y 2 = ( ij (2)) la matriz n2 n2 de distancias entre las muestras de la segunda población.4. Xp ) en las poblaciones 1 . DISCRIMINACION LOGISTICA Y BASADA EN DISTANCIAS 3. i = 1.4) conocido como discriminador Euclídeo. : : : . las distancias a los n1 individuos de 1 y i (2). n2 . Indicamos (las representaciones Euclídeas de las muestras) por x1 .j=1 2 2 ij (2): La regla DB en el caso de muestras es b V1 . Sea ! un individuo. no se dispone de las densidades f1 (x). Si es la distancia euclídea ordinaria entre observaciones. n2 X b2 (y) = 1 2 n2 i=1 2 i (2) b V2 : 2 2 Si b1 (x) b2 (y) asignamos ! a en caso contrario asignamos ! a 1. las distancias a los n2 individuos de 2 : Si x son las coordenadas (convencionales) de ! cuando suponemos que es de 1 . las estimaciones de las funciones de proximidad son n1 X b2 (x) = 1 1 n1 i=1 2 i (1) n2 X b2 = 1 V 2n2 i. (12. 2. ij (2) = E (yi . E (x) es útil en determinadas circunstancias. 2 . i = 1. sino de dos muestras de tamaños n1 .j=1 1 2 ij (1) . n1 . La regla DB en el caso de muestras En las aplicaciones prácticas. Sea 1 = ( ij (1)) la matriz n1 n1 de distancias entre las muestras de la primera población. ij (1) = E (xi . cuando la cantidad de variables es grande en relación al número de individuos.5) es decir.2. : : : . (12. :::. f2 (x). xj ). yj ): Las estimaciones de las variabilidades geométricas son: n1 X b1 = 1 V 2n2 i. yn2 muestra de muestra de 1. y análogamente y. x2 . :::. pues tiene la ventaja sobre L(x) de que no necesita calcular la inversa de : 12. y2 .220CAPÍTULO 12. xn1 y1 . n2 de las variables X = (X1 .

2 binarias y 2 categóricas (con tres estados cada una).: Consideremos x. Los datos describen un grupo de 137 mujeres. x= ( 1 n n P i=1 xi )=n: Por un lado x) d2 (xi .12. respectivamente. y2 . :::. :::. no es necesario. y. 76 con tumor benigno y 59 con tumor maligno. x1 . x2 . xn1 2 Rp .x) . x) = = i=1 1 n 1 n Por otro 1 2n2 i=1 n P i=1 n P (xi x)0 (xi x0i xi + x0 x 2x0 x: i. La regla DB clasi…ca ! a la población más próxima: Teorema 12. donde x. x1 . :::. xn . 2 E Pn y. Demost.2. xj ) = = 1 2n2 Restando i. ANÁLISIS DISCRIMINANTE BASADO EN DISTANCIAS 221 Esta regla solamente depende de distancias entre observaciones y es preciso insistir en que el conocimiento de x. categóricas). y son los centroides de las representaciones Euclídeas de las muestras. .j=1 n P 0 1 xi xi n i=1 n P (xi xj )0 (xi x0 x: xj ) Ejemplo 12. 1 E b2 (y) = d2 (y.x) : E Krzanowski (1975) ilustra el llamado “location model”para llevar a cabo análisis discriminante con variables mixtas (cuantitativas. con respecto a 7 variables cuantitativas.2.y) . y1 . Entonces se cumple b2 (x) = d2 (x. yn2 2 Rq . binarias.j=1 n P d2 (xi . x2 .1 b2 (x) = x0 x+x0 x 2x0 x =d2 (x.2 Supongamos que podemos representar ! y las dos muestras en dos espacios euclídeos (posiblemente diferentes) x. Véase Krzanowski (1980) para una descripción de los datos.2.

x) = 1 1+e + 0 x = F( 0 x). el “location model” LM (que consiste en ajustar un discriminador lineal para cada combinación de las variables categóricas) y el discriminador basado en distancias DB. Entonces el modelo logístico (modelo logit) supone y(!.A. Anderson. J.A. A.222CAPÍTULO 12. Este modelo se estudia en este mismo capítulo.11) para variables mixtas y transformándola en distancia mediante (8. si y(!. de 2 en caso contrario. en diversos trabajos. Con el método DB se clasi…can equivocadamente sólo 39 mujeres. Wald y T.4). Smith introdujeron el discriminador cuadrático.3. 12. se calcula el número de individuos mal clasi…cados utilizando el discriminador lineal LDF (11. Si de…nimos y(!. Los resultados están contenidos en la siguiente tabla. DISCRIMINACION LOGISTICA Y BASADA EN DISTANCIAS Tomando los 137 casos. el discriminador euclídeo (12.8).2). Complementos El Análisis Discriminante se inicia en 1936 con el trabajo de R. donde F (z) = 1=(1+e z ) es la llamada función de distribución logística. Anderson estudiaron las propiedades del discriminador lineal. A.W. véase Cuadras (1992b). estudió el modelo de discriminación logístico. x) > 1=2. Se pueden obtener otros modelos . Fisher sobre clasi…cación de ‡ ores del género Iris. Cavalli y C. x) = P ( la regla de clasi…cación es ! es de 1 1 =x) = q1 f1 (x)=(q1 f1 (x) + q2 f2 (x)). Tumor Benigno Maligno Total Casos 78 59 137 LDF 31 27 58 EDF 29 37 56 LM 21 24 45 DB 18 21 39 Para otros ejemplos con datos categóricos o mixtos. utilizando la similaridad (8. L.B.

el basado en el “location model” de W. Consúltese McLachlan (1992). las estimaciones resultan demasiado grandes y no son correctas. entonces obtenemos el llamado modelo probit. véase Tabla 3. como el método del núcleo. 2008). Además. 1992b. (1997). COMPLEMENTOS 223 cambiando F: Por ejemplo. del vecino mas próximo. Krzanowski.12. Cuadras et al. si las muestras están muy diferenciadas. Albert y Anderson (1984) probaron que en el modelo logístico. en el caso de los datos de ‡ ores del género Iris. los estimadores máximo verosímiles de los parámetros no existen si hay completa separación de las muestras de las dos poblaciones. otros para variables mixtas. las estimaciones de los parámetros no funcionan. Los métodos de análisis discriminante basados en distancias pueden abordar todo tipo de datos y han sido estudiados por Cuadras (1989. Por ejemplo. algunos no-paramétricos. Existen otros métodos de análisis discriminante. si escogemos la función de distribución normal estándar. Longford (1994) estudió la función de verosimilitud en el modelo de regresión logística con coe…cientes de regresión aleatorios. etc.2). .3.

DISCRIMINACION LOGISTICA Y BASADA EN DISTANCIAS .224CAPÍTULO 12.

x1m x2m . (13. : : : . @ . . A @ . 10 i = 1. . A @ . C=B . . El modelo lineal Supongamos que una variable observable Y depende de varias variables explicativas (caso de la regresión múltiple). yn xn1 xn2 . yn )0 : 2. . 0 m) : 225 .. . o que ha sido observada en diferentes situaciones experimentales (caso del análisis de la varianza). El vector de parámetros =( 1. xnm Los elementos que intervienen en el modelo lineal son: CB C B CB 2 C B CB . n. m 1 1 0 e1 e2 . : : : . en 1 C C C: A 1. C + B A@ . . : : : .1. . El vector de observaciones de Y y = (y1 .Capítulo 13 EL MODELO LINEAL 13. . . Entonces tendremos n observaciones de Y . 2. se ajustan a un modelo lineal yi = xi1 1 + xi2 2 + + xim m + ei . .1) que en notación matricial es 0 1 0 y1 x11 x12 B y2 C B x21 x22 B C B B . que en muchas situaciones aplicadas. y2 .

Estas condiciones equivalen a decir que el vector de medias y la matriz de covarianzas del vector e = (e1 . e2 . e2 . Suposiciones básicas del modelo Supongamos que las desviaciones aleatorias o errores ei del modelo lineal se asimilan a n variables aleatorias con media 0. : : : . 1 ó 1. E(ei ) = 0. entonces estamos ante un modelo lineal normal y Nn (X .2. 2 Ip ): m y La cantidad r = rang(X) es el rango del diseño. : : : . X contiene las observaciones de m variables explicativas. EL MODELO LINEAL 1 x1m x2m C C C: A xnm 4. La matriz de diseño 0 CAPÍTULO 13. en )0 La notación matricial compacta del modelo es: y = X + e: Solamente y y X son conocidas. var(ei ) = 2 i = 1. es decir. : : : . @ xn1 xn2 e = (e1 . n: . e = 2 Ip : Si podemos suponer que los errores son normales y estocásticamente independientes. satisfacen: 1. 13. : : : . incorrelacionadas y con varianza común 2 . 3. n: i = 1.. En los modelos de análisis de la varianza. Se veri…ca r cuando r = m se dice que es un modelo de rango máximo. en )0 son: E(e) = 0. El vector de desviaciones aleatorias x11 x12 B x21 x22 B X =B . En los modelos de regresión. E(ei ej ) = 0. 2. .226 3.. según el tipo de diseño experimental. : : : . n: i 6= j = 1. X contiene los valores 0.

e0 e = (y X )0 (y X )= sea mínimo. : : : .3). 13.1. Demost. a) r = m: Entonces la estimación de es única: b = (X0 X) 1 X0 y: b = (X0 X) X0 y. b siendo X b )0 (y yi = xi1 b1 + b n X i=1 (yi + xim bm : . : : : .2) Teorema 13.4) X ) = y0 y 2 0 X0 y+2 X0 X : e igualando a cero Derivando vectorialmente respecto de 2X0 y+2X0 X = 0 b) r < m: Cuando el diseño no es de rango máximo una solución es donde (X0 X) es una inversa generalizada de X0 X: La suma de cuadrados residual de la estimación de 2 R0 = (y es yi )2 . Xb) = (13.3. “least squares” Se desea encontrar b = (b1 .3.: e0 e =(y X )0 (y @ 0 ee= @ obtenemos (13. bm )0 tal que ). n X i=1 (yi xi1 1 ::: xim 2 m) (13.13. m )0 en función de las observaciones y = (y1 . yn )0 . : : : . se plantea mediante el criterio de los mínimos cuadrados (LS. ESTIMACIÓN DE PARÁMETROS 227 13.3. Distinguiremos dos casos según el rango del diseño.3. Estimación de parámetros Parámetros de regresión La estimación de los parámetros = ( 1 .1 Toda estimación LS de X0 X = X0 y es solución de las ecuaciones (13.3) denominadas ecuaciones normales del modelo.

tr+1 . pues ti es ortogonal a Cr (X) si i > r: Consideremos b= y X b : Entonces e 0 b= z T0 X b . zn )0 veri…ca E(zi ) = t0i X = i si i r. yn )0 y de X: En esta estimación interviene de manera destacada la suma de cuadrados residual. Por tanto T0b es e T0b = (0. Lema 13. 2 =var(ei ). tn ] una matriz ortogonal tal que sus columnas formen una base ortonormal de Rn .228 CAPÍTULO 13. Varianza La varianza común de los términos de error. es el otro parámetro que hemos de estimar en función de las observaciones y = (y1 .: Sea T = [t1 . : : : . de manera que las r primeras generen el subespacio Cr (X) y por tanto las otras n r sean ortogonales a Cr (X): De…nimos z = T0 y: Entonces z =(z1 .3 Sea y = X + e el modelo lineal donde e satisface las suposiciones básicas del modelo (Sección 13. donde las r primeras componentes de T0b son cero (por el Te e lema anterior) y las n r componentes de T0 X b son también cero.: Por las ecuaciones normales X0b= X0 (y e X b ) = X0 y X0 X b = 0: Teorema 13.3.3. zr+1 .2. EL MODELO LINEAL 13. : : : . tr . es un estimador insesgado de 2 : Demost.3.2 Sea Cr (X) el subespacio de Rn de dimensión r generado por las columnas de X: Entonces E(y) = X 2Cr (X) y b= y X b es ortogonal e a Cr (X): Demost. : : : . zn )0 e y en consecuencia 2 R0 = b b = b TT b = ee e e 0 0 0 i=r+1 n X zi2 : . = 0 si i > r. Entonces el estadístico 2 b2 = R0 =(n r). 2 siendo R0 la suma de cuadrados residual y r = rang(X) el rango del modelo. : : : .2). 0. : : : . : : : .

. . R0 = 2 2 n r: 3. : : : . y por ser T ortogonal. : : : . : : : . n. . La matriz de diseño es 0 1 1 x11 x1m B 1 x21 x2m C B C X =B . xim son las i-ésimas observaciones de las variables explicativas. i > r. (13. i = 1.1. 2 (X0 X) 1 ): )0 X0 X( b 2 5.4. 2 Ip ) el modelo lineal normal de rango máximo m = rang(X): Se veri…ca: 1. y xi1 . .. A @ . Algunos modelos lineales Regresión múltiple El modelo de regresión múltiple de una variable respuesta Y sobre m variables explicativas X1 . . Teorema 13.13. la estimación de es estocásticamente 2 independiente de la estimación de . b es estocásticamente independiente de R0 : 13. C: . que sigue la distribución ji-cuadrado. 2. la de z es 2 E(zi2 ) = var(zi ) = n X . Xm es yi = 0 + xi1 1 + + xim m + ei . . 1 xn1 xnm .4.5) donde yi es la i-ésima observación de Y. U = ( b )= 2 2 m: 2 4. b Nm ( . y por tanto 2 E(Ro ) 2 229 In . . 13.4. La estimación LS de es también la estimación máximo verosímil de : Esta estimación es además insesgada y de varianza mínima. . = E(zi2 ) = (n r) 2 : i=r+1 Bajo el modelo lineal normal.4 Sea y Nn (X .3. ALGUNOS MODELOS LINEALES La matriz de covarianzas de y es también 2 In : Así E(zi ) = 0.

6) donde es la media general y i es el efecto aditivo de la condición i: Las desviaciones aleatorias eih se suponen normales independientes. Diseño de dos factores Supongamos que las n = a b observaciones de una variable observable Y se obtienen combinando dos factores con a y b niveles. se supone la restricción lineal 1 + + k = 0. : : : .4. : : : . yini bajo la condición experimental i: El modelo es yih = + i + eih .230 CAPÍTULO 13. j es el efecto aditivo del nivel j del factor columna. i = 1. h = 1. respectivamente.ni . (13.7) donde es la media general. Diseño de un factor Supongamos que una variable observable Y ha sido observada en k condiciones experimentales diferentes.3.k.2. : : : . 3 …ncas y 3 fertilizantes en cada …nca). si k = 3. k 1: y por tanto cabe considerar solamente los parámetros .8) i j = 0: i=1 j=1 .4. la matriz de diseño es 0 1 Por B B B B X= B B B B @ 1 1 1 1 1 1 1 1 1 0 0 1 1 1 0 0 1 1 1 1 1 21 C C C C C C C C A 13.6) se suponen las restricciones lineales a b X X = (13. denominados factor …la y columna (por ejemplo. El modelo es yij = + i + j + eij . En el modelo (13. En el modelo (13. EL MODELO LINEAL 13. (13. i es el efecto aditivo del nivel i del factor …la. producción de trigo obtenida en 9 = 3 3 parcelas. : : : . n1 = n2 = 2. n3 = 3. ejemplo.6). Las desviaciones aleatorias eij se suponen normales independientes. y que disponemos de ni réplicas (observaciones independentes de Y ) yi1 . 1 .

t: la notación matricial de una hipótesis lineal es H0 : H = 0: m.5. i = 1.1 Una hipótesis lineal de rango t sobre los parámetros una restricción lineal hi1 Indicando la matriz t 1 es + + him m = 0.5. Hipótesis lineales Consideremos el modelo lineal normal y = X + e: Una hipótesis lineal es una restricción lineal sobre los parámetros del modelo. con t < m …las linealmente independientes. si a = b = 3 la matriz de diseño es 0 1 2 1 2 231 B B B B B B X= B B B B B B @ 1 1 1 1 1 1 1 1 1 1 0 1 1 0 1 1 0 1 0 1 1 0 1 1 0 1 1 1 1 1 0 0 0 1 1 1 0 0 0 1 1 1 1 1 1 1 C C C C C C C C C C C C A 13.9) De…nición 13.13.2 Una hipótesis lineal es demostrable si las …las de H son combinación lineal de las …las de X: Dicho de otra manera.5. De…nición 13. si existe una matriz A de orden t n tal que H = AX: . 0 1 h11 h1m A H=@ ht1 htm (13. : : : . HIPÓTESIS LINEALES Por ejemplo.5.

bajo la restricción (13. EL MODELO LINEAL Observaciones: a) Suponemos que la matriz H es de rango t: b) Solamente podremos construir un test (el test F) para decidir si podemos aceptar o no una hipótesis lineal si esta hipótesis es “demostrable” . Cuando una hipótesis (13. los parámetros se convierten en e y la matriz de diseño X en X: Así el modelo lineal.10). r = rang(X) = m. bajo H0 . . las columnas de C pertenecen a F (X) y son ortogonales a F (H): Si de…nimos los parámetros = ( 1 . entonces H = HC = 0 y el modelo y = X + e. r t )0 tales que =C . bajo la restricción H = 0.9) es cierta. siendo e X = XC: e y =X + e: (13. es Para obtener (13.F (X) generados por las …las de H y X: Entonces F (H) F (X) Rm : Sea C una matriz m (r t) tal que F (C0 ) F (X) y HC = 0: En otras palabras. cualquier hipótesis lineal es demostrable.9). se transforma en (13.232 CAPÍTULO 13. es b H 2 e 0 e R1 = (y Xb) (y Xb): y la suma de cuadrados del modelo lineal es 2 R1 = (y = b (X0 X) H0 (H(X0 X) H0 ) 1 H b X b H )0 (y XbH ) El siguiente teorema es conocido como Teorema Fundamental del Análisis de la Varianza. consideramos los subespacios F (H).10). : : : .10) La estimación LS de es y la suma de cuadrados residual es b= (X0 X) 1 Xy e e e También se puede probar que la estimación LS de los parámetros . c) Es evidente que si el modelo es de rango máximo.

: : : .3. tr0 . Si H0 es cierta. 2 Ip ) el modelo lineal normal y H0 : H = 0 una hipótesis lineal demostrable de rango t: Consideremos los estadísticos 2 R0 = (y Se veri…ca: 2 1. R1 = (y X b H )0 (y X b H ): 2 n r: 2. y1 . Demost. tn ] tal que Cr0 (XC) = [t1 .3) son también normales independientes. HIPÓTESIS LINEALES 233 Teorema 13. : : : . los estadísticos (R1 independientes. y z1 .5. t: 2 2 R0 ) y R0 son estocásticamente 2 3.1 Sea y Nn (X . Cada zi es N (0. es decir. : : : .3. Si H0 es cierta siendo r0 = r 2 R1 2 2 n r0 . 2 ) para i > r: Luego R0 = dos de N (0. 2 1. yn son normales independientes. 1) independientes. la matriz de diseño X se transforma en e X= XC. tr0 +1 .: Observemos primero que bajo el modelo lineal normal. zi2 r0 : i=r0 +1 2 y (R1 2 R0 )= 2 sigue la distribución donde t = r . : : : .13.3. zn (véase Teorema 13. : : : . : : : . R0 = 2 X b )0 (y 2 X b ). : : : .5. 2 R1 2 2 R0 2 t. tr0 ] Cr (X) = [t1 . tr . tenemos que 2 R1 2 y R1 = 2 = zi2 i=r 0 +1 sigue la distribución 2 R1 2 n r0 : 2 R0 = Por otro lado r X 2 t. las columnas de XC son combinación lineal de las columnas de X: Podemos encontrar una matriz ortogonal T = [t1 . 2 es suma de (n r) cuadra- 2. tr ]: n X Siguiendo los mismos argumentos del Teorema 13. Si la hipótesis lineal es cierta. tr+1 .

bm son los estimadores LS bajo el modelo no restringido y yi = b0 + xi1 b1 + b + xim bm : Aplicando (13. por tanto son independientes. Xm : La matriz de la hipótesis lineal es 0 1 0 1 0 0 B 0 0 1 0 C C . que equivale a decir que la variable respuesta Y no depende de las variables explicativas X1 .6. 13. b 2 2 R1 = n X i=1 (yi y)2 . rang(H) = m: H=B @ A 0 0 0 1 Si H0 es cierta.234 CAPÍTULO 13. Inferencia en regresión múltiple Consideremos el modelo de regresión múltiple (13. entonces el estadístico F = 2 2 (R1 R0 )=t 2 R0 =(n r) 2 2 = 2 (R1 2 R0 2 R0 ) n r t t Fn r : (13. : : : .5).11). EL MODELO LINEAL 2 R0 no tienen 2 2 3. si H0 es cierta. m m 1 m Fn m 1 : . solamente interviene el parámetro 0 . Las sumas de cuadrados que intervienen en R0 y en R1 términos en común. F sigue la distribución F con t y n r grados de libertad y no depende de la varianza (desconocida) del modelo. : : : . El rango del modelo es rang(X) = m + 1: La hipótesis más interesante en las aplicaciones es H0 : 1 = = m = 0. bajo H0 tenemos que F = 2 (R1 2 R0 ) n 2 R0 yi ) . Consecuencia inmediata y muy importante de este resultado es que. b1 .11) Es decir. evidentemente b0H = y (media muestral) y las sumas de cuadrados residuales son 2 R0 = n X i=1 (yi donde b0 .

Un estudio más completo incluiría: a) análisis grá…co de los residuos. Se demuestra que n n X X 2 2 2 R0 = (yi yi ) = (1 R ) b (yi y)2 . d) errores correlacionados. Complementos Hemos visto los aspectos fundamentales del modelo lineal. Chatterjee y Price (1991). . (1996). entonces F = R2 n 1 R2 m m 1 m Fn m 1 : Rechazaremos H0 si F es signi…cativa. si la correlación múltiple poblacional es cero.7. COMPLEMENTOS 235 El test F se suele expresar en términos de la correlación múltiple. i=1 i=1 donde R es el coe…ciente de correlación múltiple muestral entre Y y X1 . Por tanto. Consultar Cuadras y Arenas (1990).13.7. b) efectos de la colinealidad. Ver Peña (1989). e) selección de las variables.2). si H0 es cierta. etc. : : : .2. Carmona (2005). podemos de…nir un modelo lineal considerando las dimensiones principales obtenidas aplicando análisis de coordenadas principales sobre una matriz de distancias entre las observaciones. 13. es decir. Xm (Teorema 4. Para tratar variables explicativas mixtas. Cuadras et al. c) mínimos cuadrados ponderados.

236 CAPÍTULO 13. EL MODELO LINEAL .

k. total de observaciones: n 237 P = (1=ni )P h yih P = (1=n) i h yih = n1 + + nk .1.ni . Diseño de un factor Supongamos que las observaciones de una variable Y solamente dependen de un factor con k niveles: Nivel 1 y11 y12 Nivel 2 y21 y22 Nivel k yk1 yk2 Si escribimos i y1n1 y2n2 yknk = + i i.Capítulo 14 ANÁLISIS DE LA VARIANZA (ANOVA) El análisis de la varianza comprende un conjunto de técnicas estadísticas que permiten analizar cómo operan diversos factores. h = 1. : : : . yih = donde i + eih . estudiados simultáneamente en un diseño factorial. sobre una variable respuesta. en el modelo (13. 14. : : : .6) tenemos i = 1. Indiquemos: Media nivel i : yi y Media general: No. es la media de la variable en el nivel i.

2 y la suma de cuadrados residual es R0 = QD : La hipótesis nula de principal interés es la que establece que no existen diferencias entre los niveles de los factores: H0 : 1 = = k. : : : . si H0 es cierta. QE =(k QT 2 1) es también estimador centrado de 2 n 1. y tiene rango 1.238 CAPÍTULO 14. Consecuencia inmediata es que. los estadísticos QE y QD son estocásticamente independientes. Si H0 es cierta. QD =(n k) es un estimador centrado de 2 y QD = 2 2 n k: 2 2. i P = Pi ni (yi y)2 P = Pi Ph (yih yi )2 = i h (yih y)2 son i = 1.5. Bajo H0 solamente existe una media y su estimación es 2 b = y: Entonces la suma de cuadrados residual es R1 = QT y además se veri…ca 2 2 R1 R0 = QE : Por tanto.1. y QE 2 2 k 1: 3. entonces el estadístico F = QE =(k QD =(n 1) k) k 1 Fn k : . como una consecuencia del Teorema 13. tenemos que: 1. Si H0 es cierta. ANÁLISIS DE LA VARIANZA (ANOVA) También indiquemos: Suma de cuadrados entre grupos: QE Suma de cuadrados dentro de grupos: QD Suma de cuadrados total: QT Se veri…ca la relación fundamental: QT = QE + QD : Las estimaciones LS de las medias b i = yi . k.

denominados factores …la y columna.7) con las restricciones (13. B.2. . Bb y1b y2b . ab i=1 j=1 a b las medias por …las. ya2 y2 . .. DISEÑO DE DOS FACTORES 239 14. yab yb y1 y2 . : : : . con a y b niveles A1 . bj = y j yi y.2.14. . y la expresión de la desviación aleatoria es eij = yij b b La suma de cuadrados residual del modelo es 2 R0 = a b XX i=1 j=1 bj = (yij yi y j + y): (yij y j + y)2 : . . j es el efecto del nivel Bj del factor columna. n r = ab (a + b 1) = (a 1)(b 1): Las estimaciones de los parámetros son b = y.l. El rango del diseño y los g.Aa y B1 . Supongamos que los datos se ajustan al modelo (13. Diseño de dos factores Supongamos que las observaciones de una variable Y dependen de dos factores A. donde es la media general. . Aa siendo yi = 1X yij . ya y yj = 1X yij . . . . . i es el efecto del nivel Ai del factor …la. b j=1 b B1 y11 y21 .Bb . por columnas y general. del residuo son r = 1 + (a 1) + (b 1) = a + b 1. b i = yi bi y. . a i=1 a y =y= 1 XX yij . y que disponemos de una observación para cada combinación de los niveles de los factores: A1 A2 . . ya1 y1 B2 y12 y22 .8). : : : .

es decir. y por tanto a b XX i=1 j=1 2 R1 = (yij yi )2 : y)+(yij yi y j +y))2 resulta Ahora bien. . las hipótesis de interés son: A H0 : B H0 : 1 1 = = = = a b = 0 (no hay efecto …la) = 0 (no hay efecto columna) B Supongamos H0 cierta. Entonces el modelo se transforma en yij = + i +eij .5. 2 QB = 2 (b 1) y los estadísticos QB y QR son estocásticamente independientes.j (yij y)2 y)2 yi y j + y)2 y)2 Se veri…ca la siguiente identidad: QT = QA + QB + QR : En el modelo de dos factores. B 3. Si H0 es cierta. Si H0 es cierta. actúa solamente un factor. ANÁLISIS DE LA VARIANZA (ANOVA) También consideramos las cantidades: Suma Suma Suma Suma de de de de cuadrados cuadrados cuadrados cuadrados entre …las: entre columnas: residual: total: QA QB QR QT P = b Pi (yi = a j (y j P = i. obtendríamos R1 = QA + QR : Por el Teorema 13. si H0 es cierta.j (yij P = i. QR =(a 1)(b 1) es un estimador centrado de y QR = A 2. QB =(b 1) es también estimador centrado de 2 . desarrollando (yij que yi )2 = ((y j 2 R1 = QB + QR : F 2 Análogamente.240 CAPÍTULO 14. QA =(a 1) es también estimador centrado de 2 . 2 QA = 2 (a 1) y los estadísticos QA y QR son estocásticamente independientes.1 se veri…ca: 2 2 2 (a 1)(b 1) : 1.

: : : . : : : . con a y b niveles A1 . ac i. y2bc . .c 1 X yi = yijh .h=1 a. . Diseño de dos factores con interacción Supongamos que las observaciones de una variable Y dependen de dos factores A. : : : .c 1 X y=y = yij : abc i.Bb . ya2c y2 . : : : :Aa y B1 . ya11 . : : : . ya y yj yij 1X = yijh . Bb y1b1 .h=1 B1 y111 . y que disponemos de c observaciones (réplicas) para cada combinación de los niveles de los factores: A1 A2 . . : : : . c. y11c y211 . . : : : .b. bc j.14. y12c y221 . Aa siendo b. : : : . ij la interacción entre los niveles Ai . . y21c . a. El . ya1c y1 B2 y121 . b. c h=1 c a. : : : . : : : . .c 1 X = yijh . yabc yb y1 y2 . ya22 . denominados factores …la y columna. B y para decidir H0 utilizaremos FB = QB (a 1)(b 1) QR (b 1) b F(a 1 1)(b 1) : 14. y1bc y2b1 .h=1 El modelo lineal del diseño de dos factores con interacción es yijh = + i + j + ij + eijh . . i el efecto del nivel Ai del factor …la. siendo la media general.3. : : : ..Bj . DISEÑO DE DOS FACTORES CON INTERACCIÓN A Por lo tanto tenemos que para decidir H0 utilizaremos el estadístico 241 FA = QA (a 1)(b 1) QR (a 1) a F(a 1 1)(b 1) . : : : . : : : . i = 1. . h = 1. . yab1 . j el efecto del nivel Bj del factor columna.j. : : : .3. j = 1. B. . y22c . .

242 CAPÍTULO 14.h=1 a. y la expresión de la desviación aleatoria es eijh = yijh b b bj y): La suma de cuadrados residual del modelo es 2 R0 = i.b.l.j. ANÁLISIS DE LA VARIANZA (ANOVA) parámetro ij mide la desviación del modelo aditivo E(yijh ) = + i + j y solamente es posible estimar si hay c > 1 réplicas. b = yj j bi y. bij = yij bij = (yij yi )2 : yi y j + y.c X (yijh También debemos considerar las cantidades: Suma Suma Suma Suma Suma de de de de de cuadrados cuadrados cuadrados cuadrados cuadrados entre …las: entre columnas: de la interacción: residual: total: QA QB QAB QR QT P y)2 = bc Pi (yi = ac j (y j y)2 P y j + y)2 = c i.j (yijh y)2 Se veri…ca la siguiente identidad QT = QA + QB + QAB + QR : Las hipótesis de interés son: A H0 : B H0 : AB H0 : = 1 = 11 = 1 = = = = 0 (no hay efecto …la) b = 0 (no hay efecto columna) ab = 0 (no hay interacción) a . b i = yi y.j (yij yi P = i. del residuo son abc ab = ab(c 1): Las estimaciones de los parámetros son b = y. Se suponen las restricciones a X i=1 i = b X j=1 j = a X i=1 ij = b X j=1 ij = 0: Así el número de parámetros independientes del modelo es 1 + (a 1) + (b 1) + (a 1)(b 1) = ab y los g.jh (yijh yi )2 P = i.

k AB AC BC ij . i. B y C. Un modelo típico es yijkh = siendo: C B A i . DISEÑOS MULTIFACTORIALES 243 Como en los casos anteriores. etc. donde i indica el nivel i-ésimo de A. interacciones entre A y B.k. H0 : i = 0 (la interacción entre A y B no es signi…cativa). 2 ): A Son hipótesis de interés: H0 : A = 0 (el efecto principal de A no es signii AB AB …cativo). Si los factores tienen a. b. eijkh = = = = = media general. A y C.B y C.B. que pueden interactuar. interacción entre A. entonces A tiene (a 1) . j .4.C. respectivamente.j. las observaciones son yijkh . podemos ver que la aceptación o rechazo de las hipótesis se decide mediante el test F: FA FB FAB QA ab(c 1) QR a 1 QB ab(c 1) = QR b 1 QAB ab(c 1) = QR (a 1)(b 1) = a Fab(c1 b 1 Fab(c 1) 1) Fab(c (a 1)(b 1) 1) 14. ik . k indica el nivel k-ésimo de C. y h indica la réplica h para la combinación ijk de los tres factores. j indica el nivel j-ésimo de B. jk ABC ijk + A i + B j + C k + AB ij + AC ik + BC jk + ABC ijk + eijkh . C. hay 3 factores A.h donde R es el residuo.4. desviación aleatoria N (0. y hay d réplicas para cada combinación de los niveles. B. c niveles. Los tests para aceptar o no estas hipótesis se obtienen descomponiendo la variabilidad total en sumas de cuadrados X (yikjh y)2 = A + B + C + AB + AC + BC + ABC + R. Cada factor representa una causa de variabilidad que actúa sobre la variable observable. efectos principales de A. Si por ejemplo. Diseños multifactoriales Los diseños de dos factores se generalizan a un número mayor de factores.14.

si C no interactúa con A. i. Por ejemplo. Si interpretamos las réplicas como un factor g.B.h donde R0 = AC + BC + ABC + R es el nuevo residuo con g.l.j. A AB que sirven para aceptar o rechazar H0 y H0 . respectivamente. el modelo es yijkh = + A i + B j + C k + AB ij + eijkh y la descomposición de la suma de cuadrados es X (yikjh y)2 = A + B + C + AB + R0 .244 CAPÍTULO 14. el residuo es R = D + AD + BD + CD + ABD + ACD + BCD + ABCD con q = (d 1) + (a 1)(d 1) + + (a 1)(b 1)(c 1)(d 1) = abc(d 1) g.l.l.k. respectivamente. En determinadas situaciones experimentales puede suceder que algunos factoros no interactúen. R0 =q 0 F = AB=(a 1)(b R0 =q 0 1) : 14. Entonces calcularemos los cocientes F F = A=(a 1) .. AB tiene (a D. R=q F = AB=(a 1)(b R=q 1) . ANÁLISIS DE LA VARIANZA (ANOVA) 1)(b 1) g. Entonces las sumas de cuadrados correspondientes se suman al residuo. .5.B con Pb categorías a. y hemos observado las ab categorias n = ij fij veces. Modelos log-lineales Supongamos que tenemos dos variables categóricas A.l. q 0 = (a 1)(c 1) + (b 1)(c 1) + (a 1)(b 1)(c 1) + q: Los cocientes F para las hipótesis anteriores son ahora F = A=(a 1) .

F j = np j . (14..1) es un ejemplo de modelo log-lineal. pi = P (Ai ).1) El modelo (14. la condición de independencia es ln Fij = ln Fi + ln F j que podemos escribir como ln Fij = siendo A i B j Fi = npi . ln n. Por tanto. + A i + B j . Aa B1 f11 f21 B2 f12 f22 .Bj respectivamente. . . Pi=1 j=1 b = ( j=1 ln Fij )=b . Generalmente no podemos aceptar la independencia estocástica. es decir. tenemos la tabla de contingencia a b : A1 A2 . .1) y escribir ln Fij = + A i P Pb =( a ln Fij )=ab. MODELOS LOG-LINEALES 245 donde fij es el número de veces que se observó la intersección Ai \Bj . Indiquemos las probabilidades pij = P (Ai \ Bj ). p j = P (Bj ): Existe independencia estocástica entre A y B si pij = pi p j . es decir. hemos de añadir un término a (14. Bb f1b f2b f1 f2 fa1 fa2 fab fa f1 f2 fb n P P donde fi = j fij . Pa = ( i=1 ln Fij )=a : + B j + AB ij . si ln pij = ln pi + ln p j : Si introducimos las frecuencias teóricas Fij = npij .14.5. f j = i fij son las frecuencias marginales de Ai . .

el test ji-cuadrado o el de razón de verosimilitud nos permiten decidir si los datos se ajustan al modelo. entre A y C. La i ij similitud con el modelo anova de dos factores es clara. El test jicuadrado clásico consiste en calcular X b b (fij Fij )2 =Fij i.l. que son dependientes. sino las frecuencias observadas fij : Entonces la estimación de los parámetros es muy semejante al modelo anova. d) A es independiente de B. B. C son mútuamente independientes. puede interesarnos saber si: a) A. Conviene observar que obtendríamos 2 = 0 en el tercer modelo.246 CAPÍTULO 14.1). C.j + B j A i + + AB ij B j + C k. que equivale a decir que los datos se ajustan al modelo (14. ya que los datos se ajustan perfectamente al modelo. i. El tratamiento de 3 variables categóricas A. b) Hay dependencia entre A y B. en cuyo caso el modelo es ln Fijk = ln Fijk = ln Fijk = + + A i A i y el test de la razón de verosimilitud se basa en X b 2 fij log(fij =Fij ). En las aplicaciones no conocemos las frecuencias esperadas Fij .B H0 : AB ij = 0. Partiendo de una tabla de contingencia a b c. pero los tests de hipótesis se resuelven mediante ji-cuadrados. siendo el modelo ln Fijk = A i B j + + BC jk : En cada caso. . entre B y C + B j + C k C k AB ij + AC ik AC ik + BC jk BC jk . B. Sean b Fij = nfi fj las estimaciones máximo-verosímiles de las frecuencias esperadas.j que también sigue la distribución ji-cuadrado con (a 1)(b 1) g. ANÁLISIS DE LA VARIANZA (ANOVA) B A donde AB = ln Fij j es la desviación del modelo lineal. C + + + + + + C k + + ABC ijk . La hipótesis de interés es la independencia entre A. C es semejante. c) Hay además dependencia entre A. B.

2 4 0.000 [GE][GS][GC][ES][EC][SC] 239. Ejemplo Ejemplo 14.4 25 0.2. El modelo [GE][GS][GC][ES][EC][SC] con sólo las interacciones de segundo orden se ajusta mejor pero también debe rechazarse.8.14.3 15 0. p [G][E][S][C] 1216. 14.000 [GEC][GSC][GES] 32.1. = + G i + E j + S k + C l + GE ij + GS ik + GC il + ES jk + EC jl + SC kl en el caso del modelo [GSC]. edad y .1. de los datos del Titanic.056 C l GES ijk ESC jkl El modelo [G][E][S][C] debe rechazarse. pues 2 es muy signi…cativo. Entonces los modelos analizados son: Modelo para ln Fijk + G+ E+ S+ i j k = GE + + SC ij kl + GEC + S ijl k + GEC + GSC + ijl ikl + GESC ijkl + GEC + GSC + ijl ijk 2 Símbolo g. signi…caría suponer (caso de aceptarse) que el combinado de género. supervivencia y clase. Por ejemplo.7 16 0.1: Tabla de frecuencias combinando género.000 [GESC] 0 [GEC][GSC][ESC] 9.5.l. edad. que reproducimos de nuevo en la Tabla 14.1 Analicemos los datos de supervivencia del Titanic. véase el Ejemplo 9.3 6 0. Indicamos por la parte del modelo que contiene los efectos principales y las interacciones de orden inferior a la máxima propuesta. El modelo [GEC][S].000 [GEC][S] 659.5.5. MODELOS LOG-LINEALES Género Hombre Mujer Hombre Mujer Hombre Mujer Hombre Mujer Edad Supervivencia 1 2 3 T Adulto NO 118 154 387 670 4 13 89 3 Niño 0 0 35 0 0 0 17 0 Adulto SÍ 57 14 75 192 140 80 76 20 Niño 5 11 13 0 1 13 14 0 247 Tabla 14.

El modelo [GESC] es el modelo de dependencia completa. A. El único modelo que podría aceptarse es el [GEC][GSC][ESC]. 14. se ajusta perfectament a las frecuencias observadas. que incluye todas las interacciones. En 1947. aleatorios o mixtos.6. Los primeros estudios y aplicaciones consideraban factores de efectos …jos. El salvamento de los pasajeros se produjo en los términos siguientes: “mujeres y niños primero (según la clase) y después hombres de primera clase” . pero carece de interés (hay tantos parámetros como datos). Existen muchos diseños diferentes. Peña (1989). Ver Cuadras (2000). los efectos que actúan sobre los modelos pueden ser …jos. . 2 = 9. pero también debe rechazarse. para resolver problemas de diseño experimental en agricultura. Eisenhart consideró que algunos efectos podían ser aleatorios.l. ANÁLISIS DE LA VARIANZA (ANOVA) clase es independiente de la supervivencia. Complementos El Análisis de la Varianza fue introducido por R. y cuando hay interacciones el cálculo de los cocientes F es diferente.248 CAPÍTULO 14. Fisher en 1938. C. Hemos visto que es una aplicación del modelo lineal. Ciertamente.2 con 4 g. Se concluye que debemos aceptar que la supervivencia dependía del género. edad y clase. cuyo estudio dejamos para otro momento.

1) . ynj )0 son las n observaciones (independientes) de e la variable Yj .1.. y2j . . .ep ]. .Capítulo 15 ANÁLISIS DE LA VARIANZA (MANOVA) 15. ynp 1 B B Y =B @ . : : : . yn1 yn2 y1p y2p . : : : . . Yp . . obtenidas en diversas condiciones experimentales. Supongamos que tenemos n observaciones independientes de p variables observables Y1 . que suponemos siguen un modelo lineal univariante yj = X j + ej : El modelo lineal multivariante es Y = XB + E 249 (15.e2 . La matriz de datos es 0 y11 y12 y21 y22 . como en el caso univariante. . Modelo El análisis multivariante de la varianza (MANOVA) es una generalización en p > 1 variables del análisis de la varianza (ANOVA). : : : . C C y y y C = [e1 . . A e donde yj = (y1j . .

250 CAPÍTULO 15... p e donde R0 (j. la estimación LS b = (X0 X) X0 y 0 minimiza b0b= (y X b ) (y X b ): En el caso multivariante. x1m x2m .2. . 2p m1 m2 mp Las matrices Y y X son conocidas. ): y E la matriz de desviaciones aleatorias 0 e11 e12 e1p B e21 e22 e2p B E =B . . Suponemos que las …las de E son independientes Np (0. . . . b XB). .. ANÁLISIS DE LA VARIANZA (MANOVA) 1 siendo X la matriz de diseño 0 B B X =B @ x11 x12 x21 x22 . . A 1 C C C. . Estimación de parámetros En el modelo MANOVA debemos estimar los m p parámetros de regresión contenidos en B. . . . . xn1 xn2 . j) es la suma de cuadrados residual del modelo univariante yj = X j + ej : . . . . . así como la matriz de covarianzas : En el modelo univariante y = X + e. . el estimador ee b LS de B es B tal que minimiza la traza b b siendo E = Y XB: La matriz de residuos es la matriz R0 = (R0 (i. . . @ . . . . . en1 en2 enp 15. A 1 C C C A 1p . . .. . j)) de orden p b b R0 = E0 E = (Y b XB) (Y 0 b b tr(E0 E) = tr[(Y b XB) (Y 0 b XB)]. xnm B la matriz de parámetros de regresión 0 B B B =B @ 11 21 12 22 C C C.

ESTIMACIÓN DE PARÁMETROS 251 Teorema 15. 5.15. yj ) =cov(ei . cov(yi ) = cov(ei ) = .2. . Luego (Y XB0 ) (Y XB0 ) = R0 + M. E(E) = 0: 0 2. b 0 b b 0 b b pues (Y XB) (XB XB0 ) =(Y XB) X(B B0 ) = 0 por veri…car B 0 las ecuaciones normales (15.2) y vienen dados por cuando el diseño es de rango máximo r = rang(X) =m.: Sea B0 otro estimador de B: Entonces: (Y XB0 )0 (Y b b b cuando r < m: El estimador B minimiza la traza tr(E0 E) así como el b b b determinante det(E0 E): Además B es un estimador insesgado de B: 0 b b b b XB0 ) = (Y XB + XB XB0 ) (Y XB + XB XB0 ) 0 b b = R0 + (XB XB0 ) (XB XB0 )+ 0 0 b b b b (Y XB) (XB XB0 )+(XB XB0 ) (Y XB) 0 b b = R0 + (XB XB0 ) (XB XB0 ). b es decir. . y e0i son …las de E: 3. donde yi son …las de Y. 7 6 . para B0 = B: Por otra parte b E(B) = (X0 X) 1 X0 E(Y) =(X0 X) 1 (X0 X)B = B: .2). siendo 2 3 2 3 0 y1 e01 6 . y por b B = (X0 X) X0 Y b B = (X0 X) 1 X0 Y. E(Y) = XB. 7 Y =4 . 0 yn e0n con las condiciones: 1. es decir. E =4 . cov(yi . 5.1 Consideremos el modelo de regresión multivariante Y = XB + E. (15. ej ) = 0 para i 6= j: Entonces: Las estimaciones LS de los parámetros de regresión B veri…can las ecuaciones normales 0 b X0 XB = X Y. Demost. siendo M una matriz p p de…nida positiva.2. Entonces la traza y el determinante de (Y XB0 )0 (Y XB0 ) alcanzan el valor mínimo cuando M = 0.

tr+1 .2 Bajo las mismas condiciones del teorema anterior.: (Y b XB) (Y b XB) = Y0 Y = Y0 Y = Y0 Y = Y0 [I b b b b 0 Y0 XB B0 X Y + B0 X0 XB 0 0 b b b0 b Y XB (por B0 X Y = B X0 XB) 0 0 0 Y X(X X) X Y X(X0 X) X0 ]Y: Sea ahora T = [t1 . podemos expresar la matriz de residuos como R0 = Y0 [I X(X0 X) X0 ]Y: es Una estimación centrada de la matriz de covarianzas b = R0 =(n 0 r): Demost. tn ] una matriz ortogonal tal que sus columnas formen una base ortonormal de Rn . tr .2. : : : . si i > r. con r = rang(X). ver ecuaciones b normales (15. : : : .252 CAPÍTULO 15. donde indica un valor posiblemente no nulo. de manera que las r primeras generen el mismo subespacio Cr (X) generado por las columnas de X: Por lo tanto las otras n r columas serán ortogonales a Cr (X): Es decir t0i X = t0i X = 0 si i r. ANÁLISIS DE LA VARIANZA (MANOVA) Teorema 15. deducimos que E es ortogonal a X en el sentido que donde Zn es matriz (n b T0 E = 0 Zn r r primeras …las n r últimas …las r r) p: Pero 0 = 0 Zn . Sea Z = T0 Y:Entonces E(Z) = T0 XB = 0 n r primeras …las r últimas …las b b b Consideremos el residuo E= Y XB: De X0 (Y XB) = 0. r b T0 E = T0 Y b T0 XB = Z .2).

Sea R0 la matriz de residuos. ) independientes. TESTS DE HIPÓTESIS LINEALES es decir.3. Luego R0 = Z0n r Zn r cumple las condiciones de una matriz p p que sigue la distribución de Wishart. Entonces. 253 b r …las de Z y de T0 E coinciden. la estimación de los parámetros B restringidos a H0 viene dada por b b b BH = B (X0 X) H0 (H(X0 X) H0 ) 1 HB R1 = (Y b XBH )0 (Y b XBH ): y la matriz residual es . z0n r son las …las (independientes) de Zn r : Entonces cada zi es un vector de media cero y matriz + zn r z0n r : de covarianzas : Luego E(zi z0i ) = y Z0n r Zn r = z1 z01 + Por lo tanto E(R0 ) = E(z1 z01 + + zn r z0n r ) = (n r) : b b b b R0 = E0 E = E0 TT0 E = 0 Zn r = Z0n r Zn r : Teorema 15. zn r ] donde z01 .3 Sea Y = XB + E el modelo lineal normal multivariante donde las …las de E son Np (0.3.2. ) independientes.5). Se veri…ca entonces que la distribución de R0 es Wishart Wp ( . si H0 es cierta. el modelo se transforma en e Y =X +E. n r): Demost. como 0 Z0n r Indiquemos Z0n r = [z1 .15. : : : . las últimas n TT0 = I. : : : .: Hemos visto en el teorema anterior que E(Zn r ) = 0: Así las n r …las de Zn r son todas Np (0. 15. Tests de hipótesis lineales H0 : HB = 0 Una hipótesis lineal demostrable de rango t y matriz H es donde las …las de H son combinación lineal de las …las de X: Como en el caso univariante (Sección 13.

: Si la hipótesis H0 es cierta. : : : . ut . : : : .2. tr0 +1 . tr0 . : : : . : : : . t). ur . : : : . Si H0 es cierta. y [u1 . Se veri…ca: 1. las matrices R0 y R1 Wishart R1 Wp ( . ut+1 . ut ] generen H. ur+1 . R1 siendo t = rang(H). tn ] tal que las r0 = r t primeras columnas generen XC y las r primeras generen X Cr0 (XC) = [t1 . tr . donde las columnas de XC son combinación lineal de las columnas de X: Podemos construir una matriz ortogonal T = [t1 . y C = B. ) independientes. n r0 ). Si H0 es cierta. 2. ur ] generen X: Consideremos la matriz C de orden m (r t) generada por [ut+1 . : : : . ur ]: e Entonces HC = 0 y el modelo Y = XB + E se convierte en Y =X +E. R0 Wp ( . r0 . n r): R0 siguen la distribución de R0 Wp ( . : : : . pues HB = HC = 0::Así la matriz de diseño siendo X e X se transforma en X = XC. ut+1 .254 CAPÍTULO 15. ut . : : : . tenemos que b T0 E = 0 Zn . : : : . : : : . tr ]: Siguiendo los mismos argumentos del teorema 15. las matrices R0 y R1 pendientes.3. donde las …las de E son Np (0. r0 = r t: 3.1 Sea Y = XB + E el modelo lineal multivariante. tr0 ] Cr (X) = [t1 . : : : . : : : . ANÁLISIS DE LA VARIANZA (MANOVA) Teorema 15. e = XC. H0 : HB = 0 una hipótesis lineal demostrable y R1 la matriz de residuos bajo H0 .2. el subespacio generado por las …las de H está contenido en el generado por las …las de X: Podemos construir una base ortogonal de Rm [u1 . tr+1 . um ] tal que [u1 . R0 la matriz de residuos. R0 son estocásticamente inde- Demost.

Tabla general MANOVA g. El modelo del diseño de un único factor o causa de variabilidad es i donde es un vector de medias general. r0 ): Por otro lado podemos escribir 2 3 0 0 e 5. matriz Wishart lambda de Wilks Desviación hipótesis t R1 R0 = jR0 j=jR1 j n r R0 Residuo Criterio decisión: Si < es rechazada H0 .15. t) < )= : 15. Aceptaremos H0 si signi…cativo y rechazaremos H0 si es pequeño y signi…cativo. n e e R1 = (Y X b )0 (Y X b ) = Z0n donde las t = r r0 …las de Zt son independientes de las n Entonces R1 = Z0t Zt + Z0n r Zn r . h = 1. i es el efecto del nivel i del factor. l. es decir.ni .k. MANOVA DE UN FACTOR donde las n r0 …las de Zn r0 255 son Np (0. donde P ( (p. n r. si H0 es cierta. R1 R0 = Z0t Zt . . t): no es Así 0 1 sigue la distribución de Wilks.4. T0 (Y X b ) = = 4 Zt Zn r0 Zn r r …las de Zn r : donde R1 R0 es Wishart Wp ( . Por tanto r0 Zn r0 es Wishart Wp ( . n r. : : : . yih es la observación multivariante h en la situación (o población) i. n r0 ) e independiente de R0 : La consecuencia más importante de este teorema es que. ) independientes. entonces R0 y R1 R0 son Wishart independientes y = j(R1 jR0 j jR0 j = R0 ) + R0 j jR1 j (p. i = 1. Manova de un factor yih = + + eih .4. : : : .

etc. a. MANOVA de un factor matriz Wishart lambda de Wilks B = jWj=jTj (p. B = R1 R0 . son las matrices de dispersión “dentro grupos” “entre grupos” y “total” . j es el efecto aditivo del nivel j del factor columna. k 1) 15. Manova de dos factores Si suponemos que las n = a b observaciones multivariantes dependen de dos factores …la y columna. con a y b niveles respectivamente. j = 1. Por tanto W = R0 . : : : . donde es la media general. Se veri…ca T = A + B + R0 : Indicando q = (a 1)(b 1). B =(buv ). R0 = (ruv ) con elementos P auv = b Pi (yi u y u )(yi v y v ) buv = a j (y ju y u )(y jv y v ) P ruv = ij (yiju yi u y ju + y u )(yijv yi v y jv + y v ) P tuv = ij (yiju y u )(yijv y v ). Como generalización del caso univariante. i es el efecto aditivo del nivel i del factor …la. v = 1. ANÁLISIS DE LA VARIANZA (MANOVA) correspondiendo a la misma situación experimental del análisis canónico de poblaciones (Capítulo 7). y u la media general. siendo.5. . i = 1. para cada variable Yu . l. intervienen las matrices A = (auv ). b. y ju la media …jando el nivel j del factor columna. con n = n1 + + nk . Entre grupos k 1 Dentro grupos n k Total n 1 k. n W T g.256 CAPÍTULO 15. T = R1 = B + W. T = (tuv ). el modelo es yij = + i + j + eij . : : : . : : : . p. respectivamente (Sección 3.3).3. u. obtenemos la tabla .

: : : . yijhp )0 es la réplica multivariante h de las variables observables.jh (yijhu yi u )(yijhv yi v ) P = i. c. j es el efecto aditivo del nivel j del factor columna. a. b q R0 Residuo Total ab 1 T 257 1) 1) 15. q. Obtenemos la tabla: que veri…can . v = 1.15. i = 1. : : : . donde auv buv cuv ruv tuv P = bc Pi (yi u y u )(yi v y v ) = ac j (y j u y u )(y j v y v ) P = c i. B = (buv ). : : : . b. p. e yijh = (yijh1 . MANOVA DE DOS FACTORES CON INTERACCIÓN MANOVA de dos factores matriz lambda g. Manova de dos factores con interacción En el diseño de dos factores con interacción suponemos que las n = a b c observaciones multivariantes dependen de dos factores …la y columna. R0 = (ruv ). q. l. a Columnas b 1 B jBj=jTj (p.6. con a y b niveles respectivamente. T = (tuv ).j (yiju y u )(yiju y u ). También. y que hay c observaciones (réplicas) para cada una de las a b combinaciones de los niveles. u. Wishart de Wilks Filas a 1 A jAj=jTj (p. j = 1. donde es la media general.j (yij u yi u y j v + y u )(yij v yi v y j v + y v ) P = i. : : : . h = 1. El modelo lineal es yijh = + i + j + ij + eijh . : : : . parámetro que mide la desviación de la aditividad del efecto de los factores. T = A + B + AB + R0 : ( AB no es un producto matricial). AB = (cuv ). como en el caso univariante.6. ij es la interacción. i es el efecto aditivo del nivel i del factor …la. intervienen las matrices A = (auv ).

28 Hembras Y 1 Y 2 Y3 19.17 Los resultados MANOVA son: .81 0.33 19.31 20.30 0.35 19.02 19. b 1) AB jABj=jTj (p.35 34 20.18 18.30 20.26 0.7.69 0. l.17 20.16 18.51 0.57 22. r. se quiere investigar el efecto del sexo (S) y de la temperatura ambiental (T). q) Interacción (a 1)(b 1) = q Residuo ab(c 1) = r R0 Total abc 1 T 15.44 0.20 21.22 19. Machos Temp Y 1 Y 2 Y3 4 18.90 0. En un experimento para inhibir un tumor.27 23.66 21.20 20 21.85 19.50 0. a 1) Columnas b 1 B jBj=jTj (p.34 0.68 19.1 Ratas experimentales.45 20.7.15 18.15 16.90 0.56 20.20 15.95 0.25 20.54 19.20 20. r.92 0.84 0.258 CAPÍTULO 15.00 0. Y2 =peso …nal. ANÁLISIS DE LA VARIANZA (MANOVA) MANOVA de dos factores con interacción matriz lambda g. Ejemplos Ejemplo 15.58 19.87 22.22 18. Se consideran las variables: Y1 =peso inicial. Y3 =peso del tumor.30 0.15 19.74 16. r.49 0.00 0.38 17.32 19.08 0. Wishart de Wilks Filas a 1 A jAj=jTj (p.41 17.24 18.

l.81 9.019 0 1 . pero la interacción no es signi…cativa.20 .284 @ 32.772 0.01 .125 259 S 1 T S 2 Residuo 12 Total 17 Son signi…cativos los efectos S y T.06 @ 32.088 A .1) ayuda a visualizar las diferencias.7 .275 .006 1 0 19. . aunque no signi…cativa.l.5 .46 6.0 18.15.261 3.18 6.3 7. 0 matriz dispersión 1 lambda 4.38 A .039 0 1 25. Una representación canónica de los 3 2 = 6 grupos (Figura 14.19 @ 2.7.5 .55 3. EJEMPLOS g.7 .66 .51 . T 2 F g.27 .208 A .337 6.10 .284 A .20 .006 0 1 . Podemos ver que la pequeña diferencia entre la representación de las tres temperatures de los machos y de las hembras es indicio de una cierta interacción.376 A .816 .642 1.038 @ 32.19 @ 26.5 .

0 1644. vamos a estudiar 8 especies (factor E) de coleópteros del género Timarcha.53 A 282.5 4520.1: Representación canónica de los datos de las ratas hembras (izquierda) y machos (derecha).5. Las matrices de dispersión entre especies.30 .9 C B C = .0 3270.7692 B 86.554 B 97.2 @ 30225: 21871: A 15825: 0 1 96. Continuando con el ejemplo 7. Ejemplo 15.0068 23610 61519 46405 C E=B B C F35.4 10786: 7804. debidas a la interacción.97 236.329 @ 428. entre sexos.8 @ 169920 126980 A 95395 0 1 675.1944 4001.2353 = 152.035 20.94 1613. pero teniendo en cuenta el sexo.6 B 3849. en relación a 5 variables biométricas.559 92. ANÁLISIS DE LA VARIANZA (MANOVA) Figura 15.66 108.260 CAPÍTULO 15.559 = 463.7.470 81.31 C B C = .1. residual y los estadísticos y F son: 0 1 14303 24628 17137 48484 36308 B 43734 31396 85980 64521 C B C = .554 157.2 C S=B B C F5.205 85.0 10997: 7957.2 Coleópteros.2353 = 4.405 127. machos y hembras (factor S).28 102.3 3924.25 C E S=B C F35.532 63.

90 F 152. Hotelling. 2354 2787 2815 563 . para contrastar las diferencias entre localidades.5 3078.007 28.3 1 C C C C A 261 15.l. 35 35 35 7 g.8 446.2 R0 =B B @ 9178.6 B 3082.78 2002 g. teniendo en cuenta que si es la razón de verosimilitud en el test de hipótesis.6 0 1924.8. Traza de Hotelling: tr((R1 R0 )Ro ) = 2. y sus transformaciones a una F: Wilks Hotelling Pillai Roy 0. obtenemos los siguientes valores de los estadísticos de Wilks.8. debe ser función de estos valores propios (Anderson.0 3415. Traza de Pillai: tr((R1 R0 )R1 ) = 3.4 4206.4 6038. Otros criterios Sea 1 p los valores propios de R0 respecto de R1 : Podemos expresar el criterio de Wilks como = jR0 j = jR1 j 1 p: Este criterio es especialmente interesante.l.2 57. 1958).8 1346.9 3888. Raíz mayor de Roy: (1 p )= p : 1 p X i=1 1 p X1 i=1 i i : 1 i: En el ejemplo 15.0 5950.15.4 2452. Así otros tests propuestos son: 1.2. entonces = n=2 : Se demuestra que cualquier estadístico que sea invariante por cambios de origen y de escala de los datos.6 3159. Pillai y Roy.02 2. OTROS CRITERIOS 1546.6 B 3498.090 24.7.7 1487.

1971). Complementos El Análisis Multivariante de la Varianza es muy similar al Análisis de la Varianza. se puede plantear MANOVA utilizando distancias entre las observaciones. y a continuación aplicando el modelo de regresión multivariante. depende de la hipótesis alternativa. S. Hotelling. Ver Rencher (1998). Por ejemplo. entonces el criterio de Roy es el más potente. calculando coordenadas principales mediante MDS. ANÁLISIS DE LA VARIANZA (MANOVA) 15. Para datos mixtos o no normales. Posteriormente S. Véase Cuadras (2008). Roy propuso un planteo basado en el principio de unión-intersección. Los cuatro criterios que hemos visto son equivalentes para p = 1. Se puede plantear un análisis tipo ANOVA para datos categóricos. salvo que interviene más de una variable cuantitativa observable. y diferentes para p > 1: No está claro cual es el mejor criterio. J. Wishart y S.N. en el diseño de un factor. dando lugar al método llamado CATANOVA (Light y Margolin. Esta extensión multivariante se inicia en 1930 con los trabajos de H.262 CAPÍTULO 15.9. . si los vectores de medias están prácticamente alineados. Wilks.

: : : . tiene también interés la estimación de ciertas combinaciones lineales de los parámetros : De…nición 16. además de la estimación de los parámetros de regresión .Capítulo 16 FUNCIONES ESTIMABLES MULTIVARIANTES 16. : : : . pm )0 : Una función paramétrica una combinación lineal b de y = (y1 .1 Una función paramétrica = p0 es estimable si y 0 sólo si el vector …la p es combinación lineal de las …las de la matriz de diseño X: 263 . Funciones estimables En el modelo lineal univariante y = X + e.1.1 Una función paramétrica los parámetros = ( 1 .1. La caracterización de que una función paramétrica siguiente es estimable es la Proposición 16. : : : . an )0 . tal que b = a1 y1 + E( b ) = : + an yn = a0 y. es estimable si existe + + pm m donde p = (p1 .1. yn )0 donde a = (a1 . m )0 = p1 1 es una combinación lineal de = p0 . : : : .

Teorema 16.2. entonces b = p0 b es único. tiene varianza mínima. a a a 2. e y es único.264 CAPÍTULO 16. es decir. puesto que b0 X = 0: Luego e0 y es estimador centrado. p0 es combinación lineal de las …las de X: 16. Se ver- Demost. dentro de los estimadores lineales insesgados de . es decir. FUNCIONES ESTIMABLES MULTIVARIANTES Demost.: Existe un estimador insesgado b = a0 y de = p0 : Sea Cr (X) el subespacio generado por las columnas de X: Entonces a =e+b. donde e 2 a a Cr (X) y b es ortogonal a Cr (X): Consideremos al estimador e0 y: Tenemos a E( b ) = E(a0 y) =E(e0 y + b0 y) =E(e0 y) + b0 X =E(e0 y) = . a que prueba que b = p0 b tiene varianza mínima.: E( b ) = E(a0 y) = a0 E(y) = a0 X = p0 . entonces E(e0 y) E(a0 y) = (e0 a0 )X = 0 a a 0 )e = a1 . n tenemos que var(a0 y) = kak2 2 = (kek2 + kbk2 ) a 2 kek2 a 2 = var(e0 y). a )ey=eX =p a a Finalmente. Si b es estimador LS de . Un criterio para saber si p0 es función paramétrica estimable es p0 (X0 X) X0 X = p0 : . a a Por otro lado. b= y X b es ortogonal a Cr (X) y e0 e = e0 y e0 X b = 0 e a a a 0 0 b 0 b : Así b = e0 y = p0 b es único y centrado. 1. b = p0 b es estimador lineal insesgado de y. que vale para todo : Por lo tanto a0 X = p0 .1 Sea i…ca: = p0 una función paramétrica estimable. Teorema de Gauss-Markov La estimación óptima de una función paramétrica estimable = p0 se obtiene sustituyendo por la estimación LS b : Esto es el famoso teorema de Gauss-Markov. Si a01 y es otro estia mador centrado con a1 2 Cr (X).2. indicando kak2 = a2 + 1 + a2 .

. La estimación óptima de una fpem 0 = p0 B viene dada por b 0 = p0 B: b p) b Sólo hay que sustituir B por sus estimaciones LS B: Teorema 16. Se veri…ca: 0 = ( 1. 0 es una combi- = p1 1 + + pm m = p0 B.2 Sea estimable. FUNCIONES ESTIMABLES MULTIVARIANTES 265 16.1). : : : .3. pm )0 : Una función paramétrica multivariante 0 timable (fpem) si existe una combinación lineal b de las …las de Y donde a = (a1 . an )0 . es es- donde p = (p1 . : : : . : : : . 7 6 .es decir: 2 3 2 3 y1 1 6 . m los vectores …la de B.1 Una función paramétrica multivariante nación lineal de las …las de B. yn los vectores …la de Y. = p0 B una función paramétrica . tal que b 0 = a1 y1 + + an yn = a0 Y. La caracterización de que una función paramétrica iente: E( b ) = : es fpem es la sigu- Proposición 16.1 Una función paramétrica 0 = p0 B es estimable si y sólo si el vector …la p0 es combinación lineal de las …las de la matriz de diseño X: La demostración es similar al caso univariante. 7 Y =4 .3. Funciones estimables multivariantes En el modelo lineal multivariante (15.3. yn m De…nición 16. 5. 5: . y 1 .16. también tiene interés la estimación de ciertas combinaciones lineales de los parámetros B: Indiquemos por y1 . : : : . : : : .3. B =4 .3.

j j: y de varianza mínima donde y1 . b s las estimaciones LS de los fpem.266 CAPÍTULO 16. 16. Distancia de Mahalanobis Sean b 1 . r): 3. 0s = p0s B es un sistema de s fpem. La distribución de R0 es Wp ( .3. entonces: 2. entonces b = ( b 1 . Podemos plantear la representación canónica del sistema como una generalización del análisis canónico de poblaciones. j como M (i. : : : . : : : . Análisis canónico de fpem Supongamos que 01 = p01 B. : : : .1. b y R0 son estocásticamente independientes. 16. como la cantidad 2 2 2 = g1 + + gn : (16. yn son las …las de la matriz de datos Y: El vector g = (g1 . si b = p0 B es la estimación LS de .1 para fpem es: b Teorema 16. FUNCIONES ESTIMABLES MULTIVARIANTES Observemos que este teorema vale sin necesidad de una hipótesis de normalidad. n 1.3. y podemos de…nir la dispersión de b . La distribución de b es la de una combinación lineal de variables normales independientes.4. : : : .1) La versión del Teorema 15.3 En el modelo MANOVA normal. : : : . El estimador LS de es b 0 = p0 B = p0 (X0 X) X0 Y =g1 y1 + b + gn yn 2. Podemos de…nir la distancia de Mahalanobis (estimada) entre las funciones i . j)2 = ( b i b j )0 b 1 (bi b ): j . gn )0 es único.4. Si B es estimador LS de B. b p ) = p0 B es único. que es mínima. b = R0 =(n r) la estimación de la matriz de covarianzas. Cada b j es estimador lineal insesgado de entre los estimadores lineales insesgados de 0 b b 1.

: : : . ). entonces ij1 ( b i b j ) es Np (0. j)2 p Fn r p+1 : Análogamente vemos que la distribución de n p es también Fn r (n r p+1 .1). : : : . y (n r) b es Wp ( .4. V0 b V = I. por lo tanto ij1 M (i. con 0 la normalización vj b vj = 1. : : : . . vp ] la matriz de vectores propios de U0 U respecto de b . : : : . donde D =diag( 1 . donde p+1 1 b 2 ( i r)p 2 es la dispersión mínima (16.16. = s i=1 ij s Si b i = ( b i1 . . p ) es la matriz diagonal con los valores propios. (bi b ): j . 0b 1 b ( i i) i) 16. : : : .4. y la matriz Sea V = [v1 . n r). b ip )0 . j) es Hotelling T 2 (p. 1 . . s. es decir. ws de la matriz W = UV: La distancia euclídea entre las …las coincide con la distancia de Mahalanobis entre las fpem (wi wj )0 (wi wj ) = ( b i b )0 b j 1 B U =@ 0 b 11 b s1 . s. i = 1. : : : . . Las 0 0 coordenadas canónicas de b 1 . donde ij = kgi gj k . : : : . b 1p b sp . n r) y n r (n p+1 r)p 1 ij M (i.2.. ANÁLISIS CANÓNICO DE FPEM 267 0 0 0 0 Observemos que si b i = gi Y es independiente de b j = gj Y y se veri…ca la hipótesis H0 : i = j . b s son las …las w1 . p 1 1 p C A: U0 UV = b VD . consideremos las medias j j = 1. Coordenadas canónicas 1Xb . .

las proyecciones canónicas de las estima0 ciones de las fpem.) entre dos puntos que el conductor necesitaba .3. círculos en dimensión 2) de centros y radios (wi .. g: Sea 1 el coe…ciente de con…anza. s. i = 1. P. donde F sigue la distribución F con p y (n g p + 1) g. que indicaremos D.5. Y2 =distancia mínima (cm. y consideremos: R2 = F (n (n r r)p : p + 1) Luego las proyecciones canónicas i de las fpem pertenecen a regiones con…denciales que son hiperesferas (esferas en dimensión 3. : : : . la proyección canónica de i : Podemos también encontrar regiones con…denciales para las i . : : : . F tal que P (F > F ) = . Ejemplos Ejemplo 1. C. Regiones con…denciales 0 0 Sean wi = b i V. i R ) donde i es la dispersión mínima (16.1) de la estimación LS de i: 16. FUNCIONES ESTIMABLES MULTIVARIANTES De manera análoga podemos de…nir la variabilidad geométrica de las fpem. i = 1. probando que es p s 1 X 1X 2 V = 2 M (i.4. Podemos entender wi como una estimación de i 0 = 0i V.268 CAPÍTULO 16. 2s i. Las variables observables son efectos secundarios en la conducción de automóbiles: Y1 =tiempos de reacción (segundos) a la puesta en rojo de un semáforo.l.j=1 s i=1 y que es máxima en dimensión reducida q: El porcentaje de variabilidad explicada por las q primeras coordenadas canónicas es Pq = 100 V (Y)q = 100 V + 1+ 1 + + q p : 16. j) = i. Se quiere hacer una comparación de dos fármacos ansiolíticos (Diazepan y Clobazan) con un placebo.

641 247.2 .628 163.26 309 .482 2.8 .0 . EJEMPLOS 269 para poder pasar por el medio. 2 = + 2.0275 1.659.672.16.846 173.8 . 180. y si las hay.6 . Los datos sobre 8 individuos (media de varias pruebas) eran: Ind.619 184.6 .0 .687 152.0 .818 175. l.701 205.0)0 .8 .876 174.0 .595 153.602 158.678 215. 1 .737.037 1.3)0 .84 14.6 Clobazan Y1 Y2 . Es decir.26 8474 .1): 1 = 2 = 3 = 1=8 = 0.2 .23 .258 1.8 .108 y explican el 100 % de la variabilidad b = (.618 181.025 9.776 164.2 Diazepan Y1 Y2 . Fármacos Individuos Residuo 2 7 14 matriz dispersión lambda F g.96 2221 Las diferencias entre fármacos y entre individuos son signi…cativas Las estimaciones LS son: b = (.517 167.4 .741 170.6 .86 4.493 166. 175.2 . 2 3 p con dispersión (16.l.6 Los datos se ajustan a un diseño de dos factores sin interacción: yij = + i+ j +eij : Interesa estudiar si hay diferencias signi…cativas entre los fármacos.8)0 .637 194.5.2 . 3 = + 3: La tabla MANOVA es: g.731 184.849 189. representarlos y compararlos.2 .4 .548 177.0 .97 .354: Los dos valores propios de U0 U respecto de b son 1: 684.519 203. .2 .8 . b = (. queremos hacer un test sobre la hipótesis H0 : 1 = 2 = 3 y representar las funciones estimables 1 = + 1.855 189. 184.858 171. 1 2 3 4 5 6 7 8 Placebo Y1 Y2 . 0.719 157.

15.29 . geométrica en dimensión 2. W2 (derecha) son: Fármaco Y1 Y2 radio Placebo 19. resulta que C no los tiene.1). Puesto que las variables miden efectos secundarios.494 .1: Representación canonica de tres fármacos en un diseño de dos factores.7. vamos a realizar la representación canónica de los tres niveles de la temperatura. pero D sí (Fig. Los valores propios de U0 U respecto de b son 2.405 .75 8.091 1.539 -. W2 (derecha) son: temp W1 W2 radio 4 -.68 0.653 Ejemplo 3.2).44 0.278 .2. que explican el 100 % de la variabilidad geométrica (Fig. Y3 y canónicas W1 . Y2 . Y3 y canónicas W1 .86 Y1 Y2 W1 W2 . 15.1. En cambio D se diferencia signi…cativamente de P.955 La representación canónica indica que no hay diferencias entre P y C. eliminando el efecto del sexo y .753 .91 0.375.871 1. 1.32 8.869 -. Las coordenadas y los radios de la representación canónica (izquierda) y las correlaciones entre variables observables Y1 .73 8. FUNCIONES ESTIMABLES MULTIVARIANTES Figura 16. Continuando con el ejemplo 15.7.276 .395 .29 Y1 Y2 Y3 W1 W2 . podemos hacer la representación canónica de las ocho especies.270 CAPÍTULO 16.29 34 -.296 . Continuando con el ejemplo 15. Y2 .86 Diazepan 21. Las coordenadas y los radios de la representación canónica (izquierda) y las correlaciones entre variables observables Y1 .779 1.29 20 1.529.961 -.86 Clobazan 19. Ejemplo 2.

661 .16.418 .536 1.342 .6.031 1. 16. .944 -2.613 -2.342 Y1 Y2 Y3 Y4 Y5 W1 .342 . de la interacción.5129 -1.522 Esta representación permite visualizar las diferencias entre las especies.6381 -3. Los dos primeros valores propios de U0 U respecto de b son 201.299 -1.698 . La representación de funciones paramétricas estimables multivariantes fue propuesta por Cuadras (1974).453 .671 2.705 6.804 . Complementos El teorema de Gauss-Markov se puede generalizar de diversas maneras al caso multivariante.567 -3.748 W2 . Arenas y Cuadras (2004).475 radio . (1996) y otras generalizaciones en Lejeune y Calinski (2000).342 .450 .2: Representación canónica de los efectos principales de las temperaturas.3).06 W2 -1. sin la in‡ uencia del dimor…smo sexual y de la interacción especie sexo. 28. Ver Cuadras et al.522 .342 .760 -1.164 -. 13.731 .2 % de la variabilidad geométrica (Fig.600 . COMPLEMENTOS 271 Figura 16. Rencher (1998).828 10. Ver Mardia et al. (1979).054.67.342 .6. que explican el 98.115 .503 . Las coordenadas y los radios de la representación canónica (izquierda) y las correlaciones entre variables observables y canónicas (derecha) son: Especie 1 2 3 4 5 6 7 8 W1 -4.

eliminando el efecto del dimor…smo sexual y de la interacción. FUNCIONES ESTIMABLES MULTIVARIANTES Figura 16.3: Representación canonica de 8 especies de coleópteros.272 CAPÍTULO 16. .

of the Third Berkeley Symposium on Math. and J. Madrid. T. and Galindo Villardón. Madrid. N. 5. La Muralla. Universidad Central de Venezuela. [10] Carmona. M. 71. Univ. Comp. Rubin (1956) Statistical inference in factor analysis.P. [3] Anderson. and Prob. F. York. [9] Cárdenas C. and A. [7] Benzecri. Psychometrika. Dunod. [2] Anderson. and G. Coenders (2000) Modelos de Ecuaciones Estructurales. 1-19. [5] Baillo. (1976) L’ Analyse des Données. A.. Paris. 415-430. Biplot con información externa basado en modelos bilineales generalizados. Caracas. W. Grané (2008). (1983) The analytical solution of the additive constant problem. [6] Batista. Cuadras (2004) Comparing two methods for joint representation of multivariate data. F. Simul. and H.. J. L’ Analyse des Correspondances. (2005) Modelos Lineales. Stat. T. C. M. Anderson (1984) On the existence of maximum likelihood estimates in logistic regression models. 48. J.100 Problemas Resueltos de Estadística Multivariante. and C. Comm. 273 . Barcelona.M. II. La Taxinomie. [4] Arenas. Stat. A. 111-150. Wiley. W. J. Biometrika.. 305-308. Proc. A. P. Delta. (1958) An Introduction to Mltivariate Analysis. Pub. I. de Barcelona. (2001). [8] Cailliez.Bibliografía [1] Albert. 33.

Morinneau (Eds. Barcelona. J. 30. Oper. Analyses Multidimensionnelles des Données. C. Chapman and Hall. 3-20. (1989) Distance analysis in discrimination and classi…cation using both continuous and categorical variables. 47. (1988) Distancias estadísticas (con discusión) . of Classi…cation. Eunibar. 29. [19] Cuadras. 459– 473. (1974) Análisis discriminante de funciones paramétricas estimables. [13] Critchley. pp. N. M. 25. In: K. C. C. M. F. 367-382. CISIA-Ceresta. 256-258. and M. Heiser (1988) Hierarchical trees can be scaled perfectly in one dimension. (1998) Multidimensional dependencies in ordination and classi…cation. Lohnes (1971) Multivariate data analysis. C. T. Multivariate Analysis. EUB. 3-31. C. (North– Holland). (1993) Interpreting an inequality in multiple regression. and W. Statistical Data Analysis and Inference. [17] Cuadras. 42. Elsevier Science Publishers B. R. J. The American Statistician. .. Saint Mandé (France). Esta. 3a Ed. C. pp. C. [22] Cuadras.274 BIBLIOGRAFÍA [11] Cooley. M. A. 5. Biometrical Letters. In: Y. 51-66. Barcelona. Amsterdam. Dodge (Ed. F. C. Cox (1964) Multidimensional Scaling. [20] Cuadras. and P. Wiley. York. C. M. M (1992b) Some examples of distance based discrimination.). [12] Cox. [21] Cuadras. W. [16] Cuadras.15-26. [18] Cuadras. London. M. 15. Estadística Española. 5-20. A. M.). V. 1996. Qüestió. Inv. 295-378. (1991) Ejemplos y aplicaciones insólitas en regresión y correlación. M. J. M. [15] Cuadras.W. Fernández and E. [14] Cuadras. Trab. (1992a) Probability distributions with given multivariate marginals and given dependence structure. (1981) Métodos de Análisis Multivariante.

J. 19-27. [33] Cuadras. M. J. [26] Cuadras. Commun. Stat. M. Qüestiio. M. 417. [28] Cuadras. Mínguez. and F. and D. C. Balakrishnan. R. 22612279. Meth. and J. Carmona (1983) Euclidean dimensionality of ultrametric distances. M. C. M. C. 55-84.. M. of Statistical Planning and Inference. 2. 61-71. C. 137-150. [29] Cuadras. C. C. 37663772. and J. 7.A. N. M. Vol. Statistics and Probability Letters. C. M. M. [27] Cuadras. C. M. C. (Arnold. J. Barcelona. 30. . 339353. [25] Cuadras.. Atkinson. A10. 97-103. C. [24] Cuadras. Cuadras (2006) A parametric approach to correspondence analysis. SORT. Stat. In: Advances in Mathematical and Statistical Modeling.-Theor. C. 33. (2005) Continuous canonical correlation analysis. 81. 139. Birkhauser. 405-411. [30] Cuadras. Boston. [34] Cuadras. Augé (1981) A continuous general multivariate distribution and its properties.. 353-358. Eds. C. pp. Linear Algebra and its Applications. (2008) Distance-based multisample tests for multivariate data. Fortiana (1997) Probability densities from distances and discriminant analysis. Comm. 103. (2002b) Correspondence analysis and diagonal expansions in terms of distribution functions. 19.-Theor. Research Letters in Information and Mathematical Sciences. of Multivariate Analysis. of Statistical Planning and Inference. (2000) Problemas de Probabilidades y Estadística. EUB. B. (2006) The importance of being the upper bound in the bivariate family.BIBLIOGRAFÍA 275 [23] Cuadras. J. C. R.).. and C. (2009) Constructing copula functions with weighted geometric means.. 64-74. [31] Cuadras. [32] Cuadras. M. 8. (2002a) On the covariance between functions. Arenas (1990) A distance based regression model for prediction with mixed data. Meth. Sarabia. M. M.

and J. Rao and G. V. C. Fortiana (1995) A continuous metric scaling solution for a random variable. Selected Topics on Stochastic Modelling. Zeist. and J. Girko (Eds. . Multivariate Analysis. and J. [36] Cuadras. Fortiana (1998) Visualizing categorical data with related metric scaling. 40. N. M. K. Birkhauser. Nikulin. World-Scienti…c. Boston. A.). pp. S. C. J. (Eds. and J. 1– 14. In: J. In: C.M. M. [43] Cuadras. M. Fortiana (1994) Ascertaining the underlying distribution of a data set. pp.).. Fortiana (1996) Weighted continuous metric scaling. Limnios. of Multivariate Analysis. 223-230.J. Marcel Dekker. Qüestiió. M. Gutierrez and M. 27– VSP. and Quality of Life (M.Eds. 365-376. In: Gupta. C. Visualization of Categorical Data. N. 93-108. Comp. The Netherlands. Singapore. and J. C. M. and V. and J.R. and J. 52.R. Future Directions 2. [38] Cuadras. In: C. C. (Eds. Amsterdam. C. Statistics for the 21st Century. 593-609. [39] Cuadras. York. C. N. Mesbah. 25. Multidimensional Statistical Analysis and Theory of Random Matrices. Comm. pp.). pp. Szekely. Arenas. [42] Cuadras. C. Survival Analysis.-Simul. [40] Cuadras. and J. 17.). 66. 273-290. pp. Valderrama (Eds.276 BIBLIOGRAFÍA [35] Cuadras. Cuadras and C. and J. Greenacre..). M.M. Blasius and M. Fortiana (1993b) Aplicación de las distancias en estadística. C. 39-74. Fortiana (2004) Distance-based multivariate two sample tests. Rao (Eds. N. In: R. Fortiana (1996) Some computational aspects of a distance-based model for prediction. M. Fortiana (1993a) Continuous metric scaling and prediction. Stat. M. M. L. C.). 47– Elsevier Science Publishers B. York. Academic Press. Fortiana (2000) The Importance of Geometry in Multivariate Analysis and some Applications. In: Parametric and Semiparametric Models with Applications to Reliability. [41] Cuadras. [37] Cuadras. Balakrishnan. (North– Holland).

of Computational and Graphical Statistics. [54] Friendly.. Aplic. M. J..S. M. . J. and M. (1975) The e…cency of logistic regression compared to normal discriminant analysis. Oliva (1997) The proximity of an individual to a population with applications in discriminant analysis. J. From Data to Knowledge. (1994). Price (1991) Regression analysis by example. 2643-2663.190– 200. N.. (1999). M. and F. J. D. Publ. C. 447-459. 70. Oller (1987) Eigenanalysis and metric multidimensional scaling on hierarchical structures. [49] Cuadras. 30. of the American Statistical Association. conditional. C. Dordrecht. C. 101-116.. 35 (2). Gaul. Berlin. [50] Cuadras. 117-136. 11. 29. C. 373– 395. D. Pfeifer (Eds.. and J.-Theor. and M. C. [47] Cuadras. Comm. Heijmans. C. 8 .D. Innovations in Multivariate Statistical Analysis. 371-382. Oliva (1996) Representation of statistical structures. Gen. J. 37-57. 14. Psicol. M. [52] Efron. J. and B. C. of the American Statistical Association. Fortiana. Rev. Greenacre (2006) Comparison of di¤erent methods for representing categorical data. [53] Friendly. (Eds. Sánchez-Turet (1975) Aplicaciones del análisis multivariante canónico en la investigación psicológica. and Comp.. 89. of Classi…cation. M.). B. M. and M. Qüestiió. D. and Y.. M. [46] Cuadras.M. Pollock and A. pp. Springer. pp. S. Wiley. York. 20-31.. 892-898. Communications in Statistics-Simul. Fortiana. Greenacre (2000) Continuous extensions of matrix formulations in correspondence analysis. Kluwer Ac. M. Lahlou (2000) Some orthogonal expansions for the logistic distribution. and partial views of categorical data. In: W. In: R.H.G. [48] Cuadras. classi…cation and prediction using multidimensional scaling. Meth. Cuadras. and F. M.BIBLIOGRAFÍA 277 [44] Cuadras. J. Satorra. Mosaic displays for multi-way contingency tables. Fortiana.). Extending mosaic displays: Marginal. with applications to the FGM family of distributions. [51] Chatterjee. [45] Cuadras. Stat.

(1984) Theory and Applications of Correspondence Analysis. the discretized Brownian Bridge and distance-based regression. of the American Statistical Association. 58. J. Edward Arnold. J. London. (1986) Una alternativa de representación simultánea: HJ-Biplot. C.. Springer. Biometrika. Springer-Verlag. 3a ed. M. [64] Gower. [62] Gower. Academic Press.278 BIBLIOGRAFÍA [55] Everitt.S. 453-467. 62. B. (1993). 264. H. 53. Chapman and Hall. London. Cuadras (1997) A family of matrices. (1971) The biplot graphic display of matrices with application to principal component analysis. M. and C. Hand (1996) Biplots. [65] Greenacre. York. (1976) Modern Factor Analysis. J. K. Linear Algebra and its Applications. [63] Gower. D. (1999) Classi…cation. 13-23. . Barcelona. B. Chicago Press. Questiio. M. [61] Gordon. (1997) A First Course in Multivariate Statistics. H. London. A Review with Applications in Ecology. 10. J. The Univ. [59] Galindo Villardon.J. [60] Gittings. and D. Chapman and Hall. J. J. Chapman and Hall. 1140-1158. J. P. J. C. and R. [56] Flury. Biometrika. R. London. [68] Hartigan (1967) Representation of similarity matrices by trees. Fundación BBVA . [57] Fortiana. [58] Gabriel.Rubes Ed. Biometrics. C. [66] Greenacre. London. Cluster Analysis. R. N. 173-188. [69] Hastie. (1971) A general coe¢ cient of similarity and some of its properties. 857-871. (1966) Some distance properties of latent roots and vector methods in multivariate analysis. 27. A. Chicago. (2008) La Práctica del Análisis de Correspondencias. [67] Harman. (1985) Canonical Analysis. 315-328. Berlin. T. Tibshirani (1990) Generalized Additive Models. M.

Psychometrika. [74] Joe. 32. (1967) Hierarchical clustering schemes. . T. Wiley. (1999) LISREL 8: A Guide to the Program and Applications. Lemeshow (2000) Applied Logistic Regression. 36. Radley (1989) Nonparametric con…dence and tolerance regions in canonical variate analysis. 2nd Edition. Chicago. D. Inc. Sorbom. J. K. 45. 61. Biometrika. (1973) Reciprocal averaging: an eigenvector method of ordination. W. [73] Hutchinson. K. [78] Joreskog. H. N.W. and S. K. [76] Joreskog. O. D. Lai (1991) The Engineering Statistician’ s Guide to Continuous Bivariate Distributions. 239-251. [80] Krzanowski. Psychometrika. (1980) Mixtures of continuous and categorical variables in discriminant analysis. and C. (1967) Some contributions to maximum likelihood factor analysis. Psychometrika. 443-482. (1972) The relation between Hierarchical and Euclidean models for psychological distances. W. W. London. 70. [82] Krzanowski. Biometrics. and D. (1969) A general approach to con…rmatory maximum likelihood factor analysis. (1970) A general method for analysis of covarianvce structures. S. of Ecology. Psychometrika. 57. [71] Holman. 493-499. 183-202. J. Chapman and Hall. C. 37. J. 32. J.. (1975) Discrimination and classi…cation using both binary and continuous variables. Adelaide. [72] Hosmer. 241-254. 782-790.D. [77] Joreskog. (1997) Multivariate Models and Dependence Concepts.. Biometrics. K. Rumsby Scienti…c Pub. [81] Krzanowski. 34. Scienti…c Sotware International. 417-423. [75] Johnson. J. York. E. W. of the American Statistical Association. 237-249. 11631173. M.BIBLIOGRAFÍA 279 [70] Hill. [79] Joreskog.P.

(1999) An Introduction to Copulas. Computational Statistics and Data Analysis. B. (1971) Factor Analysis as a Statistical Method. 75-83. 2a Ed.M. Wiley.. (1992) Discriminant Analysis and Statistical Pattern Recognition. 47 A. (1982) Aspects of Multivariate Statistical Theory. Qüestiió. T. York. and A. Sankhya. Modelos Lineales y Series Temporales. M. N. 139-161. 17. T. A. J. E. (1994) Logistic regression with random coe¢ cients. Calinski (2000) Canonical analysis applied to multivariate analysis of variance. Morineau. 66. J. [93] Oliva. G. Cuadras (1985) Rao’ distance for negative s multinomial distributions. London. Bibby (1979) Multivariate Analysis. K. C. Dunod. Sankhya. D.. Maxwell. J. [92] Nelsen. [94] Oller. F. London. York. and J. [96] Peña. [95] Oller. and T. 49 A. R. Margolin (1971) An analysis of variance for categoricala data. and B. J. J. R. Springer. Butterworth. J. Wiley. and L. V. H. 17. of Multivariate Analysis. N. Alianza Universidad Textos. J.. H. M. [88] Leujene. 1-15. [89] McLachlan. (1969) The Chi-Squared Distribution. Bolance. (1987) Information metric for extreme values and logistic distributions. Wiley. [91] Muirhead. R. Kent. Diaz (1993) Aplicació de l’ anàlisi multivariante a un estudi sobre les llengües europees. J. York. of the American Statistical Association. .M. L. Paris. Tabard (1977) Techniques de la Description Statistique.. N. D. Madrid. O. N.. [87] Lawley. [85] Light. (1989) Estadística Modelos y Métodos 2. [84] Lebart. and N. Academic Press. N.M.280 BIBLIOGRAFÍA [83] Lancaster. 534544. 17-23. and C. [90] Mardia. 72. 100-119. [86] Longford. J. N. York.

(1904) General intelligence objetively determined and measured. Madrid. J. 6. 131-151. 201-293. York. 19. and Cuadras. [99] Rao. Wiley. American J. York. J.P. N. R. York. Qüestiió. London. . (2002) Análisis de Datos Multivariantes. A. C. 31-59. [103] Rencher. [102] Rencher. Ch. (1963) The dimensions of con‡ behavior within and ict between nations. N. and T. J.. (1972) Adaptación española del cuestionario E. A. (1973) Linear Statistical Inference and their Applications. [109] Spearman. Soc. C. 15. Walther. F. 405-411. G. L.. J. of Psychology. 63. [107] Seal. (1977) Linear Regression Analysis. J of the Italian Stat. [104] Rummel. A. D. C. C. York. N. [110] Tibshirani. Psychometrika. [106] Satorra. (1995) Methods of Multivariate Analysis. (1952) Advanced Statistical Methods in Biometric Research. [108] Seber. 8. 2363. J. A. McGraw Hill Interamericana. R. [101] Rao. [100] Rao. Methuen and Co. 1-50. M. N. R. de Eysenck. C. [105] Sánchez-Turet. H. Wiley. 54. Wiley. Stat. York. R. (1995) A review of canonical coordinates and an alternative to correspondence analysis using Hellinger distance. (1964) Multivariate Statistical Analysis for Biologists. Wiley. B. N. [98] Quesada-Molina. General Systems Yearbook. Society.. (1998) Multivariate statistical inference and applications. Wiley. Ltd. 411-423. G. M. R.BIBLIOGRAFÍA 281 [97] Peña. 3. Hastie (2001) Estimating the number of clusters in a data set via the gap statistic. R. C.I. (1989) Alternative test criteria in covariance structure analysis: A uni…ed approach. (1992) A generalization of an identity of Hoe¤ding and some applications. Anuario de Psicología.

Psychometrika. de Leuw (1985) Correspondence analysis used complementary to loglinear analysis. [112] van der Heijden. J.282 BIBLIOGRAFÍA [111] Torrens-Ibern. Paris. and J. Dunod. M. 429447. P. . G. (1972) Modéles et Méthodes de l’ Analyse Factorielle. 50.

61 múltiple. 13 correspondencias múltiples. 34 multinomial. 24 ecuaciones de verosimilitud. 212 sensibilidad. 91 coordenadas canónicas. 136 Euclídea. 212 ROC. 250 espacio ultramétrico. 37 triangular. 114. 90 común. 32 normal bivariante. 266 de Pearson. 88. 72. 176 factor único. 58 simple. corrección de . 28. 200 distancia. 177 ultramétrica. 115. 118 coe…ciente de Pearson. 17 de Rao. 30 de Hotelling. 136 de Bhattachariyya. 152 curva especi…cidad. 241 función 283 . 177 descomposicion espectral. 26 normal multivariante. 128. 27 elíptica. 159 simples. 80. 99 normales. 19 desigualdad de Cramér-Rao. 267 principales. 29. 199. 46 de Wilks. 140 dominante. 88. 88. 85 Box. 138 de Mahalanobis. 151 correlación canónica. 90 en diseños factoriales. 151 distribución aproximación asintótica a una F. 237. 199 cuadrático.Índice alfabético biplot. 157 comunalidad. 19 singular. 17. 176 discriminador Bayes. 239. 227. 255 de Wishart. 17 ciudad. 125. 17. 212 dendograma. 136 ji-cuadrado.

133 principio de equivalencia distribucional. 170 interacción. 54 preordenación. 256 de distancias Euclídeas. 19. 225 log-lineal. 41. 51 de Stein. 208 de regresión múltiple. 126 de información de Fisher. 100 . 161 correlaciones. 88 mosaicos. 256 de dispersión entre grupos. 204 discriminación logística. 93 hipótesis lineal. 46. 231. 253 ÍNDICE ALFABÉTICO lineal. 149 de clusters (conglomerados). 71 varianza generalizada. 105 de Bartlett. 63 de factores comunes. 37 Heywood. 99 matriz. 88 covarianzas. 44. 38. 118 centrada. 102 ortogonal. 99 estimable multivariante. 13. 195 máxima verosimilitud. 16. 78 jerarquía indexada. 263 score. 183 del máximo. 13 Burt. 255 de variables canónicas. 204 rotación biquartimin. caso de. 197. 16 metodo de las medias móviles. 55. 195.284 de verosimilitud. 262 probabilidad de clasi…cación errónea. 41. 102 oblícua. 219 Bayes. 139 unifactorial. 90 Thurstone. 194 modelo de regresión logística. 174 de correlaciones canónicas. 209 discriminante. 192 de componentes principales. 191 del factor principal. 45 regla basada en distancias. 169 de parsimonia. 184 ‡ exible. 138. 32. 102 covarimin. 105 por mínimos cuadrados. 265 estimable univariante. 97 del mínimo. 197. 64. 199 razón de verosimilitud. 38 medición de factores de Anderson-Rubin. 197. 96 de unión-intersección. 245 logístico. 208 multifactorial. 241 número inversa generalizada. 37. 229 de de de de paradoja de Rao. 105 medidas de variabilidad variación total. 13 dispersión dentro grupos. 159.

43 de Gauss-Markov. 14 unicidad. 80. 76 sobre la media. 132 de Sokal-Sneath. 46 de Bartlett. 130. 115. 39 transformación canónica. 70 . 15 de Thusrstone. 131 Gower. 264 de la dimensión. 61 compuesta. 102 varimax. 55. coe…ciente de de Dice. 73. 137 de…nición. 139 teorema de Cochran. 63 de esfericidad.ÍNDICE ALFABÉTICO promax. 137 de Jaccard. 45. 70. 211 independencia. 63. 40 comparación de k medias. 41 de Craig. 157 variable canónica. 77 sobre la covarianza. 19. 150 variabilidad geométrica (inercia). 62. 91 285 valores singulares. 101 quartimin. 132 de Sokal y Michener. 101 similaridad. 114 componentes principales. 42 de Fisher. 118 de Bartlett-Lawley. 95 de Wilks. 79 de razón de verosimilitud. 45 test comparación de dos medias. 14. 45 de Wald. 73 lineal. 72. 102 quartimax.

You're Reading a Free Preview

Descarga
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->