P. 1
analisis multivariante

analisis multivariante

|Views: 4.340|Likes:
Publicado pormaykol15

More info:

Published by: maykol15 on Jun 01, 2011
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

05/23/2013

pdf

text

original

Sections

  • Normal multivariante y asociadas
  • 1.1. Introducción
  • 1.2. Distribución normal multivariante
  • 1.3. Regresión lineal
  • 1.4. Correlación simple, parcial y múltiple
  • 1.5. Distribución de Wishart
  • 1.6. FORMAS CUADRÁTICAS GENERALIZADAS. 21
  • 1.6. Formas cuadráticas generalizadas
  • 1.8. DISTRIBUCIÓN DE WILKS Y ASOCIADAS 27
  • 1.8. Distribución de Wilks y asociadas
  • Cuadro 1.1: Equivalencia entre estadísticos uni- y multivariantes
  • 1.9. CONTRASTES EN LA DISTRIBUCIÓN NORMAL 29
  • 1.9. Contrastes en la distribución normal
  • 1.9.1. Diagnósticos de normalidad univariante
  • 1.9.2. Diagnósticos de normalidad multivariante
  • 1.9.3. Búsqueda de outliers
  • Inferencia en poblaciones normales multivariantes
  • 2.1. Inferencia sobre el vector de medias
  • 2.1.1. Contraste sobre el vector de medias conocidaΣ
  • 2.1.2. Contraste sobre el vector de medias conΣdesconocida
  • 2.3. INFERENCIA SOBRE LA MATRIZ DE COVARIANZAS. 41
  • 2.3. Inferencia sobre la matriz de covarianzas
  • 2.3.3. Contraste de esfericidad
  • Análisis de varianza multivariante
  • 3.1. Introducción
  • 3.2. Modelo MANOVA con un tratamiento
  • 3.3. Relación entre diversos contrastes
  • 3.4. MODELOS MANOVA CON DOS O MÁS TRATAMIENTOS 47
  • 3.4. Modelos MANOVA con dos o más tratamientos
  • 3.5. Extensiones y bibliografía
  • Análisis de correlación canónica
  • 4.1. Introducción
  • 4.2. Variables canónicas y coeficientes de correlación ca- nónica
  • 4.3. Relación con otros contrastes
  • 4.4. Interpretación
  • Componentes principales
  • 5.1. Introducción
  • 5.2. Obtención de las componentes principales
  • 5.3. PROPIEDADES DE LAS COMPONENTES PRINCIPALES. 61
  • 5.3. Propiedades de las componentes principales
  • Figura 5.1: Ui es proyección de X sobre ai
  • 5.4. Interpretación geométrica
  • 5.5. Comentarios adicionales
  • Análisis Factorial
  • 6.1. Introducción
  • 6.2. La igualdad fundamental
  • 6.3. Análisis Factorial y el objetivo de la parsimonia
  • 6.4. Indeterminación de las soluciones factoriales. Rota- ciones
  • 6.5. Estimación del modelo
  • 6.5.1. Método del factor principal
  • 6.5.2. Método de máxima verosimilitud
  • 7.1. Descomposición en valores singulares
  • 7.2. Biplots
  • 7.2.1. Interpretación
  • 7.2.2. Ejemplo
  • 7.3. LECTURA RECOMENDADA 81
  • 7.3. Lectura recomendada
  • Datos categóricos multivariantes
  • 8.1. Introducción
  • Cuadro 8.1: Color de pelo y ojos medidos para cinco sujetos
  • 8.2. Tipos de muestreo
  • 8.3. LA PARADOJA DE SIMPSON 85
  • 8.3. La paradoja de Simpson
  • 8.4. MODELOS LOGARÍTMICO-LINEALES 87
  • 8.4. Modelos logarítmico-lineales
  • 8.5. LECTURA RECOMENDADA 89
  • 8.5. Lectura recomendada
  • Análisis de Correspondencias
  • 9.1. Análisis de las filas de X
  • 9.1.1. Notación
  • 9.1.2. Distancia entre las filas de la matriz de datos
  • 9.1.3. Matriz de covarianzas muestral
  • 9.2. ANÁLISIS DE LAS COLUMNAS DE X 95
  • 9.2. Análisis de las columnas de X
  • 9.3. Reciprocidad y representación conjunta
  • 9.4. Lectura recomendada
  • Análisis Procrustes
  • 10.1. Introducción
  • 10.2. Obtención de la transformación Procrustes
  • 10.2.1. Traslacióna
  • 10.2.2. Rotación P
  • 10.2.3. Parámetro de escala ρ
  • 10.3. Análisis y comentarios adicionales
  • Reescalado Multidimensional
  • 11.1. Introducción
  • 11.2. Reescalado multidimensional métrico
  • Análisis discriminante
  • 12.1. Introducción
  • Cuadro 12.1: Muestra de entrenamiento en análisis discriminante con dos grupos
  • 12.2. Discriminación máximo-verosímil
  • 12.3. Discriminación con información a priori
  • 12.4. VARIABLES NORMALES 113
  • 12.4. Variables normales
  • 12.4.1. Matriz de covarianzasΣcomún y dos grupos
  • 12.5. LA REGLA LINEAL DE FISHER 115
  • 12.4.3. Caso de varios grupos
  • 12.5. La regla lineal de Fisher
  • 12.5.1. Dos grupos con matriz de covarianzasΣcomún
  • 12.5.2. Más de dos grupos con matriz de covarianzasΣcomún
  • 12.6. EVALUACIÓN DE FUNCIONES DISCRIMINANTES 119
  • 12.6. Evaluación de funciones discriminantes
  • 12.7. Bibliografía comentada
  • Arboles de regresión y clasificación
  • 13.1. Arboles binarios
  • 13.2. Construcción de árboles binarios
  • 13.2.1. Medidas de “impureza” de nodos y árboles
  • 13.2.2. Espacio de búsqueda
  • 13.2.3. Estimación de la tasa de error
  • 13.2.4. Tasa de error penalizada
  • 13.2.5. Criterios de parada y/o poda
  • 13.2.6. El algoritmo de construcción de árboles
  • 13.3. Antecedentes y refinamientos
  • 13.4. Bibliografía comentada
  • Redes Neuronales Artificiales
  • 14.1. Introducción
  • 14.2. Neuronas biológicas y neuronas artificiales
  • 14.2.1. Morfología y funcionamiento de una neurona humana
  • 14.2.2. Neuronas artificiales
  • Cuadro 14.1: Funciones de activación f(u) usuales
  • 14.2.3. Redes neuronales artificiales (RNA)
  • 14.3. Entrenamiento de una RNA
  • 14.3.1. Entrenamiento de un perceptrón
  • 14.3.2. El método de corrección de error
  • 14.3.3. El algoritmo de propagación hacia atrás
  • 14.4. Mapas auto-organizados (SOM)
  • 14.5. Maquinas de vectores soporte (SVM)
  • Análisis de agrupamientos
  • 15.1. Introducción
  • 15.2. Medidas de similaridad y disimilaridad entre obje- tos
  • 15.2.1. Variables reales
  • 15.2.2. Variables cualitativas nominales
  • 15.3. Medidas de similaridad y disimilaridad entre gru- pos
  • 15.4. Estrategias de construcción de grupos
  • 15.4.1. Procedimientos jerárquicos
  • Cálculo diferencial. Notación matricial
  • A.0.2. Notación
  • A.0.3. Algunos resultados útiles
  • B.1. Records atléticos de diversos países

Análisis Multivariante

F. Tusell
1
2 de diciembre de 2008
1
c ( F. Tusell. Estas notas cubren sólo unos pocos temas del programa, y aún así de
modo incompleto. Su reproducción es libre para alumnos de Estadística: Análisis Mul-
tivariante para su uso privado. Toda otra utilización requiere permiso expreso del autor.
Sucesivas versiones se han beneficiado de las correcciones hechas por varias promociones
de alumnos. También han corregido muchos errores M.J. Bárcena y V. Núñez y Cristina
González.
2
Índice general
1. Normal multivariante y asociadas 11
1.1. Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2. Distribución normal multivariante. . . . . . . . . . . . . . . . . . 12
1.3. Regresión lineal. . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.4. Correlación simple, parcial y múltiple. . . . . . . . . . . . . . . . 18
1.5. Distribución de Wishart. . . . . . . . . . . . . . . . . . . . . . . 20
1.6. Formas cuadráticas generalizadas. . . . . . . . . . . . . . . . . . 21
1.7. Distribución T
2
de Hotelling. . . . . . . . . . . . . . . . . . . . . 24
1.8. Distribución de Wilks y asociadas . . . . . . . . . . . . . . . . . 27
1.9. Contrastes en la distribución normal . . . . . . . . . . . . . . . . 29
1.9.1. Diagnósticos de normalidad univariante . . . . . . . . . . 29
1.9.2. Diagnósticos de normalidad multivariante . . . . . . . . . 30
1.9.3. Búsqueda de outliers . . . . . . . . . . . . . . . . . . . . 32
2. Inferencia en poblaciones normales multivariantes. 35
2.1. Inferencia sobre el vector de medias. . . . . . . . . . . . . . . . . 35
2.1.1. Contraste sobre el vector de medias conocida Σ. . . . . . 35
2.1.2. Contraste sobre el vector de medias con Σ desconocida. . 36
2.1.3. Contraste de igualdad de medias en dos poblaciones con
matriz de covarianzas común. . . . . . . . . . . . . . . . 36
2.1.4. Contraste de hipótesis lineales generales sobre el vector de
medias de una única población. . . . . . . . . . . . . . . 37
2.1.5. Contraste de hipótesis lineales sobre los vectores de me-
dias de dos poblaciones. . . . . . . . . . . . . . . . . . . 38
2.2. Inferencia sobre el coeficiente de correlación entre dos v.a. norma-
les X
1
, X
2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.3. Inferencia sobre la matriz de covarianzas. . . . . . . . . . . . . . 41
2.3.1. Contraste de igualdad de matrices de covarianzas en dos
poblaciones normales. . . . . . . . . . . . . . . . . . . . 41
2.3.2. Contraste de diagonalidad por bloques de la matriz de cova-
rianzas de una única población normal. . . . . . . . . . . 41
3
4 ÍNDICE GENERAL
2.3.3. Contraste de esfericidad . . . . . . . . . . . . . . . . . . 43
3. Análisis de varianza multivariante 45
3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.2. Modelo MANOVA con un tratamiento . . . . . . . . . . . . . . . 45
3.3. Relación entre diversos contrastes . . . . . . . . . . . . . . . . . 46
3.4. Modelos MANOVA con dos o más tratamientos . . . . . . . . . . 47
3.5. Extensiones y bibliografía . . . . . . . . . . . . . . . . . . . . . 48
4. Análisis de correlación canónica 51
4.1. Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.2. Variables canónicas y coeficientes de correlación canónica. . . . . 51
4.3. Relación con otros contrastes . . . . . . . . . . . . . . . . . . . . 54
4.4. Interpretación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5. Componentes principales. 57
5.1. Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.2. Obtención de las componentes principales. . . . . . . . . . . . . . 58
5.3. Propiedades de las componentes principales. . . . . . . . . . . . . 61
5.4. Interpretación geométrica. . . . . . . . . . . . . . . . . . . . . . 63
5.5. Comentarios adicionales . . . . . . . . . . . . . . . . . . . . . . 64
6. Análisis Factorial. 67
6.1. Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6.2. La igualdad fundamental . . . . . . . . . . . . . . . . . . . . . . 68
6.3. Análisis Factorial y el objetivo de la parsimonia . . . . . . . . . . 69
6.4. Indeterminación de las soluciones factoriales. Rotaciones . . . . . 71
6.5. Estimación del modelo . . . . . . . . . . . . . . . . . . . . . . . 74
6.5.1. Método del factor principal . . . . . . . . . . . . . . . . . 74
6.5.2. Método de máxima verosimilitud . . . . . . . . . . . . . 74
7. Biplots 75
7.1. Descomposición en valores singulares. . . . . . . . . . . . . . . . 75
7.2. Biplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
7.2.1. Interpretación . . . . . . . . . . . . . . . . . . . . . . . . 77
7.2.2. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
7.3. Lectura recomendada . . . . . . . . . . . . . . . . . . . . . . . . 81
8. Datos categóricos multivariantes 83
8.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
8.2. Tipos de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . 84
8.3. La paradoja de Simpson . . . . . . . . . . . . . . . . . . . . . . . 85
8.4. Modelos logarítmico-lineales . . . . . . . . . . . . . . . . . . . . 87
8.5. Lectura recomendada . . . . . . . . . . . . . . . . . . . . . . . . 89
ÍNDICE GENERAL 5
9. Análisis de Correspondencias 91
9.1. Análisis de las filas de X . . . . . . . . . . . . . . . . . . . . . . 91
9.1.1. Notación . . . . . . . . . . . . . . . . . . . . . . . . . . 91
9.1.2. Distancia entre las filas de la matriz de datos . . . . . . . 91
9.1.3. Matriz de covarianzas muestral . . . . . . . . . . . . . . . 93
9.2. Análisis de las columnas de X . . . . . . . . . . . . . . . . . . . 95
9.3. Reciprocidad y representación conjunta . . . . . . . . . . . . . . 95
9.4. Lectura recomendada . . . . . . . . . . . . . . . . . . . . . . . . 96
10. Análisis Procrustes 97
10.1. Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
10.2. Obtención de la transformación Procrustes . . . . . . . . . . . . . 98
10.2.1. Traslación a . . . . . . . . . . . . . . . . . . . . . . . . 99
10.2.2. Rotación P. . . . . . . . . . . . . . . . . . . . . . . . . . 99
10.2.3. Parámetro de escala ρ . . . . . . . . . . . . . . . . . . . . 99
10.3. Análisis y comentarios adicionales . . . . . . . . . . . . . . . . . 100
11. Reescalado Multidimensional 101
11.1. Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
11.2. Reescalado multidimensional métrico . . . . . . . . . . . . . . . 102
12. Análisis discriminante 107
12.1. Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
12.2. Discriminación máximo-verosímil . . . . . . . . . . . . . . . . . 109
12.3. Discriminación con información a priori . . . . . . . . . . . . . . 110
12.4. Variables normales . . . . . . . . . . . . . . . . . . . . . . . . . 113
12.4.1. Matriz de covarianzas Σ común y dos grupos . . . . . . . 113
12.4.2. Diferentes covarianzas: Σ
1
= Σ
2
, y dos grupos . . . . . . 114
12.4.3. Caso de varios grupos . . . . . . . . . . . . . . . . . . . 115
12.5. La regla lineal de Fisher . . . . . . . . . . . . . . . . . . . . . . 115
12.5.1. Dos grupos con matriz de covarianzas Σ común . . . . . . 116
12.5.2. Más de dos grupos con matriz de covarianzas Σ común . . 117
12.6. Evaluación de funciones discriminantes . . . . . . . . . . . . . . 119
12.7. Bibliografía comentada . . . . . . . . . . . . . . . . . . . . . . . 122
13. Arboles de regresión y clasificación 125
13.1. Arboles binarios . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
13.2. Construcción de árboles binarios . . . . . . . . . . . . . . . . . . 127
13.2.1. Medidas de “impureza” de nodos y árboles. . . . . . . . . 128
13.2.2. Espacio de búsqueda . . . . . . . . . . . . . . . . . . . . 129
13.2.3. Estimación de la tasa de error . . . . . . . . . . . . . . . 131
13.2.4. Tasa de error penalizada . . . . . . . . . . . . . . . . . . 132
13.2.5. Criterios de parada y/o poda . . . . . . . . . . . . . . . . 132
13.2.6. El algoritmo de construcción de árboles . . . . . . . . . . 135
6 ÍNDICE GENERAL
13.3. Antecedentes y refinamientos . . . . . . . . . . . . . . . . . . . . 135
13.4. Bibliografía comentada . . . . . . . . . . . . . . . . . . . . . . . 135
14. Redes Neuronales Artificiales 137
14.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
14.2. Neuronas biológicas y neuronas artificiales . . . . . . . . . . . . 137
14.2.1. Morfología y funcionamiento de una neurona humana . . 137
14.2.2. Neuronas artificiales . . . . . . . . . . . . . . . . . . . . 138
14.2.3. Redes neuronales artificiales (RNA) . . . . . . . . . . . . 140
14.3. Entrenamiento de una RNA . . . . . . . . . . . . . . . . . . . . . 141
14.3.1. Entrenamiento de un perceptrón . . . . . . . . . . . . . . 141
14.3.2. El método de corrección de error. . . . . . . . . . . . . . 143
14.3.3. El algoritmo de propagación hacia atrás . . . . . . . . . . 145
14.4. Mapas auto-organizados (SOM) . . . . . . . . . . . . . . . . . . 146
14.5. Maquinas de vectores soporte (SVM) . . . . . . . . . . . . . . . 148
15. Análisis de agrupamientos 149
15.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
15.2. Medidas de similaridad y disimilaridad entre objetos . . . . . . . 150
15.2.1. Variables reales . . . . . . . . . . . . . . . . . . . . . . . 150
15.2.2. Variables cualitativas nominales . . . . . . . . . . . . . . 151
15.3. Medidas de similaridad y disimilaridad entre grupos . . . . . . . . 151
15.4. Estrategias de construcción de grupos . . . . . . . . . . . . . . . 152
15.4.1. Procedimientos jerárquicos . . . . . . . . . . . . . . . . . 152
A. Cálculo diferencial. Notación matricial. 155
A.0.2. Notación . . . . . . . . . . . . . . . . . . . . . . . . . . 155
A.0.3. Algunos resultados útiles . . . . . . . . . . . . . . . . . . 156
B. Datos 157
B.1. Records atléticos de diversos países. . . . . . . . . . . . . . . . . 157
Índice de figuras
2.1. Disposición de dos vectores de medias paralelos . . . . . . . . . . 39
5.1. U
i
es proyección de X sobre a
i
. . . . . . . . . . . . . . . . . . 63
5.2. Records representados en el plano generado por U
1
y U
2
. . . . . 65
7.1. Biplot de número de hogares (en valor absoluto) en cada Comu-
nidad Autónoma que poseen diferentes tipos de equipamiento re-
lacionado con la sociedad de la información. Se aprecia el fuerte
efecto “tamaño” que oblitera cualquier otro. . . . . . . . . . . . . 80
7.2. Biplot del porcentaje de hogares en cada Comunidad Autónoma
que poseen diferentes tipos de equipamiento relacionado con la
sociedad de la información. Al desaparecer el efecto tamaño por
ser todas las magnitudes relativas, se aprecian las diferencias entre
comunidades en la dotación relativa. . . . . . . . . . . . . . . . . 82
11.1. Mapa reconstruido mediante reescalado multidimensional métrico
a partir de las distancias por carretera entre capitales de provincia. 103
12.1. La mejor dirección discriminante puede no ser aquélla en que más
dispersión presentan las observaciones . . . . . . . . . . . . . . . 117
12.2. Con p = 3 grupos hay hasta p − 1 direcciones discriminantes.
Puede haber direcciones discriminantes asociadas a un λ bajo, y
no obstante muy útiles para discriminar en algún subconjunto. Por
ejemplo, la dirección asociada a a
2
discrimina bien entre los gru-
pos C
1
y C
2
por un lado y C
3
por otro. . . . . . . . . . . . . . . . 119
12.3. Probabilidad F(N, d) de separar perfectamente N puntos en posi-
ción general en un espacio de d = 10 dimensiones . . . . . . . . . 121
13.1. Árbol binario con tres hojas, A, B, C y raíz r. . . . . . . . . . . . 126
13.2. Árbol binario para clasificar pacientes en grupos de supervivencia
homogénea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
7
8 ÍNDICE DE FIGURAS
13.3. Una división en X
1
= S es inútil por si misma, pero abre la vía a
otras sumamente provechosas . . . . . . . . . . . . . . . . . . . . 133
14.1. Esquema describiendo las partes principales de una neurona huma-
na. Tomado de Haykin (1998), p. 8. . . . . . . . . . . . . . . . . 138
14.2. Esquema de una neurona artificial N. Recibe la entrada x = (x
0
, . . . , x
6
)
computando la función de excitación ϕ(x) =
¸
6
i=0
w
i1
x
i
y entre-
gado f(ϕ(x)) a la salida. . . . . . . . . . . . . . . . . . . . . . . 140
14.3. RNA con tres neuronas. Las unidades de entrada, E
0
a E
6
, repar-
ten el input x = (x
0
, . . . , x
6
) a las tres neuronas que forman la
capa oculta, N
j
(j = 1, 3). Cada una de estas neuronas computa
ϕ
j
(x) =
¸
6
i=0
w
ij
x
i
y entrega f
j

j
(x)) a cada unidad de salida.
S
1
y S
2
suman sus inputs y producen y = (y
1
, y
2
). . . . . . . . . 141
15.1. Agrupamiento jerárquico con distancia promedio de 10 puntos to-
mados al azar en R
4
. . . . . . . . . . . . . . . . . . . . . . . . . 154
Índice de cuadros
1.1. Equivalencia entre estadísticos uni- y multivariantes. . . . . . . . 27
3.1. Tabla de Análisis de Varianza para un modelo con dos tratamientos
e interacción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.1. Valores propios de R . . . . . . . . . . . . . . . . . . . . . . . . 62
7.1. Dotación de los hogares por Comunidades Autónomas (miles de
hogares que poseen cada uno de los equipamientos indicados).
Fuente: INE, Encuesta de Tecnologías de la información en los
hogares, 2002. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
8.1. Color de pelo y ojos medidos para cinco sujetos . . . . . . . . . . 83
8.2. Tabla de contingencia relacionando color de pelo y ojos para cinco
sujetos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
9.1. Notación empleada . . . . . . . . . . . . . . . . . . . . . . . . . 92
12.1. Muestra de entrenamiento en análisis discriminante con dos grupos 108
14.1. Funciones de activación f(u) usuales . . . . . . . . . . . . . . . 139
15.1. Tabulación cruzada de valores de p variables dicotómicas en x
i
, x
j
. 151
9
10 ÍNDICE DE CUADROS
Capítulo 1
Normal multivariante y asociadas
1.1. Introducción.
Consideraremos en lo que sigue variables aleatorias n-variantes, es decir, apli-
caciones X: Ω −→ R
n
. A cada ω ∈ Ω corresponderá entonces un X =
X(ω) ∈ R
n
. Designaremos por X
i
= (X
i1
, X
i2
, . . . , X
in
)

a la observación i-
ésima de la variable aleatoria n-variante X, y por F
X
(x) y f
X
(x) a las funciones
de distribución y densidad respectivamente de X. Emplearemos el convenio de
utilizar mayúsculas para las variables aleatorias y minúsculas para sus valores con-
cretos en un muestreo determinado. Llamaremos X
j
a la variable aleatoria j-ésima.
¿Por qué no emplear las técnicas habituales (univariantes) sobre cada X
j
?. Po-
dríamos en efecto estudiar cada X
j
por separado. Si lo hiciéramos, perderíamos
sin embargo la posibilidad de extraer partido de la (posible) correlación entre dife-
rentes variables X
j
y X
k
en X. Los métodos de Análisis Multivariante comparten
la idea de explotar esta información.
Llamaremos µ
X
al vector de medias de la variable aleatoria X, y Σ
X
a su
matriz de covarianzas.
µ
X
= EX (1.1)
Σ
X
= E[(X −µ
X
)(X −µ
X
)

] (1.2)
Al igual que la distribución normal desempeña un papel destacado en la Esta-
dística univariante, una generalización de ella, la distribución normal multivariante,
constituye un modelo teórico de gran trascendencia en el Análisis Multivariante.
11
12 CAPÍTULO 1. NORMAL MULTIVARIANTE Y ASOCIADAS
1.2. Distribución normal multivariante.
Se dice que X ∼ N(0, 1) si:
f
X
(x) =
1


e
−x
2
/2
−∞< x < ∞
y por ende:
F
X
(x) =
1

x
−∞
e

1
2
x
2
dx −∞< x < ∞ (1.3)
ψ
X
(u) = Ee
iuX
(1.4)
=


−∞
1


e

1
2
(x−iu)
2
e

1
2
u
2
dx (1.5)
= e

1
2
u
2
(1.6)
Por transformación lineal de una variable aleatoria N(0, 1) : Y = σX + µ se
obtiene una variable aleatoria normal general N(µ, σ
2
) cuyas funciones de densi-
dad, distribución y característica son:
f
Y
(y) =
1
σ


e

(y−µ)
2

2
−∞< y < ∞ (1.7)
F
Y
(y) =
1
σ

y
−∞
e

(y−µ)
2

2
dy −∞< y < ∞ (1.8)
ψ
Y
(u) = e
iuµ−
1
2
σ
2
u
2
(1.9)
Si tenemos p variables aleatorias X
j
con distribución N(0, 1), independientes
unas de otras, la función de densidad conjunta de la variable aleatoria p-variante
X = (X
1
, . . . , X
p
)

viene dada por el producto de las marginales
f
X
(x) =

1

p
e

1
2
(x
2
1
+...+x
2
p
)
(1.10)
=

1

p
e

1
2
x

Ix
, (1.11)
y la función característica por:
ψ
X
(u) = e

1
2
u

u
. (1.12)
Decimos que la variable aleatoria p-variante X cuya función de densidad es
(1.10) sigue una distribución N
p
(

0, I), designando el primer argumento el vector
de medias y el segundo la matriz de covarianzas. Esta última es diagonal, en virtud
de la independencia entre las distintas componentes de X.
1.2. DISTRIBUCIÓN NORMAL MULTIVARIANTE. 13
Si efectuamos una transformación lineal X −→Y como
Y
1
= a
11
X
1
+a
12
X
2
+. . . +a
1p
X
p

1
(1.13)
Y
2
= a
21
X
1
+a
22
X
2
+. . . +a
2p
X
p

2
(1.14)
.
.
.
Y
p
= a
p1
X
1
+a
p2
X
2
+. . . +a
pp
X
p

p
(1.15)
o, en notación matricial, Y = AX + µ, y A es de rango completo, tenemos que
X = A
−1
(Y − µ) y la función de densidad de Y se obtiene fácilmente de la de
X:
f
Y
(y) = f
X
(A
−1
(y −µ))

∂X
∂Y

(1.16)
=

1

p
e

1
2
(y−µ)

(A
−1
)

(A
−1
)(y−µ)
[A
−1
[ (1.17)
=

1

p
1
[A[
e

1
2
(y−µ)

(AA

)
−1
(y−µ)
(1.18)
Como
Σ
Y
= E(Y −µ)(Y −µ)

(1.19)
= EAXX

A

(1.20)
= AA

, (1.21)
tenemos que la función de densidad (1.18) puede escribirse así:
f
Y
(y) =

1

p
1

Y
[
1/2
e

1
2
(y−µ)

Σ
−1
Y
(y−µ)
, (1.22)
ya que [A[ =

[A[[A[ =

[A[[A

[ =


Y
[. Por otra parte, la función caracte-
rística de Y es:
ψ
Y
(u) = Ee
iu

Y
(1.23)
= Ee
iu

(AX+µ)
(1.24)
= ψ
X
(A

u)e
iu

µ
(1.25)
= e
iu

µ−
1
2
u

AA

u
(1.26)
= e
iu

µ−
1
2
u

Σ
Y
u
(1.27)
La expresión (1.22) requiere para estar definida que Σ
Y
sea de rango total –sólo
así puede encontrarse la inversa–. La expresión (1.27) por el contrario es una fun-
ción característica incluso aunque Σ
Y
sea de rango deficiente. Se dice que (1.22)
y (1.27) son funciones de densidad y característica de un vector aleatorio con dis-
tribución N
p
(µ, Σ
Y
). Si Σ
Y
es de rango deficiente, se dice que estamos ante una
distribución normal singular, que carece de densidad (1.22).
14 CAPÍTULO 1. NORMAL MULTIVARIANTE Y ASOCIADAS
Observación 1.1 La función de densidad normal multivariante es uni-
modal, alcanza su máximo para y coincidente con el vector de medias µ, y
tiene contornos de igual densidad elípticos (o hiper-elípticos).
Los siguientes hechos son de muy sencilla demostración:
1. Las distribuciones de cualesquiera combinaciones lineales de componentes
de Y son normales.
2. Si Y es normal multivariante, cualesquiera marginales son normales uni- o
multivariantes.
3. Si X e Y son vectores independientes conjuntamente definidos con dis-
tribuciones respectivas N
p

X
, Σ
X
) y N
p

Y
, Σ
Y
), y A, B son matrices
cualesquiera de orden d p, (d ≤ p), y rango d, se verifica:
AX +BY ∼ N
d
(Aµ
X
+Bµ
Y
, AΣ
X
A

+BΣ
Y
B

)
Como caso particular, CX ∼ N
d
(Cµ
X
, CΣ
X
C

).
4. La incorrelación entre cualesquiera componentes X
i
, X
j
(o grupos de com-
ponentes) de X, implica su independencia. En el caso de variables alea-
torias con distribución normal multivariante, incorrelación e independencia
son nociones coextensivas.
5. Transformaciones lineales ortogonales de vectores N
d
(

0, σ
2
I) tienen distri-
bución N
d
(

0, σ
2
I).
Observación 1.2 Una normal multivariante tiene contornos de igual
densidad, cuando esta densidad existe, cuya expresión viene dada por:

1
2
(y −µ)

Σ
−1
Y
(y −µ) = k.
Como la matriz de covarianzas (en el caso de rango completo, para el que
existe la densidad) es definida positiva, la expresión anterior proporciona la
superficie de un hiper-elipsoide: una elipse ordinaria en R
2
, un elipsoide (si-
milar a un balón de rugby) en R
3
, y figuras que ya no podemos visualizar en
más de tres dimensiones.
Observación 1.3 Hay versiones multivariantes del Teorema Central
del Límite, que sugieren que variables multivariantes que son:
Suma de muchas otras,
Aproximadamente independientes, y
Sin influencia abrumadora de ninguna sobre el conjunto,
siguen distribución aproximadamente normal multivariante. Es un hecho, sin
embargo, que el supuesto de normalidad multivariante es sumamente res-
trictivo, y de rara plausibilidad en la práctica. En particular, el supuesto de
normalidad multivariante es mucho más fuerte que el de normalidad de las
marginales, como el siguiente ejemplo ilustra.
1.2. DISTRIBUCIÓN NORMAL MULTIVARIANTE. 15
Ejemplo 1.1 Supongamos un vector bivariante (X
1
, X
2
), en que X
1
y
X
2
son respectivamente temperaturas máximas y mínimas de una ubicación.
Podemos perfectamente imaginar un caso con normalidad marginal (las mí-
nimas y máximas se distribuyen cada una de modo normal). Sin embargo,
el supuesto de normalidad bivariante sería claramente inadecuado: por de-
finición, X
1
≥ X
2
, y por tanto el vector (X
1
, X
2
) se distribuye sólo en el
semiplano por debajo de la recta X
1
= X
2
. Una normal bivariante debe estar
definida en todo el plano real.
El siguiente teorema será de utilidad:
Teorema 1.1 Sea X un vector aleatorio con distribución normal (p+q)-variante,
particionado del modo que se indica:
X =

X
1
X
2

∼ N

µ
1
µ
2

,

Σ
11
Σ
12
Σ
21
Σ
22

Entonces la distribución de X
1
condicionada por X
2
= x
2
es:
N
p

1
+ Σ
12
Σ
−1
22
(x
2
−µ
2
), Σ
11
−Σ
12
Σ
−1
22
Σ
21
)
DEMOSTRACION:
Una demostración conceptualmente simple se limitaría a efectuar el cociente de
la densidad conjunta entre la densidad marginal f(X
1
), simplificando el cociente
hasta encontrar una densidad normal con el vector de medias y matriz de covarian-
zas que indica el enunciado. Una aproximación más simple es la que sigue (véase
Chatfield and Collins (1980), p. 99). Consideremos la variable aleatoria
Y = X
1
+MX
2
,
siendo M una matriz de dimensiones p q. La matriz de covarianzas entre las Y
y las X
2
será:
Cov(Y , X
2
) = E
¸
[(X
1
−µ
1
) +M(X
2
−µ
2
)](X
2
−µ
2
)

¸
(1.28)
= E
¸
(X
1
−µ
1
)(X
2
−µ
2
)

+M(X
2
−µ
2
)(X
2
−µ
2
)

¸
(1.29)
= Σ
12
+MΣ
22
(1.30)
Si hacemos M = −Σ
12
Σ
−1
22
, la expresión anterior será una matriz de ceros; por
tanto, Y = X
1
−Σ
12
Σ
−1
22
X
2
es un vector aleatorio normal multivariante indepen-
diente de X
2
.
Siendo independiente, su distribución incondicionada y condicionada por X
2
=
x
2
es la misma. Tomando valor medio y matrices de covarianzas en ambos casos,
obtenemos los siguientes momentos:
a) Incondicionados:
E[Y ] = E[X
1
−Σ
12
Σ
−1
22
X
2
] = µ
1
−Σ
12
Σ
−1
22
µ
2
(1.31)
Σ
Y
= E[(X
1
−µ
1
) −Σ
12
Σ
−1
22
(X
2
−µ
2
)][(X
1
−µ
1
) −Σ
12
Σ
−1
22
(X
2
−µ
2
)]

= Σ
11
−Σ
12
Σ
−1
22
Σ
22
Σ
−1
22
Σ
12

= Σ
11
−Σ
12
Σ
−1
22
Σ
12

(1.32)
16 CAPÍTULO 1. NORMAL MULTIVARIANTE Y ASOCIADAS
b) Condicionados:
E[Y [X
2
= x
2
] = E[X
1
[X
2
= x
2
] −Σ
12
Σ
−1
22
x
2
(1.33)
Σ
Y |X
2
=x
2
= Σ
(X
1
|X
2
=x
2
)
(1.34)
e igualando (1.31) a (1.33) y (1.32) a (1.34) llegamos a:
E[X
1
[X
2
= x
2
] = µ
1
+ Σ
12
Σ
−1
22
(x
2
−µ
2
) (1.35)
Σ
Y|X
2
=x
2
= Σ
11
−Σ
12
Σ
−1
22
Σ
21
(1.36)
Las expresiones (1.35) y (1.36) junto con la normalidad de X
1
demuestran el teo-
rema.
1.3. Regresión lineal.
Supongamos, con la notación de la Sección anterior, que p = 1 (con lo que
X
1
es un escalar), y que nos planteamos el siguiente problema: encontrar g(X
2
)
aproximando de manera “óptima” a X
1
. “Óptima” se entiende en el sentido de
minimizar E[X
1
− g(X
2
)]
2
. Demostraremos que la función g(X
2
) buscada es
precisamente E[X
1
[X
2
]. Para ello precisamos algunos resultados instrumentales.
Lema 1.1 Si denotamos mediante un superíndice la v.a. con respecto a la cual se
toma valor medio (es decir, E
(X
1
)
[Z] =


−∞
Zf
X
1
(x
1
)dx
1
), se tiene:
E[X
1
] = E
(X
1
)
[X
1
] = E
(X
2
)
[E
(X
1
)
(X
1
[X
2
)]
DEMOSTRACION:
E
(X
2
)
[E
(X
1
)
(X
1
[X
2
)] =

f
X
2
(x
2
)[E
(X
1
)
(X
1
[X
2
)]dx
2
(1.37)
=

f
X
2
(x
2
)
¸
x
1
f
X
1
|X
2
(x
1
[x
2
)dx
1

dx
2
(1.38)
=

dx
1

dx
2

x
1
f
X
1
|X
2
(x
1
[x
2
)f
X
2
(x
2
)

(1.39)
=

dx
1

dx
2
[x
1
f
X
1
,X
2
(x
1
, x
2
)] (1.40)
=

x
1
dx
1

f
X
1
,X
2
(x
1
, x
2
)dx
2
(1.41)
=

x
1
f
X
1
(x
1
)dx
1
(1.42)
= E
(X
1
)
[X
1
] (1.43)
1.3. REGRESIÓN LINEAL. 17
Lema 1.2 Sea,
X =

X
1
X
2

∼ N

µ
1
µ
2

,

σ
2
11
Σ
12
Σ
21
Σ
22

Entonces, Z = X
1
−E[X
1
[X
2
] es una v.a. incorrelada con cualquier función
ℓ(X
2
).
DEMOSTRACION:
Como, de acuerdo con el lema anterior, E[Z] = 0, tenemos que:
cov[Z, ℓ(X
2
)] = E [Z(ℓ(X
2
) −E[ℓ(X
2
)])] (1.44)
= E[Zℓ(X
2
)] (1.45)
= E[X
1
ℓ(X
2
) −E[X
1
[X
2
]ℓ(X
2
)] (1.46)
= 0 (1.47)
haciendo uso del lema anterior para evaluar la expresión (1.46). Tenemos así el
siguiente,
Teorema 1.2 La mejor aproximación en términos de error cuadrático medio de
X
1
en función de X
2
es la proporcionada por g(X
2
) = E[X
1
[X
2
].
DEMOSTRACION: Consideremos cualquier otra función h(X
2
). Entonces:
E[X
1
−h(X
2
)]
2
= E[X
1
−g(X
2
) +g(X
2
) −h(X
2
)]
2
= E[X
1
−g(X
2
)]
2
+E[g(X
2
) −h(X
2
)]
2
+2cov[X
1
−g(X
2
)
. .. .
Z
, g(X
2
) −h(X
2
)
. .. .
ℓ(X
2
)
]
= E[X
1
−g(X
2
)]
2
+E[g(X
2
) −h(X
2
)]
2
≥ E[X
1
−g(X
2
)]
2
Es interesante observar que E[X
1
[X
2
] es una función lineal de X
2
en el caso
que consideramos de distribución normal multivariante conjunta de X
1
, X
2
. La
expresión de E[X
1
[X
2
] es reminiscente de la de X
ˆ
β en regresión lineal, pero aquí
la linealidad no es un supuesto, sino un resultado.
Definición 1.1 Llamamos varianza generalizada de una distribución multivarian-
te al determinante de su matriz de covarianzas, [Σ[. Llamamos varianza total a
traza(Σ).
Lema 1.3 Las varianzas generalizadas de la distribución de X =

X
1
X
2

y las
correspondientes a las distribuciones de X
1
[X
2
= x
2
y X
2
están relacionadas
por:
[Σ[ = [Σ
11
−Σ
12
Σ
−1
22
Σ
21
[[Σ
22
[
18 CAPÍTULO 1. NORMAL MULTIVARIANTE Y ASOCIADAS
DEMOSTRACION: Basta tomar determinantes en la igualdad matricial,

I −Σ
12
Σ
−1
22
0 I

Σ
11
Σ
12
Σ
21
Σ
22

I 0
−Σ
−1
22
Σ

12
I

=

Σ
11
−Σ
12
Σ
−1
22
Σ
21
0
0 Σ
22

Emplearemos la notación Σ
11,2
para designar la matriz de covarianzas Σ
11

Σ
12
Σ
−1
22
Σ
21
.
Algunas cosas merecen resaltarse. La matriz de covarianzas de la distribución
condicionada por X
2
= x
2
no depende de x
2
. Por otra parte, la expresión que da
el valor medio de X
1
condicionado por X
2
= x
2
es formalmente similar a la que
se obtendría regresando los valores centrados de X
1
sobre los valores centrados de
X
2
. Es una función lineal en x
2
.
Una tercera observación de interés es que las varianzas de las X
1
en la distri-
bución condicionada son no mayores que en la distribución no condicionada; esto
es fácil de ver si reparamos en que los elementos diagonales de Σ
12
Σ
−1
22
Σ
21
(que
se restan de sus homólogos de Σ
11
) resultan de evaluar una forma cuadrática de
matriz Σ
−1
22
definida no negativa. Esto es lógico: conocido X
2
= x
2
, disminuye
la incertidumbre acerca de los valores que puede tomar X
1
. El único caso en que
las varianzas –condicionadas e incondicionadas– serían idénticas es aquél en que
Σ
12
= 0.
1.4. Correlación simple, parcial y múltiple.
Sean X
i
y X
j
dos variables aleatorias conjuntamente definidas. Sean σ
2
i
y σ
2
j
sus varianzas respectivas, y λ
ij
su covarianza. Se denomina coeficiente de correla-
ción simple entre ambas a:
ρ
ij
def
=
λ
ij
+

σ
2
i
σ
2
j
. (1.48)
Se demuestra fácilmente haciendo uso de la desigualdad de Schwartz que −1 ≤
ρ
ij
≤ +1. Un coeficiente de correlación simple igual a 1 en valor absoluto (+1
ó -1) indica una perfecta asociación lineal entre las variables aleatorias X
i
y X
j
(véase Trocóniz (1987b), Cap. 14, por ej.).
Imaginemos que X
i
, X
j
son variables aleatorias de entre las que componen el
vector X
1
. Si las varianzas y covarianzas en (1.48), en lugar de proceder de Σ
11
,
proceden de los lugares homólogos en Σ
11,2
, tenemos el llamado coeficiente de
correlación parcial entre X
i
y X
j
controlado el efecto de X
2
:
ρ
ij.X
2
def
=
λ
ij,2
+

σ
2
i,2
σ
2
j,2
.
Podemos interpretar ρ
ij.X
2
como el coeficiente de correlación entre X
i
y X
j
una
vez que de ambas se ha eliminado la parte que cabe expresar como combinación
lineal de las variables aleatorias en X
2
.
1.4. CORRELACIÓN SIMPLE, PARCIAL Y MÚLTIPLE. 19
Definimos coeficiente de correlación múltiple al cuadrado entre la variable X
j
(en X
1
) y X
2
así:
R
2
j.X
2
=

σ
2
j
−σ
2
j.X
2
σ
2
j

,
o en forma reminiscente del R
2
= 1 −SSE/SST habitual en regresión,
R
2
j.X
2
= 1 −
σ
2
j.X
2
σ
2
j
.
El coeficiente de correlación múltiple al cuadrado es aquella parte de la varianza
de X
j
“explicada” linealmente por las variables aleatorias X
2
.
Ejemplo 1.2 Consideremos una matriz de covarianzas
1
entre las tres
variables X
1
=“Tensión arterial”, X
2
=“Renta disponible” y X
3
=“Edad”.
Σ =

¸
1,00 0,60 0,90
0,60 1,00 0,80
0,90 0,80 1,00
¸

;
Una apreciación superficial podría llevar a concluir que hay una abultada
correlación de 0.60 entre la variable X
2
(Renta) y la variable X
1
(Tensión
arterial). Si efectuamos el análisis controlando el efecto de la variable X
3
, el
resultado cambia drásticamente. En efecto, tendríamos:
Σ
11
=

1,00 0,60
0,60 1,00

Σ
22
=

1,00

Σ
12
=

0,90
0,80

Por consiguiente, la matriz de covarianzas de las variables X
1
, X
2
controlado
el efecto de X
3
, en aplicación del Teorema 1.1, resulta ser:
Σ
11·2
=

1,00 0,60
0,60 1,00

0,90
0,80

1,00

0,90 0,80

(1.49)

0,19 −0,12
−0,12 0,30

(1.50)
El coeficiente de correlación parcial (eliminado el efecto de X
3
entre X
1
y
X
2
sería ahora:
ρ
12,3

−0,12

0,19 0,30
≈ −0,4588;
es decir, una correlación apreciable y de signo contrario al inicial.
No cuesta imaginar el origen de la aparente paradoja. Las dos variables
X
1
y X
2
aparecen altamente correladas con la X
3
(Edad), y ello induce una
correlación espúrea entre ellas. Al eliminar el efecto (lineal) de la variable
X
3
, la aparente relación directa entre X
1
y X
2
desaparece por completo (de
hecho, se torna de relación inversa).
1
Valores ficticios. El ejemplo es puramente ilustrativo.
20 CAPÍTULO 1. NORMAL MULTIVARIANTE Y ASOCIADAS
1.5. Distribución de Wishart.
Definición 1.2 Sean X
i
(i = 1, . . . , n) vectores aleatorios independientes, con
distribución común N
d
(

0, Σ). Entonces, la matriz aleatoria
A =
n
¸
i=1
X
i
X
i

con
1
2
d(d + 1) elementos distintos –dado que es simétrica– sigue la distribución
conocida como distribución de Wishart, W
d
(n, Σ), con n grados de libertad y
matriz de parámetros Σ.
La distribución de Wishart puede en cierto modo considerarse como una gene-
ralización de la χ
2
; en efecto, si X
i
∼ N
1
(0, σ
2
) se verifica que: A =
¸
n
i=1
X
2
i

σ
2
χ
2
n
= W
1
(n, σ
2
). De la definición se deducen de modo inmediato las siguientes
propiedades:
1. Si S ∼ W
d
(n, Σ), T ∼ W
d
(m, Σ) y ambas son independientes, S + T ∼
W
d
(m+n, Σ).
2. Si S ∼ W
d
(n, Σ) y C es una matriz q d de rango q, entonces:
CSC

∼ W
q
(n, CΣC

)
DEMOSTRACION: S ∼ W
d
(n, Σ) ⇔S =
¸
n
i=1
X
i
X
i

con X
i
∼ N
d
(

0, Σ).
Por consiguiente,
CSC

= C

n
¸
i=1
X
i
X
i

C

=
n
¸
i=1
(CX
i
)(CX
i
)

Pero CX
i
∼ N
q
(

0, CΣC

), lo que muestra que CSC

∼ W
q
(n, CΣC

).
3. Como caso particular de la propiedad anterior, si a es un vector de constantes
y S ∼ W
d
(n, Σ) tenemos:
a

Sa ∼ W
1
(n, a

Σa) ∼ (a

Σa)χ
2
n
(1.51)
o, lo que es igual,
a

Sa
a

Σa
∼ χ
2
n
∀a = 0 (1.52)
4. Como caso particular de (1.52), si a

= (0 . . . 0 1 0 . . . 0) (un único “uno”
en posición i-ésima) se verifica que cuando S ∼ W
d
(n, Σ),
a

Sa = s
2
ii
∼ σ
2
ii
χ
2
n
. (1.53)
Es decir, el cociente entre un elemento diagonal de una matriz de Wishart y
la correspondiente varianza poblacional, se distribuye como una χ
2
n
, con los
mismos grados de libertad que la Wishart.
1.6. FORMAS CUADRÁTICAS GENERALIZADAS. 21
1.6. Formas cuadráticas generalizadas.
Sea X una matriz N d, que representaremos alternativamente de una de las
siguientes formas:
X =

¸
¸
¸
¸
X
1

X
2

.
.
.
X
N

¸

=

X
(1)
X
(2)
. . . X
(d)

Entonces, la “suma de cuadrados” W =
¸
N
i=1
X
i
X
i

puede escribirse como:
W = X

X. Es una matriz d d. Llamaremos forma cuadrática generalizada a
una expresión como:
X

AX =
¸
i
¸
j
a
ij
X
i
X
j

.
Es, como la “suma de cuadrados” anterior, una matriz d d.
Lema 1.4 Si las filas de X siguen una distribución X
i
iid
∼N
d
(

0, Σ), se verifica lo
siguiente:
1. X
(j)
∼ N
N
(

0, σ
2
jj
I
N
).
2. X

a ∼ N
d
(

0, [[a[[
2
Σ).
3. Si a
1
, . . . , a
r
, r ≤ N, son vectores en R
N
mutuamente ortogonales, u
i
=
X

a
i
(i = 1, . . . , r) son mutuamente independientes. Si [[a
i
[[
2
= 1, u
i

N
d
(

0, Σ).
DEMOSTRACION: Solo (3) requiere demostración, siendo inmediatos los res-
tantes apartados. Consideremos u
i
, u
j
(i = j). Claramente, E[u
i
] = E[u
j
] =

0,
y:
E[u
i
u
j

] = E
¸
¸
k
a
ik
X
k

¸
l
a
jl
X
l


¸
=
¸
k
¸
l
a
ik
a
jl
E[X
k
X
l

]
=
¸
k
a
ik
a
jk
Σ
=

0
d×d
si i = j (de donde se sigue la independencia)
Σ si i = j y [[a
i
[[
2
= 1
Lema 1.5 Sea X una matriz aleatoria N d cuyas filas X
i

son independientes
con distribución común N
d
(

0, Σ). Sea U una matriz ortogonal NN, e Y = UX.
Entonces, Y

Y = X

X se distribuye como una W
d
(N, Σ).
22 CAPÍTULO 1. NORMAL MULTIVARIANTE Y ASOCIADAS
DEMOSTRACION:
Es inmediata: Y

Y = X

U

UX = X

X. Es claro además que X

X =
¸
n
i=1
X
i
X
i

sigue la distribución indicada.
Teorema 1.3 Sea X una matriz aleatoria Nd cuyas filas X

i
son independientes
con distribución común N
d
(

0, Σ). Los estimadores habituales del vector de medias
y matriz de covarianzas:
S =
1
N
N
¸
i=1
(X
i
−X)(X
i
−X)

(1.54)
X =
1
N
N
¸
i=1
X
i
(1.55)
verifican:
1. S es independiente de X.
2. NS ∼ W
d
(N −1, Σ).
DEMOSTRACION: Consideremos una matriz U ortogonal N N cuya última fila
sea:

1

N
. . .
1

N
1

N

.
Sea Y = UX. Su última fila es: Y
N
=
¸
N
i=1
u
Ni
X
i
=
1

N
¸
N
i=1
X
i
= X

N.
Por tanto, Y
N
Y
N

= NX X

. Por otra parte,
NS =
N
¸
i=1
(X
i
−X)(X
i
−X)

=
N
¸
i=1
X
i
X
i

−NXX

−NXX

+NXX

=
N
¸
i=1
X
i
X
i

−NXX

=
N
¸
i=1
X
i
X
i

−Y
N
Y
N

=
N
¸
i=1
Y
i
Y
i

−Y
N
Y
N

=
N−1
¸
i=1
Y
i
Y
i

1.6. FORMAS CUADRÁTICAS GENERALIZADAS. 23
Como las filas

Y
i
son independientes unas de otras, y X y NS dependen de fi-
las diferentes, son claramente independientes. Es de destacar que, aunque hemos
supuesto E[X] = 0, este supuesto es innecesario. Puede comprobarse fácilmente
que si sumamos una constante cualquiera a cada columna X
(j)
, S no se altera.
24 CAPÍTULO 1. NORMAL MULTIVARIANTE Y ASOCIADAS
1.7. Distribución T
2
de Hotelling.
Sea W ∼ W
d
(n, Σ) y X ∼ N
d
(µ, Σ), ambas independientes. Entonces:
n(X −µ)

W
−1
(X −µ)
sigue la distribución conocida como T
2
de Hotelling, de dimensión d y con n
grados de libertad. La denotaremos por T
2
d,n
. Esta distribución puede verse como
una generalización de la T
1,n
(y, por tanto, T como una generalización de la t de
Student). En efecto, cuando d = 1,
W ∼ W
1
(n, σ
2
) = σ
2
χ
2
n
(1.56)
X ∼ N(µ, σ
2
) (1.57)
y:
n(X −µ)

W
−1
(X −µ) =
(X −µ)
2
W/n
=

X−µ
σ

2
W/nσ
2
∼ T
1,n
No es preciso contar con tablas de la distribución de Hotelling, pues una rela-
ción muy simple la liga con la distribución T de Snedecor. Para su establecimiento
necesitaremos los lemas a continuación. La presentación sigue de modo bastan-
te ajustado a Seber (1984), p. 29 y siguientes, donde se puede acudir para más
detalles.
Lema 1.6 Si Y ∼ N
d
(0, Σ) y Σ es de rango completo, entonces: Y

Σ
−1
Y ∼ χ
2
d
.
DEMOSTRACION: Siendo Σ definida positiva, Σ
−1
existe y es también definida
positiva. Entonces puede encontrarse Σ

1
2
tal que: Σ

1
2
Σ

1
2
= Σ
−1
. Por otra
parte, X = Σ

1
2
Y se distribuye como N
d
(0, I
d
). Entonces,
Y

Σ
−1
Y = Y

Σ

1
2
Σ

1
2
Y = X

X ∼ χ
2
d
Lema 1.7 Sea X

= (X
1
.
.
. X
2

) un vector N
d
(µ, Σ), con µ = (µ
1
.
.
. µ
2

) y
Σ =

σ
11
Σ
12
Σ
21
Σ
22

. Sea σ
ij
el elemento genérico en el lugar ij–ésimo de la matriz
Σ
−1
. Entonces,
Var[X
1
[X
2
= x
2
] =
1
σ
11
.
1.7. DISTRIBUCIÓN T
2
DE HOTELLING. 25
DEMOSTRACION: De acuerdo con el Teorema 1.1, p. 15,
σ
X
1
|X
2
=x
2
= σ
11
−Σ
12
Σ
−1
22
Σ
21
. (1.58)
Por otra parte, por el Lema 1.3, p. 17, sabemos que:
[Σ[ = [σ
11
−Σ
12
Σ
−1
22
Σ
21
[[Σ
22
[. (1.59)
De (1.58) y (1.59) se deduce entonces que σ
X
1
|X
2
=x
2
=
[Σ[

22
[
= 1/σ
11
.
Lema 1.8 Sea Y = Zβ + ǫ con Z de orden n p y ǫ ∼ N
n
(0, σ
2
I
n
). Sea
Q = m´ın
β
[[Y −Zβ[[
2
= [[Y −Z
ˆ
β[[
2
. Entonces:
Q ∼ σ
2
χ
2
n−p
(1.60)
Q = 1/w
11
(1.61)
siendo W
−1
= [w
ij
] y W =

Y

Y Y

Z
Z

Y Z

Z

.
DEMOSTRACION: Que Q ∼ σ
2
χ
2
n−p
lo sabemos por teoría de regresión lineal;
Qno es otra cosa que SSE, la suma de cuadrados de los residuos al ajustar Y sobre
las Z. Por consiguiente,
Q = [[(I −Z(Z

Z)
−1
Z

)Y [[
2
(1.62)
= Y

(I −Z(Z

Z)
−1
Z

)Y (1.63)
= Y

Y −Y

Z(Z

Z)
−1
Z

Y (1.64)
Por otra parte, de la definición de W se tiene (empleando el mismo procedimiento
que en la demostración del Lema 1.3, p. 17) que:
[W[ = [Y

Y −Y

Z(Z

Z)
−1
Z

Y [[Z

Z[ (1.65)
De (1.64) y (1.65) se deduce entonces que Q =
|W|
|Z

Z|
= 1/w
11
.
Lema 1.9 Sea W ∼ W
d
(n, Σ), n ≥ d. Entonces:
1.
σ
11
w
11
∼ χ
2
n−d+1
es independiente de w
ij
, i, j = 2, . . . , d.
2.


Σ
−1



W
−1


∼ χ
2
n−d+1
, para cualquier ℓ = 0.
DEMOSTRACION: W ∼ W
d
(n, Σ) ⇐⇒ W = X

X =
¸
n
i=1
X
i
X
i

con X
i

26 CAPÍTULO 1. NORMAL MULTIVARIANTE Y ASOCIADAS
N
d
(0, Σ). Si regresáramos la primera variable sobre todas las restantes, de acuerdo
con el Lema 1.7, p. 24 anterior,
Q = [[X
(1)

d
¸
i=2
ˆ
β
i
X
(i)
[[
2

1
σ
11
χ
2
n−(d−1)
Además, Q es independiente de las columnas de X empleadas como regresores:
X
(2)
, . . . , X
(d)
. Por otra parte, Q = 1/w
11
. Por consiguiente,
1/w
11
∼ (1/σ
11

2
n−(d−1)
(1.66)
σ
11
/w
11
∼ χ
2
n−(d−1)
. (1.67)
Para demostrar la segunda parte, sea L una matriz ortogonal dd cuya fila superior
fuera: ℓ

/[[ℓ[[. Siempre puede encontrarse una matriz así. Entonces, LWL


W
d
(n, LΣL

). Como,
(LWL

)
−1
= LW
−1
L

(1.68)
(LΣL

)
−1
= LΣ
−1
L

(1.69)
se tiene que:


Σ
−1



W
−1

=


Σ
−1
ℓ/[[ℓ[[
2


W
−1
ℓ/[[ℓ[[
2
(1.70)
=
(LΣ
−1
L

)
11
(LW
−1
L

)
11
(1.71)
=
(LΣL

)
11
(LWL

)
11
(1.72)
= χ
2
n−d+1
(1.73)
aplicando (1.53). Es de resaltar que la distribución no depende de ℓ.
Teorema 1.4 Si Z
2
= nY

W
−1
Y con Y ∼ N
d
(0, Σ), n ≥ d y W ∼ W
d
(n, Σ),
siendo Y y W independientes (y siguiendo por tanto Z
2
una distribución T
2
d,n
),
entonces:
n −d + 1
d
Z
2
n
∼ T
d,n−d+1
DEMOSTRACION:
Z
2
n
= Y

W
−1
Y =
Y

Σ
−1
Y
Y

Σ
−1
Y /Y

W
−1
Y
(1.74)
El numerador de (1.74) se distribuye como una χ
2
con d grados de libertad, y el
denominador como una χ
2
con n −d +1 grados de libertad. Además, como ponía
de manifiesto el lema anterior, ambos son independientes, de donde se sigue la
distribución T de Snedecor del cociente.
1.8. DISTRIBUCIÓN DE WILKS Y ASOCIADAS 27
1.8. Distribución de Wilks y asociadas
Multitud de contrastes univariantes resultan de efectuar cocientes de sumas de
cuadrados, que debidamente normalizadas siguen, bajo el supuesto de normalidad
de las observaciones, distribución T de Snedecor. Cuando las observaciones son
multivariantes, las “sumas de cuadrados” son formas cuadráticas generalizadas,
con distribuciones de Wishart, y el cociente entre determinantes de las mismas
puede verse como generalización de los contrastes univariantes.
Definición 1.3 Supongamos dos matrices aleatorias E y H con distribuciones res-
pectivas,
H ∼ W
p

H
, Σ) (1.75)
E ∼ W
p

E
, Σ) (1.76)
independientes. Entonces, el cociente:
[E[
[E +H[
sigue la distribución conocida como lambda de Wilks de dimensión p y con grados
de libertad ν
H
y ν
E
, que denotaremos por Λ(p, ν
H
, ν
E
).
La distribución anterior se conoce también como distribución U.
En las aplicaciones surgen de modo muy natural matrices de Wishart E y H
asociadas a “suma de cuadrados de los residuos” y “suma de cuadrados atribui-
ble a la hipótesis H”. La Tabla 1.1 muestra el paralelismo existente entre algunos
productos de matrices Wishart y cocientes de sumas de cuadrados habituales en
regresión y ANOVA univariantes.
Cuadro 1.1: Equivalencia entre estadísticos uni- y multivariantes.
Matriz Distribución Análogo Distribución
multivariante univariante univariante
E

1
2
HE

1
2
Beta tipo II ˆ σ
2
H
/ˆ σ
2
E
ν
E
ν
H
T
ν
E

H
multivariante
(E +H)

1
2
H(E +H)

1
2
Beta tipo I
ˆ σ
2
H
ˆ σ
2
H
+ˆ σ
2
E
Beta(
ν
E
2
,
ν
H
2
)
multivariante
Los siguientes teoremas sobre los valores propios de las matrices en la Tabla
1.1 y sus análogas no simétricas HE
−1
y H(E +H)
−1
son de utilidad.
Teorema 1.5 Sean E y H matrices simétricas y definidas positivas. Entonces los
valores propios de HE
−1
son no negativos y los de H(E + H)
−1
no negativos y
menores que 1.
28 CAPÍTULO 1. NORMAL MULTIVARIANTE Y ASOCIADAS
DEMOSTRACION:
[HE
−1
−φI[ = 0 ⇔ [HE

1
2
−φE
1
2
[ = 0
⇔ [E

1
2
HE

1
2
−φI[ = 0
Es claro que E

1
2
HE

1
2
es semidefinida positiva, pues para cualquier x tenemos
que x

E

1
2
HE

1
2
x = z

Hz, en que z = E

1
2
x.
Sean entonces φ
1
, . . . , φ
d
los valores propios de HE
−1
. Tenemos de manera
enteramente similar que los de H(E +H)
−1
son soluciones de
[H(E +H)
−1
−θI[ = 0 ⇔ [H −θ(E +H)[ = 0
⇔ [(1 −θ)H −θE[ = 0

HE
−1

θ
1 −θ
I

= 0
lo que evidencia que
φ
i
=
θ
i
1 −θ
i
, (i = 1, . . . , d)
y por tanto
θ
i
=
φ
i
1 +φ
i
. (i = 1, . . . , d)
claramente comprendido entre 0 y 1.
Hay diversas tabulaciones de funciones de interés de dichos valores propios
cuando las matrices E y H son Wishart independientes: del mayor de ellos, de
la suma, del producto, etc., funciones todas ellas que se presentan de modo natu-
ral como posibles estadísticos de contraste en las aplicaciones. Un examen de las
relaciones entre los diversos estadísticos se posterga a las Secciones 3.3 y 4.3.
1.9. CONTRASTES EN LA DISTRIBUCIÓN NORMAL 29
1.9. Contrastes en la distribución normal
El supuesto de normalidad encuentra parcial justificación en el teorema central
del límite: si las influencias sobre un sistema son múltiples, aproximadamente in-
correladas entre sí, y sin ninguna que tenga una importancia dominadora del total,
cabe esperar que el resultado se distribuirá de modo aproximadamente normal.
En la práctica, ello resulta mucho más problemático con variables multivarian-
tes que univariantes. Tiene interés disponer de contrastes que permitan evaluar el
ajuste a una normal tanto en el caso uni- como multivariante. En lo que sigue se
introducen algunos de esos contrastes.
Debe tenerse presente que, incluso aunque el supuesto de normalidad parezca
claramente inadecuado, muchos de los procedimientos desarrollados bajo el mismo
continúan dando resultados aceptables. En lo sucesivo trataremos de indicar en ca-
da caso como afecta el incumplimiento del supuesto de normalidad a los contrastes
y estimaciones.
1.9.1. Diagnósticos de normalidad univariante
Podría, desde luego, emplearse un contraste de ajuste “todo terreno”, como la
prueba χ
2
o el test de Kolmogorov-Smirnov, descritos en cualquier texto básico de
Estadística (por ej., Trocóniz (1987a), p. 249). Pero hay contrastes especializados
que dan habitualmente mejor resultado cuando la hipótesis de ajuste a contrastar
es la de normalidad.
Gráficos QQ. Una de las pruebas más simples e ilustrativas para evaluar el ajuste
de una muestra y
1
, . . . , y
n
a una distribución normal consiste en construir su gráfico
QQ. Se hace de la siguiente manera:
1. Se ordena la muestra, obteniendo y
(1)
≤ . . . ≤ y
(n)
. Entonces y
(i)
es el
cuantil
i
n
muestral —deja a su izquierda o sobre él una fracción
i
n
de la
muestra—. Habitualmente se considera como el cuantil
(i−
1
2
)
n
(corrección de
continuidad).
2. Se obtienen (mediante tablas o por cualquier otro procedimiento) los cuan-
tiles
(i−
1
2
)
n
de una distribución N(0, 1), es decir, los valores q
1
≤ . . . ≤ q
n
verificando:

q
i
−∞
1


exp


x
2
2

dx =
(i −
1
2
)
n
.
3. Se hace la gráfica de los puntos (q
i
, y
(i)
), i = 1, . . . , n.
Es fácil ver que en el supuesto de normalidad los puntos deberían alinearse apro-
ximadamente sobre una recta. Si no presentara forma aproximadamente rectilínea,
tendríamos motivo para cuestionar la normalidad.
30 CAPÍTULO 1. NORMAL MULTIVARIANTE Y ASOCIADAS
Contraste de Shapiro-Wilk. Está basado en el cociente del cuadrado de la me-
jor, o aproximadamente mejor, estimación lineal insesgada de la desviación stan-
dard dividida por la varianza muestral. El numerador se construye tomando una
combinación lineal de los valores ordenados de la muestra, con coeficientes pro-
porcionados en Shapiro and Wilk (1965). Lógicamente, cada tamaño de muestra
requiere unos coeficientes diferentes. En su formulación original, era de aplicación
sólo a muestras reducidas —con n ≤ 50 aproximadamente—. No obstante, trabajo
posterior (ver Royston (1995)) ha permitido extenderlo a tamaños muestrales tan
grandes como n ≤ 5000. Una alternativa para n muy grande es el contraste de
D’Agostino a continuación.
Observación 1.4
Contraste de D’Agostino. El contraste de D’Agostino (ver D’Agostino (1971);
tablas en D’Agostino (1972) reproducidas en Rencher (1995) y en el Apéndice)
emplea el estadístico
D =
¸
n
i=1

i −
1
2
(n + 1)

y
(i)

n
3
¸
n
i=1
(y
(i)
−y)
2
(1.77)
o alternativamente su expresión aproximadamente centrada y tipificada
Y =

n

D −(2

π)
−1

0,02998598
. (1.78)
Requiere n > 50. Su distribución para diferentes n está tabulada. Es un contraste
“ómnibus”, sin una alternativa predefinida. No obstante, el valor de Y proporciona
información acerca de la naturaleza de la desviación de la muestra analizada res-
pecto al comportamiento normal: cuando la kurtosis es más de la esperada bajo una
hipótesis normal, Y tiende a tomar valores negativos. Lo contrario sucede cuando
la muestra presenta menos kurtosis de la esperable en una normal.
Hay otros varios contrastes, explotando una idea similar o comparando la si-
metría y kurtosis de la muestra con las esperables bajo la hipótesis de normalidad:
véase Rencher (1995), Sec. 4.4 para un resumen.
1.9.2. Diagnósticos de normalidad multivariante
Un paso previo consistirá en examinar la normalidad de las distribuciones mar-
ginales unidimensionales: esta es necesaria, pero no suficiente, para la normalidad
multivariante, que es más restrictiva que la mera normalidad de las marginales. Hay
un caso, no obstante, en que la normalidad de las marginales si implica normalidad
multivariante: el caso de independencia, como resulta fácil comprobar.
Puede pensarse en explotar las ideas en los contrastes univariantes descritos,
pero hay que hacer frente a problemas adicionales: no hay una ordenación natu-
ral en el espacio p-dimensional, y tropezamos rápidamente con la “maldición de
1.9. CONTRASTES EN LA DISTRIBUCIÓN NORMAL 31
la dimensionalidad” (dimensionality curse). Lo primero es claro; para adquirir al-
guna intuición sobre la “maldición de la dimensionalidad” es bueno considerar el
siguiente ejemplo.
Ejemplo 1.3 (en un espacio de elevada dimensionalidad, los puntos
quedan casi siempre “lejos”) Consideremos un espacio de dimensión dos;
los puntos cuyas coordenadas no difieran en más de una unidad, distan a lo
sumo (en distancia euclídea)

2. En R
3
, la distancia sería

3 y, en general,

p en R
p
. Alternativamente podríamos pensar en los siguientes términos. El
volumen de una hiper-esfera de radio r en p dimensiones tiene por expresión
S
p
=
π
p/2
r
p
Γ(
p
2
+ 1)
. (1.79)
Esta fórmula da para p = 2 y p = 3 las familiares fórmulas de la superficie
del círculo y volumen de la esfera
2
. Cuando p = 3, la esfera de radio unidad
ocupa un volumen de 4π/3 = 4,1887; el cubo circunscrito (de lado 2, por
tanto) tiene un volumen de 8. De los puntos en el cubo, más de la mitad
quedan a distancia menos de 1 del centro de la esfera. Cuando la dimensión
p crece, la razón de volúmenes de la hiper-esfera y el hiper-cubo circunscritos
es
π
p/2
2
p
Γ(
p
2
+ 1)
, (1.80)
rápidamente decreciente a cero. Casi todo el volumen de un cubo en p ≫ 3
dimensiones está en las “esquinas”. No hay apenas puntos a corta distancia
del centro de la esfera.
Lo que el ejemplo sugiere es que una muestra, salvo de tamaño descomunal,
será siempre escasa si el número de dimensiones es alto, y ello no permite concebir
muchas esperanzas en cuanto a la potencia que podamos obtener.
Contraste de Gnanadesikan y Kettenring. Dada una muestra y
1
, . . . , y
n
pro-
ponen construir los estadísticos,
u
i
=
n
(n −1)
2
(y
i
−y)

S
−1
(y
i
−y) (1.81)
que se demuestra siguen una distribución B(α, β) con α y β definidos así:
α =
p −1
2p
(1.82)
β =
n −p −2
2(n −p −1)
. (1.83)
2
Basta recordar que Γ(r) = (r −1)Γ(r −1), Γ(1) = 1 y Γ(
1
2
) =

π.
32 CAPÍTULO 1. NORMAL MULTIVARIANTE Y ASOCIADAS
Los cuantiles de una B(α, β) vienen dados por
v
i
=
i −α
n −α −β + 1
, (1.84)
lo que sugiere hacer la gráfica de los puntos (v
i
, u
(i)
) y comprobar su alineación
sobre una recta. La separación de la recta es indicativa de violación de la hipótesis
de normalidad multivariante.
Al igual que en la sección anterior, cabe pensar en contrastes formales que
ayuden a nuestro juicio subjetivo sobre la falta de linealidad o no de los puntos
mencionados. Como estadístico puede utilizarse
D
2
(n)
= m´ax
i
D
2
i
, (1.85)
en que D
2
i
= (y
i
−y)

S
−1
(y
i
−y). Los valores críticos están tabulados en Barnett
and Lewis (1978).
Un hecho de interés es que el contraste está basado en las cantidades D
i
, que
son de interés en si mismas como medida de la “rareza” de puntos muestrales
—miden la lejanía de cada punto al vector de medias estimado de la muestra en
distancia de Mahalanobis—. El contraste reseñado puede por tanto verse también
como un contraste de presencia de puntos extraños o outliers.
Otros contrastes. Se han propuesto otros contrastes, como el de Mardia (1974),
que investiga la asimetría y kurtosis en la muestra en relación con la esperable en
una normal multivariante.
1.9.3. Búsqueda de outliers
Es en general mucho más difícil en espacios de elevada dimensionalidad que
en una, dos o tres dimensiones, donde es posible la visualización.
Un método atrayente es el siguiente: sea S la estimación habitual de la matriz
de covarianzas basada en una muestra de tamaño n y sea S
−i
el mismo estimador
prescindiendo de la observación i-ésima. Consideremos el estadístico:
W = m´ax
i
[(n −2)S
−i
[
[(n −1)S[
(1.86)
Si hubiera alguna observación que fuera un outlier, “hincharía” mucho la estima-
ción de la matriz de covarianzas, y esperaríamos que W tuviera un valor “peque-
ño”; por tanto, W tendrá su región crítica por la izquierda. Se puede demostrar
que
W = 1 −
nD
2
(n)
(n −1)
2
(1.87)
con D
(n)
definido con en (1.85), p. 32, lo que permite emplear para el contraste
basado en W las tablas en Barnett and Lewis (1978).
1.9. CONTRASTES EN LA DISTRIBUCIÓN NORMAL 33
Alternativamente, definamos
F
i
=
n −p −1
p

1 −
nD
2
i
(n −1)
2

−1
(i = 1, . . . , n) (1.88)
Entonces, F
i
iid
∼F
p,n−p−1
y
P

m´ax
i
F
i
> f

= 1 −[P(F < f)]
n
(1.89)
en que F es una variable con distribución T de Snedecor. Obsérvese que ambos
contrastes están relacionados:
F
(n)
def
= m´ax
i
F
i
=
n −p −1
p

1
W
−1

. (1.90)
CUESTIONES, COMPLEMENTOS Y COSAS PARA HACER
1.1 Las funciones de R qqnorm y shapiro.test(ésta última en el
paquete ctest) permiten realizar con comodidad gráficas QQ y el contraste
de Shapiro-Wilk respectivamente.
34 CAPÍTULO 1. NORMAL MULTIVARIANTE Y ASOCIADAS
Capítulo 2
Inferencia en poblaciones
normales multivariantes.
2.1. Inferencia sobre el vector de medias.
Como estimador de µ empleamos habitualmente X =
1
N
¸
N
i=1
X
i
, que es
el estimador máximo verosímil si la distribución es normal multivariante. Como
estimador de la matriz de covarianzas puede emplearse S = (1/N)
¸
N
i=1
(X
i

X)(X
i
−X)

(máximo verosímil, sesgado) o N(N−1)
−1
S = (N−1)
−1
¸
N
i=1
(X
i

X)(X
i
−X)

(insesgado). Es habitualmente irrelevante cual de ellos se emplee,
en especial si N es moderadamente grande. En los desarrollos que siguen emplea-
remos S.
2.1.1. Contraste sobre el vector de medias conocida Σ.
Como X ∼ N
d
(µ,
1
N
Σ), tenemos que:
N(X −µ)

Σ
−1
(X −µ) ∼ χ
2
d
Para contrastar H
0
: µ = µ
0
calcularíamos el valor del estadístico
Q
0
= N(X −µ
0
)

Σ
−1
(X −µ
0
),
rechazando la hipótesis al nivel de significación α si Q
0
> χ
2
d,α
.
35
36 CAPÍTULO 2. INFERENCIA EN NORMAL MULTIVARIANTE
2.1.2. Contraste sobre el vector de medias con Σ desconocida.
Como,
NS ∼ W
d
(N −1, Σ) (2.1)

N(X −µ) ∼ N
d
(0, Σ) (2.2)
y además son independientes, podemos asegurar que bajo la hipótesis nula H
0
: µ =
µ
0
se verifica
N(N −1)(X −µ
0
)

(NS)
−1
(X −µ
0
) ∼ T
2
d,N−1
,
o sea,
(N −1)(X −µ
0
)

S
−1
(X −µ
0
) ∼ T
2
d,N−1
.
Por consiguiente,
N −1 −d + 1
d
T
2
d,N−1
N −1
∼ T
d,N−1−d+1
(2.3)
N −d
d
(X −µ
0
)

S
−1
(X −µ
0
) ∼ T
d,N−d
(2.4)
El rechazo se producirá al nivel de significación α si el estadístico supera T
α
d,N−d
.
2.1.3. Contraste de igualdad de medias en dos poblaciones con matriz
de covarianzas común.
Si tenemos dos muestras,
Muestra 1 : X
1
, X
2
, . . . , X
N
1
(2.5)
Muestra 2 : Y
1
, Y
2
, . . . , Y
N
2
(2.6)
procedentes de sendas poblaciones normales multivariantes con matriz de cova-
rianzas común Σ, entonces:
X =
1
N
1
N
1
¸
i=1
X
i
(2.7)
Y =
1
N
2
N
2
¸
j=1
Y
j
(2.8)
(2.9)
N
1
S
1
=
N
1
¸
i=1
(X
i
−X)(X
i
−X)

∼ W
d
(N
1
−1, Σ) (2.10)
N
2
S
2
=
N
2
¸
j=1
(Y
j
−Y )(Y
j
−Y )

∼ W
d
(N
2
−1, Σ) (2.11)
2.1. INFERENCIA SOBRE EL VECTOR DE MEDIAS. 37
Por consiguiente, S = (N
1
S
1
+N
2
S
2
)/(N
1
+N
2
) es un estimador de Σ que hace
uso de información en ambas muestras, y (N
1
+ N
2
)S ∼ W
d
(N
1
+ N
2
− 2, Σ).
Bajo la hipótesis H
0
: E[X] = E[Y ] = µ
0
, E(X −Y ) = 0. Por otra parte,
Σ
(X−Y)
=
1
N
1
Σ +
1
N
2
Σ =
(N
1
+N
2
)
N
1
N
2
Σ.
Por consiguiente, bajo H
0
,

N
1
N
2
N
1
+N
2
(X −Y ) ∼ N
d
(0, Σ)
(N
1
+N
2
−2)
N
1
N
2
(N
1
+N
2
)
2
(X −Y )

S
−1
(X −Y ) ∼ T
2
d,N
1
+N
2
−2
N
1
+N
2
−d −1
d
N
1
N
2
(N
1
+N
2
)
2
(X −Y )

S
−1
(X −Y ) ∼ T
d,N
1
+N
2
−d−1
.
Como en el caso anterior, se producirá el rechazo de la hipótesis nula de igual-
dad de medias al nivel de significación α cuando el estadístico anterior supere
T
α
d,N
1
+N
2
−d−1
.
2.1.4. Contraste de hipótesis lineales generales sobre el vector de me-
dias de una única población.
Supongamos que la hipótesis que deseamos contrastar es expresable en la for-
ma H
0
: Cµ = δ, siendo δ un vector q 1 y C una matriz q d de rango q.
De acuerdo con la teoría en la Sección anterior, bajo H
0
:

N(CX − δ) ∼
N
q
(0, CΣC

), y NCSC

∼ W
q
(N −1, CΣC

). Por consiguiente:
N(N −1)(CX −δ)

(NCSC

)
−1
(CX −δ) ∼ T
2
q,N−1
(2.12)
(N −1)(CX −δ)

(CSC

)
−1
(CX −δ) ∼ T
2
q,N−1
(2.13)
N −q
q
(CX −δ)

(CSC

)
−1
(CX −δ) ∼ T
q,N−q
(2.14)
siendo de nuevo la región crítica la formada por la cola derecha de la distribución
(valores grandes del estadístico producen el rechazo de la hipótesis de contraste).
Ejemplo 2.1 Supongamos que estamos interesados en contrastar si la
resistencia al desgaste de dos diferentes marcas de neumáticos es la misma o
no. Este es un problema típico de Análisis de Varianza: montaríamos los dos
tipos de neumáticos en diferentes coches y, dentro de cada coche, en dife-
rentes ruedas, y diseñaríamos el experimento de modo que hasta donde fuera
posible ningún factor ajeno al tipo de neumático influyera en su duración. Por
ejemplo, nos abstendríamos de probar el primer tipo de neumático siempre
en ruedas traseras, y el segundo en ruedas delanteras, etc.
Sin embargo, no siempre podemos controlar todos los factores en pre-
sencia. Supongamos que los dos tipos de neumáticos se montan por pares en
38 CAPÍTULO 2. INFERENCIA EN NORMAL MULTIVARIANTE
cada coche, cada tipo en una rueda delantera y una trasera. Obtendríamos de
cada coche un vector X = (X
1
, X
2
, X
3
, X
4
) de valores, los dos primeros
correspondiendo al primer tipo de neumático y los dos siguientes al segun-
do. Salvo que hayamos diseñado el experimento con total control del tipo
de conductor, estilo de conducción, trayecto, tiempo atmosférico, etc., no es
prudente dar por supuesta la independencia entre las componentes de cada
vector, como sería necesario para hacer un análisis de varianza univariante
ordinario. En efecto, todas ellas han sido influenciadas por factores comunes
—como coche, conductor, trayecto recorrido—.
Si µ = (µ
1
, . . . , µ
4
) es el vector de medias, la hipótesis de interés podría
expresarse así:
Cµ = 0
con
C =

1 0 −1 0
0 1 0 −1

.
El contraste haría entonces uso de (2.14).
2.1.5. Contraste de hipótesis lineales sobre los vectores de medias de
dos poblaciones.
Sean dos poblaciones normales multivariantes, con matriz de covarianzas común
Σ, de las que poseemos sendas muestras aleatorias simples:
Muestra 1 : X
1
, X
2
, . . . , X
N
1
(2.15)
Muestra 2 : Y
1
, Y
2
, . . . , Y
N
2
(2.16)
Si la hipótesis H
0
: Cµ
1
−Cµ
2
= δ es cierta y C es una matriz q d de rango
q, se verifica,

N
1
N
2
N
1
+N
2
(CX −CY −δ) ∼ N
q
(0, CΣC

)
(N
1
+N
2
)S = N
1
S
1
+N
2
S
2
∼ W
d
(N
1
+N
2
−2, Σ)
(N
1
+N
2
)CSC

∼ W
q
(N
1
+N
2
−2, CΣC

),
y por tanto,
ℓ(CX −CY −δ)

[(N
1
+N
2
)CSC

]
−1
(CX −CY −δ) ∼ T
2
q,N
1
+N
2
−2
con
ℓ =
N
1
N
2
N
1
+N
2
(N
1
+N
2
−2),
que tras simplificar proporciona:
k(CX −CY −δ)

(CSC

)
−1
(CX −CY −δ) ∼ T
q,N
1
+N
2
−q−1
(2.17)
2.1. INFERENCIA SOBRE EL VECTOR DE MEDIAS. 39
Figura 2.1: Disposición de dos vectores de medias paralelos
µ
1
µ
2
con
k =
N
1
+N
2
−q −1
q
N
1
N
2
(N
1
+N
2
)
2
.
Ejemplo 2.2 Contrastes de esta naturaleza surgen de forma habitual.
Hay veces en que la hipótesis de interés no se refiere a la igualdad de los
vectores de medias, sino a su forma. Por ejemplo, sean X
i
e Y
j
vectores
aleatorios dando para los sujetos i-ésimo (respectivamente, j-ésimo) de dos
poblaciones las sensibilidades auditivas a sonidos de diferentes frecuencias.
Si una de las poblaciones agrupa a jóvenes y otra a ancianos, la hipóte-
sis de igualdad de medias no tendría mayor interés: podemos esperar menor
sensibilidad en los mayores. Podría interesarnos en cambio contrastar si los
vectores de medias son paralelos (véase Figura 2.1). Es decir, si la espera-
ble pérdida de audición de los ancianos se produce de forma uniforme sobre
todas las frecuencias consideradas, o si por el contrario se pierde más sensi-
bilidad para sonidos graves, agudos, u otros. Tal hipótesis se traduciría a una
hipótesis de desplazamiento uniforme del vector de medias de una población
respecto al de la otra.
Es fácil ver como llevar a cabo dicho contraste con ayuda de (2.17):
bastaría tomar
C =

¸
¸
¸
¸
1 −1 0 . . . 0
1 0 −1 . . . 0
.
.
.
.
.
.
.
.
.
.
.
.
1 0 0 . . . −1
¸

y δ = 0.
40 CAPÍTULO 2. INFERENCIA EN NORMAL MULTIVARIANTE
2.2. Inferencia sobre el coeficiente de correlación entre
dos v.a. normales X
1
, X
2
.
Si X =

X
1
X
2


∼ N
2
(µ, Σ), Z =
¸
n
i=1
(X
i
−X)(X
i
−X)

se distribuye
como W
2
(n − 1, Σ). El coeficiente de correlación muestral al cuadrado, R
2
X
1
,X
2
,
es entonces Z
2
12
/Z
11
Z
22
, y su función de densidad puede obtenerse por transfor-
mación de la de la Z. Omitimos los detalles
1
. Puede comprobarse que la función
de densidad de R = R
X
1
,X
2
(prescindimos de los subíndices por comodidad nota-
cional) es:
f
R
(r) =
(1 −ρ
2
)
n/2

πΓ

n
2

Γ

n−1
2
(1 −r
2
)
(n−3)/2

Γ

n
2

2
+

¸
p=1
(2ρr)
p
p!

Γ

n +p
2

2
¸
¸
([r[ < 1)
De ella se deduce que:
E[R] = ρ +O

1
n

(2.18)
Var[R] =
(1 −ρ
2
)
2
n
+O

1
n
3/2

. (2.19)
Bajo la hipótesis nula H
0
: ρ = 0 la densidad se simplifica notablemente:
f
R
(r) =
1
B

1
2
,
n−1
2
(1 −r
2
)
(n−3)/2
([r[ < 1)
y T
2
= (n − 1)R
2
/(1 − R
2
) sigue una distribución T
1,n−1
, lo que permite con-
trastar fácilmente la hipótesis de nulidad. Por otra parte, Fisher mostró que
Z =
1
2
log
e
1 +R
1 −R
= tanh
−1
R
se distribuye aproximadamente como:
Z ∼ N
¸
1
2
log
e
1 +ρ
1 −ρ
,
1
n −3

para n “grande”, lo que permite construir intervalos de confianza para ρ. La apro-
ximación anterior es válida en el caso normal, y resulta fuertemente afectada por
la kurtosis.
1
Pueden consultarse en Fourgeaud and Fuchs (1967) p. 135.
2.3. INFERENCIA SOBRE LA MATRIZ DE COVARIANZAS. 41
2.3. Inferencia sobre la matriz de covarianzas.
Existen contrastes para una gran variedad de hipótesis sobre la matriz de cova-
rianzas de una población normal, o sobre las matrices de covarianzas de más de
una población: Seber (1984) y Anderson (1978) son referencias adecuadas. Sólo
a título de ejemplo, señalaremos los estadísticos empleados en el contraste de dos
hipótesis particulares.
2.3.1. Contraste de igualdad de matrices de covarianzas en dos pobla-
ciones normales.
Sean dos poblaciones normales multivariantes de las que poseemos sendas
muestras:
Muestra 1 : X
1
, X
2
, . . . , X
N
1
∼ N
d

1
, Σ
1
) (2.20)
Muestra 2 : Y
1
, Y
2
, . . . , Y
N
2
∼ N
d

2
, Σ
2
) (2.21)
Sean,
S
1
=
1
N
1
N
1
¸
i=1
(X
i
−X)(X
i
−X)

(2.22)
S
2
=
1
N
2
N
2
¸
j=1
(Y
j
−Y )(Y
j
−Y )

(2.23)
S =
1
N
1
+N
2
(N
1
S
1
+N
2
S
2
) (2.24)
N = N
1
+N
2
(2.25)
los estimadores habituales de las matrices de covarianzas en cada población y de
la matriz de covarianzas conjunta. Sea,
ℓ =
[S[
−N/2
[S
1
[
−N
1
/2
[S
2
[
−N
2
/2
(2.26)
Bajo la hipótesis nula H
0
: Σ
1
= Σ
2
, −2 log
e
ℓ ∼ χ
2
1
2
d(d+1)
asintóticamente.
2.3.2. Contraste de diagonalidad por bloques de la matriz de cova-
rianzas de una única población normal.
Bajo la hipótesis H
0
: Σ =

Σ
11
0
0 Σ
22

, y con la notación habitual, se tiene:
Λ
def
=
[S[
[S
11
[[S
22
[
=
[S
11
−S
12
S
−1
22
S
21
[[S
22
[
[S
11
[[S
22
[
=
[S
11,2
[
[S
11
[
. (2.27)
42 CAPÍTULO 2. INFERENCIA EN NORMAL MULTIVARIANTE
Bajo la hipótesis nula, la matriz en el numerador es una Wishart W
p
(N−q−1, Σ
11
)
y la del denominador W
p
(N − 1, Σ
11
). Por otra parte, como X
1
= E[X
1
[X
2
] +
(X
1
− E[X
1
[X
2
]) es una descomposición de X
1
en sumandos independientes,
tenemos que: S
11
= S
11,2
+ (S
11
− S
11,2
) descompone S
11
en la suma de dos
Wishart independientes. Por tanto,
Λ =
[S
11,2
[
[S
11,2
+ (S
11
−S
11,2
)[
∼ Λ
p,q,N−q−1
lo que sugiere un modo de hacer el contraste.
Existen diferentes aproximaciones para la distribución Λ. Para valores ausentes
en tablas, puede emplearse la aproximación
−(N −
1
2
(p +q + 3)) log
e
Λ ∼ χ
2
pq
,
o alternativamente
1 −Λ
1/t
Λ
1/t
gl
2
gl
1
∼ T
gl
1
,gl
2
en que
gl
1
= pq
gl
2
= wt −
1
2
pq + 1
w = N −
1
2
(p +q + 3)
t =

p
2
q
2
−4
p
2
+q
2
−5
.
Observación 2.1 λ = Λ
N
2
con Λ definida en (2.27) sería la razón ge-
neralizada de verosimilitudes bajo las hipótesis respectivas: H
0
: Σ
12
= 0
versus H
a
: Σ general. Un resultado asintótico utilizable en general cuando
las hipótesis son (como en este caso) anidadas, establece que
−2 log
e
λ ∼ χ
2
n
siendo n la diferencia de parámetros adicionales que especifica la hipótesis
nula respecto de la alternativa. En nuestro caso, n = pq, porque la hipótesis
nula prescribe pq parámetros nulos (las covarianzas contenidas en el bloque
Σ
12
).
El mismo resultado asintótico se ha empleado en el apartado anterior
para aproximar la distribución de ℓ en (2.26). Más detalles sobre contras-
tes razón generalizada de verosimilitudes pueden encontrarse en Garthwaite
et al. (1995), p. 84 y Cox and Hinkley (1974).
2.3. INFERENCIA SOBRE LA MATRIZ DE COVARIANZAS 43
2.3.3. Contraste de esfericidad
Sea Y
1
, . . . , Y
N
una muestra procedente de una población N
p
(µ, Σ). Estamos
interesados en contrastar si la matriz de covarianzas es de la forma Σ = σ
2
I, lo
que se traduciría en contornos de igual densidad que serían superficies o hiper-
superficies esféricas.
El contraste se efectúa haciendo uso de la técnica de la razón de verosimilitudes
(Observación 2.1), que en este caso proporciona:
L =
¸
[S[
(traza(S)/p)
p
N
2
. (2.28)
Por tanto, asintóticamente,
−2 log
e
L = −N log
e
¸
[S[
(traza(S)/p)
p

∼ χ
2
p(p+1)
2
−1
.
Los grados de libertad de la χ
2
son la diferencia de parámetros entre una matriz
de covarianzas general (
p(p+1)
2
, habida cuenta de la simetría) y los de otra con
estructura escalar σ
2
I (sólamente uno).
El estadístico en (2.28) puede escribirse en función de los valores propios de S
así:
L =
¸
[
¸
i=1
λ
i
[
(
¸
p
i=1
λ
i
/p)
p
N
2
.
El cociente en la expresión anterior es (la potencia de orden p) de la media geomé-
trica a la media aritmética de los autovalores, y por tanto un índice de su disimila-
ridad, tanto más pequeño cuanto más desiguales sean éstos; lo que es acorde con
la intuición.
Una mejor aproximación a la distribución χ
2
se logra sustituyendo −2 log
e
L
por el estadístico
L

= −

ν −
2p
2
+p + 2
6p

log
e
¸
[
¸
p
i=1
λ
i
[
(
¸
p
i=1
λ
i
/p)
p

,
en que ν es el número de grados de libertad de la Wishart que ha dado lugar a S:
N − 1 si ha sido estimada a partir de una sóla muestra con media desconocida, y
N − k si ha sido estimada a partir de k muestras en cada una de las cuales se ha
ajustado una media.
CUESTIONES, COMPLEMENTOS Y COSAS PARA HACER
2.1 Mostrar que el estadístico T
2
de Hotelling
(N −1)(X −µ
0
)

S
−1
(X −µ
0
) (2.29)
empleado para el contraste multivariante de H
0
: µ = µ
0
, tomará un va-
lor significativo al nivel α sólo si existe un vector de coeficientes a tal que
H
0
: a

µ = a

µ
0
resulta rechazada al mismo nivel α por un contraste t de
Student univariante ordinario.
44 CAPÍTULO 2. INFERENCIA EN NORMAL MULTIVARIANTE
Capítulo 3
Análisis de varianza
multivariante
3.1. Introducción
Los modelos de Análisis de Varianza Multivariante (MANOVA) son una gene-
ralización directa de los univariantes. Lo único que varía es que la respuesta que
se estudia es un vector para cada observación, en lugar de una variable aleatoria
escalar. Ello conlleva que las sumas de cuadrados cuyos cocientes proporcionan
los contrastes de las diferentes hipótesis, sean ahora formas cuadráticas generali-
zadas. Los estadísticos de contraste, por su parte, serán cocientes de determinantes
(con distribución Λ de Wilks) o diferentes funciones de valores propios de ciertas
matrices.
Un descripción del modelo univariante puede encontrarse en casi cualquier tex-
to de regresión: Seber (1977), Stapleton (1995) o Trocóniz (1987a), por mencionar
sólo algunos. Cuadras (1981), Cap. 20 y 21 contiene una presentación autoconte-
nida de los modelos ANOVA y MANOVA.
La exposición que sigue presupone familiaridad con el modelo de análisis de
varianza univariante.
3.2. Modelo MANOVA con un tratamiento
Estudiamos una característica multivariante Y
ij
que suponemos generada así:
Y
ij
= µ
i

ij
= µ +α
i

ij
(3.1)
ǫ
ij
∼ N(0, Σ) (3.2)
45
46 CAPÍTULO 3. ANÁLISIS DE VARIANZA MULTIVARIANTE
En (3.1), Y
ij
es el vector de valores que toma la v.a. multivariante estudiada para el
caso j-ésimo sujeto al tratamiento i-ésimo. De existir un efecto atribuible al nivel
i-ésimo del tratamiento, éste vendría recogido por el vector α
i
. Supondremos el
mismo número de casos estudiados con cada nivel del único tratamiento (es decir,
consideraremos sólo el caso de diseño equilibrado): hay k niveles y la muestra
incluye n casos tratados con cada nivel.
La hipótesis de interés más inmediato sería:
H
0
: µ
1
= µ
2
= . . . = µ
k
(⇔α
i
= 0 ∀i)
versus H
a
: µ
i
= µ
j
para algún i, j.
De un modo enteramente similar a como sucede en el caso ANOVA univariante, la
suma generalizada de cuadrados en torno a la media Y
..
se descompone así:
k
¸
i=1
n
¸
j=1
(Y
ij
− Y
..
)(Y
ij
−Y
..
)

=
k
¸
i=1
n
¸
j=1
(Y
ij
−Y
i.
+Y
i.
−Y
..
)(Y
ij
−Y
i.
+Y
i.
−Y
..
)

=
k
¸
i=1
n
¸
j=1
(Y
ij
−Y
i.
)(Y
ij
−Y
i.
)

. .. .
E
+n
k
¸
i=1
(Y
i.
−Y
..
)(Y
i.
−Y
..
)

. .. .
H
Ahora bien, la teoría anterior (en particular, el Teorema 1.3, p. 22), muestra que las
matrices aleatorias E y H en la expresión anterior tienen distribuciones respectivas,
E ∼ W(k(n −1), Σ) (3.3)
H
H
0

W(k −1, Σ). (3.4)
La distribución de E se sigue de los supuestos; la de H es correcta cuando la
hipótesis nula es cierta. Además, hay independencia entre ambas matrices Wishart,
en virtud del Teorema 1.3. En consecuencia, bajo la hipótesis nula,
Λ =
[E[
[E +H[
∼ Λ
p,k−1,k(n−1)
.
Si H
0
no se verifica, H “engordará”: será una Wishart no central. Son valores
pequeños del estadístico Λ anterior los que cabe interpretar como evidencia contra
la hipótesis nula.
3.3. Relación entre diversos contrastes
Observemos que si δ
1
, . . . , δ
p
son los valores propios de E
−1
H,
Λ =
[E[
[E +H[
=
p
¸
i=1

1
1 +δ
i

. (3.5)
3.4. MODELOS MANOVA CON DOS O MÁS TRATAMIENTOS 47
El estadístico de contraste es una particular función de los autovalores de E
−1
H.
No es la única elección posible: hay otras que mencionamos brevemente.
Estadístico máxima raíz de Roy.
θ =
δ
1
1 +δ
1
.
Estadístico de Pillai.
V =
p
¸
i=1
δ
i
1 +δ
i
.
Estadístico de Lawley–Hotelling.
U =
p
¸
i=1
δ
i
.
De todos ellos hay tabulaciones que permiten contrastar H
0
con comodidad. Su
comportamiento es diferente dependiendo del tipo de incumplimiento de la hipóte-
sis H
0
. Por ejemplo, el estadístico de Roy está particularmente indicado cuando los
vectores de medias µ
1
, . . . , µ
k
están aproximadamente alineados: esto hace crecer
el primer valor propio de H y de E
−1
H. En cambio, cuando los vectores de me-
dias son diferentes y no están alineados, los otros estadísticos proporcionarán en
general más potencia. Volveremos sobre esta cuestión en la Sección 4.3, p. 54.
3.4. Modelos MANOVA con dos o más tratamientos
De modo análogo a como sucede en el caso univariante, un modelo MANOVA
con dos tratamientos supone que la respuesta (multivariante) Y
ijk
(correspondiente
al k-ésimo caso, tratado con los niveles i y j de los tratamientos A y B respec-
tivamente) se genera alternativamente de una de las siguientes formas (sin y con
interacción, respectivamente):
Y
ijk
= µ +α
i

j

ijk
Y
ijk
= µ +α
i

j

ij

ijk
El análisis es entonces reminiscente del que se realiza en el caso univariante. Las
sumas de cuadrados del análisis univariante son ahora sumas de cuadrados gene-
ralizadas: matrices que, bajo los supuestos de normalidad multivariante y de vi-
gencia de las respectivas hipótesis de contraste, se distribuyen como Wishart. A
título puramente ilustrativo transcribimos en la Tabla 3.1 la partición de la suma
generalizada de cuadrados para un modelo con dos tratamientos e interacción.
48 CAPÍTULO 3. ANÁLISIS DE VARIANZA MULTIVARIANTE
Cuadro 3.1: Tabla de Análisis de Varianza para un modelo con dos tratamientos e
interacción
Fuente Suma cuadrados G.L.
A H
A
= KJ
¸
I
i=1
(Y
i..
−Y
...
)(Y
i..
−Y
...
)

I −1
B H
B
= KI
¸
J
j=1
(Y
.j.
−Y
...
)(Y
.j.
−Y
...
)

J −1
AB H
AB
= K
¸
I
i=1
¸
J
j=1
(Y
ij.
−Y
i..
−Y
.j.
+Y
...
)
(Y
ij.
−Y
i..
−Y
.j.
+Y
...
)

(I −1)(J −1)
Error E =
¸
I
i=1
¸
J
j=1
¸
K
k=1
(Y
ijk
−Y
ij.
)(Y
ijk
−Y
ij.
)

IJ(K −1)
Total T =
¸
I
i=1
¸
J
j=1
¸
K
k=1
(Y
ijk
−Y
...
)(Y
ijk
−Y
...
)

IJK −1
Podemos ahora construir contrastes para las hipótesis de nulidad de cada uno
de los efectos, empleando el estadístico Λ de Wilks, o cualquiera de los presentados
en la Sección 3.3. Si empleamos el primero tendríamos, por ejemplo, que bajo la
hipótesis H
A
: α
i
= 0 para i = 1, . . . , I,
Λ
A
=
[E[
[E +H
A
[
∼ Λ
p,I−1,IJ(K−1)
y valores suficientemente pequeños de Λ
A
conducirían al rechazo de la hipótesis.
Similares cocientes de sumas de cuadrados generalizadas permitirían contrastar
cada una de las restantes hipótesis de interés.
Salvo el contraste basado en el estadístico de Roy, los demás son bastante ro-
bustos a la no normalidad y a la heterogeneidad en las matrices de covarianzas de
los vectores de observaciones. Son bastante sensibles, en cambio, a la no indepen-
dencia de las observaciones. La robustez al incumplimiento de las hipótesis es en
general menor cuando aumenta la dimensión.
3.5. Extensiones y bibliografía
Cada modelo ANOVA univariante encuentra una generalización multivariante.
Métodos introducidos en el Capítulo 2 tienen también generalización al caso de
más de dos poblaciones, en el contexto de modelos MANOVA. Por ejemplo, el
modelo MANOVA con un único tratamiento puede verse como una generalización
del contraste en la Sección 2.1.3, p. 36. Del mismo modo otros.
Pueden consultarse sobre este tema Cuadras (1981), Cap. 20 y 21 y Rencher
(1995), Cap. 6.
CUESTIONES, COMPLEMENTOS Y COSAS PARA HACER
3.5. EXTENSIONES Y BIBLIOGRAFÍA 49
3.1 En S-PLUS, puede realizarse análisis de varianza multivariante
mediante la función manova. La sintaxis es muy similar a la de la función
lm, pero la respuesta debe ser una matriz, cuya filas son las observaciones.
Por ejemplo, podría invocar manova así:
solucion <- manova(resp ~ diseño,data=frame).
La función devuelve (en solución) un objeto de tipo maov, cuyas com-
ponentes pueden examinarse mediante
summary(solucion).
Los contrastes relacionados en la Sección 3.2 pueden obtenerse mediante la
opción test= de summary, que admite como valores “wilks lambda”,
“pillai”, “roy largest” y “hotelling-lawley”. Por ejem-
plo,
summary(solucion, test="pillai")
realizaría el contraste de Pillai.
50 CAPÍTULO 3. ANÁLISIS DE VARIANZA MULTIVARIANTE
Capítulo 4
Análisis de correlación canónica
4.1. Introducción.
Supongamos que tenemos un vector aleatorio X con (p+q) componentes, que
particionamos así: X

= (X
1

[X
2

). Sean,
Σ =

Σ
11
Σ
12
Σ
21
Σ
22

µ =

µ
1
µ
2

la matriz de covarianzas y el vector de medias particionados consecuentemente.
Desconocemos la matriz Σ, pero con ayuda de una muestra hemos obtenido su
estimador:
S =

S
11
S
12
S
21
S
22

Estamos interesados en contrastar la hipótesis H
0
: Σ
12
= 0 frente a la alter-
nativa H
a
: Σ
12
= 0; es decir, queremos saber si el primer grupo de p variables
(X
1
) está o no correlado con el segundo grupo de q variables X
2
. Podríamos en-
frentar este problema directamente, contrastando si Σ es o no diagonal por bloques
(para lo que hay teoría disponible). Seguiremos una aproximación diferente que,
entre otras cosas, hará emerger el concepto de variable canónica y el principio de
unión-intersección de Roy.
4.2. Variables canónicas y coeficientes de correlación ca-
nónica.
Consideremos variables auxiliares,
51
52 CAPÍTULO 4. ANÁLISIS DE CORRELACIÓN CANÓNICA
x = a

X
1
y = b

X
2
.
El coeficiente de correlación entre ambas es:
ρ
x,y
(a, b) =
a

Σ
12
b

a

Σ
11
a b

Σ
22
b
una estimación del cual es proporcionada por:
r
x,y
(a, b) =
a

S
12
b

a

S
11
ab

S
22
b
Si ambos vectores X
1
, X
2
fueran independientes, para cualesquiera vectores
a, b tendríamos que ρ
x,y
(a, b) = 0. De un modo intuitivo, parece pues evidente
que debieran ser valores cercanos a cero de r
2
x,y
(a, b) los que condujeran a la acep-
tación de la hipótesis de independencia, en tanto la región crítica estaría formada
por los valores r
2
x,y
(a, b) superando un cierto umbral (se emplea el cuadrado del
coeficiente de correlación para que tenga signo positivo en todo caso).
Obsérvese, sin embargo, que r
2
x,y
(a, b) depende de a y de b. El método de
unión-intersección de Roy maximiza primero r
2
x,y
(a, b) respecto de a, b y compara
el valor resultante con la distribución del máximo bajo la hipótesis nula. La idea es
sustancialmente la misma que cuando se contrastan muchas hipótesis simultáneas.
El problema de maximización de r
2
x,y
(a, b) está insuficientemente especifica-
do; multiplicando a, b, o ambos por una constante cualquiera, r
2
x,y
(a, b) no altera
su valor. Utilizaremos por ello restricciones de normalización:
a

S
11
a = 1 b

S
22
b = 1
Si formamos el lagrangiano,
Φ(a, b) = (a

S
12
b)
2
−λ(a

S
11
a −1) −µ(b

S
22
b −1),
derivamos, e igualamos las derivadas a cero, obtenemos:

∂Φ(a, b)
∂a


= 2(a

S
12
b)S
12
b −2λS
11
a = 0
p×1
(4.1)
∂Φ(a, b)
∂b
= 2(a

S
12
b)S
12

a −2µS
22
b = 0
q×1
. (4.2)
Reordenando las anteriores ecuaciones:
−λS
11
a + (a

S
12
b)S
12
b = 0 (4.3)
(a

S
12
b)S
21
a −µS
22
b = 0 (4.4)
4.2. VARIABLES Y COEFICIENTES CANÓNICOS 53
Premultiplicando (4.3)–(4.4) por a

y b

obtenemos: λ = µ = (a

S
12
b)
2
=
r
2
x,y
(a, b), valores que llevados a dichas ecuaciones proporcionan
−λS
11
a +λ
1
2
S
12
b = 0
µ
1
2
S
21
a −µS
22
b = 0
o sea,
−λ
1
2
S
11
a +S
12
b = 0 (4.5)
S
21
a −µ
1
2
S
22
b = 0 (4.6)
Para que este sistema tenga solución distinta de la trivial ha de verificarse

−λ
1
2
S
11
S
12
S
21
−µ
1
2
S
22

= 0, (4.7)
o sea, haciendo uso del Lema 1.3,
[ −µ
1
2
S
22
[[ −λ
1
2
S
11
+S
12
S
−1
22
S
21
µ

1
2
[ = 0 (4.8)
Como suponemos S
22
definida positiva, el primer factor es no nulo, por lo que de
(4.8) se deduce:
[ −λ
1
2
S
11
+S
12
S
−1
22
S
21
µ

1
2
[ = [S
11
[[S
12
S
−1
22
S
21
S
−1
11
−λI[ = 0. (4.9)
De nuevo suponiendo que S
11
es definida positiva, concluimos de (4.9) que
[S
12
S
−1
22
S
21
S
−1
11
−λI[ = 0, (4.10)
y por tanto las soluciones de λ son los valores propios de S
12
S
−1
22
S
21
S
−1
11
. Puesto
que λ es también r
2
x,y
(a, b), es claro que debemos tomar el mayor de los valores
propios para resolver nuestro problema de maximización.
El contraste deseado, por tanto, se reduce a comparar dicho λ máximo con su
distribución bajo la hipótesis nula. Esta distribución tiene interesantes propieda-
des: para nada depende de Σ
11
ni Σ
22
. Detalles teóricos pueden obtenerse de Giri
(1977), p. 301.
Una particularidad del contraste propuesto es que si efectuáramos transforma-
ciones lineales cualesquiera de las variables aleatorias en ambos subvectores, los
resultados no se alterarían
1
.
En efecto, si Y
1
= AX
1
e Y
2
= BX
2
siendo A y B matrices cualesquiera,
tenemos que la matriz cuyos valores propios hemos de computar es, en función de
las matrices de covarianzas muestrales de X
1
y X
2
,
AS
12
B

(B

)
−1
S
−1
22
B
−1
BS
21
A

(A

)
−1
S
−1
11
A
−1
= AS
12
S
−1
22
S
21
S
−1
11
A
−1
.(4.11)
1
Se dice que el contraste es invariante frente a transformaciones lineales no degeneradas. La
idea de invariancia es importante en Estadística; es uno de los procedimientos más habituales para
restringir la clase de contrastes merecedores de atención. Véase una discusión más completa en Cox
and Hinkley (1974), p. 41 y Kiefer (1983), Sec. 7.3.
54 CAPÍTULO 4. ANÁLISIS DE CORRELACIÓN CANÓNICA
Como los valores propios no nulos de CD y de DC son idénticos (supuesto que
ambos productos pueden realizarse), los valores propios de la última matriz en
(4.11) son idénticos a los de S
12
S
−1
22
S
21
S
−1
11
.
Calculado λ podemos regresar a (4.5)–(4.6) y obtener a y b. Las variables
x = a

X
1
e y = b

X
2
, combinaciones lineales de las originales con a y b corres-
pondientes al máximo λ, se denominan primeras variables canónicas; son las com-
binaciones lineales de variables en X
1
y en X
2
con máxima correlación muestral.
Los siguientes valores de λ solución de (6) proporcionan las segundas, terceras,
etc. variables canónicas. Hay s = m´ın(p, q) pares de variables canónicas, y conse-
cuentemente s coeficientes de correlación canónica. Se demuestra fácilmente que
las sucesivas variables canónicas son incorreladas entre sí.
4.3. Relación con otros contrastes
Diferentes modelos multivariantes pueden verse como casos particulares de
análisis de correlación canónica. Mencionamos brevemente la relación con MA-
NOVA de un tratamiento; el mismo argumento puede repetirse en conexión con
análisis discriminante (Capítulo 12).
Supongamos que el vector X
1
agrupa las variables regresandos, y que como
vector X
2
tomamos variables indicadoras, en número igual al de niveles del único
tratamiento. La muestra tendría la siguiente apariencia:

¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
X
11
X
12
. . . X
1p
1 0 . . . 0
X
21
X
22
. . . X
2p
1 0 . . . 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
X
n
1
,1
X
n
1
,2
. . . X
n
1
,p
1 0 . . . 0
X
n
1
+1,1
X
n
1
+1,2
. . . X
n
1
+1,p
0 1 . . . 0
X
n
1
+2,1
X
n
1
+2,2
. . . X
n
1
+2,p
0 1 . . . 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
X
N1
X
N2
. . . X
Np
0 0 . . . 1
¸

. (4.12)
Es decir, un 1 en posición j-ésima en X
2
señala que el caso correspondiente ha
recibido el tratamiento j-ésimo.
Es ahora intuitivo que, en el caso de que los diferentes niveles de tratamiento
no tengan ninguna influencia, no deberíamos esperar ninguna relación lineal entre
las variables en X
1
y las variables en X
2
; y en efecto este es el caso. Contrastar
la hipótesis de efecto nulo en MANOVA y de mayor correlación canónica nula es
algo equivalente.
En efecto, salvo en una constante, podríamos identificar las matrices Wishart
E y H empleadas en el modelo MANOVA de un tratamiento así:
E = S
11
−S
12
S
−1
22
S
21
H = S
12
S
−1
22
S
21
4.4. INTERPRETACIÓN. 55
En MANOVA buscábamos los autovalores definidos por la ecuación característica
[E
−1
H −δI[ = 0. Observemos que,
[E
−1
H −δI[ = 0 ⇔ [H −δE[ = 0 (4.13)
⇔ [S
12
S
−1
22
S
21
−δ(S
11
−S
12
S
−1
22
S
21
)[ = 0 (4.14)
⇔ [(1 +δ)S
12
S
−1
22
S
21
−δS
11
[ = 0 (4.15)
⇔ [S
12
S
−1
22
S
21

δ
1 +δ
S
11
[ = 0 (4.16)
⇔ [S
−1
11
S
12
S
−1
22
S
21

δ
1 +δ
I[ = 0. (4.17)
Los autovalores de la matriz E
−1
H están en relación biunívoca con las correlacio-
nes canónicas al cuadrado:
r
2
i
= λ
i
=
δ
i
1 +δ
i
δ
i
=
λ
i
1 −λ
i
.
Es equivalente contrastar la hipótesis de nulidad de ρ
2
1
(mayor correlación canónica
al cuadrado) o la de δ
1
(mayor autovalor de E
−1
H “anormalmente grande” bajo
H
0
: µ
1
= . . . = µ
K
).
Observación 4.1 Incidentalmente, la relación anterior entre los auto-
valores de una y otra matriz y (3.5), muestra que bajo la hipótesis “Todos los
coeficientes de correlación canónica son nulos”, el estadístico
J−1
¸
i
(1 −r
2
i
) =
J−1
¸
i=1
1
1 +δ
i
se distribuye como una Λ de Wilks.
4.4. Interpretación.
A menudo es difícil, pero cuando resulta posible suele ser iluminante. En oca-
siones, cualquier pareja formada por una variable en X
1
y otra en X
2
tiene débil
correlación, y hay sin embargo combinaciones lineales de variables en X
1
muy
correladas con combinaciones lineales de variables en X
2
. En este caso, el examen
de dichas combinaciones lineales puede arrojar luz sobre aspectos del problema
analizado que de otro modo pasarían desapercibidos.
El empleo de contrastes sobre el primer coeficiente de correlación canónica es
también el método adecuado cuando investigamos la existencia de correlación entre
características no directamente medibles. Por ejemplo. podríamos estar interesados
en la hipótesis de si existe relación entre ideología política de los individuos y su
nivel cultural. Ninguna de estas dos cosas es medible de manera unívoca, sino
56 CAPÍTULO 4. ANÁLISIS DE CORRELACIÓN CANÓNICA
que podemos imaginar múltiples indicadores de cada una de ellas: la ideología
política podría venir descrita para cada individuo por un vector X
1
de variables
conteniendo valoraciones sobre diferentes cuestiones. Análogamente sucedería con
el nivel cultural. El investigar pares de variables aisladas sería un procedimiento
claramente inadecuado; la utilización de contrastes sobre el primer coeficiente de
correlación canónica permite contrastar la hipótesis de interés de modo simple y
directo.
CUESTIONES, COMPLEMENTOS Y COSAS PARA HACER
4.1 En R puede realizarse análisis de correlación canónica con como-
didad utilizando la función cancor.
Capítulo 5
Componentes principales.
5.1. Introducción.
Es frecuente el caso en que se tiene un colectivo cada uno de cuyos integrantes
puede ser descrito por un vector X, de dimensión p. En tales casos, es también fre-
cuente que entre las diferentes componentes del vector X exista cierta correlación,
que, en el caso más extremo, haría que alguna de las variables X
i
fuera combina-
ción lineal exacta de otra u otras. En tales casos, surge de modo natural la pregunta
de si no sería más útil tomar un subconjunto de las variables originales —o quizá
un número reducido de variables compuestas, transformadas de las originales—
que describiera el colectivo sin gran pérdida de información.
Naturalmente, el problema así planteado es demasiado vago para admitir una
solución precisa. Porque, ¿qué significa “sin gran pérdida de información”? Y, ¿qué
nuevas variables, distintas de las primitivas, estamos dispuestos a considerar? Los
siguientes ejemplos tratan de ilustrar el problema a resolver y motivar la solución
que se ofrece en la Sección 5.2.
Ejemplo 5.1 Consideremos un colectivo de niños sobre cada uno de
los cuales se han medido las siguientes tres variables:
Variable Descripción
X
1
Nota obtenida en Matemáticas
X
2
Nota obtenida en idiomas
X
3
Nota obtenida en Ciencias Naturales
Podemos ver cada niño como descrito por un vector aleatorio X, procedente
de una distribución cuya matriz de covarianzas es R. Imaginemos también
57
58 CAPÍTULO 5. COMPONENTES PRINCIPALES.
que, calculada la matriz de correlación entre dichas tres variables (en la prác-
tica, dicha matriz de covarianzas sería normalmente estimada a partir de una
muestra de niños), obtenemos el resultado siguiente:
R =

¸
1,00 0,68 0,92
0,68 1,00 0,57
0,92 0,57 1,00
¸

. (5.1)
El examen de la anterior matriz de correlación sugiere lo siguiente: las
notas en Matemáticas (X
1
) y en Ciencias Naturales (X
3
) están estrechamen-
te correlacionadas. Si un niño tiene nota alta en Matemáticas, con bastante
seguridad podemos decir que su nota en Ciencias Naturales es también alta.
En cambio, la nota en Idioma Moderno muestra también correlación con las
otras dos, pero mucho mas baja (0.57 y 0.68 respectivamente).
En resumen, podríamos decir que, aunque descrito por tres variables,
cada niño podría sin gran pérdida de información ser descrito por dos: una
reflejando su aptitud/interés por las Matemáticas y Ciencias Naturales (quizá
la nota media en ambas disciplinas) y otra reflejando su aptitud/interés por el
Idioma Moderno.
Observemos el razonamiento implícito que hemos efectuado: dos varia-
bles (X
1
y X
3
) presentan elevada correlación, lo que sugiere que la informa-
ción que aportan es muy redundante. En efecto, conocido el valor que toma
una podríamos conocer con bastante aproximación el valor que toma la otra.
Ejemplo 5.2 La Tabla B.1 en el Apéndice B recoge los records ob-
tenidos por atletas de diferentes nacionalidades en varias especialidades. El
simple examen de los mismos, sugiere que quizá no son precisas todas las
variables para obtener una buena descripción del nivel del atletismo en los
diferentes países. Parece que hay países que destacan en todas las especiali-
dades, y otros que muestran bajo nivel también en todas. ¿Podemos asignar
una única “nota media” a cada país sin gran pérdida de información respecto
a la que aporta la totalidad de las variables? ¿Es, quizá, precisa más de una
nota? Si éste fuera el caso, ¿cómo decidir cuántas “notas”, y de qué mane-
ra obtenerlas? La Sección que sigue plantea el problema de modo formal, y
ofrece una posible solución al mismo.
5.2. Obtención de las componentes principales.
Podemos suponer X centrado
1
. Por simplicidad, limitaremos nuestra atención
a variables que puedan obtenerse como combinación lineal de las variables origina-
les. Si éstas formaban para cada elemento de la muestra el vector X de dimensión
1
Esto simplifica la notación, sin pérdida de generalidad: si X no fuera centrado, bastaría restarle
su vector de medias y resolver el problema resultante.
5.2. OBTENCIÓN DE LAS COMPONENTES PRINCIPALES. 59
p, consideraremos entonces (no más de p) variables de la forma:
U
1
= a
1

X
U
2
= a
2

X
.
.
. (5.2)
U
p
= a
p

X
El problema, pues, radica en la elección de los vectores de coeficientes a
1
, . . . , a
p
que permitan obtener U
1
, . . . , U
p
como combinaciones lineales de las variables
originales en X.
Puesto que la correlación entre variables implica redundancia en la información
que aportan, resulta sensato requerir de las nuevas variables U
1
, . . . , U
p
que sean
incorreladas. Por otra parte, tenemos interés en que las nuevas variables U
1
, . . . , U
p
tengan varianza lo más grande posible: en efecto, una variable que tomara valores
muy parecidos para todos los elementos de la población (es decir, que tuviera re-
ducida varianza) sería de escaso valor descriptivo
2
. Podríamos entonces enunciar
el problema que nos ocupa así:
Encontrar variables, U
1
, . . . , U
p
, combinación lineal de las primi-
tivas en X, que sean mutuamente incorreladas, teniendo cada U
i
va-
rianza máxima entre todas las posibles combinaciones lineales de X
incorreladas con U
1
, . . . , U
i−1
.
Las variables U
i
verificando las condiciones anteriores se denominan compo-
nentes principales.
Resolveremos el problema de su obtención secuencialmente; obtendremos pri-
mero el vector de coeficientes a
1
proporcionando la variable U
1
, combinación li-
neal de X, con máxima varianza. Obtendremos luego a
2
proporcionando U
2
de
varianza máxima bajo la restricción de que U
2
sea incorrelada con U
1
. A continua-
ción, obtendremos a
3
proporcionando U
3
bajo las restricciones de incorrelación
con U
1
y U
2
, y así sucesivamente.
Observemos, sin embargo, que si no acotamos el módulo de a
i
, el problema
carece de solución. En efecto, siempre podríamos incrementar la varianza de U
i
multiplicando por una constante mayor que uno el correspondiente vector de coe-
ficientes a
i
. Debemos por consiguiente establecer una restricción sobre los coefi-
cientes, que puede ser [[a
i
[[
2
= 1, para i = 1, . . . , p. Con esta restricción, debemos
en primer lugar solucionar el siguiente problema:
m´ax
a
1
E[U
2
1
] condicionado a a
1

a
1
= 1 (5.3)
Obsérvese que si, como hemos supuesto, E[X] = 0, entonces E[U
1
] = E[a
1

X] =
0 y Var(U
1
) = E[U
2
1
] = a
1

Ra
1
. Teniendo en cuenta esto y usando la técnica
2
Naturalmente, la varianza de las diferentes variables es función de las unidades de medida;
volveremos sobre esta cuestión algo más adelante.
60 CAPÍTULO 5. COMPONENTES PRINCIPALES.
habitual para resolver (5.3) mediante multiplicadores de Lagrange, tenemos que el
problema se reduce a:
m´ax
a
1
¸
a
1

Ra
1
−λ[a
1

a
1
−1]
¸
. (5.4)
Derivando respecto a a
1
e igualando la derivada a 0 obtenemos
2Ra
1
−2λa
1
= 0, (5.5)
lo que muestra que a
1
es un vector propio de R, cuyo valor propio asociado es λ.
Como estamos buscando la variable U
1
de máxima varianza, y
Var(U
1
) = a
1

Ra
1
= λa
1

a
1
= λ, (5.6)
debemos tomar como a
1
el vector propio de R asociado a λ
1
, el mayor de los
valores propios de R.
La obtención de a
2
es similar. Debemos maximizar ahora Var(U
2
) sujeto a dos
restricciones: la de normalización [[a
2
[[
2
= 1 y la de incorrelación con U
1
. Como
Cov(U
1
, U
2
) = E

a
1

Xa
2

X

= E[a
1

XX

a
2
] = a
1

Ra
2
, (5.7)
el problema a resolver ahora es
m´ax
a
2
¸
a
2

Ra
2
−λ(a
2

a
2
−1) −µ(a
2

Ra
1
)
¸
, (5.8)
que tomando derivadas respecto a a
2
, λ y µ proporciona:
2Ra
2
−2λa
2
−µRa
1
= 0 (5.9)
a
2

a
2
= 1 (5.10)
a
2

Ra
1
= 0. (5.11)
Premultiplicando (5.9) por a
1

y teniendo en cuenta (5.11) obtenemos que µ = 0
y por tanto (5.9) es equivalente a
2Ra
2
−2λa
2
= 0, (5.12)
lo que de nuevo muestra que a
2
es un vector propio de R. Un razonamiento simi-
lar al efectuado en el caso de a
1
muestra que a
2
es el vector propio asociado al
segundo mayor valor propio de de R, λ
2
, y que Var(U
2
) = λ
2
.
La obtención de las restantes variables U
3
, . . . , U
p
se efectúa de manera similar,
con el resultado de que cada una de ellas es una combinación lineal de variables en
X con vector de coeficientes a
i
que es vector propio de R.
5.3. PROPIEDADES DE LAS COMPONENTES PRINCIPALES. 61
5.3. Propiedades de las componentes principales.
Dado que los vectores de coeficientes a
i
son vectores propios de R, si defini-
mos A = (a
1
.
.
.a
2
.
.
. . . .
.
.
.a
p
) y U

= (U
1
, U
2
, . . . , U
p
) tenemos:
U = A

X (5.13)
E

UU

= A

RA = Λ (5.14)
siendo Λ una matriz diagonal con los valores propios de Ren la diagonal principal.
La ecuación (5.14) muestra la incorrelación entre las componentes principales, así
como el hecho, ya apuntado, de ser sus respectivas varianzas iguales a los valores
propios de R. Como A es ortogonal, pre- y postmultiplicando (5.14) por A y A

obtenemos:
R = AΛA

=
p
¸
i=1
λ
i
a
i
a
i

(5.15)
La ecuación (5.15) muestra R como una suma de matrices de rango uno.
Observación 5.1 De acuerdo con el teorema de Eckart-Young, la me-
jor aproximación R

de rango k de R, en el sentido de minimizar traza((R

−R)(R

−R)

)
es
¸
k
i=1
λ
i
a
i
a
i

.
Las ecuaciones (5.14)–(5.15) muestran también que traza(R) = traza(Λ) =
¸
λ
i
, dado que:
p = traza(R) = traza(AΛA

) = traza(ΛA

A) = traza(Λ) =
p
¸
i=1
λ
i
.
En consecuencia, incluso sin calcular todos los valores propios, puede calcularse
con facilidad la fracción que representan sobre el total de traza. Esto es de interés
porque algunos de los métodos numéricos para cálculo de valores propios los ob-
tienen por orden de magnitud; se puede entonces detener el proceso de obtención
cuando
¸
λ
i
representa una fracción “suficiente"sobre el total de la traza.
Ejemplo 5.3 La matriz de correlación estimada R de los datos en el
Apéndice B, Tabla B.1, es:
m100 m200 m400 m800 m1500 Km5 Km10 Maratón
m100 1.000 0.922 0.841 0.756 0.700 0.619 0.632 0.519
m200 0.922 1.000 0.850 0.806 0.774 0.695 0.696 0.596
m400 0.841 0.850 1.000 0.870 0.835 0.778 0.787 0.704
m800 0.756 0.806 0.870 1.000 0.918 0.863 0.869 0.806
m1500 0.700 0.774 0.835 0.918 1.000 0.928 0.934 0.865
Km 5 0.619 0.695 0.778 0.863 0.928 1.000 0.974 0.932
Km10 0.632 0.696 0.787 0.869 0.934 0.974 1.000 0.943
Maratón 0.519 0.596 0.704 0.806 0.865 0.932 0.943 1.000
62 CAPÍTULO 5. COMPONENTES PRINCIPALES.
Cuadro 5.1: Valores propios de R
i λ
i
% s/traza
¸
i
λ
i
% (4) s/traza
(1) (2) (3) (4) (5)
1 6.622 82.77 6.622 82.77
2 0.877 10.96 7.499 93.73
3 0.159 1.99 7.658 95.72
4 0.124 1.55 7.782 97.27
5 0.080 1.00 7.862 98.27
6 0.068 0.85 7.930 99.12
7 0.046 0.58 7.976 99.70
8 0.023 0.29 7.999 99.99
Puede verse la acusada correlación existente entre casi todas las varia-
bles, siendo la más baja 0.519 (entre las marcas de 100 metros y la de Mara-
tón). Ala vista de dicha matriz de correlación, cabría imaginar que un número
reducido de componentes principales bastaría para describir adecuadamente
el colectivo.
Al diagonalizar la matriz de correlación se obtienen los valores propios
en la Tabla 5.1. La primera componente principal es la combinación lineal de
variables originales tipificadas con coeficientes dados por el vector propio
a
1
=

¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
0,317
0,337
0,355
0,368
0,373
0,364
0,366
0,342
¸

es decir:
U
1
= 0,317X
1
+ 0,337X
2
+. . . + 0,342X
8
Nótese que si los vectores propios lo son de la matriz de correlación, las
variables cuya combinación lineal da las U
i
son las de X tipificadas; si los
vectores propios lo son de la matriz de covarianzas, las variables a emplear
son las originales (centradas, si se quiere que E[U
i
] = 0). Los vectores pro-
pios a
i
de la matriz de covarianzas y la matriz de correlación no están rela-
cionados de ninguna manera obvia. En la Tabla 5.1 puede verse que, salvo
los dos primeros, los valores propios son muy reducidos; parece adecuado
describir datos como los exhibidos mediante dos componentes principales.
La elección del número de componentes principales a emplear es en prin-
cipio subjetiva; una regla frecuentemente seguida (cuando las variables han
sido tipificadas) es tomar tantas componentes principales como valores pro-
5.4. INTERPRETACIÓN GEOMÉTRICA. 63
Figura 5.1: U
i
es proyección de X sobre a
i
a
1 U
1
X
pios mayores que la unidad haya, pero esto no es nada absoluto ni que deba
realizarse ciegamente.
5.4. Interpretación geométrica.
Si examinamos la ecuación (5.13) podemos interpretar fácilmente los valores
que toman las componentes principales U
1
, . . . , U
p
como las coordenadas en un
cierto sistema de ejes.
De (5.13) se deduce que:
U
i
= a
i

X (5.16)
U
i
= [a
i
[[X[ cos(α) = [X[ cos(α), (5.17)
en que α es el ángulo formado por el vector X y el vector a
i
; recuérdese que
éste último tiene módulo unitario. En consecuencia, U
i
es la coordenada del pun-
to X cuando se representa en un sistema de ejes coordenados en las direcciones
(ortogonales) dadas por los vectores a
1
, . . . , a
p
. La Figura 5.1 ilustra esto.
En general, tal como sugiere la Observación 5.1, las primeras k componentes
principales proporcionan la mejor representación k-dimensional de los datos, en el
sentido de: i) Dar cuenta del máximo de traza de la matriz de covarianza (o corre-
lación), y ii) Permitir reconstruir aproximaciones de las variables originales que
yacen en un subespacio k-dimensional del original con la matriz de covarianzas
(o correlación) que mejor aproxima la original, en el sentido que dicha Observa-
ción 5.1 especifica.
Por ello, una etapa rutinaria en el análisis de datos multivariantes consiste de
ordinario en obtener una representación en pocas dimensiones de los datos. Si con
dos o tres componentes principales se obtiene una representación fiel, puede hacer-
se una gráfica bi- o tridimensional cuya mera observación será instructiva. Cosas
como agrupamientos suelen ser fáciles de detectar.
A veces, una determinada componente principal puede ser interpretada. En el
caso del Ejemplo 5.3, la primera componente principal podría interpretarse como
64 CAPÍTULO 5. COMPONENTES PRINCIPALES.
un índice de la calidad atlética de los respectivos países. Si observamos el segundo
vector propio,
a
2
=

¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
−0,566
−0,461
−0,248
−0,012
+0,139
+0,312
+0,306
+0,438
¸

podemos ver que pondera con signo negativo las cuatro primeras variables, y con
signo positivo las cuatro últimas. La variable U
2
tomará valores grandes para aque-
llos países en que los tiempos en las pruebas de fondo estén por debajo de la media,
y los tiempos en las pruebas de velocidad por encima; es una variable que comple-
menta la información proporcionada por U
1
, separando los diversos países según
sus respectivas especializaciones en fondo o velocidad.
Ejemplo 5.4 La Figura 5.2 muestra un tal mapa, referido a los datos
presentados en el Ejemplo 5.3. Puede verse a algunos países muy separados
de la principal concentración, en la esquina inferior. La primera componen-
te principal puede interpretarse como midiendo la “calidad general” atlética
de cada país (correspondiendo el lado izquierdo a países “mejores”). La se-
gunda componente principal (vertical) separa países con predominio relativo
en distancias cortas (que se sitúan hacia la parte superior del gráfico) y con
predominio relativo en distancias largas (que se sitúan hacia la parte inferior).
La interpretación de las componentes generales se facilita en ocasiones, como
en el caso anterior, atendiendo a los valores que toman los coeficientes a
ij
. Algunos
autores prefieren utilizar como ayuda en la interpretación las correlaciones o cova-
rianzas entre las variables originales y las componentes principales. El argumento
es en tales casos que los coeficientes a
ij
tienen gran varianza. La cuestión está
sujeta a controversia: véase por ejemplo el criterio contrario de Rencher (1998),
p. 361.
5.5. Comentarios adicionales
Es importante reparar en los siguientes aspectos:
1. El empleo de componentes principales no presupone ningún modelo sub-
yacente. Es sólo una técnica, fundamentalmente de naturaleza descriptiva,
que obtiene una representación de menor dimensionalidad de un conjunto de
puntos en R
p
.
2. El método selecciona un subespacio de R
p
, cuyos ejes vienen dados por
las direcciones de a
1
, a
2
, . . . , a
k
, (k < p). Los ejes son ortogonales y en
5.5. COMENTARIOS ADICIONALES 65
Figura 5.2: Records representados en el plano generado por U
1
y U
2























































u1
u
2
-4 -2 0 2 4 6 8 10
-
1
0
1
2
Argentina
Australia
Austria
Belgica
Bermuda
Brazil
Birmania
Canada
Chile
China
Colombia
Cook_Islas
Costa
Checoslova
Dinamarca
Rep_Domini
Finlandia
Francia
RDA
RFA
Gbni
Grecia
Guatemala
Hungria
India
Indonesia
Irlanda
Israel
Italia
Japon
Kenya
Korea
RD_Korea
Luxemburgo
Malasia
Mauricio
Mexico
Holanda
Nueva_Zelan
Noruega
Png
Filipinas
Polonia
Portugal
Rumania
Singapur
Espana
Suecia
Suiza
Taiwan
Tailandia
Turquia
USA
USSR
Samoa
66 CAPÍTULO 5. COMPONENTES PRINCIPALES.
las direcciones de mayor dispersión de los datos. Pero no hay nada que nos
fuerce a considerar dichos ejes; lo realmente relevante es la reducción de
la dimensionalidad y la fijación de un subespacio adecuado. La base que
tomemos del mismo puede escogerse con cualquier criterio conveniente —
no tiene por qué estar formada por a
1
, a
2
, . . . , a
k
—.
3. El método se puede emplear tanto con las variables en las escalas originales
como con variables tipificadas. Los resultados, en general, son completa-
mente diferentes.
4. Los signos de los a
i
son irrelevantes. En efecto, si a
i
es vector propio, −a
i
también lo es.
En el Capítulo que sigue se introduce el modelo factorial. Por una parte, se hace
uso de un modelo explícito, que realiza supuestos acerca del modo de generación
de las observaciones. Por otro, en relación a la segunda cuestión mencionada en el
apartado anterior, veremos que existen modos alternativos de escoger la base del
subespacio de interés, y que ello permite mejorar la interpretabilidad del análisis.
Capítulo 6
Análisis Factorial.
6.1. Introducción.
El Análisis Factorial es un conjunto de técnicas que persiguen identificar fac-
tores ocultos. Suponemos que una cierta variable aleatoria multivariante de la que
poseemos una muestra se genera así:
X = AF +L+m (6.1)
En (6.1), F (vector de factores comunes) y L (vector de factores específicos) son
vectores aleatorios, y A es una matríz de constantes. Supondremos en lo que sigue
que X ha sido centrado, con lo que prescindiremos del vector de medias m. Los
respectivos vectores y matrices verifican:
X = vector p 1
A = matriz p k
F = vector k 1
L = vector p 1
67
68 CAPÍTULO 6. ANÁLISIS FACTORIAL.
Se realizan además los siguientes supuestos:
E[F] = 0
(k×1)
(6.2)
E [L] = 0
(p×1)
(6.3)
E

FL

= 0
(k×p)
(6.4)
E

FF

= I
(k×k)
(6.5)
D = E

LL

=

¸
¸
¸
¸
d
1
0 . . . 0
0 d
2
. . . 0
.
.
.
.
.
.
.
.
.
0 0 . . . d
p
¸

(6.6)
En (6.1), los factores comunes F influyen en X a traves de los coeficientes en
la matriz A; cada uno de los factores específicos en L sólo influye en la variable
homóloga. Un modelo como (6.1) parece indicado cuando se investigan fenómenos
en que un número grande de variables son concebiblemente causadas por unos
pocos factores comunes.
Observación 6.1 Históricamente, la investigación psicométrica pro-
porcionó la motivación inicial para el desarrollo de este tipo de modelos; un
vector de items procedente de un test sicológico se intentaba poner en corres-
pondencia mediante (6.1) con un número reducido de facetas (inobservables)
que supuestamente describen la personalidad.
El problema del Análisis Factorial consiste en estimar A y D. Obsérvese cierta
semejanza con el modelo de regresión lineal, pero con la salvedad de que la va-
riable respuesta es multivariante (cada observación es un X), los “regresores” F
son inobservables, e incluso su número nos es desconocido. Pese a todo ello, las
restricciones permiten en general obtener una solución —si bien, como veremos,
no única—.
6.2. La igualdad fundamental
De las definiciones se deduce inmediatamente,
Teorema 6.1
Σ = E[(X −m)(X −m)

] = AA

+D (6.7)
DEMOSTRACION: En efecto,
Σ = E[(X −m)(X −m)

] (6.8)
= E(AF +L)(AF +L)

] (6.9)
= E[AFF

A

+AFL

+LF

A

+LL

] (6.10)
= AA

+D (6.11)
6.2. ANÁLISIS FACTORIAL Y PARSIMONIA 69
La igualdad (6.7), en particular, implica que
σ
ii
=
k
¸
j=1
a
2
ij
+d
i
(i = 1, . . . , p)
σ
ij
=
k
¸
l=1
a
il
a
jl
(i = j; i, j = 1, . . . , p)
Se llama comunalidad y se denota por h
2
i
a aquélla parte de la varianza de la
variable X
i
de que dan cuenta los factores comunes, es decir, h
2
i
=
¸
k
j=1
a
2
ij
.
6.3. Análisis Factorial y el objetivo de la parsimonia
Un modelo es una representación estilizada de la realidad, que pretende captar
sus rasgos de la manera más simple posible.
Observación 6.2 Esto sería una definición si supiéramos qué es la
“realidad”, qué significa “captar sus rasgos” y qué significa “de la mane-
ra más simple posible”. Es de temer que no sabemos demasiado bien qué
es ninguna de estas cosas, y por tanto la frase anterior sea una tautología o
una idiotez. El buscar modelos simples es una regla de economía intelectual,
y probablemente no tenga más defensa que la constatación de su enorme
eficacia, acreditada desde Guillermo de Ockham hacia acá. Por lo demás,
admitiendo una realidad, ¿por qué habría de ser simple y no complicada?
En el contexto en que nos movemos, tomaremos “más simple” por sinónimo
de “con el mínimo número de parámetros”. Observemos entonces que Σ en el lado
izquierdo de (6.7) incluye
1
2
p(p + 1) parámetros diferentes, mientras que, si selec-
cionamos k como número de factores, el lado derecho requiere pk +p −
1
2
k(k −1
parámetros (pk en la matriz A y otros p adicionales en la diagonal de D, deducien-
do
1
2
k(k −1) porque, como veremos, la solución factorial que obtengamos deja A
indeterminada en ese número de parámetros; véase Cuadras (1981), p. 114, y la
Observación 6.3, pág. 72.)
Si k puede hacerse considerablemente menor que p (es decir, si podemos es-
pecificar nuestro modelo con muchos menos factores comunes que variables), ha-
bremos logrado una reducción considerable en el número de parámetros necesa-
rios, y en este sentido nuestro modelo será más “simple”. Llamamos parsimo-
nia a esta simplicidad. A título ilustrativo, se recogen los valores de
1
2
p(p + 1)
y pk +p −
1
2
k(k −1 para diferentes p y k, y la correspondiente ganancia en parsi-
monía medida en número de parámetros. Los valores de p y k no son inusuales en
problemas como los que se presentan en la práctica.
70 CAPÍTULO 6. ANÁLISIS FACTORIAL.
Parámetros Parámetros Ganancia
p k Σ AA

+D en parsimonia
10 3 55 37 18
20 2 210 59 151
20 4 210 94 116
30 3 465 104 349
A la luz de todo lo anterior, podríamos formular el problema a resolver en análisis
factorial así:
“Encontrar matrices A y D verificando (6.7) para una matriz Σ
dada, con A teniendo el mínimo número de columnas.”
Evidentemente, en la práctica no conocemos Σ y habremos de trabajar con una
estimación de la misma. Además, aún cuando el modelo fuera “correcto” (es decir,
los datos se generasen realmente tal como especifica (6.1)), la igualdad (6.7) se
verificará a lo sumo de modo aproximado. Nuestro objetivo en la práctica será
pues obtener una buena reconstrucción de una matriz de covarianzas estimada a
partir del producto AA

más una matriz diagonal D.
Ejemplo 6.1 Este ejemplo procede de Mardia et al. (1979), quienes a
su vez lo toman de un trabajo de Spearman de 1904. Es un caso sumamente
simple, pero que ilustra los conceptos anteriores.
Se parte de una matriz de correlación
1
, conteniendo las correlaciones
entre calificaciones de tres asignaturas (Lenguas Clásicas, Francés e Inglés),
estimadas en una muestra de niños. La matriz resulta ser,
S =

¸
1,00 0,83 0,78
1,00 0,67
1,00
¸

(6.12)
Spearman ajustó un modelo con un sólo factor, es decir,

¸
X
1
X
2
X
3
¸

=

¸
a
11
a
21
a
31
¸

F
1
+

¸
L
1
L
2
L
3
¸

(6.13)
que implica:
Σ =

¸
a
11
a
21
a
31
¸

a
11
a
21
a
31

+

¸
d
1
0 0
0 d
2
0
0 0 d
3
¸

(6.14)
de acuerdo con el teorema de Thurstone, (6.7). Sustituyendo Σ en (6.14) por
su estimación S tenemos la igualdad matricial

¸
1,00 0,83 0,78
1,00 0,67
1,00
¸

=

¸
ˆ a
11
ˆ a
21
ˆ a
31
¸

ˆ a
11
ˆ a
21
ˆ a
31

+

¸
ˆ
d
1
0 0
0
ˆ
d
2
0
0 0
ˆ
d
3
¸

1
Sobre el uso de la matriz de covarianzas o correlaciones como punto de partida, valen las obser-
vaciones hechas para componentes principales en el Capítulo 5.
6.3. INDETERMINACIÓN Y ROTACIONES 71
de la que obtenemos las ecuaciones:
1 = ˆ a
2
11
+
ˆ
d
1
(6.15)
1 = ˆ a
2
21
+
ˆ
d
2
(6.16)
1 = ˆ a
2
31
+
ˆ
d
3
(6.17)
0,83 = ˆ a
11
ˆ a
21
(6.18)
0,78 = ˆ a
11
ˆ a
31
(6.19)
0,67 = ˆ a
21
ˆ a
31
. (6.20)
Tenemos pues seis ecuaciones con seis incógnitas que permiten encontrar una
solución “exacta” a partir de la igualdad fundamental (6.7). Tras resolver, el
modelo estimado es

¸
X
1
X
2
X
3
¸

=

¸
0,983
0,844
0,793
¸

F
1
+

¸
L
1
L
2
L
3
¸

, (6.21)
y las comunalidades son
h
2
1
= 0,966
h
2
2
= 0,712
h
2
3
= 0,629.
Por tanto, el modelo con un único factor da cuenta muy bien de la primera
calificación (Lenguas Clásicas), y algo peor de las dos restantes.
6.4. Indeterminación de las soluciones factoriales. Rota-
ciones
Con el problema planteado como en la Sección anterior, es ahora evidente que
la solución no es única. En efecto, si
Σ = E[(X −m)(X −m)

] = AA

+D,
y G es una matriz ortogonal (k k), también será cierto que
Σ = E[(X −m)(X −m)

] = AGG

A

+D = BB

+D. (6.22)
Por tanto, B será una solución tan válida como A. Obsérvese además de (6.1) se
deduce
X = AGG

F +L+m (6.23)
= BF
G
+L+m (6.24)
con F
G
= G

F que continúa verificando todas las condiciones impuestas a los
factores comunes (6.2)–(6.6), como es fácil comprobar.
72 CAPÍTULO 6. ANÁLISIS FACTORIAL.
Esto tiene enorme trascendencia. Estando las soluciones factoriales indetermi-
nadas hasta el producto por una matriz ortogonal (geométricamente, una rotación,
reflexión, o combinación de ambas), somos libres de tomar la solución que más
nos convenga. De ordinario, esto permite escoger soluciones con la estructura de
A que nos parece más interpretable.
Observación 6.3 Podemos ahora volver al asunto brevemente tocado
en la Sección 6.3, acerca del número de grados de libertad consumidos (o
parámetros estimados) al encontrar una solución factorial. Si A cuenta con
pk parámetros pero está indeterminada, es claro que no hemos consumido de
modo efectivo pk grados de libertad, sino menos.
Si reparamos en que las columnas de A deben generar un cierto sub-
espacio de dimensión k, tendremos un modo fácil de persuadirnos de que
una solución factorial supone estimar pk−
1
2
k(k −1) parámetros. En efecto,
cualquier subespacio de dimensión k de R
p
puede generarse mediante una
base “escalonada”, formada por las columnas de una matriz como

¸
¸
¸
¸
¸
¸
¸
¸
a
11
0 0 . . . 0
a
21
a
22
0 . . . 0
a
31
a
32
a
33
. . . 0
.
.
.
.
.
.
.
.
.
.
.
.
a
p−1,1
a
p−1,2
a
p−1,3
. . . 0
a
p1
a
p2
a
p3
. . . a
pk
¸

; (6.25)
y especificar tal matriz requiere precisamente pk −
1
2
k(k −1) parámetros.
Alternativamente, si A está indeterminada hasta el producto por una matriz
ortogonal, conservará tantos grados de libertad como existan para fijar una
matriz ortogonal k k. Hay
1
2
k(k −1) elementos libres en una tal matriz.
La primera columna sólo está constreñida a tener módulo unitario (k − 1
elementos son por tanto libres); la segunda, está además constreñida a ser
ortogonal a la primera (k−2 elementos libres por tanto); la tercera y sucesivas
tienen cada una una restricción adicional. El número total de elementos libres
es por tanto (k −1) + (k −2) +. . . + 1 =
1
2
k(k −1).
Si tenemos cierta margen de maniobra al escoger una solución factorial, desea-
remos hacerlo de modo que la interpretación resulte favorecida. Idealmente, para
poder rotular un factor desearíamos que su influencia alcanzara a algunas de las
variables de modo notable, y al resto en absoluto. Por ejemplo, si tuviéramos una
matriz A como,

¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
1 0 0 0
1 0 0 0
1 0 0 0
0 1 0 0
0 1 0 0
0 0 1 0
0 0 1 0
0 0 0 1
0 0 0 1
¸

(6.26)
6.4. INDETERMINACIÓN Y ROTACIONES 73
recordando que
X = AF +L (6.27)
razonaríamos así: “El factor F
1
es algo que está relacionado con las variables X
1
,
X
2
y X
3
. Los factores F
2
, F
3
y F
4
influyen cada uno en las variables X
4
y X
5
, X
6
y X
7
y en X
8
y X
9
, respectivamente”. El conocimiento de las variables ayudaría
así a dotar de interpretación a los factores F
1
a F
4
: F
1
, por ejemplo, podríamos
imaginarlo como lo que quiera que las variables X
1
a X
3
tuvieran en común. Y
similarmente con los otros.
Naturalmente, una estructura de ceros y unos, como la del ejemplo anterior, no
será muchas veces factible: pero, en la medida de lo posible, desearíamos tender a
ella.
Una forma de lograrlo es determinar Gde manera que A
G
= AGtenga mucho
“contraste”. Hay varias formas de formalizar esta idea intuitiva hasta convertirla
en un problema con solución matemática. En lo que sigue, mencionaremos dos de
las propuestas más utilizadas, que ilustran bien el modo de abordar el problema.
Más detalles pueden encontrarse en Harman (1960), Cuadras (1981), Basilevsky
(1992), o cualquier texto sobre análisis factorial o multivariante. Carroll (1953) y
Kaiser (1958) son dos de las referencias pioneras. La idea de la rotación quartimax
es escoger la matriz A
G
= AG para la que es máxima la “varianza” por filas de
los cuadrados de los elementos a
ij
. La toma del cuadrado obedece a que estamos
interesados en lograr términos “grandes” y “pequeños”: no nos importa el signo.
Maximizamos por ello
1
k
2
p
¸
i=1

k
k
¸
j=1
(a
2
ij
)
2

¸
k
¸
j=1
a
2
ij
¸

2
¸
¸
. (6.28)
Esta propuesta logra contraste entre unos términos y otros: pero nada en la forma
de la expresion a maximizar impide que los a
ij
“grandes” se agrupen en la primera
columna de la matriz A
G
. Ello da lugar a una solución con un factor “general”, que
parece influir en todas las variables: puede o no ser deseable o fácil de interpretar.
Habitualmente preferimos que cada factor de cuenta del comportamiento de
un grupo de variables originales, con las que poder relacionarle. Si es el caso, la
rotación varimax puede ser más atractiva. Buscamos en ella maximizar
1
p
2
k
¸
j=1

p
p
¸
i=1
(a
2
ij
)
2

p
¸
i=1
a
2
ij

2
¸
¸
, (6.29)
es decir, la “varianza” de los a
2
ij
por columnas. Ello forzará a que en cada columna
haya elementos muy grandes y muy pequeños.
Hay algunos detalles adicionales que pueden consultarse en Kaiser (1958); por
ejemplo, en lugar de maximizar las expresiones (6.28) o (6.29) tal cual, frecuente-
mente se normalizan los elementos de cada fila dividiendo entre la comunalidad:
se intenta con ello evitar que las filas de A con elevada comunalidad dominen las
expresiones citadas.
74 CAPÍTULO 6. ANÁLISIS FACTORIAL.
6.5. Estimación del modelo
Hemos de hacer frente a dos problemas: determinar el número de factores de-
seado, y obtener una estimación (inicial, indeterminada) de A. Estimada A, las
especificidades y comunalidades quedan también estimadas. Describiremos sóla-
mente dos de los métodos más utilizados.
6.5.1. Método del factor principal
Obsérvese que, si conociéramos las comunalidades (o, equivalentemente, la
matriz de especificidades, D), de la igualdad fundamental (6.7) se deduciría que la
matriz de covarianzas (o correlación) muestral ha de verificar aproximadamente
S −D ≈
ˆ
A
ˆ
A

; (6.30)
ello sugiere emplear alguna estimación de D para computar S

= S −
ˆ
D, A con-
tinuación, podemos factorizar esta S

como producto de dos matrices de rango k.
Si S

tiene sus k mayores valores propios positivos, ello no ofrecerá problema:
podemos emplear la aproximación
S


ˆ
A
ˆ
A

, (6.31)
en que
ˆ
A =
¸
k
i=1

λ
i
v
i
, siendo los λ
i
y v
i
los valores y vectores propios de S

.
No es preciso que nos detengamos en la estimación de
ˆ
A recién obtenida, sino
que podríamos ahora emplearla para obtener una estimación mejor, quizá, de las
comunalidades,
D
(2)
= diag(S −
ˆ
A
ˆ
A

), (6.32)
una estimación actualizada de S

,
S

(2)
= (S −D
(2)
), (6.33)
y consiguientemente una nueva estimación de A por factorización de S

(2)
:
S

(2)

ˆ
A
(2)
ˆ
A
(2)

. (6.34)
Con la nueva estimación
ˆ
A
(2)
de A podríamos reiniciar el proceso e iterar hasta
convergencia, si se produce (nada garantiza que se produzca, aunque habitualmente
se obtiene convergencia cuando k es suficientemente grande).
6.5.2. Método de máxima verosimilitud
Podemos también estimar los parámetros del modelo (6.1) por máxima verosi-
militud, si conocemos la distribución de X (en la práctica, ello equivale a suponer
normalidad multivariante).
Capítulo 7
Biplots
Estudiaremos en lo que sigue dos técnicas para la representación simultánea de
observaciones y variables. La primera —el biplot— es un gráfico en el que se re-
presentan las observaciones en posiciones dadas por sus dos primeras componentes
principales. Sobre el mismo plano se superponen p puntos representando las varia-
bles —las columnas de la matriz de datos X en posiciones que hacen interpretables
las relaciones entre ellas y las observaciones.
La segunda técnica —el análisis de correspondencias— produce de modo si-
milar una representación simultánea de observaciones y variables, y es de aplica-
ción a tablas de contingencia.
A ambas técnicas subyace la descomposición en valores singulares de una ma-
triz rectangular, que se presenta a continuación.
7.1. Descomposición en valores singulares.
Sea X una matriz Np cualquiera. Mostraremos que puede siempre escribirse
como producto de una matriz de columnas ortogonales N p, una matriz diagonal
p p con elementos no negativos en la diagonal principal y una matriz ortogonal
p p. La exposición sigue a Lebart (1997).
Tanto X

X como X X

son matrices cuadradas simétricas, y por tanto dia-
gonalizables. Para j = 1, . . . , p hay vectores propios a
i
de X

X (y b
j
de X X

)
asociados a valores propios en general no nulos λ
i
(para los a
i
) y ν
j
(para los b
j
).
X

Xa
j
= λ
j
a
j
(7.1)
X X

b
j
= ν
j
b
j
. (7.2)
75
76 CAPÍTULO 7. BIPLOTS
La matriz X X

posee además N − p valores propios nulos y correspondien-
tes vectores propios asociados. Los vectores propios a
j
y b
j
están relacionados.
En efecto multiplicando las igualdades anteriores por X y X

respectivamente,
obtenemos:
X X

(Xa
j
) = λ
j
(Xa
j
) (7.3)
X

X

X

b
j

= ν
j

X

b
j

. (7.4)
Ello muestra que Xa
j
es vector propio de X X

y X

b
j
es vector propio de
X

X.
Es además fácil ver que los valores propios no nulos son idénticos. Suponga-
mos que λ
1
es el mayor valor propio de X

X y ν
1
el mayor valor propio de X X

.
Como Xa
1
es vector propio de X X

con valor propio asociado λ
1
, se sigue que
ν
1
= m´ax
j
ν
j
≥ λ
1
. Análogamente, si b
1
es el vector propio de X X

asociado al
mayor valor propio ν
1
, entonces X

b
1
es vector propio de X

X con valor propio
asociado ν
1
, y por tanto ν
1
≤ λ
1
. De ambas desigualdades se deduce ν
1
= λ
1
, y el
argumento puede reiterarse para los valores propios sucesivos.
En definitiva,
a
j
∝ X

b
j
(7.5)
b
j
∝ Xa
j
, (7.6)
par j = 1, . . . , p. Además, las relaciones de proporcionalidad anteriores pueden
convertirse en igualdades si tenemos en cuenta que
|X

b
j
|
2
= b
j

X X

b
j
= ν
j
(7.7)
|Xa
j
|
2
= a
j

X

Xa
j
= λ
j
, (7.8)
lo que permite normalizar los lados derechos de las expresiones (7.5)–(7.6) y con-
vertirlas en igualdades:
a
j
= λ

1
2
j
X

b
j
(7.9)
b
j
= λ

1
2
j
Xa
j
. (7.10)
Estas expresiones para j = 1, . . . , p se resumen en las igualdades matriciales
A = X



1
2
(7.11)
B = XAΛ

1
2
. (7.12)
Si proyectamos las filas y columnas de X sobre los subespacios engendrados por
el vector propio a
j
y b
j
respectivamente, tenemos:
u
j
= Xa
j
= λ

1
2
j
X X

b
j
= λ
1
2
j
b
j
(7.13)
v
j
= X

b
j
= λ

1
2
j
X

Xa
j
= λ
1
2
j
a
j
. (7.14)
7.2. BIPLOTS 77
Si tomamos la igualdad (7.9), premultiplicamos por X, postmultiplicamos por a
j

y sumamos respecto j, obtenemos:
X

¸
p
¸
j=1
a
j
a
j

¸

=
p
¸
j=1
λ
1
2
j
b
j
a
j

= BΛ
1
2
A

. (7.15)
Como
¸
p
j=1
a
j
a
j

= AA

= I, la igualdad anterior se reduce a:
X =
p
¸
j=1

λ
j
b
j
a
j

= BΛ
1
2
A

, (7.16)
llamada descomposición en valores singulares de la matriz X.
7.2. Biplots
En el supuesto de que X sea aproximadamente igual a los q < p primeros
sumandos (7.16) obtenemos:
X ≈
q
¸
j=1

λ
j
b
j
a
j

= B
q
S
q
A
q

. (7.17)
Podemos asociar S a la matriz A, a la matriz B o a ambas a la vez. Por ejemplo,
podemos definir G
q
= B
q
S
1−c
y H
q

= S
c
A
q

. Para cada valor 0 ≤ c ≤ 1 que
escojamos tenemos
X = G
q
H
q

= B
q
S
1−c
S
c
A
q

(7.18)
El exponente c se puede escoger de diferentes maneras: elecciones habituales son
c = 0, c =
1
2
y c = 1.
Sea g
i

la i-ésima fila de G y h
j

la j-ésima fila de H (por tanto, j-ésima
columna de H

). Si q = 2, los N + p vectores g
i
y h
j
pueden representarse
en el plano dando lugar a la representación conocida como biplot. Los puntos g
i
representan observaciones, en tanto los puntos h
j
representan variables.
7.2.1. Interpretación
Para interpretar un biplot, notemos que si (7.17) se verifica de modo aproxima-
do, entonces
X
ij
≈ g
i

h
j
= [[g
i
[[[[h
j
[[ cos(α
ij
) (7.19)
siendo α
ij
el ángulo que forman g
i
y h
j
. Por consiguiente, si la variable j tiene
gran influencia en la observación i, los vectores representando a ambas tenderán a
formar un ángulo pequeño.
Adicionalmente, dependiendo del valor seleccionado para c en (7.18) podemos
interpretar las distancias euclídeas entre las representaciones de los puntos fila, de
los puntos columna, etc.
78 CAPÍTULO 7. BIPLOTS
Caso c = 0. Supongamos X = GH

exactamente (omitimos el subíndice q
por simplicidad notacional). Entonces, si tomamos c = 0, H = A y es por tanto
ortogonal, con lo que XX

= GH

HG

= GG

. Por consiguiente, para cualquier
fila x
i
de X se tiene
x
i

x
i
= g
i

g
i
(7.20)
[[x
i
[[ = [[g
i
[[ (7.21)
[[x
i
−x
j
[[ = [[g
i
−g
j
[[ (7.22)
cos(x
i
, x
j
) = cos(g
i
, g
j
); (7.23)
es decir, las distancias y ángulos entre los vectores g
i
reproducen los existentes
entre los vectores x
i
. Obviamente, esto sólo es posible si la configuración original
de puntos fila de X era bidimensional; de otro modo, X ≈ GH

y lo anterior sólo
tendrá validez como aproximación.
Caso c = 1. Razonando de forma exactamente análoga, llegamos a la conclusión
de que en este caso las distancias y ángulos entre los vectores fila de H

reproducen
los existentes entre los vectores columna de X, dado que con c = 1
X

X = HG

GH

= HH

(7.24)
al ser G = B una matriz ortogonal. (De nuevo la igualdad anterior es sólo aproxi-
mada, en la medida en que la matriz original X no sea de rango igual o inferior a
2).
Caso c =
1
2
. Esta elección de c supone un compromiso entre las dos anteriores,
tendente a preservar en alguna medida las distancias tanto entre puntos fila como
entre puntos columna.
7.2.2. Ejemplo
Consideremos la Tabla 7.1, cuya casilla ij-ésima recoge el total de hogares de
la Comunidad Autónoma i-ésima disponiendo del equipamiento a que se refiere la
columna j-ésima.
Un análisis de los datos brutos daría lugar a un biplot como el recogido en la
Figura 7.1. Es aparente un “efecto tamaño” muy pronunciado: al estar los datos en
valores absolutos, todas las columnas son aproximadamente proporcionales, lo que
hace los datos muy “uno-dimensionales”: las Comunidades más pobladas, tienen
más hogares en posesión de cada uno de los bienes considerados, simplemente por
efecto de su tamaño. Puede verse en la figura indicada como “España” aparece
en el margen derecho, y el resto de Comunidades ordenadas en el eje de abscisas
aproximadamente por su tamaño.
Podemos convertir los datos a porcentajes, evitando así que una dimensión de
la representación gráfica sea ocupada por el efecto tamaño, que carece de interés.
7
.
2
.
B
I
P
L
O
T
S
7
9
Cuadro 7.1: Dotación de los hogares por Comunidades Autónomas (miles de hogares que poseen cada uno de los equipamientos indica-
dos). Fuente: INE, Encuesta de Tecnologías de la información en los hogares, 2002.
Número Televisión Ordenador Fax Video DVD Cadena Radio, Busca Teléfono NSNC
Hogares Música cassete personas móvil NSNC
ESPAÑA 13712.90 13650.60 4944.10 371.60 9207.80 1562.30 7451.60 10570.70 75.10 8917.70 5.00
ANDALUCÍA 2306.90 2301.00 717.70 51.30 1553.60 246.60 1151.30 16 49.00 12.60 1482.90 1.20
ARAGÓN 426.30 423.30 158.30 8.40 285.10 45.30 241.30 361.60 2. 40 252.70 0.00
ASTURIAS 364.90 363.70 115.90 7.70 217.70 31.10 173.80 311.80 1.90 221.00 0.00
BALEARES 293.50 290.80 110.50 15.10 200.80 46.50 166.90 212.30 1.50 194.80 0.00
CANARIAS 570.90 569.60 207.20 17.40 403.40 82.70 346.90 410.80 2.90 391.10 0.00
CANTABRIA 170.90 170.50 50.60 5.90 108.20 18.10 87.00 131.60 2 .00 108.20 0.00
CASTILLA-LEÓN 871.10 865.40 263.70 16.90 530.10 72.90 436.70 708 .90 3.20 511.60 0.50
LA MANCHA 580.10 576.50 149.70 11.90 354.10 42.10 249.60 413.40 0.00 326.30 0.00
CATALUÑA 2217.40 2208.60 933.50 75.90 1561.50 277.10 1235.90 174 0.60 17.40 1442.40 1.40
VALENCIA 1461.50 1457.40 473.70 35.40 1021.60 169.20 782.60 1095 .60 5.30 962.30 0.00
EXTREMADURA 358.50 355.00 84.60 3.30 213.50 24.10 155.50 268.60 2.30 204.90 0.00
GALICIA 887.10 878.50 254.90 17.20 485.50 82.80 428.30 670.70 10.50 536.60 2.00
MADRID 1809.30 1802.20 902.80 65.60 1321.50 265.70 1190.40 1452. 20 8.70 1347.70 0.00
MURCIA 362.00 359.00 105.20 7.10 247.30 43.10 188.30 272.30 1. 20 243.80 0.00
NAVARRA 185.20 183.40 72.80 6.00 124.80 13.50 100.90 148.90 0. 50 123.80 0.00
PAÍS VASCO 713.70 712.40 295.50 24.40 485.60 85.70 440.80 615.60 2.00 486.70 0.00
RIOJA 94.80 94.60 31.80 0.60 62.90 9.80 51.10 76.60 0.00 51. 70 0.00
CEUTA 20.50 20.30 7.30 0.70 15.90 2.50 12.90 15.00 0.20 14.9 0 0.00
MELILLA 18.50 18.50 8.60 0.80 14.70 3.40 11.40 15.10 0.40 14 .20 0.00
80 CAPÍTULO 7. BIPLOTS
Figura 7.1: Biplot de número de hogares (en valor absoluto) en cada Comunidad
Autónoma que poseen diferentes tipos de equipamiento relacionado con la socie-
dad de la información. Se aprecia el fuerte efecto “tamaño” que oblitera cualquier
otro.
−0.5 0.0 0.5 1.0

0
.
5
0
.
0
0
.
5
1
.
0
Comp.1
C
o
m
p
.
2
ESPAÑA
ANDALUCÍA
ARAGÓN
ASTURIAS
BALEARES
CANARIAS
CANTABRIA
CASTILLA−LEÓN
LA MANCHA
CATALUÑA
VALENCIA
EXTREMADURA
GALICIA
MADRID
MURCIA
NAVARRA
PAÍS VASCO
RIOJA
CEUTA MELILLA
−10000 −5000 0 5000 10000

1
0
0
0
0

5
0
0
0
0
5
0
0
0
1
0
0
0
0
NumHogares Television
Ordenador
Fax Video DVD
CadMus
RadioCas BuscaPer TelMovil NSNC
7.3. LECTURA RECOMENDADA 81
Así se ha hecho para producir la Figura 7.2, mucho más ilustrativa que la primera.
Se aprecia ahora como los puntos que representan variables están todos orientados
de manera similar, como corresponde dada su apreciable correlación. Casi super-
puesta al punto que representa “Ordenadores” está la Comunidad de Madrid, y bas-
tante a la izquierda también Comunidades como País Vasco y Cataluña, en que los
equipamientos considerados han alcanzado una penetración relativamente elevada
en los hogares. En el lado derecho del biplot aparecen aquellas comunidades en
que dicha penetración es, en términos relativos, menor: Extremadura, Andalucía,
Galicia, Castilla-La Mancha.
Algunos otros detalles saltan a la vista en la Figura 7.2; por ejemplo, la orde-
nada relativamente alta de País Vasco, Aragón y Asturias, que se corresponde con
una tenencia también relativamente elevada de radiocassettes, como puede corro-
borarse observando la tabla.
7.3. Lectura recomendada
El biplot e instrumentos de visualización relacionados se describen en Krza-
nowski (1988), Cap. 4.
82 CAPÍTULO 7. BIPLOTS
Figura 7.2: Biplot del porcentaje de hogares en cada Comunidad Autónoma que
poseen diferentes tipos de equipamiento relacionado con la sociedad de la infor-
mación. Al desaparecer el efecto tamaño por ser todas las magnitudes relativas, se
aprecian las diferencias entre comunidades en la dotación relativa.
−0.4 −0.2 0.0 0.2 0.4

0
.
4

0
.
2
0
.
0
0
.
2
0
.
4
Comp.1
C
o
m
p
.
2
ESPAÑA
ANDALUCÍA
ARAGÓN ASTURIAS
BALEARES
CANARIAS
CANTABRIA
CASTILLA−LEÓN
LA MANCHA
CATALUÑA
VALENCIA
EXTREMADURA
GALICIA
MADRID
MURCIA
NAVARRA
PAÍS VASCO
RIOJA
CEUTA
MELILLA
−0.2 −0.1 0.0 0.1 0.2

0
.
2

0
.
1
0
.
0
0
.
1
0
.
2
Television
Ordenador
Fax
Video
DVD
CadMus
RadioCas
BuscaPer
TelMovil
Capítulo 8
Datos categóricos multivariantes
8.1. Introducción
En lo que precede, hemos considerado como punto de partida una matriz de
datos X de dimensiones N p cada una de cuyas filas x
i

era un vector aleatorio
en R
p
.
En ocasiones, sin embargo, para cada sujeto de la muestra examinamos k atri-
butos cualitativos o caracteres, cada uno de los cuales con d
i
niveles i = 1, . . . , k.
Por ejemplo, si registráramos el color de pelo y ojos de un colectivo de N = 5
sujetos, podríamos presentar la información resultante en una tabla como:
Cuadro 8.1: Color de pelo y ojos medidos para cinco sujetos
Sujeto Color pelo Color ojos
1 Negro Castaño
2 Rubio Azul
3 Negro Azul
4 Negro Castaño
5 Negro Castaño
Una forma alternativa de recoger la misma información es efectuando una ta-
bulación cruzada de los dos caracteres (color de pelo y color de ojos) para producir
una tabla de contingenciacomo la recogida en el Cuadro 8.2. De tener una tabla
de datos N p listando los respectivos niveles de los caracteres para cada uno
de los N sujetos, pasamos a tener una tabla de k dimensiones y
¸
k
i=1
d
i
celdas
relacionando los caracteres entre sí.
83
84 CAPÍTULO 8. DATOS CATEGÓRICOS MULTIVARIANTES
Cuadro 8.2: Tabla de contingencia relacionando color de pelo y ojos para cinco
sujetos
Color de pelo
Negro Rubio
Ojos azules 1 1
Ojos castaños 3 0
Es fácil ver que la tabla de datos original en el Cuadro 8.1 y la tabla de con-
tingencia en el Cuadro 8.2 proporcionan exactamente la misma información. De
la segunda podemos reconstruir la primera (excepto por el orden, normalmente
irrelevante).
El análisis de tablas de doble entrada es objeto común de los cursos introduc-
torios de Estadística. Problemas habituales que se resuelven son los de contrastar
la independencia de los caracteres, o la homogeneidad de subpoblaciones descritas
por las filas o columnas, habitualmente mediante el contraste χ
2
de Pearson (véase
por ej. Trocóniz (1987b), p. 244–249).
No estamos limitados a considerar tablas de doble entrada, sino que en ge-
neral trabajaremos con tablas de contingencia con k > 2 dimensiones. Cuando
lo hagamos, será en general inconveniente examinar los caracteres por parejas: si
lo hiciéramos, podriamos tropezar con la paradoja de Simpson que ilustramos a
continuación.
Notación. Consideremos, por concreción, una tabla de contingencia con k = 3
dimensiones (generalizar a cualquier k, no obstante, será inmediato). Denotare-
mos por A, B y C respectivamente a los tres caracteres, con d
A
, d
B
y d
C
niveles
respectivamente.
Sea X la tabla de contingencia, y x
ijk
el contenido de su celda ijk. Es decir,
x
ijk
sujetos poseen los niveles i, j y k de los tres caracteres considerados y N =
¸
i,j,k
x
ijk
el total de sujetos en todas las celdas de la tabla.
8.2. Tipos de muestreo
Una misma tabla de contingencia puede generarse de diferentes modos, y es
importante saber cuál ha sido el empleado en cada caso.
Podríamos muestrear durante un periodo de tiempo y clasificar a los sujetos de
acuerdo a, por ejemplo, tres caracteres, de modo que cada uno fuera contado en
una celda x
ijk
de una tabla tridimensional. Si hacemos esto, podemos modelizar
x
ijk
como una variable con distribución de Poisson de parámetro λ
ijk
. El número
total de sujetos tabulados, N, será a su vez una variable aleatoria con distribución
de Poisson. Diremos que la tabla se ha generado mediante muestreo de Poisson
8.3. LA PARADOJA DE SIMPSON 85
Alternativamente, podríamos fijar el tamaño muestral N deseado y tabular di-
chos N sujetos. Entonces, podríamos ver el vector x
ijk
como variable aleatoria
con distribución multinomial,
Prob(x
ijk
) =
N!
x
iii
! . . . x
ijk
! . . . x
IJK
!
p
x
111
111
. . . p
x
ijk
ijk
. . . p
x
IJK
IJK
(8.1)
en que I, J, K designan el número de niveles de (respectivamente) los caracteres
A, B y C. Decimos en este caso hallarnos ante muestreo multinomial
Frecuentemente se toman muestras estratificadas, fijando cuotas para diferen-
tes estratos de la población analizada. Por ejemplo, si examináramos la respuesta a
un tratamiento que sólo raramente se administra, porque se emplea para enferme-
dades infrecuentes, una muestra aleatoria simple proporcionaría muy pocos sujetos
tratados: acaso ninguno.
El modo habitual de operar en este caso es tomar una muestra de sujetos tra-
tados y otra de no tratados o controles, de modo que ambas categorías estén ade-
cuadamente representadas. Cada uno de los segmentos de la población, el de los
tratados y no tratados, se muestrea así por separado: la muestra obtenida puede ver-
se como la unión de dos muestras para dos subpoblaciones. En este caso, no sólo
hemos fijado N, sino también el desglose N = N
t
+ N
c
entre tratados y no trata-
dos o controles. Decimos entonces hallarnos ante muestreo producto-multinomial
Es importante darse cuenta de que en tales casos las proporciones marginales de la
tabla no estiman proporciones en la población: son un mero resultado del diseño
muestral. Por ejemplo, N
t
/N no estimaría la proporción de sujetos tratados en la
población, porque tanto numerador como denominador han sido arbitrariamente
fijados.
En situaciones más complejas que la muy simple descrita, podríamos tener, por
ejemplo, cuotas por sexo y grupo de edad, y en consecuencia estaríamos fijando el
número N
ij
de sujetos muestreados para cada combinación de sexo y edad.
8.3. La paradoja de Simpson
Consideremos la siguiente tabla de contingencia, relacionando recepción de un
tratamiento o un placebo con el hecho de contraer o no una cierta enfermedad. En
cursivas, bajo los valores absolutos, aparece entre paréntesis la proporción sobre el
total de la fila correspondiente.
Enferman No enferman Total
Tratamiento 5950 9005 14955
(0.398) (0.602)
Placebo 5050 1095 6145
(0.822) (0.178)
86 CAPÍTULO 8. DATOS CATEGÓRICOS MULTIVARIANTES
A la vista de los datos anteriores, estaríamos tentados de concluir que el tratamiento
ha tenido realmente un efecto preventivo: menos del 40 % de tratados desarrollan
la enfermedad, frente a más del 80 % de quienes tomaron el placebo.
Supongamos, sin embargo, que efectuamos un desglose por en varones y mu-
jeres de la tabla anterior para obtener las dos siguientes:
Varones
Enferman No enferman Total
Tratamiento 5000 5 5005
(0.999) (0.001)
Placebo 5000 95 5095
(0.981) (0.019)
Mujeres
Enferman No enferman Total
Tratamiento 950 9000 9950
(0.095) (0.905)
Placebo 50 1000 1050
(0.005) (0.995)
Se da ahora una aparente paradoja: mientras para el total de la población el
tratamiento aparentaba ser efectivo, tanto los varones como las mujeres tratados
parecen haber enfermado más que los que recibieron el placebo. Esto ocurre por
poco margen en el caso de los varones, pero de forma notoria en las mujeres. Re-
sulta así que la tabla para el total de la población proporciona una información que
es contradictoria con la que obtenemos al considerar las tablas desglosadas.
La contradicción entre los resultados que sugieren la tabla conjunta y las dos
que forman el desglose se explica cuando notamos que la asignación del trata-
miento ha sido muy asimétrica entre hombres y mujeres: las mujeres, que parecen
practicamente inmunes a la enfermedad analizada, han recibido mayoritariamente
el tratamiento, mientras que los hombres, mucho más vulnerables, no lo han reci-
bido en la misma proporción. Se tiene así una menor incidencia de la enfermedad
(en la tabla conjunta) para los receptores del tratamiento, simplemente porque en-
tre ellos hay mayoría de mujeres casi inmunes. Cuando se analizan separadamente
las tablas correspondientes a hombres y mujeres apreciamos, sin embargo, que el
tratamiento no parece tener ningún efecto positivo.
8.4. MODELOS LOGARÍTMICO-LINEALES 87
Si tabuláramos los tres caracteres a la vez, tendríamos una tabla de tres dimen-
siones (Tratamiento Enfermedad Sexo). Sumando sobre la tercera dimensión
llegaríamos a la tabla de dos dimensiones (Tratamiento Enfermedad). Decimos
que ésta última resulta de colapsar la primera o que es uno de sus márgenes. Lo
que la paradoja de Simpson presentada más arriba muestra es que colapsando una
tabla puede llegarse a conclusiones diferentes —incluso radicalmente opuestas—
a las que alcanzaríamos al considerar la tabla completa. Nos deberemos por ello
abstener de colapsar una tabla si la asociación entre los caracteres correspondien-
tes a las dimensiones que subsisten es diferente para diferentes niveles del carácter
o caracteres correspondientes a las dimensiones suprimidas.
Observación 8.1 Este efecto es similar al que se presenta al comparar
el coeficiente de correlación simple entre dos variables y el coeficiente de
correlación parcial controlando el efecto de una tercera. Ambos pueden tener
valores completamente diferentes, e incluso signo opuesto, como el Ejem-
plo 1.2 ponía de manifiesto.
8.4. Modelos logarítmico-lineales
Consideraremos una tabla de tres dimensones, pero de nuevo el planteamiento
es fácilmente generalizable.
Denotemos por p
ijk
la probabilidad de que un sujeto tomado al azar entre los
N que componen la tabla esté en la celda (ijk). Denotemos por
p
i++
=
d
B
¸
j=1
d
C
¸
k=1
p
ijk
p
+j+
=
d
A
¸
i=1
d
C
¸
k=1
p
ijk
p
++k
=
d
A
¸
i=1
d
B
¸
j=1
p
ijk
las probabilidades marginales e imaginemos que hubiera independencia entre los
tres caracteres A, B, C examinados. Entonces, tendríamos:
p
ijk
= p
i++
p
+j+
p
++k
(8.2)
o, en escala logarítmica,
log(p
ijk
) = log(p
i++
) + log(p
+j+
) + log(p
++k
); (8.3)
en el caso de independencia, log(p
ijk
) se puede expresar como suma de efectos
fila, columna y estrato. Cada nivel de cada caracter contribuye una cantidad fija a
log(p
ijk
), que no depende de cuál sea el nivel observado de ningún otro carácter.
Podríamos considerar modelos más generales para log(p
ijk
) como suma de
diferentes efectos aditivos así:
log(p
ijk
) = u +u
A
i
+u
B
j
+u
C
k
+u
AB
ij
+u
AC
ik
+u
BC
jk
+u
ABC
ijk
; (8.4)
88 CAPÍTULO 8. DATOS CATEGÓRICOS MULTIVARIANTES
al objeto de identificar todos los parámetros (y de hacerlos interpretables) necesi-
tamos restricciones del tipo:
¸
i
u
A
i
=
¸
j
u
B
j
=
¸
k
u
C
k
= 0 (8.5)
¸
j
u
AB
ij
=
¸
i
u
AB
ij
= 0 (8.6)
¸
i
u
AC
ik
=
¸
k
u
AC
ik
= 0 (8.7)
¸
j
u
BC
jk
=
¸
k
u
BC
jk
= 0 (8.8)
¸
i
u
ABC
ijk
=
¸
j
u
ABC
ijk
=
¸
k
u
ABC
ijk
= 0. (8.9)
El modelo (8.4) está saturado:utiliza tantos parámetros libres como celdas. Pode-
mos considerar variedades del mismo, como:
log(p
ijk
) = u +u
A
i
+u
B
j
+u
C
k
(8.10)
log(p
ijk
) = u +u
A
i
+u
B
j
+u
C
k
+u
AB
ij
(8.11)
log(p
ijk
) = u +u
A
i
+u
B
j
+u
C
k
+u
AC
ik
(8.12)
log(p
ijk
) = u +u
A
i
+u
B
j
+u
C
k
+u
AC
ik
+u
BC
jk
(8.13)
log(p
ijk
) = u +u
A
i
+u
B
j
+u
C
k
+u
AB
ij
+u
AC
ik
+u
BC
jk
. (8.14)
El modelo (8.10) corresponde a la independencia entre los tres caracteres, A, B y
C. El modelo (8.11) incorpora una interacción entre los caracteres A, B: el efecto
de cada nivel i de A no es idéntico para cualquier nivel j de B, sino que combina-
ciones ij particulares tienen efecto sobre log(p
ijk
) que difiere de la suma u
A
i
+u
B
j
;
analogamente con (8.12) y (8.13). El último de los modelos contiene todas las in-
teracciones de segundo orden y es el más parametrizado antes de llegar al saturado,
(8.4).
Los parámetros de un modelo logarítmico-lineal son funciones de log(p
ijk
);
por ejemplo, sumando (8.10) respecto de i, j, k y teniendo en cuenta las restriccio-
nes de suma cero, tenemos:
u =
1
d
A
d
B
d
C
d
A
¸
i=1
d
B
¸
j=1
d
C
¸
k=1
log(p
ijk
); (8.15)
Si ahora sumamos la misma igualdad sobre j, k llegamos a
u
A
i
=
1
d
B
d
C

¸
d
B
d
C
u +
d
B
¸
j=1
d
C
¸
k=1
log(p
ijk
)
¸

, (8.16)
8.5. LECTURA RECOMENDADA 89
y análogamente para los parámetros u
B
j
y u
C
k
. Nótese que los resultados son los
mismos cuando consideramos cualquiera de los modelos más parametrizados (8.11)–
(8.13). Sustituyendo (8.15) en (8.16) llegamos a: Si ahora sumamos la misma igual-
dad sobre j, k llegamos a
u
A
i
=
1
d
B
d
C
d
B
¸
j=1
d
C
¸
k=1
log(p
ijk
) −
1
d
a
d
B
d
C
d
A
¸
i=1
d
B
¸
j=1
d
C
¸
k=1
log(p
ijk
), (8.17)
y análogamente para los términos restantes. Los estimadores máximo verosímiles
de los parámetros se pueden obtener así de los de los términos p
ijk
, y éstos son
simplemente ˆ p
ijk
= x
ijk
/N.
En la práctica, el algoritmo de reescalado iterativo permite la estimación có-
moda de cualquier modelo logarítmico lineal.
8.5. Lectura recomendada
Son buenas introducciones Bishop et al. (1975), Fienberg (1980), Agresti (1990)
y Plackett (1974).
90 CAPÍTULO 8. DATOS CATEGÓRICOS MULTIVARIANTES
Capítulo 9
Análisis de Correspondencias
Es una técnica para producir representaciones planas relacionando las obser-
vaciones (filas) y variables (columnas) en una tabla de contingencia, es decir, una
tabla cada una de cuyas casillas recoge números naturales. Es el caso de la Ta-
bla 7.1, aunque por comodidad el número de hogares se haya expresado en miles.
9.1. Análisis de las filas de X
9.1.1. Notación
El punto de partida será una matriz de datos X de dimensiones N p que,
como se ha indicado, es una tabla de contingencia. Sea T =
¸
N
i=1
¸
p
j=1
x
ij
.
Emplearemos la siguiente notación:
9.1.2. Distancia entre las filas de la matriz de datos
Si quisiéramos obtener una representación en pocas dimensiones de las filas de
la matriz X, parecería lo indicado un análisis en componentes principales como el
descrito en el Capítulo 5. La condición de tabla de contingencia de los datos de
partida sugiere no obstante algunas alteraciones.
Consideremos la matriz F y, dentro de ella, dos filas i, j como las siguientes:
i 0.015 0.02 0.01 0.01 0.02 f
i.
= 0.0750
j 0.0015 0.002 0.001 0.001 0.002 f
j.
= 0.0075
Es aparente que la fila i está mucho más poblada que la fila j (un 7.5 % de
los casos totales frente a sólo un 0.75 %). Si prescindimos de este efecto debido
91
92 CAPÍTULO 9. ANÁLISIS DE CORRESPONDENCIAS
Cuadro 9.1: Notación empleada
Símbolo Elemento Descripción
genérico
X x
ij
Tabla de contingencia original N p.
F f
ij
= T
−1
x
ij
Matriz de frecuencias relativas N p.
f
i.
f
i.
=
¸
p
j=1
f
ij
Total marginal fila i-ésima de F.
f
.j
f
.j
=
¸
N
i=1
f
ij
Total marginal columna j-ésima de F.
c c

= (f
.1
. . . f
.p
), totales marginales columnas.
f f

= (f
1.
. . . f
N.
), totales marginales filas.
D
f
Matriz diagonal N N con f
1.
. . . f
N.
en la diagonal principal.
D
c
Matriz diagonal p p con f
.1
. . . f
.p
en la diagonal principal.
al tamaño, vemos no obstante que las frecuencias relativas intrafila de las cinco
categorias consideradas en las columnas son idénticas en ambas filas. Por ejemplo,
la primera categoría se presenta en i con una frecuencia intrafila de 0.015 / 0.075 =
20 % y de exactamente el mismo valor en la fila j; y así para todas las demás.
En consecuencia, si aspiramos a hacer una análisis que describa las diferencias
relativas entre las filas, parece que deberíamos corregir el efecto tamaño aludido,
lo que se logra sustituyendo cada f
ij
por f
ij
/f
i.
, que es lo mismo que reemplazar
en nuestro análisis la matriz F por D
f
−1
F.
Podríamos pensar que tras hacer esta corrección sólo resta realizar un análi-
sis en componentes principales convencional, pero hay otra peculiaridad a la que
debemos enfrentarnos. Imaginemos tres filas de D
f
−1
F tales como las siguientes:
k 0.15 0.02 0.10 0.43 0.30
l 0.15 0.02 0.10 0.44 0.29
m 0.15 0.01 0.10 0.44 0.30
Observemos que, si computamos la distancia euclídea ordinaria d(k, l) entre
las filas k,l por un lado y d(k, m) por otro, obtenemos:
d
2
e
(k, l) =
p
¸
j=1

f
kj
f
k.

f
lj
f
l.

2
(9.1)
= (0,43 −0,44)
2
+ (0,30 −0,29)
2
= 0,0002 (9.2)
d
2
e
(k, m) =
p
¸
j=1

f
kj
f
k.

f
mj
f
m.

2
(9.3)
= (0,43 −0,44)
2
+ (0,02 −0,01)
2
= 0,0002 (9.4)
Esto es claramente indeseable en general: no es lo mismo una discrepancia de
0.01 entre 0.29 y 0.30 que entre 0.01 y 0.02. En este último caso, un carácter raro en
9.1. ANÁLISIS DE LAS FILAS DE X 93
ambas filas lo es mucho más en una (la m) que en otra (la k), y tenderíamos a atri-
buir a este hecho mucha mayor significación. Por ejemplo, si las cifras anteriores
reflejaran la prevalencia de determinadas enfermedades en distintas comunidades,
0.43 y 0.44 podrían recoger el tanto por uno de personas que han padecido un
resfriado común en las comunidades k y m: difícilmente consideraríamos la dis-
crepancia como relevante. En cambio, la segunda columna podría reflejar el tanto
por uno de personas atacadas por una enfermedad muy infrecuente, y el hecho de
que en la comunidad l este tanto por uno es doble que en la k no dejaría de atraer
nuestra atención.
En consecuencia, hay razón para ponderar diferentemente las discrepancias
en los diferentes caracteres, y una forma intuitivamente atrayente de hacerlo es
sustituir la distancia euclidea ordinaria por:
d
2
(k, l) =
p
¸
j=1
1
f
.j

f
kj
f
k.

f
lj
f
l.

2
(9.5)
=
p
¸
j=1

f
kj
f
k.

f
.j

f
lj
f
l.

f
.j

2
(9.6)
Por su semejanza formal con el estadístico χ
2
se denomina a la distancia anterior
distancia χ
2
.
Observemos, que si sustituimos la matriz D
f
−1
F por Y = D
f
−1
FD
c

1
2
, cuya
i-ésima fila es de la forma

f
i1
f
i.

f
.1
,
f
i2
f
i.

f
.2
, . . . ,
f
ip
f
i.

f
.p

,
un análisis sobre D
f
−1
FD
c

1
2
haciendo uso de distancias euclídeas equivale al
análisis sobre D
f
−1
F haciendo uso de distancias χ
2
.
9.1.3. Matriz de covarianzas muestral
El último paso previo al análisis en componentes principales, una vez que he-
mos decidido hacerlo sobre D
f
−1
FD
c

1
2
, es la estimación de la matriz de cova-
rianzas. El estimador ordinario (y máximo verosímil, en el caso de muestras pro-
cedentes de observaciones normales) es:
ˆ
Σ = N
−1
N
¸
i=1
(y
i
−y)(y
i
−y)

(9.7)
= N
−1
N
¸
i=1
y
i
y
i

−yy

(9.8)
= N
−1
Y

Y −(N
−1
Y

1
N
)(N
−1
1
N

Y ); (9.9)
94 CAPÍTULO 9. ANÁLISIS DE CORRESPONDENCIAS
ello supone dar a cada observación un peso de 1/N, lo que es razonable en el caso
de muestrear de forma aletoria simple una población.
En el caso que nos ocupa, se presenta de nuevo la peculiariedad de que unas
observaciones —filas de la matriz X, que tras sucesivas transformaciones se ha
convertido en Y = D
f
−1
FD
c

1
2
— son en general más importantes que otras:
sus totales f
i.
marginales difieren. Por ello, es razonable reemplazar el estimador
anterior por:
ˆ
Σ = Y

D
f
Y −(Y

D
f
1
N
)(1
N

D
f
Y ). (9.10)
que supone dar peso f
i.
en lugar de 1/N a la fila i-ésima de Y .
Con las anteriores modificaciones estamos ya en situación de hacer un análisis
en componentes principales. Notemos, en primer lugar, que c
1
2
es vector propio de
ˆ
Σasociado a un valor propio nulo. En efecto, como Y

D
f
1
N
= D
c

1
2
F

D
f
−1
D
f
1
N
=
c
1
2
, tenemos que
ˆ
Σc
1
2
=

Y

D
f
Y −c
1
2
c
1
2

c
1
2
= Y

D
f
Y c
1
2
−c
1
2
= D
c

1
2
F

D
f
−1
D
f
D
f
−1
FD
c

1
2
c
1
2
−c
1
2
= D
c

1
2
F

D
f
−1
F1
p
−c
1
2
= D
c

1
2
F

D
f
−1
f −c
1
2
= D
c

1
2
c −c
1
2
= 0.
Por tanto, podemos prescindir de una componente principal que no explica ninguna
varianza, y utilizar sólo las restantes (ordinariamente, las dos primeras). Además,
como los restantes vectores propios a
i
(i = 1, . . . , p − 1) de
ˆ
Σ son ortogonales a
c
1
2
, tenemos que
ˆ
Σa
i
=

Y

D
f
Y −c
1
2
c
1
2

a
i
= Y

D
f
Y a
i
;
en consecuencia, los vectores propios correspondientes a valores propios no nulos
de
ˆ
Σ coinciden con los de Y

D
f
Y , y podemos diagonalizar esta última matriz.
Finalmente, observemos que Y

D
f
Y = D
c

1
2
F

D
f
−1
D
f
D
f
−1
FD
c

1
2
=
D
c

1
2
F

D
f

1
2
D
f

1
2
FD
c

1
2
y denotando
Z = D
f

1
2
FD
c

1
2
(9.11)
vemos que la matriz que diagonalizamos puede expresarse como Z

Z, hecho del
que haremos uso en breve.
9.2. ANÁLISIS DE LAS COLUMNAS DE X 95
9.2. Análisis de las columnas de X
Podríamos ahora realizar un análisis en componentes principales de las colum-
nas de la matriz X; es decir, buscamos una representación de baja dimensionalidad
de los p vectores en R
N
constituidos por las columnas de X.
Una discusión del todo paralela a la precedente, intercambiando los papeles
de filas y columnas, nos llevaría a diagonalizar la matriz
˜
Y D
c
˜
Y

, en que
˜
Y =
D
f

1
2
FD
c
−1
. En consecuencia,
˜
Y D
c
˜
Y

= D
f

1
2
FD
c
−1
D
c
D
c
−1
F

D
f

1
2
=
ZZ

con Z definida como anteriormente.
9.3. Reciprocidad y representación conjunta
Sean A y B las matrices que tienen por columnas los vectores propios de Z

Z
y ZZ

respectivamente. La representación de las filas de Y mediante todas las
componentes principales viene entonces dada por
R = Y A = D
f
−1
FD
c

1
2
A, (9.12)
en tanto la representación de las columnas de
˜
Y viene dada por
C =
˜
Y

B = D
c
−1
F

D
f

1
2
B. (9.13)
Notemos sin embargo que las columnas de A y las de B están relacionadas, por ser
vectores propios respectivamente de matrices que podemos escribir como Z

Z y
ZZ

respectivamente. Haciendo uso de (7.11) y (7.12) tenemos que:
R = Y A = D
f
−1
FD
c

1
2
Z



1
2
(9.14)
C =
˜
Y

B = D
c
−1
F

D
f

1
2
ZAΛ

1
2
. (9.15)
Tomemos la expresión (9.14). Haciendo uso de la definición de Z en (9.11) y de
(9.13) tenemos que:
R = D
f
−1
FD
c

1
2
D
c

1
2
F

D
f

1
2


1
2
(9.16)
= D
f
−1
F D
c
−1
F

D
f

1
2
B
. .. .
C
Λ

1
2
(9.17)
= D
f
−1
FCΛ

1
2
(9.18)
Análogamente,
C = D
c
−1
F

D
f

1
2
ZAΛ

1
2
(9.19)
= D
c
−1
F

D
f

1
2
D
f

1
2
FD
c

1
2


1
2
(9.20)
= D
c
−1
F



1
2
(9.21)
96 CAPÍTULO 9. ANÁLISIS DE CORRESPONDENCIAS
Las relaciones (9.18)-(9.21) se conocen como de reciprocidad baricéntrica y son
las que permiten interpretar las posiciones relativas de filas y columnas. Conside-
remos, por ejemplo, la i-ésima fila r
i
de R. De acuerdo con (9.18), su k-ésima
coordenada puede expresarse así:
r
ik
= λ

1
2
k

f
i1
f
i.
c
1k
+. . . +
f
ip
f
i.
c
pk

,
es decir, como un promedio ponderado de la coordenada homóloga de las colum-
nas, con pesos dados por
f
i1
f
i.
, . . . ,
f
ip
f
i.
;
si f
ij
/f
i.
es muy grande, la variable j tiene gran relevancia en el perfil fila i, y
el punto que representa a dicho perfil fila tendrá sus coordenadas “atraidas” ha-
cia las de c
j
, las del punto que representa a la variable j. Análogamente para la
representación de las columnas.
9.4. Lectura recomendada
Una introducción al Análisis de Correspondencias puede encontrarse tanto en
Cuadras (1981) como en Peña (2002); también será de utilidad, entre la bibliografía
en español, Escofier and Pages (1984).
Capítulo 10
Análisis Procrustes
10.1. Introducción.
El análisis Procrustes tiene por objeto examinar en qué medida dos configura-
ciones de puntos en el espacio euclídeo son similares. Existen generalizaciones a
más de dos configuraciones (ver por ej. Gower (1975)), pero aquí sólo trataremos
el caso más simple. Seguimos en la exposición a Sibson (1978).
Consideremos dos configuraciones de N puntos en el espacio euclídeo R
k
re-
presentadas por sendas matrices X e Y de dimensión N k. Las filas y
i
y x
i
de
las matrices Y y X respectivamente proporcionan las coordenadas del punto i en
las dos configuraciones.
Como medida de ajuste entre ambas tomaremos
G(X, Y ) = traza((X −Y )(X −Y )

) =
N
¸
i=1
[[x
i
−y
i
[[
2
(10.1)
Para examinar si las dos configuraciones son similares, nos fijaremos en si con-
servan la posición relativa de los puntos excepto por transformaciones “simples”
como traslaciones o cambios de escala. Específicamente buscaremos evaluar
G(X, Y ) = traza((X −g(Y ))(X −g(Y ))

). (10.2)
para una clase de transformaciones g(.) incluyendo la composición de traslaciones,
rotaciones y contracciones/expansiones. Por tanto,
g(Y ) = ρ(Y −1

a)P (10.3)
97
98 CAPÍTULO 10. ANÁLISIS PROCRUSTES
siendo P una matriz ortogonal, a un vector de constantes y ρ un coeficiente de
contracción o expansión de la escala. Llamaremos Γ al conjunto formado por todas
las transformaciones h(.) de la forma descrita en (10.3).
Estamos interesados en encontrar
G
m´ın
(X, g(Y )) = m´ın
ρ,P,a
G(X, ρ(Y −1

a)P) (10.4)
y los correspondientes valores ρ, P, a para los que el mínimo se alcanza.
10.2. Obtención de la transformación Procrustes
Lema 10.1 Sea Auna matriz cuadrada y P cualquier matriz ortogonal. Entonces,
traza(P

A) ≤ traza((A

A)
1
2
) (10.5)
y la igualdad se verifica sólamente si P

A = (A

A)
1
2
.
DEMOSTRACION:
Consideremos la descomposición en valores singulares (fue introducida en la
Sección 7.1, pág. 75) A = USV

, en que S es la matriz de valores singulares (no
negativos) y U, V son matrices ortogonales. Entonces,
traza(P

A) = traza(P

USV

) = traza(V

P

US). (10.6)
Pero V

P

U es una matriz ortogonal que nunca tendrá valores mayores que 1 en
la diagonal principal. Por tanto, la traza del término derecho de la ecuación anterior
será la suma de los elementos diagonales de S multiplicados por números menores
que la unidad. Tendremos:
traza(P

A) ≤ traza(S) (10.7)
y se verificará la igualdad sólo cuando V

P

US = S; esto último acontece, por
ejemplo, para P

= V U

. Pero
traza(S) = traza((S

S)
1
2
)
= traza((V

A

UU

AV )
1
2
)
= traza((A

A)
1
2
),
y esto junto con (10.7) establece (10.5). Veamos ahora la segunda aseveración. De
V

P

US = S (10.8)
se deducen las siguientes desigualdades:
P

USV

= V SV

⇒ P

A = V SV

⇒ P

A = (V S
2
V

)
1
2
⇒ P

A = (V SU

USV

)
1
2
⇒ P

A = (A

A)
1
2
,
10.2. OBTENCIÓN DE LA TRANSFORMACIÓN PROCRUSTES 99
lo que finaliza la demostración. Podemos ahora resolver el problema de minimi-
zación (10.4).
10.2.1. Traslación a
Sean x, y los vectores de medias aritméticas de las columnas de (respectiva-
mente) X e Y . Definamos las matrices
X = 1x

Y = 1y

.
y versiones centradas de X e Y así:
˜
X = X −X
˜
Y = Y −Y .
Observemos que
G(X, Y ) = traza((X −Y )(X −Y )

)
= traza((
˜
X −
˜
Y )(
˜
X −
˜
Y )

) +Ntraza((X −Y )(X −Y )

)
= G(
˜
X,
˜
Y ) +Ntraza((X −Y )(X −Y )

);
ello muestra que G(X, Y ) se hace mínimo cuando se calcula para configuraciones
de puntos cuyos centroides han sido llevados a un origen común.
10.2.2. Rotación P.
Sean
˜
X e
˜
Y configuraciones centradas. Sean todas las transformaciones
˜
Y P
en que P es una matriz ortogonal k k. Tenemos
G(
˜
X,
˜
Y P) = traza((
˜
X −
˜
Y P)(
˜
X −
˜
Y P)

)
= traza(
˜
X
˜
X

) + traza(
˜
Y
˜
Y

) −2 traza(P

˜
Y

˜
X)
≥ traza(
˜
X
˜
X

) + traza(
˜
Y
˜
Y

)
−2 traza(
˜
X

˜
Y
˜
Y

˜
X)
1
2
(10.9)
en que el último paso hace uso del Lema 10.1. De acuerdo con dicho lema, el valor
dado por (10.9) es alcanzable haciendo P =
˜
Y

˜
X(
˜
X

˜
Y
˜
Y

˜
X)

1
2
.
10.2.3. Parámetro de escala ρ
El parámetro de escala es ahora muy fácil de obtener. Notemos que dejamos
inalterada la escala de las
˜
X y cambiamos sólo la de las
˜
Y . De otro modo, siem-
pre podríamos obtener un valor de G(
˜
X,
˜
Y P) tan pequeño como deseáramos, sin
100 CAPÍTULO 10. ANÁLISIS PROCRUSTES
más que colapsar ambas configuraciones en una región arbitrariamente pequeña en
torno al origen. Tenemos entonces que minimizar
G(
˜
X, ρ
˜
Y P) = traza(
˜
X
˜
X

) +ρ
2
traza(
˜
Y
˜
Y

) −2ρ traza(
˜
X

˜
Y
˜
Y

˜
X)
1
2
, (10.10)
ecuación de segundo grado en ρ cuyo mínimo se alcanza para:
ρ =
traza(
˜
X

˜
Y
˜
Y

˜
X)
1
2
traza(
˜
Y
˜
Y

)
. (10.11)
10.3. Análisis y comentarios adicionales
Si reemplazamos el valor de ρ obtenido de (10.11) en la ecuación (10.10) ob-
tenemos:
G
m´ın
(
˜
X, ρ
˜
Y P) = traza(
˜
X
˜
X

) +
¸
traza(
˜
X

˜
Y
˜
Y

˜
X)
1
2
traza(
˜
Y
˜
Y

)
¸
2
traza(
˜
Y
˜
Y

)
−2
¸
traza(
˜
X

˜
Y
˜
Y

˜
X)
1
2
traza(
˜
Y
˜
Y

)
¸
traza(
˜
X

˜
Y
˜
Y

˜
X)
1
2
que tras simplificar proporciona:
G
m´ın
(
˜
X, ρ
˜
Y P) = traza(
˜
X
˜
X

) −
¸
traza(
˜
X

˜
Y
˜
Y

˜
X)
1
2
traza(
˜
Y
˜
Y

)
¸
traza(
˜
X

˜
Y
˜
Y

˜
X)
1
2
= traza(
˜
X
˜
X

) −ρ
2
traza(
˜
Y
˜
Y

)
Reordenando la última igualdad tenemos:
G
m´ın
(
˜
X, ρ
˜
Y P) +ρ
2
traza(
˜
Y
˜
Y

) = traza(
˜
X
˜
X

). (10.12)
Podemo interpretar la igualdad (10.12) así: la “suma de cuadrados” de las distan-
cias euclídeas de la configuración original
˜
X se descompone en ρ
2
traza(
˜
Y
˜
Y

)
más una “suma de cuadrados de los errores”, G
m´ın
, que es lo que hemos minimiza-
do. La igualdad (10.12) es así análoga a la que descompone la suma de cuadrados
en el análisis de regresión o ANOVA.
Es de destacar que ρ al ajustar la configuración Y a la X no es en general
el mismo (ni el inverso) del que se obtiene al ajustar la configuración X a la Y .
Sin embargo, si normalizamos las configuraciones de modo que traza(
˜
X
˜
X

) =
traza(
˜
Y
˜
Y

) = 1, ρ es el mismo en ambos casos, y la igualdad (10.12) se transfor-
ma en:
G
m´ın
(
˜
X, ρ
˜
Y P) +ρ
2
= 1. (10.13)
En tal caso, ρ
2
es directamente interpretable como la fracción de “suma de cuadra-
dos” de distancias que la configuración adaptada es capaz de reproducir: ρ
2
juega
aquí un papel similar al de R
2
en regresión.
Capítulo 11
Reescalado Multidimensional
11.1. Introducción.
Las técnicas conocidas colectivamente como de reescalado multidimensional
(RM) (Multidimensional Scaling, MDS) tienen por objeto producir representacio-
nes de reducida dimensionalidad de colecciones de objetos. Se diferencian del Aná-
lisis en Componentes Principales, Análisis Factorial y AC en el punto de partida.
Mientras que en las técnicas citadas cada objeto viene descrito por un vector x
r
que proporciona su posición en un espacio p-dimensional, en el caso de del Rees-
calado Multidimensional el punto de partida es una matriz de proximidades. Esta
matriz puede contener disimilaridades, δ
ij
en que un mayor valor δ
ij
corresponde
a una mayor desemejanza entre los objetos i y j o similaridades, verificando lo
contrario.
No se hacen en principio supuestos acerca de la naturaleza de las similarida-
des o disimilaridades, que pueden obtenerse de muy diversos modos. Típicamente
proceden de promediar las percepciones declaradas de un colectivo de sujetos in-
terrogados, pero pueden tener cualquier otro origen.
El objetivo del Reescalado Multidimensional es producir una configuración
de puntos, idealmente de muy baja dimensión, cuya distancia euclídea ordinaria
reproduzca con la máxima fidelidad las disimilaridades δ
ij
.
Ejemplo 11.1 (semejanza entre códigos del alfabeto Morse) En Borg
and Groenen (1997), p. 54 se presenta un experimento realizado por Roth-
kopf (1957). Un colectivo de individuos escucha parejas de símbolos codi-
ficados en el alfabeto Morse, respondiendo si a su juicio son iguales o no.
Para la pareja formada por los símbolos i y j se computa la disimilaridad δ
ij
como el porcentaje de respuestas equivocadas (es decir, en las que el sujeto
manifiesta que los dos símbolos no son iguales cuando lo son, o al contrario).
101
102 CAPÍTULO 11. REESCALADO MULTIDIMENSIONAL
Hay símbolos que son fácilmente reconocibles como diferentes, incluso
por un oído no entrenado (por ej., R, .-. y Q -.-). Otros, en cambio, son
fácilmente confundibles. Obsérvese que pueden ser, y de hecho son, diferen-
tes los porcentajes de confusión al escuchar la misma pareja de símbolos en
los dos órdenes posibles: por tanto podríamos desear considerar δ
ij
= δ
ji
.
Obsérvese además que dos símbolos idénticos no siempre son reconocidos
como tales, y por tanto δ
ii
= 0 en general.
El empleo de la técnica del Reescalado Multidimensional produce una
mapa en dos dimensiones en que la ubicación relativa de los símbolos es
la esperable a la vista de su duración y composición de puntos y rayas. Por
ejemplo, E (en Morse, .) y T (en Morse, -) aparecen en posiciones contiguas.
Puede verse la configuración bidimensional y una interpretación de la misma
en Borg and Groenen (1997), p. 59.
Ejemplo 11.2 (reconstrucción de mapas a partir de información sobre
distancias) En ocasiones se emplea una matriz de disimilaridades obtenida de
modo objetivo. Por ejemplo, podríamos construir una tabla de doble entrada
cuyas filas y columnas se correspondieran con las capitales de provincia en
España. En el lugar ij, podemos introducir como disimilaridad la distancia
por carretera en kilómetros de una a otra. La configuración de puntos en dos
dimensiones proporcionada por las técnicas de Reescalado Multidimensional
debería aproximar la ubicación de las respectivas capitales de provincia. La
configuración de puntos en dos dimensiones no reproduce con total fidelidad
las posiciones de las capitales, porque las distancias consideradas lo son por
carretera. La Figura 11.1, pág. 103 muestra el resultado de realizar un tipo de
análisis de Reescalado Multidimensional.
11.2. Reescalado multidimensional métrico
La presentación sigue a Cox and Cox (1994).
Imaginemos que tenemos las coordenadas de un conjunto de puntos. La distan-
cia euclídea al cuadrado entre los puntos x
r
y x
s
vendría dada por:
d
2
rs
= |x
r
−x
s
|
2
= (x
r
−x
s
)

(x
r
−x
s
). (11.1)
Sea X una matriz N p cuya r-ésima fila es x
r

. Definamos la matriz B cuyo
elemento genérico b
rs
viene dado por x
r

x
s
. Claramente,
B = XX

(11.2)
es cuadrada, simétrica y puede diagonalizarse:
B = V

ΛV. (11.3)
A partir de una tal B podríamos encontrar una configuración de puntos
˜
X que la
reproduce:
˜
X = V

Λ
1
2
(11.4)
˜
X

= Λ
1
2
V. (11.5)
11.2. REESCALADO MULTIDIMENSIONAL MÉTRICO 103
Figura 11.1: Mapa reconstruido mediante reescalado multidimensional métrico a
partir de las distancias por carretera entre capitales de provincia.
−600 −400 −200 0 200 400

6
0
0

4
0
0

2
0
0
0
2
0
0
4
0
0
6
0
0
Albacete
Alicante
Almeria
Avila
Badajoz
Barcelona
Bilbao
Burgos
Caceres Cadiz
Castellon
Ciudad.Real
Cordoba
Coru.a
Cuenca
Gerona
Granada
Guadalajara
Huelva
Huesca
Jaen
Leon
Lerida
Logro.o
Lugo
Madrid
Malaga
Murcia
Orense
Oviedo
Palencia
Pamplona
Pontevedra
Salamanca
Donostia
Santander
Segovia
Sevilla
Soria
Tarragona
Teruel
Toledo
Valencia
Valladolid
Vitoria
Zamora
Zaragoza
104 CAPÍTULO 11. REESCALADO MULTIDIMENSIONAL
El problema de encontrar una configuración de puntos que reproduce una cierta B,
por tanto, está resuelto, al menos en tanto en cuanto dicha matriz B sea semidefi-
nida positiva y admita una diagonalización como (11.3). La pregunta es si a partir
de las distancias d
2
rs
podemos obtener una B para diagonalizarla.
Claramente, no puede haber solución única, porque toda traslación, rotación o
reflexión de una configuración de puntos deja sus distancias invariadas. Por tanto, la
solución estará indeterminada. No perderemos generalidad si suponemos un origen
arbitrario, y por comodidad podemos suponer la nube de puntos centrada, es decir:
1
N
N
¸
r=1
x
r
=
1
N
N
¸
s=1
x
s
= 0. (11.6)
De (11.1) obtenemos:
d
2
rs
= x
r

x
r
+x
s

x
s
−2x
r

x
s
, (11.7)
que sumando respecto de r, s y respecto de ambos índices a la vez proporciona en
virtud de (11.6):
1
N
N
¸
r=1
d
2
rs
=
1
N
N
¸
r=1
x
r

x
r
+x
s

x
s
(11.8)
1
N
N
¸
s=1
d
2
rs
=
1
N
N
¸
s=1
x
s

x
s
+x
r

x
r
(11.9)
1
N
2
N
¸
r=1
N
¸
s=1
d
2
rs
=
2
N
N
¸
r=1
x
r

x
r
. (11.10)
Por consiguiente, de (11.7) y haciendo uso de (11.8) a (11.10) tenemos que:
b
rs
= x
r

x
s
(11.11)
= −
1
2
¸
d
2
rs

1
N
N
¸
r=1
d
2
rs

1
N
N
¸
s=1
d
2
rs
(11.12)
+
1
N
2
N
¸
r=1
N
¸
s=1
d
2
rs
¸
. (11.13)
Llamando
a
rs
= −
1
2
d
2
rs
, (11.14)
tenemos que
b
rs
= a
rs
−a
r.
−a
.s
+a
..
(11.15)
en que a
r.
denota el promedio de a
rs
al sumar sobre el índice s (y análogamente
para a
..
y a
.s
). y si A es una matriz cuyo elemento genérico es a
rs
, entonces
B =

I −
1
N
1 1

A

I −
1
N
1 1

. (11.16)
11.2. REESCALADO MULTIDIMENSIONAL MÉTRICO 105
Hemos pues construido a partir de la matriz de distancias una matriz B a la que
aplicar la factorización en (11.3). No siempre ocurrirá que B obtenida a partir
de una matriz de disimilaridades pueda ser factorizada en la forma (11.3). Ello
será imposible cuando B tenga valores propios negativos; en tal caso, es frecuente
prescindir de los valores propios negativos, si no son muy grandes, o alterar la
matriz de disimilaridades inicial añadiendo una constante c a cada disimilaridad d
rs
con r = s. Siempre hay un c que hace que B obtenida a partir de las disimilaridades
así transformadas sea semidefinida positiva.
Tenemos pues el siguiente algoritmo:
Algoritmo 1 – Reescalado multidimensional métrico.
1: Obtener una matriz de disimilaridades.
2: A ←


1
2
d
2
rs

.
3: B ←

I −
1
N
1 1

A

I −
1
N
1 1

.
4: Diagonalizar B:
B = V

ΛV.
Si no fuera semidefinida positiva, añadir una constante a las disimilaridades no
diagonales, y recalcular; alternativamente, prescindir de los valores propios no
positivos de B.
5: Obtener la configuración de puntos
˜
X:
˜
X ←V

Λ
1
2
,
y retener el número de columnas deseado (normalmente, 2).
Obsérvese que si realmente existe una configuración de puntos X con matriz
B dada por (11.3) y los datos están centrados como hemos supuesto en (11.6), B
tiene los mismos valores propios que X

X. Es fácil ver entonces que las columnas
de
˜
X no son otra cosa que las componentes principales. El reescalado multidimen-
sional métrico aplicado a una B procedente de una configuración de puntos en el
espacio euclídeo no difiere pues (salvo en traslaciones, rotaciones o reflexiones) de
la solución que obtendríamos mediante un análisis en componentes principales de
los datos originales.
CUESTIONES, COMPLEMENTOS Y COSAS PARA HACER
11.1 Este es el código empleado en R para construir el mapa en la
Figura 11.1. El objeto spain es una matriz triangular superior conteniendo
las distancias en kilómetros entre capitales de provincia.
> distan <- spain + t(spain)
> distan[1:5,1:5]
Albacete Alicante Almeria Avila Badajoz
Albacete 0 171 369 366 525
Alicante 171 0 294 537 696
Almeria 369 294 0 663 604
Avila 366 537 663 0 318
106 CAPÍTULO 11. REESCALADO MULTIDIMENSIONAL
Badajoz 525 696 604 318 0
> library(mva)
> loc <- cmdscale(distan,k=2)
> x <- loc[,1]
> y <- loc[,2]
> postscript(file="mapa.eps")
> plot(x, y, type="n", xlab="", ylab="")
> text(x, y, names(distan))
Capítulo 12
Análisis discriminante
12.1. Introducción.
El problema que nos planteamos es el siguiente: tenemos una muestra de casos
clasificados en dos o más grupos. Inicialmente consideraremos sólo dos grupos,
para generalizar el análisis a continuación. Además de la clase o grupo a que perte-
nece cada caso, observamos p variables o características, y estamos interesados en
saber si los valores de dichas p variables tienen alguna relación con la pertenencia
a un grupo u otro.
La información disponible puede por tanto describirse como en la Tabla 12.1,
en que las X son las características observadas y la variable C toma dos valores,
C
1
ó C
2
, indicativas de la pertenencia del caso correspondiente al primer o segundo
grupo.
Un análisis discriminante puede tener objetivo:
Descriptivo, si estamos sólo interesados en poner en evidencia la capacidad
discriminante de un cierto conjunto de variables,
Decisional, si buscamos un criterio que nos permita decidir sobre la adscrip-
ción a uno de los grupos de un caso nuevo, no perteneciente a la muestra de
entrenamiento.
Es quizá el segundo objetivo el más usualmente perseguido. Se trata, de emplear la
muestra de entrenamiento para buscar relaciones entre las variables X y la variable
C
k
, k = 1, 2, que permitan evaluar lo mejor posible ésta última como función de las
primeras. Ello permite clasificar casos no pertenecientes a la muestra de entrena-
miento. Los ejemplos siguientes muestran algunas de las muchísimas aplicaciones
que se han dado al método.
107
108 CAPÍTULO 12. ANÁLISIS DISCRIMINANTE
Cuadro 12.1: Muestra de entrenamiento en análisis discriminante con dos grupos
X
11
. . . X
1p
C
1
X
21
. . . X
2p
C
1
.
.
.
.
.
.
.
.
.
X
N
1
1
. . . X
N
1
p
C
1
X
N
1
+1,1
. . . X
N
1
+1,p
C
2
X
N
1
+2,1
. . . X
N
1
+2,p
C
2
.
.
.
.
.
.
.
.
.
X
N
1
+N
2
,1
. . . X
N
1
+N
2
,p
C
2
Ejemplo 12.1 (recuperación de información perdida) En ocasiones, la
variable C
k
se ha perdido irreversiblemente. Por ejemplo, un esqueleto ha-
llado en una necrópolis no contiene atributos que permitan su adscripción
directa a un hombre o mujer.
Sin embargo, si contamos con una muestra de entrenamiento formada
por esqueletos de los que sabemos si pertenecen a hombres y mujeres (por
ejemplo, por la naturaleza de los objetos encontrados en el enterramiento),
podemos tratar de ver si existe alguna asociación entre las medidas de los
diversos huesos (las X) y el sexo del fallecido (C
k
). Esto permite clasificar
un nuevo esqueleto del que sólo observamos las X.
Ejemplo 12.2 (información accesible al hombre, pero no a la máqui-
na) Hay problemas en los que la adscripción de un caso a un grupo es muy
fácil de decidir para un humano, pero no para una máquina. Por ejemplo, re-
conocemos fácilmente las letras del alfabeto, incluso manuscritas. Sin embar-
go, el reconocimiento de las mismas por una máquina (a partir, por ejemplo,
de una imagen explorada ópticamente), dista de ser trivial.
En un caso como éste, las variables X serían binarias (0=elemento de
imagen o pixel blanco, 1=negro) o rasgos (features) que facilitaran la discri-
minación (por ejemplo, ratio altura/anchura de la letra, existencia de descen-
dentes, . . .).
Ejemplo 12.3 (predicción) En ocasiones, la adscripción a grupo es to-
davía incierta o inexistente, y el tratar de anticiparla es del mayor interés. Por
ejemplo, sobre la base de análisis clínicos (cuyos resultados serían las X)
un médico puede tratar de clasificar sus pacientes en aquéllos que presentan
grave riesgo de padecer un infarto y aquéllos que no.
Análogamente, sobre la base de información sobre un cliente podemos
intentar decidir si comprará o no un producto, o si entrará o no en morosidad
si se le concede un crédito.
En ambos casos, la variable C
k
todavía no ha tomado un valor, pero con
ayuda de una muestra de casos en que si lo ha hecho, tratamos de anticipar
el valor probable a la vista de las variables X observables.
12.2. DISCRIMINACIÓN MÁXIMO-VEROSÍMIL 109
Es importante notar que estamos ante un problema genuinamente estadístico,
y no podemos habitualmente esperar un discriminación perfecta. Los grupos pue-
den tener cierto solapamiento (por ejemplo, de dos pacientes con exactamente los
mismos valores de X, uno puede padecer un infarto y otro no).
Es también de interés señalar que es específico al análisis discriminante el con-
tar con una muestra de entrenamiento: sabemos de partida a qué grupos pertenecen
los componentes de la misma. Otro grupo de técnicas relacionadas (análisis de
agrupamientos o análisis cluster) aborda el problema en que sólo conocemos las
X, y queremos decidir sobre la existencia o no de grupos, cuantos, y cuáles. En la
literatura sobre Inteligencia Artificial, técnicas como las del análisis discriminante
se engloban en la denominación aprendizaje supervisado, en tanto las del análisis
de agrupamientos se describen como aprendizaje no supervisado.
12.2. Discriminación máximo-verosímil
Una manera conceptualmente simple e intuitiva de resolver el problema es
abordarlo con criterio máximo verosímil. Asignaremos una observación con X =
x a la clase C
k
si ésta tiene óptima capacidad generadora de la misma, es decir, si
f(x[C
k
) = m´ax
j
f(x[C
j
). (12.1)
Al margen de su carácter intuitivamente atrayente, es fácil demostrar que asig-
nar a C
k
cuando se verifica (12.1) minimiza la probabilidad total de error de asig-
nación. En efecto, cualquier regla discriminante puede verse como una partición
¦R
1
, R
2
¦ del dominio de definición A de las X, de forma que x ∈ R
1
suponga
asignar a C
1
y x ∈ R
2
suponga asignar a C
2
. La probabilidad total de error, P(e),
es entonces
P(e) =

R
1
f(x[C
2
)dx +

R
2
f(x[C
1
)dx (12.2)
=

R
1
f(x[C
2
)dx +

X−R
1
f(x[C
1
)dx (12.3)
La primera integral en (12.2) es la probabilidad de que un caso perteneciente a la
clase C
2
(con densidad por tanto f(x[C
2
)) esté en R
1
. El valor de la integral es
por tanto la probabilidad de uno de los tipos posibles de error: el de clasificar en
C
1
(por ser x ∈ R
1
) un caso que en realidad pertenece a C
2
. Análogamente, la
segunda integral es la probabilidad de clasificar en C
2
un caso perteneciente a C
1
.
En (12.3), P(e) ha de minimizarse sobre R
1
. Es claro entonces que, siendo los
integrandos necesariamente no negativos, convendrá incluir en R
1
todos aquellos
puntos de A tales que f(x[C
2
) < f(x[C
1
) y en R
2
los que verifiquen lo contrario
1
.
Esta es precisamente la regla (12.1).
1
A efectos de probabilidad de error, los puntos verificando f(x|C2) = f(x|C1) pueden arbitra-
riamente asignarse a cualquiera de las dos clases.
110 CAPÍTULO 12. ANÁLISIS DISCRIMINANTE
Formalmente, de (12.3) obtenemos:
P(e) =

R
1
f(x[C
2
)dx +

X
f(x[C
1
)dx −

R
1
f(x[C
1
)dx (12.4)
=

R
1
(f(x[C
2
) −f(x[C
1
))dx + 1 (12.5)
expresión que claramente queda minimizada si tomamos como R
1
la región de A
definida así:
R
1
= ¦x : f(x[C
2
) −f(x[C
1
) ≤ 0¦ (12.6)
La regla de asignación indicada puede además con gran facilidad modificarse
de modo que tenga en cuenta información a priori y/o diferentes costos de error
en la clasificación. Esta cuestión se detalla en la Sección que sigue, que generaliza
y amplía la regla de asignación máximo verosímil dando entrada a información a
priori.
Ejemplo 12.4 Las situaciones de fuerte asimetría en los costes de de-
ficiente clasificación son la regla antes que la excepción. Por ejemplo, puede
pensarse en las muy diferentes consecuencias que tiene el clasificar a una
persona sana como enferma y a una persona enferma como sana. En el pri-
mer caso, el coste será quizá el de un tratamiento innecesario; el el segundo,
el (normalmente mucho mayor) de permitir que un paciente desarrolle una
enfermedad que quizá hubiera podido atajarse con un diagnóstico precoz.
Las situaciones con información a priori son también muy frecuentes.
Un caso frecuente es aquél en que la abundancia relativa de los grupos es
diferente, situación en la que tiene sentido adoptar probabilidades a priori
diferentes para cada grupo (Sección 12.3).
12.3. Discriminación con información a priori
Es lo habitual que contemos con información a priori, distinta de la proporcio-
nada por las X, acerca de la probabilidad de pertenencia a cada uno de los grupos
considerados. Por ejemplo, si sabemos que la clase C
1
es nueve veces más numero-
sa que la clase C
2
en la población que analizamos, tendría sentido fijar a priori las
probabilidades de pertenencia P(C
1
) = 0,9 y P(C
2
) = 0,1. La intuición sugiere,
y el análisis que sigue confirma, que en tal situación la evidencia proporcionada
por las X debería ser mucho más favorable a C
2
para lograr la asignación a dicha
clase que cuando ambas clases son igual de numerosas.
El teorema de Bayes es cuanto necesitamos para incorporar información a prio-
ri a nuestra regla de decisión. En efecto, si consideramos la densidad conjunta
f(x, C
k
) tenemos que:
P(C
k
[x) =
f(x[C
k
)P(C
k
)
f(x)
=
f(x[C
k
)P(C
k
)
¸
j
f(x[C
j
)P(C
j
)
(12.7)
12.3. DISCRIMINACIÓN CON INFORMACIÓN A PRIORI 111
La regla ahora será asignar xa aquella clase cuya probabilidad a posteriori P(C
k
[x)
sea máxima. Por lo tanto, podemos particionar A en dos regiones, ¦R
1
, R
2
¦ defi-
nidas así:
R
1
= ¦x : f(x[C
1
)P(C
1
) > f(x[C
2
)P(C
2
)¦ (12.8)
R
2
= A −R
1
(12.9)
Un argumento idéntico al empleado en la sección anterior muestra, en efecto, que
actuando así minimizamos la probabilidad total de error. Obsérvese que, siendo el
denominador de (12.7) el mismo en todos los casos, maximizar respecto a C
k
el
producto f(x[C
k
)P(C
k
) es equivalente a maximizar P(C
k
[x).
Por otra parte, al ser en (12.7) el denominador siempre el mismo,
P(C
k
[x) ∝ f(x[C
k
)P(C
k
). (12.10)
Si todas las probabilidades a priori P(C
k
) son iguales, P(C
k
[x) ∝ f(x[C
k
) y la
regla bayesiana coincide con la máximo verosímil, pues (12.1) y (12.10) alcanzan
el máximo para la misma clase C
k
. Cuando hay información a priori, los resultados
pueden en cambio variar sustancialmente. El ejemplo siguiente, una situación arti-
ficialmente simple de control de calidad presentada como un problema de análisis
discriminante, lo muestra.
Ejemplo 12.5 Una prensa moldea piezas en lotes de 100 a la vez. La
experiencia muestra que con probabilidad 0.99 se obtienen lotes casi perfec-
tos, con un 2 % de fallos. Con probabilidad 0.01, sin embargo, se obtienen
lotes de muy mala calidad, con un 30 % de piezas defectuosas.
Supongamos que para decidir si un lote es “bueno” (B) o “malo” (M)
tenemos la posibilidad de extraer una pieza al azar del lote, que examinada
puede ser “correcta” (c) ó “defectuosa” (d). Podemos ver este problema de
decisión como un problema de análisis discriminante, en que observamos una
única variable X —el estado de la pieza examinada— y hemos de decidir la
clase a la que pertenece el lote muestreado (B ó M).
Supongamos que examinamos una pieza extraída de un lote y resulta
ser defectuosa. Si nos limitamos a seguir el criterio máximo verosímil sin
considerar la información a priori, tendríamos,
P(X = d[B) = 0,02 (12.11)
P(X = d[M) = 0,30, (12.12)
a la vista de lo cual concluiríamos que el lote es M. La situación es comple-
tamente diferente si consideramos la información a priori que tenemos, pues
112 CAPÍTULO 12. ANÁLISIS DISCRIMINANTE
entonces hemos de comparar:
P(B[X = d) =
P(X = d[B)P(B)
P(X = d)
=
0,02 0,99
0,02 0,99 + 0,3 0,01
= 0,8684 (12.13)
P(M[X = d) =
P(X = d[M)P(M)
P(X = d)
=
0,30 0,01
0,02 0,99 + 0,3 0,01
= 0,1316 (12.14)
Pese a ser la pieza examinada defectuosa, la probabilidad a posteriori de que
el lote examinado sea bueno sigue siendo superior. En otras palabras, es tan
grande el “prejuicio” a favor de que el lote examinado sea bueno que no basta
encontrar una sola pieza defectuosa para derrotarlo.
Obsérvese que, como ya ha sido hecho notar, los denominadores en
(12.13) y (12.14) son idénticos, por lo que a efectos de decidir cuál es la cla-
se con mayor probabilidad a posteriori bastaba con calcular los numeradores.
Estos numeradores, o cualquier transformación monótona de los mismos, se
denominan funciones discriminantes. En la práctica, se estiman las funcio-
nes discriminantes con ayuda de la muestra de entrenamiento, y luego basta
evaluar cada una de ellas para los nuevos casos a clasificar.
El caso de diferentes costes de error, arriba mencionado, puede ser tratado de
forma simple. Si en lugar de la probabilidad de error minimizamos el coste medio
total de error, la expresión a minimizar se transforma en
C(e) = ℓ
2

R
1
f(x[C
2
)P(C
2
)dx +ℓ
1

X−R
1
f(x[C
1
)P(C
1
)dx(12.15)
en que ℓ
i
(i = 1, 2) es el coste asociado a clasificar mal un caso del grupo i-ésimo.
Las integrales en (12.15) son las probabilidades a posteriori de que un caso en
el grupo C
2
(o C
1
) quede clasificado en el grupo C
1
(respectivamente C
2
). Un
desarrollo idéntico al efectuado más arriba lleva a ver que la regla de clasificación
minimizadora consiste en tomar R
1
la región del espacio A definida así:
R
1
= ¦x : ℓ
2
f(x[C
2
)P(C
2
) −ℓ
1
f(x[C
1
)P(C
1
) ≤ 0¦ (12.16)
Hemos razonado para el caso de dos grupos, pero la generalización a K grupos
es inmediata. Para cada caso x a clasificar y grupo C
j
, (j = 1, . . . , K), evaluare-
mos las funciones discriminantes y
i
(x), i = 1, . . . , K. Asignaremos al grupo k si
y
k
(x) = m´ax
j
y
j
(x). Las funciones discriminantes serán
y
j
(x) = f(x[C
j
)P(C
j
). (12.17)
En el caso de que tengamos una matriz de costes asociados a deficiente clasifica-
ción, L = ¦ℓ
ij
¦, en que ℓ
ij
es el coste de clasificar en C
j
un caso que pertenece a
12.4. VARIABLES NORMALES 113
C
i
, asignaríamos a C
j
si
j = arg m´ın
j
¸
i

ij
f(x[C
i
)P(C
i
). (12.18)
Como funciones discriminantes y
j
(x) podríamos emplear cualesquiera que fueran
transformaciones monótonas de las que aparecen en el lado derecho de (12.18).
12.4. Variables normales
El desarrollo anterior presupone conocidas las funciones de densidad o proba-
bilidad f(x[C
k
), y, en su caso, las probabilidades a priori de pertenencia a cada
grupo. En ocasiones (como en el Ejemplo 12.5 anterior) puede admitirse que di-
chas funciones son conocidas. Pero en el caso más habitual, tenemos que estimar
f(x[C
k
) y el modelo más frecuentemente utilizado es el normal multivariante.
Al margen de su interés y aplicabilidad en sí mismo, por ser adecuado a mul-
titud de situaciones, sucede que los resultados a que da lugar son muy simples
(variables discriminantes lineales, en el caso más habitual) y pueden ser justifica-
dos de modos alternativos (empleando el enfoque de Fisher, como veremos más
abajo). Esto hace que las reglas discriminantes que describimos a continuación
sean las más empleadas en la práctica. Si las observaciones obedecen aproxima-
damente un modelo normal multivariante, los resultados son óptimos en el sentido
en que la discriminación bayesiana lo es. Si la aproximación normal no es buena,
la discriminación lineal todavía es justificable desde perspectivas alternativas. En
algunos casos, que mencionaremos, el problema simplemente no se presta a una
discriminación lineal y hay que emplear procedimientos diferentes.
12.4.1. Matriz de covarianzas Σ común y dos grupos
Cuando f(x[C
k
) ∼ N(µ
k
, Σ), k = 1, 2, la regla de decisión consiste en asig-
nar al grupo C
1
si:

2
f(x[C
2
)P(C
2
) −ℓ
1
f(x[C
1
)P(C
1
) ≤ 0 (12.19)
equivalente, tras sencillas manipulaciones, a:
(2π)
−p/2
[Σ[

1
2
exp
¸

1
2
(x −µ
1
)

Σ
−1
(x −µ
1
)
¸
(2π)
−p/2
[Σ[

1
2
exp
¸

1
2
(x −µ
2
)

Σ
−1
(x −µ
2
)
¸


2
P(C
2
)

1
P(C
1
)
. (12.20)
Simplificando y tomando logaritmos, la expresión anterior es equivalente a
−(x −µ
1
)

Σ
−1
(x −µ
1
) + (x −µ
2
)

Σ
−1
(x −µ
2
) ≥ 2 log
e


2
P(C
2
)

1
P(C
1
)

.
Tras realizar los productos en las formas cuadráticas del lado izquierdo y cancelar
términos iguales, obtenemos la regla:
114 CAPÍTULO 12. ANÁLISIS DISCRIMINANTE
“Asignar a C
1
si:
x

Σ
−1

1
−µ
2
) ≥
1
2
µ
1

Σ
−1
µ
1

1
2
µ
2

Σ
−1
µ
2
+ log
e


2
P(C
2
)

1
P(C
1
)

(12.21)
y a C
2
en caso contrario.”
Vemos que el lado derecho de (12.21) es constante, y su valor c puede ser
estimado una sola vez. El lado izquierdo es una forma lineal a

x en que los coefi-
cientes a también pueden ser estimados una sola vez. Hecho esto, la regla discri-
minante es tan simple como evaluar para cada nuevo caso una función lineal a

x
y comparar el valor obtenido con el umbral c:
“Asignar x a C
1
si a

x ≥ c, y a C
2
en caso contrario.”
Las estimaciones tanto de a como de c se obtienen sustituyendo µ
1
, µ
2
y Σ
por sus respectivos estimadores.
Aunque en la forma expresada la regla discriminante es de utilización muy
simple, podemos definir también funciones discriminantes
y
1
(x) = a

x −c (12.22)
y
2
(x) = c −a

x (12.23)
asignando x al grupo k si y
k
(x) es máximo.
Obsérvese que ℓ
1
, ℓ
2
, P(C
1
) y P(C
2
) sólo intervienen en la regla discriminante
modificando el umbral que a

x debe superar para dar lugar a asignación al grupo
C
1
. La influencia sobre dicho umbral es la esperable: mayores valores de ℓ
2
(coste
de clasificar en C
1
un caso que realmente pertenece a C
2
) y P(C
2
) incrementan el
umbral, en tanto mayores valores de ℓ
1
y P(C
1
) lo disminuyen.
12.4.2. Diferentes covarianzas: Σ
1
= Σ
2
, y dos grupos
El análisis es enteramente similar, pero el resultado menos simple. En efecto,
en lugar de la expresión (12.20) tenemos ahora
(2π)
−p/2

1
[

1
2
exp
¸

1
2
(x −µ
1
)

Σ
−1
1
(x −µ
1
)
¸
(2π)
−p/2

2
[

1
2
exp
¸

1
2
(x −µ
2
)

Σ
−1
2
(x −µ
2
)
¸


2
P(C
2
)

1
P(C
1
)
,
que tomando logaritmos, proporciona:
−(x −µ
1
)

Σ
−1
1
(x −µ
1
) + (x −µ
2
)

Σ
−1
2
(x −µ
2
) ≥ 2 log
e


2
P(C
2
)[Σ
2
[

1
2

1
P(C
1
)[Σ
1
[

1
2

.
Simplificando y llevando constantes al lado derecho, obtenemos:
−x


−1
1
−Σ
−1
2
)x + 2x


−1
1
µ
1
−Σ
−1
2
µ
2
) ≥ 2 log
e


2
P(C
2
)[Σ
2
[

1
2

1
P(C
1
)[Σ
1
[

1
2


1

Σ
−1
1
µ
1
−µ
2

Σ
−1
2
µ
2
. (12.24)
12.5. LA REGLA LINEAL DE FISHER 115
No ha habido en (12.24) cancelación del término cuadrático en x como ocurre
cuando Σ
1
= Σ
2
. La regla discriminante es ahora
“Asignar x a C
1
si x

Ax +a

x ≥ c, y a C
2
en caso contrario.”
en que:
A = −(Σ
−1
1
−Σ
−1
2
)
a = 2(Σ
−1
1
µ
1
−Σ
−1
2
µ
2
)
c = 2 log
e


2
P(C
2
)[Σ
2
[

1
2

1
P(C
1
)[Σ
1
[

1
2


1

Σ
−1
1
µ
1
−µ
2

Σ
−1
2
µ
2
.
La frontera entre las dos regiones en que queda dividido el espacio A es ahora
una hiper-superficie de ecuación cuadrática, mientras que cuando Σ
1
= Σ
2
dicha
hiper-superficie es un hiper-plano.
12.4.3. Caso de varios grupos
El desarrollo al final de la Sección 12.3 es ahora de aplicación, sustituyendo en
(12.18) las densidades por sus expresiones correspondientes. Algunos casos parti-
culares son de interés. Si ℓ
ij
= 1 para i = j y ℓ
ii
= 0 para todo i, entonces la regla
será asignar al grupo C
i
cuando
i = arg m´ax
j

1
(

2π)
p

j
[
1
2
e

1
2
(x−µ
j
)

Σ
−1
j
(x−µ
j
)
P(C
j
)
¸
,
o, tomando logaritmos y prescindiendo de constantes, cuando:
i = arg m´ax
j

−log
e

j
[
1
2

1
2
(x −µ
j
)

Σ
−1
j
(x −µ
j
) + log
e
P(C
j
)

.
En el caso aún más particular de matrices de covarianzas idénticas, la regla anterior
se reduce a asignar a C
i
cuando
i = arg m´ax
j

log
e
P(C
j
) + (x −
1
2
µ
j
)

Σ
−1
µ
j

.
12.5. La regla lineal de Fisher
Fisher propuso en 1936 un procedimiento de discriminación lineal que coincide
con la regla derivada para dos poblaciones normales con matriz de covarianzas
común. En la aproximación de Fisher, la normalidad no es un supuesto. En cambio,
la linealidad sí que lo es, en lugar de aparecer como un resultado.
116 CAPÍTULO 12. ANÁLISIS DISCRIMINANTE
12.5.1. Dos grupos con matriz de covarianzas Σ común
El razonamiento es el siguiente: buscamos una función lineal a

x que separe
óptimamente dos grupos, en un sentido que veremos. Ello requiere que a

x to-
me valores “altos” en promedio para valores en un grupo, y “bajos” en otro. Una
manera de requerir esto, es buscar un a que maximice

a

µ
1
−a

µ
2

2
=

a


1
−µ
2
)

2
, (12.25)
es decir, que separe bien los vectores de medias de ambos grupos. El cuadrado
tiene por objeto eliminar el signo, pues nos importa la diferencia de a

x evaluada
en µ
1
y µ
2
, y no su signo.
Maximizar (12.25) es un problema mal especificado: basta multiplicar a por
α > 1 para incrementar (12.25). Esto carece de interés: no estamos interesados en
maximizar el valor numérico de (12.25) per se, sino en lograr que tome valores lo
más claramente diferenciados posibles para casos en cada uno de los dos grupos.
Un modo de obtener una solución única es fijando la escala de a. Podríamos
fijar [[a[[
2
= 1, pero, como veremos en lo que sigue, tiene mayor atractivo hacer
a

Σa = 1; o, alternativamente, resolver
m´ax
a

[a


1
−µ
2
)]
2
a

Σa

, (12.26)
que es de nuevo un problema indeterminado hasta un factor de escala
2
, y normali-
zar una solución cualquiera de modo que a

Σa = 1.
Adoptemos esta última vía. Derivando (12.26) respecto de a e igualando el
numerador a cero, obtenemos (véase Apéndice A)
2(µ
1
−µ
2
)a


1
−µ
2
](a

Σa) −2

a


1
−µ
2
)

2
Σa = 0. (12.27)
Si prescindimos de las constantes, vemos que (12.27) proporciona
Σa ∝ (µ
1
−µ
2
) ⇒a ∝ Σ
−1

1
−µ
2
), (12.28)
que es la solución que ya teníamos para a en la Sección 12.4.1.
La expresión (12.26) cuya maximización proporciona a (hasta una constante de
proporcionalidad, como se ha visto) es de interés. Obsérvese que el denominador es
la varianza de a

X. El numerador es el cuadrado de la diferencia entre los valores
que toma a

X en µ
1
y µ
2
. Lo que se maximiza, pues, es la razón de esta diferencia
al cuadrado de valores de a

X en términos de su propia varianza, var(a

X).
Podemos ver (12.26) como una relación señal/ruido: el numerador es la “señal”
y el denominador el “ruido.” Buscamos pues una función a

X que maximice la
relación señal/ruido.
2
Pues (12.26) es invariante al multiplicar a por una constante cualquiera.
12.5. LA REGLA LINEAL DE FISHER 117
Figura 12.1: La mejor dirección discriminante puede no ser aquélla en que más
dispersión presentan las observaciones
Mejor direccon discriminante
Primera componente
principal
µ
1
µ
2
Es importante observar que la dirección en la que las observaciones presenta
máxima dispersión (que corresponde a la primera componente principal) no ne-
cesariamente es la mejor dirección discriminante, incluso aunque a lo largo de la
misma los vectores de medias de los grupos resultasen máximamente separados.
La Figura 12.1 es ilustrativa: se muestran contornos de igual densidad de dos gru-
pos, y una línea sólida en la dirección de la primera componente principal. En esta
dirección se presenta la máxima varianza de las observaciones. Sin embargo, es fá-
cil ver que en la dirección de la línea discontinua se obtiene una separación mucho
mejor de los dos grupos: es la dirección de a en (12.28).
12.5.2. Más de dos grupos con matriz de covarianzas Σ común
Conceptualmente el planteamiento es idéntico, pero los resultados son más
complejos. Si hay K grupos, hay en general no una sino hasta K − 1 variables
discriminantes, combinaciones lineales de las X originales.
Sean pues K grupos, y consideremos una muestra de entrenamiento con n
i
casos (i = 1, . . . , K) en cada grupo. El tamaño total de la muestra es así n =
¸
K
i=1
n
i
. Denotamos por X
i(j)
la observación i-ésima en el grupo j-ésimo. Defi-
118 CAPÍTULO 12. ANÁLISIS DISCRIMINANTE
namos:
X = n
−1
K
¸
i=1
n
i
¸
j=1
X
i(j)
(12.29)
X
i
= n
−1
i
n
i
¸
j=1
X
i(j)
(12.30)
T =
K
¸
i=1
n
i
¸
j=1
(X
i(j)
−X)(X
i(j)
−X)

(12.31)
W
i
=
n
i
¸
j=1
(X
i(j)
−X
i
)(X
i(j)
−X
i
)

(12.32)
W = W
1
+. . . +W
K
(12.33)
B = T −W. (12.34)
Es entonces fácil demostrar (véase Ejercicio 12.1) que B =
¸
K
i=1
n
i
(X
i
−X)(X
i
−X)

y X = n
−1
¸
K
i=1
n
i
X
i
. Un razonamiento similar al empleado al obtener el discri-
minante lineal en el caso de dos grupos, sugeriría ahora maximizar
¸
K
i=1

a


n
i
(X
i
−X)

2
¸
K
i=1

a

¸
n
i
j=1
(X
i(j)
−X
i
)

2
=
a

Ba
a

Wa
def
= λ. (12.35)
Derivando respecto a a obtenemos la igualdad matricial
(B −λW)a = 0. (12.36)
Bajo el supuesto de que W tiene inversa, la igualdad anterior es equivalente a
(W
−1
B −λI)a = 0. (12.37)
Esta tiene solución no trivial para valores λ y vectores a que son respectiva-
mente valores y vectores propios de la matriz cuadrada W
−1
B. Hay a lo sumo
q = m´ın(p, K−1) valores propios no nulos (por ser este el rango de B y por tanto
de W
−1
B; Ejercicio 12.2).
Es interesante observar lo que proporciona el método. Si hubiéramos de retener
una sola dirección discriminante —como hacíamos en el caso de dos grupos—,
tomaríamos la determinada por a
1
, siendo (λ
1
, a
1
) el par formado por el mayor
valor propio y su vector propio asociado. En efecto, tal elección de a maximiza el
cociente
λ =
a

Ba
a

Wa
(véase Ejercicio 12.3). Pero puede haber otras direcciones (como la asociada a a
2
en la Figura 12.2) “especializadas” en separar algún subconjunto de los grupos (C
1
12.6. EVALUACIÓN DE FUNCIONES DISCRIMINANTES 119
Figura 12.2: Con p = 3 grupos hay hasta p − 1 direcciones discriminantes. Puede
haber direcciones discriminantes asociadas a un λ bajo, y no obstante muy útiles
para discriminar en algún subconjunto. Por ejemplo, la dirección asociada a a
2
discrimina bien entre los grupos C
1
y C
2
por un lado y C
3
por otro.
µ
1
µ
2
µ
3
a
1
a
2
y C
2
por un lado y C
3
por otro, en la Figura 12.2). Obsérvese que los vectores
propios de W
−1
B, y por tanto las direcciones discriminantes, no son en general
ortogonales, pues W
−1
B no es simétrica.
Observación 12.1 Hay una interesante relación entre la solución ante-
rior y los resultados que derivarían de análisis de correlación canónica y MA-
NOVA equivalentes. Si completamos los datos de la muestra de entrenamien-
to con K columnas con valores 0 y 1 tal como en la ecuación (4.12), pág. 54,
obtendríamos pares de variables canónicas incorreladas y con correlación en-
tre ellas respectivamente máxima. Los vectores a
1
, . . . , a
K−1
coincidirían
con los obtenidos al hacer análisis discriminante lineal de los K grupos. Los
vectores de coeficientes b
1
, . . . , b
K−1
de las variables canónicas “parejas”,
aportarían una información interesante: son combinaciones de variables 0-1
que resultan máximamente correladas con las a
1

X, . . . , a
K−1

X, e indi-
can entre qué grupos discriminan dichas variables.
12.6. Evaluación de funciones discriminantes
Estimadas la o las funciones discriminantes con ayuda de la muestra de en-
trenamiento, hay interés en tener un modo de medir su eficacia en la separación
de grupos. Conceptualmente, no hay mucha diferencia entre evaluar una función
discriminante y un modelo de regresión. En el caso de una función discriminante
el problema es más arduo, por causa de la (habitualmente) elevada dimensionali-
120 CAPÍTULO 12. ANÁLISIS DISCRIMINANTE
dad. Nos limitaremos a algunas ideas básicas: un tratamiento más completo puede
encontrarse en Hand (1981).
La idea que primero acude a nuestra mente es la de examinar el comportamien-
to de la función discriminante sobre la muestra de entrenamiento. ¿Clasifica bien
los casos en dicha muestra? Esto es similar a examinar el ajuste —quizá median-
te el R
2
— de un modelo de regresión lineal. Alternativamente, podríamos llevar
a cabo un análisis MANOVA para contrastar la hipótesis de igualdad de grupos:
esto sería similar a contrastar la nulidad de todos los parámetros en un modelo de
regresión lineal.
Sin embargo, a poco grande que sea el número de variables empleadas en la
discriminación, la tasa de error aparente (la tasa de error al reclasificar la mues-
tra de entrenamiento) será una estimación muy optimista. Al emplear la función
discriminante sobre datos diferentes a los de la muestra de entrenamiento, obten-
dremos tasas de error, por lo general, sensiblemente mayores.
Observación 12.2 En esencia, la razón por la que la tasa de error apa-
rente es un estimador optimista de la tasa de error real esperable es la misma
que hace que ˆ σ
2
= n
−1
¸
n
i=1
(X
i
− X)
2
sea un estimador optimista de la
varianza poblacional: hemos reemplazado E(X) por X, el estimador de la
media que mejor se adapta a la muestra (en términos de suma de cuadrados
residual). No es extraño que ˆ σ
2
sea sesgado por defecto. Este sesgo es el que
se corrige sustrayendo del denominador n el número de grados de libertad
consumidos (en este caso, uno), lo que proporciona el estimador insesgado
habitual (n −1)
−1
¸
n
i=1
(X
i
−X)
2
.
En el análisis discriminante, la probabilidad de obtener una separación
espúrea cuando podemos fijar la posición del hiperplano separador en un
espacio elevadamente dimensional, es sorprendentemente alta, como el Teo-
rema 12.1 más abajo pone de manifiesto.
Una percepción intuitiva de lo extremadamente optimista que puede resultar
una función discriminante lineal en un espacio de elevada dimensionalidad puede
obtenerse así: consideremos N puntos procedentes todos de una misma distribu-
ción d-dimensional, etiquetados al azar como proviniendo la mitad de ellos del
grupo G1 y la otra mitad del G2. La probabilidad teórica de que un procedimiento
cualquiera asigne bien un punto sería de p = 0,5: los puntos provienen en realidad
de la misma distribución, y no podemos obtener mejor tasa de error que la que
resultaría de asignar puntos a uno u otro grupo lanzando una moneda al aire.
La probabilidad de encontrar un hiperplano que separa perfectamente los pun-
tos aleatoriamente asignados a un grupo de los asignados al otro, es sin embargo
bastante apreciable, como se deduce del siguiente teorema debido a Cover (ver
Bishop (1996), pág. 86-87).
Teorema 12.1 La probabilidad F(N, d) de perfecta separación de N puntos en
posición general en un espacio d dimensional viene dada por
F(N, d) =

1 si N ≤ d + 1
2
−N+1
¸
d
i=0

N−1
i

cuando N ≥ d + 1.
(12.38)
12.6. EVALUACIÓN DE FUNCIONES DISCRIMINANTES 121
Figura 12.3: Probabilidad F(N, d) de separar perfectamente N puntos en posición
general en un espacio de d = 10 dimensiones
0 10 20 30 40
0
.
0
0
.
4
0
.
8
N
F
(
N
,
d
)
Si representamos gráficamente F(N, d) frente a N (para d = 10), obtenemos
una gráfica como la de la Figura 12.3. Hasta que el número de puntos N duplica
el de dimensiones d, la probabilidad de perfecta separabilidad es superior a
1
2
.
Separaciones no perfectas se obtienen con probabilidad aún mayor, pese a que los
puntos son indistinguibles.
Hay varias opciones para combatir el sesgo en la tasa de error aparente. Pode-
mos evaluar la función discriminante sobre una muestra de validación, distinta de
la que ha servido para estimar la función: ello dará una estimación insesgada de la
tasa de error.
Si no disponemos de una muestra de validación, podemos recurrir a hacer vali-
dación cruzada, consistente en subdividir la muestra en K partes, estimar la función
discriminante con (K−1) de ellas y evaluar sobre la restante. Si hacemos que cada
una de las K partes sea por turno la muestra de validación, tenemos la técnica de
validación cruzada: obtenemos K diferentes estimadores de la tasa de error —cada
uno de ellos, dejando fuera a efectos de validación una de las K partes en que se
ha subdividido la muestra—, y podemos promediarlos para obtener un estimador
final. En el caso extremo (leave one out), podemos dividir la muestra en N par-
tes consistentes en una única observación, estimar N funciones discriminantes con
(N − 1) observaciones y asignar la restante tomando nota del acierto o error. El
total de errores dividido entre N estimaría la tasa de error.
122 CAPÍTULO 12. ANÁLISIS DISCRIMINANTE
12.7. Bibliografía comentada
Casi todos los manuales de Análisis Multivariante contienen una introduc-
ción al análisis discriminante. Ejemplos son Cuadras (1981), Dillon and Goldstein
(1984), y Rencher (1995).
Una monografía algo antigua pero todavía de valor es Lachenbruch (1975), que
contiene mucha bibliografía. Hand (1981) es otro libro que continua manteniendo
su interés. Más actual, con una buena bibliografía, es Hand (1997).
Una monografía moderna es McLachlan (1992); no tiene estructura de texto,
ni es quizá la fuente más adecuada para una primera aproximación al tema, pero
es útil para profundizar en el mismo. Bishop (1996) es un libro sobre redes neuro-
nales, especialmente aplicadas a reconocimiento de pautas y desde una perspectiva
estadística; el Capítulo 3 compara la versión más simple de perceptrón con el mé-
todo clásico de Fisher. El resto del libro es también de interés.
CUESTIONES, COMPLEMENTOS Y COSAS PARA HACER
12.1 En la Sección 12.5.2 se ha definido B = T − W. Demuéstrese
que
B =
K
¸
i=1
n
i
(X
i
−X)(X
i
−X)

. (12.39)
Ayuda: puede sumarse y restarse X
i
en cada uno de los paréntesis de la
definición (12.31) de T.
12.2 (↑ 12.1) Demuéstrese que B tiene rango no mayor que K −1.
12.3 Demostrar que si λ y a son respectivamente un valor propio de
W
−1
B y el correspondiente vector propio asociado, entonces
λ =
a

Ba
a

Wa
.
12.4 Compruébese que en el caso de diferentes costes de mala clasifi-
cación y distribución normal, las funciones discriminantes son en general no
lineales, incluso aunque las matrices de covarianzas intragrupos sean idénti-
cas.
12.5 Sea un problema de discriminación entre dos grupos con n
1
y n
2
observaciones en la muestra de entrenamiento. Muéstrese que si estimamos
el modelo de regresión lineal,
y
i
= x
i

β +ǫ
i
con
y
i
=

n2
n1+n2
si i = 1, . . . , n
1
,

n1
n1+n2
si i = n
1
+ 1, . . . , n
1
+n
2
.
12.7. BIBLIOGRAFÍA COMENTADA 123
y x
i
= vector de variables correspondiente al caso i-ésimo, entonces el
ˆ
β ob-
tenido por MCO coincide con el a obtenido por Fisher, y la T
2
de Hotelling
puede obtenerse como transformación monótona de la R
2
.
12.6 Demuéstrese que los valores propios de W
−1
B cuyos vectores
propios asociados definen las direcciones discriminantes, son: no negativos.
12.7 Llamamos distancia en un espacio R
p
a toda aplicación d : R
p

R
p
−→R verificando ∀x, y ∈ R
p
lo siguiente:
1. d(x, y) > 0 si x = y y d(x, y) = 0 si x = y.
2. d(x, y) = d(y, x).
3. d(x, z) ≤ d(x, y) +d(y, z) para todo x, y, z ∈ R
p
.
Muéstrese que si Σ es de rango completo la expresión
d(x, y) = (x −y)

Σ
−1
(x −y)
define una distancia (distancia de Mahalanobis
3
)
12.8 (↑ 12.7) Compruébese que la distancia de Mahalanobis es inva-
riante frente a transformaciones lineales de las variables.
12.9 Como primera aproximación al problema de discriminar entre
dos grupos podríamos concebir la siguiente regla: Asignar x al grupo de
cuyo vector de medias, µ
1
ó µ
2
, esté más próximo en términos de distancia
euclídea ordinaria: d(x, y) = (x −y)

I(x − y) =
¸
p
i=1
(x
i
− y
i
)
2
. Esta
regla podría dar lugar a clasificar un caso en un grupo cuando en realidad
es más plausible que proceda de otro, si las matrices de covarianzas en am-
bos grupos no fueran escalares (diagonales y con idénticos elementos a lo
largo de la diagonal) e iguales. Ilústrese con un ejemplo de dos grupos con
distribución normal bivariante y matrices de covarianzas no escalares.
12.10 (↑ 12.7) Consideremos la distancia de Mahalanobis definida en-
tre observaciones procedentes de una misma población con matriz de cova-
rianzas Σ. Muéstrese que siempre es posible hacer una transformación lineal
de las variables originales de modo que las transformadas verifican:
1. Su matriz de covarianzas es I.
2. La distancia euclídea ordinaria entre ellas coincide con la distancia de
Mahalanobis entre las originales.
12.11 (↑ 12.9) (↑ 12.7) Dado que el problema puesto de manifiesto en
el Ejercicio 12.9 se presenta con matrices de covarianzas no escalares, podría
pensarse en transformar el problema original en otro con matriz de covarian-
zas escalar y resolver éste último. Muéstrese que la regla que se obtiene es
idéntica a la obtenida por Fisher, y da lugar a un discriminador lineal entre
los dos grupos.
3
Hay alguna ambigüedad en la denominación, en cuanto que algunos autores llaman distancia de
Mahalanobis a la expresión anterior con Σ reemplazada por su análogo muestral.
124 CAPÍTULO 12. ANÁLISIS DISCRIMINANTE
Capítulo 13
Arboles de regresión y
clasificación
13.1. Arboles binarios
Llamamos árbol binario a un grafo formado por nodos y arcos verificando lo
siguiente:
1. Hay un sólo nodo (la raíz) que no tiene padre.
2. Cada nodo distinto de la raíz tiene un único padre.
3. Cada nodo tiene exactamente dos o ningún hijo. En el caso de nodos sin hijos
(o nodos terminales) hablamos también de “hojas”.
Gráficamente representaremos los árboles con la raíz arriba, como en la Figura
13.1.
Podemos ver un árbol binario como una representación esquemática de un pro-
ceso de partición recursiva, en que en cada nodo no terminal tomamos la decisión
de particionar una muestra de una cierta manera. Por ejemplo, el árbol de la Figura
13.1 designaría una sucesión de operaciones de partición recursiva de una muestra.
Primeramente separamos, en r, una clase, que denominamos C. El resto se lleva al
nodo n en el que tomamos una decisión ulterior, separándolo en las clases A y B.
En un árbol binario, cada nodo no terminal designa una decisión para parti-
cionar la fracción de muestra que llega a él en dos partes. Cada nodo terminal u
hoja designa una de las clases a las que finalmente van a parar los elementos que
dejamos caer desde la raíz.
125
126 CAPÍTULO 13. ARBOLES DE REGRESIÓN Y CLASIFICACIÓN
Figura 13.1: Árbol binario con tres hojas, A, B, C y raíz r.
r
n
A B
C
Figura 13.2: Árbol binario para clasificar pacientes en grupos de supervivencia
homogénea
¿X1 >65 años?
C
No
¿X5 = “Sí”?

A B

Ejemplo 13.1 Imaginemos una situación en que la muestra de entrena-
miento consiste en N sujetos de cada uno de los cuales tenemos p variables,
x
1
, . . . , x
p
, recogiendo diferentes características clínicas. Tenemos también
los valores que ha tomado una variable de interés —como por ejemplo, si han
sobrevivido o no a una cierta operación—. Un árbol binario de clasificación
describiría las operaciones de partición a realizar y el orden en que se efec-
túan las mismas, para acabar clasificando la muestra en clases relativamente
homogéneas en lo que se refiere a la variable respuesta. Supongamos, por
ejemplo, que X
1
es “edad” y X
5
es “Ha sufrido un infarto previo”. Entonces,
un árbol como el de la Figura 13.2 realizaría una clasificación de los sujetos
en la muestra de entrenamiento en tres hojas A, B y C. Si resultara que el
desglose de los casos que caen en las mismas es:
13.2. CONSTRUCCIÓN DE ÁRBOLES BINARIOS 127
Hoja Supervivientes Fallecidos
A 40 % 60 %
B 20 % 80 %
C 80 % 20 %
estaríamos justificados en rotular la clase B como de alto riesgo, la C como
de bajo riesgo y la A como de riesgo intermedio.
Un nuevo sujeto del que sólo conociéramos los valores de las X podría
ser “dejado caer” desde la raíz y clasificado en uno de los grupos de riesgo
de acuerdo con la hoja en que cayera.
Ejemplo 13.2 (un árbol de regresión) En el ejemplo anterior, la varia-
ble respuesta Y era cualitativa: podía tomar uno de dos estados, Podemos
imaginar una respuesta Y continua en una situación similar: por ejemplo, el
tiempo de supervivencia a partir del tiempo de una intervención quirúrgica.
En este caso, podríamos tener un árbol quizá exactamente igual al pre-
sentado en la Figura 13.2, pero su uso e interpretación sería diferente. Los
casos que acabaran en las hojas A, B y C sería, si el árbol está bien construi-
do, homogéneos en cuanto a sus valores de Y . El árbol serviría para, dados
los valores de las X de un nuevo sujeto, asignarlo a una de las hojas y efec-
tuar una predicción del valor de su Y : típicamente, la media aritmética de los
valores en la hoja en que ha caído.
Este uso del árbol es completamente análogo al que se hace de una
ecuación de regresión estimada. De hecho, si regresáramos las Y sobre tres
columnas cada una de las cuales tuviera unos para los sujetos en una de las
tres clases, A, B y C, las estimaciones de los parámetros β de la regresión
coincidirían con las medias aritméticas de las clases. Nótese, sin embargo,
que al construir el árbol especificamos los “regresores”, en cierto modo. Por
ejemplo, la variable X1 (Edad) en el Ejemplo 13.1 se recodifica a “Sí” y No”
(ó 0 y 1) a partir de un cierto umbral: podíamos haber tomado cualquier otro,
y si tomamos ése es porque la división que logra es la “mejor”, en un sentido
que habremos de especificar más abajo.
Nótese también que, a diferencia de lo que ocurre en un modelo de re-
gresión, las variables continuas se discretizan: la edad X1 queda reducida a
dos grupos: mayores de 65 años o no. Un árbol sustituye una superficie de
respuesta continua por una superficie de respuesta a escalones.
13.2. Construcción de árboles binarios
La metodología a seguir para construir un árbol binario resulta de conjugar
varios elementos:
1. Un criterio para evaluar la ventaja derivada de la división de un nodo. ¿Qué
nodo procede dividir en cada etapa?
2. Una especificación del espacio de búsqueda: ¿que tipos de particiones esta-
mos dispuestos a considerar?
3. ¿Cómo estimar la tasa de mala clasificación (o varianza de predicción en el
caso de árboles de regresión)?
128 CAPÍTULO 13. ARBOLES DE REGRESIÓN Y CLASIFICACIÓN
4. Un criterio para decidir cuándo detener el crecimiento del árbol, o, como
veremos, sobre la conveniencia de podar un árbol que ha crecido en exceso.
5. Un criterio para asignar un valor (o etiqueta de clase) a cada hoja.
Examinaremos cada cuestión por separado, describiendo a continuación el algorit-
mo de construcción de árboles.
13.2.1. Medidas de “impureza” de nodos y árboles.
Siguiendo la notación de Breiman et al. (1984) denotaremos la impureza del
nodo t por i(t).
En el caso de árboles de regresión, la i(t) se toma habitualmente igual a la
varianza muestral intranodo: nodos muy homogéneos son aquéllos con escasa va-
rianza interna.
En el caso de árboles de clasificación, en que la respuesta es cualitativa, la
impureza de un nodo debería estar en relación con las proporciones en que se pre-
sentan los elementos de las diferentes clases. Imaginemos que la variable respuesta
cualitativa Y puede tomar J valores. Sea p(j[t) la proporción de elementos de cla-
se j en la muestra de entrenamiento que han ido a parar al nodo t. Claramente
desearíamos que i(t) fuera mínima si
p(ℓ[t) = 1
p(j[t) = 0 ∀j = ℓ.
Ello, en efecto, correspondería a un nodo “puro”: todos los elementos que van a
parar a él son de la clase ℓ. Por el contrario, desearíamos que la función i(t) fuera
máxima cuando
p(j[t) = J
−1
∀j,
pues un nodo en que todas las clases aparecen equi-representadas es en cierto sen-
tido máximamente impuro.
Hay varias elecciones de i(t) de uso común que verifican las propiedades ante-
riores, más otras deseables —como simetría en sus argumentos—. Tenemos así la
función entropía
i(t) = −
J
¸
i=1
p(j[t) log
e
p(j[t),
y el índice de Gini,
i(t) =
¸
i=j
p(i[t)p(j[t).
En realidad, no nos interesa de ordinario la i(t) de un nodo per se, sino en rela-
ción a la de sus posibles descendientes. Queremos valorar la ganancia en términos
de impureza de una división del nodo t. Una posibilidad intuitivamente atractiva es
13.2. CONSTRUCCIÓN DE ÁRBOLES BINARIOS 129
∆(s, t) = i(t) −p
L
i(t
L
) −p
R
i(t
R
),
en que la mejora en términos de impureza resultante de elegir la división s del nodo
t se evalúa como la diferencia entre la impureza de dicho nodo y las de sus dos
hijos, t
L
y t
R
, ponderadas por las respectivas proporciones p
L
y p
R
de elementos
de la muestra que la división s hace ir a cada uno de ellos.
Una posibilidad adicional que evalúa la ganancia de la división s sin evaluar
explícitamente una función de impureza en el padre y cada uno de los hijos, es:
∆(s, t) =
p
L
p
R
4
¸
j
[p(j[t
L
) −p(j[t
R
)[
2
. (13.1)
Observemos que la expresión (13.1) crece, por un lado, con la simetría de la divi-
sión en cuanto al número de elementos de la muestra enviados a cada hijo, y por
otro con la separación lograda entre las proporciones de cada clase en los dos hijos;
lo que es intuitivamente atrayente.
La impureza total I(T) de un árbol T se define como la suma ponderada de
impurezas de sus hojas. Si
˜
T es el conjunto formado por las hojas de T, entonces
I(T) =
¸
t∈
˜
T
p(t)i(t) (13.2)
Podríamos también evaluar la calidad de un árbol atendiendo a su tasa de error,
R(T). En el caso de un árbol de clasificación, típicamente es la probabilidad de
obtener una mala clasificación al dejar caer un caso por él. Nótese que R(T) es re-
lativa al criterio de asignación de clase a los casos que caen en cada nodo terminal.
Normalmente, el criterio es el de mayoría —se asigna el caso a la clase más repre-
sentada en el nodo— o de máxima probabilidad a posteriori. Hablaremos también
de la tasa de error en un nodo, R(t), o en el subárbol T
t
que crece desde el nodo t,
R(T
t
). Un nodo terminal puede verse como un árbol degenerado con un sólo nodo
terminal, y por lo tanto tendremos como notaciones equivalentes R(¦t¦) y R(t).
En el caso de árboles de regresión, la tasa de error es alguna medida conve-
niente —normalmente, valor medio de suma de cuadrados intra-nodo de las des-
viaciones respecto a la media—.
13.2.2. Espacio de búsqueda
Hay una infinidad de formas posibles de efectuar divisiones en función de los
valores que tomen las variables predictoras, X, y no podemos en general considerar
todas ellas. Distinguiremos varias situaciones.
Variable X nominal. En este caso, X toma K valores distintos, como “rojo”,
“verde”, “azul” o “Nacionalidad A”, “Nacionalidad B”, y Nacionalidad C”, entre
los que no cabe establecer un orden natural. Si tenemos que discriminar con ayuda
130 CAPÍTULO 13. ARBOLES DE REGRESIÓN Y CLASIFICACIÓN
de una variable nominal los elementos que van a los hijos izquierdo y derecho en
la división del nodo t, podemos formar todos los subgrupos de los K valores que
puede tomar X y enviar a la izquierda los casos con X tomando valores en un
subgrupo y a la derecha los restantes.
Observación 13.1 Si i(t) es estrictamente cóncava y estamos ante un
árbol de clasificación en dos clases, etiquetadas Y = 1 e Y = 0, el cálculo
se simplifica. Ordenemos los K valores que toma el predictor X en el nodo
t de modo que
p(1[X = x
1
) ≤ p(1[X = x
2
) ≤ ≤ p(1[X = x
K
).
Se puede mostrar que no es preciso considerar todas las 2
K−1
− 1 posibili-
dades de agrupar las K categorías de X en dos grupos; basta considerar los
K −1 divisiones agrupando las categorías así
¦x
1
, . . . , x

¦ ¦x
ℓ+1
, . . . , x
K
¦ ,
(1 ≤ ℓ ≤ K − 1) y enviando un grupo al hijo derecho del nodo t y el otro
al hijo izquierdo. Véase Ripley (1996), pág. 218 ó Breiman et al. (1984),
pág. 101.
Variable X ordinal. En este caso, si la variable X toma n valores, se consideran
como posibles cortes los (n − 1) valores intermedios. En cada nodo nos formula-
mos una pregunta tal como: “¿Es X
i
< c?”, cuya respuesta afirmativa o negativa
decidirá si el elemento que examinamos es enviado al hijo izquierdo o al hijo dere-
cho del nodo en que estamos.
Variable X continua. Operaremos como con las variables ordinarias, si bien
aquí será frecuente que el número de valores de corte a ensayar sea mucho mayor
—si no hay repeticiones, como habitualmente acontecerá para una variable conti-
nua, el número de cortes a ensayar será de N−1, siendo N el tamaño de la muestra
de entrenamiento—.
Observación 13.2 En el caso de árboles de clasificación, el cálculo
puede reducirse algo respecto de lo que sugiere el párrafo anterior. Si orde-
namos los N elementos en un nodo t de acuerdo con el valor que que toma
para ellos una variable continua X, podemos obtener hasta N valores dife-
rentes: pero no necesitan ser considerados aquellos elementos flanqueados
por otros de su misma clase, Véase Ripley (1996), pág. 237 y Fayyad and
Irani (1992).
Adicionalmente, al coste de un esfuerzo de cálculo superior, podemos formular
en cada nodo una pregunta del tipo “¿Es a

X < c?”, en que tanto a como c han
de optimizarse para lograr divisiones con la máxima pureza en los nodos hijos.
Divisiones así dan lugar a hiper-planos de separación que ya no han de ser paralelos
a los ejes.
13.2. CONSTRUCCIÓN DE ÁRBOLES BINARIOS 131
13.2.3. Estimación de la tasa de error
La elección de un árbol con preferencia a otro dependerá en general de sus
respectivas R(T). Se presenta el problema de estimarlas: según como lo hagamos,
podríamos tener una imagen excesivamente optimista del ajuste del árbol a los
datos, que nos desviaría notablemente de la construcción de un árbol óptimo; es
útil por consiguiente prestar alguna atención al modo de estimar R(T).
Observación 13.3 El problema no es muy diferente del que se presen-
ta al evaluar la tasa de error en la clasificación de una función discriminante.
Si lo hacemos reclasificando la muestra de entrenamiento, encontraremos,
como vimos, una tasa de error sesgada por defecto.
El problema se reproduce aquí, incluso agravado; porque, a igualdad de
dimensionalidad de los datos, un árbol de clasificación tiene mucha más fle-
xibilidad que un discriminante lineal para adaptarse a las peculiaridades de
una muestra particular, y en consecuencia de dar una imagen excesivamente
optimista al emplearlos para reclasificar dicha muestra.
Estimador por resustitución. El estimador más simple, pero también el poten-
cialmente más sesgado a la baja, es el estimador por resustitución. Consiste simple-
mente en dejar caer por el árbol la misma muestra que ha servido para construirlo.
Como se deduce de la Observación 13.3, tal estimador puede estar severamente
sesgado a la baja, al permitir los árboles binarios una gran flexibilidad para adap-
tarse a una muestra dada.
No obstante,
ˆ
R(T) es de fácil y rápido cálculo, y puede ser útil para comparar
árboles con igual o muy similar número de nodos.
Estimador por muestra de validación. La idea es similar a la del apartado an-
terior, pero lo que se deja caer ahora por el árbol es una muestra distinta a la de
entrenamiento, formada por tanto por casos que no han sido vistos por el árbol y
a los cuáles no se ha podido adaptar. Tenemos así un estimador R
ts
(T) que cabe
suponer insesgado por lo menos aproximadamente, pero que tiene el inconveniente
de forzarnos a reservar para su uso en validación una parte de la muestra, que de
otro modo habríamos podido emplear en el entrenamiento.
Estimación por validación cruzada La idea de validación cruzada , tan presente
en multitud de contextos, es de aplicación también aquí. Para estimar R(T) parece-
ría que podemos proceder reiteradamente como en el apartado anterior, dejando ca-
da vez fuera de la muestra de entrenamiento (para validación) una fracción de k
−1
del tamaño muestral total. Obtendríamos así k estimaciones R
(1)
(T), . . . , R
(k)
(T)
y, promediándolas,
R
cv
(T) =
R
(1)
(T) + +R
(k)
(T)
k
. (13.3)
132 CAPÍTULO 13. ARBOLES DE REGRESIÓN Y CLASIFICACIÓN
Obsérvese, sin embargo, que el árbol que hiciéramos crecer con cada una de las
submuestras podría quizá ser distinto a los demás: la expresión anterior sólo ten-
dría sentido tal cual está escrita en el (improbable) caso de que obtuviéramos exac-
tamente el mismo árbol con las k submuestras empleadas.
No podemos, por ello, emplear validación cruzada para obtener una estima-
ción de la tasa de error asociada a un árbol concreto. Si podremos hacerlo para
seleccionar un árbol, del modo que se verá en 13.2.6.
Estimadores bootstrap. Se ha propuesto también hacer uso de estimadores ba-
sados en técnicas de bootstrap. Véase Ripley (1996), pág. 238.
13.2.4. Tasa de error penalizada
Para la selección de un árbol entre los muchos que podemos construir sobre una
muestra, podemos pensar en el empleo de criterios análogos a la C
p
de Mallows o
AIC de Akaike. En el contexto actual, podríamos penalizar la tasa de error así:
R
α
(T) =
ˆ
R(T) +α[
˜
T[, (13.4)
siendo [
˜
T[ el número de hojas del árbol T y α un parámetro de coste de cada hoja.
La complejidad del árbol queda medida así por el número de hojas; la expresión
(13.4) pondera tanto la bondad de ajuste del árbol (medida por
ˆ
R(T)) como su
complejidad.
No obstante, no tenemos idea de cuál haya de ser un valor adecuado de α. No
tenemos tampoco claro que [
˜
T[ sea una medida adecuada de la complejidad: no es
el número de parámetros, porque incluso en el caso más simple de un árbol de re-
gresión, no nos limitamos a ajustar un parámetro (la media) en cada hoja. Hacemos
más cosas: seleccionamos las variables con arreglo a las que particionamos, y los
umbrales. El Ejemplo 13.2, pág. 127, ilustra ésto con claridad: dividir un nodo no
es igual que reemplazar un regresor por otros dos.
13.2.5. Criterios de parada y/o poda
Una de las ideas más fecundas en la metodología propuesta por Breiman et al.
(1984) es la de “mirar hacia adelante”. Inicialmente se ensayaron estrategias con-
sistentes en subdividir nodos (escogiendo en cada momento la división que pro-
dujera la máxima disminución de impureza i(t)) mientras un estimador adecuado
de R(T) disminuyera. Dado que en cada paso se examinan árboles con un número
de nodos muy similar, basta a efectos de dictaminar la procedencia de una nueva
división con estimar R(T) por
ˆ
R(T).
Se observó, sin embargo, que esta estrategia daba resultados muy pobres y esto
es debido a que, en ocasiones, subdivisiones que por sí mismas no serían justifica-
bles, abren el camino a otras muy provechosas. La Figura 13.3 lo ilustra en un caso
artificialmente simple, con dos variables y dos clases. Puede verse, en efecto, que
13.2. CONSTRUCCIÓN DE ÁRBOLES BINARIOS 133
Figura 13.3: Una división en X
1
= S es inútil por si misma, pero abre la vía a otras
sumamente provechosas
X
X
X
X
X
X
X
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
X
X
X
X
X
X
X
X
S
X
1
X
2
134 CAPÍTULO 13. ARBOLES DE REGRESIÓN Y CLASIFICACIÓN
particionar el espacio a lo largo de X
1
= S no logra prácticamente ninguna reduc-
ción de la impureza: ambas mitades tienen aproximadamente un 50 % de elementos
‘O’ y ‘X’. No obstante, cada una de dichas mitades puede ahora ser subdividida en
dos regiones prácticamente puras.
Esto sugiere que conviene construir árboles muy frondosos, porque no sabe-
mos lo que hay “más allá” de la división de un nodo hasta que lo vemos. Si lo que
se encuentra no justifica la frondosidad añadida al árbol siempre estamos a tiem-
po de podarlo. La cuestión clave no es por tanto dónde parar el crecimiento del
árbol, sino cuánto podar un árbol que deliberadamente hemos dejado crecer hasta
tamaños mayores de lo concebiblemente necesario.
El procedimiento de poda propuesto en Breiman et al. (1984) es muy simple.
Consideremos la oportunidad de podar la rama T
t
que brota del nodo t en un cierto
árbol. La tasa de error penalizada de dicho nodo y de la rama que brota de él, serían
respectivamente:
R
α
(t) =
ˆ
R(t) +α (13.5)
R
α
(T
t
) =
ˆ
R(T
t
) +α[
˜
T
t
[ (13.6)
=
¸
s∈
˜
Tt
ˆ
R(s) +α[
˜
T
t
[. (13.7)
Es fácil ver que para α = 0,
R
α
(t) =
ˆ
R(t) >
ˆ
R(T
t
) = R
α
(T
t
), (13.8)
en tanto que para α lo suficientemente grande se verifica la desigualdad contraria,
R
α
(t) < R
α
(T
t
). Por tanto habrá un valor de α, llamémosle g(t, T), verifican-
do R
α
(t) = R
α
(T
t
). Podemos obtener fácilmente este valor despejando α de la
igualdad
ˆ
R(t) +α =
ˆ
R(T
t
) +α[
˜
T
t
[,
lo que nos proporciona
g(t, T) =
ˆ
R(t) −
ˆ
R(T
t
)
[
˜
T
t
[ −1
.
Un valor α igual a g(t, T) hace que nos sintamos indiferentes entre la poda o no de
la rama T
t
. Valores superiores de α (= mayor coste de la complejidad) nos impul-
sarían a podar la rama, en tanto que valores menores nos impulsarían a conservarla.
La estrategia de poda propuesta por Breiman et al. (1984) es muy simple: para
cada nodo no terminal (en que no ha lugar a podar nada) se evalúa g(t, T), Se
poda a continuación la rama T
t∗
brotando del nodo t

verificando α
1
def
=g(t

, T) =
m´ın
t
g(t, T).
Tras la poda de la rama T
t∗
obtenemos el árbol T(α
1
); sobre el repetiremos el
cálculo de los valores g(t, T(α
1
)) para todos los nodos no terminales, y podaremos
13.3. ANTECEDENTES Y REFINAMIENTOS 135
la rama que brote del nodo con menor g(t, T(α
1
)) (valor que denominaremos α
2
).
El árbol así podado lo denominamos T(α
2
). Proseguiremos del mismo modo hasta
haber reducido el árbol inicial T al árbol degenerado que consiste sólo en el nodo
raíz.
Se puede demostrar que con el modo de proceder anterior se obtiene una suce-
sión de árboles con la misma raíz, anidados. Es decir, una sucesión
T ≻ T(α
1
) ≻ T(α
2
) ≻ . . . ≻ ¦raíz¦.
13.2.6. El algoritmo de construcción de árboles
(por escribir)
13.3. Antecedentes y refinamientos
Se han propuesto metodologías alternativas a la descrita (CART). Por ejem-
plo, Hawkins (1997) propone un método llamado FIRM y Loh and Vanichseta-
kul (1988) una simbiosis de construcción de árboles y análisis discriminante (que
no da lugar a árboles binarios sino n-arios). Otra generalización se conoce como
MARS (Multivariate Adaptive Regression Splines). Toma la idea de particionar re-
cursivamente el espacio de las variables predictores, pero en lugar de ajustar una
constante en cada hoja —al igual que un árbol de regresión como los descritos—
ajusta splines. El resultado es una superficie sin discontinuidades, y con el grado
de suavidad que se desee (fijando el orden de los splines en el valor que se desee).
La referencia seminal es Friedman (1991). Una aproximación similar, orientada a
la clasificación, es la seguida por Kooperberg et al. (1997).
13.4. Bibliografía comentada
La monografía Breiman et al. (1984) continúa siendo una referencia básica.
Fue el libro que otorgó carta de ciudadanía a métodos que habían sido propuestos
previamente desde perspectivas menos generales. El Capítulo 4 de Hand (1997)
es un resumen útil, desde el punto de vista de los problemas de clasificación. El
libro Chambers and Hastie (1992) da una panorámica de lo que hay disponible en
S-Plusstandard; pueden utilizarse también las rutinas de Therneau and Atkinson
(1997), que añaden alguna funcionalidad como particiones suplentes (surrogate
splitting). Ripley (1996) dedica el Cap. 7 a árboles de clasificación, y proporcio-
na bibliografía actualizada. Otros manuales que tratan sobre árboles de regresión
y clasificación son Zhang and Singer (1999) y Hastie et al. (2001), que se refie-
ren también a cuestiones no tratadas aquí (boosting, MARS, etc.). Devroye et al.
(1996) en su Cap. 20 habla de árboles desde una perspectiva marcadamente más
matemática.
136 CAPÍTULO 13. ARBOLES DE REGRESIÓN Y CLASIFICACIÓN
Capítulo 14
Redes Neuronales Artificiales
14.1. Introducción
Los primeros intentos de construir una red neuronal artificial (RNA) buscaban
replicar la estructura del cerebro de los animales superiores, tal y como se percibía
en la época; el precedente más antiguo, McCulloch and Pitts (1943), se remonta a
los años cuarenta.
Aunque la neurobiología ha sido de modo continuado una fuente de inspiración
y una metáfora adecuada del trabajo en RNA, la investigación en este campo ha
seguido un camino propio. Una descripción del curso entrelazado de ambos campos
—neurobiología y RNA— y sus respectivas influencias puede verse en Kohonen
(1997), Cap. 2, y Haykin (1998), Cap. 1.
14.2. Neuronas biológicas y neuronas artificiales
14.2.1. Morfología y funcionamiento de una neurona humana
Ciñéndonos sólo a los aspectos esenciales, una neurona humana es una célula
que consta de las siguientes partes: el soma o cuerpo celular del que emanan den-
dritas y el axon; unas y otro poseen terminaciones sinápticas con las que se unen
a otras neuronas. El axon puede tener del orden de 10
3
terminaciones sinápticas.
Un esquema simplificado puede verse en la Figura 14.1, tomada de Haykin (1998),
pág. 6.
Una neurona recibe estímulos de otras neuronas a traves de las terminaciones
sinápticas. A su vez, produce señales que a través del axon estimulan a otras neu-
ronas. Hay del orden de 10
11
neuronas en un cerebro humano, cada una con un
137
138 CAPÍTULO 14. REDES NEURONALES ARTIFICIALES
Figura 14.1: Esquema describiendo las partes principales de una neurona humana.
Tomado de Haykin (1998), p. 8.
elevado número de entradas y salidas sinápticas conectadas con otras neuronas, lo
que da un sistema masivamente paralelo de complejidad casi inimaginable.
En el trabajo pionero McCulloch and Pitts (1943) se suponía que cada neurona
“computa” su salida o respuesta de modo muy simple: suma los inputs, quizá afec-
tados de ponderaciones, y si la suma sobrepasa un cierto nivel crítico de excitación,
“dispara”, es decir, produce una salida en su axon. Se trataría así de un dispositi-
vo de activación de tipo umbral: todo o nada, dependiendo de si se traspasa dicho
umbral.
Hoy se sabe (cf. por ejemplo Kohonen (1997), Sec. 2.2) que la naturaleza de
las interacciones entre neuronas es más compleja de lo que la simple descripción
anterior haría pensar. Dicha descripción, sin embargo, proporciona un punto de
arranque e inspiración para el desarrollo de neuronas artificiales, como se describe
a continuación.
14.2.2. Neuronas artificiales
La descripción anterior, transcrita a notación matemática, equivale a que una
neurona toma todos sus entradas, las pondera mediante coeficientes w
1
, . . . , w
p
, y
14.2. NEURONAS BIOLÓGICAS Y NEURONAS ARTIFICIALES 139
proporciona a la salida:
Y =
1
2
+
1
2
sgn

p
¸
i=1
w
i
x
i
+w
0

, (14.1)
en que “sgn” es la función definida por
sgn(u) =

+1 si u > 0
−1 en caso contrario.
(14.2)
Podemos considerar neuronas que realizan un cómputo más general, relacio-
nando las entradas con la salida de acuerdo con una expresión como
Y = f(ϕ(x, w)). (14.3)
En la expresión anterior, x es el vector de entradas o estímulos que recibe la neu-
rona, y ϕ() una función de excitación dependiente de los parámetros en w; habi-
tualmente, ϕ(x, w) =
¸
p
i=1
(w
i
x
i
+w
0
), pero podría tomar cualquier otra forma.
Por simplicidad notacional consideraremos la existencia de una componente x
0
de x con valor fijo igual a 1 (el “sesgo” u offset en la jerga del área, sin ningu-
na relación con la noción estadística de sesgo). Escribiremos entonces
¸
p
i=0
w
i
x
i
como función de excitación de la neurona, sin tener que recoger separadamente el
coeficiente w
0
.
La función f() activación es habitualmente no lineal. Las siguientes son posi-
bilidades utilizadas para f():
Nombre Descripción Valores
Escalón (o signo) sgn(u) ±1
Heaviside (o umbral)
1
2
+
1
2
sgn(u) 0 ó 1
Logística (1 +e
−u
)
−1
(0,1)
Identidad u (−∞, +∞)
Cuadro 14.1: Funciones de activación f(u) usuales
Tenemos así que una neurona artificial realiza el cómputo esquematizado en la
Figura 14.2.
Observación 14.1 Una neurona como la descrita en la Figura 14.2
con función de activación no lineal ϕ(u) = sgn(u) fue propuesta por Ro-
senblatt con el nombre de perceptrón con el propósito de aproximar una res-
puesta binaria.
Observación 14.2 Una neurona con la función de excitación lineal
f(x) =
¸
p
i=0
w
i
x
i
y con función de activación ϕ(u) = u (identidad), rea-
liza un cómputo análogo al de un modelo de regresión lineal. Seleccionando
140 CAPÍTULO 14. REDES NEURONALES ARTIFICIALES
N
w
01
w
61
f(ϕ(x))
x
0
= 1
x
1
x
2
x
3
x
4
x
5
x
6
Figura 14.2: Esquema de una neurona artificial N. Recibe la entrada x =
(x
0
, . . . , x
6
) computando la función de excitación ϕ(x) =
¸
6
i=0
w
i1
x
i
y entre-
gado f(ϕ(x)) a la salida.
la función de activación ϕ(u) de modo diferente, podríamos lograr que la
neurona realizara el mismo cómputo que un modelo lineal generalizado. Por
ejemplo, mediante ϕ(u) = (1 +e
−u
)
−1
tendríamos un modelo de regresión
logística. Si la salida deseada fuera un variable cualitativa, la neurona podría
realizar el cómputo análogo a una función discriminante (lineal o no lineal,
dependiendo de las funciones f() y ϕ() escogidas).
14.2.3. Redes neuronales artificiales (RNA)
A imagen de como acontece en el cerebro humano, podemos conectar varias
neuronas entre sí para formar una RNA. Por ejemplo, una RNA con una única capa
oculta de tres neuronas, una entrada x = (x
0
, x
1
, . . . , x
6
) y una salida y = (y
1
, y
2
)
tendría una disposición como la de la Figura 14.3.
Observación 14.3 Una RNA como la de la Figura 14.3, con excitacio-
nes y activaciones lineales, computaría un modelo MANOVA con respuesta
bivariante. De nuevo, alterando las funciones de activación y/o excitación,
o añadiendo capas de neuronas ocultas, podríamos reproducir mediante la
RNA el cómputo realizado por una variedad muy grande de modelos. Obsér-
vese que no tiene objeto añadira capas de neuronas ocultas si las funciones
de excitación y activación son ambas lineales: funciones lineales de funcio-
nes lineales son de nuevo lineales, y podrían computarse mediante una sóla
capa. Si consideramos activaciones ϕ() no lineales, el uso de varias capas
de neuronas permite apilar no linealidades sobre no linealidades, y computar
una clase muy rica de relaciones funcionales entre la entrada x y la salida y.
14.3. ENTRENAMIENTO DE UNA RNA 141
E
0
E
1
N
1
E
2
S
1
E
3
N
2
E
4
S
2
E
5
N
3
E
6
w
01
w
63
x
0
= 1
x
1
x
2
x
3
x
4
x
5
x
6
f
1

1
(x))
f
3

3
(x))
y
1
y
2
Figura 14.3: RNA con tres neuronas. Las unidades de entrada, E
0
a E
6
, repar-
ten el input x = (x
0
, . . . , x
6
) a las tres neuronas que forman la capa oculta, N
j
(j = 1, 3). Cada una de estas neuronas computa ϕ
j
(x) =
¸
6
i=0
w
ij
x
i
y en-
trega f
j

j
(x)) a cada unidad de salida. S
1
y S
2
suman sus inputs y producen
y = (y
1
, y
2
).
14.3. Entrenamiento de una RNA
El entrenamiento aprendizajee una red neuronal es el proceso por el cual, me-
diante la presentación de ejemplos de parejas de vectores (x, d) (entradas y salidas
observadas), se fijan los valores de los coeficientes (o pesos) w
ij
.
Los pesos juegan un papel similar al de los parámetros en un modelo estadís-
tico convencional, y el proceso de entrenamiento es equivalente al de estimación
en los términos estadísticos habituales. Con más frecuencia que en la estimación
estadística ordinaria, sin embargo, el entrenamiento se lleva a cabo de forma adap-
tativa, presentando a la red instancias o ejemplos (pares (x, d)) de uno en uno.
Examinaremos primero un ejemplo con interés histórico —el del perceptrón– y
el modo de entrenarlo, para luego considerar ejemplos más elaborados de redes y
diferentes medios de entrenarlas.
14.3.1. Entrenamiento de un perceptrón
El perceptrón ha sido ya introducido en la Observación 14.1. Se trata de una red
neuronal muy simple compuesta por una única neurona cuyo objetivo es distinguir
entre objetos de dos clases, convencionalmente rotuladas como +1 y −1.
Consideremos el problema de su entrenamiento en el caso simple de que los
objetos de las dos clases sean linealmente separables; es decir, supongamos que
142 CAPÍTULO 14. REDES NEURONALES ARTIFICIALES
existe un vector de pesos w tal que w

x > 0 para todos los objetos de una cla-
se y w

x < 0 para todos los de la otra. Cuando esto sucede, hay un algoritmo
muy simple (Algoritmo 2) con convergencia asegurada, que produce un vector w
separando correctamente los casos.
Algoritmo 2 – Entrenamiento de perceptrón por corrección de error.
1: N ←Número de ejemplos en la muestra de entrenamiento
2: w
(0)
←0; n ←0; η ←Parámetro aprendizaje
3: repeat
4: E ←0
5: for i = 1 to N do
6: if (w
(n)

x
n+1
> 0) ∧ (x
n+1
∈ (
2
) then
7: w
(n+1)
←w
(n)
−ηx
n
8: E ←E + 1
9: else if (w
(n)

x
n+1
≤ 0) ∧ (x
n+1
∈ (
1
) then
10: w
(n+1)
←w
(n)
+ηx
n
11: E ←E + 1
12: else
13: w
(n+1)
←w
(n)
14: end if
15: n ←n + 1
16: end for
17: until E = 0
18: w
final
←w
n
La idea es muy sencilla: se presentan los casos (x, g) al perceptrón y se compu-
ta w

x. Si el resultado es “correcto” (w

x > 0 para objetos en el grupo (
1
y
w

x ≤ 0 para objetos en el grupo (
2
; la asignación de las etiquetas −1 y +1 a los
grupos (
1
y (
2
es arbitraria), los pesos se dejan en los valores preexistentes en la
iteración anterior. No es preciso ningún cambio.
Si, por el contrario, se produce un error de clasificación, se modifican los pe-
sos tal como recogen las asignaciones 7 y 10 en el algoritmo. El parámetro η o
parámetro de aprendizajeuede tomar cualquier valor, con tal de que sea positivo.
Diferentes valores afectan sólo a la velocidad a la que converge el algoritmo.
Observación 14.4 El parámetro η no necesariamente ha de permane-
cer constante. Frecuentemente se reemplaza por una sucesión de parámetros
η(n) que disminuyen en valor absoluto conforme el aprendizaje avanza.
Cuando se comete un error que requiere la modificación del vector de pesos w,
se incrementa la variable contadora de errores, E. El algoritmo finaliza cuando en
una pasada sobre todos los N casos no se produce ningún error, circunstancia que
se comprueba en la línea 17; esto puede requerir varias pasadas sobre la muestra
de entrenamiento. Obsérvese que el algoritmo se presta al aprendizaje on line, en
que los ejemplos se muestran a medida que van apareciendo.
14.3. ENTRENAMIENTO DE UNA RNA 143
La demostración de la convergencia es simple y puede consultarse en Bishop
(1996), p. 100 ó Haykin (1998), p. 139, por ejemplo. Sin entrar a detallarla aquí, es
fácil ver que la actualización que se hace en las líneas 7, 10 ó 13 del Algoritmo 2 es
“lógica”. Si el nuevo caso es correctamente clasificado por el perceptrón, w
(n)
no
se toca (línea 13). Si w

(n)
x
n+1
> 0 y hubiéramos deseado que w

(n)
x
n+1
≤ 0
(línea 6), la actualización que se realiza es:
w
(n+1)
←w
(n)
−ηx
n
con lo que
w

(n+1)
x
n
= w

(n)
x
n
−η [[x
n
[[
2
≤ w

(n)
x
n
;
es decir, nos movemos en la dirección deseada (w

(n+1)
x
n
se hace “menos posi-
tivo”), a tanta mayor velocidad cuanto mayor sea η. (Obsérvese que una actuali-
zación de este género puede introducir errores en ejemplos previamente bien cla-
sificados, por lo que de ordinario serán necesarias varias pasadas sobre los datos.)
De modo análogo sucede con la corrección en la línea 10 del algoritmo, cuando
w

(n)
x
n+1
≤ 0 indebidamente en la línea 9.
En definitiva, el algoritmo consiste en ir perturbando secuencialmente un hiper-
plano de modo que consigamos separar todos los casos. Claramente, sólo podremos
tener éxito cuando los casos sean linealmente separables. Cuando esto ocurre, el
algoritmo suministra un método de discriminación alternativo a los estudiados en
el Capítulo 12 para el caso de dos grupos.
14.3.2. El método de corrección de error.
El procedimiento anterior puede ser generalizado al caso en que la respuesta no
es binaria. Dicha generalización puede por otra parte verse como un caso particular
del método de aproximación estocástica de Robbins-Monro (véase Robbins and
Monro (1951) y Bishop (1996), pág. 46–48) que describimos a continuación.
Teorema 14.1 Consideremos dos variables correladas, g y θ verificando que f(θ) =
E[g[θ] (es decir, f() es una función de regresión de g() sobre θ). Supongamos que
E[(g(θ) −f(θ))
2
] < ∞ (14.4)
y, sin pérdida de generalidad, que f(θ) es monónota decreciente. Sea una sucesión
de números reales a
n
verificando:
l´ım
n→∞
a
n
= 0 (14.5)

¸
n=1
a
n
= ∞ (14.6)

¸
n=1
a
2
n
< ∞; (14.7)
144 CAPÍTULO 14. REDES NEURONALES ARTIFICIALES
entonces, si podemos evaluar la función g(θ) en una sucesión de valores θ
1
, . . . , θ
n
, . . .
generados así:
θ
n+1
= θ
n
+a
n
g(θ
n
), (14.8)
se tiene que θ
n
converge con probabilidad 1 a θ
0
, una raíz de f(θ) = E[g[θ] = 0.
El teorema anterior sugiere un procedimiento para entrenar secuencialmente
una red neuronal. Estamos interesados en optimizar una función de error c(Y , X, w)
continua y suficientemente derivable, como por ejemplo
c(Y , X, w) =
1
2
N
¸
n=1
m
¸
i=1
(y
(n)
i
−F
i
(x
(n)
, w))
2
(14.9)
Las condiciones de primer orden estipulan

∂w
c(Y , X, w) =
N
¸
n=1
¸
m
¸
i=1
(y
(n)
i
−F
i
(x
(n)
, w))

∂w
F
i
(x
(n)
, w)
¸
= 0
(14.10)
Es equivalente resolver la ecuación anterior of
1
N
N
¸
n=1
¸
m
¸
i=1
(y
(n)
i
−F
i
(x
(n)
, w))

∂w
F
i
(x
(n)
, w)
¸
= 0, (14.11)
y para N grande, el lado izquierdo de la igualdad anterior es aproximadamente
igual al valor medio
E

m
¸
i=1
(y
i
−F
i
(x, w))

∂w
F
i
(x, w)

; (14.12)
si identificamos la función cuyo valor medio se computa en (14.12) con f(θ) y
θ con w, vemos que es de aplicación el Teorema 14.1. Podemos pensar pues en
aplicar el procedimiento de Robbins-Monro, que converge casi seguramente a una
raíz de (14.12) y por tanto, aproximadamente, a una raíz de (14.11):
w
(n+1)
= w
(n)
+a
n
m
¸
i=1

y
(n)
i
−F
i
(x
(n+1)
, w
(n)
)


∂w
F
i
(x
(n+1)
, w
(n)
)
(14.13)
Si consideramos el caso de una red neuronal similar al perceptrón considerado
en la Sección 14.1 pero con activación lineal y respuesta continua, vemos que la
expresión (14.13) se particulariza a:
w
(n+1)
= w
(n)
+a
n

y
(n)
i
−F(x
(n+1)
, w
(n)
)

w
(n)
(14.14)
= w
(n)
+a
n
e
(n+1)
x
(n)
(14.15)
14.3. ENTRENAMIENTO DE UNA RNA 145
en que e
(n+1)
designa el error de ajuste de la n + 1 observación con los pesos
existentes tras procesar la n-ésima observación y x
(n)
es el vector de derivadas
parcial de la activación respecto del vector de pesos w. La fórmula de corrección
de error (14.15) generaliza la que se presentó en la Sección 14.1; a
n
ocupa el lugar
de η.
Si la activación no fuera lineal, la expresión (14.15) se convertiría en
w
(n+1)
= w
(n)
+a
n
e
(n+1)
F

(a
(n+1)
)x
(n)
(14.16)
en que a
(n+1)
= (w
(n)
)

x
(n+1)
es la excitacióne la neurona. Denominaremos
gradiente locale la neurona a:
δ
(n+1)
def
=
∂c
(n+1)
∂a
(n+1)
(14.17)
= e
(n+1)
F

(a
(n+1)
). (14.18)
Con esta notación, (14.16) se reescribe así:
w
(n+1)
= w
(n)
+a
n
δ
(n+1)
x
(n)
; (14.19)
en redes con más de una neurona, utilizaremos δ
(n+1)
k
para designar el gradiente
local de la neurona k-ésima.
Observación 14.5 Si observamos la última expresión, veremos que se
trata de simplemente de aplicar un método gradiente observación a obser-
vación. En lugar de calcular las derivadas de la función objetivo haciendo
uso de toda la muestra y llevar a cabo una optimización por el método del
gradiente ordinario, tomamos las derivadas de la contribución a la función
objetivo de cada observación. Como es lógico, debemos entonces ir amorti-
guando las contribuciones sucesivas, de modo que el influjo de la observación
n +1 sobre el vector de pesos calculado con ayuda de las n precedentes, sea
convenientemente pequeño: esta es la función del coeficiente de aprendizaje
a
n
.
Observación 14.6 Observemos también que la regla de actualización
es muy sencilla porque sabemos lo que deseamos obtener, y
(n)
, y lo que
obtenemos, F(a
(n)
); podemos “responsabilizar” del error a los pesos de la
única neurona que interviene. La situación se complica cuando hay más de
una neurona, quizá en cascada, en que no es obvio qué pesos hay que modifi-
car para reducir la discrepancia entre lo computado y lo deseado. Sucede, sin
embargo, que hay un algoritmo que permite hacer esta tarea no trivial de mo-
do eficaz: es el algoritmo de back-propagation de que se ocupa la siguiente
Sección.
14.3.3. El algoritmo de propagación hacia atrás
El algoritmo de propagación hacia atrás o back-propagations, en esencia, una
generalización a redes con más de una neurona del algoritmo de corrección de error
146 CAPÍTULO 14. REDES NEURONALES ARTIFICIALES
presentado en la sección anterior. Fue popularizado por Rumelhart et al. (1986)
aunque la idea parece preexistente (ver Bishop (1996), p. 141).
La Sección anterior, en particular la ecuación (14.19), muestran el modo de
actualizar los pesos a la entrada de una neurona en la primera capa cuando se
presenta el caso x
(n)
: basta multiplicar el gradiente local de la neurona por x
(n)
y
un parámetro de aprendizaje a
n
.
Exactamente la misma regla es de aplicación a una neurona k en una capa
intermedia, con la salvedad de que lo que se presenta a la entrada de la misma ya no
es x
(n)
sino el vector z
(n)
de salidas de todas las neuronas en la capa precedente
conectadas directamente a la k. El único problema, pues, es calcular el gradiente
local para una tal neurona.
Puesto que podemos calcular δ
k
para una neurona en la última capa, porque
podemos hacer uso de (14.19) en que e
(n+1)
y a
(n+1)
son ambos calculables, ha-
ciendo uso de la regla de la cadena:
δ
j
=
∂c
(n+1)
∂a
(n+1)
j
=
¸
k
∂c
(n+1)
∂a
(n+1)
k
∂a
(n+1)
k
∂a
(n+1)
j
=
¸
k
δ
k
F

(a
j
)w
kj
, (14.20)
en que la suma se toma sobre todas las neuronas k que reciben como entrada la
salida de la neurona j. Efectivamente: la activación de la neurona k depende li-
nealmente (a traves del peso w
kj
) de la salida z
j
de la neurona j, y dicha salida
depende de a
j
a través de la función de activación F.
Tenemos pues un método simple que permite calcular las derivadas de la fun-
ción de error respecto de las activaciones (y respecto de los pesos en consecuencia),
para utilizarlas en algoritmo de tipo gradiente.
14.4. Mapas auto-organizados (SOM)
Los mapas auto-organizados (self-organizing maps, SOM son un tipo de redes
neuronales directamente inspiradas como los perceptrones en lo que parece ser un
modo de funcionar del cerebro. Se aprecia en el mismo una organización espacial:
las neuronas tienden a estimular a, y ser estimuladas por, aquéllas que les que-
dan más próximas, lo que produce que se especialicen en una función grupos de
neuronas próximas.
Kohonen (1997) propuso un tipo de red neuronal artificial que imita dicho com-
portamiento. Básicamente opera así:
1. Se adopta para las neuronas una disposición espacial predeterminada: típi-
camente se disponen en filas y columnas. A cada neurona se le asigna un
vector de pesos w
ij
(los dos índices hacen referencia a la fila y columna en
que esta ubicada la neurona).
2. Se inicializan los vectores w
ij
de cualquier modo conveniente.
14.4. MAPAS AUTO-ORGANIZADOS (SOM) 147
Algoritmo 3 – Entrenamiento de una RNA por back-propagation.
1: N ←Número de ejemplos en la muestra de entrenamiento
2: η ←Parámetro aprendizaje ; w ←0
3: c ←Número de capas ; S ←Número de épocas
4: for s = 1 to S do
5: w
(1)
←w
6: for n = 1 to N do
7: Presentar el caso x
(n)
y calcular todas las activaciones a
i
.
8: Evaluar δ
k
para todas las neuronas conectadas a la salida.
9: for ℓ ∈ ¦c −1, . . . , 1¦ do
10: for j ∈ ¦Capa ℓ¦ do
11: δ
j
←F

(a
j
)
¸
k
w
kj
δ
k
k ∈ Capa (ℓ + 1)
12: ∂c
(n)
/∂w
ji
←δ
j
z
i
13: end for
14: end for
15: ∇(E
(n)
) ←[∂E
(n)
/∂w
(n)
]
16: Actualizar los pesos mediante w
(n+1)
←w
(n)
−η∇(E
(n)
)
17: end for
18: w ←w
(n+1)
19: end for
20: Devolver solucion en w.
3. Se presenta a la red cada uno de las observaciones x
k
de la muestra de en-
trenamiento ¦x
k
¦, k = 1, . . . , n.
4. Para cada neurona y cada observación en la muestra de entrenamiento se
computa R
ij,k
= [[x
k
−w
ij
[[
2
. Si
(i
opt
, j
opt
) = arg m´ın
i,j
R
ij,k
se dice que la neurona en la posición (i
opt
, j
opt
) “gana” la competición. En-
tonces, su vector de pesos (y, aunque en menor medida, los de todas las
neuronas vecinas), se alteran en orden a realzar su ventaja competitiva al
responder a la observación x
k
.
La descripción anterior, para hacerse más precias, requiere especificar como es
alteran los vectores de las neuronas “triunfantes” y sus vecinas, y quienes conside-
ramos vecinas.
Respecto de la última cuestión, debemos definir en la red una distancia entre
neuronas. Si las tenemos dispuestas en filas y comunas podríamos recurrir a una
distancia entre las neuronas (i, j) y (k, l) como:
d
2
ij,kl
= [i −k[
2
+[j −l[
2
; (14.21)
las neuronas vecinas de la (i, j) serían aquéllas (k, l) verificando d
2
ij,kl
< d para un
cierto umbral d que debemos determinar. Este umbral no necesita ser fijo durante
148 CAPÍTULO 14. REDES NEURONALES ARTIFICIALES
toda la duración del entrenamiento de la red, sino que, como veremos, ira por lo
general disminuyendo.
Por lo que hace a la modificación de pesos de la neurona triunfante (i, j) y
sus vecinas, la haremos del modo que sigue. Definamos h
ij,kl
como una función
decreciente de d
2
ij,kl
. Entonces, cuando la neurona (i, j) triunfa al presentarle la
observación x
(n+1)
, modificamos los vectores de pesos de todas las demás así:
w
(n+1)
kl
= w
(n)
kl
+ηh
ij,kl
(x
(n+1)
−w
(n)
kl
). (14.22)
En la expresión anterior, η es un parámetro de aprendizaje, típicamente mucho
menos que 1. La actualización de w
(n)
kl
tiene lugar sumándole una fraccióon de su
discrepancia con la observación x
(n+1)
, con lo que el vector actualizado está más
cerca de ésta. Además de η, el parámetro h
ij,kl
hace que la actualización sea más
intensa cuanto más cerca está la neurona k, l) de la vencedora (i, j) (puesto que
h
ij,kl
decrece con d
2
ij,kl
).
La regla de entrenamiento /14.22) garantiza que neuronas próximas tendrán
vectores de pesos parecidos.
14.5. Maquinas de vectores soporte (SVM)
Por escribir
Capítulo 15
Análisis de agrupamientos
15.1. Introducción
Consideramos un colectivo de N objetos, el i-ésimo de los cuales viene des-
crito por un vector x
i
. La información de partida es pues, como de costumbre, una
tabla X de dimensiones N p. En principio, las componentes de dicho vector
pueden ser reales, cualitativas o cualitativas ordenadas, e incluso cualquier combi-
nación de dichos tipos.
El objetivo es, sobre la base de los vectores observados, agruparlos en k grupos,
de tal modo que los que se incluyen en cada grupo tengan más parecido entre sí
que con los de otros grupos.
Naturalmente, el problema así formulado es muy vago y requiere formalización
adicional para poder ser abordado de manera algorítmica. Hemos de precisar qué
significa “parecerse” dos objetos —lo que nos llevará a definir nociones de simila-
ridad (o alternativamente disimilaridad) entre objetos: esta cuestión se aborda en la
Sección 15.2. Adicionalmente, dado que en el proceso de examinar agrupamientos
habremos de considerar la posibilidad de unir o separar grupos ya formados, nece-
sitaremos extender las nociones de similaridad o disimilaridad anteriores a grupos,
lo que haremos en la Sección 15.3. Finalmente, en la Sección 15.4 examinaremos
las estrategias de construcción de grupos.
149
150 CAPÍTULO 15. ANÁLISIS DE AGRUPAMIENTOS
15.2. Medidas de similaridad y disimilaridad entre obje-
tos
En lo que sigue se consideran diferentes medidas de similaridad o disimilari-
dad, adecuadas a situaciones diversas. En ocasiones resulta más natural pensar en
términos de similaridad, en otras en términos de disimilaridad.
15.2.1. Variables reales
Consideremos en primer lugar el caso en que x
i
está integramente compuesto
por variables reales. La definición más inmediata de disimilaridad entre x
i
y x
j
vendría proporcionada por la distancia euclídea ordinaria entre ambos, vistos como
puntos en R
p
:
d
2
(i, j) = [[x
i
−x
j
[[
2
=
p
¸
k=1
(x
ik
−x
jk
)
2
. (15.1)
Obsérvese que esta noción de disimilaridad es dependiente de las escalas de medi-
da: un cambio de unidades de medida en alguna o algunas de las variables altera
las distancias entre objetos. Puede recurrirse a normalizar las variables antes de
calcular la distancia euclídea entre objetos, o, lo que es equivalente, a calcular una
distancia euclídea generalizada así:
d
2
D
(i, j) = [[x
i
−x
j
[[
2
D
= (x
i
−x
j
)

D(x
i
−x
j
) (15.2)
en que D es una matriz diagonal cuyo elemento k, k contiene el inverso de la norma
(euclídea) de la k-ésima columna de X.
Si las p variables consideradas tienen correlación entre ellos, un refinamiento
inmediato de la idea anterior consistiría en considera la distancia de Mahalanobis,
d
2
Σ
(i, j) = [[x
i
−x
j
[[
2
Σ
= (x
i
−x
j
)

Σ
−1
(x
i
−x
j
), (15.3)
con Σ igual a la matriz de covarianzas de las p variables (si fuera conocida) o una
estimación de ella en el caso habitual de que no lo sea.
Una vía diferente de generalización de la distancia euclídea ordinaria deriva de
observar que d(i, j) es realmente un caso particular, con m = 2, de la definición
más general:
d
m
(i, j) =

p
¸
k=1
[x
ik
−x
jk
[
m

1/m
. (15.4)
Además de identificarse con la distancia auclídea ordinaria cuando m = 2, la
expresión anterior da lugar a otras distancias de interés. Cuando m = 1 tenemos
la distancia “bloque de casas” o “Manhattan”. Cuando m → ∞, tenemos que
d
m
(i, j) → sup
1≤k≤p
[x
ik
− x
jk
[, y de entre todas las discrepancias entre los
objetos i, j, sólo la mayor se toma en consideración. Cualquier valor 0 < m ≤ ∞
puede utilizarse, dando lugar a la distancia de Minkowskye parámetro m.
15.2. MEDIDAS DE SIMILARIDAD Y DISIMILARIDAD 151
Cuadro 15.1: Tabulación cruzada de valores de p variables dicotómicas en x
i
, x
j
.
0 1
0 a b
1 c d
15.2.2. Variables cualitativas nominales
Consideremos el caso, más simple, de variables cualitativas dicotómicas, pu-
diendo tomar únicamente dos valores que convencionalmente designaremos por 0
y 1. Podríamos hacer uso con estas variables de cualquiera de las definiciones en
el apartado precedente, pero con frecuencia tiene sentido hacer uso de definiciones
alternativas.
Cuando los vectores x
i
y x
j
describiendo a los sujetos i, j, están compuestos
en su integridad por variables dicotómicas, podemos construir una tabla de con-
tingencia como la recogida en el Cuadro 15.1. Vemos que, por ejemplo, para a
variables hubo una concidencia en los valores que toman en x
i
y x
j
, siendo ambas
0. Para d variables se verificó una coincidencia en el valor 1, y para b +c variables
hubo una discrepancia. (Obviamente, a +b +c +d = p si todas las variables han
sido registradas, es decir, no hay valores faltantes.)
A partir de los números tabulados en las cuatro casillas del Cuadro 15.1 pode-
mos definir similaridad de muy diversas formas. Podemos por ejemplo considerar
s(i, j) =
a +d
a +b +c +d
(15.5)
s(i, j) =
2d
a +b +c +d
(15.6)
s(i, j) =
d
a +b +c +d
. (15.7)
15.3. Medidas de similaridad y disimilaridad entre gru-
pos
No basta definir similaridad o disimilaridad entre objetos. En algunos algorit-
mos para la obtención de agrupamientos se requiere en algunas fases decidir qué
dos grupos ya formados se amalgaman, por ser los más similares. Es preciso por
tanto extender la noción de similaridad (o dismilaridad) entre objetos de manera
que proporciona una noción homóloga para grupos. Son muchas las posibilidades,
entre las que citaremos tres.
152 CAPÍTULO 15. ANÁLISIS DE AGRUPAMIENTOS
Ligadura simple
Cuando utilizamos ligadura simple(single linkage) definimos como disimila-
ridad entre dos grupos la disimilaridad entre los dos objetos, uno en cada grupo,
menos disimilares entre sí. Todo lo que se requiere para que dos grupos estén pró-
ximos es una pareja de puntos, uno en cada grupo, próximos.
Ligadura completa
La ligadura completa ligadura completa(complete linkage) es el criterio dia-
metralmwente opuesto. Definimos como disimilaridad entre dos grupos la disimi-
laridad entre los dos objetos, uno en cada grupo, más disimilares entre sí. Para que
dos grupos estén próximos, es preciso que los representantes de ambos más disi-
milares estén próximos —lo que supone que todos los objetos de un grupo han de
estar en la vecindad de todos los del otro.
15.4. Estrategias de construcción de grupos
15.4.1. Procedimientos jerárquicos
Estrategias aglomerativas o divisivas
Examinaremos una estrategia aglomerativa; su homóloga divisiva es similar
con los cambios obvios.
Inicialmente, en la etapa t = 0 del proceso de agrupamiento, todos los N obje-
tos a agrupar se consideran separados. Los designaremos O
1
, . . . , O
N
. A lo largo
del proceso de aglomerado, los objetos se irán integrando en grupos. Emplearemos
la notación G
k
= ¦O
i
1
, . . . , O
i
k
¦ para indicar el grupo G
k
contiene los objetos
O
i
1
, . . . , O
i
k
.
Comenzamos computando la matriz de disimilaridad entre todos los objetos:
O
1
O
2
O
3
. . . O
N
O
1
− d
12
d
13
. . . d
1N
O
2
− d
23
. . . d
2N
O
3
− . . . d
3N
.
.
.
O
N

Recorreremos dicha matriz en busca de la disimilaridad d
ij
menor. Supongamos
que es la que corresponde a la pareja formada por O
2
y O
3
. Tomaremos nota
de dicha distancia y amalgamaremos ambos puntos para formar el grupo G
1
=
¦O
2
, O
3
¦. A continuación eliminaremos las distancias en la fila y columna corres-
pondientes a O
2
y O
3
y añadiremos una fila y columna correspondientes al grupo
recién formado:
15.4. ESTRATEGIAS DE CONSTRUCCIÓN DE GRUPOS 153
O
1
O
2
O
3
. . . O
N
G
1
O
1
− − − . . . d
1N
d
1,G
1
O
2
− − . . . − −
O
3
− . . . − −
.
.
.
O
N
− d
N,G
1
G
1

Obsérvese que han desaparecido de la matriz de disimilaridades todas aquéllas que
involucraban directamente a los objetos =
2
y O
3
, y ha aparecido en cambio una
nueva columna con las disimilaridades entre el grupo G
1
—que engloba a los dos
objetos citados— y todos los demás. Las distancias en la nueva columna lo son de
un grupo a objetos, y se calculan, por ejemplo, de acuerdo con uno de los criterios
relacionados en la Sección 15.3.
La nueva matriz de disimilaridades es de nuevo rastreada en busca de la menor.
Si ésta corresponde a dos objetos, se amalgamarán en un nuevo grupo. Si corres-
ponde a una distancia entre un objeto aislado y un grupo ya formado, se amalga-
mará el objeto a dicho grupo. En todos los casos, tomamos nota de la distancia de
amalgamado y actualizamos la matriz de disimilarirdades en aquéllos elementos
que lo requieren y se continúa el proceso. Nótes que cada vex el número de colum-
nas se reduce en uno. El proceso finaliza cuando se amalgaman los objetos o grupos
que asociados a las dos últimas columnas que subsistan, en cuyo momento hemos
creado un único agrupamiento que engloba a la totalidad de los objetos iniciales.
El procedimiento anterior se dice que es jerárquico. En efecto, en cada etapa
del proceso la relación entre dos grupos cualesquiera sólo puede ser de inclusión
(uno totalmente contenido en otro) o de exclusión (ambos completamente disjun-
tos).
Dendrograma
El proceso de amalgamado en una estrategia jerárquica puede representarse
convenientemente mediante un dengrograma.
R: Ejemplo 15.1
154 CAPÍTULO 15. ANÁLISIS DE AGRUPAMIENTOS
Figura 15.1: Agrupamiento jerárquico con distancia promedio de 10 puntos toma-
dos al azar en R
4
1
6
4
3 5
8
2 7
1
.
0
1
.
5
2
.
0
2
.
5
3
.
0
Cluster Dendrogram
hclust (*, "average")
d
H
e
i
g
h
t
Apéndice A
Cálculo diferencial. Notación
matricial.
Hay aquí sólo una breve recopilación de resultados útiles. Más detalles y de-
mostraciones en Searle (1982) y Magnus and Neudecker (1988).
A.0.2. Notación
Haremos uso de las siguientes definiciones y notación.
Definición A.1 Sea X un vector m 1 e Y una función escalar de X: Y =
f(X
1
, . . . , X
m
) = f(X). Entonces:

∂Y
∂X

def
=

¸
¸
¸
¸
¸
¸
∂Y
∂X
1
∂Y
∂X
2
.
.
.
∂Y
∂X
m
¸

Si Y = X

AX siendo Auna matriz cuadrada cualquiera, es inmediato comprobar
que:

∂Y
∂X

= (A +A

)X.
En el caso, frecuente, de que A sea simétrica, tenemos que:

∂Y
∂X

= 2A

X
155
156 APÉNDICE A. CÁLCULO DIFERENCIAL MATRICIAL
Definición A.2 Sea

Y una función vectorial n 1–valorada de X, vector m1.
Entonces:

Y
∂X

def
=

¸
¸
¸
¸
¸
¸
∂Y
1
∂X
1
∂Y
2
∂X
1
. . .
∂Y
n
∂X
1
.
.
.
.
.
.
.
.
.
∂Y
1
∂X
m
∂Y
2
∂X
m
. . .
∂Y
n
∂X
m
¸

Hay algunos casos particulares de interés. Si Y = a

X = a
1
X
1
+ . . . + a
m
X
m
,
siendo a un vector de constantes,
∂Y
∂X
=

¸
¸
a
1
.
.
.
a
m
¸

= a;
si

Y = AX, siendo A una matriz (n m) de constantes,

Y
∂X

= A

.
A.0.3. Algunos resultados útiles
∂X

AX
∂X
= 2AX (A.1)
∂ log
e
[A[
∂A
=

A

−1
(A.2)
∂tr(BA
−1
C)
∂A
= −(A
−1
CBA
−1
) (A.3)
Apéndice B
Datos
B.1. Records atléticos de diversos países.
País 100m 200m 400m 800m 1500m 5Km 10Km Maratón
Argentina 10.39 20.81 46.84 1.81 3.70 14.04 29.39 137.72
Australia 10.31 20.06 44.84 1.74 3.57 13.28 27.66 128.30
Austria 10.44 20.81 46.82 1.79 3.60 13.26 27.72 135.90
Bélgica 10.34 20.68 45.04 1.73 3.60 13.22 27.45 129.95
Bermuda 10.28 20.58 45.91 1.80 3.75 14.68 30.55 146.62
Brazil 10.22 20.43 45.21 1.73 3.66 13.62 28.62 133.13
Birmania 10.64 21.52 48.30 1.80 3.85 14.45 30.28 139.95
Canada 10.17 20.22 45.68 1.76 3.63 13.55 28.09 130.15
Chile 10.34 20.80 46.20 1.79 3.71 13.61 29.30 134.03
China 10.51 21.04 47.30 1.81 3.73 13.90 29.13 133.53
Colombia 10.43 21.05 46.10 1.82 3.74 13.49 27.88 131.35
Cook-Islas 12.18 23.20 52.94 2.02 4.24 16.70 35.38 164.70
Costa 10.94 21.90 48.66 1.87 3.84 14.03 28.81 136.58
Checoslov. 10.35 20.65 45.64 1.76 3.58 13.42 28.19 134.32
Dinamarca 10.56 20.52 45.89 1.78 3.61 13.50 28.11 130.78
Rep. Dom. 10.14 20.65 46.80 1.82 3.82 14.91 31.45 154.12
Finlandia 10.43 20.69 45.49 1.74 3.61 13.27 27.52 130.87
Francia 10.11 20.38 45.28 1.73 3.57 13.34 27.97 132.30
RDA 10.12 20.33 44.87 1.73 3.56 13.17 27.42 129.92
RFA 10.16 20.37 44.50 1.73 3.53 13.21 27.61 132.23
UK 10.11 20.21 44.93 1.70 3.51 13.01 27.51 129.13
Grecia 10.22 20.71 46.56 1.78 3.64 14.59 28.45 134.60
Guatemala 10.98 21.82 48.40 1.89 3.80 14.16 30.11 139.33
País 100m 200m 400m 800m 1500m 5Km 10Km Maratón
Hungria 10.26 20.62 46.02 1.77 3.62 13.49 28.44 132.58
India 10.60 21.42 45.73 1.76 3.73 13.77 28.81 131.98
157
158 APÉNDICE B. DATOS
País 100m 200m 400m 800m 1500m 5Km 10Km Maratón
Indonesia 10.59 21.49 47.80 1.84 3.92 14.73 30.79 148.83
Irlanda 10.61 20.96 46.30 1.79 3.56 13.32 27.81 132.35
Israel 10.71 21.00 47.80 1.77 3.72 13.66 28.93 137.55
Italia 10.01 19.72 45.26 1.73 3.60 13.23 27.52 131.08
Japon 10.34 20.81 45.86 1.79 3.64 13.41 27.72 128.63
Kenya 10.46 20.66 44.92 1.73 3.55 13.10 27.38 129.75
Korea 10.34 20.89 46.90 1.79 3.77 13.96 29.23 136.25
RD-Korea 10.91 21.94 47.30 1.85 3.77 14.13 29.67 130.87
Luxemb. 10.35 20.77 47.40 1.82 3.67 13.64 29.08 141.27
Malasia 10.40 20.92 46.30 1.82 3.80 14.64 31.01 154.10
Mauricio 11.19 22.45 47.70 1.88 3.83 15.06 31.77 152.23
Mexico 10.42 21.30 46.10 1.80 3.65 13.46 27.95 129.20
Holanda 10.52 20.95 45.10 1.74 3.62 13.36 27.61 129.02
N.Zelanda 10.51 20.88 46.10 1.74 3.54 13.21 27.70 128.98
Noruega 10.55 21.16 46.71 1.76 3.62 13.34 27.69 131.48
Papua-N.G. 10.96 21.78 47.90 1.90 4.01 14.72 31.36 148.22
Filipinas 10.78 21.64 46.24 1.81 3.83 14.74 30.64 145.27
Polonia 10.16 20.24 45.36 1.76 3.60 13.29 27.89 131.58
Portugal 10.53 21.17 46.70 1.79 3.62 13.13 27.38 128.65
Rumania 10.41 20.98 45.87 1.76 3.64 13.25 27.67 132.50
Singapur 10.38 21.28 47.40 1.88 3.89 15.11 31.32 157.77
España 10.42 20.77 45.98 1.76 3.55 13.31 27.73 131.57
Suecia 10.25 20.61 45.63 1.77 3.61 13.29 27.94 130.63
Suiza 10.37 20.46 45.78 1.78 3.55 13.22 27.91 131.20
Taiwan 10.59 21.29 46.80 1.79 3.77 14.07 30.07 139.27
Tailandia 10.39 21.09 47.91 1.83 3.84 15.23 32.56 149.90
Turquia 10.71 21.43 47.60 1.79 3.67 13.56 28.58 131.50
USA 9.93 19.75 43.86 1.73 3.53 13.20 27.43 128.22
USSR 10.07 20.00 44.60 1.75 3.59 13.20 27.53 130.55
Samoa 10.82 21.86 49.00 2.02 4.24 16.28 34.71 161.83
Fuente: Dawkins (1989)
Bibliografía
Agresti, A. (1990). Categorical Data Analysis. Wiley.
Anderson, T. (1978). An Introduction to Multivariate Statistical Analysis. New
York: Wiley, 1984th edition, Signatura: 519.237 AND.
Barnett, V. and Lewis, T. (1978). Outliers in Statistical Data. New York: Wiley.
Basilevsky, A. (1992). Statistical Factor Analysis and Related Methods. Wiley.
Bishop, C. (1996). Neural Networks for Pattern Recognition. Oxford: Clarendon
Press.
Bishop, Y., Fienberg, S., and Holland, P. (1975). Discrete Multivariate Analysis.
Theory and Practice. Cambridge, Mass.: MIT Press.
Borg, I. and Groenen, P. (1997). Modern Multidimensional Scaling. Theory and
Applications. New York: Springer-Verlag.
Breiman, L., Friedman, J., Olshen, R., and Stone, C. (1984). Classification and
Regression Trees. Belmont, California: Wadsworth.
Carroll, J. (1953). An analytic solution for approximating simple structure in factor
analysis. Psychometrika, 18, 23–38.
Chambers, J. and Hastie, T. (1992). Statistical Models in S. Pacific Grove, Ca.:
Wadsworth & Brooks/Cole.
Chatfield, C. and Collins, A. (1980). Introduction to Multivariate Analysis. Lon-
don: Chapman & Hall.
Cox, D. R. and Hinkley, D. V. (1974). Theoretical Statistics. London: Chapman
and Hall, 1979th edition.
Cox, T. and Cox, M. (1994). Multidimensional Scaling. Chapman and Hall.
Cuadras, C. (1981). Métodos de Análisis Multivariante. Barcelona: Eunibar.
159
160 BIBLIOGRAFÍA
D’Agostino, R. (1971). An Omnibus Test of Normality for Moderate and Large
Sample Sizes. Biometrika, 58, 341–348.
D’Agostino, R. (1972). Small Sample Probability Points for the D Test of Norma-
lity. Biometrika, 59, 219–221.
Dawkins, B. (1989). Multivariate Analysis of National Track REcords. The Ameri-
can Statistician, 43, 110–115.
Devroye, L., Györfi, L., and Lugosi, G. (1996). A Probabilistic Theory of Pattern
Recognition. Springer Verlag, Signatura: 519.237.8.
Dillon, W. and Goldstein, M. (1984). Multivariate Analysis: Methods and Appli-
cations. New York: Wiley.
Escofier, B. and Pages, J. (1984). Análisis Factoriales Simples y Multiples. Objeti-
vos, Métodos e Interpretación. Bilbao: Servicio Editorial de la UPV/EHU.
Fayyad, U. and Irani, K. (1992). On the handling of continuous-valued attributes
in decision tree generation. Machine Learning, 8, 87–102.
Fienberg, S. (1980). The Analysis of Cross-Classified Categorical Data. Cambrid-
ge, Mass.: MIT Press.
Fourgeaud, C. and Fuchs, A. (1967). Statistique. Paris: Dunod.
Friedman, J. (1991). Multivariate Adaptive Regression Splines. Annals of Statis-
tics, 19, 1–41.
Garthwaite, P., Jolliffe, I., and Jones, B. (1995). Statistical Inference. London:
Prentice Hall.
Giri, N. (1977). Multivariate Statistical Inference. Academic Press.
Gower, J. (1975). Generalized Procrustes Analysis. Psychometrika, 40, 33–51.
Hand, D. (1981). Discrimination and Classification. Wiley.
Hand, D. (1997). Construction and Assessment of Classification Rules. Wiley.
Harman, H. (1960). Modern Factor Analysis. The Univ. of Chicago Press, Hay
traducción española de la tercera edición.
Hastie, T., Tibshirani, R., and Friedman, J. (2001). The Elements of Statistical
Learning. Data Mining, Inference, and Prediction. Springer-Verlag, Signatura:
519.237.8 HAS.
Hawkins, D. (1997). FIRM: Formal Inference-based Recursive Modeling. Techni-
cal Report 546, University of Minnesota, School of Statistics.
BIBLIOGRAFÍA 161
Haykin, S. (1998). Neural Networks. A comprehensive Foundation. Prentice Hall,
second edition.
Kaiser, H. (1958). The varimax criterion for analytic rotation in factor analysis.
Psychometrika, 23, 187–200.
Kiefer, J. C. (1983). Introduction to Statistical Inference. New York: Springer-
Verlag, 1987th edition.
Kohonen, T. (1997). Self-Organizing Maps. Berlin: Springer-Verlag.
Kooperberg, C., Bose, S., and Stone, C. J. (1997). Polychotomous Regression.
Journal of the American Statistical Association, 92, 117–127.
Krzanowski, W. (1988). Principles of Multivariate Analysis: A User’s Perspective.
Oxford, Signatura: 519.23 KRZ.
Lachenbruch, P. (1975). Discriminant Analysis. New York: Hafner Press.
Lebart, L. (1997). Méthodes factorielles. In Thiria et al. (1997).
Loh, W.-Y. and Vanichsetakul, N. (1988). Tree-Structured Clasification Via Gene-
ralized Discriminant Analysis. Journal of the American Statistical Association,
83, 715–728.
Magnus, J. and Neudecker, H. (1988). Matrix differential calculus with applica-
tions in Statistics and Econometrics. Wiley.
Mardia, K. (1974). Applications of some measures of Multivariate Skewness and
Kurtosis for testing normality and Robustness Studies. Sankhya, B, 36, 115–128.
Mardia, K., Kent, J., and Bibby, J. (1979). Multivariate Analysis. Academic Press.
McCulloch, W. and Pitts, W. (1943). A logical calculus of the ideas immanent in
nervous activity. Bulletin of Mathematical Biophysics, 5, 115–133.
McLachlan, G. (1992). Discriminant Analysis and Statistical Pattern Recognition.
Wiley.
Peña, D. (2002). Análisis de Datos Multivariantes. McGraw-Hill.
Plackett, R. (1974). The Analysis of Categorical Data. London: Griffin.
Rencher, A. (1995). Methods of Multivariate Analysis. Wiley.
Rencher, A. (1998). Multivariate Statistical Inference and Applications. Wiley.
Ripley, B. (1996). Pattern Recognition and Neural Networks. Cambridge Univer-
sity Press, 519.237.8 RIP.
162 BIBLIOGRAFÍA
Robbins, H. and Monro, S. (1951). A stochastic approximation method. Annals of
Mathematical Statistics, pp. 400–407.
Rothkopf, E. (1957). A mesure of stimulus similarity and errors in some paired-
associate learning. Journal of Experimental Psychology, 53, 94–101.
Royston, P. (1995). A Remark on Algorithm AS 181: The W Test for Normality.
Journal of the Royal Statistical Soc., Ser. B, 44, 547–551.
Rumelhart, D., Hinton, G., and Williams, R. (1986). Learning internal representa-
tions by error propagation. In D. Rumelhart and J. McClelland, editors, Parallel
distributed processing: Explorations in the Microstructures of cognition, volu-
me 1, pp. 318–362, MIT Press.
Searle, S. (1982). Matrix Algebra useful for Statistics. Wiley.
Seber, G. (1977). Linear Regression Analysis. New York: Wiley.
Seber, G. (1984). Multivariate Observations. New York: Wiley.
Shapiro, S. and Wilk, M. (1965). An analysis of variance test for normality (com-
plete samples). Biometrika, 52, 591–611.
Sibson, R. (1978). Studies in the Robustness of Multidimensional Scaling: Pro-
crustes Statistics. Journal of the Royal Statistical Society, Ser. B, 40, 234–238.
Stapleton, J. (1995). Linear Statistical Models. New York: Wiley.
Therneau, T. and Atkinson, E. (1997). An Introduction to Recursive Partitioning
using the RPART Routines. Technical report, Mayo Foundation.
Thiria, S., Lechevallier, I., Gascuel, O., and Canu, S., editors (1997). Statistique et
méthodes neuronales, Dunod.
Trocóniz, A. F. (1987a). Modelos Lineales. Bilbao: Serv. Editorial UPV/EHU.
Trocóniz, A. F. (1987b). Probabilidades. Estadística. Muestreo. Madrid: Tebar-
Flores.
Zhang, H. and Singer, B. (1999). Recursive Partitioning in the Health Sciences.
Springer-Verlag, Signatura: 519.233.5 ZHA.
Índice alfabético
R(T)
estimador por resustitución,
ˆ
R(T),
131
estimador por validación, R
cv
(T),
131
estimador por validación, R
ts
(T),
131
tasa de error en árboles, 129
tasa de mala clasificación
en árboles, 129
R(t)
tasa de error en un nodo, 129
árbol
binario, 125
de clasificación, 125, 126
de regresión, 125
FACT, 135
FIRM, 135
nodo, 125
nodos terminales, 125
raíz, 125
índice
de Gini, 128
de impureza de un nodo, 128
outliers
en distribuciones normales, 32
activación
función de, 139
algoritmo de reescalado iterativo
, 89
aprendizaje
d, 141
atributos, 83
back-propagation
e, 145
binario
árbol, 125
caracteres, 83
clasificación
mediante árboles binarios, 126
componentes principales, 59
contraste
razón generalizada de verosimilitu-
des, 42
contraste de hipótesis
sobre el vector de medias de una
población normal, 37
D’Agostino
contraste de normalidad, 30
dengrograma
agrupamiento jerárquico, 153
descomposición en valores singulares, 77
discriminación
con costes variables, 112
con información a priori, 110
con más de dos grupos, 112, 115
con variables normales, 113
máximo verosímil, 109
regla lineal de Fisher, 115
discriminante, análisis
tasa de error aparente, 120
163
164 ÍNDICE ALFABÉTICO
disimilaridad, 101
distancia
de Mahalanobis, 123
euclídea, 102
distancia de Minkowsky
d, 150
distribución
Wilks, lambda de, 27
Eckart-Young
teorema, 61
entrenamiento
o, 141
entropía
como medida de impureza en árbo-
les, 128
impureza de un nodo, 128
excitación
d, 145
FACT, 135
factorial
modelo
estimación por el método del fac-
tor principal, 74
estimación por máxima verosimi-
litud, 74
rotación
quartimax, 73
varimax
rotación, 73
FIRM, 135
Fisher
discriminante lineal, 115
formas cuadráticas
generalizadas, 27, 45
Gini
índice de, 128
Gini, índice
como medida de impureza en árbo-
les, 128
Gnanadesikan y Kettenring
contraste de normalidad, 31
gradiente local
d, 145
impureza
de los nodos de un árbol, 128
jerárquico
método de agrupamiento, 153
Kohonen
mapas auto-organizados, 146
Lawley-Hotelling
contraste, 47
ligadura completa
, 152
ligadura simple
, 152
máquinas de vectores soporte, 148
Mahalanobis
distancia, 123
MANOVA
con un tratamiento, 45
más de un tratamiento, 47
mapas auto-organizados, 146
Mardia
contraste de normalidad, 32
matriz
de proximidades, 101
muestreo de Poisson
., 84
muestreo multinomial
., 85
muestreo producto-multinomial
., 85
niveles, 83
nodo
impureza, 128
raíz, 125
terminal, 125
normalidad
contraste de Shapiro-Wilk, 30
contraste de D’Agostino, 30
contraste de Gnanadesikan y Ket-
tenring, 31
ÍNDICE ALFABÉTICO 165
contraste de Mardia, 32
contrastes multivariantes, 30
parámetro de aprendizaje
p, 142
paradoja de Simpson
„ 84
perceptrón
„ 139
-, 141
Pillai
contraste, 47
Procrustes
análisis, 97
proximidades
matriz de, 101
quartimax
rotación, 73
red neuronal, 137
RNA, 137
rotación
ortogonal, 72
procrustes, 97
quartimax, 73
varimax, 73
Roy
contraste, 47
máxima raíz, 47
self-organizing maps, SOM
), 146
Shapiro-Wilk
contraste de normalidad, 30
similaridad, 101
SOM, 146
sumas de cuadrados
generalizadas, 45
sumas de cuadrados
generalizadas, 27, 46
SVD
descomposición en valores singula-
res, 77
SVM, 148
tabla de contingencia
, 83
tasa de error
en árboles, 129
tasa de error aparente
en discriminación, 120
teorema
de Eckart-Young, 61
validación cruzada, 121, 131
valores singulares
descomposición, 77
varimax
rotación, 73
vectores soporte, 148
verosimilitud
razón generalizada, 42
Wilks
distribución Λ, 27

2

Índice general

1. Normal multivariante y asociadas 1.1. Introducción. . . . . . . . . . . . . . . . . . . . 1.2. Distribución normal multivariante. . . . . . . . . 1.3. Regresión lineal. . . . . . . . . . . . . . . . . . 1.4. Correlación simple, parcial y múltiple. . . . . . . 1.5. Distribución de Wishart. . . . . . . . . . . . . . 1.6. Formas cuadráticas generalizadas. . . . . . . . . 1.7. Distribución T 2 de Hotelling. . . . . . . . . . . . 1.8. Distribución de Wilks y asociadas . . . . . . . . 1.9. Contrastes en la distribución normal . . . . . . . 1.9.1. Diagnósticos de normalidad univariante . 1.9.2. Diagnósticos de normalidad multivariante 1.9.3. Búsqueda de outliers . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

11 11 12 16 18 20 21 24 27 29 29 30 32 35 35 35 36 36 37 38 40 41 41 41

2. Inferencia en poblaciones normales multivariantes. 2.1. Inferencia sobre el vector de medias. . . . . . . . . . . . . . . . . 2.1.1. Contraste sobre el vector de medias conocida Σ. . . . . . 2.1.2. Contraste sobre el vector de medias con Σ desconocida. . 2.1.3. Contraste de igualdad de medias en dos poblaciones con matriz de covarianzas común. . . . . . . . . . . . . . . . 2.1.4. Contraste de hipótesis lineales generales sobre el vector de medias de una única población. . . . . . . . . . . . . . . 2.1.5. Contraste de hipótesis lineales sobre los vectores de medias de dos poblaciones. . . . . . . . . . . . . . . . . . . 2.2. Inferencia sobre el coeficiente de correlación entre dos v.a. normales X1 , X2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3. Inferencia sobre la matriz de covarianzas. . . . . . . . . . . . . . 2.3.1. Contraste de igualdad de matrices de covarianzas en dos poblaciones normales. . . . . . . . . . . . . . . . . . . . 2.3.2. Contraste de diagonalidad por bloques de la matriz de covarianzas de una única población normal. . . . . . . . . . . 3

4. . . . .2. . Extensiones y bibliografía . .1. . 7. . . . .2. . . . . Indeterminación de las soluciones factoriales. . . . . . . . . . 8. . . . . . Tipos de muestreo . Interpretación geométrica. . . . . . . . . . . 5. . . . . . . Biplots 7. . . . . . . . .3. . .1. Modelo MANOVA con un tratamiento . . . . . . . . . Datos categóricos multivariantes 8. . . Análisis de correlación canónica 4. . . . . . . 5. . . . . . . . . . . 7. . . . . . . . . .5. Análisis Factorial y el objetivo de la parsimonia . . . . . . . . . . . 4. .2. . . .5. . . . .1. 8. . . . . . . 5. . . .1. . . .3. . . 6. . . . . . . . . . . Análisis de varianza multivariante 3. . . . . . . . . . . . . . . . .1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1. . . . . . . . . .3. . 5. . . . . . .2. . . .1. . . . . . . . . . . . .2.4. . . . . . . . . . . . . . . . . . . . . . Introducción.4 ÍNDICE GENERAL 2. . . Introducción. . . . . . . . . Introducción. . . . . . 6. . . . . . . . 6. . . . . . . . . . . 7. . . . . . . . Interpretación. . . Contraste de esfericidad . . . . . . . . . Método del factor principal . . .3. . . . . . 8. . . . . . . . . . . . . 5. . . . . . . . . . . . . . . . . 7. . . . . . . . . . 4. . Variables canónicas y coeficientes de correlación canónica. . 3. . .2. . . . . . . Análisis Factorial. . . . . . . . . .1. . .5. . . . . . .4. . . . . . . . .2. . Ejemplo . . . . . .5. Descomposición en valores singulares. .3. . . . . . . . . . . . . . Lectura recomendada . . Lectura recomendada . . . . 6. . . . . . . . . . . . . .3. . . Modelos MANOVA con dos o más tratamientos 3. . . . .2. . . . . Biplots . . . . . . . . . . . 6. . . . . .3. . . . . . . 6.5. . . . . . . . . . Relación entre diversos contrastes .4. . 8. 7. . . . . . . . . 3. . . . . . .2. Componentes principales. .4. . . . 3. 4. .3. Método de máxima verosimilitud . . . . Propiedades de las componentes principales. Obtención de las componentes principales. . . . . . . . . . 43 45 45 45 46 47 48 51 51 51 54 55 57 57 58 61 63 64 67 67 68 69 71 74 74 74 75 75 77 77 78 81 83 83 84 85 87 89 3. . . . . . . . . . . . . . . . . . . . . . . . . .4. . . . . . . . . . . . . La igualdad fundamental . . . . . . . . . . .2. Introducción . La paradoja de Simpson . . . . . . . . . . . . . . . 5. . . . . . . . . . . . . . . Comentarios adicionales . . . Estimación del modelo . . . . . . Relación con otros contrastes . . . . . . . . . . . . . . . . . .5. . . . . . . . . . . . . . . . . . . 6. . . . . . . . . . . Introducción . . . . . . Modelos logarítmico-lineales 8. . . . . . . . . . . . . . Rotaciones 6. . . . Interpretación . . . . . . .

.3. .4. . .6.3.5. . . . . . . . . . 100 11. . .1. . . . . . . . . . 99 . Estimación de la tasa de error . . . Variables normales . .5. .2. . .3. . . . 12. . . . . 10. Rotación P . Discriminación con información a priori . . . . . . . .2. . . . . . . . . . . 13. Lectura recomendada .2. Evaluación de funciones discriminantes . . . . . . . .1. . . . Bibliografía comentada . 9. . . . Análisis de las filas de X . . . . . . . . . . . .3. .1. . . . Tasa de error penalizada .3. . . . 12. Parámetro de escala ρ . . . . . . . . . . . . .2. . . . . .3. . . . . . Introducción. . Matriz de covarianzas muestral . . . . . . . . . . . . Análisis de las columnas de X . .2. . . . . . . . . . . . . .2. . . . . . . . 9. . . . Reescalado Multidimensional 101 11. . . . . . . . . . . . . . . Diferentes covarianzas: Σ1 = Σ2 . . . . . .2. . . . . . . 13. . . .2. Obtención de la transformación Procrustes 10. . . . . . . . Introducción. . . . . . . . 12. . .2. 107 107 109 110 113 113 114 115 115 116 117 119 122 125 125 127 128 129 131 132 132 135 . . . . . . . . . . . 12. . . . . . . . . . . . . . . . . .4. . . . . 9.2. . . Análisis discriminante 12. . . . . . . . . . . . Arboles de regresión y clasificación 13. . . . . . . 13. . . . . . . . . . . . . . . 12. . Notación . . 98 . . . Distancia entre las filas de la matriz de datos 9. .4. . . . . 13. . . . . . . . . . . . . . 99 . . 12. . Criterios de parada y/o poda . . . 12. 13. 102 12.1. . . . . . . . . . Construcción de árboles binarios . . . . . 13.2. . . . . . . . . . . . . . . Traslación a . . . . . . . . . Introducción. .4. . .3. . . . . . . . . . . .6. . . . . . . 5 91 91 91 91 93 95 95 96 . . 12. . . . . . . . . . . Medidas de “impureza” de nodos y árboles. .1. . . . . . . . . . . . . . . . . . . . 97 . . . . . . .2. . La regla lineal de Fisher . . . . . . . . 9. . . . . . . . . . . . . . . . . .1. . .2. . . . . . . .5. . . . Más de dos grupos con matriz de covarianzas Σ común 12. . . . . . . . . . . . . . . . 10. . . . . . 12. . . . . . . . . . Análisis de Correspondencias 9. . . . .2. . . . . . . Reciprocidad y representación conjunta . . . . . . . Espacio de búsqueda . Análisis y comentarios adicionales . . . . . . . . . . . . . . . .ÍNDICE GENERAL 9. . y dos grupos . . . . Reescalado multidimensional métrico .7. . . . . . El algoritmo de construcción de árboles . . . . . . .1. .1. . .2. . . . . . .2. . . . .4. . . . . . . . . . 101 11. . . .1. . . . . . . . . . . . . 12. . . . 97 . . . . . 13. . .1. . Matriz de covarianzas Σ común y dos grupos . . . . .1. . Caso de varios grupos . . . . . . . .1. . . 13. . .5. . Dos grupos con matriz de covarianzas Σ común . . . . .2. . .1. . 10. . . . 10. . 99 .2.2. . . . . . . 10. . . . . . . . Análisis Procrustes 10. Arboles binarios . . . Discriminación máximo-verosímil . . . . . 9. .4. . .

. . . . . . . .1. . . . . . . .1.3. . . . .0. . .4. . . . . 15. . . . . . . . . 14. . Notación matricial. Entrenamiento de una RNA . . . . .2. . .1. . . . . .5. . 155 A. . . Neuronas biológicas y neuronas artificiales . . . . . . Neuronas artificiales . . . . . . . . 135 14. 14. . . .1. 14. . . . . . . . . .1. . . . . Maquinas de vectores soporte (SVM) . . . Variables reales . . . . . . . . . . . . 156 B. . . . .2. . . . . Algunos resultados útiles . . El algoritmo de propagación hacia atrás . 157 . . . . . . Cálculo diferencial. . . . . . . . . . . . . . . .3. . . . . . . . . . . 155 A. . Estrategias de construcción de grupos . . . . .3.4. . . . . . . . Redes neuronales artificiales (RNA) . . . . . . Introducción . . .2. . .4. . . . 14. . . . . .3. . . . . . . . . 15.2. 14. .2. . . . Bibliografía comentada . . . .2. . . . . . . . . . . . . . . . .2. Morfología y funcionamiento de una neurona humana 14.4. . . . 14. . . . . Análisis de agrupamientos 15. . 137 137 137 137 138 140 141 141 143 145 146 148 149 149 150 150 151 151 152 152 . . . . . . 14. .3. . . . . . . . 15. . . . . . . . . . .2. . . . .3. . Variables cualitativas nominales . . .3. . . . 15. . . . . . Datos 157 B. . . . . 14. . . . . . . . . . . Records atléticos de diversos países. . . El método de corrección de error. . .3. . . . . . A. . . . Redes Neuronales Artificiales 14. . . . . . . . . . Mapas auto-organizados (SOM) . . . . . . Medidas de similaridad y disimilaridad entre grupos . . . .2. . . . 14. . . . . . . . . . Introducción . . Procedimientos jerárquicos . .2. . . . . .3. . . . . . . . . . . . . 135 13. . . Medidas de similaridad y disimilaridad entre objetos 15. . . .6 ÍNDICE GENERAL 13. . . . . . Notación .2. . . . . . . . . .0. . . . . . . . . . . . . 15. . . . Antecedentes y refinamientos . Entrenamiento de un perceptrón .1. . . . . .1. . . . 15. . . . . . . . . . . . .

A. . . . Al desaparecer el efecto tamaño por ser todas las magnitudes relativas. . . . . . . . . . . .1. . . La mejor dirección discriminante puede no ser aquélla en que más dispersión presentan las observaciones . . . Árbol binario para clasificar pacientes en grupos de supervivencia homogénea . se aprecian las diferencias entre comunidades en la dotación relativa. . . . . 126 7 . . . . . 39 63 65 80 82 103 12. . . . . . .1. . .2. Biplot de número de hogares (en valor absoluto) en cada Comunidad Autónoma que poseen diferentes tipos de equipamiento relacionado con la sociedad de la información. 11. Disposición de dos vectores de medias paralelos . . Con p = 3 grupos hay hasta p − 1 direcciones discriminantes. . B. .2. . 5. . . .1. . . . . . . . . . . . . . . . Ui es proyección de X sobre ai . . . . . . . . Records representados en el plano generado por U1 y U2 . . la dirección asociada a a2 discrimina bien entre los grupos C1 y C2 por un lado y C3 por otro. Se aprecia el fuerte efecto “tamaño” que oblitera cualquier otro. . Puede haber direcciones discriminantes asociadas a un λ bajo. Biplot del porcentaje de hogares en cada Comunidad Autónoma que poseen diferentes tipos de equipamiento relacionado con la sociedad de la información. . . . . . . 7. . . 117 12. . . . .2. . . . 126 13. . . y no obstante muy útiles para discriminar en algún subconjunto. . .2. . . . . . . . . Por ejemplo. . . . . d) de separar perfectamente N puntos en posición general en un espacio de d = 10 dimensiones . . . . . . .3. . .1. . . . .Índice de figuras 2. . Mapa reconstruido mediante reescalado multidimensional métrico a partir de las distancias por carretera entre capitales de provincia. Probabilidad F (N. . . .1. 119 12. . . . . . . . . . . . . Árbol binario con tres hojas. . 5. 121 13. 7. C y raíz r. . . . . . . . . .1.

. . . . RNA con tres neuronas. . . . . . . . . . Cada una de estas neuronas computa ϕj (x) = 6 wij xi y entrega fj (ϕj (x)) a cada unidad de salida. . y2 ). . . . . . . . . . . . . . 140 14. . . 154 . p. . x6 ) a las tres neuronas que forman la capa oculta. . Esquema de una neurona artificial N . . . . . . Recibe la entrada x = (x0 . Las unidades de entrada. .1. Una división en X1 = S es inútil por si misma. . . . . . .3.1. . Esquema describiendo las partes principales de una neurona humana. . . . . x6 ) computando la función de excitación ϕ(x) = 6 wi1 xi y entrei=0 gado f (ϕ(x)) a la salida. . . . . . . . . . . . 138 14. .8 ÍNDICE DE FIGURAS 13.2. Tomado de Haykin (1998). . 141 15. . E0 a E6 . . . . . . .3. . 8. . 133 14. i=0 S1 y S2 suman sus inputs y producen y = (y1 . . . . . . . reparten el input x = (x0 . . . . . . Nj (j = 1. Agrupamiento jerárquico con distancia promedio de 10 puntos tomados al azar en R4 . . . . . . . . . 3). . . . . . . . pero abre la vía a otras sumamente provechosas . .

. . . . .1. Dotación de los hogares por Comunidades Autónomas (miles de hogares que poseen cada uno de los equipamientos indicados). . . . . . . . . . . . 151 9 . . . . 139 15. . . Fuente: INE. 5.y multivariantes. . 27 48 62 79 83 84 92 12. . . . . . . . . . . . . . . . xj . . . Color de pelo y ojos medidos para cinco sujetos . . . . . Tabulación cruzada de valores de p variables dicotómicas en xi. .1. . . . Funciones de activación f (u) usuales .1. Equivalencia entre estadísticos uni. . . . . . . . . . . . . . . . . 7. . .1. . . . . . . . . Tabla de Análisis de Varianza para un modelo con dos tratamientos e interacción .1. . .1. Tabla de contingencia relacionando color de pelo y ojos para cinco sujetos . . . . . . . 8. . . . Muestra de entrenamiento en análisis discriminante con dos grupos 108 14. . . . . . . . . . Valores propios de R . 8. . . .Índice de cuadros 1. . Notación empleada . . 2002. . . . . . . . . . . Encuesta de Tecnologías de la información en los hogares. . 9. . . . .1. . . . . . . . . .2. . . . . . . . . . . .1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1. . .

10 ÍNDICE DE CUADROS .

.Capítulo 1 Normal multivariante y asociadas 1. X . aplicaciones X : Ω −→ Rn . ¿Por qué no emplear las técnicas habituales (univariantes) sobre cada Xj ?.1. la distribución normal multivariante. Designaremos por X = (X . y por FX (x) y fX (x) a las funciones de distribución y densidad respectivamente de X. Introducción. A cada ω ∈ Ω corresponderá entonces un X = n . Llamaremos µX al vector de medias de la variable aleatoria X.1) (1. Emplearemos el convenio de utilizar mayúsculas para las variables aleatorias y minúsculas para sus valores concretos en un muestreo determinado. Llamaremos Xj a la variable aleatoria j-ésima. 11 .2) Al igual que la distribución normal desempeña un papel destacado en la Estadística univariante. Si lo hiciéramos. . µX = EX ΣX = E[(X − µX )(X − µX ) ] ′ (1. . Podríamos en efecto estudiar cada Xj por separado. es decir. Consideraremos en lo que sigue variables aleatorias n-variantes. Los métodos de Análisis Multivariante comparten la idea de explotar esta información. constituye un modelo teórico de gran trascendencia en el Análisis Multivariante. . una generalización de ella. y ΣX a su matriz de covarianzas. X ) ′ a la observación iX(ω) ∈ R i i1 i2 in ésima de la variable aleatoria n-variante X. perderíamos sin embargo la posibilidad de extraer partido de la (posible) correlación entre diferentes variables Xj y Xk en X.

1) si: fX (x) = y por ende: x 1 2 1 √ e− 2 x dx 2π −∞ ψX (u) = EeiuX ∞ 1 1 2 2 1 √ e− 2 (x−iu) e− 2 u dx = 2π −∞ 1 2 √ e−x /2 2π −∞<x<∞ FX (x) = −∞<x<∞ (1. Esta última es diagonal.2..11) e− 2 x 1 ′ Ix .12 CAPÍTULO 1.7) − ∞ < y < ∞ (1. Xp ) ′ viene dada por el producto de las marginales fX (x) = = y la función característica por: ψX (u) = e− 2 u u.9) ψY (u) = eiuµ− 2 σ Si tenemos p variables aleatorias Xj con distribución N (0.+xp ) p 1 2 2 (1. la función de densidad conjunta de la variable aleatoria p-variante X = (X1 . I).10) (1. 1) : Y = σX + µ se obtiene una variable aleatoria normal general N (µ.8) (1. Se dice que X ∼ N (0.5) (1. Distribución normal multivariante. (1.. designando el primer argumento el vector de medias y el segundo la matriz de covarianzas. . distribución y característica son: fY (y) = FY (y) = (y−µ)2 1 √ e− 2σ2 σ 2π y (y−µ)2 1 √ e− 2σ2 dy σ 2π −∞ 1 2 u2 −∞<y <∞ (1. en virtud de la independencia entre las distintas componentes de X. .12) Decimos que la variable aleatoria p-variante X cuya función de densidad es (1.3) (1.10) sigue una distribución Np (0. independientes unas de otras. σ 2 ) cuyas funciones de densidad. 1 ′ 1 √ 2π 1 √ 2π p e− 2 (x1 +. 1).6) = e− 2 u 1 2 Por transformación lineal de una variable aleatoria N (0. . .4) (1. . NORMAL MULTIVARIANTE Y ASOCIADAS 1.

en notación matricial. + app Xp + µp 13 (1. 1/2 |ΣY | (1. que carece de densidad (1. se dice que estamos ante una distribución normal singular.24) (1. la función caracte′Y ψY (u) = Eeiu = Ee = e = e (1.2.27) son funciones de densidad y característica de un vector aleatorio con distribución Np (µ. tenemos que X = A−1 (Y − µ) y la función de densidad de Y se obtiene fácilmente de la de X: fY (y) = fX (A−1 (y − µ)) = = Como ΣY = E(Y − µ)(Y − µ) ′ ′ ′ ∂X ∂Y ′ (1.21) = EAXX A = AA .25) (1. + a2p Xp + µ2 .13) (1. Se dice que (1. Si efectuamos una transformación lineal X −→ Y como Y1 = a11 X1 + a12 X2 + .1.22) y (1.14) (1.26) (1. . . .15) o. Y = AX + µ.18) 1 − 1 (y−µ) ′ (AA ′ )−1 (y−µ) e 2 |A| (1.16) ′ 1 √ 2π 1 √ 2π p e− 2 (y−µ) p 1 (A−1 ) (A−1 )(y−µ) |A−1 | (1. y A es de rango completo.22). Yp = ap1 X1 + ap2 X2 + .18) puede escribirse así: fY (y) = ya que |A| = |A||A| = rística de Y es: 1 √ 2π p ′ −1 1 1 e− 2 (y−µ) ΣY (y−µ) . DISTRIBUCIÓN NORMAL MULTIVARIANTE. ′ tenemos que la función de densidad (1. . . ΣY ). .23) (1.22) |A||A ′ | = |ΣY |.17) (1. Si ΣY es de rango deficiente.27) iu ′ µ iu ′ (AX+µ) ′ = ψX (A u)e 1 iu ′ µ− 2 u ′ AA ′ u 1 iu ′ µ− 2 u ′ ΣY u La expresión (1.19) (1.22) requiere para estar definida que ΣY sea de rango total –sólo así puede encontrarse la inversa–.20) (1. La expresión (1. . + a1p Xp + µ1 Y2 = a21 X1 + a22 X2 + . . Por otra parte. .27) por el contrario es una función característica incluso aunque ΣY sea de rango deficiente.

Si Y es normal multivariante. cualesquiera marginales son normales uni. 3. que el supuesto de normalidad multivariante es sumamente restrictivo. alcanza su máximo para y coincidente con el vector de medias µ. cuya expresión viene dada por: 1 ′ − (y − µ) Σ−1 (y − µ) = k. σ 2 I). como el siguiente ejemplo ilustra. Observación 1. . Las distribuciones de cualesquiera combinaciones lineales de componentes de Y son normales. Es un hecho. la expresión anterior proporciona la superficie de un hiper-elipsoide: una elipse ordinaria en R2 . que sugieren que variables multivariantes que son: Suma de muchas otras.o multivariantes. Transformaciones lineales ortogonales de vectores Nd (0. ΣX ) y Np (µY . un elipsoide (similar a un balón de rugby) en R3 . cuando esta densidad existe. 4. incorrelación e independencia son nociones coextensivas.1 La función de densidad normal multivariante es unimodal. σ 2 I) tienen distribución Nd (0. para el que existe la densidad) es definida positiva. En particular. En el caso de variables aleatorias con distribución normal multivariante. ΣY ). siguen distribución aproximadamente normal multivariante. Los siguientes hechos son de muy sencilla demostración: 1. y Sin influencia abrumadora de ninguna sobre el conjunto. B son matrices cualesquiera de orden d × p. y A. AΣX A′ + BΣY B ′ ) Como caso particular. 5. y tiene contornos de igual densidad elípticos (o hiper-elípticos). CX ∼ Nd (CµX . implica su independencia. NORMAL MULTIVARIANTE Y ASOCIADAS Observación 1. y figuras que ya no podemos visualizar en más de tres dimensiones. CΣX C ′ ).3 Hay versiones multivariantes del Teorema Central del Límite. y de rara plausibilidad en la práctica. Observación 1. (d ≤ p). y rango d. La incorrelación entre cualesquiera componentes Xi . 2. Xj (o grupos de componentes) de X. Y 2 Como la matriz de covarianzas (en el caso de rango completo. Si X e Y son vectores independientes conjuntamente definidos con distribuciones respectivas Np (µX . Aproximadamente independientes.2 Una normal multivariante tiene contornos de igual densidad. sin embargo. el supuesto de normalidad multivariante es mucho más fuerte que el de normalidad de las marginales.14 CAPÍTULO 1. se verifica: AX + BY ∼ Nd (AµX + BµY .

1 Sea X un vector aleatorio con distribución normal (p + q)-variante.1.28) (1. por 22 tanto.29) )′ Si hacemos M = −Σ12 Σ−1 . p. el supuesto de normalidad bivariante sería claramente inadecuado: por definición. Podemos perfectamente imaginar un caso con normalidad marginal (las mínimas y máximas se distribuyen cada una de modo normal). Y = X1 − Σ12 Σ−1 X2 es un vector aleatorio normal multivariante indepen22 diente de X2 . µ2 Σ21 Σ22 Entonces la distribución de X1 condicionada por X2 = x2 es: Np (µ1 + Σ12 Σ−1 (x2 − µ2 ). la expresión anterior será una matriz de ceros. Sin embargo. Una aproximación más simple es la que sigue (véase Chatfield and Collins (1980).1 Supongamos un vector bivariante (X1 . siendo M una matriz de dimensiones p × q. en que X1 y X2 son respectivamente temperaturas máximas y mínimas de una ubicación.32) . Tomando valor medio y matrices de covarianzas en ambos casos. DISTRIBUCIÓN NORMAL MULTIVARIANTE. Una normal bivariante debe estar definida en todo el plano real. X2 ). Siendo independiente. X1 ≥ X2 .30) = Σ12 + M Σ22 = E (X1 − µ1 )(X2 − µ2 ) + M (X2 − µ2 )(X2 − µ2(1. simplificando el cociente hasta encontrar una densidad normal con el vector de medias y matriz de covarianzas que indica el enunciado.31) Σ12 Σ−1 (X2 22 − µ2 )] ′ E[(X1 − µ1 ) − Σ12 Σ−1 (X2 − µ2 )][(X1 − µ1 ) − 22 Σ11 − Σ12 Σ−1 Σ22 Σ−1 Σ12 ′ = Σ11 − Σ12 Σ−1 Σ12 ′ 22 22 22 (1. Ejemplo 1. X2 ) se distribuye sólo en el semiplano por debajo de la recta X1 = X2 . obtenemos los siguientes momentos: a) Incondicionados: E[Y ] = E[X1 − Σ12 Σ−1 X2 ] = µ1 − Σ12 Σ−1 µ2 22 22 ΣY = = (1. Σ11 − Σ12 Σ−1 Σ21 ) 22 22 D EMOSTRACION : Una demostración conceptualmente simple se limitaría a efectuar el cociente de la densidad conjunta entre la densidad marginal f (X1 ). particionado del modo que se indica: X= X1 X2 ∼N µ1 Σ11 Σ12 .2. y por tanto el vector (X1 . X2 ) = E [(X1 − µ1 ) + M (X2 − µ2 )](X2 − µ2 )′ ′ (1. La matriz de covarianzas entre las Y y las X2 será: Cov(Y . El siguiente teorema será de utilidad: 15 Teorema 1. 99). su distribución incondicionada y condicionada por X2 = x2 es la misma. Consideremos la variable aleatoria Y = X1 + M X2 .

3. 1. NORMAL MULTIVARIANTE Y ASOCIADAS b) Condicionados: −1 E[Y |X2 = x2 ] = E[X1 |X2 = x2 ] − Σ12 Σ22 x2 (1.16 CAPÍTULO 1. Regresión lineal.a.1 Si denotamos mediante un superíndice la v. E (X1 ) [Z] = −∞ ZfX1 (x1 )dx1 ). Supongamos. “Óptima” se entiende en el sentido de minimizar E[X1 − g(X2 )]2 .X2 (x1 .36) junto con la normalidad de X1 demuestran el teorema.33) (1. Lema 1.41) (1. Para ello precisamos algunos resultados instrumentales.32) a (1.37) x1 fX1 |X2 (x1 |x2 )dx1 dx2 (1.34) llegamos a: E[X1 |X2 = x2 ] = µ1 + Σ12 Σ−1 (x2 − µ2 ) 22 ΣY |X2 =x2 = Σ11 − Σ12 Σ−1 Σ21 22 (1. se tiene: E[X1 ] = E (X1 ) [X1 ] = E (X2 ) [E (X1 ) (X1 |X2 )] D EMOSTRACION : E (X2 ) [E (X1 ) (X1 |X2 )] = = = = = = fX2 (x2 )[E (X1 ) (X1 |X2 )]dx2 fX2 (x2 ) dx1 dx1 x1 dx1 (1.X2 (x1 .42) (1. con la notación de la Sección anterior.36) Las expresiones (1. Demostraremos que la función g(X2 ) buscada es precisamente E[X1 |X2 ].40) (1. y que nos planteamos el siguiente problema: encontrar g(X2 ) aproximando de manera “óptima” a X1 . x2 )dx2 (1.38) (1.33) y (1. x2 )] fX1 .43) x1 fX1 (x1 )dx1 = E (X1 ) [X1 ] .39) dx2 x1 fX1 |X2 (x1 |x2 )fX2 (x2 ) dx2 [x1 fX1 . con respecto a la cual se ∞ toma valor medio (es decir.35) (1.35) y (1. que p = 1 (con lo que X1 es un escalar).34) ΣY |X2 =x2 = Σ(X1 |X2 =x2 ) e igualando (1.31) a (1.

pero aquí la linealidad no es un supuesto. X2 .45) (1. La ˆ expresión de E[X1 |X2 ] es reminiscente de la de X β en regresión lineal.3. X= X1 X2 ∼N 2 µ1 σ11 Σ12 . de acuerdo con el lema anterior. D EMOSTRACION : Como. X1 y las X2 correspondientes a las distribuciones de X1 |X2 = x2 y X2 están relacionadas por: Lema 1. REGRESIÓN LINEAL. Tenemos así el siguiente.46) (1. sino un resultado.2 Sea.3 Las varianzas generalizadas de la distribución de X = |Σ| = |Σ11 − Σ12 Σ−1 Σ21 ||Σ22 | 22 . |Σ|.2 La mejor aproximación en términos de error cuadrático medio de X1 en función de X2 es la proporcionada por g(X2 ) = E[X1 |X2 ]. Definición 1. Z = X1 − E[X1 |X2 ] es una v.46). Teorema 1. E[Z] = 0. Entonces: E[X1 − h(X2 )]2 = E[X1 − g(X2 ) + g(X2 ) − h(X2 )]2 = E[X1 − g(X2 )]2 + E[g(X2 ) − h(X2 )]2 +2cov[X1 − g(X2 ). g(X2 ) − h(X2 )] Z 2 ℓ(X2 ) = E[X1 − g(X2 )] + E[g(X2 ) − h(X2 )]2 ≥ E[X1 − g(X2 )]2 Es interesante observar que E[X1 |X2 ] es una función lineal de X2 en el caso que consideramos de distribución normal multivariante conjunta de X1 .47) haciendo uso del lema anterior para evaluar la expresión (1.44) (1. Llamamos varianza total a traza(Σ). ℓ(X2 )] = E [Z(ℓ(X2 ) − E[ℓ(X2 )])] = E[Zℓ(X2 )] = 0 = E[X1 ℓ(X2 ) − E[X1 |X2 ]ℓ(X2 )] (1. Σ21 Σ22 µ2 17 Entonces. incorrelada con cualquier función ℓ(X2 ).1 Llamamos varianza generalizada de una distribución multivariante al determinante de su matriz de covarianzas. Lema 1.1. tenemos que: cov[Z.a. D EMOSTRACION : Consideremos cualquier otra función h(X2 ).

Imaginemos que Xi . por ej. Correlación simple.). la expresión que da el valor medio de X1 condicionado por X2 = x2 es formalmente similar a la que se obtendría regresando los valores centrados de X1 sobre los valores centrados de X2 . Una tercera observación de interés es que las varianzas de las X1 en la distribución condicionada son no mayores que en la distribución no condicionada. y λij su covarianza.2 para designar la matriz de covarianzas Σ11 − Σ12 Σ−1 Σ21 . NORMAL MULTIVARIANTE Y ASOCIADAS D EMOSTRACION : Basta tomar determinantes en la igualdad matricial.4. Esto es lógico: conocido X2 = x2 . esto −1 es fácil de ver si reparamos en que los elementos diagonales de Σ12 Σ22 Σ21 (que se restan de sus homólogos de Σ11 ) resultan de evaluar una forma cuadrática de matriz Σ−1 definida no negativa. (1.X2 como el coeficiente de correlación entre Xi y Xj una vez que de ambas se ha eliminado la parte que cabe expresar como combinación lineal de las variables aleatorias en X2 . Es una función lineal en x2 . 14. I −Σ12 Σ−1 22 0 I Σ11 Σ12 Σ21 Σ22 I ′ −Σ−1 Σ12 22 0 I = −1 Σ11 − Σ12 Σ22 Σ21 0 0 Σ22 Emplearemos la notación Σ11.48).18 CAPÍTULO 1.2 . Un coeficiente de correlación simple igual a 1 en valor absoluto (+1 ó -1) indica una perfecta asociación lineal entre las variables aleatorias Xi y Xj (véase Trocóniz (1987b). La matriz de covarianzas de la distribución condicionada por X2 = x2 no depende de x2 . Sean σi y σj sus varianzas respectivas. proceden de los lugares homólogos en Σ11. Si las varianzas y covarianzas en (1. Por otra parte. tenemos el llamado coeficiente de correlación parcial entre Xi y Xj controlado el efecto de X2 : ρij. Cap. Podemos interpretar ρij.X2 def = λij.2 σj. disminuye 22 la incertidumbre acerca de los valores que puede tomar X1 . Se denomina coeficiente de correlación simple entre ambas a: ρij def = λij 2 2 + σi σj . El único caso en que las varianzas –condicionadas e incondicionadas– serían idénticas es aquél en que Σ12 = 0. en lugar de proceder de Σ11 .2 . 2 2 Sean Xi y Xj dos variables aleatorias conjuntamente definidas. Xj son variables aleatorias de entre las que componen el vector X1 . 22 Algunas cosas merecen resaltarse. parcial y múltiple.2 2 2 + σi. 1.48) Se demuestra fácilmente haciendo uso de la desigualdad de Schwartz que −1 ≤ ρij ≤ +1. .

50) es decir.X2 2 σj .3 ≈ √ 0.19 × 0. o en forma reminiscente del R2 = 1 − SSE/SST habitual en regresión. se torna de relación inversa).60 1. No cuesta imaginar el origen de la aparente paradoja.80 (1.60 0.00 0.4.2 Consideremos una matriz de covarianzas1 entre las tres variables X1 = “Tensión arterial”.60 1.X2 =1− 2 σj.60 1. Ejemplo 1.19 −0.00 0. X2 controlado el efecto de X3 .90 Σ = 0.00 0. en aplicación del Teorema 1. Al eliminar el efecto (lineal) de la variable X3 .90 − 0.80 .   1. una correlación apreciable y de signo contrario al inicial. la aparente relación directa entre X1 y X2 desaparece por completo (de hecho.60 entre la variable X2 (Renta) y la variable X1 (Tensión arterial). El coeficiente de correlación múltiple al cuadrado es aquella parte de la varianza de Xj “explicada” linealmente por las variables aleatorias X2 .1. el resultado cambia drásticamente.80 Por consiguiente.00 1.X2 = 2 2 σj − σj.90 0.4588.80 1.12 −0. CORRELACIÓN SIMPLE. 1 El coeficiente de correlación parcial (eliminado el efecto de X3 entre X1 y X2 sería ahora: −0. tendríamos: Σ11 Σ22 Σ12 = = = 1. .00 0. resulta ser: Σ11·2 = ≈ 1. ρ12. 2 Rj. y ello induce una correlación espúrea entre ellas.00 0. Si efectuamos el análisis controlando el efecto de la variable X3 . 0.80 0.00 0.00 Una apreciación superficial podría llevar a concluir que hay una abultada correlación de 0.60 0. 19 Definimos coeficiente de correlación múltiple al cuadrado entre la variable Xj (en X1 ) y X2 así: 2 Rj.1. En efecto. X2 = “Renta disponible” y X3 = “Edad”.30 1. PARCIAL Y MÚLTIPLE. la matriz de covarianzas de las variables X1 .90 0.00 0.90 0.12 ≈ −0.49) (1.60 0. El ejemplo es puramente ilustrativo.30 Valores ficticios.12 0.X2 2 σj . Las dos variables X1 y X2 aparecen altamente correladas con la X3 (Edad).

Σ). Como caso particular de (1. σ 2 ) se verifica que: A = n Xi2 ∼ i=1 σ 2 χ2 = W1 (n.5. S + T ∼ Wd (m + n. si Xi ∼ N1 (0. 3. Σ). De la definición se deducen de modo inmediato las siguientes n propiedades: 1. Definición 1. . . la matriz aleatoria n A= i=1 Xi Xi ′ con 1 d(d + 1) elementos distintos –dado que es simétrica– sigue la distribución 2 conocida como distribución de Wishart.53) Es decir. Σ) ⇔ S = Por consiguiente. . Σ). . CSC = C i=1 Xi Xi C = i=1 (CXi )(CXi ) ′ Pero CXi ∼ Nq (0. Σ) tenemos: a ′ Sa ∼ W1 (n. Como caso particular de la propiedad anterior.20 CAPÍTULO 1. Σ) y ambas son independientes. 0 1 0 . CΣC ′ ). con los n mismos grados de libertad que la Wishart. Wd (n. . Σ) y C es una matriz q × d de rango q. si a es un vector de constantes y S ∼ Wd (n. σ 2 ). Si S ∼ Wd (n. n n ′ ′ ′ n ′ i=1 Xi Xi con Xi ∼ Nd (0. en efecto. Si S ∼ Wd (n. Σ). se distribuye como una χ2 . 2 a ′ Sa = s2 ∼ σii χ2 . . con distribución común Nd (0. ∀a = 0 (1. lo que muestra que CSC ′ ∼ Wq (n. CΣC ′ ) D EMOSTRACION : S ∼ Wd (n. . Entonces.52) 4. CΣC ′ ). 2.2 Sean Xi (i = 1.52). La distribución de Wishart puede en cierto modo considerarse como una generalización de la χ2 . . ii n (1. el cociente entre un elemento diagonal de una matriz de Wishart y la correspondiente varianza poblacional. a ′ Σa) ∼ (a ′ Σa)χ2 n a ′ Sa ∼ χ2 n a ′ Σa (1. con n grados de libertad y matriz de parámetros Σ.51) o. lo que es igual. n) vectores aleatorios independientes. Distribución de Wishart. NORMAL MULTIVARIANTE Y ASOCIADAS 1. Σ). . 0) (un único “uno” en posición i-ésima) se verifica que cuando S ∼ Wd (n. entonces: CSC ′ ∼ Wq (n. Σ). si a ′ = (0 . T ∼ Wd (m.

D EMOSTRACION : Solo (3) requiere demostración. Y ′ Y = X ′ X se distribuye como una Wd (N. . . .  = X (1) X (2) . . Σ). X (d) . . Claramente. .6.   . . ar . son vectores en RN mutuamente ortogonales. ′ aik Xk l ajl Xl = k l aik ajl E[Xk Xl ′ ] aik ajk Σ k = = 0d×d si i = j (de donde se sigue la independencia) Σ si i = j y ||ai ||2 = 1 Lema 1. Σ). X (j) ∼ NN (0. e Y = U X.5 Sea X una matriz aleatoria N × d cuyas filas Xi ′ son independientes con distribución común Nd (0. ||a||2 Σ). Σ). la “suma de cuadrados” W = i=1 Xi Xi puede escribirse como: ′ W = X X.6. Σ). iid 2. Lema 1.4 Si las filas de X siguen una distribución Xi ∼Nd (0. r ≤ N . uj y: E[uiuj ] = E k ′ (i = j). . siendo inmediatos los restantes apartados. Llamaremos forma cuadrática generalizada a una expresión como: X ′ AX = i j aij Xi Xj ′ . Entonces. Formas cuadráticas generalizadas. Si ||ai ||2 = 1. Consideremos ui . como la “suma de cuadrados” anterior. Sea X una matriz N × d. XN ′ N ′ Entonces. r) son mutuamente independientes. ui ∼ Nd (0. . . se verifica lo siguiente: 2 1.1. σjj IN ). una matriz d × d. Sea U una matriz ortogonal N ×N . 3. FORMAS CUADRÁTICAS GENERALIZADAS. Es una matriz d × d. ui = X ′ ai (i = 1. . Es. 21 1. E[ui ] = E[uj ] = 0. Si a1 . X ′ a ∼ Nd (0. que representaremos alternativamente de una de las siguientes formas:   X1 ′  X2 ′    X =  .

N S ∼ Wd (N − 1. D EMOSTRACION : Consideremos una matriz U ortogonal N × N cuya última fila sea: 1 √ N .3 Sea X una matriz aleatoria N ×d cuyas filas Xi′ son independientes con distribución común Nd (0.22 CAPÍTULO 1.54) X = verifican: 1. 1 √ N 1 √ N . Σ).. = 1 √ N N i=1 Xi Sea Y = U X. Por otra parte.55) S es independiente de X. N NS = i=1 N (Xi − X)(Xi − X) ′ ′ = i=1 N Xi Xi ′ − N X X − N X X + N X X Xi Xi ′ − N X X ′ ′ ′ = i=1 N = i=1 N Xi Xi ′ − YN YN ′ YiYi ′ − YN YN ′ YiYi ′ = = i=1 N −1 i=1 . YN YN ′ = N X X . 2. Por tanto. (1. Teorema 1.. NORMAL MULTIVARIANTE Y ASOCIADAS D EMOSTRACION : n ′ i=1 Xi Xi Es inmediata: Y ′ Y = X ′ U ′ U X = X ′ X. Los estimadores habituales del vector de medias y matriz de covarianzas: S = 1 N 1 N N i=1 N i=1 (Xi − X)(Xi − X) Xi ′ (1. Su última fila es: YN = ′ N i=1 uN i Xi √ = X N. Es claro además que X ′ X = sigue la distribución indicada. Σ).

y X y N S dependen de filas diferentes. aunque hemos supuesto E[X] = 0. Puede comprobarse fácilmente que si sumamos una constante cualquiera a cada columna X (j) . este supuesto es innecesario. Es de destacar que.1. FORMAS CUADRÁTICAS GENERALIZADAS. son claramente independientes.6. S no se altera. . 23 Como las filas Yi son independientes unas de otras.

por tanto.6 Si Y ∼ Nd (0. NORMAL MULTIVARIANTE Y ASOCIADAS 1. donde se puede acudir para más detalles. Entonces. σ ) y: σ (X − µ)2 n(X − µ) ′ W −1 (X − µ) = = ∼ F1. σ11 Σ12 Σ= . Distribución T 2 de Hotelling. de dimensión d y con n 2 grados de libertad. La presentación sigue de modo bastante ajustado a Seber (1984). Entonces puede encontrarse Σ− 2 tal que: Σ− 2 Σ− 2 = Σ−1 .57) X ∼ N (µ. X2 ′ ) un vector Nd (µ. d D EMOSTRACION : Siendo Σ definida positiva. . En efecto.n W/n W/nσ 2 X−µ 2 No es preciso contar con tablas de la distribución de Hotelling. Esta distribución puede verse como una generalización de la F1. σ 2 ) = σ 2 χ2 n 2 (1. Σ). 29 y siguientes. pues una relación muy simple la liga con la distribución F de Snedecor. p. Y ′ Σ−1 Y = Y ′ Σ− 2 Σ− 2 Y = X ′ X ∼ χ2 d 1 1 1 1 1 .7. Var[X1 |X2 = x2 ] = 1 . W ∼ W1 (n. entonces: Y ′ Σ−1 Y ∼ χ2 . Por otra 1 parte. Σ−1 existe y es también definida positiva. ambas independientes. Id ). .n (y. Sea W ∼ Wd (n. Para su establecimiento necesitaremos los lemas a continuación. cuando d = 1. Sea σ ij el elemento genérico en el lugar ij–ésimo de la matriz Σ21 Σ22 Σ−1 . con µ = (µ1 . Σ) y X ∼ Nd (µ. Entonces: n(X − µ) ′ W −1 (X − µ) sigue la distribución conocida como T 2 de Hotelling. Σ). La denotaremos por Td.56) (1. Σ) y Σ es de rango completo.24 CAPÍTULO 1. µ2 ′ ) y . σ 11 . T como una generalización de la t de Student). Lema 1. X = Σ− 2 Y se distribuye como Nd (0. Entonces.n .7 Sea X ′ = (X1 . Lema 1.

sabemos que: |Σ| = |σ11 − Σ12 Σ−1 Σ21 ||Σ22 |. Entonces: 1.65) = 1/w11 . por el Lema 1.7. 2.64) Z )Y −1 ′ = Y Y − Y Z(Z Z) ′ Z Y ′ Por otra parte. Entonces: ın Q ∼ σ 2 χ2 n−p Q = 1/w 11 (1. . 22 De (1. w11 ℓ ′ Σ−1 ℓ ∼ χ2 n−d+1 . p. |Σ22 | 25 (1.59) se deduce entonces que σX1 |X2 =x2 = |Σ| = 1/σ 11 . Σ).65) se deduce entonces que Q = |W | |Z ′ Z| (1.8 Sea Y = Zβ + ǫ con Z de orden n × p y ǫ ∼ Nn (0. Σ) ⇐⇒ W = X ′ X = con Xi ∼ . n ≥ d. p. para cualquier ℓ = 0.60) (1. σX1 |X2 =x2 = σ11 − Σ12 Σ−1 Σ21 .1. .59) Lema 1. Z ′Z D EMOSTRACION : Que Q ∼ σ 2 χ2 lo sabemos por teoría de regresión lineal. Sea ˆ Q = m´ β ||Y − Zβ||2 = ||Y − Z β||2 .58) y (1. d. . j = 2.1. i. D EMOSTRACION : De acuerdo con el Teorema 1.63) (1. DISTRIBUCIÓN T 2 DE HOTELLING. 22 Por otra parte. σ 11 ∼ χ2 n−d+1 es independiente de wij .3.58) (1. Q = ||(I − Z(Z ′ Z)−1 Z ′ )Y ||2 = Y (I − Z(Z Z) ′ ′ ′ ′ −1 (1.64) y (1. Lema 1. 15.61) siendo W −1 = [wij ] y W = Y ′Y Z ′Y Y ′Z . n−p Q no es otra cosa que SSE. ℓ ′ W −1 ℓ n ′ i=1 Xi Xi D EMOSTRACION : W ∼ Wd (n. la suma de cuadrados de los residuos al ajustar Y sobre las Z.62) (1. Por consiguiente. 17. de la definición de W se tiene (empleando el mismo procedimiento que en la demostración del Lema 1. p. 17) que: |W | = |Y ′ Y − Y ′ Z(Z ′ Z)−1 Z ′ Y ||Z ′ Z| De (1. .3. σ 2 In ).9 Sea W ∼ Wd (n.

p.74) se distribuye como una χ2 con d grados de libertad. sea L una matriz ortogonal d×d cuya fila superior fuera: ℓ ′/||ℓ||. Siempre puede encontrarse una matriz así.74) El numerador de (1. 1/w11 ∼ (1/σ 11 )χ2 n−(d−1) (1. Q es independiente de las columnas de X empleadas como regresores: X (2) . Por consiguiente.69) = LΣ −1 L ′ aplicando (1.71) (1.53).66) (1.68) (1. de donde se sigue la distribución F de Snedecor del cociente. . 2 siendo Y y W independientes (y siguiendo por tanto Z 2 una distribución Td. (LW L ′ )−1 = LW −1 L ′ (LΣL ) se tiene que: ℓ ′Σ−1 ℓ ℓ ′W −1 ℓ ℓ ′ Σ−1 ℓ/||ℓ||2 ℓ ′W −1 ℓ/||ℓ||2 (LΣ−1 L ′ )11 = (LW −1 L ′ )11 (LΣL ′ )11 = (LW L ′ )11 = χ2 n−d+1 = (1.7.26 CAPÍTULO 1. Como. y el denominador como una χ2 con n − d + 1 grados de libertad. Σ). Por otra parte.70) (1.73) ′ −1 (1. 24 anterior. como ponía de manifiesto el lema anterior.n ). .n−d+1 d n D EMOSTRACION : Y ′ Σ−1 Y Z2 = Y ′ W −1 Y = ′ −1 n Y Σ Y /Y ′ W −1 Y (1.67) σ 11 /w11 ∼ χ2 n−(d−1) . LΣL ′ ).4 Si Z 2 = nY ′ W −1 Y con Y ∼ Nd (0. . Σ). de acuerdo con el Lema 1. n ≥ d y W ∼ Wd (n. Es de resaltar que la distribución no depende de ℓ. ambos son independientes. .72) (1. NORMAL MULTIVARIANTE Y ASOCIADAS Nd (0. LW L ′ ∼ Wd (n. entonces: n − d + 1 Z2 ∼ Fd. Para demostrar la segunda parte. d Q = ||X (1) − i=2 1 ˆ βi X (i) ||2 ∼ 11 χ2 n−(d−1) σ Además. Si regresáramos la primera variable sobre todas las restantes. Teorema 1. X (d) . Q = 1/w11 . Además. Entonces. Σ). .

Entonces. las “sumas de cuadrados” son formas cuadráticas generalizadas.νH E H Beta( ν2 . con distribuciones de Wishart. Σ) |E| |E + H| sigue la distribución conocida como lambda de Wilks de dimensión p y con grados de libertad νH y νE . Definición 1. que debidamente normalizadas siguen. . que denotaremos por Λ(p.8.75) (1. Entonces los valores propios de HE −1 son no negativos y los de H(E + H)−1 no negativos y menores que 1. Σ) E ∼ Wp (νE . bajo el supuesto de normalidad de las observaciones. En las aplicaciones surgen de modo muy natural matrices de Wishart E y H asociadas a “suma de cuadrados de los residuos” y “suma de cuadrados atribuible a la hipótesis H”.1 muestra el paralelismo existente entre algunos productos de matrices Wishart y cocientes de sumas de cuadrados habituales en regresión y ANOVA univariantes.1.5 Sean E y H matrices simétricas y definidas positivas.1: Equivalencia entre estadísticos uni. La distribución anterior se conoce también como distribución U. DISTRIBUCIÓN DE WILKS Y ASOCIADAS 27 1.8. Cuadro 1. Matriz E − 2 HE − 2 (E + H)− 2 H(E + H)− 2 1 1 1 1 (1. distribución F de Snedecor.y multivariantes. La Tabla 1. y el cociente entre determinantes de las mismas puede verse como generalización de los contrastes univariantes.3 Supongamos dos matrices aleatorias E y H con distribuciones respectivas. Cuando las observaciones son multivariantes.76) independientes. el cociente: Distribución multivariante Beta tipo II multivariante Beta tipo I multivariante Análogo univariante σH /ˆE ˆ 2 σ2 σH ˆ2 σH +ˆE ˆ 2 σ2 Distribución univariante νE νH FνE . Teorema 1. ν2 ) Los siguientes teoremas sobre los valores propios de las matrices en la Tabla 1. νE ). Distribución de Wilks y asociadas Multitud de contrastes univariantes resultan de efectuar cocientes de sumas de cuadrados. νH .1 y sus análogas no simétricas HE −1 y H(E + H)−1 son de utilidad. H ∼ Wp (νH .

3 y 4.3. de la suma. . . Un examen de las relaciones entre los diversos estadísticos se posterga a las Secciones 3. . 1 + φi (i = 1. . . pues para cualquier x tenemos 1 1 1 que x ′ E − 2 HE − 2 x = z ′ Hz. funciones todas ellas que se presentan de modo natural como posibles estadísticos de contraste en las aplicaciones. etc. φd los valores propios de HE −1 .. . . . d) y por tanto θi = φi . . NORMAL MULTIVARIANTE Y ASOCIADAS D EMOSTRACION : |HE −1 − φI| = 0 ⇔ |HE − 2 − φE 2 | = 0 1 1 1 1 ⇔ |E − 2 HE − 2 − φI| = 0 Es claro que E − 2 HE − 2 es semidefinida positiva. . del producto. . Tenemos de manera enteramente similar que los de H(E + H)−1 son soluciones de |H(E + H)−1 − θI| = 0 ⇔ |H − θ(E + H)| = 0 1 1 ⇔ |(1 − θ)H − θE| = 0 θ ⇔ HE −1 − I =0 1−θ lo que evidencia que φi = θi . . d) claramente comprendido entre 0 y 1. en que z = E − 2 x. 1 − θi (i = 1.28 CAPÍTULO 1. . Sean entonces φ1 . Hay diversas tabulaciones de funciones de interés de dichos valores propios cuando las matrices E y H son Wishart independientes: del mayor de ellos.

Se hace la gráfica de los puntos (qi . Si no presentara forma aproximadamente rectilínea. . incluso aunque el supuesto de normalidad parezca claramente inadecuado. los valores q1 ≤ . dx = 2 n 2π −∞ 3. Se hace de la siguiente manera: 1. Contrastes en la distribución normal El supuesto de normalidad encuentra parcial justificación en el teorema central del límite: si las influencias sobre un sistema son múltiples. En la práctica. 249). Tiene interés disponer de contrastes que permitan evaluar el ajuste a una normal tanto en el caso uni.como multivariante. ≤ y(n) . Pero hay contrastes especializados que dan habitualmente mejor resultado cuando la hipótesis de ajuste a contrastar es la de normalidad. emplearse un contraste de ajuste “todo terreno”. Es fácil ver que en el supuesto de normalidad los puntos deberían alinearse aproximadamente sobre una recta. . (i− 1 ) (i− 1 ) 2 n (corrección de 2. . como la prueba χ2 o el test de Kolmogorov-Smirnov. y sin ninguna que tenga una importancia dominadora del total. . Debe tenerse presente que. . obteniendo y(1) ≤ . . . ello resulta mucho más problemático con variables multivariantes que univariantes. Se obtienen (mediante tablas o por cualquier otro procedimiento) los cuantiles n 2 de una distribución N (0. Se ordena la muestra. . p.1. es decir. Gráficos QQ.9. . 1. Trocóniz (1987a).. 1).9. yn a una distribución normal consiste en construir su gráfico QQ. . Una de las pruebas más simples e ilustrativas para evaluar el ajuste de una muestra y1 . aproximadamente incorreladas entre sí. En lo que sigue se introducen algunos de esos contrastes. i = 1. descritos en cualquier texto básico de Estadística (por ej. ≤ qn verificando: 1 qi (i − 2 ) 1 x2 √ exp − . .9. y(i) ). n. En lo sucesivo trataremos de indicar en cada caso como afecta el incumplimiento del supuesto de normalidad a los contrastes y estimaciones. CONTRASTES EN LA DISTRIBUCIÓN NORMAL 29 1. tendríamos motivo para cuestionar la normalidad.1. Entonces y(i) es el i i cuantil n muestral —deja a su izquierda o sobre él una fracción n de la muestra—. . Diagnósticos de normalidad univariante Podría. . cabe esperar que el resultado se distribuirá de modo aproximadamente normal. desde luego. Habitualmente se considera como el cuantil continuidad). muchos de los procedimientos desarrollados bajo el mismo continúan dando resultados aceptables.

pero no suficiente. Hay un caso. Diagnósticos de normalidad multivariante Un paso previo consistirá en examinar la normalidad de las distribuciones marginales unidimensionales: esta es necesaria. Puede pensarse en explotar las ideas en los contrastes univariantes descritos. En su formulación original. Lo contrario sucede cuando la muestra presenta menos kurtosis de la esperable en una normal.78) Requiere n > 50. Y tiende a tomar valores negativos. trabajo posterior (ver Royston (1995)) ha permitido extenderlo a tamaños muestrales tan grandes como n ≤ 5000. o aproximadamente mejor. cada tamaño de muestra requiere unos coeficientes diferentes.4 para un resumen.2. el valor de Y proporciona información acerca de la naturaleza de la desviación de la muestra analizada respecto al comportamiento normal: cuando la kurtosis es más de la esperada bajo una hipótesis normal. como resulta fácil comprobar.30 CAPÍTULO 1.9. No obstante.77) n3 − y)2 o alternativamente su expresión aproximadamente centrada y tipificada √ √ n D − (2 π)−1 . no obstante. con coeficientes proporcionados en Shapiro and Wilk (1965). para la normalidad multivariante. Está basado en el cociente del cuadrado de la mejor. y tropezamos rápidamente con la “maldición de . No obstante. explotando una idea similar o comparando la simetría y kurtosis de la muestra con las esperables bajo la hipótesis de normalidad: véase Rencher (1995). El numerador se construye tomando una combinación lineal de los valores ordenados de la muestra. Sec. Hay otros varios contrastes. Observación 1. sin una alternativa predefinida. tablas en D’Agostino (1972) reproducidas en Rencher (1995) y en el Apéndice) emplea el estadístico D = n i=1 i − 1 (n + 1) y(i) 2 n i=1 (y(i) (1.02998598 (1. Y = 0. 1. Es un contraste “ómnibus”. en que la normalidad de las marginales si implica normalidad multivariante: el caso de independencia. Una alternativa para n muy grande es el contraste de D’Agostino a continuación. NORMAL MULTIVARIANTE Y ASOCIADAS Contraste de Shapiro-Wilk. que es más restrictiva que la mera normalidad de las marginales. 4. Lógicamente. era de aplicación sólo a muestras reducidas —con n ≤ 50 aproximadamente—. El contraste de D’Agostino (ver D’Agostino (1971). Su distribución para diferentes n está tabulada. pero hay que hacer frente a problemas adicionales: no hay una ordenación natural en el espacio p-dimensional.4 Contraste de D’Agostino. estimación lineal insesgada de la desviación standard dividida por la varianza muestral.

82) (1.9. Lo primero es claro. En R3 . Alternativamente podríamos pensar en los siguientes términos. Basta recordar que Γ(r) = (r − 1)Γ(r − 1). . √ p en Rp . Casi todo el volumen de un cubo en p ≫ 3 dimensiones está en las “esquinas”.1887. Cuando la dimensión p crece. y ello no permite concebir muchas esperanzas en cuanto a la potencia que podamos obtener. será siempre escasa si el número de dimensiones es alto. yn proponen construir los estadísticos. por tanto) tiene un volumen de 8. los puntos quedan casi siempre “lejos”) Consideremos un espacio de dimensión dos. Contraste de Gnanadesikan y Kettenring.83) √ π. Γ( p + 1) 2 (1. los puntos cuyas coordenadas no difieran en más de una unidad. para adquirir alguna intuición sobre la “maldición de la dimensionalidad” es bueno considerar el siguiente ejemplo. Γ(1) = 1 y Γ( 1 ) = 2 . 2(n − p − 1) (1. No hay apenas puntos a corta distancia del centro de la esfera. Lo que el ejemplo sugiere es que una muestra. distan a lo √ √ sumo (en distancia euclídea) 2. la distancia sería 3 y.3 (en un espacio de elevada dimensionalidad. ui = n (yi − y) ′ S −1 (yi − y) (n − 1)2 (1. 2p Γ( p + 1) 2 (1. .80) rápidamente decreciente a cero. Cuando p = 3. Dada una muestra y1 . la esfera de radio unidad ocupa un volumen de 4π/3 = 4. . en general. la razón de volúmenes de la hiper-esfera y el hiper-cubo circunscritos es π p/2 .1. salvo de tamaño descomunal. CONTRASTES EN LA DISTRIBUCIÓN NORMAL 31 la dimensionalidad” (dimensionality curse). .79) Esta fórmula da para p = 2 y p = 3 las familiares fórmulas de la superficie del círculo y volumen de la esfera2 . β) con α y β definidos así: α = β = 2 p−1 2p n−p−2 .81) que se demuestra siguen una distribución B(α. Ejemplo 1. El volumen de una hiper-esfera de radio r en p dimensiones tiene por expresión Sp = π p/2 rp . De los puntos en el cubo. el cubo circunscrito (de lado 2. más de la mitad quedan a distancia menos de 1 del centro de la esfera.

dos o tres dimensiones.87) (n − 1)2 .3. lo que permite emplear para el contraste basado en W las tablas en Barnett and Lewis (1978). u(i) ) y comprobar su alineación sobre una recta.32 CAPÍTULO 1. 32. Otros contrastes. a i (1. que investiga la asimetría y kurtosis en la muestra en relación con la esperable en una normal multivariante.86) con D(n) definido con en (1. Si hubiera alguna observación que fuera un outlier.85). como el de Mardia (1974). El contraste reseñado puede por tanto verse también como un contraste de presencia de puntos extraños o outliers.85) 2 en que Di = (yi − y) ′ S −1 (yi −y). n−α−β+1 (1. donde es posible la visualización. p. que son de interés en si mismas como medida de la “rareza” de puntos muestrales —miden la lejanía de cada punto al vector de medias estimado de la muestra en distancia de Mahalanobis—. Como estadístico puede utilizarse 2 2 D(n) = m´x Di . Un método atrayente es el siguiente: sea S la estimación habitual de la matriz de covarianzas basada en una muestra de tamaño n y sea S−i el mismo estimador prescindiendo de la observación i-ésima. La separación de la recta es indicativa de violación de la hipótesis de normalidad multivariante. y esperaríamos que W tuviera un valor “pequeño”. Los valores críticos están tabulados en Barnett and Lewis (1978). por tanto. Consideremos el estadístico: W = m´x a i |(n − 2)S−i | |(n − 1)S| (1. β) vienen dados por vi = i−α . Al igual que en la sección anterior.84) lo que sugiere hacer la gráfica de los puntos (vi . W tendrá su región crítica por la izquierda. Se puede demostrar que 2 nD(n) W =1− (1. Se han propuesto otros contrastes.9. Un hecho de interés es que el contraste está basado en las cantidades Di . “hincharía” mucho la estimación de la matriz de covarianzas. NORMAL MULTIVARIANTE Y ASOCIADAS Los cuantiles de una B(α. Búsqueda de outliers Es en general mucho más difícil en espacios de elevada dimensionalidad que en una. cabe pensar en contrastes formales que ayuden a nuestro juicio subjetivo sobre la falta de linealidad o no de los puntos mencionados. 1.

89) en que F es una variable con distribución F de Snedecor. .1 Las funciones de R qqnorm y shapiro. W (1.1. COMPLEMENTOS Y COSAS PARA HACER 1. Obsérvese que ambos contrastes están relacionados: F(n) def = m´x Fi = a i n−p−1 p 1 −1 .90) CUESTIONES.test (ésta última en el paquete ctest) permiten realizar con comodidad gráficas QQ y el contraste de Shapiro-Wilk respectivamente.9. definamos n−p−1 Fi = p iid 2 nDi 1− (n − 1)2 −1 33 (i = 1.n−p−1 y P m´x Fi > f a i = 1 − [P (F < f )]n (1. CONTRASTES EN LA DISTRIBUCIÓN NORMAL Alternativamente. . . n) (1.88) Entonces. . Fi ∼Fp. .

34 CAPÍTULO 1. NORMAL MULTIVARIANTE Y ASOCIADAS .

Contraste sobre el vector de medias conocida Σ. 2.α 35 ′ . en especial si N es moderadamente grande.Capítulo 2 Inferencia en poblaciones normales multivariantes. 2. En los desarrollos que siguen emplearemos S. sesgado) o N (N −1)−1 S = (N −1)−1 N (Xi− i=1 ′ X)(Xi − X) (insesgado). 1 Como X ∼ Nd (µ.1.1. N Σ). Inferencia sobre el vector de medias. tenemos que: ′ N (X − µ) Σ−1 (X − µ) ∼ χ2 d Para contrastar H0 : µ = µ0 calcularíamos el valor del estadístico Q0 = N (X − µ0 ) Σ−1 (X − µ0 ). 1 Como estimador de µ empleamos habitualmente X = N N Xi. rechazando la hipótesis al nivel de significación α si Q0 > χ2 .1. Como estimador de la matriz de covarianzas puede emplearse S = (1/N ) N (Xi − i=1 ′ X)(Xi − X) (máximo verosímil. Es habitualmente irrelevante cual de ellos se emplee. que es i=1 el estimador máximo verosímil si la distribución es normal multivariante. d.

36 CAPÍTULO 2. . Contraste sobre el vector de medias con Σ desconocida.3) (2. 2 (N − 1)(X − µ0 ) S −1 (X − µ0 ) ∼ Td.9) N1 S 1 = i=1 N2 (Xi − X)(Xi − X) ∼ Wd (N1 − 1. . . INFERENCIA EN NORMAL MULTIVARIANTE 2.7) Y = Yj j=1 (2.5) (2.N −1 d N −1 2 ∼ Fd.4) N −d ′ (X − µ0 ) S −1 (X − µ0 ) ∼ Fd.6) procedentes de sendas poblaciones normales multivariantes con matriz de covarianzas común Σ. XN1 Y1 . Como. . Σ) ′ ′ (2.2) N (X − µ) ∼ Nd (0.1. ′ o sea. ′ Por consiguiente.10) N2 S 2 = j=1 (2. Σ) (Yj − Y )(Yj − Y ) ∼ Wd (N2 − 1. 2.11) . . podemos asegurar que bajo la hipótesis nula H0 : µ = µ0 se verifica 2 N (N − 1)(X − µ0 ) (N S)−1 (X − µ0 ) ∼ Td. . entonces: X = 1 N1 1 N2 N1 N1 Xi i=1 N2 (2. . Y2 .1) (2. √ N S ∼ Wd (N − 1. Muestra 1 : Muestra 2 : X1 . Σ) (2.1.N −d .N −1−d+1 (2.3. X2 .2. . Contraste de igualdad de medias en dos poblaciones con matriz de covarianzas común. Σ) y además son independientes.N −1 .N −d d α El rechazo se producirá al nivel de significación α si el estadístico supera Fd.8) (2.N −1 . N − 1 − d + 1 Td. YN2 (2. Si tenemos dos muestras.

N1 +N2 −2 (N1 + N2 )2 N1 + N2 − d − 1 N1 N2 ′ (X − Y ) S −1 (X − Y ) ∼ Fd. INFERENCIA SOBRE EL VECTOR DE MEDIAS. y el segundo en ruedas delanteras. dentro de cada coche. S = (N1 S1 + N2 S2 )/(N1 + N2 ) es un estimador de Σ que hace uso de información en ambas muestras. etc. N1 N2 (X − Y ) ∼ Nd (0. Sin embargo. en diferentes ruedas. Σ).N −1 N −q ′ (CX − δ) (CSC ′ )−1 (CX − δ) ∼ Fq. Ejemplo 2.2. 1 1 (N1 + N2 ) Σ+ Σ= Σ.1.N −1 ′ ′ (2. siendo δ un vector q × 1 y C una matriz q × d de rango q. Supongamos que la hipótesis que deseamos contrastar es expresable en la forma H0 : Cµ = δ. Σ(X−Y ) = Por consiguiente. nos abstendríamos de probar el primer tipo de neumático siempre en ruedas traseras.N1 +N2 −d−1 .12) (2. Por otra parte. bajo H0 : N (CX − δ) ∼ Nq (0.13) (2. CΣC ′ ).14) 2 (N − 1)(CX − δ) (CSC ′ )−1 (CX − δ) ∼ Tq. se producirá el rechazo de la hipótesis nula de igualdad de medias al nivel de significación α cuando el estadístico anterior supere α Fd.N −q q siendo de nuevo la región crítica la formada por la cola derecha de la distribución (valores grandes del estadístico producen el rechazo de la hipótesis de contraste).N1 +N2 −d−1 . no siempre podemos controlar todos los factores en presencia. N1 N2 N1 N2 2. Por ejemplo. Supongamos que los dos tipos de neumáticos se montan por pares en . Σ) N1 + N 2 N1 N2 ′ 2 (X − Y ) S −1 (X − Y ) ∼ Td. CΣC ′ ). Por consiguiente: 2 N (N − 1)(CX − δ) (N CSC ′ )−1 (CX − δ) ∼ Tq. y N CSC ′ ∼ Wq (N − 1. bajo H0 . y (N1 + N2 )S ∼ Wd (N1 + N2 − 2. Bajo la hipótesis H0 : E[X] = E[Y ] = µ0 . Contraste de hipótesis lineales generales sobre el vector de medias de una única población. d (N1 + N2 )2 (N1 + N2 − 2) Como en el caso anterior. √ De acuerdo con la teoría en la Sección anterior. y diseñaríamos el experimento de modo que hasta donde fuera posible ningún factor ajeno al tipo de neumático influyera en su duración.4. E(X − Y ) = 0.1 Supongamos que estamos interesados en contrastar si la resistencia al desgaste de dos diferentes marcas de neumáticos es la misma o no. 37 Por consiguiente.1. Este es un problema típico de Análisis de Varianza: montaríamos los dos tipos de neumáticos en diferentes coches y.

. la hipótesis de interés podría expresarse así: Cµ = 0 con C= 1 0 0 1 −1 0 . etc. no es prudente dar por supuesta la independencia entre las componentes de cada vector. Contraste de hipótesis lineales sobre los vectores de medias de dos poblaciones. cada tipo en una rueda delantera y una trasera. X4 ) de valores. . XN1 Y1 . µ4 ) es el vector de medias. de las que poseemos sendas muestras aleatorias simples: Muestra 1 : Muestra 2 : X1 . En efecto. los dos primeros correspondiendo al primer tipo de neumático y los dos siguientes al segundo. . X2 . trayecto recorrido—. Obtendríamos de cada coche un vector X = (X1 . conductor. Σ) y por tanto. .5. X3 . N1 N2 (CX − CY − δ) ∼ Nq (0. Salvo que hayamos diseñado el experimento con total control del tipo de conductor. . .15) (2. .1.N1 +N2 −q−1 ′ . . estilo de conducción. Sean dos poblaciones normales multivariantes. CΣC ′ ) N1 + N 2 (N1 + N2 )S = N1 S1 + N2 S2 ∼ Wd (N1 + N2 − 2. . se verifica.N1 +N2 −2 ′ (N1 + N2 )CSC ′ ∼ Wq (N1 + N2 − 2.14).17) k(CX − CY − δ) (CSC ′ )−1 (CX − CY − δ) ∼ Fq. con ℓ = N1 N2 (N1 + N2 − 2). Si µ = (µ1 . 2. con matriz de covarianzas común Σ. CΣC ′ ). 0 −1 El contraste haría entonces uso de (2. 2 ℓ(CX − CY − δ) [(N1 + N2 )CSC ′ ]−1 (CX − CY − δ) ∼ Tq. . N1 + N2 que tras simplificar proporciona: (2.38 CAPÍTULO 2. Y2 . . . X2 . tiempo atmosférico. todas ellas han sido influenciadas por factores comunes —como coche. YN2 (2. INFERENCIA EN NORMAL MULTIVARIANTE cada coche. trayecto.16) Si la hipótesis H0 : Cµ1 − Cµ2 = δ es cierta y C es una matriz q × d de rango q. como sería necesario para hacer un análisis de varianza univariante ordinario. .

. −1 y δ = 0.2 Contrastes de esta naturaleza surgen de forma habitual. . . agudos.1: Disposición de dos vectores de medias paralelos 39 µ2 µ1 con k = N1 + N2 − q − 1 N1 N2 . Figura 2. . 0    C = . INFERENCIA SOBRE EL VECTOR DE MEDIAS. j-ésimo) de dos poblaciones las sensibilidades auditivas a sonidos de diferentes frecuencias. 1 0 0 . o si por el contrario se pierde más sensibilidad para sonidos graves. Es fácil ver como llevar a cabo dicho contraste con ayuda de (2. . q (N1 + N2 )2 Ejemplo 2. 0 1 0 −1 . .  . Hay veces en que la hipótesis de interés no se refiere a la igualdad de los vectores de medias. . sean Xi e Yj vectores aleatorios dando para los sujetos i-ésimo (respectivamente. la hipótesis de igualdad de medias no tendría mayor interés: podemos esperar menor sensibilidad en los mayores. Por ejemplo.1. u otros.1). . si la esperable pérdida de audición de los ancianos se produce de forma uniforme sobre todas las frecuencias consideradas.2. sino a su forma. Es decir. . Tal hipótesis se traduciría a una hipótesis de desplazamiento uniforme del vector de medias de una población respecto al de la otra. . . . Podría interesarnos en cambio contrastar si los vectores de medias son paralelos (véase Figura 2. .17): bastaría tomar   1 −1 0 . . Si una de las poblaciones agrupa a jóvenes y otra a ancianos. .  . .

n−1 . y resulta fuertemente afectada por la kurtosis. Puede comprobarse que la función de densidad de R = RX1 . 2 (1 − r 2 )(n−3)/2 (|r| < 1) y T 2 = (n − 1)R2 /(1 − R2 ) sigue una distribución F1. Omitimos los detalles1 .X2 . . normales X1 .X2 (prescindimos de los subíndices por comodidad notacional) es: Si X = fR (r) = (1 − ρ2 )n/2 (1 − r 2 )(n−3)/2 πΓ n Γ n−1 2  2 ∞ (2ρr)p n+p n 2 + Γ × Γ 2 p! 2 √ p=1 ′ 2   (|r| < 1) De ella se deduce que: E[R] = ρ + O Var[R] = 1 n 2 )2 (1 − ρ +O n (2.19) Bajo la hipótesis nula H0 : ρ = 0 la densidad se simplifica notablemente: fR (r) = 1 B 1 n−1 2. X2. Inferencia sobre el coeficiente de correlación entre dos v. 2 1−ρ n−3 para n “grande”. Σ). y su función de densidad puede obtenerse por transfores entonces Z12 11 22 mación de la de la Z.2.40 CAPÍTULO 2. Z = n (Xi − X)(Xi − X) se distribuye i=1 X2 2 como W2 (n − 1.18) 1 n3/2 . (2. El coeficiente de correlación muestral al cuadrado. Fisher mostró que Z= 1+R 1 loge = tanh−1 R 2 1−R se distribuye aproximadamente como: Z∼N 1 1+ρ 1 loge . X1 ′ ∼ N2 (µ. Σ). 2 /Z Z . 135.a. 1 Pueden consultarse en Fourgeaud and Fuchs (1967) p. INFERENCIA EN NORMAL MULTIVARIANTE 2. RX1 . Por otra parte. lo que permite contrastar fácilmente la hipótesis de nulidad. lo que permite construir intervalos de confianza para ρ. La aproximación anterior es válida en el caso normal.

Existen contrastes para una gran variedad de hipótesis sobre la matriz de covarianzas de una población normal.21) (Xi − X)(Xi − X) (Yj − Y )(Yj − Y ) ′ ′ (2. o sobre las matrices de covarianzas de más de una población: Seber (1984) y Anderson (1978) son referencias adecuadas. . y con la notación habitual. |S11 ||S22 | |S11 ||S22 | |S11 | . S1 = S2 = S = N 1 N1 1 N2 N1 i=1 N2 j=1 X1 . Bajo la hipótesis H0 : Σ = def Σ11 0 . X2 . YN2 ∼ Nd (µ2 .3.27) Λ= −1 |S11.24) (2.1. se tiene: 0 Σ22 (2.23) (2. . Contraste de igualdad de matrices de covarianzas en dos poblaciones normales.20) (2. Inferencia sobre la matriz de covarianzas. .2. ℓ= |S|−N/2 |S1 |−N1 /2 |S2 |−N2 /2 2 (2. Sólo a título de ejemplo.3. . −2 loge ℓ ∼ χ2 d(d+1) asintóticamente. Sea. 2. Σ2 ) (2.3.25) 1 (N1 S1 + N2 S2 ) N1 + N 2 = N1 + N2 los estimadores habituales de las matrices de covarianzas en cada población y de la matriz de covarianzas conjunta.26) Bajo la hipótesis nula H0 : Σ1 = Σ2 . INFERENCIA SOBRE LA MATRIZ DE COVARIANZAS.3. 1 2. Y2 . Contraste de diagonalidad por bloques de la matriz de covarianzas de una única población normal. señalaremos los estadísticos empleados en el contraste de dos hipótesis particulares. .22) (2. 41 2. . .2. Sean dos poblaciones normales multivariantes de las que poseemos sendas muestras: Muestra 1 : Muestra 2 : Sean. XN1 ∼ Nd (µ1 .2 | |S11 − S12 S22 S21 ||S22 | |S| = = . . Σ1 ) Y1 .

n = pq. Λ= |S11.2 )| lo que sugiere un modo de hacer el contraste.gl2 Observación 2. En nuestro caso. p2 + q 2 − 5 N ∼ Fgl1 . El mismo resultado asintótico se ha empleado en el apartado anterior para aproximar la distribución de ℓ en (2. Σ11 ) y la del denominador Wp (N − 1.2 + (S11 − S11.2 ) descompone S11 en la suma de dos Wishart independientes. 84 y Cox and Hinkley (1974). Un resultado asintótico utilizable en general cuando las hipótesis son (como en este caso) anidadas. . porque la hipótesis nula prescribe pq parámetros nulos (las covarianzas contenidas en el bloque Σ12 ). Para valores ausentes en tablas. la matriz en el numerador es una Wishart Wp (N −q−1.2 | ∼ Λp. INFERENCIA EN NORMAL MULTIVARIANTE Bajo la hipótesis nula.N −q−1 |S11.27) sería la razón generalizada de verosimilitudes bajo las hipótesis respectivas: H0 : Σ12 = 0 versus Ha : Σ general. (1995).1 λ = Λ 2 con Λ definida en (2. Existen diferentes aproximaciones para la distribución Λ. puede emplearse la aproximación 1 −(N − (p + q + 3)) log e Λ ∼ χ2 .2 + (S11 − S11. Más detalles sobre contrastes razón generalizada de verosimilitudes pueden encontrarse en Garthwaite et al. establece que −2 loge λ ∼ χ2 n siendo n la diferencia de parámetros adicionales que especifica la hipótesis nula respecto de la alternativa. tenemos que: S11 = S11. Por otra parte.26). Σ11 ). pq 2 o alternativamente 1 − Λ1/t gl2 Λ1/t gl1 en que gl1 = pq 1 gl2 = wt − pq + 1 2 1 w = N − (p + q + 3) 2 t = p2 q 2 − 4 . como X1 = E[X1 |X2 ] + (X1 − E[X1 |X2 ]) es una descomposición de X1 en sumandos independientes. p.42 CAPÍTULO 2.q. Por tanto.

El estadístico en (2. El cociente en la expresión anterior es (la potencia de orden p) de la media geométrica a la media aritmética de los autovalores. lo que es acorde con la intuición.28) Los grados de libertad de la χ2 son la diferencia de parámetros entre una matriz de covarianzas general ( p(p+1) . . tomará un valor significativo al nivel α sólo si existe un vector de coeficientes a tal que H0 : a ′ µ = a ′ µ0 resulta rechazada al mismo nivel α por un contraste t de Student univariante ordinario. COMPLEMENTOS Y COSAS PARA HACER 2. Una mejor aproximación a la distribución χ2 se logra sustituyendo −2 loge L por el estadístico L′ = − ν − 2p2 + p + 2 6p loge ( | p p i=1 λi /p) p i=1 λi | .3. en que ν es el número de grados de libertad de la Wishart que ha dado lugar a S: N − 1 si ha sido estimada a partir de una sóla muestra con media desconocida. El contraste se efectúa haciendo uso de la técnica de la razón de verosimilitudes (Observación 2. Estamos interesados en contrastar si la matriz de covarianzas es de la forma Σ = σ 2 I. CUESTIONES. . .2. habida cuenta de la simetría) y los de otra con 2 estructura escalar σ 2 I (sólamente uno). y por tanto un índice de su disimilaridad. Σ). (2. Contraste de esfericidad Sea Y1 . y N − k si ha sido estimada a partir de k muestras en cada una de las cuales se ha ajustado una media. YN una muestra procedente de una población Np (µ. . tanto más pequeño cuanto más desiguales sean éstos.28) puede escribirse en función de los valores propios de S así: L = ( | p p i=1 λi /p) i=1 λi | N 2 .1). p(p+1) −1 (traza(S)/p)p 2 |S| (traza(S)/p)p N 2 .3. INFERENCIA SOBRE LA MATRIZ DE COVARIANZAS 43 2.3. lo que se traduciría en contornos de igual densidad que serían superficies o hipersuperficies esféricas. que en este caso proporciona: L = Por tanto. asintóticamente. −2 loge L = −N loge |S| ∼ χ2 .29) empleado para el contraste multivariante de H0 : µ = µ0 .1 Mostrar que el estadístico T 2 de Hotelling (N − 1)(X − µ0 ) S −1 (X − µ0 ) ′ (2. .

44 CAPÍTULO 2. INFERENCIA EN NORMAL MULTIVARIANTE .

Cuadras (1981). 20 y 21 contiene una presentación autocontenida de los modelos ANOVA y MANOVA. Stapleton (1995) o Trocóniz (1987a). en lugar de una variable aleatoria escalar. sean ahora formas cuadráticas generalizadas. La exposición que sigue presupone familiaridad con el modelo de análisis de varianza univariante. 3.2. Modelo MANOVA con un tratamiento Estudiamos una característica multivariante Yij que suponemos generada así: Yij = µi + ǫij = µ + αi + ǫij ǫij ∼ N (0.Capítulo 3 Análisis de varianza multivariante 3. Ello conlleva que las sumas de cuadrados cuyos cocientes proporcionan los contrastes de las diferentes hipótesis. serán cocientes de determinantes (con distribución Λ de Wilks) o diferentes funciones de valores propios de ciertas matrices. por su parte. Introducción Los modelos de Análisis de Varianza Multivariante (MANOVA) son una generalización directa de los univariantes. Los estadísticos de contraste. por mencionar sólo algunos. Cap. Un descripción del modelo univariante puede encontrarse en casi cualquier texto de regresión: Seber (1977).2) . Lo único que varía es que la respuesta que se estudia es un vector para cada observación.1) (3.1. Σ) 45 (3.

Son valores pequeños del estadístico Λ anterior los que cabe interpretar como evidencia contra la hipótesis nula. la de H es correcta cuando la hipótesis nula es cierta. la suma generalizada de cuadrados en torno a la media Y.3. . Si H0 no se verifica. . E H H0 ∼ ∼ W (k(n − 1). bajo la hipótesis nula. . multivariante estudiada para el caso j-ésimo sujeto al tratamiento i-ésimo..)(Yi. muestra que las matrices aleatorias E y H en la expresión anterior tienen distribuciones respectivas. De existir un efecto atribuible al nivel i-ésimo del tratamiento. Σ) W (k − 1. hay independencia entre ambas matrices Wishart. = µk µi = µj para algún i. 22). (⇔ αi = 0 ∀i) De un modo enteramente similar a como sucede en el caso ANOVA univariante.46 CAPÍTULO 3. Σ).k(n−1). (3. 3. + Yi..4) La distribución de E se sigue de los supuestos.. Supondremos el mismo número de casos estudiados con cada nivel del único tratamiento (es decir. en virtud del Teorema 1. la teoría anterior (en particular.k−1. . + Yi. − Y. En consecuencia. − Y. Yij es el vector de valores que toma la v. éste vendría recogido por el vector αi .. Relación entre diversos contrastes Observemos que si δ1 .)(Yij − Yi.)(Yij − Yi.) ′ H Ahora bien. Λ= |E| |E + H| ∼ Λp. p.a.5) . ANÁLISIS DE VARIANZA MULTIVARIANTE En (3. H “engordará”: será una Wishart no central. Además.3) (3..1). .. consideraremos sólo el caso de diseño equilibrado): hay k niveles y la muestra incluye n casos tratados con cada nivel. el Teorema 1. .3. Λ= |E| |E + H| p = i=1 1 1 + δi . (3. − Y.) ′ + n E i=1 (Yi.) ′ k = i=1 j=1 (Yij − Yi.. − Y. j.) ′ k n = i=1 j=1 k n (Yij − Yi.)(Yij − Y. La hipótesis de interés más inmediato sería: H0 : versus Ha : µ1 = µ2 = . se descompone así: k n i=1 j=1 (Yij − Y.3. δp son los valores propios de E −1 H.

Estadístico máxima raíz de Roy. bajo los supuestos de normalidad multivariante y de vigencia de las respectivas hipótesis de contraste.3.4.3. MODELOS MANOVA CON DOS O MÁS TRATAMIENTOS 47 El estadístico de contraste es una particular función de los autovalores de E −1 H. p δ1 . Su comportamiento es diferente dependiendo del tipo de incumplimiento de la hipótesis H0 . cuando los vectores de medias son diferentes y no están alineados. Volveremos sobre esta cuestión en la Sección 4. . Modelos MANOVA con dos o más tratamientos De modo análogo a como sucede en el caso univariante. un modelo MANOVA con dos tratamientos supone que la respuesta (multivariante) Yijk (correspondiente al k-ésimo caso. . Las sumas de cuadrados del análisis univariante son ahora sumas de cuadrados generalizadas: matrices que. tratado con los niveles i y j de los tratamientos A y B respectivamente) se genera alternativamente de una de las siguientes formas (sin y con interacción. . p. µk están aproximadamente alineados: esto hace crecer el primer valor propio de H y de E −1 H. 1 + δ1 V = i=1 δi . . A título puramente ilustrativo transcribimos en la Tabla 3. Por ejemplo. θ = Estadístico de Pillai. 1 + δi Estadístico de Lawley–Hotelling. respectivamente): Yijk = µ + αi + β j + ǫijk Yijk = µ + αi + β j + γ ij + ǫijk El análisis es entonces reminiscente del que se realiza en el caso univariante. el estadístico de Roy está particularmente indicado cuando los vectores de medias µ1 . p U = i=1 δi . De todos ellos hay tabulaciones que permiten contrastar H0 con comodidad. No es la única elección posible: hay otras que mencionamos brevemente. . se distribuyen como Wishart. 3. los otros estadísticos proporcionarán en general más potencia. 54.4. En cambio.1 la partición de la suma generalizada de cuadrados para un modelo con dos tratamientos e interacción.

)(Yijk − Y.)(Y. COMPLEMENTOS Y COSAS PARA HACER .. Cap.j.. − Y. 3. CUESTIONES. 6. − Y. que bajo la hipótesis HA : αi = 0 para i = 1. + Y. .L. Por ejemplo. Pueden consultarse sobre este tema Cuadras (1981)... Son bastante sensibles. La robustez al incumplimiento de las hipótesis es en general menor cuando aumenta la dimensión..3.3. 20 y 21 y Rencher (1995).5. el modelo MANOVA con un único tratamiento puede verse como una generalización del contraste en la Sección 2. − Y..) (I − 1)(J − 1) IJ(K − 1) IJK − 1 J ′ j=1 (Y. Cap. a la no independencia de las observaciones. Similares cocientes de sumas de cuadrados generalizadas permitirían contrastar cada una de las restantes hipótesis de interés.) Podemos ahora construir contrastes para las hipótesis de nulidad de cada uno de los efectos.48 CAPÍTULO 3.) J HAB = K I i=1 j=1 (Yij.. Métodos introducidos en el Capítulo 2 tienen también generalización al caso de más de dos poblaciones... empleando el estadístico Λ de Wilks.. por ejemplo.. 36. − Yi..) ′ E= T = I i=1 J j=1 K k=1 (Yijk I i=1 J j=1 K k=1 (Yijk − Yij.. . p..1: Tabla de Análisis de Varianza para un modelo con dos tratamientos e interacción Fuente A B AB Error Total Suma cuadrados HA = KJ HB = KI I i=1 (Yi. − Y. .) ′ ′ − Y. I.. en el contexto de modelos MANOVA.IJ(K−1) |E + HA | y valores suficientemente pequeños de ΛA conducirían al rechazo de la hipótesis. Si empleamos el primero tendríamos. G.. o cualquiera de los presentados en la Sección 3. . Salvo el contraste basado en el estadístico de Roy. Del mismo modo otros.)(Yi.) ′ I −1 J −1 Y...1.. + ×(Yij. Extensiones y bibliografía Cada modelo ANOVA univariante encuentra una generalización multivariante. − Y. ΛA = |E| ∼ Λp.I−1. los demás son bastante robustos a la no normalidad y a la heterogeneidad en las matrices de covarianzas de los vectores de observaciones. en cambio.. ANÁLISIS DE VARIANZA MULTIVARIANTE Cuadro 3.j.)(Yijk − Yij. − Yi.j.j. − Y.

podría invocar manova así: solucion <. test="pillai") realizaría el contraste de Pillai. summary(solucion. puede realizarse análisis de varianza multivariante mediante la función manova. Por ejemplo.data=frame).manova(resp ~ diseño. La sintaxis es muy similar a la de la función lm.1 En S-P LUS. EXTENSIONES Y BIBLIOGRAFÍA 3. pero la respuesta debe ser una matriz. 49 . Por ejemplo. Los contrastes relacionados en la Sección 3. cuyas componentes pueden examinarse mediante summary(solucion).2 pueden obtenerse mediante la opción test= de summary. La función devuelve (en solución) un objeto de tipo maov. cuya filas son las observaciones. “pillai”.3. “roy largest” y “hotelling-lawley”. que admite como valores “wilks lambda”.5.

50 CAPÍTULO 3. ANÁLISIS DE VARIANZA MULTIVARIANTE .

Capítulo 4 Análisis de correlación canónica 4. es decir. Σ= Σ11 Σ12 Σ21 Σ22 µ= µ1 µ2 la matriz de covarianzas y el vector de medias particionados consecuentemente. pero con ayuda de una muestra hemos obtenido su estimador: S= S11 S12 S21 S22 Estamos interesados en contrastar la hipótesis H0 : Σ12 = 0 frente a la alternativa Ha : Σ12 = 0. Sean. Podríamos enfrentar este problema directamente. Desconocemos la matriz Σ. 4. Introducción. Supongamos que tenemos un vector aleatorio X con (p + q) componentes. Consideremos variables auxiliares. contrastando si Σ es o no diagonal por bloques (para lo que hay teoría disponible). hará emerger el concepto de variable canónica y el principio de unión-intersección de Roy. 51 . queremos saber si el primer grupo de p variables (X1 ) está o no correlado con el segundo grupo de q variables X2 . Variables canónicas y coeficientes de correlación canónica.1. que particionamos así: X ′ = (X1 ′ |X2 ′ ). entre otras cosas. Seguiremos una aproximación diferente que.2.

De un modo intuitivo.y (a. e igualamos las derivadas a cero. rx. multiplicando a.y (a.2) (4. b y compara el valor resultante con la distribución del máximo bajo la hipótesis nula. b. para cualesquiera vectores a. obtenemos: ∂Φ(a.52 CAPÍTULO 4. El método de 2 unión-intersección de Roy maximiza primero rx.y (a. X2 fueran independientes.y (a. b tendríamos que ρx. b) los que condujeran a la aceptación de la hipótesis de independencia. b) = (a ′ S12 b)2 − λ(a ′ S11 a − 1) − µ(b ′ S22 b − 1). sin embargo. parece pues evidente 2 que debieran ser valores cercanos a cero de rx. 2 Obsérvese. b) no altera su valor. b) depende de a y de b. ∂b Reordenando las anteriores ecuaciones: −λS11 a + (a ′ S12 b)S12 b = 0 (a S12 b)S21 a − µS22 b = 0 ′ b ′ S22 b = 1 (4.3) (4. b) respecto de a. o ambos por una constante cualquiera.y (a. ANÁLISIS DE CORRELACIÓN CANÓNICA x = a ′ X1 y = b ′ X2 .1) (4. b) = a ′ Σ12 b a ′ Σ11 a b ′ Σ22 b una estimación del cual es proporcionada por: rx. que rx. Φ(a.y (a.y (a. b) está insuficientemente especifica2 do. b) = 2(a ′ S12 b)S12 ′ a − 2µS22 b = 0q×1 . derivamos. b) ′ = 2(a ′ S12 b)S12 b − 2λS11 a = 0p×1 ∂a ∂Φ(a.y (a. El coeficiente de correlación entre ambas es: ρx. La idea es sustancialmente la misma que cuando se contrastan muchas hipótesis simultáneas. b) = a ′ S12 b a ′ S11 ab ′ S22 b Si ambos vectores X1 . Utilizaremos por ello restricciones de normalización: a ′ S11 a = 1 Si formamos el lagrangiano. 2 El problema de maximización de rx. b) = 0.y (a.4) . en tanto la región crítica estaría formada 2 por los valores rx. b) superando un cierto umbral (se emplea el cuadrado del coeficiente de correlación para que tenga signo positivo en todo caso).

301. Una particularidad del contraste propuesto es que si efectuáramos transformaciones lineales cualesquiera de las variables aleatorias en ambos subvectores. −1 −1 −1 −1 AS12 B ′ (B ′ )−1 S22 B −1 BS21 A ′ (A ′ )−1 S11 A−1 = AS12 S22 S21 S11 A−1 . Véase una discusión más completa en Cox and Hinkley (1974). si Y1 = AX 1 e Y2 = BX 2 siendo A y B matrices cualesquiera. −1 | − µ 2 S22 || − λ 2 S11 + S12 S22 S21 µ− 2 | = 0 1 1 1 (4. es claro que debemos tomar el mayor de los valores que λ es también rx. es uno de los procedimientos más habituales para restringir la clase de contrastes merecedores de atención.5) (4. concluimos de (4.8) se deduce: −1 −1 −1 | − λ 2 S11 + S12 S22 S21 µ− 2 | = |S11 ||S12 S22 S21 S11 − λI| = 0. 1 1 (4.3. −λ 2 S11 a + S12 b = 0 S21 a − µ S22 b = 0 1 1 2 (4. valores que llevados a dichas ecuaciones proporcionan −λS11 a + λ 2 S12 b = 0 1 1 µ 2 S21 a − µS22 b = 0 1 o sea.y propios para resolver nuestro problema de maximización.11) ( Se dice que el contraste es invariante frente a transformaciones lineales no degeneradas. b). por lo que de (4.y (a. Detalles teóricos pueden obtenerse de Giri (1977). La idea de invariancia es importante en Estadística. Esta distribución tiene interesantes propiedades: para nada depende de Σ11 ni Σ22 . 7.4) por a ′ y b ′ obtenemos: λ = µ = (a ′ S12 b)2 = 2 rx. 1 S21 −µ 2 S22 o sea. El contraste deseado. los resultados no se alterarían1 .7) (4. VARIABLES Y COEFICIENTES CANÓNICOS 53 Premultiplicando (4. 41 y Kiefer (1983). 1 . p.3)–(4. haciendo uso del Lema 1. por tanto.4.9) que −1 −1 |S12 S22 S21 S11 − λI| = 0.6) Para que este sistema tenga solución distinta de la trivial ha de verificarse −λ 2 S11 S12 = 0.10) −1 −1 y por tanto las soluciones de λ son los valores propios de S12 S22 S21 S11 .2. tenemos que la matriz cuyos valores propios hemos de computar es.8) Como suponemos S22 definida positiva. se reduce a comparar dicho λ máximo con su distribución bajo la hipótesis nula. el primer factor es no nulo. b). 4. (4.3. Puesto 2 (a.9) De nuevo suponiendo que S11 es definida positiva. p. en función de las matrices de covarianzas muestrales de X 1 y X 2 . Sec. En efecto.

. combinaciones lineales de las originales con a y b correspondientes al máximo λ. q) pares de variables canónicas. . . Las variables x = a ′ X1 e y = b ′ X2 .. . en el caso de que los diferentes niveles de tratamiento no tengan ninguna influencia. .. Es ahora intuitivo que. etc..  .  . se denominan primeras variables canónicas. XN p 0 0 . Xn +2. . y consecuentemente s coeficientes de correlación canónica. . . .3. . . .. . .1 Xn +1. . .2 . terceras. y que como vector X2 tomamos variables indicadoras. . En efecto. . . . Calculado λ podemos regresar a (4.1 Xn +2. 0  X21 X22 . . variables canónicas. podríamos identificar las matrices Wishart E y H empleadas en el modelo MANOVA de un tratamiento así: −1 H = S12 S22 S21 −1 E = S11 − S12 S22 S21 . . . 1 Es decir. . . .6) y obtener a y b. . .  .. 0 1   Xn +1. . . . 4. Se demuestra fácilmente que las sucesivas variables canónicas son incorreladas entre sí. ANÁLISIS DE CORRELACIÓN CANÓNICA Como los valores propios no nulos de CD y de DC son idénticos (supuesto que ambos productos pueden realizarse). . . . .. son las combinaciones lineales de variables en X1 y en X2 con máxima correlación muestral. un 1 en posición j-ésima en X2 señala que el caso correspondiente ha recibido el tratamiento j-ésimo.   . 0 1 1 (4. Contrastar la hipótesis de efecto nulo en MANOVA y de mayor correlación canónica nula es algo equivalente. .2 . . . . . Mencionamos brevemente la relación con MANOVA de un tratamiento. .1 Xn1 . salvo en una constante.11) son idénticos a los de S12 S22 S21 S11 .. . . Los siguientes valores de λ solución de (6) proporcionan las segundas.   Xn .2 . . no deberíamos esperar ninguna relación lineal entre las variables en X1 y las variables en X2 . Relación con otros contrastes Diferentes modelos multivariantes pueden verse como casos particulares de análisis de correlación canónica. . Hay s = m´ ın(p. 0    .12)  1 . X1p 1 0 . X2p 1 0 . XN 1 XN 2 . . . . . . . . Supongamos que el vector X1 agrupa las variables regresandos. . Xn1 . . el mismo argumento puede repetirse en conexión con análisis discriminante (Capítulo 12). . .p 0 1 . Xn +1.. los valores propios de la última matriz en −1 −1 (4. Xn +2.54 CAPÍTULO 4.p 0 1 .p 1 0 . 0 1 1  1   . . . La muestra tendría la siguiente apariencia:   X11 X12 . . .. . y en efecto este es el caso. en número igual al de niveles del único tratamiento. .5)–(4. .

1 − λi Es equivalente contrastar la hipótesis de nulidad de ρ2 (mayor correlación canónica 1 al cuadrado) o la de δ1 (mayor autovalor de E −1 H “anormalmente grande” bajo H0 : µ1 = . El empleo de contrastes sobre el primer coeficiente de correlación canónica es también el método adecuado cuando investigamos la existencia de correlación entre características no directamente medibles. 1+δ −1 δ)S12 S22 S21 − δ(S11 − = 0 (4. |E −1 H − δI| = 0 ⇔ |H − δE| = 0 ⇔ ⇔ |(1 + −1 |S12 S22 S21 (4. A menudo es difícil. la relación anterior entre los autovalores de una y otra matriz y (3. 4. cualquier pareja formada por una variable en X1 y otra en X2 tiene débil correlación.15) (4. En este caso. Ninguna de estas dos cosas es medible de manera unívoca.4. . el examen de dichas combinaciones lineales puede arrojar luz sobre aspectos del problema analizado que de otro modo pasarían desapercibidos. y hay sin embargo combinaciones lineales de variables en X1 muy correladas con combinaciones lineales de variables en X2 . Por ejemplo.4. INTERPRETACIÓN.13) −1 S12 S22 S21 )| − δS11 | = 0 δ −1 S11 | = 0 ⇔ |S12 S22 S21 − 1+δ δ −1 −1 ⇔ |S11 S12 S22 S21 − I| = 0. pero cuando resulta posible suele ser iluminante. el estadístico J−1 i 2 (1 − ri ) = J−1 i=1 1 1 + δi se distribuye como una Λ de Wilks. 55 En MANOVA buscábamos los autovalores definidos por la ecuación característica |E −1 H − δI| = 0. podríamos estar interesados en la hipótesis de si existe relación entre ideología política de los individuos y su nivel cultural. .4. sino . Observemos que.5). Observación 4.16) (4.14) (4. En ocasiones.17) Los autovalores de la matriz E −1 H están en relación biunívoca con las correlaciones canónicas al cuadrado: 2 ri = λi = δi 1 + δi δi = λi . muestra que bajo la hipótesis “Todos los coeficientes de correlación canónica son nulos”. = µK ). Interpretación.1 Incidentalmente.

CUESTIONES. . la utilización de contrastes sobre el primer coeficiente de correlación canónica permite contrastar la hipótesis de interés de modo simple y directo. ANÁLISIS DE CORRELACIÓN CANÓNICA que podemos imaginar múltiples indicadores de cada una de ellas: la ideología política podría venir descrita para cada individuo por un vector X1 de variables conteniendo valoraciones sobre diferentes cuestiones.1 En R puede realizarse análisis de correlación canónica con comodidad utilizando la función cancor.56 CAPÍTULO 4. Análogamente sucedería con el nivel cultural. COMPLEMENTOS Y COSAS PARA HACER 4. El investigar pares de variables aisladas sería un procedimiento claramente inadecuado.

Introducción. estamos dispuestos a considerar? Los siguientes ejemplos tratan de ilustrar el problema a resolver y motivar la solución que se ofrece en la Sección 5. Porque. es también frecuente que entre las diferentes componentes del vector X exista cierta correlación. distintas de las primitivas. procedente de una distribución cuya matriz de covarianzas es R. En tales casos. Es frecuente el caso en que se tiene un colectivo cada uno de cuyos integrantes puede ser descrito por un vector X. ¿qué significa “sin gran pérdida de información”? Y. de dimensión p. el problema así planteado es demasiado vago para admitir una solución precisa. Imaginemos también 57 . que. Ejemplo 5. 5. Naturalmente. surge de modo natural la pregunta de si no sería más útil tomar un subconjunto de las variables originales —o quizá un número reducido de variables compuestas.1. en el caso más extremo. haría que alguna de las variables Xi fuera combinación lineal exacta de otra u otras. ¿qué nuevas variables. En tales casos.1 Consideremos un colectivo de niños sobre cada uno de los cuales se han medido las siguientes tres variables: Variable X1 X2 X3 Descripción Nota obtenida en Matemáticas Nota obtenida en idiomas Nota obtenida en Ciencias Naturales Podemos ver cada niño como descrito por un vector aleatorio X. transformadas de las originales— que describiera el colectivo sin gran pérdida de información.Capítulo 5 Componentes principales.2.

conocido el valor que toma una podríamos conocer con bastante aproximación el valor que toma la otra.92 0. la nota en Idioma Moderno muestra también correlación con las otras dos.1) El examen de la anterior matriz de correlación sugiere lo siguiente: las notas en Matemáticas (X1 ) y en Ciencias Naturales (X3 ) están estrechamente correlacionadas. Podemos suponer X centrado1 .57 . Obtención de las componentes principales.00 0.2 La Tabla B.68 0.1 en el Apéndice B recoge los records obtenidos por atletas de diferentes nacionalidades en varias especialidades. lo que sugiere que la información que aportan es muy redundante. y otros que muestran bajo nivel también en todas. COMPONENTES PRINCIPALES. quizá. Observemos el razonamiento implícito que hemos efectuado: dos variables (X1 y X3 ) presentan elevada correlación. y de qué manera obtenerlas? La Sección que sigue plantea el problema de modo formal. aunque descrito por tres variables. 5. y ofrece una posible solución al mismo. Si un niño tiene nota alta en Matemáticas. obtenemos el resultado siguiente:  1. 0.68 1. precisa más de una nota? Si éste fuera el caso.00  (5. limitaremos nuestra atención a variables que puedan obtenerse como combinación lineal de las variables originales.57 y 0. sugiere que quizá no son precisas todas las variables para obtener una buena descripción del nivel del atletismo en los diferentes países. En efecto.2. con bastante seguridad podemos decir que su nota en Ciencias Naturales es también alta. Parece que hay países que destacan en todas las especialidades.00 0. ¿cómo decidir cuántas “notas”. bastaría restarle su vector de medias y resolver el problema resultante.92 R = 0. . sin pérdida de generalidad: si X no fuera centrado. Por simplicidad. ¿Podemos asignar una única “nota media” a cada país sin gran pérdida de información respecto a la que aporta la totalidad de las variables? ¿Es. Ejemplo 5. dicha matriz de covarianzas sería normalmente estimada a partir de una muestra de niños).57 1.58 CAPÍTULO 5. cada niño podría sin gran pérdida de información ser descrito por dos: una reflejando su aptitud/interés por las Matemáticas y Ciencias Naturales (quizá la nota media en ambas disciplinas) y otra reflejando su aptitud/interés por el Idioma Moderno. En resumen.68 respectivamente). que. pero mucho mas baja (0. calculada la matriz de correlación entre dichas tres variables (en la práctica. En cambio. El simple examen de los mismos. Si éstas formaban para cada elemento de la muestra el vector X de dimensión 1 Esto simplifica la notación. podríamos decir que.

Podríamos entonces enunciar el problema que nos ocupa así: Encontrar variables. . que sean mutuamente incorreladas. . que si no acotamos el módulo de ai. Puesto que la correlación entre variables implica redundancia en la información que aportan. el problema carece de solución. siempre podríamos incrementar la varianza de Ui multiplicando por una constante mayor que uno el correspondiente vector de coeficientes ai. . . . A continuación. obtendremos primero el vector de coeficientes a1 proporcionando la variable U1 . Teniendo en cuenta esto y usando la técnica 2 Naturalmente. Up tengan varianza lo más grande posible: en efecto. Up como combinaciones lineales de las variables originales en X. volveremos sobre esta cuestión algo más adelante. con máxima varianza. . una variable que tomara valores muy parecidos para todos los elementos de la población (es decir.2) El problema.2. . la varianza de las diferentes variables es función de las unidades de medida. resulta sensato requerir de las nuevas variables U1 . . pues. OBTENCIÓN DE LAS COMPONENTES PRINCIPALES. Up que sean incorreladas. sin embargo. obtendremos a3 proporcionando U3 bajo las restricciones de incorrelación con U1 y U2 .3) Obsérvese que si. consideraremos entonces (no más de p) variables de la forma: U1 = a1 ′ X U2 = a2 ′ X . . teniendo cada Ui varianza máxima entre todas las posibles combinaciones lineales de X incorreladas con U1 . ap que permitan obtener U1 . Up = ap X ′ 59 (5. p. . . que tuviera reducida varianza) sería de escaso valor descriptivo2 . En efecto. Las variables Ui verificando las condiciones anteriores se denominan componentes principales. . . . U1 . Con esta restricción. combinación lineal de las primitivas en X. Por otra parte. tenemos interés en que las nuevas variables U1 . Observemos. E[X] = 0. . como hemos supuesto. . entonces E[U1 ] = E[a1 ′ X] = 2 0 y Var(U1 ) = E[U1 ] = a1 ′ Ra1 . . y así sucesivamente. . Up . . Obtendremos luego a2 proporcionando U2 de varianza máxima bajo la restricción de que U2 sea incorrelada con U1 . . . . . . para i = 1. debemos en primer lugar solucionar el siguiente problema: 2 m´x E[U1 ] a a1 condicionado a a1 ′ a1 = 1 (5. Ui−1 . .5. . . Resolveremos el problema de su obtención secuencialmente. . . que puede ser ||ai||2 = 1. radica en la elección de los vectores de coeficientes a1 . . p. . combinación lineal de X. Debemos por consiguiente establecer una restricción sobre los coeficientes.

11) obtenemos que µ = 0 y por tanto (5.12) lo que de nuevo muestra que a2 es un vector propio de R. (5. y que Var(U2 ) = λ2 . cuyo valor propio asociado es λ. Up se efectúa de manera similar. .9) por a1 ′ y teniendo en cuenta (5. La obtención de a2 es similar. λ2 . . Debemos maximizar ahora Var(U2 ) sujeto a dos restricciones: la de normalización ||a2 ||2 = 1 y la de incorrelación con U1 . habitual para resolver (5.11) a2 Ra1 = 0. Premultiplicando (5.60 CAPÍTULO 5. a a2 (5. COMPONENTES PRINCIPALES. Un razonamiento similar al efectuado en el caso de a1 muestra que a2 es el vector propio asociado al segundo mayor valor propio de de R.8) que tomando derivadas respecto a a2 . el problema a resolver ahora es m´x a2 ′ Ra2 − λ(a2 ′ a2 − 1) − µ(a2 ′ Ra1 ) . el mayor de los valores propios de R. (5. Como estamos buscando la variable U1 de máxima varianza. tenemos que el problema se reduce a: m´x a1 ′ Ra1 − λ[a1 ′ a1 − 1] .5) lo que muestra que a1 es un vector propio de R. λ y µ proporciona: 2Ra2 − 2λa2 − µRa1 = 0 a2 a2 = 1 ′ ′ (5. U2 ) = E a1 ′ Xa2 ′ X = E[a1 ′ XX ′ a2 ] = a1 ′ Ra2 . . y Var(U1 ) = a1 ′ Ra1 = λa1 ′ a1 = λ. La obtención de las restantes variables U3 . (5. Como Cov(U1 . . a a1 (5.9) (5.9) es equivalente a 2Ra2 − 2λa2 = 0.10) (5.6) debemos tomar como a1 el vector propio de R asociado a λ1 .3) mediante multiplicadores de Lagrange.7) (5. . con el resultado de que cada una de ellas es una combinación lineal de variables en X con vector de coeficientes ai que es vector propio de R.4) Derivando respecto a a1 e igualando la derivada a 0 obtenemos 2Ra1 − 2λa1 = 0.

5.3. PROPIEDADES DE LAS COMPONENTES PRINCIPALES.

61

5.3. Propiedades de las componentes principales.
Dado que los vectores de coeficientes ai son vectores propios de R, si defini. . . .a . .a mos A = (a . . . . . . ) y U ′ = (U , U , . . . , U ) tenemos:
1 2 p 1 2 p

U E UU

= A ′X = A RA = Λ

(5.13) (5.14)

siendo Λ una matriz diagonal con los valores propios de R en la diagonal principal. La ecuación (5.14) muestra la incorrelación entre las componentes principales, así como el hecho, ya apuntado, de ser sus respectivas varianzas iguales a los valores propios de R. Como A es ortogonal, pre- y postmultiplicando (5.14) por A y A ′ obtenemos:
p

R = AΛA =
i=1

λi aiai ′

(5.15)

La ecuación (5.15) muestra R como una suma de matrices de rango uno. Observación 5.1 De acuerdo con el teorema de Eckart-Young, la me′ jor aproximación R∗ de rango k de R, en el sentido de minimizar traza((R∗ − R)(R∗ − R) ) k es i=1 λi ai ai ′ . Las ecuaciones (5.14)–(5.15) muestran también que traza(R) = traza(Λ) = λi , dado que:
p

p = traza(R) = traza(AΛA ′ ) = traza(ΛA ′ A) = traza(Λ) =
i=1

λi .

En consecuencia, incluso sin calcular todos los valores propios, puede calcularse con facilidad la fracción que representan sobre el total de traza. Esto es de interés porque algunos de los métodos numéricos para cálculo de valores propios los obtienen por orden de magnitud; se puede entonces detener el proceso de obtención cuando λi representa una fracción “suficiente"sobre el total de la traza. Ejemplo 5.3 La matriz de correlación estimada R de los datos en el Apéndice B, Tabla B.1, es:

m100 m100 m200 m400 m800 m1500 Km 5 Km10 Maratón 1.000 0.922 0.841 0.756 0.700 0.619 0.632 0.519

m200 0.922 1.000 0.850 0.806 0.774 0.695 0.696 0.596

m400 0.841 0.850 1.000 0.870 0.835 0.778 0.787 0.704

m800 0.756 0.806 0.870 1.000 0.918 0.863 0.869 0.806

m1500 0.700 0.774 0.835 0.918 1.000 0.928 0.934 0.865

Km5 0.619 0.695 0.778 0.863 0.928 1.000 0.974 0.932

Km10 0.632 0.696 0.787 0.869 0.934 0.974 1.000 0.943

Maratón 0.519 0.596 0.704 0.806 0.865 0.932 0.943 1.000

62

CAPÍTULO 5. COMPONENTES PRINCIPALES.
Cuadro 5.1: Valores propios de R i (1) 1 2 3 4 5 6 7 8 λi (2) 6.622 0.877 0.159 0.124 0.080 0.068 0.046 0.023 % s/traza (3) 82.77 10.96 1.99 1.55 1.00 0.85 0.58 0.29
i λi (4)

% (4) s/traza (5) 82.77 93.73 95.72 97.27 98.27 99.12 99.70 99.99

6.622 7.499 7.658 7.782 7.862 7.930 7.976 7.999

Puede verse la acusada correlación existente entre casi todas las variables, siendo la más baja 0.519 (entre las marcas de 100 metros y la de Maratón). A la vista de dicha matriz de correlación, cabría imaginar que un número reducido de componentes principales bastaría para describir adecuadamente el colectivo. Al diagonalizar la matriz de correlación se obtienen los valores propios en la Tabla 5.1. La primera componente principal es la combinación lineal de variables originales tipificadas con coeficientes dados por el vector propio   0,317 0,337   0,355   0,368  a1 =  0,373   0,364   0,366 0,342 es decir: U1 = 0,317X1 + 0,337X2 + . . . + 0,342X8 Nótese que si los vectores propios lo son de la matriz de correlación, las variables cuya combinación lineal da las Ui son las de X tipificadas; si los vectores propios lo son de la matriz de covarianzas, las variables a emplear son las originales (centradas, si se quiere que E[Ui ] = 0). Los vectores propios ai de la matriz de covarianzas y la matriz de correlación no están relacionados de ninguna manera obvia. En la Tabla 5.1 puede verse que, salvo los dos primeros, los valores propios son muy reducidos; parece adecuado describir datos como los exhibidos mediante dos componentes principales. La elección del número de componentes principales a emplear es en principio subjetiva; una regla frecuentemente seguida (cuando las variables han sido tipificadas) es tomar tantas componentes principales como valores pro-

5.4. INTERPRETACIÓN GEOMÉTRICA.
Figura 5.1: Ui es proyección de X sobre ai

63

X

a1

U1

pios mayores que la unidad haya, pero esto no es nada absoluto ni que deba realizarse ciegamente.

5.4. Interpretación geométrica.
Si examinamos la ecuación (5.13) podemos interpretar fácilmente los valores que toman las componentes principales U1 , . . . , Up como las coordenadas en un cierto sistema de ejes. De (5.13) se deduce que: Ui = ai ′ X Ui = |ai||X| cos(α) = |X| cos(α), (5.16) (5.17)

en que α es el ángulo formado por el vector X y el vector ai; recuérdese que éste último tiene módulo unitario. En consecuencia, Ui es la coordenada del punto X cuando se representa en un sistema de ejes coordenados en las direcciones (ortogonales) dadas por los vectores a1 , . . . , ap. La Figura 5.1 ilustra esto. En general, tal como sugiere la Observación 5.1, las primeras k componentes principales proporcionan la mejor representación k-dimensional de los datos, en el sentido de: i) Dar cuenta del máximo de traza de la matriz de covarianza (o correlación), y ii) Permitir reconstruir aproximaciones de las variables originales que yacen en un subespacio k-dimensional del original con la matriz de covarianzas (o correlación) que mejor aproxima la original, en el sentido que dicha Observación 5.1 especifica. Por ello, una etapa rutinaria en el análisis de datos multivariantes consiste de ordinario en obtener una representación en pocas dimensiones de los datos. Si con dos o tres componentes principales se obtiene una representación fiel, puede hacerse una gráfica bi- o tridimensional cuya mera observación será instructiva. Cosas como agrupamientos suelen ser fáciles de detectar. A veces, una determinada componente principal puede ser interpretada. En el caso del Ejemplo 5.3, la primera componente principal podría interpretarse como

La segunda componente principal (vertical) separa países con predominio relativo en distancias cortas (que se sitúan hacia la parte superior del gráfico) y con predominio relativo en distancias largas (que se sitúan hacia la parte inferior). La cuestión está sujeta a controversia: véase por ejemplo el criterio contrario de Rencher (1998). 361. La variable U2 tomará valores grandes para aquellos países en que los tiempos en las pruebas de fondo estén por debajo de la media. El método selecciona un subespacio de Rp . El empleo de componentes principales no presupone ningún modelo subyacente. Algunos autores prefieren utilizar como ayuda en la interpretación las correlaciones o covarianzas entre las variables originales y las componentes principales.461   −0.012   a2 =  +0.139   +0. podemos ver que pondera con signo negativo las cuatro primeras variables.312   +0.3. (k < p). separando los diversos países según sus respectivas especializaciones en fondo o velocidad. Los ejes son ortogonales y en . cuyos ejes vienen dados por las direcciones de a1 . p. . Si observamos el segundo vector propio. . un índice de la calidad atlética de los respectivos países.5. El argumento es en tales casos que los coeficientes aij tienen gran varianza.438 5. ak.4 La Figura 5. y los tiempos en las pruebas de velocidad por encima. que obtiene una representación de menor dimensionalidad de un conjunto de puntos en Rp . Puede verse a algunos países muy separados de la principal concentración.   −0.2 muestra un tal mapa. COMPONENTES PRINCIPALES.566 −0. La primera componente principal puede interpretarse como midiendo la “calidad general” atlética de cada país (correspondiendo el lado izquierdo a países “mejores”). referido a los datos presentados en el Ejemplo 5. y con signo positivo las cuatro últimas. como en el caso anterior. a2 . es una variable que complementa la información proporcionada por U1 .306 +0. . fundamentalmente de naturaleza descriptiva. Comentarios adicionales Es importante reparar en los siguientes aspectos: 1. 2. La interpretación de las componentes generales se facilita en ocasiones. . atendiendo a los valores que toman los coeficientes aij . Es sólo una técnica. en la esquina inferior. Ejemplo 5.64 CAPÍTULO 5.248   −0.

2: Records representados en el plano generado por U1 y U2 Rep_Domini • 2 • Bermuda • • Malasia Singapur Tailandia • Samoa • 1 USA • Brazil Grecia • Indonesia • • Francia • • Canada RFA • •Polonia Argentina RDA Korea •• Gbni • • •Australia Luxemburgo • Filipinas • HungriaChile • Checoslova Suecia •• Taiwan • Png • • Birmania • Belgica •Suiza • Dinamarca China Finlandia • •Japon •• • Austria • KenyaRumania • • EspanaColombia Mauricio • • Israel Holanda India • • Mexico • Nueva_Zelan • Irlanda • Noruega • Guatemala • Portugal Turquia • • RD_Korea • Costa • -4 -2 0 2 u1 4 6 8 Italia • USSR • u2 -1 0 Cook_Islas • 10 . COMENTARIOS ADICIONALES 65 Figura 5.5.5.

Por una parte. En efecto. 4. y que ello permite mejorar la interpretabilidad del análisis. −ai también lo es. En el Capítulo que sigue se introduce el modelo factorial. La base que tomemos del mismo puede escogerse con cualquier criterio conveniente — no tiene por qué estar formada por a1 . El método se puede emplear tanto con las variables en las escalas originales como con variables tipificadas. . 3. las direcciones de mayor dispersión de los datos. . en general. se hace uso de un modelo explícito. Los resultados. ak—. . a2 . son completamente diferentes. veremos que existen modos alternativos de escoger la base del subespacio de interés.66 CAPÍTULO 5. . . lo realmente relevante es la reducción de la dimensionalidad y la fijación de un subespacio adecuado. que realiza supuestos acerca del modo de generación de las observaciones. Los signos de los ai son irrelevantes. Por otro. en relación a la segunda cuestión mencionada en el apartado anterior. Pero no hay nada que nos fuerce a considerar dichos ejes. si ai es vector propio. COMPONENTES PRINCIPALES.

y A es una matríz de constantes. Suponemos que una cierta variable aleatoria multivariante de la que poseemos una muestra se genera así: X = AF + L + m (6. Supondremos en lo que sigue que X ha sido centrado. 6. Los respectivos vectores y matrices verifican: X = vector p × 1 F A = matriz p × k = vector k × 1 67 L = vector p × 1 .1). Introducción. El Análisis Factorial es un conjunto de técnicas que persiguen identificar factores ocultos. con lo que prescindiremos del vector de medias m.1) En (6.1. F (vector de factores comunes) y L (vector de factores específicos) son vectores aleatorios.Capítulo 6 Análisis Factorial.

1) con un número reducido de facetas (inobservables) que supuestamente describen la personalidad.11) .4) (6.68 CAPÍTULO 6. Un modelo como (6. .6) . . . cada uno de los factores específicos en L sólo influye en la variable homóloga. El problema del Análisis Factorial consiste en estimar A y D. como veremos. . dp En (6.  = 0(k×p) = I(k×k)  d1 0 . 0 0 D = E LL ′ (6. un vector de items procedente de un test sicológico se intentaba poner en correspondencia mediante (6. . los factores comunes F influyen en X a traves de los coeficientes en la matriz A. Observación 6.10) (6. . .2. las restricciones permiten en general obtener una solución —si bien. . 6. Σ = E[(X − m)(X − m) ′ ] ′ ′ ′ ′ (6.  = .2) (6.  0 d2 .1 Históricamente. Teorema 6.3) (6. .1) parece indicado cuando se investigan fenómenos en que un número grande de variables son concebiblemente causadas por unos pocos factores comunes. no única—. pero con la salvedad de que la variable respuesta es multivariante (cada observación es un X). ANÁLISIS FACTORIAL.5) 0 0  .8) (6.1). la investigación psicométrica proporcionó la motivación inicial para el desarrollo de este tipo de modelos.9) ′ ′ ′ = E(AF + L)(AF + L) ] = AA + D ′ = E[AF F A + AF L + LF A + LL ] (6.7) (6. . los “regresores” F son inobservables. Pese a todo ello. . .1 Σ = E[(X − m)(X − m) ′ ] = AA ′ + D D EMOSTRACION : En efecto. Obsérvese cierta semejanza con el modelo de regresión lineal. . Se realizan además los siguientes supuestos: E [F ] = 0(k×1) E [L] = 0(p×1) E FL E FF ′ ′ (6. La igualdad fundamental De las definiciones se deduce inmediatamente. e incluso su número nos es desconocido.

) Si k puede hacerse considerablemente menor que p (es decir. 114. en particular. y la correspondiente ganancia en parsimonía medida en número de parámetros. véase Cuadras (1981). es decir. Por lo demás. p) Se llama comunalidad y se denota por h2 a aquélla parte de la varianza de la i variable Xi de que dan cuenta los factores comunes. Llamamos parsimo1 nia a esta simplicidad. . h2 = k a2 . y en este sentido nuestro modelo será más “simple”. admitiendo una realidad. i j=1 ij 6. . Análisis Factorial y el objetivo de la parsimonia Un modelo es una representación estilizada de la realidad. tomaremos “más simple” por sinónimo de “con el mínimo número de parámetros”. que pretende captar sus rasgos de la manera más simple posible. habremos logrado una reducción considerable en el número de parámetros necesarios. si selec2 cionamos k como número de factores. . Los valores de p y k no son inusuales en problemas como los que se presentan en la práctica. ¿por qué habría de ser simple y no complicada? En el contexto en que nos movemos. .3.6. y la Observación 6. ANÁLISIS FACTORIAL Y PARSIMONIA La igualdad (6. p. . el lado derecho requiere pk + p − 1 k(k − 1 2 parámetros (pk en la matriz A y otros p adicionales en la diagonal de D. Es de temer que no sabemos demasiado bien qué es ninguna de estas cosas. . j = 1. A título ilustrativo. se recogen los valores de 2 p(p + 1) 1 y pk + p − 2 k(k − 1 para diferentes p y k. . si podemos especificar nuestro modelo con muchos menos factores comunes que variables). como veremos. 72. Observación 6.7) incluye 1 p(p + 1) parámetros diferentes. . pág.2. y probablemente no tenga más defensa que la constatación de su enorme eficacia. El buscar modelos simples es una regla de economía intelectual.7).2 Esto sería una definición si supiéramos qué es la “realidad”. acreditada desde Guillermo de Ockham hacia acá. deducien1 do 2 k(k − 1) porque. i. p) σij = (i = j. la solución factorial que obtengamos deja A indeterminada en ese número de parámetros.3. mientras que. Observemos entonces que Σ en el lado izquierdo de (6. . implica que k 69 σii = j=1 k a2 + di ij ail ajl l=1 (i = 1. qué significa “captar sus rasgos” y qué significa “de la manera más simple posible”. y por tanto la frase anterior sea una tautología o una idiotez.

la igualdad (6. estimadas en una muestra de niños. (1979). Es un caso sumamente simple.1 Este ejemplo procede de Mardia et al.” Evidentemente. Ejemplo 6. en la práctica no conocemos Σ y habremos de trabajar con una estimación de la misma.1)). de acuerdo con el teorema de Thurstone. La matriz resulta ser. Parámetros AA ′ + D 37 59 94 104 Ganancia en parsimonia 18 151 116 349 p 10 20 20 30 k 3 2 4 3 A la luz de todo lo anterior.13) que implica: Σ = a21 a31 1 Sobre el uso de la matriz de covarianzas o correlaciones como punto de partida. pero que ilustra los conceptos anteriores. conteniendo las correlaciones entre calificaciones de tres asignaturas (Lenguas Clásicas. los datos se generasen realmente tal como especifica (6. con A teniendo el mínimo número de columnas.67 = a21  a11 a21 a31 +  0 d2 0  ˆ ˆ ˆ ˆ ˆ 1. Se parte de una matriz de correlación1.12) 1. Además.78 1.   1.00 0.00 0. Sustituyendo Σ en (6.00 a31 ˆ 0 0 d3  0 0 d3 (6.83 0.7).67 S =  (6. ANÁLISIS FACTORIAL. valen las observaciones hechas para componentes principales en el Capítulo 5.7) para una matriz Σ dada.14) .14) por su estimación S tenemos la igualdad matricial     ˆ  d1 0 0 1. podríamos formular el problema a resolver en análisis factorial así: “Encontrar matrices A y D verificando (6.00 0. es decir.70 Parámetros Σ 55 210 210 465 CAPÍTULO 6.83 0.78 a11 ˆ  ˆ 1.00 0.7) se verificará a lo sumo de modo aproximado. aún cuando el modelo fuera “correcto” (es decir.       L1 a11 X1 X2  = a21  F1 + L2  L3 a31 X3   a11 a21  a11 a31 d1 +0 0  0 d2 0 (6.00 Spearman ajustó un modelo con un sólo factor. Francés e Inglés). Nuestro objetivo en la práctica será pues obtener una buena reconstrucción de una matriz de covarianzas estimada a partir del producto AA ′ más una matriz diagonal D. (6. quienes a su vez lo toman de un trabajo de Spearman de 1904.

17) (6. 6. .21) X3 0. B será una solución tan válida como A.966 0. el modelo estimado es       X1 0.20) 71 ˆ + d3 a11 a21 ˆ ˆ a11 a31 ˆ ˆ a21 a31 . es ahora evidente que la solución no es única.19) (6.6.78 = 0. Tras resolver.7). y G es una matriz ortogonal (k × k).1) se deduce X = AGG ′ F + L + m = BFG + L + m (6.4.983 L1 X2  = 0.67 = a2 + d1 ˆ11 ˆ ˆ a2 + d2 ˆ (6.15) (6.6).793 L3 h2 1 h2 2 h2 3 = = = 0. Rotaciones Con el problema planteado como en la Sección anterior.83 = 0.3. INDETERMINACIÓN Y ROTACIONES de la que obtenemos las ecuaciones: 1 = 1 = 1 = 0.16) (6.22) Por tanto.23) (6. Por tanto. también será cierto que Σ = E[(X − m)(X − m) ′ ] = AGG ′ A ′ + D = BB ′ + D. ˆ ˆ 21 a2 ˆ31 y las comunalidades son Tenemos pues seis ecuaciones con seis incógnitas que permiten encontrar una solución “exacta” a partir de la igualdad fundamental (6.712 0. como es fácil comprobar.2)–(6. (6.629.24) con FG = G ′ F que continúa verificando todas las condiciones impuestas a los factores comunes (6. Indeterminación de las soluciones factoriales.844 F1 + L2  . (6. En efecto. Obsérvese además de (6.18) (6. si Σ = E[(X − m)(X − m) ′ ] = AA ′ + D. y algo peor de las dos restantes. el modelo con un único factor da cuenta muy bien de la primera calificación (Lenguas Clásicas).

.   . ap−1. . 2 Alternativamente. El número total de elementos libres es por tanto (k − 1) + (k − 2) + . . . una rotación.. Por ejemplo. es claro que no hemos consumido de modo efectivo pk grados de libertad. está además constreñida a ser ortogonal a la primera (k−2 elementos libres por tanto). si A está indeterminada hasta el producto por una matriz ortogonal. si tuviéramos una matriz A como. + 1 = 1 k(k − 1). 0  a21 a22 0 . la tercera y sucesivas tienen cada una una restricción adicional. .   . Idealmente. formada por las columnas de una matriz como   a11 0 0 . En efecto.3 .26)   0 0 1 0   0 0 1 0   0 0 0 1 0 0 0 1 . La primera columna sólo está constreñida a tener módulo unitario (k − 1 elementos son por tanto libres). . conservará tantos grados de libertad como existan para fijar una 1 matriz ortogonal k × k. Esto tiene enorme trascendencia. 0    (6.. apk y especificar tal matriz requiere precisamente pk − 1 k(k − 1) parámetros. y al resto en absoluto. Observación 6. somos libres de tomar la solución que más nos convenga.   1 0 0 0 1 0 0 0   1 0 0 0   0 1 0 0   0 1 0 0 (6. .1 ap−1. ANÁLISIS FACTORIAL. . Hay 2 k(k − 1) elementos libres en una tal matriz.. cualquier subespacio de dimensión k de Rp puede generarse mediante una base “escalonada”. . .72 CAPÍTULO 6. Si A cuenta con pk parámetros pero está indeterminada. . De ordinario. desearemos hacerlo de modo que la interpretación resulte favorecida. 2 Si tenemos cierta margen de maniobra al escoger una solución factorial. . la segunda. para poder rotular un factor desearíamos que su influencia alcanzara a algunas de las variables de modo notable. . ..3 Podemos ahora volver al asunto brevemente tocado en la Sección 6. esto permite escoger soluciones con la estructura de A que nos parece más interpretable. 0  ap1 ap2 ap3 .3. 0     a31 a32 a33 ..2 ap−1. .25)  . reflexión. o combinación de ambas). tendremos un modo fácil de persuadirnos de que 1 una solución factorial supone estimar pk − 2 k(k − 1) parámetros. Estando las soluciones factoriales indeterminadas hasta el producto por una matriz ortogonal (geométricamente. acerca del número de grados de libertad consumidos (o parámetros estimados) al encontrar una solución factorial. sino menos.. . Si reparamos en que las columnas de A deben generar un cierto subespacio de dimensión k.

29) ij ij 2 p j=1 i=1 i=1 es decir. no será muchas veces factible: pero. la “varianza” de los a2 por columnas. p a2 (a2 )2 − (6. La toma del cuadrado obedece a que estamos interesados en lograr términos “grandes” y “pequeños”: no nos importa el signo. Una forma de lograrlo es determinar G de manera que AG = AG tenga mucho “contraste”. podríamos imaginarlo como lo que quiera que las variables X1 a X3 tuvieran en común. INDETERMINACIÓN Y ROTACIONES recordando que X = AF + L 73 (6. en lugar de maximizar las expresiones (6.4. Cuadras (1981). que ilustran bien el modo de abordar el problema. Ello forzará a que en cada columna ij haya elementos muy grandes y muy pequeños. respectivamente”. desearíamos tender a ella. Más detalles pueden encontrarse en Harman (1960). El conocimiento de las variables ayudaría así a dotar de interpretación a los factores F1 a F4 : F1 . Si es el caso. en la medida de lo posible. F3 y F4 influyen cada uno en las variables X4 y X5 . que parece influir en todas las variables: puede o no ser deseable o fácil de interpretar. Y similarmente con los otros. la rotación varimax puede ser más atractiva. por ejemplo. X6 y X7 y en X8 y X9 . Buscamos en ella maximizar   2 p p k 1 .28) o (6. Los factores F2 . Basilevsky (1992). Maximizamos por ello 2    p k k 1 k a2   . En lo que sigue. Naturalmente. . por ejemplo. una estructura de ceros y unos. Carroll (1953) y Kaiser (1958) son dos de las referencias pioneras.28) (a2 )2 −  ij ij k2 i=1 j=1 j=1 Esta propuesta logra contraste entre unos términos y otros: pero nada en la forma de la expresion a maximizar impide que los aij “grandes” se agrupen en la primera columna de la matriz AG . con las que poder relacionarle. Habitualmente preferimos que cada factor de cuenta del comportamiento de un grupo de variables originales. mencionaremos dos de las propuestas más utilizadas.27) razonaríamos así: “El factor F1 es algo que está relacionado con las variables X1 . Ello da lugar a una solución con un factor “general”. frecuentemente se normalizan los elementos de cada fila dividiendo entre la comunalidad: se intenta con ello evitar que las filas de A con elevada comunalidad dominen las expresiones citadas. o cualquier texto sobre análisis factorial o multivariante. Hay varias formas de formalizar esta idea intuitiva hasta convertirla en un problema con solución matemática. (6.6. como la del ejemplo anterior. La idea de la rotación quartimax es escoger la matriz AG = AG para la que es máxima la “varianza” por filas de los cuadrados de los elementos aij . X2 y X3 . Hay algunos detalles adicionales que pueden consultarse en Kaiser (1958).29) tal cual.

podemos factorizar esta S ∗ como producto de dos matrices de rango k. las especificidades y comunalidades quedan también estimadas.1) por máxima verosimilitud. 6. A continuación. ∗ y consiguientemente una nueva estimación de A por factorización de S(2) : ∗ ˆ ˆ S(2) ≈ A(2) A(2) .5.74 CAPÍTULO 6. ˆ No es preciso que nos detengamos en la estimación de A recién obtenida. siendo los λi y vi los valores y vectores propios de S . y obtener una estimación (inicial. si conocemos la distribución de X (en la práctica. (6. aunque habitualmente se obtiene convergencia cuando k es suficientemente grande). 6. (6.32) ∗ S(2) = (S − D(2) ). Estimación del modelo Hemos de hacer frente a dos problemas: determinar el número de factores deseado. indeterminada) de A. quizá. (6.5.1. si se produce (nada garantiza que se produzca. √ ∗ ˆ en que A = k i=1 λi vi .5. sino que podríamos ahora emplearla para obtener una estimación mejor.7) se deduciría que la matriz de covarianzas (o correlación) muestral ha de verificar aproximadamente ˆˆ S − D ≈ AA ′ . si conociéramos las comunalidades (o.31) una estimación actualizada de S ∗ . . Estimada A.34) ˆ Con la nueva estimación A(2) de A podríamos reiniciar el proceso e iterar hasta convergencia.33) (6. 6.30) ˆ ello sugiere emplear alguna estimación de D para computar S ∗ = S − D. ello no ofrecerá problema: podemos emplear la aproximación ˆ ˆ′ S ∗ ≈ AA . equivalentemente.2. ello equivale a suponer normalidad multivariante). de las comunalidades. ANÁLISIS FACTORIAL. ˆ ˆ′ D(2) = diag(S − AA ). Describiremos sólamente dos de los métodos más utilizados. D). de la igualdad fundamental (6. ′ (6. Método de máxima verosimilitud Podemos también estimar los parámetros del modelo (6. la matriz de especificidades. Si S ∗ tiene sus k mayores valores propios positivos. Método del factor principal Obsérvese que.

1.2) .1) (7. . Descomposición en valores singulares. A ambas técnicas subyace la descomposición en valores singulares de una matriz rectangular. Mostraremos que puede siempre escribirse como producto de una matriz de columnas ortogonales N × p. Tanto X ′ X como X X ′ son matrices cuadradas simétricas. Sea X una matriz N ×p cualquiera. La exposición sigue a Lebart (1997). La primera —el biplot— es un gráfico en el que se representan las observaciones en posiciones dadas por sus dos primeras componentes principales. . y es de aplicación a tablas de contingencia. La segunda técnica —el análisis de correspondencias— produce de modo similar una representación simultánea de observaciones y variables. X ′ Xaj X X bj ′ = λj a j = νj bj . una matriz diagonal p × p con elementos no negativos en la diagonal principal y una matriz ortogonal p × p. que se presenta a continuación. . p hay vectores propios ai de X ′ X (y bj de X X ′ ) asociados a valores propios en general no nulos λi (para los ai ) y νj (para los bj ). 7.Capítulo 7 Biplots Estudiaremos en lo que sigue dos técnicas para la representación simultánea de observaciones y variables. y por tanto diagonalizables. Para j = 1. Sobre el mismo plano se superponen p puntos representando las variables —las columnas de la matriz de datos X en posiciones que hacen interpretables las relaciones entre ellas y las observaciones. . 75 (7.

11) (7. las relaciones de proporcionalidad anteriores pueden convertirse en igualdades si tenemos en cuenta que X ′ bj Xaj 2 2 = bj ′ X X ′ bj = νj = aj X Xaj = λj .4) = νj X bj . Como Xa1 es vector propio de X X ′ con valor propio asociado λ1 . se sigue que ν1 = m´xj νj ≥ λ1 . tenemos: uj 2 = Xaj = λj 2 X X ′ bj = λj bj 1 −2 1 2 −1 1 (7.12) .3) (7. . Es además fácil ver que los valores propios no nulos son idénticos. .9) (7. . En definitiva. p. BIPLOTS La matriz X X ′ posee además N − p valores propios nulos y correspondientes vectores propios asociados. obtenemos: X X ′ (Xaj ) = λj (Xaj ) X X X bj ′ ′ (7.13) (7. . . si b1 es el vector propio de X X ′ asociado al a mayor valor propio ν1 . entonces X ′ b1 es vector propio de X ′ X con valor propio asociado ν1 .5) (7. . Análogamente.14) vj = X ′ bj = λj X ′ Xaj = λj aj . .6) ∝ Xaj . y por tanto ν1 ≤ λ1 . p se resumen en las igualdades matriciales A = X ′ BΛ− 2 B = XAΛ −1 2 1 (7. aj ∝ X ′ bj bj (7. . par j = 1.5)–(7. De ambas desigualdades se deduce ν1 = λ1 . . y el argumento puede reiterarse para los valores propios sucesivos. Los vectores propios aj y bj están relacionados.8) lo que permite normalizar los lados derechos de las expresiones (7.10) Estas expresiones para j = 1.76 CAPÍTULO 7. ′ Ello muestra que Xaj es vector propio de X X ′ y X ′ bj es vector propio de X ′ X. Además. −1 2 −1 (7. Supongamos que λ1 es el mayor valor propio de X ′ X y ν1 el mayor valor propio de X X ′ .6) y convertirlas en igualdades: aj = λj 2 X ′ bj bj = λj Xaj . Si proyectamos las filas y columnas de X sobre los subespacios engendrados por el vector propio aj y bj respectivamente. En efecto multiplicando las igualdades anteriores por X y X ′ respectivamente. ′ ′ (7.7) (7.

postmultiplicamos por aj ′ y sumamos respecto j. Para cada valor 0 ≤ c ≤ 1 que escojamos tenemos X = Gq Hq ′ = Bq S 1−c S c Aq ′ (7.7. notemos que si (7.2.15) j=1 X= j=1 λj bj aj ′ = BΛ 2 A ′ . si la variable j tiene gran influencia en la observación i. BIPLOTS 77 Si tomamos la igualdad (7. 7. dependiendo del valor seleccionado para c en (7. la igualdad anterior se reduce a: p ′ = 2 λj bj aj ′ = BΛ 2 A ′ . entonces Xij ≈ gi ′ hj = ||gi ||||hj || cos(αij ) (7. premultiplicamos por X.16) llamada descomposición en valores singulares de la matriz X. Adicionalmente.16) obtenemos: q X≈ λj bj aj ′ = Bq Sq Aq ′ .18) podemos interpretar las distancias euclídeas entre las representaciones de los puntos fila. .1. podemos definir Gq = Bq S 1−c y Hq ′ = S c Aq ′ .2. Los puntos gi representan observaciones. los N + p vectores gi y hj pueden representarse en el plano dando lugar a la representación conocida como biplot.2. los vectores representando a ambas tenderán a formar un ángulo pequeño. j=1 (7. en tanto los puntos hj representan variables.19) siendo αij el ángulo que forman gi y hj . a la matriz B o a ambas a la vez. ′ la i-ésima fila de G y h ′ la j-ésima fila de H (por tanto. c = 2 y c = 1. Biplots En el supuesto de que X sea aproximadamente igual a los q < p primeros sumandos (7. j-ésima Sea gi j columna de H ′ ). de los puntos columna. 1 1 (7. Por ejemplo.17) Podemos asociar S a la matriz A. 7. Por consiguiente.18) El exponente c se puede escoger de diferentes maneras: elecciones habituales son 1 c = 0. Interpretación Para interpretar un biplot.9). obtenemos:   p p Como p ′ j=1 aj aj X aj aj j=1 = AA ′ = I. Si q = 2. etc. 1 (7.17) se verifica de modo aproximado.

en la medida en que la matriz original X no sea de rango igual o inferior a 2). evitando así que una dimensión de la representación gráfica sea ocupada por el efecto tamaño.2. Supongamos X = GH ′ exactamente (omitimos el subíndice q por simplicidad notacional). lo que hace los datos muy “uno-dimensionales”: las Comunidades más pobladas. X ≈ GH ′ y lo anterior sólo tendrá validez como aproximación. y el resto de Comunidades ordenadas en el eje de abscisas aproximadamente por su tamaño.20) (7.24) al ser G = B una matriz ortogonal. dado que con c = 1 X ′ X = HG ′ GH ′ = HH ′ (7. Obviamente. Por consiguiente. todas las columnas son aproximadamente proporcionales. es decir. las distancias y ángulos entre los vectores gi reproducen los existentes entre los vectores xi. Entonces.21) (7. Caso c = 1. BIPLOTS Caso c = 0.1. Un análisis de los datos brutos daría lugar a un biplot como el recogido en la Figura 7. . (De nuevo la igualdad anterior es sólo aproximada.22) (7. xj ) = cos(g i.2. Es aparente un “efecto tamaño” muy pronunciado: al estar los datos en valores absolutos. simplemente por efecto de su tamaño. 7. Caso c = 1 . Razonando de forma exactamente análoga. Esta elección de c supone un compromiso entre las dos anteriores. que carece de interés. de otro modo. si tomamos c = 0. 2 tendente a preservar en alguna medida las distancias tanto entre puntos fila como entre puntos columna. con lo que XX ′ = GH ′ HG ′ = GG ′ . esto sólo es posible si la configuración original de puntos fila de X era bidimensional.78 CAPÍTULO 7. Puede verse en la figura indicada como “España” aparece en el margen derecho. gj ).23) cos(xi. para cualquier fila xi de X se tiene xi ′ xi = g i ′ g i ||xi − xj || = ||gi − gj || ||xi|| = ||gi || (7. llegamos a la conclusión de que en este caso las distancias y ángulos entre los vectores fila de H ′ reproducen los existentes entre los vectores columna de X. cuya casilla ij-ésima recoge el total de hogares de la Comunidad Autónoma i-ésima disponiendo del equipamiento a que se refiere la columna j-ésima. H = A y es por tanto ortogonal. Ejemplo Consideremos la Tabla 7. Podemos convertir los datos a porcentajes. tienen más hogares en posesión de cada uno de los bienes considerados.1.

70 16 49.40 5.40 576.20 65.30 362.80 403.50 247.90 16.70 1. 2002.50 31. BIPLOTS Cuadro 7.30 2.60 326.60 1347.20 0.00 0.80 486.00 423.10 12.40 Cadena Música 7451.50 1321.30 363.50 2.20 72.00 ESPAÑA ANDALUCÍA ARAGÓN ASTURIAS BALEARES CANARIAS CANTABRIA CASTILLA-LEÓN LA MANCHA CATALUÑA VALENCIA EXTREMADURA GALICIA MADRID MURCIA NAVARRA PAÍS VASCO RIOJA CEUTA MELILLA 79 .20 511.20 713.70 94.70 158.00 17.60 254.20 359.50 1802.00 24.20 0. 50 2.50 18.80 295.00 0.90 14.30 204.00 0.10 72.50 Televisión 13650.70 200.90 87.60 7.90 170.10 46.00 0.70 290.70 15.80 123.00 194.10 277.90 346.40 Radio.70 243.40 962.00 3.60 0.9 0 14 .30 115.30 18.00 0.30 410.90 11.40 5.50 485.60 1151.00 878.50 570.80 51.00 436.30 8.30 364.40 188.10 17.80 2.30 124.90 536.90 11.60 62.70 149.40 712.50 207.00 0.70 18.00 0.80 265.60 2301. Número Hogares 13712.40 3.10 1809.10 6.00 183.90 871.80 391.50 Ordenador 4944.50 0. 20 0.20 0.60 51.80 569.10 2217.80 131.30 241.90 440.50 428.60 Fax 371.00 0.30 246.30 17.70 84.60 15.50 3.90 426.50 473.7.90 42.00 15.50 2208.80 166.80 Video 9207.90 35.30 8.50 887.40 355.00 0.90 413.10 1561.10 Busca personas 75.20 24.50 358.10 580.40 1461.20 530. cassete 10570.60 2.00 0.80 212.90 1.00 0.90 2 .50 82.60 1235.00 185.70 249.70 43.60 20.90 15.00 2.00 0.90 902. 40 1.80 20.70 51.90 293.40 Teléfono móvil 8917.00 0.30 1442.2.30 1190.90 252.40 108. 20 272.40 7.30 148.40 0.60 1095 .30 31.10 217.30 173.10 717.60 45.10 169.90 110.60 285.50 1021.60 1457.70 933.00 0.90 2306. 70 14.70 1482.00 1.60 670.70 1452.30 10. Encuesta de Tecnologías de la información en los hogares.40 174 0.70 9.60 213.60 311.80 7.90 75.00 0.60 708 .10 354.10 13.00 361.80 485.40 0.70 DVD 1562.10 82.60 155.90 615.90 782.20 NSNC NSNC 5.50 865.00 1.80 1553.80 105.20 50.50 8.60 263.30 100. Fuente: INE.70 221.70 0.60 268.50 85.40 94.10 12.60 76.1: Dotación de los hogares por Comunidades Autónomas (miles de hogares que poseen cada uno de los equipamientos indicados).10 108.60 170.

0 −10000 −5000 CATALUÑA 0 5000 10000 .0 −5000 0 5000 10000 0.5 ANDALUCÍA LA GALICIA MANCHA CASTILLA−LEÓN EXTREMADURA VALENCIA ASTURIAS MURCIA CANTABRIA RIOJA BuscaPer NSNC CEUTA ARAGÓN MELILLA Fax NAVARRA DVD BALEARES CANARIAS PAÍS VASCO Comp.80 CAPÍTULO 7.1: Biplot de número de hogares (en valor absoluto) en cada Comunidad Autónoma que poseen diferentes tipos de equipamiento relacionado con la sociedad de la información.1 0. Se aprecia el fuerte efecto “tamaño” que oblitera cualquier otro.2 ESPAÑA NumHogares Television Video TelMovil OrdenadorCadMus RadioCas 0.0 −0.5 0. BIPLOTS Figura 7.0 Comp. −10000 1.5 1.5 MADRID −0.

LECTURA RECOMENDADA 81 Así se ha hecho para producir la Figura 7.7. 4.2. Aragón y Asturias. Galicia. Andalucía.2.3. .3. Casi superpuesta al punto que representa “Ordenadores” está la Comunidad de Madrid. En el lado derecho del biplot aparecen aquellas comunidades en que dicha penetración es. en que los equipamientos considerados han alcanzado una penetración relativamente elevada en los hogares. como puede corroborarse observando la tabla. y bastante a la izquierda también Comunidades como País Vasco y Cataluña. Cap. que se corresponde con una tenencia también relativamente elevada de radiocassettes. como corresponde dada su apreciable correlación. 7. en términos relativos. menor: Extremadura. la ordenada relativamente alta de País Vasco. Castilla-La Mancha. por ejemplo. mucho más ilustrativa que la primera. Se aprecia ahora como los puntos que representan variables están todos orientados de manera similar. Lectura recomendada El biplot e instrumentos de visualización relacionados se describen en Krzanowski (1988). Algunos otros detalles saltan a la vista en la Figura 7.

1 0.2 −0.2: Biplot del porcentaje de hogares en cada Comunidad Autónoma que poseen diferentes tipos de equipamiento relacionado con la sociedad de la información.2 0.1 0.0 0.1 0.2 0.2 0.0 0.2 0.82 CAPÍTULO 7.2 PAÍS VASCO ARAGÓN ASTURIAS .1 0. Al desaparecer el efecto tamaño por ser todas las magnitudes relativas.4 −0.0 −0.1 0.2 RadioCas 0.4 −0.0 Comp.4 −0. se aprecian las diferencias entre comunidades en la dotación relativa.2 RIOJA CASTILLA−LEÓN Ordenador MADRID NAVARRA CATALUÑA CadMus MELILLA DVD TelMovil Video Television BuscaPer ESPAÑA Fax CANTABRIA EXTREMADURA GALICIA Comp. −0. BIPLOTS Figura 7.4 −0.2 VALENCIA BALEARES MURCIA CANARIAS ANDALUCÍA LA MANCHA CEUTA −0.

.1. k. cada uno de los cuales con di niveles i = 1.2.1: Color de pelo y ojos medidos para cinco sujetos Sujeto 1 2 3 4 5 Color pelo Negro Rubio Negro Negro Negro Color ojos Castaño Azul Azul Castaño Castaño Una forma alternativa de recoger la misma información es efectuando una tabulación cruzada de los dos caracteres (color de pelo y color de ojos) para producir una tabla de contingenciacomo la recogida en el Cuadro 8. 83 . . hemos considerado como punto de partida una matriz de datos X de dimensiones N × p cada una de cuyas filas xi ′ era un vector aleatorio en Rp . . Por ejemplo. Introducción En lo que precede. . para cada sujeto de la muestra examinamos k atributos cualitativos o caracteres. si registráramos el color de pelo y ojos de un colectivo de N = 5 sujetos. podríamos presentar la información resultante en una tabla como: Cuadro 8. De tener una tabla de datos N × p listando los respectivos niveles de los caracteres para cada uno de los N sujetos. pasamos a tener una tabla de k dimensiones y k di celdas i=1 relacionando los caracteres entre sí. sin embargo. En ocasiones.Capítulo 8 Datos categóricos multivariantes 8.

Podríamos muestrear durante un periodo de tiempo y clasificar a los sujetos de acuerdo a. j y k de los tres caracteres considerados y N = i. por ejemplo. Consideremos.2: Tabla de contingencia relacionando color de pelo y ojos para cinco sujetos Color de pelo Negro Rubio 1 1 3 0 Ojos azules Ojos castaños Es fácil ver que la tabla de datos original en el Cuadro 8. DATOS CATEGÓRICOS MULTIVARIANTES Cuadro 8. Denotaremos por A. El número total de sujetos tabulados. De la segunda podemos reconstruir la primera (excepto por el orden. Si hacemos esto.1 y la tabla de contingencia en el Cuadro 8. o la homogeneidad de subpoblaciones descritas por las filas o columnas. por concreción. Diremos que la tabla se ha generado mediante muestreo de Poisson . habitualmente mediante el contraste χ2 de Pearson (véase por ej.2 proporcionan exactamente la misma información. No estamos limitados a considerar tablas de doble entrada.k xijk el total de sujetos en todas las celdas de la tabla. xijk sujetos poseen los niveles i. y es importante saber cuál ha sido el empleado en cada caso. normalmente irrelevante). p. Cuando lo hagamos. será inmediato). será en general inconveniente examinar los caracteres por parejas: si lo hiciéramos. Tipos de muestreo Una misma tabla de contingencia puede generarse de diferentes modos.84 CAPÍTULO 8. y xijk el contenido de su celda ijk.2. será a su vez una variable aleatoria con distribución de Poisson. 244–249). una tabla de contingencia con k = 3 dimensiones (generalizar a cualquier k. Notación. sino que en general trabajaremos con tablas de contingencia con k > 2 dimensiones. Es decir. Sea X la tabla de contingencia. N . B y C respectivamente a los tres caracteres. 8. El análisis de tablas de doble entrada es objeto común de los cursos introductorios de Estadística.j. podemos modelizar xijk como una variable con distribución de Poisson de parámetro λijk . Problemas habituales que se resuelven son los de contrastar la independencia de los caracteres. Trocóniz (1987b). con dA . tres caracteres. podriamos tropezar con la paradoja de Simpson que ilustramos a continuación. no obstante. dB y dC niveles respectivamente. de modo que cada uno fuera contado en una celda xijk de una tabla tridimensional.

En cursivas.3. no sólo hemos fijado N . relacionando recepción de un tratamiento o un placebo con el hecho de contraer o no una cierta enfermedad. cuotas por sexo y grupo de edad. 8. xIJK ! (8. una muestra aleatoria simple proporcionaría muy pocos sujetos tratados: acaso ninguno. fijando cuotas para diferentes estratos de la población analizada. se muestrea así por separado: la muestra obtenida puede verse como la unión de dos muestras para dos subpoblaciones.178) Total 14955 Placebo 6145 . Entonces. podríamos fijar el tamaño muestral N deseado y tabular dichos N sujetos. pxIJ K 111 IJK xiii ! . .3. Nt /N no estimaría la proporción de sujetos tratados en la población. . bajo los valores absolutos. porque tanto numerador como denominador han sido arbitrariamente fijados. K designan el número de niveles de (respectivamente) los caracteres A. .822) No enferman 9005 (0. Decimos entonces hallarnos ante muestreo producto-multinomial Es importante darse cuenta de que en tales casos las proporciones marginales de la tabla no estiman proporciones en la población: son un mero resultado del diseño muestral. Enferman Tratamiento 5950 (0. podríamos tener. .8. Cada uno de los segmentos de la población. y en consecuencia estaríamos fijando el número Nij de sujetos muestreados para cada combinación de sexo y edad. por ejemplo. si examináramos la respuesta a un tratamiento que sólo raramente se administra. el de los tratados y no tratados. porque se emplea para enfermedades infrecuentes. . sino también el desglose N = Nt + Nc entre tratados y no tratados o controles. podríamos ver el vector xijk como variable aleatoria con distribución multinomial. Por ejemplo. El modo habitual de operar en este caso es tomar una muestra de sujetos tratados y otra de no tratados o controles. LA PARADOJA DE SIMPSON 85 Alternativamente. pijk . xijk ! . Por ejemplo. . B y C. En este caso. . J. Decimos en este caso hallarnos ante muestreo multinomial Frecuentemente se toman muestras estratificadas. En situaciones más complejas que la muy simple descrita. Prob(xijk) = N! xijk · px111 . aparece entre paréntesis la proporción sobre el total de la fila correspondiente.398) 5050 (0. .602) 1095 (0.1) en que I. La paradoja de Simpson Consideremos la siguiente tabla de contingencia. de modo que ambas categorías estén adecuadamente representadas.

019) Total 5005 Placebo 5095 Mujeres Enferman Tratamiento 950 (0. DATOS CATEGÓRICOS MULTIVARIANTES A la vista de los datos anteriores. La contradicción entre los resultados que sugieren la tabla conjunta y las dos que forman el desglose se explica cuando notamos que la asignación del tratamiento ha sido muy asimétrica entre hombres y mujeres: las mujeres. . Supongamos.905) 1000 (0. que parecen practicamente inmunes a la enfermedad analizada. mientras que los hombres. no lo han recibido en la misma proporción. Esto ocurre por poco margen en el caso de los varones. frente a más del 80 % de quienes tomaron el placebo. pero de forma notoria en las mujeres. mucho más vulnerables.005) No enferman 9000 (0. han recibido mayoritariamente el tratamiento.095) 50 (0.981) No enferman 5 (0.999) 5000 (0. sin embargo. que efectuamos un desglose por en varones y mujeres de la tabla anterior para obtener las dos siguientes: Varones Enferman Tratamiento 5000 (0. Se tiene así una menor incidencia de la enfermedad (en la tabla conjunta) para los receptores del tratamiento. estaríamos tentados de concluir que el tratamiento ha tenido realmente un efecto preventivo: menos del 40 % de tratados desarrollan la enfermedad.995) Total 9950 Placebo 1050 Se da ahora una aparente paradoja: mientras para el total de la población el tratamiento aparentaba ser efectivo. Resulta así que la tabla para el total de la población proporciona una información que es contradictoria con la que obtenemos al considerar las tablas desglosadas.001) 95 (0. sin embargo. simplemente porque entre ellos hay mayoría de mujeres casi inmunes. Cuando se analizan separadamente las tablas correspondientes a hombres y mujeres apreciamos.86 CAPÍTULO 8. tanto los varones como las mujeres tratados parecen haber enfermado más que los que recibieron el placebo. que el tratamiento no parece tener ningún efecto positivo.

C examinados. Lo que la paradoja de Simpson presentada más arriba muestra es que colapsando una tabla puede llegarse a conclusiones diferentes —incluso radicalmente opuestas— a las que alcanzaríamos al considerar la tabla completa. ij i j ijk jk ik k (8. Denotemos por dB dC dA dC dA dB pi++ = j=1 k=1 pijk p+j+ = i=1 k=1 pijk p++k = i=1 j=1 pijk las probabilidades marginales e imaginemos que hubiera independencia entre los tres caracteres A.3) (8.8. en escala logarítmica. MODELOS LOGARÍTMICO-LINEALES 87 Si tabuláramos los tres caracteres a la vez.4) . Entonces. Podríamos considerar modelos más generales para log(pijk ) como suma de diferentes efectos aditivos así: log(pijk ) = u + uA + uB + uC + uAB + uAC + uBC + uABC . Ambos pueden tener valores completamente diferentes. tendríamos una tabla de tres dimensiones (Tratamiento × Enfermedad × Sexo). 8.2) en el caso de independencia.4. log(pijk ) = log(pi++ ) + log(p+j+ ) + log(p++k ). Modelos logarítmico-lineales Consideraremos una tabla de tres dimensones. que no depende de cuál sea el nivel observado de ningún otro carácter. Nos deberemos por ello abstener de colapsar una tabla si la asociación entre los caracteres correspondientes a las dimensiones que subsisten es diferente para diferentes niveles del carácter o caracteres correspondientes a las dimensiones suprimidas. (8. Observación 8.1 Este efecto es similar al que se presenta al comparar el coeficiente de correlación simple entre dos variables y el coeficiente de correlación parcial controlando el efecto de una tercera.2 ponía de manifiesto. Denotemos por pijk la probabilidad de que un sujeto tomado al azar entre los N que componen la tabla esté en la celda (ijk). tendríamos: pijk = pi++ p+j+ p++k o. Cada nivel de cada caracter contribuye una cantidad fija a log(pijk ). log(pijk ) se puede expresar como suma de efectos fila. Sumando sobre la tercera dimensión llegaríamos a la tabla de dos dimensiones (Tratamiento × Enfermedad). columna y estrato. Decimos que ésta última resulta de colapsar la primera o que es uno de sus márgenes. B.4. como el Ejemplo 1. e incluso signo opuesto. pero de nuevo el planteamiento es fácilmente generalizable.

El modelo (8.10) (8. uA = i dB dC j=1 k=1 (8. B y C.13).7) (8.10) respecto de i.9) El modelo (8. jk (8.15) Si ahora sumamos la misma igualdad sobre j. A. tenemos: 1 u= dA dB dC dA dB dC log(pijk ).12) y (8.12) + uBC jk + uAC ik (8. Los parámetros de un modelo logarítmico-lineal son funciones de log(pijk ).16) .4) está saturado:utiliza tantos parámetros libres como celdas.5) (8. (8.88 CAPÍTULO 8.14) El modelo (8. j.8) uAB = ij j i uAB = 0 ij AC uik = 0 k uAC ik i BC ujk j = = k uBC = 0 jk uABC = ijk j k uABC ijk i = uABC = 0. sino que combinaB ciones ij particulares tienen efecto sobre log(pijk ) que difiere de la suma uA + uj . como: log(pijk ) = u + uA + uB + uC i j k log(pijk ) = u log(pijk ) = u log(pijk ) = u log(pijk ) = u + uA i A + ui + uA i A + ui + + + + uB j B uj uB j B uj + uC k C + uk + uC k C + uk + + + + AB uij AC uik AC uik AB uij (8.11) (8.4).11) incorpora una interacción entre los caracteres A. Podemos considerar variedades del mismo. i=1 j=1 k=1 (8. i analogamente con (8.6) (8. B: el efecto de cada nivel i de A no es idéntico para cualquier nivel j de B. DATOS CATEGÓRICOS MULTIVARIANTES al objeto de identificar todos los parámetros (y de hacerlos interpretables) necesitamos restricciones del tipo: uA = i i j B uj = k uC = 0 k (8. por ejemplo.13) + uBC . ijk (8. sumando (8. k llegamos a   dB dC 1  dB dC u + log(pijk ) . k y teniendo en cuenta las restricciones de suma cero. El último de los modelos contiene todas las interacciones de segundo orden y es el más parametrizado antes de llegar al saturado.10) corresponde a la independencia entre los tres caracteres.

5.17) y análogamente para los términos restantes. Nótese que los resultados son los j k mismos cuando consideramos cualquiera de los modelos más parametrizados (8. k llegamos a uA i 1 = dB dC dB dC j=1 k=1 1 log(pijk ) − da dB dC dA dB dC log(pijk ).5. LECTURA RECOMENDADA 89 y análogamente para los parámetros uB y uC . (1975). Fienberg (1980). Agresti (1990) y Plackett (1974).8. 8.15) en (8. .11)– (8. Los estimadores máximo verosímiles de los parámetros se pueden obtener así de los de los términos pijk . Lectura recomendada Son buenas introducciones Bishop et al. i=1 j=1 k=1 (8.13). el algoritmo de reescalado iterativo permite la estimación cómoda de cualquier modelo logarítmico lineal. Sustituyendo (8. y éstos son simplemente pijk = xijk /N .16) llegamos a: Si ahora sumamos la misma igualdad sobre j. ˆ En la práctica.

DATOS CATEGÓRICOS MULTIVARIANTES .90 CAPÍTULO 8.

001 0. dos filas i. Emplearemos la siguiente notación: 9. Distancia entre las filas de la matriz de datos Si quisiéramos obtener una representación en pocas dimensiones de las filas de la matriz X. Notación El punto de partida será una matriz de datos X de dimensiones N × p que. La condición de tabla de contingencia de los datos de partida sugiere no obstante algunas alteraciones. Si prescindimos de este efecto debido 91 . parecería lo indicado un análisis en componentes principales como el descrito en el Capítulo 5. es decir.75 %). 9. aunque por comodidad el número de hogares se haya expresado en miles.2.0015 0.1.001 0.01 0. Consideremos la matriz F y.1. una tabla cada una de cuyas casillas recoge números naturales. Sea T = i=1 j=1 xij . Es el caso de la Tabla 7.02 0.015 0. j como las siguientes: i j 0.1.002 0.Capítulo 9 Análisis de Correspondencias Es una técnica para producir representaciones planas relacionando las observaciones (filas) y variables (columnas) en una tabla de contingencia.1.02 0.0750 fj. dentro de ella. Análisis de las filas de X 9.1.0075 Es aparente que la fila i está mucho más poblada que la fila j (un 7. p N como se ha indicado.01 0. = 0.5 % de los casos totales frente a sólo un 0. es una tabla de contingencia.002 fi. = 0.

f ′ = (f1. totales marginales columnas. .1) (9. Matriz diagonal N × N con f1.0002 Esto es claramente indeseable en general: no es lo mismo una discrepancia de 0.p en la diagonal principal.30 − 0.29 y 0. .3) (9. En este último caso.44)2 + (0.1 . Matriz de frecuencias relativas N × p.l por un lado y d(k. fN.10 0. si aspiramos a hacer una análisis que describa las diferencias relativas entre las filas. f.01 entre 0.43 0. .02.0002 d2 (k. m) = e j=1 fkj fmj − fk. 2 = (0. un carácter raro en . m) por otro. .075 = 20 % y de exactamente el mismo valor en la fila j. Imaginemos tres filas de Df −1 F tales como las siguientes: k l m 0.29)2 = 0. la primera categoría se presenta en i con una frecuencia intrafila de 0. c ′ = (f. f.01 0.15 0.4) = (0.44)2 + (0.01)2 = 0. Por ejemplo. obtenemos: p d2 (k. parece que deberíamos corregir el efecto tamaño aludido. . Matriz diagonal p × p con f.02 0.30 Observemos que. fN.1 .1: Notación empleada Símbolo X F fi. .15 0.p ). vemos no obstante que las frecuencias relativas intrafila de las cinco categorias consideradas en las columnas son idénticas en ambas filas.44 0. . si computamos la distancia euclídea ordinaria d(k.43 − 0. l) entre las filas k.01 y 0. totales marginales filas.10 0. y así para todas las demás.30 que entre 0. .j c f Df Dc Elemento genérico xij fij = T −1 xij fi. al tamaño. l) e = j=1 p flj fkj − fk. fl.44 0.30 0.02 − 0. 2 (9. lo que se logra sustituyendo cada fij por fij /fi. que es lo mismo que reemplazar en nuestro análisis la matriz F por Df −1 F . en la diagonal principal.43 − 0. . f.2) (9. .15 0.29 0. Total marginal columna j-ésima de F . = p fij j=1 f. . En consecuencia.92 CAPÍTULO 9.j = N fij i=1 Descripción Tabla de contingencia original N × p.10 0.02 0. Podríamos pensar que tras hacer esta corrección sólo resta realizar un análisis en componentes principales convencional.015 / 0. ). ANÁLISIS DE CORRESPONDENCIAS Cuadro 9. pero hay otra peculiaridad a la que debemos enfrentarnos. Total marginal fila i-ésima de F . fm.

f. cuya i-ésima fila es de la forma fip fi2 fi1 √ . fi. f.p 1 .. f.j fkj flj − fk. El estimador ordinario (y máximo verosímil. la segunda columna podría reflejar el tanto por uno de personas atacadas por una enfermedad muy infrecuente. En cambio. 1 Observemos. En consecuencia. hay razón para ponderar diferentemente las discrepancias en los diferentes caracteres.43 y 0.3. en el caso de muestras procedentes de observaciones normales) es: N ˆ Σ = N −1 i=1 N (yi − y)(yi − y) ′ yiyi ′ − yy ′ (9. l) = j=1 p 2 1 f.6) Por su semejanza formal con el estadístico χ2 se denomina a la distancia anterior distancia χ2 . 9. ANÁLISIS DE LAS FILAS DE X 93 ambas filas lo es mucho más en una (la m) que en otra (la k). . si las cifras anteriores reflejaran la prevalencia de determinadas enfermedades en distintas comunidades. f.1. f.9. que si sustituimos la matriz Df −1 F por Y = Df −1 F Dc − 2 .. 0.j (9. y el hecho de que en la comunidad l este tanto por uno es doble que en la k no dejaría de atraer nuestra atención. 2 (9.7) = N −1 i=1 (9. un análisis sobre Df −1 F Dc − 2 haciendo uso de distancias euclídeas equivale al análisis sobre Df −1 F haciendo uso de distancias χ2 . y una forma intuitivamente atrayente de hacerlo es sustituir la distancia euclidea ordinaria por: p d (k.1 fi.9) = N −1 Y ′ Y − (N −1 Y ′ 1N )(N −1 1N ′ Y ). Matriz de covarianzas muestral El último paso previo al análisis en componentes principales.1. √ ..44 podrían recoger el tanto por uno de personas que han padecido un resfriado común en las comunidades k y m: difícilmente consideraríamos la discrepancia como relevante. Por ejemplo. es la estimación de la matriz de covarianzas. una vez que he1 mos decidido hacerlo sobre Df −1 F Dc − 2 .5) 2 = j=1 flj fkj − fk.8) (9. fl..2 fi.j fl. y tenderíamos a atribuir a este hecho mucha mayor significación.

. en lugar de 1/N a la fila i-ésima de Y . ˆ como los restantes vectores propios ai (i = 1.10) que supone dar peso fi. podemos prescindir de una componente principal que no explica ninguna varianza. es razonable reemplazar el estimador anterior por: ˆ Σ = Y ′ Df Y − (Y ′ Df 1N )(1N ′ Df Y ). observemos que Y ′ Df Y = Dc − 2 F ′ Df −1 Df Df −1 F Dc − 2 = 1 1 1 1 Dc − 2 F ′ Df − 2 Df − 2 F Dc − 2 y denotando Z = Df − 2 F Dc − 2 1 1 1 1 (9. Con las anteriores modificaciones estamos ya en situación de hacer un análisis 1 en componentes principales. ANÁLISIS DE CORRESPONDENCIAS ello supone dar a cada observación un peso de 1/N . y utilizar sólo las restantes (ordinariamente. en consecuencia. lo que es razonable en el caso de muestrear de forma aletoria simple una población. . . los vectores propios correspondientes a valores propios no nulos ˆ de Σ coinciden con los de Y ′ Df Y . tenemos que ˆ 1 Σc 2 = Y ′ Df Y − c 2 c 2 1 1 1 1 1 1 1 1 ′ c2 1 = Dc − 2 F ′ Df −1 Df Df −1 F Dc − 2 c 2 − c 2 = Dc − 2 F ′ Df −1 F 1p − c 2 = Dc − 2 F ′ Df −1 f − c 2 = 0. se presenta de nuevo la peculiariedad de que unas observaciones —filas de la matriz X. y podemos diagonalizar esta última matriz.94 CAPÍTULO 9. En efecto. Por ello. (9. en primer lugar. Finalmente. las dos primeras). como Y ′ Df 1N = Dc − 2 F ′ Df −1 Df 1N = 1 c 2 . Además. que tras sucesivas transformaciones se ha 1 convertido en Y = Df −1 F Dc − 2 — son en general más importantes que otras: sus totales fi. . que c 2 es vector propio de 1 ˆ Σ asociado a un valor propio nulo. Notemos. tenemos que 1 1 ˆ Σai = Y ′ Df Y − c 2 c 2 ′ ai = Y ′ Df Y ai. hecho del que haremos uso en breve. . = Dc − 2 c − c 2 1 1 1 1 1 1 = Y ′ Df Y c 2 − c 2 Por tanto.11) vemos que la matriz que diagonalizamos puede expresarse como Z ′ Z. En el caso que nos ocupa. marginales difieren. p − 1) de Σ son ortogonales a 1 c 2 .

17) (9. es decir.20) (9. 1 (9.15) Tomemos la expresión (9.3.14) (9. C = Dc −1 F ′ Df − 2 ZAΛ− 2 = Dc = Dc −1 −1 1 1 1 −2 1 1 1 1 (9.18) −1 F Dc −1 F Df C ′ −1 2 BΛ −1 2 −1 F CΛ 1 −2 (9.13) Notemos sin embargo que las columnas de A y las de B están relacionadas. Análisis de las columnas de X Podríamos ahora realizar un análisis en componentes principales de las columnas de la matriz X.13) tenemos que: R = Df −1 F Dc − 2 Dc − 2 F ′ Df − 2 BΛ− 2 = Df = Df Análogamente. Y Dc Y = Df − 2 F Dc −1 Dc Dc −1 F ′ Df − 2 = ZZ ′ con Z definida como anteriormente. Una discusión del todo paralela a la precedente. Haciendo uso de la definición de Z en (9. ANÁLISIS DE LAS COLUMNAS DE X 95 9.12) tenemos que: R = Y A = Df −1 F Dc − 2 Z ′ BΛ− 2 1 1 ˜′ C = Y B = Dc −1 F ′ Df − 2 ZAΛ− 2 . La representación de las filas de Y mediante todas las componentes principales viene entonces dada por R = Y A = Df −1 F Dc − 2 A.21) F RΛ .2.19) AΛ −1 2 F Df ′ ′ −1 2 −1 2 Df 1 −2 F Dc (9. en que Y = 1 1 1 ′ ˜ ˜ Df − 2 F Dc −1 . nos llevaría a diagonalizar la matriz Y Dc Y . 9. ˜ en tanto la representación de las columnas de Y viene dada por 1 ˜′ C = Y B = Dc −1 F ′ Df − 2 B. En consecuencia.11) y (7.16) (9. Reciprocidad y representación conjunta Sean A y B las matrices que tienen por columnas los vectores propios de Z ′ Z y ZZ ′ respectivamente. intercambiando los papeles ˜ ˜′ ˜ de filas y columnas. 1 1 (9.2.9.11) y de (9. por ser vectores propios respectivamente de matrices que podemos escribir como Z ′ Z y ZZ ′ respectivamente.14). Haciendo uso de (7. buscamos una representación de baja dimensionalidad de los p vectores en RN constituidos por las columnas de X.12) (9.

...21) se conocen como de reciprocidad baricéntrica y son las que permiten interpretar las posiciones relativas de filas y columnas. Consideremos.18). si fij /fi.. ANÁLISIS DE CORRESPONDENCIAS Las relaciones (9.. y el punto que representa a dicho perfil fila tendrá sus coordenadas “atraidas” hacia las de cj . la i-ésima fila ri de R. fi. . es decir. su k-ésima coordenada puede expresarse así: rik = λk 2 −1 fip fi1 c1k + . fi.18)-(9. Lectura recomendada Una introducción al Análisis de Correspondencias puede encontrarse tanto en Cuadras (1981) como en Peña (2002). como un promedio ponderado de la coordenada homóloga de las columnas. las del punto que representa a la variable j. fi. . . la variable j tiene gran relevancia en el perfil fila i. también será de utilidad.96 CAPÍTULO 9. 9. por ejemplo. con pesos dados por fip fi1 . Análogamente para la representación de las columnas. entre la bibliografía en español.4. fi. De acuerdo con (9. + cpk . Escofier and Pages (1984). es muy grande.

(10. nos fijaremos en si conservan la posición relativa de los puntos excepto por transformaciones “simples” como traslaciones o cambios de escala.3) . Por tanto. Introducción. Como medida de ajuste entre ambas tomaremos N G(X.2) para una clase de transformaciones g(.1) Para examinar si las dos configuraciones son similares. Seguimos en la exposición a Sibson (1978). El análisis Procrustes tiene por objeto examinar en qué medida dos configuraciones de puntos en el espacio euclídeo son similares. Existen generalizaciones a más de dos configuraciones (ver por ej.1.) incluyendo la composición de traslaciones. rotaciones y contracciones/expansiones. g(Y ) = ρ(Y − 1 ′ a)P 97 (10. Las filas yi y xi de las matrices Y y X respectivamente proporcionan las coordenadas del punto i en las dos configuraciones. Consideremos dos configuraciones de N puntos en el espacio euclídeo Rk representadas por sendas matrices X e Y de dimensión N × k. Específicamente buscaremos evaluar G(X.Capítulo 10 Análisis Procrustes 10. Gower (1975)). Y ) = traza((X − Y )(X − Y ) ′ ) = i=1 ||xi − yi||2 (10. Y ) = traza((X − g(Y ))(X − g(Y )) ′ ). pero aquí sólo trataremos el caso más simple.

Tendremos: traza(P ′ A) ≤ traza(S) (10. De V ′P ′U S = S se deducen las siguientes desigualdades: P ′ U SV ′ = V SV ′ 1 1 1 (10.5) Pero V ′ P ′ U es una matriz ortogonal que nunca tendrá valores mayores que 1 en la diagonal principal. la traza del término derecho de la ecuación anterior será la suma de los elementos diagonales de S multiplicados por números menores que la unidad.1. Entonces. Entonces.98 CAPÍTULO 10. para P ′ = V U ′ . P. Estamos interesados en encontrar Gm´ (X.5). 75) A = U SV ′ . esto último acontece.P.2. a para los que el mínimo se alcanza. Obtención de la transformación Procrustes Lema 10. traza(P ′ A) = traza(P ′ U SV ′ ) = traza(V ′ P ′ U S). y esto junto con (10.7) establece (10. g(Y )) = m´ G(X. Por tanto.3). D EMOSTRACION : Consideremos la descomposición en valores singulares (fue introducida en la Sección 7. Llamaremos Γ al conjunto formado por todas las transformaciones h(. pág. 1 ⇒ P ′ A = (V S 2 V ′ ) 2 ⇒ P ′ A = V SV ′ 1 1 . (10. traza(P ′ A) ≤ traza((A ′ A) 2 ) y la igualdad se verifica sólamente si P ′ A = (A ′ A) 2 .a (10.7) y se verificará la igualdad sólo cuando V ′ P ′ U S = S. 10.8) ⇒ P ′ A = (V SU ′ U SV ′ ) 2 ⇒ P ′ A = (A ′ A) 2 . V son matrices ortogonales. en que S es la matriz de valores singulares (no negativos) y U .1 Sea A una matriz cuadrada y P cualquier matriz ortogonal. a un vector de constantes y ρ un coeficiente de contracción o expansión de la escala. ρ(Y − 1 ′ a)P ) ın ın ρ. por ejemplo.6) 1 1 (10.) de la forma descrita en (10. Pero traza(S) = traza((S ′ S) 2 ) = traza((V ′ A ′ U U ′ AV ) 2 ) = traza((A ′ A) 2 ).4) y los correspondientes valores ρ. Veamos ahora la segunda aseveración. ANÁLISIS PROCRUSTES siendo P una matriz ortogonal.

10.2. OBTENCIÓN DE LA TRANSFORMACIÓN PROCRUSTES

99

lo que finaliza la demostración. Podemos ahora resolver el problema de minimización (10.4).

10.2.1. Traslación a
Sean x, y los vectores de medias aritméticas de las columnas de (respectivamente) X e Y . Definamos las matrices X = 1x ′ Y y versiones centradas de X e Y así: ˜ X = X −X ˜ Y = Y −Y. Observemos que G(X, Y ) = traza((X − Y )(X − Y ) ′ ) ′ ˜ ˜ ˜ ˜ ′ = traza((X − Y )(X − Y ) ) + N traza((X − Y )(X − Y ) ) ′ ˜ ˜ = G(X, Y ) + N traza((X − Y )(X − Y ) ); ello muestra que G(X, Y ) se hace mínimo cuando se calcula para configuraciones de puntos cuyos centroides han sido llevados a un origen común. = 1y ′ .

10.2.2. Rotación P .
˜ ˜ ˜ Sean X e Y configuraciones centradas. Sean todas las transformaciones Y P en que P es una matriz ortogonal k × k. Tenemos ˜ ˜ ˜ ˜ ˜ ˜ ′ G(X, Y P ) = traza((X − Y P )(X − Y P ) ) ˜ ˜′ ˜˜′ ˜′˜ = traza(X X ) + traza(Y Y ) − 2 traza(P ′ Y X) ˜ ˜′ ˜˜′ ≥ traza(X X ) + traza(Y Y ) ˜ ′˜ ˜ ′ ˜ 1 −2 traza(X Y Y X) 2 (10.9) en que el último paso hace uso del Lema 10.1. De acuerdo con dicho lema, el valor ˜ ′ ˜ ˜ ′˜ ˜ ′ ˜ 1 dado por (10.9) es alcanzable haciendo P = Y X(X Y Y X)− 2 .

10.2.3. Parámetro de escala ρ
El parámetro de escala es ahora muy fácil de obtener. Notemos que dejamos ˜ ˜ inalterada la escala de las X y cambiamos sólo la de las Y . De otro modo, siem˜ ˜ pre podríamos obtener un valor de G(X, Y P ) tan pequeño como deseáramos, sin

100

CAPÍTULO 10. ANÁLISIS PROCRUSTES

más que colapsar ambas configuraciones en una región arbitrariamente pequeña en torno al origen. Tenemos entonces que minimizar ˜ ˜ ˜ ˜′ ˜˜′ ˜ ′˜ ˜ ′ ˜ 1 (10.10) G(X, ρY P ) = traza(X X ) + ρ2 traza(Y Y ) − 2ρ traza(X Y Y X) 2 , ecuación de segundo grado en ρ cuyo mínimo se alcanza para: ρ= ˜ ′˜ ˜ ′ ˜ 1 traza(X Y Y X) 2 . ˜˜′ traza(Y Y ) (10.11)

10.3. Análisis y comentarios adicionales
Si reemplazamos el valor de ρ obtenido de (10.11) en la ecuación (10.10) obtenemos: ˜ ′˜ ˜ ′ ˜ 1 2 ˜ ρY P ) = traza(X X ′ ) + traza(X Y Y X) ˜ ˜ ˜ Gm´ (X, ın ′ ˜˜ traza(Y Y ) ˜ ′˜ ˜ ′ ˜ 1 traza(X Y Y X) 2 −2 ˜˜′ traza(Y Y ) que tras simplificar proporciona: ˜ ′˜ ˜ ′ ˜ 1 2 ˜ ρY P ) = traza(X X ′ ) − traza(X Y Y X) ˜ ˜ ˜ Gm´ (X, ın ′ ˜˜ traza(Y Y ) ′ ˜ ˜ ˜˜′ = traza(X X ) − ρ2 traza(Y Y ) Reordenando la última igualdad tenemos: ˜ ˜ ˜˜′ ˜ ˜′ Gm´ (X, ρY P ) + ρ2 traza(Y Y ) = traza(X X ). ın (10.12) ˜ ′˜ ˜ ′ ˜ 1 traza(X Y Y X) 2
2

˜˜′ traza(Y Y )

˜ ′˜ ˜ ′ ˜ 1 traza(X Y Y X) 2

Podemo interpretar la igualdad (10.12) así: la “suma de cuadrados” de las distan˜ ˜˜′ cias euclídeas de la configuración original X se descompone en ρ2 traza(Y Y ) más una “suma de cuadrados de los errores”, Gm´ , que es lo que hemos minimizaın do. La igualdad (10.12) es así análoga a la que descompone la suma de cuadrados en el análisis de regresión o ANOVA. Es de destacar que ρ al ajustar la configuración Y a la X no es en general el mismo (ni el inverso) del que se obtiene al ajustar la configuración X a la Y . ˜ ˜′ Sin embargo, si normalizamos las configuraciones de modo que traza(X X ) = ′ ˜˜ traza(Y Y ) = 1, ρ es el mismo en ambos casos, y la igualdad (10.12) se transforma en: ˜ ˜ Gm´ (X, ρY P ) + ρ2 = 1. ın (10.13)

En tal caso, ρ2 es directamente interpretable como la fracción de “suma de cuadrados” de distancias que la configuración adaptada es capaz de reproducir: ρ2 juega aquí un papel similar al de R2 en regresión.

Capítulo 11

Reescalado Multidimensional

11.1. Introducción.
Las técnicas conocidas colectivamente como de reescalado multidimensional (RM) (Multidimensional Scaling, MDS) tienen por objeto producir representaciones de reducida dimensionalidad de colecciones de objetos. Se diferencian del Análisis en Componentes Principales, Análisis Factorial y AC en el punto de partida. Mientras que en las técnicas citadas cada objeto viene descrito por un vector xr que proporciona su posición en un espacio p-dimensional, en el caso de del Reescalado Multidimensional el punto de partida es una matriz de proximidades. Esta matriz puede contener disimilaridades, δij en que un mayor valor δij corresponde a una mayor desemejanza entre los objetos i y j o similaridades, verificando lo contrario. No se hacen en principio supuestos acerca de la naturaleza de las similaridades o disimilaridades, que pueden obtenerse de muy diversos modos. Típicamente proceden de promediar las percepciones declaradas de un colectivo de sujetos interrogados, pero pueden tener cualquier otro origen. El objetivo del Reescalado Multidimensional es producir una configuración de puntos, idealmente de muy baja dimensión, cuya distancia euclídea ordinaria reproduzca con la máxima fidelidad las disimilaridades δij . Ejemplo 11.1 (semejanza entre códigos del alfabeto Morse) En Borg and Groenen (1997), p. 54 se presenta un experimento realizado por Rothkopf (1957). Un colectivo de individuos escucha parejas de símbolos codificados en el alfabeto Morse, respondiendo si a su juicio son iguales o no. Para la pareja formada por los símbolos i y j se computa la disimilaridad δij como el porcentaje de respuestas equivocadas (es decir, en las que el sujeto manifiesta que los dos símbolos no son iguales cuando lo son, o al contrario). 101

Obsérvese que pueden ser. El empleo de la técnica del Reescalado Multidimensional produce una mapa en dos dimensiones en que la ubicación relativa de los símbolos es la esperable a la vista de su duración y composición de puntos y rayas.1) Sea X una matriz N × p cuya r-ésima fila es xr ′ . La distancia euclídea al cuadrado entre los puntos xr y xs vendría dada por: d2 = xr − xs rs 2 = (xr − xs ) ′ (xr − xs ). p. B = XX ′ es cuadrada. podríamos construir una tabla de doble entrada cuyas filas y columnas se correspondieran con las capitales de provincia en España. Ejemplo 11.. Claramente. diferentes los porcentajes de confusión al escuchar la misma pareja de símbolos en los dos órdenes posibles: por tanto podríamos desear considerar δij = δji . Otros.2. (11.3) (11. E (en Morse. 59. R. La configuración de puntos en dos dimensiones proporcionada por las técnicas de Reescalado Multidimensional debería aproximar la ubicación de las respectivas capitales de provincia. simétrica y puede diagonalizarse: B = V ′ ΛV.2) ˜ A partir de una tal B podríamos encontrar una configuración de puntos X que la reproduce: 1 ˜ X = V ′Λ 2 1 ˜′ X = Λ 2 V. Obsérvese además que dos símbolos idénticos no siempre son reconocidos como tales. 103 muestra el resultado de realizar un tipo de análisis de Reescalado Multidimensional.-. En el lugar ij. en cambio.-).102 CAPÍTULO 11. porque las distancias consideradas lo son por carretera. REESCALADO MULTIDIMENSIONAL Hay símbolos que son fácilmente reconocibles como diferentes. . podemos introducir como disimilaridad la distancia por carretera en kilómetros de una a otra. Por ejemplo. y Q -. Definamos la matriz B cuyo elemento genérico brs viene dado por xr ′ xs . Por ejemplo. . Puede verse la configuración bidimensional y una interpretación de la misma en Borg and Groenen (1997). Reescalado multidimensional métrico La presentación sigue a Cox and Cox (1994). (11. 11.5) . y por tanto δii = 0 en general. y de hecho son. (11. pág.4) (11. -) aparecen en posiciones contiguas. son fácilmente confundibles. Imaginemos que tenemos las coordenadas de un conjunto de puntos.1.2 (reconstrucción de mapas a partir de información sobre distancias) En ocasiones se emplea una matriz de disimilaridades obtenida de modo objetivo.) y T (en Morse. incluso por un oído no entrenado (por ej. La configuración de puntos en dos dimensiones no reproduce con total fidelidad las posiciones de las capitales. La Figura 11.

a Orense Lugo 400 Oviedo Badajoz Cadiz Huelva Caceres Leon Zamora Salamanca Palencia Valladolid Santander Segovia Burgos Bilbao Vitoria Logro.o Soria Cuenca Donostia Pamplona 200 Sevilla Avila Ciudad.1: Mapa reconstruido mediante reescalado multidimensional métrico a partir de las distancias por carretera entre capitales de provincia. 600 Pontevedra Coru.2. REESCALADO MULTIDIMENSIONAL MÉTRICO 103 Figura 11.11.Real Toledo Madrid 0 Cordoba Malaga Jaen Granada Guadalajara −200 Albacete Zaragoza Almeria Murcia Alicante Valencia Lerida Castellon Tarragona Barcelona Teruel Huesca −600 −400 Gerona −600 −400 −200 0 200 400 .

al menos en tanto en cuanto dicha matriz B sea semidefinida positiva y admita una diagonalización como (11. N N (11.7) y haciendo uso de (11.11) d2 − rs 1 N N d2 rs s=1 (11. rs (11. está resuelto. r=1 (11. 2 rs (11.10) tenemos que: brs = xr ′ xs = − 1 2 1 drs − 2 N + Llamando tenemos que en que ar.14) . rotación o reflexión de una configuración de puntos deja sus distancias invariadas.3). denota el promedio de ars al sumar sobre el índice s (y análogamente para a. rs Claramente.16) brs = ars − ar.15) 1 N2 N (11. es decir: 1 N De (11.6): 1 N 1 N N d2 = rs r=1 N 1 N 1 N 2 N N xr ′ xr + xs ′ xs r=1 N (11.9) 1 N2 s=1 N N r=1 s=1 xr ′ xr . No perderemos generalidad si suponemos un origen arbitrario. Por tanto. porque toda traslación. y si A es una matriz cuyo elemento genérico es ars .7) N xr = r=1 1 N N xs = 0.13) 1 ars = − d2 . entonces B= I− 1 1 1 1′ A I − 1 1′ . de (11.8) a (11. la solución estará indeterminada. y a. s y respecto de ambos índices a la vez proporciona en virtud de (11.10) Por consiguiente. REESCALADO MULTIDIMENSIONAL El problema de encontrar una configuración de puntos que reproduce una cierta B. por tanto.. no puede haber solución única. − a.s + a. y por comodidad podemos suponer la nube de puntos centrada.. (11.12) r=1 N N d2 . rs r=1 s=1 (11.6) que sumando respecto de r. s=1 (11.104 CAPÍTULO 11.1) obtenemos: d2 = xr ′ xr + xs ′ xs − 2xr ′ xs .8) d2 = rs d2 = rs xs ′ xs + xr ′ xr s=1 N (11. La pregunta es si a partir de las distancias d2 podemos obtener una B para diagonalizarla.s ).

El reescalado multidimensional métrico aplicado a una B procedente de una configuración de puntos en el espacio euclídeo no difiere pues (salvo en traslaciones.1:5] Albacete Alicante Almeria Avila Badajoz Albacete 0 171 369 366 525 Alicante 171 0 294 537 696 Almeria 369 294 0 663 604 Avila 366 537 663 0 318 .1 Este es el código empleado en R para construir el mapa en la Figura 11. 1 2: A ← − 2 d2 . en tal caso. El objeto spain es una matriz triangular superior conteniendo las distancias en kilómetros entre capitales de provincia. Si no fuera semidefinida positiva. añadir una constante a las disimilaridades no diagonales.11.6). rotaciones o reflexiones) de la solución que obtendríamos mediante un análisis en componentes principales de los datos originales. > distan <. 4: Diagonalizar B: B = V ′ ΛV.spain + t(spain) > distan[1:5. o alterar la matriz de disimilaridades inicial añadiendo una constante c a cada disimilaridad drs con r = s. COMPLEMENTOS Y COSAS PARA HACER 11.2. 1: Obtener una matriz de disimilaridades. y recalcular.3). No siempre ocurrirá que B obtenida a partir de una matriz de disimilaridades pueda ser factorizada en la forma (11. es frecuente prescindir de los valores propios negativos. si no son muy grandes. Tenemos pues el siguiente algoritmo: Algoritmo 1 – Reescalado multidimensional métrico.3) y los datos están centrados como hemos supuesto en (11.1.3). ˜ 5: Obtener la configuración de puntos X: 1 ˜ ← V ′Λ 2 . X y retener el número de columnas deseado (normalmente. REESCALADO MULTIDIMENSIONAL MÉTRICO 105 Hemos pues construido a partir de la matriz de distancias una matriz B a la que aplicar la factorización en (11. CUESTIONES. Ello será imposible cuando B tenga valores propios negativos. Es fácil ver entonces que las columnas ˜ de X no son otra cosa que las componentes principales. 2). alternativamente. Obsérvese que si realmente existe una configuración de puntos X con matriz B dada por (11. B tiene los mismos valores propios que X ′ X. prescindir de los valores propios no positivos de B. rs 1 1 3: B ← I − N 1 1 ′ A I − N 1 1 ′ . Siempre hay un c que hace que B obtenida a partir de las disimilaridades así transformadas sea semidefinida positiva.

k=2) > x <. REESCALADO MULTIDIMENSIONAL Badajoz 525 696 604 318 > library(mva) > loc <. type="n".2] > postscript(file="mapa.loc[.1] > y <.loc[.cmdscale(distan. y. xlab="". ylab="") > text(x. names(distan)) 0 .106 CAPÍTULO 11.eps") > plot(x. y.

indicativas de la pertenencia del caso correspondiente al primer o segundo grupo. de emplear la muestra de entrenamiento para buscar relaciones entre las variables X y la variable Ck . 2. El problema que nos planteamos es el siguiente: tenemos una muestra de casos clasificados en dos o más grupos. Se trata. k = 1. observamos p variables o características. Los ejemplos siguientes muestran algunas de las muchísimas aplicaciones que se han dado al método. Es quizá el segundo objetivo el más usualmente perseguido.Capítulo 12 Análisis discriminante 12. Un análisis discriminante puede tener objetivo: Descriptivo. y estamos interesados en saber si los valores de dichas p variables tienen alguna relación con la pertenencia a un grupo u otro. no perteneciente a la muestra de entrenamiento. si buscamos un criterio que nos permita decidir sobre la adscripción a uno de los grupos de un caso nuevo. si estamos sólo interesados en poner en evidencia la capacidad discriminante de un cierto conjunto de variables. Inicialmente consideraremos sólo dos grupos. Además de la clase o grupo a que pertenece cada caso. en que las X son las características observadas y la variable C toma dos valores. C1 ó C2 . La información disponible puede por tanto describirse como en la Tabla 12.1. 107 . para generalizar el análisis a continuación. Introducción. Ello permite clasificar casos no pertenecientes a la muestra de entrenamiento.1. que permitan evaluar lo mejor posible ésta última como función de las primeras. Decisional.

108

CAPÍTULO 12. ANÁLISIS DISCRIMINANTE

Cuadro 12.1: Muestra de entrenamiento en análisis discriminante con dos grupos X11 X21 . . . XN1 1 XN1 +1,1 XN1 +2,1 . . . XN1 +N2 ,1 ... ... ... ... ... ... X1p X2p . . . XN1 p XN1 +1,p XN1 +2,p . . . XN1 +N2 ,p C1 C1 . . . C1 C2 C2 . . . C2

Ejemplo 12.1 (recuperación de información perdida) En ocasiones, la variable Ck se ha perdido irreversiblemente. Por ejemplo, un esqueleto hallado en una necrópolis no contiene atributos que permitan su adscripción directa a un hombre o mujer. Sin embargo, si contamos con una muestra de entrenamiento formada por esqueletos de los que sabemos si pertenecen a hombres y mujeres (por ejemplo, por la naturaleza de los objetos encontrados en el enterramiento), podemos tratar de ver si existe alguna asociación entre las medidas de los diversos huesos (las X) y el sexo del fallecido (Ck ). Esto permite clasificar un nuevo esqueleto del que sólo observamos las X. Ejemplo 12.2 (información accesible al hombre, pero no a la máquina) Hay problemas en los que la adscripción de un caso a un grupo es muy fácil de decidir para un humano, pero no para una máquina. Por ejemplo, reconocemos fácilmente las letras del alfabeto, incluso manuscritas. Sin embargo, el reconocimiento de las mismas por una máquina (a partir, por ejemplo, de una imagen explorada ópticamente), dista de ser trivial. En un caso como éste, las variables X serían binarias (0=elemento de imagen o pixel blanco, 1=negro) o rasgos (features) que facilitaran la discriminación (por ejemplo, ratio altura/anchura de la letra, existencia de descendentes, . . .). Ejemplo 12.3 (predicción) En ocasiones, la adscripción a grupo es todavía incierta o inexistente, y el tratar de anticiparla es del mayor interés. Por ejemplo, sobre la base de análisis clínicos (cuyos resultados serían las X) un médico puede tratar de clasificar sus pacientes en aquéllos que presentan grave riesgo de padecer un infarto y aquéllos que no. Análogamente, sobre la base de información sobre un cliente podemos intentar decidir si comprará o no un producto, o si entrará o no en morosidad si se le concede un crédito. En ambos casos, la variable Ck todavía no ha tomado un valor, pero con ayuda de una muestra de casos en que si lo ha hecho, tratamos de anticipar el valor probable a la vista de las variables X observables.

12.2. DISCRIMINACIÓN MÁXIMO-VEROSÍMIL

109

Es importante notar que estamos ante un problema genuinamente estadístico, y no podemos habitualmente esperar un discriminación perfecta. Los grupos pueden tener cierto solapamiento (por ejemplo, de dos pacientes con exactamente los mismos valores de X, uno puede padecer un infarto y otro no). Es también de interés señalar que es específico al análisis discriminante el contar con una muestra de entrenamiento: sabemos de partida a qué grupos pertenecen los componentes de la misma. Otro grupo de técnicas relacionadas (análisis de agrupamientos o análisis cluster) aborda el problema en que sólo conocemos las X, y queremos decidir sobre la existencia o no de grupos, cuantos, y cuáles. En la literatura sobre Inteligencia Artificial, técnicas como las del análisis discriminante se engloban en la denominación aprendizaje supervisado, en tanto las del análisis de agrupamientos se describen como aprendizaje no supervisado.

12.2. Discriminación máximo-verosímil
Una manera conceptualmente simple e intuitiva de resolver el problema es abordarlo con criterio máximo verosímil. Asignaremos una observación con X = x a la clase Ck si ésta tiene óptima capacidad generadora de la misma, es decir, si f (x|Ck ) = m´x f (x|Cj ). a
j

(12.1)

Al margen de su carácter intuitivamente atrayente, es fácil demostrar que asignar a Ck cuando se verifica (12.1) minimiza la probabilidad total de error de asignación. En efecto, cualquier regla discriminante puede verse como una partición {R1 , R2 } del dominio de definición X de las X, de forma que x ∈ R1 suponga asignar a C1 y x ∈ R2 suponga asignar a C2 . La probabilidad total de error, P (e), es entonces P (e) =
R1

f (x|C2 )dx +
R2

f (x|C1 )dx f (x|C1 )dx
X −R1

(12.2) (12.3)

=
R1

f (x|C2 )dx +

La primera integral en (12.2) es la probabilidad de que un caso perteneciente a la clase C2 (con densidad por tanto f (x|C2 )) esté en R1 . El valor de la integral es por tanto la probabilidad de uno de los tipos posibles de error: el de clasificar en C1 (por ser x ∈ R1 ) un caso que en realidad pertenece a C2 . Análogamente, la segunda integral es la probabilidad de clasificar en C2 un caso perteneciente a C1 . En (12.3), P (e) ha de minimizarse sobre R1 . Es claro entonces que, siendo los integrandos necesariamente no negativos, convendrá incluir en R1 todos aquellos puntos de X tales que f (x|C2 ) < f (x|C1 ) y en R2 los que verifiquen lo contrario1 . Esta es precisamente la regla (12.1).
1 A efectos de probabilidad de error, los puntos verificando f (x|C2 ) = f (x|C1 ) pueden arbitrariamente asignarse a cualquiera de las dos clases.

110

CAPÍTULO 12. ANÁLISIS DISCRIMINANTE
Formalmente, de (12.3) obtenemos: P (e) =
R1

f (x|C2 )dx +
X

f (x|C1 )dx −

f (x|C1 )dx
R1

(12.4) (12.5)

=
R1

(f (x|C2 ) − f (x|C1 ))dx + 1

expresión que claramente queda minimizada si tomamos como R1 la región de X definida así: R1 = {x : f (x|C2 ) − f (x|C1 ) ≤ 0} (12.6)

La regla de asignación indicada puede además con gran facilidad modificarse de modo que tenga en cuenta información a priori y/o diferentes costos de error en la clasificación. Esta cuestión se detalla en la Sección que sigue, que generaliza y amplía la regla de asignación máximo verosímil dando entrada a información a priori. Ejemplo 12.4 Las situaciones de fuerte asimetría en los costes de deficiente clasificación son la regla antes que la excepción. Por ejemplo, puede pensarse en las muy diferentes consecuencias que tiene el clasificar a una persona sana como enferma y a una persona enferma como sana. En el primer caso, el coste será quizá el de un tratamiento innecesario; el el segundo, el (normalmente mucho mayor) de permitir que un paciente desarrolle una enfermedad que quizá hubiera podido atajarse con un diagnóstico precoz. Las situaciones con información a priori son también muy frecuentes. Un caso frecuente es aquél en que la abundancia relativa de los grupos es diferente, situación en la que tiene sentido adoptar probabilidades a priori diferentes para cada grupo (Sección 12.3).

12.3. Discriminación con información a priori
Es lo habitual que contemos con información a priori, distinta de la proporcionada por las X, acerca de la probabilidad de pertenencia a cada uno de los grupos considerados. Por ejemplo, si sabemos que la clase C1 es nueve veces más numerosa que la clase C2 en la población que analizamos, tendría sentido fijar a priori las probabilidades de pertenencia P (C1 ) = 0,9 y P (C2 ) = 0,1. La intuición sugiere, y el análisis que sigue confirma, que en tal situación la evidencia proporcionada por las X debería ser mucho más favorable a C2 para lograr la asignación a dicha clase que cuando ambas clases son igual de numerosas. El teorema de Bayes es cuanto necesitamos para incorporar información a priori a nuestra regla de decisión. En efecto, si consideramos la densidad conjunta f (x, Ck ) tenemos que: P (Ck |x) = f (x|Ck )P (Ck ) = f (x) f (x|Ck )P (Ck ) j f (x|Cj )P (Cj ) (12.7)

7) el mismo en todos los casos. en efecto.7) el denominador siempre el mismo. Supongamos que para decidir si un lote es “bueno” (B) o “malo” (M ) tenemos la posibilidad de extraer una pieza al azar del lote. Podemos ver este problema de decisión como un problema de análisis discriminante. La experiencia muestra que con probabilidad 0. Cuando hay información a priori. Supongamos que examinamos una pieza extraída de un lote y resulta ser defectuosa.30.02 0.5 Una prensa moldea piezas en lotes de 100 a la vez. al ser en (12. Obsérvese que. R2 } definidas así: R1 = {x : f (x|C1 )P (C1 ) > f (x|C2 )P (C2 )} R2 = X − R 1 (12. Por otra parte. Ejemplo 12. P (Ck |x) ∝ f (x|Ck )P (Ck ). tendríamos.10) alcanzan el máximo para la misma clase Ck . (12. pues .12. El ejemplo siguiente. La situación es completamente diferente si consideramos la información a priori que tenemos. sin embargo. P (X = d|B) = 0.9) Un argumento idéntico al empleado en la sección anterior muestra. con un 30 % de piezas defectuosas.10) Si todas las probabilidades a priori P (Ck ) son iguales. con un 2 % de fallos. los resultados pueden en cambio variar sustancialmente. que examinada puede ser “correcta” (c) ó “defectuosa” (d).99 se obtienen lotes casi perfectos. siendo el denominador de (12. en que observamos una única variable X —el estado de la pieza examinada— y hemos de decidir la clase a la que pertenece el lote muestreado (B ó M ). Si nos limitamos a seguir el criterio máximo verosímil sin considerar la información a priori. que actuando así minimizamos la probabilidad total de error. pues (12. Con probabilidad 0. {R1 . maximizar respecto a Ck el producto f (x|Ck )P (Ck ) es equivalente a maximizar P (Ck |x). lo muestra. P (Ck |x) ∝ f (x|Ck ) y la regla bayesiana coincide con la máximo verosímil. se obtienen lotes de muy mala calidad. DISCRIMINACIÓN CON INFORMACIÓN A PRIORI 111 La regla ahora será asignar x a aquella clase cuya probabilidad a posteriori P (Ck |x) sea máxima. Por lo tanto.1) y (12. podemos particionar X en dos regiones. (12.01.3.11) (12.8) (12. una situación artificialmente simple de control de calidad presentada como un problema de análisis discriminante.12) P (X = d|M ) = a la vista de lo cual concluiríamos que el lote es M .

la probabilidad a posteriori de que el lote examinado sea bueno sigue siendo superior. .01 Pese a ser la pieza examinada defectuosa.17) En el caso de que tengamos una matriz de costes asociados a deficiente clasificación. 2) es el coste asociado a clasificar mal un caso del grupo i-ésimo. . Las integrales en (12.8684 (12. En otras palabras.99 + 0. (12.13) y (12.30 × 0.99 = 0.02 × 0. . K).15) son las probabilidades a posteriori de que un caso en el grupo C2 (o C1 ) quede clasificado en el grupo C1 (respectivamente C2 ).112 CAPÍTULO 12. Un desarrollo idéntico al efectuado más arriba lleva a ver que la regla de clasificación minimizadora consiste en tomar R1 la región del espacio X definida así: R1 = {x : ℓ2 f (x|C2 )P (C2 ) − ℓ1 f (x|C1 )P (C1 ) ≤ 0} (12.1316 (12. . . K.99 + 0. ANÁLISIS DISCRIMINANTE entonces hemos de comparar: P (B|X = d) = = P (M |X = d) = = P (X = d|B)P (B) P (X = d) 0.15) en que ℓi (i = 1. Si en lugar de la probabilidad de error minimizamos el coste medio total de error.01 P (X = d|M )P (M ) P (X = d) 0. Estos numeradores.14) 0. como ya ha sido hecho notar. En la práctica. la expresión a minimizar se transforma en C(e) = ℓ2 R1 f (x|C2 )P (C2 )dx + ℓ1 X −R1 f (x|C1 )P (C1 )dx(12. por lo que a efectos de decidir cuál es la clase con mayor probabilidad a posteriori bastaba con calcular los numeradores. i = 1. se denominan funciones discriminantes.3 × 0. pero la generalización a K grupos es inmediata. (j = 1. se estiman las funciones discriminantes con ayuda de la muestra de entrenamiento. Para cada caso x a clasificar y grupo Cj . evaluaremos las funciones discriminantes yi (x). y luego basta evaluar cada una de ellas para los nuevos casos a clasificar. . Asignaremos al grupo k si yk (x) = m´xj yj (x).13) 0. los denominadores en (12. Obsérvese que. El caso de diferentes costes de error. L = {ℓij }. .14) son idénticos.16) Hemos razonado para el caso de dos grupos.3 × 0. arriba mencionado.02 × 0.02 × 0. Las funciones discriminantes serán a yj (x) = f (x|Cj )P (Cj ). puede ser tratado de forma simple. . en que ℓij es el coste de clasificar en Cj un caso que pertenece a . es tan grande el “prejuicio” a favor de que el lote examinado sea bueno que no basta encontrar una sola pieza defectuosa para derrotarlo.01 = 0. o cualquier transformación monótona de los mismos.

asignaríamos a Cj si j = arg m´ ın j i 113 ℓij f (x|Ci )P (Ci ). VARIABLES NORMALES Ci . obtenemos la regla: . 2. en el caso más habitual) y pueden ser justificados de modos alternativos (empleando el enfoque de Fisher. Tras realizar los productos en las formas cuadráticas del lado izquierdo y cancelar términos iguales.5 anterior) puede admitirse que dichas funciones son conocidas.18) Como funciones discriminantes yj (x) podríamos emplear cualesquiera que fueran transformaciones monótonas de las que aparecen en el lado derecho de (12. Si las observaciones obedecen aproximadamente un modelo normal multivariante. Pero en el caso más habitual. que mencionaremos. sucede que los resultados a que da lugar son muy simples (variables discriminantes lineales. tras sencillas manipulaciones. la discriminación lineal todavía es justificable desde perspectivas alternativas. tenemos que estimar f (x|Ck ) y el modelo más frecuentemente utilizado es el normal multivariante. En algunos casos.4. (12.4. k = 1.1.4. ℓ1 P (C1 ) (12. la regla de decisión consiste en asignar al grupo C1 si: ℓ2 f (x|C2 )P (C2 ) − ℓ1 f (x|C1 )P (C1 ) ≤ 0 equivalente. Σ). Variables normales El desarrollo anterior presupone conocidas las funciones de densidad o probabilidad f (x|Ck ). en su caso. En ocasiones (como en el Ejemplo 12. 12. a: 1 (2π)−p/2 |Σ|− 2 exp − 2 (x − µ1 ) ′ Σ−1 (x − µ1 ) −1 2 1 exp − 2 (x − µ2 ) ′ Σ−1 (x − µ2 ) 1 (12. Si la aproximación normal no es buena. como veremos más abajo). el problema simplemente no se presta a una discriminación lineal y hay que emplear procedimientos diferentes. Matriz de covarianzas Σ común y dos grupos Cuando f (x|Ck ) ∼ N (µk . los resultados son óptimos en el sentido en que la discriminación bayesiana lo es. las probabilidades a priori de pertenencia a cada grupo.12.18). por ser adecuado a multitud de situaciones.19) (2π)−p/2 |Σ| ≥ ℓ2 P (C2 ) .20) Simplificando y tomando logaritmos. 12. Al margen de su interés y aplicabilidad en sí mismo. y. Esto hace que las reglas discriminantes que describimos a continuación sean las más empleadas en la práctica. la expresión anterior es equivalente a −(x − µ1 ) ′ Σ−1 (x − µ1 ) + (x − µ2 ) ′ Σ−1 (x − µ2 ) ≥ 2 loge ℓ2 P (C2 ) ℓ1 P (C1 ) .

4.” Vemos que el lado derecho de (12. pero el resultado menos simple.21) y a C2 en caso contrario. ANÁLISIS DISCRIMINANTE 1 ′ −1 1 µ1 Σ µ1 − µ2 ′ Σ−1 µ2 + loge 2 2 ℓ2 P (C2 ) ℓ1 P (C1 ) (12. y su valor c puede ser estimado una sola vez. la regla discriminante es tan simple como evaluar para cada nuevo caso una función lineal a ′ x y comparar el valor obtenido con el umbral c: “Asignar x a C1 si a ′ x ≥ c.22) (12.” Las estimaciones tanto de a como de c se obtienen sustituyendo µ1 . Obsérvese que ℓ1 . podemos definir también funciones discriminantes y1 (x) = a ′ x − c y2 (x) = c − a x ′ (12. Diferentes covarianzas: Σ1 = Σ2 . y a C2 en caso contrario. ℓ1 P (C1 ) 1 que tomando logaritmos. ℓ2 .114 “Asignar a C1 si: x ′ Σ−1 (µ1 − µ2 ) ≥ CAPÍTULO 12. P (C1 ) y P (C2 ) sólo intervienen en la regla discriminante modificando el umbral que a ′ x debe superar para dar lugar a asignación al grupo C1 .23) asignando x al grupo k si yk (x) es máximo. La influencia sobre dicho umbral es la esperable: mayores valores de ℓ2 (coste de clasificar en C1 un caso que realmente pertenece a C2 ) y P (C2 ) incrementan el umbral.24) 1 +µ1 ′ Σ−1 µ1 1 −µ2 ′ Σ−1 µ2 . Aunque en la forma expresada la regla discriminante es de utilización muy simple.2. ℓ2 P (C2 )|Σ2 |− 2 ℓ1 P (C1 )|Σ1 |− 2 (12.21) es constante. En efecto. en lugar de la expresión (12. 12. en tanto mayores valores de ℓ1 y P (C1 ) lo disminuyen.20) tenemos ahora 1 (2π)−p/2 |Σ1 |− 2 exp − 2 (x − µ1 ) ′ Σ−1 (x − µ1 ) 1 1 −2 1 (2π)−p/2 |Σ2 | 1 exp − 2 (x − µ2 ) ′ Σ−1 (x 2 − µ2 ) ≥ ℓ2 P (C2 ) . y dos grupos El análisis es enteramente similar. obtenemos: −1 −1 −x ′ (Σ1 − Σ2 )x + 2x ′ (Σ−1 µ1 − Σ−1 µ2 ) ≥ 2 loge 1 2 ℓ1 P (C1 )|Σ1 |− 2 1 ℓ2 P (C2 )|Σ2 |− 2 1 . proporciona: −(x − µ1 ) ′ Σ−1 (x − µ1 ) + (x − µ2 ) ′ Σ−1 (x − µ2 ) ≥ 2 loge 1 2 Simplificando y llevando constantes al lado derecho. El lado izquierdo es una forma lineal a ′ x en que los coeficientes a también pueden ser estimados una sola vez. Hecho esto. 2 . µ2 y Σ por sus respectivos estimadores.

12.5. a j j 2 En el caso aún más particular de matrices de covarianzas idénticas. la normalidad no es un supuesto. 1 2 La frontera entre las dos regiones en que queda dividido el espacio X es ahora una hiper-superficie de ecuación cuadrática. Si ℓij = 1 para i = j y ℓii = 0 para todo i. . 12.4.5. LA REGLA LINEAL DE FISHER 115 No ha habido en (12. Algunos casos particulares son de interés. sustituyendo en (12. la linealidad sí que lo es.3 es ahora de aplicación. tomando logaritmos y prescindiendo de constantes. en lugar de aparecer como un resultado. En cambio. cuando: 1 1 i = arg m´x − loge |Σj | 2 − (x − µj ) ′ Σ−1 (x − µj ) + loge P (Cj ) . En la aproximación de Fisher.24) cancelación del término cuadrático en x como ocurre cuando Σ1 = Σ2 . entonces la regla será asignar al grupo Ci cuando i = arg m´x a j 1 − 1 (x−µj ) ′ Σ−1 (x−µj ) j 2 P (Cj ) . 12. la regla anterior se reduce a asignar a Ci cuando ′ 1 i = arg m´x loge P (Cj ) + (x − µj ) Σ−1 µj a j 2 . √ 1 e ( 2π)p |Σj | 2 o. Caso de varios grupos El desarrollo al final de la Sección 12. mientras que cuando Σ1 = Σ2 dicha hiper-superficie es un hiper-plano.” en que: A = −(Σ−1 − Σ−1 ) 1 2 c = 2 loge a = 2(Σ−1 µ1 − Σ−1 µ2 ) 1 2 ℓ2 P (C2 )|Σ2 |− 2 ℓ1 P (C1 )|Σ1 | 1 1 −2 + µ1 ′ Σ−1 µ1 − µ2 ′ Σ−1 µ2 . La regla lineal de Fisher Fisher propuso en 1936 un procedimiento de discriminación lineal que coincide con la regla derivada para dos poblaciones normales con matriz de covarianzas común.3.18) las densidades por sus expresiones correspondientes. y a C2 en caso contrario. La regla discriminante es ahora “Asignar x a C1 si x ′ Ax + a ′ x ≥ c.

Derivando (12. 2 Pues (12. El cuadrado tiene por objeto eliminar el signo.25) es decir. es la razón de esta diferencia al cuadrado de valores de a ′ X en términos de su propia varianza. que separe bien los vectores de medias de ambos grupos. Dos grupos con matriz de covarianzas Σ común El razonamiento es el siguiente: buscamos una función lineal a ′ x que separe óptimamente dos grupos. en un sentido que veremos. var(a ′ X). La expresión (12.4. tiene mayor atractivo hacer a ′ Σa = 1. Adoptemos esta última vía.26) cuya maximización proporciona a (hasta una constante de proporcionalidad. (12. (12. o. Lo que se maximiza. El numerador es el cuadrado de la diferencia entre los valores que toma a ′ X en µ1 y µ2 . vemos que (12.27) proporciona Σa ∝ (µ1 − µ2 ) ⇒ a ∝ Σ−1 (µ1 − µ2 ). como veremos en lo que sigue. resolver m´x a a [a ′ (µ1 − µ2 )]2 a ′ Σa . alternativamente.26) que es de nuevo un problema indeterminado hasta un factor de escala2 . pues.25) per se. Podemos ver (12. Maximizar (12.26) respecto de a e igualando el numerador a cero.” Buscamos pues una función a ′ X que maximice la relación señal/ruido.27) Si prescindimos de las constantes.28) que es la solución que ya teníamos para a en la Sección 12.116 CAPÍTULO 12. Podríamos fijar ||a||2 = 1.26) es invariante al multiplicar a por una constante cualquiera. y normalizar una solución cualquiera de modo que a ′ Σa = 1. Ello requiere que a ′ x tome valores “altos” en promedio para valores en un grupo. ANÁLISIS DISCRIMINANTE 12. pues nos importa la diferencia de a ′ x evaluada en µ1 y µ2 .25) es un problema mal especificado: basta multiplicar a por α > 1 para incrementar (12. Esto carece de interés: no estamos interesados en maximizar el valor numérico de (12.25).1.26) como una relación señal/ruido: el numerador es la “señal” y el denominador el “ruido. Un modo de obtener una solución única es fijando la escala de a. y no su signo. es buscar un a que maximice a ′ µ1 − a ′ µ2 2 = a ′ (µ1 − µ2 ) 2 . como se ha visto) es de interés. Una manera de requerir esto. sino en lograr que tome valores lo más claramente diferenciados posibles para casos en cada uno de los dos grupos.5. Obsérvese que el denominador es la varianza de a ′ X. obtenemos (véase Apéndice A) 2(µ1 − µ2 )a ′ [µ1 − µ2 ](a ′ Σa) − 2 a ′ (µ1 − µ2 ) 2 Σa = 0. pero. (12. y “bajos” en otro.1. . (12.

incluso aunque a lo largo de la misma los vectores de medias de los grupos resultasen máximamente separados. es fácil ver que en la dirección de la línea discontinua se obtiene una separación mucho mejor de los dos grupos: es la dirección de a en (12. y consideremos una muestra de entrenamiento con ni casos (i = 1. y una línea sólida en la dirección de la primera componente principal.28). Si hay K grupos. . . Denotamos por Xi(j) la observación i-ésima en el grupo j-ésimo. Sean pues K grupos.12. Defi- .1 es ilustrativa: se muestran contornos de igual densidad de dos grupos. pero los resultados son más complejos. Sin embargo. combinaciones lineales de las X originales. En esta dirección se presenta la máxima varianza de las observaciones. El tamaño total de la muestra es así n = K i=1 ni .1: La mejor dirección discriminante puede no ser aquélla en que más dispersión presentan las observaciones Primera componente principal µ1 µ2 Mejor direccon discriminante Es importante observar que la dirección en la que las observaciones presenta máxima dispersión (que corresponde a la primera componente principal) no necesariamente es la mejor dirección discriminante. LA REGLA LINEAL DE FISHER 117 Figura 12. . 12. hay en general no una sino hasta K − 1 variables discriminantes. La Figura 12. .5. K) en cada grupo. Más de dos grupos con matriz de covarianzas Σ común Conceptualmente el planteamiento es idéntico.2.5.

118 namos: CAPÍTULO 12. Pero puede haber otras direcciones (como la asociada a a2 en la Figura 12. K − 1) valores propios no nulos (por ser este el rango de B y por tanto −1 B. Es entonces fácil demostrar (véase Ejercicio 12. a1 ) el par formado por el mayor valor propio y su vector propio asociado. (12. tomaríamos la determinada por a1 . Ejercicio 12. siendo (λ1 . Un razonamiento similar al empleado al obtener el discrii=1 minante lineal en el caso de dos grupos. Hay a lo sumo q = m´ ın(p. En efecto. .33) (12.1) que B = K ni (X i −X)(X i − X) i=1 y X = n−1 K ni X i .34) ′ W = W1 + .30) T = i=1 j=1 ni (Xi(j) − X)(Xi(j) − X) ′ (12. ANÁLISIS DISCRIMINANTE K ni X = n−1 i=1 j=1 ni Xi(j) Xi(j) j=1 ni ′ (12.2) “especializadas” en separar algún subconjunto de los grupos (C1 . (12.2).36) Bajo el supuesto de que W tiene inversa. + WK B = T − W. tal elección de a maximiza el cociente λ= a ′ Ba a ′W a (véase Ejercicio 12. sugeriría ahora maximizar K i=1 K i=1 √ a ′ ni (X i − X) ni j=1 (Xi(j) 2 2 = a′ − X i) a ′ Ba a ′W a def = λ.31) Wi = j=1 (Xi(j) − X i )(Xi(j) − X i ) (12. (W −1 B − λI)a = 0. . de W Es interesante observar lo que proporciona el método.3). Si hubiéramos de retener una sola dirección discriminante —como hacíamos en el caso de dos grupos—.35) Derivando respecto a a obtenemos la igualdad matricial (B − λW )a = 0.29) X i = n−1 i K (12.37) Esta tiene solución no trivial para valores λ y vectores a que son respectivamente valores y vectores propios de la matriz cuadrada W −1 B.32) (12. la igualdad anterior es equivalente a (12.

e indican entre qué grupos discriminan dichas variables. Obsérvese que los vectores propios de W −1 B. aportarían una información interesante: son combinaciones de variables 0-1 que resultan máximamente correladas con las a1 ′ X. a2 a1 µ1 µ3 µ2 y C2 por un lado y C3 por otro. Por ejemplo.6. aK−1 ′ X.2). . Los vectores de coeficientes b1 . . y por tanto las direcciones discriminantes. obtendríamos pares de variables canónicas incorreladas y con correlación entre ellas respectivamente máxima. .6. . pues W −1 B no es simétrica.12. Conceptualmente. la dirección asociada a a2 discrimina bien entre los grupos C1 y C2 por un lado y C3 por otro. hay interés en tener un modo de medir su eficacia en la separación de grupos. Observación 12. . . 12. EVALUACIÓN DE FUNCIONES DISCRIMINANTES 119 Figura 12. por causa de la (habitualmente) elevada dimensionali- . pág.2: Con p = 3 grupos hay hasta p − 1 direcciones discriminantes. . . Puede haber direcciones discriminantes asociadas a un λ bajo. no son en general ortogonales. Los vectores a1 . Si completamos los datos de la muestra de entrenamiento con K columnas con valores 0 y 1 tal como en la ecuación (4. no hay mucha diferencia entre evaluar una función discriminante y un modelo de regresión.12). .1 Hay una interesante relación entre la solución anterior y los resultados que derivarían de análisis de correlación canónica y MANOVA equivalentes. aK−1 coincidirían con los obtenidos al hacer análisis discriminante lineal de los K grupos. En el caso de una función discriminante el problema es más arduo. Evaluación de funciones discriminantes Estimadas la o las funciones discriminantes con ayuda de la muestra de entrenamiento. . . 54. en la Figura 12. bK−1 de las variables canónicas “parejas”. . y no obstante muy útiles para discriminar en algún subconjunto.

etiquetados al azar como proviniendo la mitad de ellos del grupo G1 y la otra mitad del G2. Nos limitaremos a algunas ideas básicas: un tratamiento más completo puede encontrarse en Hand (1981). Observación 12. por lo general. La probabilidad de encontrar un hiperplano que separa perfectamente los puntos aleatoriamente asignados a un grupo de los asignados al otro. lo que proporciona el estimador insesgado n habitual (n − 1)−1 i=1 (Xi − X)2 . Teorema 12. No es extraño que σ 2 sea sesgado por defecto. pág. como se deduce del siguiente teorema debido a Cover (ver Bishop (1996). ¿Clasifica bien los casos en dicha muestra? Esto es similar a examinar el ajuste —quizá mediante el R2 — de un modelo de regresión lineal. 86-87). ANÁLISIS DISCRIMINANTE dad. Sin embargo. a poco grande que sea el número de variables empleadas en la discriminación. la tasa de error aparente (la tasa de error al reclasificar la muestra de entrenamiento) será una estimación muy optimista. uno). Una percepción intuitiva de lo extremadamente optimista que puede resultar una función discriminante lineal en un espacio de elevada dimensionalidad puede obtenerse así: consideremos N puntos procedentes todos de una misma distribución d-dimensional.1 La probabilidad F (N.5: los puntos provienen en realidad de la misma distribución. d) de perfecta separación de N puntos en posición general en un espacio d dimensional viene dada por F (N.38) . podríamos llevar a cabo un análisis MANOVA para contrastar la hipótesis de igualdad de grupos: esto sería similar a contrastar la nulidad de todos los parámetros en un modelo de regresión lineal. como el Teorema 12. (12. y no podemos obtener mejor tasa de error que la que resultaría de asignar puntos a uno u otro grupo lanzando una moneda al aire. sensiblemente mayores. es sin embargo bastante apreciable. obtendremos tasas de error. la razón por la que la tasa de error aparente es un estimador optimista de la tasa de error real esperable es la misma que hace que σ 2 = n−1 n (Xi − X)2 sea un estimador optimista de la ˆ i=1 varianza poblacional: hemos reemplazado E(X) por X. la probabilidad de obtener una separación espúrea cuando podemos fijar la posición del hiperplano separador en un espacio elevadamente dimensional. En el análisis discriminante. Alternativamente.120 CAPÍTULO 12. es sorprendentemente alta. d) = 1 2−N +1 d N −1 i=0 i si N ≤ d + 1 cuando N ≥ d + 1.1 más abajo pone de manifiesto. Al emplear la función discriminante sobre datos diferentes a los de la muestra de entrenamiento. el estimador de la media que mejor se adapta a la muestra (en términos de suma de cuadrados residual).2 En esencia. La idea que primero acude a nuestra mente es la de examinar el comportamiento de la función discriminante sobre la muestra de entrenamiento. La probabilidad teórica de que un procedimiento cualquiera asigne bien un punto sería de p = 0. Este sesgo es el que ˆ se corrige sustrayendo del denominador n el número de grados de libertad consumidos (en este caso.

Si no disponemos de una muestra de validación. pese a que los puntos son indistinguibles.6.3. d) de separar perfectamente N puntos en posición general en un espacio de d = 10 dimensiones F(N. d) frente a N (para d = 10).3: Probabilidad F (N. y podemos promediarlos para obtener un estimador final.d) 0. obtenemos una gráfica como la de la Figura 12. Hasta que el número de puntos N duplica 1 el de dimensiones d.0 0 0. Separaciones no perfectas se obtienen con probabilidad aún mayor.8 10 20 N 30 40 Si representamos gráficamente F (N.4 0. podemos recurrir a hacer validación cruzada. El total de errores dividido entre N estimaría la tasa de error. estimar N funciones discriminantes con (N − 1) observaciones y asignar la restante tomando nota del acierto o error. dejando fuera a efectos de validación una de las K partes en que se ha subdividido la muestra—. podemos dividir la muestra en N partes consistentes en una única observación. Podemos evaluar la función discriminante sobre una muestra de validación. .12. estimar la función discriminante con (K − 1) de ellas y evaluar sobre la restante. Hay varias opciones para combatir el sesgo en la tasa de error aparente. tenemos la técnica de validación cruzada: obtenemos K diferentes estimadores de la tasa de error —cada uno de ellos. En el caso extremo (leave one out). Si hacemos que cada una de las K partes sea por turno la muestra de validación. EVALUACIÓN DE FUNCIONES DISCRIMINANTES 121 Figura 12. consistente en subdividir la muestra en K partes. distinta de la que ha servido para estimar la función: ello dará una estimación insesgada de la tasa de error. la probabilidad de perfecta separabilidad es superior a 2 .

n1 .1) Demuéstrese que B tiene rango no mayor que K − 1. Dillon and Goldstein (1984).122 CAPÍTULO 12. Bibliografía comentada Casi todos los manuales de Análisis Multivariante contienen una introducción al análisis discriminante.39) Ayuda: puede sumarse y restarse X i en cada uno de los paréntesis de la definición (12. ni es quizá la fuente más adecuada para una primera aproximación al tema.5. .2 se ha definido B = T − W . Demuéstrese K que B = i=1 ni (X i − X)(X i − X) . n1 + n2 . Ejemplos son Cuadras (1981). si i = n1 + 1.5 Sea un problema de discriminación entre dos grupos con n1 y n2 observaciones en la muestra de entrenamiento. que contiene mucha bibliografía. con una buena bibliografía. entonces λ= a ′ Ba . . es Hand (1997). 12. Hand (1981) es otro libro que continua manteniendo su interés.3 Demostrar que si λ y a son respectivamente un valor propio de W −1 B y el correspondiente vector propio asociado. . especialmente aplicadas a reconocimiento de pautas y desde una perspectiva estadística. yi = xi ′ β + ǫi con yi = n2 n1 +n2 − n1n1 2 +n si i = 1. . ANÁLISIS DISCRIMINANTE 12.2 (↑ 12. pero es útil para profundizar en el mismo.7. . a ′W a 12. 12. El resto del libro es también de interés. Más actual. . Una monografía moderna es McLachlan (1992). . CUESTIONES.4 Compruébese que en el caso de diferentes costes de mala clasificación y distribución normal. Muéstrese que si estimamos el modelo de regresión lineal. el Capítulo 3 compara la versión más simple de perceptrón con el método clásico de Fisher.31) de T . Bishop (1996) es un libro sobre redes neuronales. no tiene estructura de texto. . ′ (12. 12. COMPLEMENTOS Y COSAS PARA HACER 12. . incluso aunque las matrices de covarianzas intragrupos sean idénticas.1 En la Sección 12. Una monografía algo antigua pero todavía de valor es Lachenbruch (1975). las funciones discriminantes son en general no lineales. y Rencher (1995).

y) = d(y.7) Consideremos la distancia de Mahalanobis definida entre observaciones procedentes de una misma población con matriz de covarianzas Σ. esté más próximo en términos de distancia p ′ euclídea ordinaria: d(x.10 (↑ 12.9) (↑ 12. d(x.7) Compruébese que la distancia de Mahalanobis es invariante frente a transformaciones lineales de las variables. d(x. La distancia euclídea ordinaria entre ellas coincide con la distancia de Mahalanobis entre las originales. z) para todo x. son: no negativos. y) + d(y.12.8 (↑ 12. Muéstrese que la regla que se obtiene es idéntica a la obtenida por Fisher. y) > 0 si x = y y d(x.11 (↑ 12. Muéstrese que si Σ es de rango completo la expresión 3. en cuanto que algunos autores llaman distancia de Mahalanobis a la expresión anterior con Σ reemplazada por su análogo muestral. y. y da lugar a un discriminador lineal entre los dos grupos. 123 12. y) = (x − y) I(x − y) = i=1 (xi − yi )2 . podría pensarse en transformar el problema original en otro con matriz de covarianzas escalar y resolver éste último. 12.9 se presenta con matrices de covarianzas no escalares. y) = 0 si x = y. 12. y la T de Hotelling puede obtenerse como transformación monótona de la R2 .9 Como primera aproximación al problema de discriminar entre dos grupos podríamos concebir la siguiente regla: Asignar x al grupo de cuyo vector de medias.7) Dado que el problema puesto de manifiesto en el Ejercicio 12. x). y) = (x − y) ′ Σ−1 (x − y) define una distancia (distancia de Mahalanobis3) p 12. 12. . d(x. Su matriz de covarianzas es I.7 Llamamos distancia en un espacio Rp a toda aplicación d : Rp × 1. z) ≤ d(x.7. Esta regla podría dar lugar a clasificar un caso en un grupo cuando en realidad es más plausible que proceda de otro. y ∈ Rp lo siguiente: 2. d(x. Ilústrese con un ejemplo de dos grupos con distribución normal bivariante y matrices de covarianzas no escalares. Muéstrese que siempre es posible hacer una transformación lineal de las variables originales de modo que las transformadas verifican: 1. 3 Hay alguna ambigüedad en la denominación. R −→ R verificando ∀x. entonces el β ob2 tenido por MCO coincide con el a obtenido por Fisher. BIBLIOGRAFÍA COMENTADA ˆ y xi = vector de variables correspondiente al caso i-ésimo. µ1 ó µ2 . 12.6 Demuéstrese que los valores propios de W −1 B cuyos vectores propios asociados definen las direcciones discriminantes. 2. z ∈ Rp . si las matrices de covarianzas en ambos grupos no fueran escalares (diagonales y con idénticos elementos a lo largo de la diagonal) e iguales.

ANÁLISIS DISCRIMINANTE .124 CAPÍTULO 12.

1 designaría una sucesión de operaciones de partición recursiva de una muestra. Podemos ver un árbol binario como una representación esquemática de un proceso de partición recursiva. Gráficamente representaremos los árboles con la raíz arriba. Cada nodo terminal u hoja designa una de las clases a las que finalmente van a parar los elementos que dejamos caer desde la raíz. 125 . El resto se lleva al nodo n en el que tomamos una decisión ulterior. Hay un sólo nodo (la raíz) que no tiene padre. que denominamos C. separándolo en las clases A y B. En el caso de nodos sin hijos (o nodos terminales) hablamos también de “hojas”.1.Capítulo 13 Arboles de regresión y clasificación 13. el árbol de la Figura 13. una clase. 2. como en la Figura 13. Por ejemplo. Primeramente separamos. 3. en r. cada nodo no terminal designa una decisión para particionar la fracción de muestra que llega a él en dos partes. Arboles binarios Llamamos árbol binario a un grafo formado por nodos y arcos verificando lo siguiente: 1.1. Cada nodo tiene exactamente dos o ningún hijo. Cada nodo distinto de la raíz tiene un único padre. En un árbol binario. en que en cada nodo no terminal tomamos la decisión de particionar una muestra de una cierta manera.

B y C.2: Árbol binario para clasificar pacientes en grupos de supervivencia homogénea ¿X1 >65 años? No C Sí ¿X5 = “Sí”? Sí A B Ejemplo 13. para acabar clasificando la muestra en clases relativamente homogéneas en lo que se refiere a la variable respuesta. ARBOLES DE REGRESIÓN Y CLASIFICACIÓN Figura 13. r n C A B Figura 13. recogiendo diferentes características clínicas. . xp . un árbol como el de la Figura 13. C y raíz r. Entonces. si han sobrevivido o no a una cierta operación—. Un árbol binario de clasificación describiría las operaciones de partición a realizar y el orden en que se efectúan las mismas. que X1 es “edad” y X5 es “Ha sufrido un infarto previo”. . Tenemos también los valores que ha tomado una variable de interés —como por ejemplo. .1: Árbol binario con tres hojas. . x1 . A. por ejemplo. B.126 CAPÍTULO 13.1 Imaginemos una situación en que la muestra de entrenamiento consiste en N sujetos de cada uno de los cuales tenemos p variables. Si resultara que el desglose de los casos que caen en las mismas es: .2 realizaría una clasificación de los sujetos en la muestra de entrenamiento en tres hojas A. Supongamos.

si regresáramos las Y sobre tres columnas cada una de las cuales tuviera unos para los sujetos en una de las tres clases. 13. asignarlo a una de las hojas y efectuar una predicción del valor de su Y : típicamente.2 (un árbol de regresión) En el ejemplo anterior.2. B y C sería. y si tomamos ése es porque la división que logra es la “mejor”. Un nuevo sujeto del que sólo conociéramos los valores de las X podría ser “dejado caer” desde la raíz y clasificado en uno de los grupos de riesgo de acuerdo con la hoja en que cayera. ¿Qué nodo procede dividir en cada etapa? 2. que al construir el árbol especificamos los “regresores”. De hecho. el tiempo de supervivencia a partir del tiempo de una intervención quirúrgica.2. Una especificación del espacio de búsqueda: ¿que tipos de particiones estamos dispuestos a considerar? 3. la variable respuesta Y era cualitativa: podía tomar uno de dos estados. Un árbol sustituye una superficie de respuesta continua por una superficie de respuesta a escalones. la media aritmética de los valores en la hoja en que ha caído.2. la variable X1 (Edad) en el Ejemplo 13. El árbol serviría para. En este caso. Por ejemplo. la C como de bajo riesgo y la A como de riesgo intermedio. Construcción de árboles binarios La metodología a seguir para construir un árbol binario resulta de conjugar varios elementos: 1. las estimaciones de los parámetros β de la regresión coincidirían con las medias aritméticas de las clases. homogéneos en cuanto a sus valores de Y . podríamos tener un árbol quizá exactamente igual al presentado en la Figura 13. Los casos que acabaran en las hojas A.1 se recodifica a “Sí” y No” (ó 0 y 1) a partir de un cierto umbral: podíamos haber tomado cualquier otro. en un sentido que habremos de especificar más abajo. Ejemplo 13. sin embargo. CONSTRUCCIÓN DE ÁRBOLES BINARIOS Hoja A B C Supervivientes 40 % 20 % 80 % Fallecidos 60 % 80 % 20 % 127 estaríamos justificados en rotular la clase B como de alto riesgo. Podemos imaginar una respuesta Y continua en una situación similar: por ejemplo. Nótese también que. ¿Cómo estimar la tasa de mala clasificación (o varianza de predicción en el caso de árboles de regresión)? . B y C. en cierto modo.13. si el árbol está bien construido. A. Un criterio para evaluar la ventaja derivada de la división de un nodo. dados los valores de las X de un nuevo sujeto. las variables continuas se discretizan: la edad X1 queda reducida a dos grupos: mayores de 65 años o no. pero su uso e interpretación sería diferente. Nótese. a diferencia de lo que ocurre en un modelo de regresión. Este uso del árbol es completamente análogo al que se hace de una ecuación de regresión estimada.

como veremos.2. i=1 p(i|t)p(j|t). Hay varias elecciones de i(t) de uso común que verifican las propiedades anteriores. sino en relación a la de sus posibles descendientes. sobre la conveniencia de podar un árbol que ha crecido en exceso. Un criterio para asignar un valor (o etiqueta de clase) a cada hoja. i=j En realidad. Ello. Queremos valorar la ganancia en términos de impureza de una división del nodo t. i(t) = p(j|t) log e p(j|t). Una posibilidad intuitivamente atractiva es . 13. en efecto. describiendo a continuación el algoritmo de construcción de árboles. más otras deseables —como simetría en sus argumentos—. En el caso de árboles de clasificación. ARBOLES DE REGRESIÓN Y CLASIFICACIÓN 4. Medidas de “impureza” de nodos y árboles. la i(t) se toma habitualmente igual a la varianza muestral intranodo: nodos muy homogéneos son aquéllos con escasa varianza interna. en que la respuesta es cualitativa. Por el contrario. Tenemos así la función entropía J i(t) = − y el índice de Gini. Imaginemos que la variable respuesta cualitativa Y puede tomar J valores. pues un nodo en que todas las clases aparecen equi-representadas es en cierto sentido máximamente impuro. En el caso de árboles de regresión. (1984) denotaremos la impureza del nodo t por i(t). Un criterio para decidir cuándo detener el crecimiento del árbol. no nos interesa de ordinario la i(t) de un nodo per se. Sea p(j|t) la proporción de elementos de clase j en la muestra de entrenamiento que han ido a parar al nodo t. Claramente desearíamos que i(t) fuera mínima si p(ℓ|t) = 1 p(j|t) = 0 ∀j = ℓ.1. desearíamos que la función i(t) fuera máxima cuando p(j|t) = J −1 ∀j. correspondería a un nodo “puro”: todos los elementos que van a parar a él son de la clase ℓ. Siguiendo la notación de Breiman et al. la impureza de un nodo debería estar en relación con las proporciones en que se presentan los elementos de las diferentes clases.128 CAPÍTULO 13. 5. Examinaremos cada cuestión por separado. o.

CONSTRUCCIÓN DE ÁRBOLES BINARIOS 129 ∆(s. entre los que no cabe establecer un orden natural.2) Podríamos también evaluar la calidad de un árbol atendiendo a su tasa de error. el criterio es el de mayoría —se asigna el caso a la clase más representada en el nodo— o de máxima probabilidad a posteriori. En el caso de un árbol de clasificación. Normalmente. t) = i(t) − pL i(tL ) − pR i(tR ). en que la mejora en términos de impureza resultante de elegir la división s del nodo t se evalúa como la diferencia entre la impureza de dicho nodo y las de sus dos hijos. En el caso de árboles de regresión. X. “verde”. En este caso.2.1) crece. Nótese que R(T ) es relativa al criterio de asignación de clase a los casos que caen en cada nodo terminal.13. Si T es el conjunto formado por las hojas de T . por un lado. X toma K valores distintos. (13. valor medio de suma de cuadrados intra-nodo de las desviaciones respecto a la media—. 13. La impureza total I(T ) de un árbol T se define como la suma ponderada de ˜ impurezas de sus hojas. tL y tR . y Nacionalidad C”. Un nodo terminal puede verse como un árbol degenerado con un sólo nodo terminal. Espacio de búsqueda Hay una infinidad de formas posibles de efectuar divisiones en función de los valores que tomen las variables predictoras. Distinguiremos varias situaciones.2. es: ∆(s. y por lo tanto tendremos como notaciones equivalentes R({t}) y R(t). entonces I(T ) = ˜ t∈T p(t)i(t) (13. típicamente es la probabilidad de obtener una mala clasificación al dejar caer un caso por él. t) = pL pR 4 |p(j|tL ) − p(j|tR )|2 . “azul” o “Nacionalidad A”. “Nacionalidad B”. o en el subárbol Tt que crece desde el nodo t. con la simetría de la división en cuanto al número de elementos de la muestra enviados a cada hijo. Si tenemos que discriminar con ayuda .2. Variable X nominal.1) j Observemos que la expresión (13. R(Tt ). Hablaremos también de la tasa de error en un nodo. R(t). y no podemos en general considerar todas ellas. Una posibilidad adicional que evalúa la ganancia de la división s sin evaluar explícitamente una función de impureza en el padre y cada uno de los hijos. ponderadas por las respectivas proporciones pL y pR de elementos de la muestra que la división s hace ir a cada uno de ellos. lo que es intuitivamente atrayente. y por otro con la separación lograda entre las proporciones de cada clase en los dos hijos. la tasa de error es alguna medida conveniente —normalmente. como “rojo”. R(T ).

el cálculo se simplifica. en que tanto a como c han de optimizarse para lograr divisiones con la máxima pureza en los nodos hijos. el número de cortes a ensayar será de N −1. Véase Ripley (1996). si la variable X toma n valores. Operaremos como con las variables ordinarias. Véase Ripley (1996). . En cada nodo nos formulamos una pregunta tal como: “¿Es Xi < c?”. 218 ó Breiman et al.1 Si i(t) es estrictamente cóncava y estamos ante un árbol de clasificación en dos clases. pág. (1 ≤ ℓ ≤ K − 1) y enviando un grupo al hijo derecho del nodo t y el otro al hijo izquierdo. pág. como habitualmente acontecerá para una variable continua. xℓ } {xℓ+1 . basta considerar los K − 1 divisiones agrupando las categorías así {x1 . siendo N el tamaño de la muestra de entrenamiento—. etiquetadas Y = 1 e Y = 0. Variable X continua. 237 y Fayyad and Irani (1992). el cálculo puede reducirse algo respecto de lo que sugiere el párrafo anterior. Observación 13. . . podemos formular en cada nodo una pregunta del tipo “¿Es a ′ X < c?”.2 En el caso de árboles de clasificación. . al coste de un esfuerzo de cálculo superior. cuya respuesta afirmativa o negativa decidirá si el elemento que examinamos es enviado al hijo izquierdo o al hijo derecho del nodo en que estamos. . . podemos formar todos los subgrupos de los K valores que puede tomar X y enviar a la izquierda los casos con X tomando valores en un subgrupo y a la derecha los restantes. Se puede mostrar que no es preciso considerar todas las 2K−1 − 1 posibilidades de agrupar las K categorías de X en dos grupos. Divisiones así dan lugar a hiper-planos de separación que ya no han de ser paralelos a los ejes. 101. Si ordenamos los N elementos en un nodo t de acuerdo con el valor que que toma para ellos una variable continua X. pág. . podemos obtener hasta N valores diferentes: pero no necesitan ser considerados aquellos elementos flanqueados por otros de su misma clase.130 CAPÍTULO 13. . . Ordenemos los K valores que toma el predictor X en el nodo t de modo que p(1|X = x1 ) ≤ p(1|X = x2 ) ≤ · · · ≤ p(1|X = xK ). si bien aquí será frecuente que el número de valores de corte a ensayar sea mucho mayor —si no hay repeticiones. Observación 13. ARBOLES DE REGRESIÓN Y CLASIFICACIÓN de una variable nominal los elementos que van a los hijos izquierdo y derecho en la división del nodo t. se consideran como posibles cortes los (n − 1) valores intermedios. Variable X ordinal. Adicionalmente. En este caso. xK } . (1984).

Estimación por validación cruzada La idea de validación cruzada . como vimos.3.3) . es útil por consiguiente prestar alguna atención al modo de estimar R(T ). promediándolas. . es de aplicación también aquí. dejando cada vez fuera de la muestra de entrenamiento (para validación) una fracción de k−1 del tamaño muestral total. tal estimador puede estar severamente sesgado a la baja. Si lo hacemos reclasificando la muestra de entrenamiento. porque. R(k) (T ) y. Obtendríamos así k estimaciones R(1) (T ). encontraremos. a igualdad de dimensionalidad de los datos. . R(T ) es de fácil y rápido cálculo. Rcv (T ) = R(1) (T ) + · · · + R(k) (T ) . pero también el potencialmente más sesgado a la baja. tan presente en multitud de contextos.13. Estimador por muestra de validación. Estimación de la tasa de error La elección de un árbol con preferencia a otro dependerá en general de sus respectivas R(T ). ˆ No obstante. CONSTRUCCIÓN DE ÁRBOLES BINARIOS 131 13. que nos desviaría notablemente de la construcción de un árbol óptimo. y puede ser útil para comparar árboles con igual o muy similar número de nodos. un árbol de clasificación tiene mucha más flexibilidad que un discriminante lineal para adaptarse a las peculiaridades de una muestra particular.3 El problema no es muy diferente del que se presenta al evaluar la tasa de error en la clasificación de una función discriminante. Observación 13.2.3. incluso agravado. .2. una tasa de error sesgada por defecto. k (13. . es el estimador por resustitución. Como se deduce de la Observación 13. y en consecuencia de dar una imagen excesivamente optimista al emplearlos para reclasificar dicha muestra. Para estimar R(T ) parecería que podemos proceder reiteradamente como en el apartado anterior. El estimador más simple. El problema se reproduce aquí. podríamos tener una imagen excesivamente optimista del ajuste del árbol a los datos. La idea es similar a la del apartado anterior. Consiste simplemente en dejar caer por el árbol la misma muestra que ha servido para construirlo. que de otro modo habríamos podido emplear en el entrenamiento. al permitir los árboles binarios una gran flexibilidad para adaptarse a una muestra dada. Estimador por resustitución. pero que tiene el inconveniente de forzarnos a reservar para su uso en validación una parte de la muestra. Tenemos así un estimador Rts (T ) que cabe suponer insesgado por lo menos aproximadamente. formada por tanto por casos que no han sido vistos por el árbol y a los cuáles no se ha podido adaptar. pero lo que se deja caer ahora por el árbol es una muestra distinta a la de entrenamiento. Se presenta el problema de estimarlas: según como lo hagamos.

Se ha propuesto también hacer uso de estimadores basados en técnicas de bootstrap. no nos limitamos a ajustar un parámetro (la media) en cada hoja. La Figura 13. que esta estrategia daba resultados muy pobres y esto es debido a que. Criterios de parada y/o poda Una de las ideas más fecundas en la metodología propuesta por Breiman et al. Se observó. podríamos penalizar la tasa de error así: ˆ ˜ Rα (T ) = R(T ) + α|T |. ARBOLES DE REGRESIÓN Y CLASIFICACIÓN Obsérvese.4) ˜ siendo |T | el número de hojas del árbol T y α un parámetro de coste de cada hoja. que el árbol que hiciéramos crecer con cada una de las submuestras podría quizá ser distinto a los demás: la expresión anterior sólo tendría sentido tal cual está escrita en el (improbable) caso de que obtuviéramos exactamente el mismo árbol con las k submuestras empleadas. 13. Hacemos más cosas: seleccionamos las variables con arreglo a las que particionamos.6. Puede verse. sin embargo. Dado que en cada paso se examinan árboles con un número de nodos muy similar. del modo que se verá en 13. que . basta a efectos de dictaminar la procedencia de una nueva ˆ división con estimar R(T ) por R(T ). 238. Tasa de error penalizada Para la selección de un árbol entre los muchos que podemos construir sobre una muestra. (13. Estimadores bootstrap. Véase Ripley (1996). emplear validación cruzada para obtener una estimación de la tasa de error asociada a un árbol concreto. subdivisiones que por sí mismas no serían justificables. ilustra ésto con claridad: dividir un nodo no es igual que reemplazar un regresor por otros dos.3 lo ilustra en un caso artificialmente simple. La complejidad del árbol queda medida así por el número de hojas. No obstante. pág.2. No podemos. con dos variables y dos clases. y los umbrales. En el contexto actual. la expresión ˆ (13.2. pág. sin embargo.2.5.4. 127.4) pondera tanto la bondad de ajuste del árbol (medida por R(T )) como su complejidad. El Ejemplo 13. 13. podemos pensar en el empleo de criterios análogos a la Cp de Mallows o AIC de Akaike. en efecto. (1984) es la de “mirar hacia adelante”.2. abren el camino a otras muy provechosas. Inicialmente se ensayaron estrategias consistentes en subdividir nodos (escogiendo en cada momento la división que produjera la máxima disminución de impureza i(t)) mientras un estimador adecuado de R(T ) disminuyera. no tenemos idea de cuál haya de ser un valor adecuado de α. por ello. en ocasiones.132 CAPÍTULO 13. Si podremos hacerlo para seleccionar un árbol. porque incluso en el caso más simple de un árbol de regresión. No ˜ tenemos tampoco claro que |T | sea una medida adecuada de la complejidad: no es el número de parámetros.

13. CONSTRUCCIÓN DE ÁRBOLES BINARIOS 133 Figura 13. pero abre la vía a otras sumamente provechosas X X X X O O O O O O X X O O X2 O O O X O O X X X X X O O O X O X X S X1 .3: Una división en X1 = S es inútil por si misma.2.

8) en tanto que para α lo suficientemente grande se verifica la desigualdad contraria. La cuestión clave no es por tanto dónde parar el crecimiento del árbol. porque no sabemos lo que hay “más allá” de la división de un nodo hasta que lo vemos. Consideremos la oportunidad de podar la rama Tt que brota del nodo t en un cierto árbol. T ) = m´ t g(t. Rα (t) < Rα (Tt ). verificando Rα (t) = Rα (Tt ). (13. T (α1 )) para todos los nodos no terminales. Si lo que se encuentra no justifica la frondosidad añadida al árbol siempre estamos a tiempo de podarlo. La tasa de error penalizada de dicho nodo y de la rama que brota de él. ın Tras la poda de la rama Tt∗ obtenemos el árbol T (α1 ). T ). Valores superiores de α (= mayor coste de la complejidad) nos impulsarían a podar la rama. ˆ ˆ Rα (t) = R(t) > R(Tt ) = Rα (Tt ). La estrategia de poda propuesta por Breiman et al. lo que nos proporciona g(t. ˜ |Tt | − 1 Un valor α igual a g(t. sobre el repetiremos el cálculo de los valores g(t. en tanto que valores menores nos impulsarían a conservarla. y podaremos def . T ).134 CAPÍTULO 13.6) (13. T ). Es fácil ver que para α = 0. ARBOLES DE REGRESIÓN Y CLASIFICACIÓN particionar el espacio a lo largo de X1 = S no logra prácticamente ninguna reducción de la impureza: ambas mitades tienen aproximadamente un 50 % de elementos ‘O’ y ‘X’. Esto sugiere que conviene construir árboles muy frondosos. sino cuánto podar un árbol que deliberadamente hemos dejado crecer hasta tamaños mayores de lo concebiblemente necesario. llamémosle g(t.7) ˆ ˜ R(s) + α|Tt |. (1984) es muy simple: para cada nodo no terminal (en que no ha lugar a podar nada) se evalúa g(t.5) (13. serían respectivamente: ˆ Rα (t) = R(t) + α ˆ ˜ Rα (Tt ) = R(Tt ) + α|Tt | = ˜ s∈Tt (13. El procedimiento de poda propuesto en Breiman et al. T ) = ˆ ˆ R(t) − R(Tt ) . (1984) es muy simple. Se poda a continuación la rama Tt∗ brotando del nodo t∗ verificando α1 =g(t∗ . cada una de dichas mitades puede ahora ser subdividida en dos regiones prácticamente puras. No obstante. Podemos obtener fácilmente este valor despejando α de la igualdad ˆ ˆ ˜ R(t) + α = R(Tt ) + α|Tt |. T ) hace que nos sintamos indiferentes entre la poda o no de la rama Tt . Por tanto habrá un valor de α.

13. anidados. Se puede demostrar que con el modo de proceder anterior se obtiene una sucesión de árboles con la misma raíz. MARS. 20 habla de árboles desde una perspectiva marcadamente más matemática. Ripley (1996) dedica el Cap. 13. (2001). pueden utilizarse también las rutinas de Therneau and Atkinson (1997). .3. Fue el libro que otorgó carta de ciudadanía a métodos que habían sido propuestos previamente desde perspectivas menos generales. Por ejemplo. una sucesión T ≻ T (α1 ) ≻ T (α2 ) ≻ .6. ≻ {raíz}. Antecedentes y refinamientos Se han propuesto metodologías alternativas a la descrita (CART). que añaden alguna funcionalidad como particiones suplentes (surrogate splitting). Toma la idea de particionar recursivamente el espacio de las variables predictores. Otros manuales que tratan sobre árboles de regresión y clasificación son Zhang and Singer (1999) y Hastie et al. Bibliografía comentada La monografía Breiman et al. es la seguida por Kooperberg et al. (1984) continúa siendo una referencia básica. ANTECEDENTES Y REFINAMIENTOS 135 la rama que brote del nodo con menor g(t. (1996) en su Cap. Devroye et al. Es decir. La referencia seminal es Friedman (1991). orientada a la clasificación. T (α1 )) (valor que denominaremos α2 ). pero en lugar de ajustar una constante en cada hoja —al igual que un árbol de regresión como los descritos— ajusta splines. . Otra generalización se conoce como MARS (Multivariate Adaptive Regression Splines). El libro Chambers and Hastie (1992) da una panorámica de lo que hay disponible en S-Plus standard. El algoritmo de construcción de árboles (por escribir) 13.). 13. Hawkins (1997) propone un método llamado FIRM y Loh and Vanichsetakul (1988) una simbiosis de construcción de árboles y análisis discriminante (que no da lugar a árboles binarios sino n-arios).3. El resultado es una superficie sin discontinuidades. . Proseguiremos del mismo modo hasta haber reducido el árbol inicial T al árbol degenerado que consiste sólo en el nodo raíz. desde el punto de vista de los problemas de clasificación. El árbol así podado lo denominamos T (α2 ). y proporciona bibliografía actualizada. que se refieren también a cuestiones no tratadas aquí (boosting.2. Una aproximación similar. etc. El Capítulo 4 de Hand (1997) es un resumen útil.4. (1997). 7 a árboles de clasificación. y con el grado de suavidad que se desee (fijando el orden de los splines en el valor que se desee).

ARBOLES DE REGRESIÓN Y CLASIFICACIÓN .136 CAPÍTULO 13.

6. Una descripción del curso entrelazado de ambos campos —neurobiología y RNA— y sus respectivas influencias puede verse en Kohonen (1997). tomada de Haykin (1998). Morfología y funcionamiento de una neurona humana Ciñéndonos sólo a los aspectos esenciales. Introducción Los primeros intentos de construir una red neuronal artificial (RNA) buscaban replicar la estructura del cerebro de los animales superiores. cada una con un 137 . y Haykin (1998).2. el precedente más antiguo. se remonta a los años cuarenta.Capítulo 14 Redes Neuronales Artificiales 14. 14.1. Cap. Cap. tal y como se percibía en la época. 1.2. una neurona humana es una célula que consta de las siguientes partes: el soma o cuerpo celular del que emanan dendritas y el axon. Una neurona recibe estímulos de otras neuronas a traves de las terminaciones sinápticas. unas y otro poseen terminaciones sinápticas con las que se unen a otras neuronas. 2. Aunque la neurobiología ha sido de modo continuado una fuente de inspiración y una metáfora adecuada del trabajo en RNA. Un esquema simplificado puede verse en la Figura 14. A su vez.1. Hay del orden de 1011 neuronas en un cerebro humano.1. Neuronas biológicas y neuronas artificiales 14. El axon puede tener del orden de 103 terminaciones sinápticas. la investigación en este campo ha seguido un camino propio. produce señales que a través del axon estimulan a otras neuronas. McCulloch and Pitts (1943). pág.

quizá afectados de ponderaciones. p. Se trataría así de un dispositivo de activación de tipo umbral: todo o nada.2. Neuronas artificiales La descripción anterior. Hoy se sabe (cf. sin embargo. dependiendo de si se traspasa dicho umbral. Sec.2. . “dispara”. como se describe a continuación. y si la suma sobrepasa un cierto nivel crítico de excitación. . lo que da un sistema masivamente paralelo de complejidad casi inimaginable. es decir. transcrita a notación matemática. Dicha descripción.138 CAPÍTULO 14. wp . por ejemplo Kohonen (1997).2) que la naturaleza de las interacciones entre neuronas es más compleja de lo que la simple descripción anterior haría pensar. las pondera mediante coeficientes w1 . . En el trabajo pionero McCulloch and Pitts (1943) se suponía que cada neurona “computa” su salida o respuesta de modo muy simple: suma los inputs. equivale a que una neurona toma todos sus entradas. elevado número de entradas y salidas sinápticas conectadas con otras neuronas. . REDES NEURONALES ARTIFICIALES Figura 14. proporciona un punto de arranque e inspiración para el desarrollo de neuronas artificiales. 14. Tomado de Haykin (1998). produce una salida en su axon. 8. 2. y .1: Esquema describiendo las partes principales de una neurona humana.

2 Una neurona con la función de excitación lineal p f (x) = i=0 wi xi y con función de activación ϕ(u) = u (identidad). Observación 14. Las siguientes son posibilidades utilizadas para f (): Nombre Escalón (o signo) Heaviside (o umbral) Logística Identidad Descripción sgn(u) 1 1 + 2 sgn(u) 2 (1 + e−u )−1 u Valores ±1 0ó1 (0. relacionando las entradas con la salida de acuerdo con una expresión como Y = f (ϕ(x.2.1) (14. sin ninguna relación con la noción estadística de sesgo). La función f () activación es habitualmente no lineal.2 con función de activación no lineal ϕ(u) = sgn(u) fue propuesta por Rosenblatt con el nombre de perceptrón con el propósito de aproximar una respuesta binaria. NEURONAS BIOLÓGICAS Y NEURONAS ARTIFICIALES proporciona a la salida: 1 1 Y = + sgn 2 2 en que “sgn” es la función definida por sgn(u) = +1 si u > 0 −1 en caso contrario.2. ϕ(x. w)).2) Podemos considerar neuronas que realizan un cómputo más general. sin tener que recoger separadamente el coeficiente w0 . pero podría tomar cualquier otra forma. Observación 14.1: Funciones de activación f (u) usuales Tenemos así que una neurona artificial realiza el cómputo esquematizado en la Figura 14. y ϕ() una función de excitación dependiente de los parámetros en w. i=1 Por simplicidad notacional consideraremos la existencia de una componente x0 de x con valor fijo igual a 1 (el “sesgo” u offset en la jerga del área.14. p 139 wi xi + w0 . x es el vector de entradas o estímulos que recibe la neurona. w) = p (wi xi + w0 ). habitualmente. +∞) Cuadro 14.1 Una neurona como la descrita en la Figura 14.3) En la expresión anterior. i=1 (14. Seleccionando .1) (−∞. (14. realiza un cómputo análogo al de un modelo de regresión lineal. Escribiremos entonces p wi xi i=0 como función de excitación de la neurona.

la función de activación ϕ(u) de modo diferente.3. podríamos lograr que la neurona realizara el mismo cómputo que un modelo lineal generalizado. con excitaciones y activaciones lineales. . 14. . y podrían computarse mediante una sóla capa. Si la salida deseada fuera un variable cualitativa. y computar una clase muy rica de relaciones funcionales entre la entrada x y la salida y. Obsérvese que no tiene objeto añadira capas de neuronas ocultas si las funciones de excitación y activación son ambas lineales: funciones lineales de funciones lineales son de nuevo lineales. . el uso de varias capas de neuronas permite apilar no linealidades sobre no linealidades. Recibe la entrada x = (x0 . Por ejemplo. una RNA con una única capa oculta de tres neuronas. podemos conectar varias neuronas entre sí para formar una RNA. x6 ) y una salida y = (y1 . y2 ) tendría una disposición como la de la Figura 14. Redes neuronales artificiales (RNA) A imagen de como acontece en el cerebro humano.2: Esquema de una neurona artificial N . dependiendo de las funciones f () y ϕ() escogidas). Observación 14. De nuevo.3. computaría un modelo MANOVA con respuesta bivariante. una entrada x = (x0 . . o añadiendo capas de neuronas ocultas.2. .3 Una RNA como la de la Figura 14. la neurona podría realizar el cómputo análogo a una función discriminante (lineal o no lineal. Si consideramos activaciones ϕ() no lineales. mediante ϕ(u) = (1 + e−u )−1 tendríamos un modelo de regresión logística. . REDES NEURONALES ARTIFICIALES x0 = 1 x1 x2 x3 x4 x5 x6 w61 w01 f (ϕ(x)) N Figura 14. podríamos reproducir mediante la RNA el cómputo realizado por una variedad muy grande de modelos.140 CAPÍTULO 14. . alterando las funciones de activación y/o excitación. . x6 ) computando la función de excitación ϕ(x) = 6 wi1 xi y entrei=0 gado f (ϕ(x)) a la salida. x1 . Por ejemplo. .3.

sin embargo. Entrenamiento de un perceptrón El perceptrón ha sido ya introducido en la Observación 14. y2 ). . d)) de uno en uno. 3). convencionalmente rotuladas como +1 y −1. . Se trata de una red neuronal muy simple compuesta por una única neurona cuyo objetivo es distinguir entre objetos de dos clases. d) (entradas y salidas observadas). Con más frecuencia que en la estimación estadística ordinaria.3. presentando a la red instancias o ejemplos (pares (x. supongamos que . mediante la presentación de ejemplos de parejas de vectores (x. . 14. S1 y S2 suman sus inputs y producen y = (y1 . Las unidades de entrada.1. x6 ) a las tres neuronas que forman la capa oculta. y el proceso de entrenamiento es equivalente al de estimación en los términos estadísticos habituales. Nj 6 (j = 1. para luego considerar ejemplos más elaborados de redes y diferentes medios de entrenarlas. Examinaremos primero un ejemplo con interés histórico —el del perceptrón– y el modo de entrenarlo. reparten el input x = (x0 . Los pesos juegan un papel similar al de los parámetros en un modelo estadístico convencional. Entrenamiento de una RNA El entrenamiento aprendizajee una red neuronal es el proceso por el cual.3. Cada una de estas neuronas computa ϕj (x) = i=0 wij xi y entrega fj (ϕj (x)) a cada unidad de salida. es decir. ENTRENAMIENTO DE UNA RNA x0 = 1 x1 x2 x3 x4 x5 x6 E0 E1 E2 E3 E4 E5 E6 w63 N3 f3 (ϕ3 (x)) N2 S2 y2 w01 N1 f1 (ϕ1 (x)) S1 y1 141 Figura 14. el entrenamiento se lleva a cabo de forma adaptativa. 14.1.3: RNA con tres neuronas. .3. Consideremos el problema de su entrenamiento en el caso simple de que los objetos de las dos clases sean linealmente separables. se fijan los valores de los coeficientes (o pesos) wij . E0 a E6 .14.

1: N ← Número de ejemplos en la muestra de entrenamiento 2: w(0) ← 0. Si. circunstancia que se comprueba en la línea 17. g) al perceptrón y se computa w ′ x. con tal de que sea positivo. . E. la asignación de las etiquetas −1 y +1 a los grupos G1 y G2 es arbitraria). Cuando esto sucede.4 El parámetro η no necesariamente ha de permanecer constante. Obsérvese que el algoritmo se presta al aprendizaje on line. por el contrario. REDES NEURONALES ARTIFICIALES existe un vector de pesos w tal que w ′ x > 0 para todos los objetos de una clase y w ′ x < 0 para todos los de la otra. η ← Parámetro aprendizaje 3: repeat 4: E←0 5: for i = 1 to N do 6: if (w(n) ′ xn+1 > 0) ∧ (xn+1 ∈ G2 ) then 7: w(n+1) ← w(n) − ηxn 8: E ←E+1 else if (w(n) ′ xn+1 ≤ 0) ∧ (xn+1 ∈ G1 ) then 9: 10: w(n+1) ← w(n) + ηxn 11: E ←E+1 12: else 13: w(n+1) ← w(n) 14: end if 15: n←n+1 16: end for 17: until E = 0 18: wfinal ← wn La idea es muy sencilla: se presentan los casos (x. hay un algoritmo muy simple (Algoritmo 2) con convergencia asegurada. los pesos se dejan en los valores preexistentes en la iteración anterior. Algoritmo 2 – Entrenamiento de perceptrón por corrección de error. Observación 14. Si el resultado es “correcto” (w ′ x > 0 para objetos en el grupo G1 y w ′ x ≤ 0 para objetos en el grupo G2 . El algoritmo finaliza cuando en una pasada sobre todos los N casos no se produce ningún error. No es preciso ningún cambio. Cuando se comete un error que requiere la modificación del vector de pesos w. se modifican los pesos tal como recogen las asignaciones 7 y 10 en el algoritmo. que produce un vector w separando correctamente los casos. se produce un error de clasificación. esto puede requerir varias pasadas sobre la muestra de entrenamiento. El parámetro η o parámetro de aprendizajeuede tomar cualquier valor. n ← 0. Frecuentemente se reemplaza por una sucesión de parámetros η(n) que disminuyen en valor absoluto conforme el aprendizaje avanza. en que los ejemplos se muestran a medida que van apareciendo.142 CAPÍTULO 14. Diferentes valores afectan sólo a la velocidad a la que converge el algoritmo. se incrementa la variable contadora de errores.

es decir. la actualización que se realiza es: w(n+1) ← w(n) − ηxn con lo que w ′ (n+1) xn = w ′ (n) xn − η ||xn ||2 ≤ w ′ (n) xn . Dicha generalización puede por otra parte verse como un caso particular del método de aproximación estocástica de Robbins-Monro (véase Robbins and Monro (1951) y Bishop (1996). Si w ′ (n) xn+1 > 0 y hubiéramos deseado que w ′ (n) xn+1 ≤ 0 (línea 6). ENTRENAMIENTO DE UNA RNA 143 La demostración de la convergencia es simple y puede consultarse en Bishop (1996).2. En definitiva.5) (14.3.6) (14. pág. sólo podremos tener éxito cuando los casos sean linealmente separables. Sin entrar a detallarla aquí. Supongamos que E[(g(θ) − f (θ))2 ] < ∞ (14.7) . Cuando esto ocurre. g y θ verificando que f (θ) = E[g|θ] (es decir. p. cuando w ′ (n) xn+1 ≤ 0 indebidamente en la línea 9. por ejemplo. 139. Teorema 14.) De modo análogo sucede con la corrección en la línea 10 del algoritmo. w(n) no se toca (línea 13). Claramente. por lo que de ordinario serán necesarias varias pasadas sobre los datos.14. nos movemos en la dirección deseada (w ′ (n+1) xn se hace “menos positivo”). Si el nuevo caso es correctamente clasificado por el perceptrón. el algoritmo suministra un método de discriminación alternativo a los estudiados en el Capítulo 12 para el caso de dos grupos. 14. 100 ó Haykin (1998).4) y. 46–48) que describimos a continuación. el algoritmo consiste en ir perturbando secuencialmente un hiperplano de modo que consigamos separar todos los casos. f () es una función de regresión de g() sobre θ).3. que f (θ) es monónota decreciente. sin pérdida de generalidad. 10 ó 13 del Algoritmo 2 es “lógica”. El procedimiento anterior puede ser generalizado al caso en que la respuesta no es binaria. p. El método de corrección de error. Sea una sucesión de números reales an verificando: n→∞ ∞ n=1 ∞ n=1 l´ an = 0 ım an = ∞ a2 < ∞.1 Consideremos dos variables correladas. n (14. a tanta mayor velocidad cuanto mayor sea η. (Obsérvese que una actualización de este género puede introducir errores en ejemplos previamente bien clasificados. es fácil ver que la actualización que se hace en las líneas 7.

w)) ∂ Fi (x(n) . si podemos evaluar la función g(θ) en una sucesión de valores θ1 . X.10) Es equivalente resolver la ecuación anterior of 1 N N n=1 m i=1 (yi (n) − Fi (x(n) . . a una raíz de (14.144 CAPÍTULO 14. vemos que la expresión (14. w (n) ) w (n) (14.11) y para N grande. . w) = 0. vemos que es de aplicación el Teorema 14. una raíz de f (θ) = E[g|θ] = 0.13) Si consideramos el caso de una red neuronal similar al perceptrón considerado en la Sección 14. .9) Las condiciones de primer orden estipulan ∂ E(Y . REDES NEURONALES ARTIFICIALES entonces. .15) = w (n) + an e(n+1) x(n) . que converge casi seguramente a una raíz de (14. X. θn . . El teorema anterior sugiere un procedimiento para entrenar secuencialmente una red neuronal. w) = 1 2 N m (yi n=1 i=1 (n) − Fi (x(n) . w (n) ) w (n+1) = w (n) + an yi (n) − F (x(n+1) . como por ejemplo E(Y . w)) ∂ Fi (x.1. aproximadamente.12) si identificamos la función cuyo valor medio se computa en (14. w) continua y suficientemente derivable. (14. ∂w (14. . generados así: θn+1 = θn + an g(θn ).13) se particulariza a: w (n+1) = w (n) + an yi (n) m − Fi (x(n+1) .12) con f (θ) y θ con w. el lado izquierdo de la igualdad anterior es aproximadamente igual al valor medio m E i=1 (yi − Fi (x.8) se tiene que θn converge con probabilidad 1 a θ0 .14) (14. w) . Estamos interesados en optimizar una función de error E(Y . w) = 0 ∂w (14. w))2 (14. Podemos pensar pues en aplicar el procedimiento de Robbins-Monro. ∂w (14. X. w) = ∂w N n=1 m i=1 (yi (n) − Fi (x(n) . w (n) ) ∂w i=1 (14. .11): ∂ Fi (x(n+1) .1 pero con activación lineal y respuesta continua.12) y por tanto. w)) ∂ Fi (x(n) .

veremos que se trata de simplemente de aplicar un método gradiente observación a observación. podemos “responsabilizar” del error a los pesos de la única neurona que interviene. La fórmula de corrección de error (14. quizá en cascada.3. F (a(n) ).15) se convertiría en w (n+1) = w (n) + an e(n+1) F ′ (a(n+1) )x(n) ′ (14. Denominaremos gradiente locale la neurona a: δ(n+1) def = = ∂E (n+1) ∂a(n+1) e(n+1) F ′ (a(n+1) ). que hay un algoritmo que permite hacer esta tarea no trivial de modo eficaz: es el algoritmo de back-propagation de que se ocupa la siguiente Sección. utilizaremos δk local de la neurona k-ésima. en esencia.3.16) se reescribe así: w (n+1) = w (n) + an δ(n+1) x(n) . en redes con más de una neurona. El algoritmo de propagación hacia atrás El algoritmo de propagación hacia atrás o back-propagations. de modo que el influjo de la observación n + 1 sobre el vector de pesos calculado con ayuda de las n precedentes. Sucede.16) en que a(n+1) = (w (n) ) x(n+1) es la excitacióne la neurona.15) generaliza la que se presentó en la Sección 14. En lugar de calcular las derivadas de la función objetivo haciendo uso de toda la muestra y llevar a cabo una optimización por el método del gradiente ordinario. Como es lógico. sin embargo. an ocupa el lugar de η. (n+1) (14. La situación se complica cuando hay más de una neurona.18) Con esta notación. (14. debemos entonces ir amortiguando las contribuciones sucesivas. y (n) . una generalización a redes con más de una neurona del algoritmo de corrección de error .5 Si observamos la última expresión. tomamos las derivadas de la contribución a la función objetivo de cada observación. sea convenientemente pequeño: esta es la función del coeficiente de aprendizaje an .3.17) (14. y lo que obtenemos.14. la expresión (14. (14. ENTRENAMIENTO DE UNA RNA 145 en que e(n+1) designa el error de ajuste de la n + 1 observación con los pesos existentes tras procesar la n-ésima observación y x(n) es el vector de derivadas parcial de la activación respecto del vector de pesos w.6 Observemos también que la regla de actualización es muy sencilla porque sabemos lo que deseamos obtener. 14. Si la activación no fuera lineal.19) para designar el gradiente Observación 14. Observación 14. en que no es obvio qué pesos hay que modificar para reducir la discrepancia entre lo computado y lo deseado.1.

muestran el modo de actualizar los pesos a la entrada de una neurona en la primera capa cuando se presenta el caso x(n) : basta multiplicar el gradiente local de la neurona por x(n) y un parámetro de aprendizaje an . Exactamente la misma regla es de aplicación a una neurona k en una capa intermedia. REDES NEURONALES ARTIFICIALES presentado en la sección anterior. Se adopta para las neuronas una disposición espacial predeterminada: típicamente se disponen en filas y columnas. y dicha salida depende de aj a través de la función de activación F . Puesto que podemos calcular δk para una neurona en la última capa. en particular la ecuación (14. 141). 2. A cada neurona se le asigna un vector de pesos wij (los dos índices hacen referencia a la fila y columna en que esta ubicada la neurona). Mapas auto-organizados (SOM) Los mapas auto-organizados (self-organizing maps. para utilizarlas en algoritmo de tipo gradiente. 14. (1986) aunque la idea parece preexistente (ver Bishop (1996).20) en que la suma se toma sobre todas las neuronas k que reciben como entrada la salida de la neurona j.19) en que e(n+1) y a(n+1) son ambos calculables. porque podemos hacer uso de (14. SOM son un tipo de redes neuronales directamente inspiradas como los perceptrones en lo que parece ser un modo de funcionar del cerebro. Se aprecia en el mismo una organización espacial: las neuronas tienden a estimular a. El único problema. y ser estimuladas por.146 CAPÍTULO 14. La Sección anterior. .4. aquéllas que les quedan más próximas. lo que produce que se especialicen en una función grupos de neuronas próximas. Kohonen (1997) propuso un tipo de red neuronal artificial que imita dicho comportamiento. Efectivamente: la activación de la neurona k depende linealmente (a traves del peso wkj ) de la salida zj de la neurona j. es calcular el gradiente local para una tal neurona. Básicamente opera así: 1. Fue popularizado por Rumelhart et al.19). Tenemos pues un método simple que permite calcular las derivadas de la función de error respecto de las activaciones (y respecto de los pesos en consecuencia). con la salvedad de que lo que se presenta a la entrada de la misma ya no es x(n) sino el vector z (n) de salidas de todas las neuronas en la capa precedente conectadas directamente a la k. haciendo uso de la regla de la cadena: δj = ∂E (n+1) (n+1) ∂aj = k ∂E (n+1) ∂ak (n+1) ∂ak (n+1) (n+1) ∂aj = k δk F ′ (aj )wkj . pues. p. Se inicializan los vectores wij de cualquier modo conveniente. (14.

k = 1. Si las tenemos dispuestas en filas y comunas podríamos recurrir a una distancia entre las neuronas (i. Si (iopt . Para cada neurona y cada observación en la muestra de entrenamiento se computa Rij.k ın i. 9: for ℓ ∈ {c − 1.14. Respecto de la última cuestión. jopt ) “gana” la competición. . w ← 0 3: c ← Número de capas . l) verificando d2 < d para un ij.k = ||xk − wij ||2 . 8: Evaluar δk para todas las neuronas conectadas a la salida. j) serían aquéllas (k. 147 3. ij. jopt ) = arg m´ Rij.j se dice que la neurona en la posición (iopt . . aunque en menor medida.kl cierto umbral d que debemos determinar. S ← Número de épocas 4: for s = 1 to S do 5: w (1) ← w 6: for n = 1 to N do 7: Presentar el caso x(n) y calcular todas las activaciones ai . . . n. La descripción anterior. . j) y (k.4. . Este umbral no necesita ser fijo durante . 4. 1: N ← Número de ejemplos en la muestra de entrenamiento 2: η ← Parámetro aprendizaje .kl (14.21) las neuronas vecinas de la (i. y quienes consideramos vecinas. se alteran en orden a realzar su ventaja competitiva al responder a la observación xk. MAPAS AUTO-ORGANIZADOS (SOM) Algoritmo 3 – Entrenamiento de una RNA por back-propagation. Entonces. . 1} do 10: for j ∈ {Capa ℓ} do δj ← F ′ (aj ) k wkj δk 11: k ∈ Capa (ℓ + 1) 12: ∂E (n) /∂wji ← δj zi 13: end for 14: end for 15: ∇(E (n) ) ← [∂E (n) /∂w (n) ] 16: Actualizar los pesos mediante w (n+1) ← w (n) − η∇(E (n) ) 17: end for 18: w ← w (n+1) 19: end for 20: Devolver solucion en w. . l) como: d2 = |i − k|2 + |j − l|2 . Se presenta a la red cada uno de las observaciones xk de la muestra de entrenamiento {xk}. para hacerse más precias. debemos definir en la red una distancia entre neuronas. requiere especificar como es alteran los vectores de las neuronas “triunfantes” y sus vecinas. su vector de pesos (y. los de todas las neuronas vecinas).

j) triunfa al presentarle la ij.22) En la expresión anterior.kl como una función decreciente de d2 . (n) (n) (14. Maquinas de vectores soporte (SVM) Por escribir . j) y sus vecinas. La actualización de wkl tiene lugar sumándole una fraccióon de su discrepancia con la observación x(n+1) .kl (x(n+1) − wkl ). Definamos hij. típicamente mucho (n) menos que 1.148 CAPÍTULO 14. La regla de entrenamiento /14. modificamos los vectores de pesos de todas las demás así: wkl (n+1) = wkl + ηhij. sino que. cuando la neurona (i. con lo que el vector actualizado está más cerca de ésta.22) garantiza que neuronas próximas tendrán vectores de pesos parecidos. la haremos del modo que sigue.5. 14. como veremos. η es un parámetro de aprendizaje.kl hace que la actualización sea más intensa cuanto más cerca está la neurona k.kl decrece con dij.kl ). el parámetro hij.kl observación x(n+1) . Por lo que hace a la modificación de pesos de la neurona triunfante (i. j) (puesto que 2 hij. REDES NEURONALES ARTIFICIALES toda la duración del entrenamiento de la red. Entonces. Además de η. l) de la vencedora (i. ira por lo general disminuyendo.

4 examinaremos las estrategias de construcción de grupos.2. en la Sección 15. El objetivo es. el problema así formulado es muy vago y requiere formalización adicional para poder ser abordado de manera algorítmica. una tabla X de dimensiones N × p. e incluso cualquier combinación de dichos tipos. En principio.3. el i-ésimo de los cuales viene descrito por un vector xi. Introducción Consideramos un colectivo de N objetos. agruparlos en k grupos. Adicionalmente. lo que haremos en la Sección 15. sobre la base de los vectores observados. Hemos de precisar qué significa “parecerse” dos objetos —lo que nos llevará a definir nociones de similaridad (o alternativamente disimilaridad) entre objetos: esta cuestión se aborda en la Sección 15. necesitaremos extender las nociones de similaridad o disimilaridad anteriores a grupos. cualitativas o cualitativas ordenadas. 149 . La información de partida es pues. dado que en el proceso de examinar agrupamientos habremos de considerar la posibilidad de unir o separar grupos ya formados. como de costumbre. Naturalmente.1.Capítulo 15 Análisis de agrupamientos 15. Finalmente. las componentes de dicho vector pueden ser reales. de tal modo que los que se incluyen en cada grupo tengan más parecido entre sí que con los de otros grupos.

j) es realmente un caso particular. j) = ||xi − xj || = 2 2 k=1 (xik − xjk )2 .1) Obsérvese que esta noción de disimilaridad es dependiente de las escalas de medida: un cambio de unidades de medida en alguna o algunas de las variables altera las distancias entre objetos. j) → sup1≤k≤p |xik − xjk |. En ocasiones resulta más natural pensar en términos de similaridad. a calcular una distancia euclídea generalizada así: d2 (i. La definición más inmediata de disimilaridad entre xi y xj vendría proporcionada por la distancia euclídea ordinaria entre ambos. un refinamiento inmediato de la idea anterior consistiría en considera la distancia de Mahalanobis. j. con m = 2. sólo la mayor se toma en consideración. dando lugar a la distancia de Minkowskye parámetro m. tenemos que dm (i.2) en que D es una matriz diagonal cuyo elemento k. o. . (15. lo que es equivalente. adecuadas a situaciones diversas. j) = ||xi − xj ||2 = (xi − xj ) ′ Σ−1 (xi − xj ). ANÁLISIS DE AGRUPAMIENTOS 15. en otras en términos de disimilaridad.2. d2 (i. y de entre todas las discrepancias entre los objetos i. 15.150 CAPÍTULO 15. Σ Σ (15. (15. Una vía diferente de generalización de la distancia euclídea ordinaria deriva de observar que d(i.2. vistos como puntos en Rp : p d (i. Variables reales Consideremos en primer lugar el caso en que xi está integramente compuesto por variables reales. Cualquier valor 0 < m ≤ ∞ puede utilizarse.1. Si las p variables consideradas tienen correlación entre ellos. j) = k=1 |xik − xjk | m . Puede recurrirse a normalizar las variables antes de calcular la distancia euclídea entre objetos. la expresión anterior da lugar a otras distancias de interés. k contiene el inverso de la norma (euclídea) de la k-ésima columna de X.4) Además de identificarse con la distancia auclídea ordinaria cuando m = 2. j) = ||xi − xj ||2 = (xi − xj ) ′ D (xi − xj ) D D (15. Medidas de similaridad y disimilaridad entre objetos En lo que sigue se consideran diferentes medidas de similaridad o disimilaridad.3) con Σ igual a la matriz de covarianzas de las p variables (si fuera conocida) o una estimación de ella en el caso habitual de que no lo sea. de la definición más general: p 1/m dm (i. Cuando m → ∞. Cuando m = 1 tenemos la distancia “bloque de casas” o “Manhattan”.

más simple.1: Tabulación cruzada de valores de p variables dicotómicas en xi. por ser los más similares. j) = s(i. es decir. siendo ambas 0. MEDIDAS DE SIMILARIDAD Y DISIMILARIDAD 151 Cuadro 15. . Son muchas las posibilidades. Vemos que. Es preciso por tanto extender la noción de similaridad (o dismilaridad) entre objetos de manera que proporciona una noción homóloga para grupos.3.15. pudiendo tomar únicamente dos valores que convencionalmente designaremos por 0 y 1. están compuestos en su integridad por variables dicotómicas. de variables cualitativas dicotómicas. a+b+c+d (15. Medidas de similaridad y disimilaridad entre grupos No basta definir similaridad o disimilaridad entre objetos. En algunos algoritmos para la obtención de agrupamientos se requiere en algunas fases decidir qué dos grupos ya formados se amalgaman.2. j) = a+d a+b+c+d 2d a+b+c+d d . por ejemplo. Cuando los vectores xi y xj describiendo a los sujetos i.) A partir de los números tabulados en las cuatro casillas del Cuadro 15.5) (15.2. y para b + c variables hubo una discrepancia. j. Variables cualitativas nominales Consideremos el caso. 0 a c 1 b d 0 1 15. no hay valores faltantes.1 podemos definir similaridad de muy diversas formas. podemos construir una tabla de contingencia como la recogida en el Cuadro 15. xj .2. Podríamos hacer uso con estas variables de cualquiera de las definiciones en el apartado precedente. (Obviamente. j) = s(i. para a variables hubo una concidencia en los valores que toman en xi y xj . entre las que citaremos tres. Podemos por ejemplo considerar s(i. pero con frecuencia tiene sentido hacer uso de definiciones alternativas.6) (15.1.7) 15. Para d variables se verificó una coincidencia en el valor 1. a + b + c + d = p si todas las variables han sido registradas.

. A lo largo del proceso de aglomerado. ON d1N d2N d3N − Recorreremos dicha matriz en busca de la disimilaridad dij menor. . Oik } para indicar el grupo Gk contiene los objetos Oi1 . próximos. ANÁLISIS DE AGRUPAMIENTOS Cuando utilizamos ligadura simple(single linkage) definimos como disimilaridad entre dos grupos la disimilaridad entre los dos objetos. . .4.1. Los designaremos O1 . . 15. . Comenzamos computando la matriz de disimilaridad entre todos los objetos: O1 O1 O2 O3 . O3 }. Emplearemos la notación Gk = {Oi1 . Definimos como disimilaridad entre dos grupos la disimilaridad entre los dos objetos. es preciso que los representantes de ambos más disimilares estén próximos —lo que supone que todos los objetos de un grupo han de estar en la vecindad de todos los del otro. Inicialmente.. . . . . Estrategias de construcción de grupos 15. Todo lo que se requiere para que dos grupos estén próximos es una pareja de puntos. Supongamos que es la que corresponde a la pareja formada por O2 y O3 . menos disimilares entre sí... ON . Ligadura completa La ligadura completa ligadura completa(complete linkage) es el criterio diametralmwente opuesto. en la etapa t = 0 del proceso de agrupamiento. ON − O2 d12 − O3 d13 d23 − .4. Para que dos grupos estén próximos. . . su homóloga divisiva es similar con los cambios obvios. Procedimientos jerárquicos Estrategias aglomerativas o divisivas Examinaremos una estrategia aglomerativa. Oik . . todos los N objetos a agrupar se consideran separados.. uno en cada grupo... uno en cada grupo. más disimilares entre sí.. . A continuación eliminaremos las distancias en la fila y columna correspondientes a O2 y O3 y añadiremos una fila y columna correspondientes al grupo recién formado: ..152 Ligadura simple CAPÍTULO 15. los objetos se irán integrando en grupos. . . Tomaremos nota de dicha distancia y amalgamaremos ambos puntos para formar el grupo G1 = {O2 . uno en cada grupo. .

ON G1 − O2 − − O3 − − − . Si ésta corresponde a dos objetos. Dendrograma El proceso de amalgamado en una estrategia jerárquica puede representarse convenientemente mediante un dengrograma. . en cada etapa del proceso la relación entre dos grupos cualesquiera sólo puede ser de inclusión (uno totalmente contenido en otro) o de exclusión (ambos completamente disjuntos).G1 − 153 Obsérvese que han desaparecido de la matriz de disimilaridades todas aquéllas que involucraban directamente a los objetos =2 y O3 . y se calculan. Nótes que cada vex el número de columnas se reduce en uno.4. ON d1N − − − G1 d1. . . ESTRATEGIAS DE CONSTRUCCIÓN DE GRUPOS O1 O1 O2 O3 .1 ..15. Las distancias en la nueva columna lo son de un grupo a objetos. Si corresponde a una distancia entre un objeto aislado y un grupo ya formado. En todos los casos. por ejemplo.G1 − − dN... En efecto... El proceso finaliza cuando se amalgaman los objetos o grupos que asociados a las dos últimas columnas que subsistan. El procedimiento anterior se dice que es jerárquico. se amalgamarán en un nuevo grupo. en cuyo momento hemos creado un único agrupamiento que engloba a la totalidad de los objetos iniciales.. se amalgamará el objeto a dicho grupo.. R: Ejemplo 15. La nueva matriz de disimilaridades es de nuevo rastreada en busca de la menor.. . . y ha aparecido en cambio una nueva columna con las disimilaridades entre el grupo G1 —que engloba a los dos objetos citados— y todos los demás. de acuerdo con uno de los criterios relacionados en la Sección 15.3. tomamos nota de la distancia de amalgamado y actualizamos la matriz de disimilarirdades en aquéllos elementos que lo requieren y se continúa el proceso.

"average") 7 .5 1 Height 2.0 5 8 2 d hclust (*.154 CAPÍTULO 15.1: Agrupamiento jerárquico con distancia promedio de 10 puntos tomados al azar en R4 Cluster Dendrogram 3.5 4 3 1.0 2.0 6 1. ANÁLISIS DE AGRUPAMIENTOS Figura 15.

frecuente.2. . . . Xm ) = f (X). A.Apéndice A Cálculo diferencial. Definición A. tenemos que: ∂Y ∂X = 2A ′ X 155 . . Más detalles y demostraciones en Searle (1982) y Magnus and Neudecker (1988). Notación Haremos uso de las siguientes definiciones y notación.0. es inmediato comprobar que: ∂Y ∂X = (A + A ′ )X. de que A sea simétrica. En el caso.1 Sea X un vector m × 1 e Y una función escalar de X: Y = f (X1 .  ∂Y ∂Xm Si Y = X ′ AX siendo A una matriz cuadrada cualquiera.  ∂X  . Entonces:  ∂Y   ∂X1   ∂Y  ∂Y def  ∂X2  =  .   . Notación matricial. Hay aquí sólo una breve recopilación de resultados útiles.

=  . . ∂Y def  .   ∂X   ∂Y1 ∂Y2 . CÁLCULO DIFERENCIAL MATRICIAL Hay algunos casos particulares de interés. ∂Yn ∂X1   ∂X1 ∂X1  . siendo a un vector de constantes.2) (A.  . + am Xm . .   a1 ∂Y  . ∂Y ∂X = A ′.  . Algunos resultados útiles ∂X ′ AX ∂X ∂ loge |A| ∂A ∂tr(BA−1 C) ∂A = 2AX = A′ −1 (A.  = a. .1) (A. Si Y = a ′ X = a1 X1 + . vector m × 1.3) = −(A−1 CBA−1 ) . Definición A. ∂Yn ∂Xm ∂Xm ∂Xm A. .2 Sea Y una función vectorial n × 1–valorada de X.3. ∂X am si Y = AX.  . . . . . Entonces:   ∂Y1 ∂Y2 .0. siendo A una matriz (n × m) de constantes.  =  .156 APÉNDICE A. . .

61 3.79 1.58 3. Dinamarca Rep.81 20.73 3.51 10.12 10.55 28.02 45.11 10Km 28.61 3.78 154.91 13.51 28.33 Maratón 132.44 10.65 20.31 10.97 27.64 3.22 10.82 2.10 52.42 13.84 44.62 21.30 129.76 1.74 4.28 13.34 13.42 400m 46.40 400m 46.69 20.64 45.70 1.43 10.80 21.70 136.34 10.04 13. Dom.73 1.60 139.52 20.02 1.66 3.49 45.06 20.50 44.78 1.39 10.04 45.21 20.21 48.73 5Km 14.18 10.73 1.19 28.28 28.60 200m 20.21 13.65 20.56 48.30 135.73 1.64 10.82 200m 20.87 1.17 10.32 130.30 29.68 13.74 1.34 10.45 13.62 3.90 13.16 5Km 13.49 16.44 28.80 1500m 3.35 164.14 10.57 3.13 27.38 20.81 Maratón 137.80 1.43 12.82 1.81 1.87 132.37 20.51 3.58 20.Apéndice B Datos B.77 10Km 29.20 47. País Argentina Australia Austria Bélgica Bermuda Brazil Birmania Canada Chile China Colombia Cook-Islas Costa Checoslov.89 800m 1.68 20.24 3.70 14.58 131.27 13.26 10. Finlandia Francia RDA RFA UK Grecia Guatemala País Hungria India 100m 10.56 10.61 27.90 20.45 30.95 130.82 45.52 20.38 28.04 21.23 129.78 1.75 3.60 3.61 13.59 14.1.35 10.68 46.72 128.88 35.43 21.16 10.62 133.12 130.92 132.63 3.28 44.84 3.42 27.05 23.62 14.98 100m 10.94 10.53 131.80 1.81 28.50 14.66 27.62 30.15 134.79 1.91 45.80 45.53 3.30 46.71 21.17 13.89 46.33 20.72 27.09 29.81 20.74 1.22 20.22 10.76 1500m 3.11 10.70 3.03 13.03 133.84 46.71 3.45 27.73 800m 1.13 134.56 3.93 46.01 14.90 129.73 1.94 48.28 10.98 157 .73 1.58 134.60 3.45 30.13 139.57 3.66 45.11 31.26 13.81 1.20 21.76 1. Records atléticos de diversos países.77 1.52 27.55 13.95 146.22 14.87 44.49 13.11 10.82 3.85 3.39 27.30 45.

38 29.67 29.81 1.79 27.71 9.92 46.51 10.76 1.25 15.23 129.83 1.92 3.60 43.21 13.91 30.32 13.20 139.34 10.06 13.88 1.62 3.20 129.60 3.93 10.90 47.90 46.64 15.41 13.49 20.83 Fuente: Dawkins (1989) .54 3.13 13.01 31.28 10Km 30.79 1.98 45.76 1.76 1.17 20.77 1.36 30.42 10.56 28.64 3.96 14.74 1.55 3.77 3.55 131.56 13.30 47.81 28.86 44.78 46.11 13.70 46.27 154.62 4.38 27.59 10.73 1.07 32.98 131.55 10.36 13.73 1.60 3.158 País Indonesia Irlanda Israel Italia Japon Kenya Korea RD-Korea Luxemb.34 10.52 10.80 46.78 1.58 128.72 14.60 49.34 14.20 16.62 3.53 3.25 10.92 22.46 21.13 13.77 3.85 1.81 20.40 11.64 3.55 3.77 27.71 Maratón 148.Zelanda Noruega Papua-N.72 3.77 1.65 3.07 15.86 400m 47.29 21.10 46.27 149.26 45.16 21.10 46.75 136.91 47.24 21.74 1. DATOS 5Km 14.10 13.77 20.87 141.40 46.35 10.50 157.64 20. Malasia Mauricio Mexico Holanda N.67 3.37 10.67 3.61 10.79 1.29 13.94 27.G.75 2.08 128.41 10.89 21.46 13.39 10.53 34.40 45.22 14.66 20.57 130.63 45.58 27.50 128.35 137.30 47.64 14.00 19.72 20.80 3.42 10.66 13.88 21.87 47.69 31.96 21.56 3.43 27.74 13.01 3.82 1.95 27.23 13.27 131.71 47.77 20.82 200m 21.07 10.83 3.70 27.89 3.73 27.30 20.80 47.46 10.77 3.80 1.10 152.30 47.23 29.63 129.38 10.91 10.19 10.00 21.79 1.48 148.86 44.20 13.59 4.31 13.52 27.94 20.88 1.23 13.89 27.98 21.79 1.82 1.96 10.24 45.32 27.64 27.24 APÉNDICE B.29 13.80 45.10 45.73 13.79 1.02 1500m 3.71 10.70 45.36 46.55 3.65 132.55 161.75 20.72 27.90 1.16 10.22 145.02 128.83 3. Filipinas Polonia Portugal Rumania Singapur España Suecia Suiza Taiwan Tailandia Turquia USA USSR Samoa 100m 10.73 1.77 131.67 31.45 21.84 3.59 10.63 131.53 10.93 27.78 10.28 20.61 27.25 130.84 1.90 131.76 1.43 19.61 3.08 31.09 21.61 20.83 132.22 130.78 21.00 800m 1.95 20.01 10.79 1.

T. Breiman. Olshen. New York: Wiley. A. Neural Networks for Pattern Recognition. R. T. London: Chapman and Hall.: MIT Press. Friedman. C. (1990). (1980). (1996). (1997). C. 159 . London: Chapman & Hall. Modern Multidimensional Scaling. Wiley. Cox. Belmont. (1992). (1984). A. and Hinkley. (1974). Statistical Factor Analysis and Related Methods.. (1975). S. and Cox. Bishop. J. Métodos de Análisis Multivariante. Borg. 18. L. R. Pacific Grove. An Introduction to Multivariate Statistical Analysis. Cambridge. Chatfield. California: Wadsworth. J. Wiley.. Psychometrika.. Basilevsky. I. Introduction to Multivariate Analysis. M. and Hastie. and Stone. New York: Wiley. Y. P. C. Anderson.237 AND.. D. (1953). J. and Lewis. Outliers in Statistical Data. Fienberg. Bishop. Mass. Cox. D.: Wadsworth & Brooks/Cole. 1984th edition. Multidimensional Scaling. Discrete Multivariate Analysis. Barnett. V. Oxford: Clarendon Press. T. V. Signatura: 519. Classification and Regression Trees. T. Theory and Applications. (1978). and Holland. (1981). Barcelona: Eunibar. (1992). C. Chambers. and Collins. (1994).. Chapman and Hall. Theoretical Statistics. Categorical Data Analysis. 1979th edition. (1978). Theory and Practice. Ca. Carroll. Statistical Models in S.Bibliografía Agresti. A. P. Cuadras. and Groenen. 23–38. New York: Springer-Verlag. An analytic solution for approximating simple structure in factor analysis.

The American Statistician. Springer-Verlag. (1981). Objetivos. J. Generalized Procrustes Analysis.. (1984). Multivariate Analysis of National Track REcords. Biometrika. R. and Irani. 58. London: Prentice Hall. J. Hawkins. U. R. New York: Wiley. Bilbao: Servicio Editorial de la UPV/EHU. 110–115. Dawkins. Biometrika. and Fuchs. Fourgeaud. Machine Learning. Métodos e Interpretación. 43. (1975). 8. Tibshirani. (1980). A. 19. 1–41. School of Statistics. Springer Verlag. Hay traducción española de la tercera edición. N. On the handling of continuous-valued attributes in decision tree generation. 40. and Lugosi. L. of Chicago Press. Small Sample Probability Points for the D Test of Normality. and Goldstein. R. D. D. 219–221... Multivariate Analysis: Methods and Applications. Hand. (1984).8 HAS. (1971). Friedman. (1991). L. Giri. Data Mining. The Univ. Hastie. B. Análisis Factoriales Simples y Multiples. P. Garthwaite. Signatura: 519. The Analysis of Cross-Classified Categorical Data.. 33–51. Academic Press. and Jones. Devroye. D’Agostino. 87–102. Cambridge. Inference.. Fienberg. M.. and Prediction. Hand. Multivariate Adaptive Regression Splines. Harman. (1989). Statistical Inference. J. Psychometrika. Wiley. FIRM: Formal Inference-based Recursive Modeling. (2001). B. S. K. (1960).160 BIBLIOGRAFÍA D’Agostino. (1977). A Probabilistic Theory of Pattern Recognition. C. Annals of Statistics.237. (1967). and Pages. University of Minnesota. Dillon.8. B. Multivariate Statistical Inference. An Omnibus Test of Normality for Moderate and Large Sample Sizes. (1995). The Elements of Statistical Learning. (1992). Modern Factor Analysis. (1972). Mass. (1996).237. 59. Construction and Assessment of Classification Rules. Wiley. Statistique. Technical Report 546. W. Györfi. (1997). Escofier. J. Fayyad. Discrimination and Classification. G. H. and Friedman.: MIT Press. T. Gower. D. 341–348. Jolliffe. (1997). Signatura: 519. . Paris: Dunod. I.

BIBLIOGRAFÍA

161

Haykin, S. (1998). Neural Networks. A comprehensive Foundation. Prentice Hall, second edition. Kaiser, H. (1958). The varimax criterion for analytic rotation in factor analysis. Psychometrika, 23, 187–200. Kiefer, J. C. (1983). Introduction to Statistical Inference. New York: SpringerVerlag, 1987th edition. Kohonen, T. (1997). Self-Organizing Maps. Berlin: Springer-Verlag. Kooperberg, C., Bose, S., and Stone, C. J. (1997). Polychotomous Regression. Journal of the American Statistical Association, 92, 117–127. Krzanowski, W. (1988). Principles of Multivariate Analysis: A User’s Perspective. Oxford, Signatura: 519.23 KRZ. Lachenbruch, P. (1975). Discriminant Analysis. New York: Hafner Press. Lebart, L. (1997). Méthodes factorielles. In Thiria et al. (1997). Loh, W.-Y. and Vanichsetakul, N. (1988). Tree-Structured Clasification Via Generalized Discriminant Analysis. Journal of the American Statistical Association, 83, 715–728. Magnus, J. and Neudecker, H. (1988). Matrix differential calculus with applications in Statistics and Econometrics. Wiley. Mardia, K. (1974). Applications of some measures of Multivariate Skewness and Kurtosis for testing normality and Robustness Studies. Sankhya, B, 36, 115–128. Mardia, K., Kent, J., and Bibby, J. (1979). Multivariate Analysis. Academic Press. McCulloch, W. and Pitts, W. (1943). A logical calculus of the ideas immanent in nervous activity. Bulletin of Mathematical Biophysics, 5, 115–133. McLachlan, G. (1992). Discriminant Analysis and Statistical Pattern Recognition. Wiley. Peña, D. (2002). Análisis de Datos Multivariantes. McGraw-Hill. Plackett, R. (1974). The Analysis of Categorical Data. London: Griffin. Rencher, A. (1995). Methods of Multivariate Analysis. Wiley. Rencher, A. (1998). Multivariate Statistical Inference and Applications. Wiley. Ripley, B. (1996). Pattern Recognition and Neural Networks. Cambridge University Press, 519.237.8 RIP.

162

BIBLIOGRAFÍA

Robbins, H. and Monro, S. (1951). A stochastic approximation method. Annals of Mathematical Statistics, pp. 400–407. Rothkopf, E. (1957). A mesure of stimulus similarity and errors in some pairedassociate learning. Journal of Experimental Psychology, 53, 94–101. Royston, P. (1995). A Remark on Algorithm AS 181: The W Test for Normality. Journal of the Royal Statistical Soc., Ser. B, 44, 547–551. Rumelhart, D., Hinton, G., and Williams, R. (1986). Learning internal representations by error propagation. In D. Rumelhart and J. McClelland, editors, Parallel distributed processing: Explorations in the Microstructures of cognition, volume 1, pp. 318–362, MIT Press. Searle, S. (1982). Matrix Algebra useful for Statistics. Wiley. Seber, G. (1977). Linear Regression Analysis. New York: Wiley. Seber, G. (1984). Multivariate Observations. New York: Wiley. Shapiro, S. and Wilk, M. (1965). An analysis of variance test for normality (complete samples). Biometrika, 52, 591–611. Sibson, R. (1978). Studies in the Robustness of Multidimensional Scaling: Procrustes Statistics. Journal of the Royal Statistical Society, Ser. B, 40, 234–238. Stapleton, J. (1995). Linear Statistical Models. New York: Wiley. Therneau, T. and Atkinson, E. (1997). An Introduction to Recursive Partitioning using the RPART Routines. Technical report, Mayo Foundation. Thiria, S., Lechevallier, I., Gascuel, O., and Canu, S., editors (1997). Statistique et méthodes neuronales, Dunod. Trocóniz, A. F. (1987a). Modelos Lineales. Bilbao: Serv. Editorial UPV/EHU. Trocóniz, A. F. (1987b). Probabilidades. Estadística. Muestreo. Madrid: TebarFlores. Zhang, H. and Singer, B. (1999). Recursive Partitioning in the Health Sciences. Springer-Verlag, Signatura: 519.233.5 ZHA.

Índice alfabético

R(T ) ˆ estimador por resustitución, R(T ), 131 estimador por validación, Rcv (T ), 131 estimador por validación, Rts (T ), 131 tasa de error en árboles, 129 tasa de mala clasificación en árboles, 129 R(t) tasa de error en un nodo, 129 árbol binario, 125 de clasificación, 125, 126 de regresión, 125 FACT, 135 FIRM, 135 nodo, 125 nodos terminales, 125 raíz, 125 índice de Gini, 128 de impureza de un nodo, 128 outliers en distribuciones normales, 32 activación función de, 139 algoritmo de reescalado iterativo , 89 aprendizaje

d, 141 atributos, 83 back-propagation e, 145 binario árbol, 125 caracteres, 83 clasificación mediante árboles binarios, 126 componentes principales, 59 contraste razón generalizada de verosimilitudes, 42 contraste de hipótesis sobre el vector de medias de una población normal, 37 D’Agostino contraste de normalidad, 30 dengrograma agrupamiento jerárquico, 153 descomposición en valores singulares, 77 discriminación con costes variables, 112 con información a priori, 110 con más de dos grupos, 112, 115 con variables normales, 113 máximo verosímil, 109 regla lineal de Fisher, 115 discriminante, análisis tasa de error aparente, 120

163

123 FACT. 73 muestreo de Poisson varimax . 145 d. 125 Gini.. 135 MANOVA factorial con un tratamiento. 146 Lawley-Hotelling contraste. 31 . 128 índice de. 152 ligadura simple . 128 contraste de Shapiro-Wilk. 74 matriz rotación de proximidades. 84 rotación. 27. 145 ÍNDICE ALFABÉTICO impureza de los nodos de un árbol. 135 . 83 generalizadas. 47 estimación por el método del fac. 101 quartimax. 102 distancia de Minkowsky d. 148 Mahalanobis distancia. 146 tor principal. 85 formas cuadráticas niveles. 32 litud. 85 Fisher muestreo producto-multinomial discriminante lineal. 61 entrenamiento o. 101 distancia de Mahalanobis..164 disimilaridad.mapas auto-organizados. 115 . índice terminal. 45 nodo Gini impureza. 27 Eckart-Young teorema. 128 impureza de un nodo. 30 contraste de normalidad.normalidad les. 128 excitación d. 152 máquinas de vectores soporte. 128 raíz. 141 entropía como medida de impureza en árboles. 31 contraste de Gnanadesikan y Ketgradiente local tenring. 45 modelo más de un tratamiento. lambda de. 128 jerárquico método de agrupamiento. 150 distribución Wilks.. 123 euclídea. 73 muestreo multinomial FIRM. 47 ligadura completa . 74 Mardia estimación por máxima verosimicontraste de normalidad. 125 como medida de impureza en árbo. 153 Kohonen mapas auto-organizados. 30 Gnanadesikan y Kettenring contraste de D’Agostino.

77 varimax rotación.ÍNDICE ALFABÉTICO contraste de Mardia. 121. 27. 137 RNA. 47 self-organizing maps. 142 paradoja de Simpson „ 84 perceptrón „ 139 -. 47 Procrustes análisis. 73 Roy contraste. 97 proximidades matriz de. 141 Pillai contraste. 61 validación cruzada. 131 valores singulares descomposición. 146 sumas de cuadrados generalizadas. SOM ). 148 verosimilitud razón generalizada. 30 similaridad. 77 SVM. 146 Shapiro-Wilk contraste de normalidad. 120 teorema de Eckart-Young. 30 parámetro de aprendizaje p. 72 procrustes. 73 red neuronal. 137 rotación ortogonal. 27 165 . 129 tasa de error aparente en discriminación. 101 quartimax rotación. 97 quartimax. 47 máxima raíz. 32 contrastes multivariantes. 148 tabla de contingencia . 45 sumas de cuadrados generalizadas. 73 varimax. 73 vectores soporte. 46 SVD descomposición en valores singulares. 101 SOM. 42 Wilks distribución Λ. 83 tasa de error en árboles.

You're Reading a Free Preview

Descarga
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->